5 - Analisis Regresi Terbaik

BAB V.
PEMILIHAN PERSAMAAN REGRES1 TERBAIK

5.1 Pendahuluan
Dalam pembicaraan ini akan dibahas penterapan beberapa prosedur statistika tertentu
untuk menentukan variabel yang akan dimasukkan ke dalam regresi untuk mendapatkan
persamaan regresi penduga yang terbaik artinya suatu persamaan regresi penduga yang
mempunyai persamaan yang paling fit. Misalkan ingin menentukan pendugaan suatu
persamaan regresi linier dengan variabel tak bebas Y tertentu atau Y terhadap variabelvariabel bebas Xi atau variabel peramal X1, X2, . . . , Xp merupakan sekumpulan lengkap
variabel bebas X yang diperlukan dan mencakup sembarang fungsi, seperti linier, kuadrat,
hasil kali, logaritmik, fungsi kebalikan, dan fungsi perpangkatan, serta fungsi-fungsi lainnya.
Dalam kaitan penduga yang terbaik ada dua kriteria yang saling bertentangan seperti:
1).
Agar persamaan bermanfaat bagi tujuan peramalan atau pendugaan, biasanya ingin
memasukkan sebanyak mungkin variabel bebas Xi sehingga diperoleh nilai ramalan
atau dugaan yang dapat diandalkan.
2).
Karena untuk memperoleh informasi dari sebanyak mungkin variabel bebas Xi serta
pemonitornya seringkali diperlukan biaya yang cukup tinggi, maka diperlukan agar
persamaan regresi penduganya mencakup sesedikit mungkin variabel bebas Xi yang
dimasukkan dalam persamaan.
Kompromi antara kedua ketentuan 1) dan 2) di atas yang biasanya disebut pemilihan
persamaan regresi penduga yang terbaik, maka dalam mengambil keputusan untuk hal-hal
seperti tersebut tidak ada satu prosedur statistikapun yang dapat dipakai sebagai pedoman
2
untuk hal di atas.
Kalau telah diketahui besarnya (Ragam Regresi Residual
sesungguhnya) maka untuk masalah pemilihan persamaan regresi penduga terbaik akan
jauh lebih mudah. Sayangnya, dalam kenyataan ini tidak pernah terjadi, sehingga penilaian
yang bersifat pribadi merupakan suatu hal yang tidak terelakkan dari metode-metode
analisis pemilihan regresi penduga yang terbaik.
Prosedur yang akan digunakan dalam pemilihan persamaan regresi terbaik adalah:
1).
2).
3).
3).
4).
5).
6).
semua kemungkinan regresi yang dapat dibuat (all possible regression) dengan
2
2
menggunakan tiga kriteria yaitu: R , S , dan Cp Mallow;
regresi himpunan bagian terbaik (best subset regression) dengan menggunakan
2
2
standar R , R (terkoreksi), Cp Mallow; dan eliminasi langkah mundur;
regresi bertatar (stepwise regression);
regresi gulud (ridge regression);
regresi komponen utama (principal components regression);
regresi akar ciri (latent root regression); dan
regresi bertahap (stagewise regression).
Dalam pembicaraan selanjutnya, akan dijelaskan hanya beberapa prosedur saja yang
banyak digunakan. Akan tetapi, sering membingunkan, karena metode-metode yang
apabila diterapkan pada masalah yang sama tidak selalu menghasilkan jawaban yang
sama. Hal ini jelas membingungkan.
124
PDF created with pdfFactory Pro trial version www.pdffactory.com
Apabila penyelesaian perhitungan regresi pada data yang tidak dirancang terlebih dahulu
atau data yang diperoleh dari operasi yang sedang berjalan atau survei, dan data bukan
yang berasal dari suatu percobaan yang terancang, maka beberapa masalah yang secara
potensial akan dapat timbul. Masalah yang timbul seperti yang dibicarakan oleh G.E.P.
Box di dalam "Use and abuse of regression", Technometrics (1966). Sehingga, Residual
atau Galat Regresi dalam model mungkin tidak bersifat acak, namun merupakan pengaruh
hubungan beberapa variabel yang tidak disertakan dalam persamaan regresi atau bahkan
tidak diukur, yang sering diistilahkan dengan variabel latent atau variabel bentukan atau
variabel tersembunyi.
Kelemahan dalam adanya variabel laten yaitu:
1). Kemungkinan terjadinya bias dalam masalah dugaan koefisien regresi bi yang disebut
pengaruh palsu suatu variabel bebas X. Pengaruh palsu suatu variabel bebas X
mungkin saja disebabkan oleh variabel laten yang tidak terukur. Akan tetapi, karena
variabel laten tidak terukur, perubahan yang terjadi tidak diketahui atau dicatat.
Perubahan yang terjadi ini mungkin saja menyebabkan persamaan regresinya menjadi
tidak terandalkan.
2). Kekurangan lain pada data yang tidak dirancang dengan baik adalah bahwa seringkali
variabel peramal Xi yang paling efektif dikendalikan agar berada dalam kisaran yang
sangat sempit untuk mempertahankan respon Y agar tetap berada dalam batas-batas
spesifikasi yang dikehendaki. Kisaran yang terlalu kecil pada gilirannya akan
menyebabkan koefisien regresinya bi tidak nyata (non significant), suatu kesimpulan
yang dianggap lucu, karena pada dasarnya variabel tersebut adalah efektif. Hal Ini
mudah dipahami, sebab jika suatu variabel bebas X yang efektif tidak banyak
divariasikan, maka pengaruhnya akan kecil sekali atau bahkan tidak terlihat.
3). Masalah lain dengan data yang tidak dirancang adalah bahwa aturan
pengoperasiannya misalnya jika Xi terlalu tinggi pengaruhnya, turunkan X2 untuk
mengimbanginya sehingga sering menyebabkan korelasi yang tinggi diantara variabelvariabel peramal X tersebut. Ini membuat tidak mungkin untuk melihat apakah
perubahan dalam Y berkaitan dengan X1 atau X2 atau keduanya. Percobaan yang
dirancang secara seksama dapat menghapuskan ketidakjelasan seperti tersebut di
atas.
5.2 Prosedur dalam Pemilihan Persamaan Regresi Terbaik

5.2.1 Semua kemungkinan regresi yang dapat dibuat (all possible regression)
Semua kemungkinan regresi yang dapat dibuat, prosedur ini tidak praktis dan
tidak mungkin dilakukan tanpa bantuan komputer yang berkecepatan tinggi. Itulah
sebabnya prosedur ini baru digunakan setelah akses dengan komputer berkecepatan tinggi
dapat dilakukan sehingga relatif gampang dilakukan. Prosedur dari semua kemungkinan
regresi yaitu:
Pertama-tama prosedur ini menentukan semua kemungkinan persamaan regresi yang
melibatkan semua variabel bebas X1, X2, . . . , dan Xp. Karena setiap variabel bebas Xi
mungkin berada di dalam atau di luar persamaan, maka jumlah seluruh persamaan yang
k
dapat dibuat ada sebanyak 2 persamaan termasuk bo sebagai koefisien dari X0 yang
nilainya = 1; sehingga suku X0 selalu ada di dalam persamaan.
125
Jadi, jika p = 3, di mana p adalah jumlah variabel bebas Xi, tidak termasuk X0 maka jumlah
3
persamaan yang mungkin dapat dibuat dari p = 3 adalah sebanyak 2 = 8 seperti berikut:
1).
2).
3).
4).
=
=
=
=
b0
b0 + b1 X1
b0 + b2 X2
b0 + b3 X3
5). = b0 + b1 X1 + b2 X2
6). = b0 + b1 X1 + b3 X3
7). = b0 + b2 X2 + b3 X3
8). = b0 + b1 X1 + b2 X2 + b3 X3
Apabila jumlah variabel bebas Xi sebanyak p = 10, maka dapat dibuat jumlah persamaan
10
penduga yang cukup besar yaitu sebanyak 2 = 1024 buah persamaan yang dapat dibuat;
suatu hal yang luar biasa dan tidak mungkin ditelaah secara teoritis.
Untuk memilih persamaan penduga yang terbaik, maka seharusnya setiap persamaan
regresi penduga dievaluasi menurut kriteria tertentu; dengan kriteria yang telah disebutkan
dimuka yaitu:
1).
2).
3).
Nilai R yang dicapai.

2
Nilai S yaitu jumlah kuadrat sisa regresi.
Nilai Statistik Cp.
2
Nilai R , S , dan Cp Mallow yang akan dibahas kemudian.

Sesungguhnya ketiga kreteria di atas saling berkaitan. Penentuan persamaan mana yang
paling baik untuk dipilih, maka dilakukan evaluasi dari pola yang dianalisis. Sebagai contoh
data yang akan digunakan mempunyai empat variabel peramal X; berasal dari buku A. Hald
Statistical Theory with Engineering Applications, yang diterbitkan oleh Wiley, New York,
pada 1952. Masalah ini terutama dipilih karena mengilustrasikan beberapa kesulitan yang
biasanya terjadi dalam analisis regresi berganda. Data lengkapnya diberikan pada contoh
olahan di bawah ini.
Suatu contoh analisis regresi dengan empat variabel bebas Xi yang dilambangkan dengan
X1, X2, X3, dan X4, serta variabel responsnya adalah Y = X5. Koefisien regresi o selalu
4
disertakan dalam model. Jadi, seluruhnya terdapat 2 = 16 persamaan regresi yang akan
dilibatkan dalam analisis regresi semua kemungkinan regresi yang dapat dibuat seperti
pada Tabel 5.1 berikut ini.
2
1. Evaluasi dengan menggunakan Statistik R

2
Dalam penggunaan statistik R dapat diuraikan berdasarkan ketentuan keriteria adalah:

[A].
Pengelompokkan persamaan-persamaan regresi tersebut ke dalam lima kelompok:
(1)
kelompok A yang terdiri atas satu persamaan regresi dengan hanya melibatkan nilai
tengah yaitu (E(Y) = o);
(2)
kelompok B yang terdiri atas empat persamaan regresi dengan satu variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi);
(3)
kelompok C yang terdiri atas enam persamaan regresi dengan dua variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj;
126
(4)
kelompok D yang terdiri atas empat persamaan regresi dengan tiga variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk; dan
(5)
kelompok E yang terdiri atas satu persamaan regresi dengan empat variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk + l Xl.
[B]. Urutkan persamaan regresi dalam setiap kelompok menurut besarnya kuadrat oefisien
2
korelasi berganda atau koefisien determinasi R yang di capai.
[C]. Periksalah persamaan regresi dari urutan pertama dalam setiap kelompok dan lihatlah
apakah ada suatu pola variabel yang terurut secara konsisten dalam persamaanpersamaan tersebut.
Tabel 5.1
No,
1
2
3
4
5
6
7
8
9
10
11
12
13
Rata-rata
Data pengamatan
X1
7,000
1,000
11,000
11,000
7,000
11,000
3,000
1,000
2,000
21,000
1,000
11,000
10,000
7,462
X2
26,000
29,000
56,000
31,000
52,000
55,000
71,000
31,000
54,000
47,000
40,000
66,000
68,000
48,154
X3
6,000
15,000
8,000
8,000
6,000
9,000
17,000
22,000
18,000
4,000
23,000
9,000
8,000
11,769
X4
Y = X5
60,000
52,000
20,000
47,000
33,000
22,000
6,000
44,000
22,000
26,000
34,000
12,000
12,000
30,000
78,500
74,300
104,300
87,600
95,900
109,200
102,700
72,500
93,100
115,900
83,800
113,300
109,400
95,423
Persamaan yang dapat dibuat dari data di atas adalah:

Persamaan kelompok [A] tanpa peubah bebas X
1)
= X5 = 62,4
Persamaan kelompok [B], satu peubah bebas X
2
1)
= X5 = 118,0 0,738 X4
R = 67,5
2
2)
= X5 = 57,4 + 0,789 X2
R = 66,6
2
3)
= X5 = 81,5 + 1,87 X1
R = 53,4
2
4)
= X5 = 110,0 1,26 X3
R = 28,6
Persamaan kelompok [C], dua peubah bebas X
1)
= X5 = 52,6 + 1,47 X1 + 0,662 X2
2)
= X5 = 103,0 + 1,44 X1 0,614 X4
3)
= X5 = 131,0 - 1,20 X3 0,725 X4
4)
= X5 = 72,1 + 0,731 X2 1,01 X3
5)
= X5 = 94,2 + 0,311 X2 0,457 X4
6)
= X5 = 72,3 + 2,31 X1 + 0,494 X3
R
2
R
2
R
2
R
2
R
2
R
=
=
=
=
=
=
127
97,9
97,2
93,5
84,7
68,0
54,8
Persamaan kelompok [D], tiga peubah bebas X

1)
= X5 = 48,2 + 1,70 X1 + 0,657 X2 + 0.250 X3
2)
= X5 = 71,6 + 1,45 X1 + 0,416 X2 0,237 X4
3)
= X5 = 112,0 + 1,05 X1 0,410 X3 0,643 X4
4)
= X5 = 204,0 0,92 X2 1,450 X3 1,560 X4
R
2
R
2
R
2
R
Persamaan kelompok [E], empat peubah bebas X

1)
= X5 = 62,40 + 1,55 X1 + 0,510 X2 + 0,102 X3 0,144 X4
=
=
=
=
98,2
98,2
98,1
97,3
2
R = 98,2
Untuk contoh olahan di atas persamaan regresi yang menduduki posisi utama dalam setiap
kelompok dan terurut seperti pada Tabel 5.2 berikut.
Tabel 5.2 Variabel dalam Persamaan Regresi
Kelompok
Variabel di dalam Persamaan Regresi
B
C
D
E
=
=
=
=
=
f (X4)
f(X1, X2) dan
f(X1, X4)
f(X1, X2, X4)
f(X1, X2, X3, X4)
(%) R
67,5%
97,5%
97,2%
98,2%
98,2%
Dari uraian di atas terlihat bahwa dalam kelompok C yang terdiri ats dua persamaan yang
2
mempunyai nilai R yang relatif sama. Kalau disimak lebih lanjut hasil tersebut maka akan
terlihat bahwa setelah dua variabel masuk ke dalam persamaan regresi penduga, maka
2
tambahan besarnya R sangat kecil.
Pemeriksaan matriks korelasi data tersebut
memperlihatkan bahwa (X1 dan X3) serta (X2 dan X4) mempunyai korelasi yang tinggi
yaitu r13 = - 0,8241 dan r24 = - 0,9730 seperti Tabel 5.3 berikut di bawah ini.
Tabel 5.3 Matriks Koefisien Korelasi
X1
X2
X3
X4
X5
X1
1,0000
,2285
-,8241
-,2454
.7307
X2
X3
X4
X5
1,0000
-,1392
-,9730
.,8163
1,0000
,0295
-,5357
1,0000
-,6213
1,0000
Akibatnya, apabila memasukkan variabel lain ke dalam persamaan penduga yang di

dalamnya sudah ada variabel X1 dan X2 atau X1 dan X4, akan mengambil sedikit sekali
keragaman yang belum terjelaskan di dalam variabel respons Y. Ini terlihat jelas dari
2
nilai R yang hanya naik sedikit sekali dari kelompok C ke kelompok D. Demikian pula,
2
kenaikan nilai R dari kelompok D ke kelompok E sangat kecil sekali. Hal ini dapat
dipahami sebab variabel-variabel X itu merupakan campuran dan jumlah nilai-nilai X untuk
setiap titik pengamatan yang hampir konstan antara 95 dan 99.
Selanjutnya, persamaan manakah yang patut dipilih untuk ditinjau lebih jauh?. Maka yang
jelas adalah dalam kelompok C, tetapi yang mana dari kelompok tersebut?. Jika f(X1 dan X2)
yang dipilih, maka ada sedikit ketidak konsistenan. Sebab persamaan terbaik dengan satu
variabel peramal adalah yang menyertakan X4 setelah persamaan yang terbaik. Karena
alasan ini maka sebaiknya dipilih f(X1 dan X4).
128
Prosedur pemiliahan dan pemeriksaan persamaan regresi penduga yang mungkin terjadi
ternyata tidak memberikan jawaban yang tegas bagi masalah pemilihan regresi terbaik
seperti diuraikan tersebut di atas. Informasi lain seperti pengetahuan tentang ciri-ciri produk
yang diteliti dan peranan sifat fisik variabel-variabel Xi harus ditambahkan untuk dapat
mengambil keputusan yang tepat dalam pemilihan persamaan regresi penduga yang terbaik
dan yang berguna. Cara pemilihan persamaan regresi yang cepat adalah melalui seluruh
kemungkinan kelompok persamaan regresi yang ada untuk menemukan persamaan regresi
2
yang mempunyai koefisien korelasi berganda R yang terbesar dalam setiap kelompoknya.
2
2. Evaluasi dengan menggunakan Kuadrat Tengah Sisa (Varians Sisa = S )

2
Bila jumlah sampel cukup besar evaluasi terhadap rata-rata Kuadrat Tengah Sisa (S )
untuk setiap kelompok seringkali dapat menunjukkan titik pemisah bagi banyaknya variabel
yang sebaiknya diikut sertakan dalam persamaa regresi. Berdasarkan pada analisis di atas
berbagai Kuadrat Tengah Sisa untuk masing-masing kelompok dengan k variabel, di mana
k adalah banyaknya parameter yang ada dalam model termasuk 0. Di mana k = p + 1;
seperti Tabel 5.4 di bawah ini.
Tabel 5.4 Nilai Kuadrat Tengah Sisa dan Rata-ratanya
2
Kuadrat Tengah Sisa
Rata-rata S (p)
115,06; 82,39; 176,31; 80,35
113,53
5,79; 122,71; 7,48; 41,54; 86,89; 17,57
47,00
5,35;
5,33;
5,65;
8,.20
5,98
6,13
5,98
Misalnya 17,57 adalah Kuadrat Tengah Sisa yang diperoleh dari model yang mengandung X3 dan X5.
Bila jumlah variabel bebas Xi yang potensial dalam model cukup besar, misalnya p lebih
besar dari sepuluh, dan jika banyaknya sampel pengamatan jauh lebih besar dari p,
2
misalnya 5p atau l0p, maka sebaran S (p) seringkali sangat informatif. Pendugaan
persamaan regresi yang melibatkan lebih banyak variabel peramal Xi daripada yang
dibutuhkan untuk memperoleh persamaan yang memuaskan disebut overfitting. Semakin
banyak variabel peramal Xi ditambahkan ke dalam persamaan yang telah overfitted,
Kuadrat Tengah Sisanya akan cenderung stabil dan mendekati nilai Jumlah Kuadrat Sisa
2
Regresi yang sebenarnya, asalkan semua variabel yang penting telah disertakan dalam
model dan jumlah pengamatan jauh lebih besar daripada banyaknya variabel peramal Xi
yang ada dalam persamaan regresi penduga.
Sebaliknya, untuk jumlah sampel yang tidak begitu banyak tidak boleh terlalu berharap
bahwa persyaratan yang dikemukakan di atas dapat diterapkan secara efektif. Namun
2
dapat dipakai petunjuk kasar bahwa sebaran rata-rara S (p) memperlihatkan gambaran
yang relatif stabil, apabila jumlah variabel relatif banyak.
3. Evaluasi dengan menggunakan Statistika Cp Mallow
Sebuah nilai statistika lain yang dapat menjelaskan pemilihan persamaan regresi penduga
yang terbaik di tahun-tahun belakangan ini adalah Statistika Cp, yang pada awalnya
dikemukakan oleh C.L. Mallows. Staristika ini mempunyai bentuk:
2
Cp = ]K Sk/S - (n - 2k)
129
Dalam hal di atas ]K Sk adalah Jumlah Kuadrat Sisa dari model yang mengandung k
parameter, di mana k adalah banyaknya parameter dalam model termasuk 0, sehingga k =
2
p + 1, dan S adalah Kuadrat Tengah Sisa dari persamaan terbesar yang dipostulatkan
mengandung semua nilai Xi, dan diasumsikan merupakan nilai dugaan takbias yang
2
terandalkan bagi Ragam Galat . Seperti yang dinyatakan oleh R.W. Kennard, bahwa Cp
2
2
2
berkaitan erat dengan statistik koefisien determinasi R terkoreksi (adjusted R = Ra ) dan
2
Statistik ini juga berkaitan dengan statistik koefisien determinasi R .
Jika suatu persamaan dengan p variabel bebas Xi sudah memadai, artinya tidak
2
menderita akibat dari ketidakpasan model, di mana nilai harapan E(JK Sk) = (n - k) .
2
2
2
Karena juga diasumsikan bahwa E(s ) = , maka nisbah JK Sk/S mempunyai nilai
2
2
harapan (n - k) / = n - k, sehingga E(Cp) = k.
Dengan demikian sebaran Cp vs p akan memperlihatkan model-model yang memadai
sebagai titik-titik yang cukup dekat pada garis Cp = p. Persamaan-persamaan regresi yang
kurang baik karena keridakpasan model, dengan kata lain persamaan yang berbias akan
menghasilkan titik-titik yang jauh di atas atau seringkali jauh di atas garis Cp = p.
Nilai yang tinggi dari Cp pada setiap titik sebaran mempunyai arti penting, sebab dapat
menunjukkan atau merupakan nilai dugaan bagi Jumlah Kuadrat Simpangan (Ragam Galat
plus Galat Bias) dari persamaan regresi penduga sebuah model yang sebenarnya
yang tidak diketahui.
Semakin banyak data diikut disertakan dalam model untuk dapat menurunkan nilai JK Sp,
didapatkan nilai dari Cp semakin tinggi. Sehingga model terbaik dapat ditentukan setelah
memeriksa sebaran nilai Cp. Sebenarnya yang dicari adalah persamaan regresi dengan
nilai Cp yang rendah yang sama dengan p. Bilamana yang dipilih tidak jelas, maka
merupakan penilaian yang bersifat pribadi untuk memilih dari persamaan yang diinginkan:
1).
Persamaan yang bias yang tidak mewakili data maupun karena JK Sp-nya lebih besar
(sehingga Cp > p) namun memiliki Cp yang lebih kecil daripada yang lain, sehingga
Cp merupakan nilai dugaan bagi Simpangan Total (Ragam Galat plus Galat Bias) dari
model sebenarnya yang tidak diketahui, atau
2).
Persamaan dengan parameter lebih banyak sehingga mempunyai Goodnees of Fit

(kecocokan) yang lebih baik terhadap data artinya nilai Cp = p namun mempunyai
Simpangan Total (Ragam Galat plus Galat Bias) yang lebih besar dari model
sebenarnya dan tidak diketahui. Dengan kata lain, model yang lebih kecil cenderung
mempunyai nilai Cp yang lebih kecil pula, namun model yang lebih besar (dengan p
yang lebih besar) cenderung mempunyai Cp yang lebih dekat pada p.
Suatu pernyataan dari acuan yang disebutkan terakhir ini adalah bahwa Cp tidak mungkin
diharapkan dapat menghasilkan satu persamaan terbaik bila datanya secara intrinsik
memang tidak memadai untuk mendukung kesimpulan yang kuat. Begitu pula dengan
prosedur seleksi pemilihan persamaan yang terlaik lainnya. Bahwa semua prosedur seleksi
pada hakikatmya adalah metode untuk menunjukkan dan menyimak kembali secara teratur
data yang dimiliki.
Apabila diterapkan prosedur-prosedur itu dengan baik dapat memberikan hasil yang
bermanfaat. Sebaliknya, penerapan secara ceroboh dan atau secara mekanis, mungkin
dapat menyebabkan prosedur itu tidak berguna atau bahkan menyesatkan.
130
Telaahan penggunaan Statistik Cp dari data di atas. Untuk data dengan n = 13 dan
2
s = 5,983 dari model yang menyertakan keempat variabel peramal Xi. Misalnya
untuk model Yi = bo + biXi + e (k = 5 termasuk bo), memperoleh persamaan dengan nilai
Cp manjadi: Cp = 1265,687/5,983 - (13 - 4) = 202,5.
Perhatikan bahwa untuk persamaan dengan semua variabel peramal disertakan
di dalamnya, Cp = p, harusnya demikian menurut definisi, sebab dalam hal ini
2
JK Sp = (n - p)S .
5.2.2 Regresi Himpunan Bagian Terbaik (Best Subset Regression)

Sekarang dengan sudah tersedia solusi komputer yang sangat cepat untuk memilih
himpunan bagian terbaik dari variabel-variabel peramal Xi dalam analisis regresi berganda.
Salah satu yang populer adalah yang dapat menghitung hanya sebagian dari semua
kemungkinan regresi dalam menentukan himpunan bagian terbaik dengan menggunakan
Solf-Wares Minitab 13.0.
Tiga kriteria dapat digunakan untuk menentukan himpunan bagian terbaik yaitu:
2
1). Nilai R maksimum,

2
2). Nilai R terkoreksi maksimum, dan
3). Statistik Cp Mallows.
Dalam paket program Minitab 13.0 terdapat sebuah subprogram yang diberi nama All
Possible Subsets Regression yaitu semua kemungkinan regresi himpunan bagian.
Pengguna tinggal memasukkan bilangan q dan kriteriumnya dan selanjutnya program akan
menghasilkan q persamaan regresi terbaik dari semua kemungkinan regresi terbaik.
Keluaran komputer di bawah ini mencantumkan ketiga Statistik di atas namun pemilihan
persamaan regresinya didasarkan pada kriterium yang dipilih.
Program ini juga
menghasilkan q regresi terbaik dengan satu variabel peramal, q regresi terbaik dengan dua
variabel peramal, dan seterusnya sampai persamaan regresi yang mencakup semua
variabel peramal.
Jika nilai q melebihi banyaknya persamaan dalam setiap himpunan bagian, maka semua
persamaan dalam himpunan bagian itu akan dicantumkan. Nilai ketiga kriteria dicantumkan
2
namun persamaan-persamaan regresi itu dipilih berdasarkan nilai R .
Prosedur ini mempunyai beberapa kelemahan:
1). Cenderung menghasilkan persamaan regresi dengan terlalu banyak variabel peramal.
2). Jika q diambil terlalu kecil, persamaan regresi yang paling masuk akal untuk dipilih
mungkin malah tidak muncul dalam himpunan q-terbaik walau mungkin muncul
di tempat lain.
3). Belum ada informasi tercetak yang dengan mudah dapat diperoleh mengenai
bagaimana berbagai himpunan bagian dapat diperoleh. Meskipun demikian, program
semacam ini besar manfaatnya dan direkomendasikan penggunaannya dalam
kaitannya dengan metode regresi bertatar (stepwise regression), jika pemeriksaan
persamaan regresi di sekitar regresi yang terbaik dikehendaki.
Sebagai teladan perhatikan contoh analisis di bawah ini.
131
Best Subsets Regression

Y = X5 versus X1, X2, X3, and X4.
Response is Y = X5
Tabel 5.5 Nilai R-Sq, R-Sq (adj), C-P Mallow, dan Sisa Regresi (S)
Vars
R-Sq
Klompok B
1
67,5
1
66,6
1
53,4
1
28,6
Klompok C
2
97,9
2
97,2
2
93,5
2
84,7
Klompok D
3
98,2
3
98,2
3
98,1
3
98,3
Klompok E
4
98,2
R-Sq
(adj)
C-p
Mallows
X
1
64,7
63.8
49,5
22,6
156,2
160,4
228.0
354,7
8,5823
8,6907
10,270
42,713
97,5
96,7
92,4
81,9
2,9
6,1
25,0
60,1
2,2944
2,6070
3,9970
6,1455
X
X
97,7
97,8
97,6
96,5
3,0
3,0
3,6
7,9
2,1903
2,1934
2,2547
2,7169
X
X
X
97,5
5,0
2,3061
X
2
X
3
X
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Keterangan:
R-Sq = R2 = koefisien determinasi
R-Sq (adj) = R 2 = koefisien determinasi terkoreksi
5.2.3 Prosedur Eliminasi Langkah Mundur (The Backward Elimination Procedure):

Eliminasi langkah mundur mulai dengan regresi terbesar dengan menggunakan semua
variabel bebas Xi, dan secara bertahap mengurangi banyaknya variabel di dalam
persamaan sampai suatu keputusan dicapai untuk menggunakan persamaan yang
diperoleh dengan jumlah variabel tertentu. Metode eliminasi langkah mundur lebih
ekonomis dibandingkan dengan metode semua kemungkinan regresi yang ada, dalam
pengertian bahwa metode ini mencoha memeriksa hanya regresi terbaik yang
mengandung sej'umlah tertentu variabel bebas Xi.
Langkah-langkah dalam prosedur ini adalah sebagai berikut:
1).
2).
Menghitung persamaan regresi yang mengandung semua variabel bebas Xi.

Menghitung nilai-F parsial untuk setiap variabel peramal, seolah-olah merupakan
variabel terakhir yang dimasukkan ke dalam persamaan regresi.
3). Membandingkan nilai-F parsial terendah, misalnya FL dengan nilai-Fo bertaraf nyata
() tertentu dari tabel-Fo, misalnya F( = 5%).
Jika FL F0, maka hilangkan atau buang variabel XL, yang menghasilkan nilai FL tersebut,
dari persamaan regresi dan kemudian hitung kembali persamaan regresi tanpa
menyertakan variabel XL tersebut; seperti ke langkah 2) di atas.
132
Jika FL > Fo, maka ambillah persamaan regresi itu.

Sebagai ilustrasikan prosedur ini dengan menggunakan data yang sama seperti di atas.
Pertama-tama kerjakan regresi terhadap semua variabel peramal dan menghasilkan
persamaan regresi berganda: = X5 = 62.4 + 1.55 X1 + 0.510 X2 + 0.102 X3 - 0.144 X4
dengan nilai F-hitung 111,48.
Prosedur eliminasi langkah mundur pada hakikatnya mencoba membuang semua
variabel-X yang tidak dibutuhkan tanpa meningkatkan secara berarti besarnya nilai dugaan
2
Ragam Sisa Regresi . Untuk memeriksa variabel pada tahap ini, harus dihitung
sumbangan masing-masing variabel X1, X`2, X3, dan X4, secara parsial kepada Jumlah
Kuadrat Regresi seolah-olah masing-masing variabel tersebut dimasukkan terakhir kalinya
dalam persamaan regresi.
Nilai JK Regresi secara parsial pada keluaran komputer mengukur besarnya sumbangan
variabel tersebut, yang hasilnya seperti Tabel 5.6 berikut.
Tabel 5.6 Anova dari Data Tabel 5.1.
No
Source
DF
SS
MS
Regression
2667,65
889,22
166,34
0,000
X1,X2,X3
Regression
2667,79
889,26
166,83
0,000
X1,X2,X4
Regression
2641,95
880,65
107,38
0,000
X1,X3,X4
Regression
2667,90
666,97
111,48
0,000
X1,X2,X3,X4
JK Total = 2715,76; p = pF; F = F Hitung; SS = JK Regresi;
Variabel
DF = DB
Ternyata dari Tabel 5.6 di atas dapat diketahui bahwa tambahan JK Regresi yang
disebabkan oleh variabel X3 adalah paling rendah yaitu sebesar 2667,90 2667,79 = 0,11
(lihat pada baris dua dari Tabel 5.6 di atas), sehingga sumbangan X3 dalam regresi
berganda = F(X1,X2,X3,X4) adalah paling rendah, dibandingkan dengan variabel lainnya.
Tabel 5.7 Nilai F-hitung Secara Individual Untuk Setiap Variabel terhadap Y
No.
Persamaan
F-Hitung
Variabel
= X5 = 81,5 + 1,870 X1
12,6
X1
= X5 = 57,4 + 0,789 X2
21,96
X2
= X5 = 110,0 1,260 X3
4,40
X3
= X5 = 118,0 0,738 X4
22,80
X4
Nilai F-tabel dengan = 5% ( F0,05;1;11) = 4,84
Ternyata dari Tabel 5.7 di atas dapat diketahui bahwa pengaruh setiap variabel bebas Xi
secara individual terhadap variabel Y. Ternyata bahwa nilai F-hitung secara individual
untuk variabel X3 = 4,40 yang lebih kecil dari nilai F-tabel dengan = 5%.
Nilai F(0,05; 1; 11) = 4,84; maka X3 berpeluang untuk dikeluarkan dari variabel yang lain. Hal
ini dapat dibuktikan dari nilai F-hitung parial untuk X3 seperti Tabel 5.8 di bawah ini.
133
Tabel 5.8 Nilai ANOVA Lengkap Variabel Bebas Xi terhadap Y

Variabel
Source
DF
SS
MS
Regression
2667,90
2667,90
446,137
0,000
X1,X2,X3,X4
X1
1450,08
1450,08
242,489
0,000
X1
X2
1207,78
1207,78
201,970
0,000
X2
X3
9,79
9,79
1,637
0,237
X3
X4
0,25
0,25
0,042
0,82
X4
Residual
47,86
5,98
Total
12
2715,76
Nilai F-hitung parsial X3 = 1,637 yang lebih kecil dari F-tabel (F5%; 1; 8) = 5,32, sehingga X3
tepat dieliminir dari fungsi Y = f(X1, X2, X3, dan X4).
Selanjutnya, hitung persamaan regresi untuk Y = f(X1, X2, dan X4), yang hasilnya seperti
= X5 = 71.6 + 1.45 X1 + 0.416 X2 - 0.237 X5. Nilai-F hitung untuk keseluruhan
persamaan ini adalah F-hitung = 166,83; yang secara statistik nyata karena melebihi Ftabel (5%; 3; 9) = 3,85. Setelah memeriksa persamaan ini untuk kemungkinan dieliminasi,
perlu melihat bahwa X4 mempunyai nilai-F parsial terkecil sehingga menjadi calon untuk
dikeluarkan. Prosedur untuk eliminasi ini serupa dengan prosedur eliminasi sebelumnya
namun dengan satu perubahan; yaitu, nilai-F tabelnya adalah F(0,05; l; 9) = 5,12. Karena
variabel X4 mempunyai nilai-F parsial 1.86 (yang lebih kecil dari 5,12), sehingga X4 dapat
dingeluarkan dari model.
Maka sekarang perlu dihitung persamaan untuk = f(X1,X2), hasil perhitungan regresinya
menjadi: = X5 = 52,6 + 1,47 X1 + 0,662 X2.
Ternyata dari perhitungan tersebut menghasilkan persamaan regresi yang
secara keseluruhan yang nyata dengan nilai-F hitung sebesar 229.50 yang melebihi
nilai F-tabel (2; 10; 0.05) = 4,10. Kedua variabel X1 dan X2 secara statistik nyata,
karena nilai-F parsial masing-masingnya lebih besar dari 4,10. Prosedur seleksi eliminasi
langkah mundur berakhir dan menghasilkan persamaan: = 52,6 + 1,47X1 + 0,66X2.
Prosedur ini memuaskan, khususnya bagi yang ingin melihat semua variabel dalam
persamaan sehingga tidak kehilangan sesuatu. Prosedur ini jauh lebih menghemat waktu
dan tenaga dibandingkan metode semua kemungkinan regresi yang dapat dibuat.
Harus disadari bahwa sekali suatu variabel dikeluarkan dalam prosedur ini, maka ia hilang
untuk selamanya. Jadi, semua model alternatif yang menggunakan variabel yang telah
dikeluarkan tidak tersedia untuk dipertimbangkan kembali.
Hal-hal yang dipertimbangkan dan relevan dalam prosedur di sini adalah.
1).
Beberapa program yang didasarkan pada prosedur ini menggunakan uji-t terhadap
akar nilai-F parsial, bukan uji-F seperti di atas. Ini didasarkan pada kenyataan bahwa
jika niai-F sama dengan F(; 1; db) adalah suatu nilai F dengan derajat bebas, 1 dan
db, maka nilai-t sama menjadi t(; db) adalah suatu nilai-t dengan derajat bebas
sama dengan db.
2). Sebagian program menggunakan istilah F to remove (F untuk mengeluarkan variabel

bebas) dalam keluarannya. Sesungguhnya ini sama dengan uji-F parsial.
134
5.2.4
Prosedur Regresi Bertatar (The Stepwise Regression Procedure)
Dalam metode eliminasi langkah mundur dimulai dari mencari regresi terbesar dengan
menggunakan semua variabel bebas Xi, dan secara bertahap mengurangi banyaknya
variabel bebas Xi di dalam persamaan sampai suatu keputusan dicapai untuk
menggunakan persamaan yang didapatkan.
Prosedur seleksi bertatar berusaha mencapai kesimpulan yang serupa namun dengan
menempuh arah yang berlawanan, yaitu menyusupkan variabel bebas Xi, satu demi satu
sampai diperoleh persamaan regresi yang memuaskan. Urutan penyisipannya ditentukan
dengan menggunakan koefisien korelasi parsial sebagai ukuran perlunya variabel bebas Xi
yang masih di luar persamaan untuk dimasukkan ke dalam persamaan.
Prosedur dasarnya adalah sebagai berikut:

Pertama-tama, pilih variabel bebas Xi yang paling berkorelasi dengan variabel tak bebas Y,
misalkan variabel bebas Xi dan selanjutnya hitung persamaan regresi linear ordo-pertama
= f(Xi). Selanjutnya, lakukan uji apakah variabel Xi ini nyata. Kalau tidak nyata, maka
berhenti dan diambil model = Y sebagai model yang terbaik.
Jika variabel Xi itu nyata maka cari variabel bebas Xi kedua untuk dimasukkan ke
dalam persamaan regresi. Kemudian periksalah koefisien korelasi parsial semua variabel
bebas Xi yang berada di luar regresi pada tahap ini, yaitu Xj, di mana j i terhadap
variabel taka bebas Y; dengan kata lain, Y dan Xj keduanya dikoreksi melalui hubungan
garis lurus dengan Xi, dan korelasi antara kedua variabel yang telah dikoreksi itu dihitung
untuk semua j i.
Dari segi matematis ini ekivalen dengan menghitung korelasi antara: (1) Sisaan Regresi
= f(Xi) dengan (2) Sisaan Regresi X j = f(Xi), yang sesungguhnya tidak dikerjakan.
Variabel Xj, yang mempunyai korelasi parsial tertinggi dengan Y yang sekarang dipilih,
misalkan adalah Xk; dan selanjutnya persamaan regresi kedua = f(Xi, Xk) dihitung.
2
Sekarang persamaan regresi tersebut harus diuji, yaitu peningkatan nilai R harus
diperhatikan, dan nilai-F parsial untuk kedua variabel yang ada di dalam persamaan bukan
hanya yang baru disusupkan saja. Nilai-F parsial yang terendah kemudian dibandingkan
dengan nilai-F tabel. Variabel bebas Xi bersangkutan dipertahankan atau dikeluarkan dari
persamaan tergantung pada apakah uji-uji tersebut nyata atau tidak. Pengujian variabel
bebas Xi yang ada dalam persamaan regresi yang paling kecil sumbangannya perlu
dilakukan pengujian
pada setiap tahap prosedur bertatar. Variabel peramal yang
sebelumnya pernah menjadi calon terbaik dan disusupkan ke dalam persamaan regresi,
pada tahap berikutnya mungkin dapat dianggap berlebihan karena hubungannya dengan
variabel lain atau adanya kolilieritas yang sekarang ada di dalam regresi.
Untuk memeriksa ini, nilai-F parsial untuk setiap variabel di dalam regresi dihitung, dan
yang paling kecil (mungkin berasal dari variabel yang baru masuk, tetapi mungkin juga dari
yang sudah lama berada dalam persamaan) dibandingkan dengan nilai-F tabel yang telah
ditetapkan sebelumnya. Cara ini menghasilkan penilaian terhadap sumbangan variabel
yang paling kurang bermanfaat pada saat itu, seolah-olah variabel tersebut dimasukkan
paling akhir, walaupun kenyataannya tidak demikian. Bila sumbangan variabel tersebut
tidak nyata, variabel bersangkutan dikeluarkan dari model dan persamaan regresi dihitung
kembali berdasarkan variabel-variabel yang masih ada di dalam model.
135
Selanjutnya, variabel terbaik yang di luar model yang korelasi parsialnya dengan Y tertinggi
diuji, apakah variabel tersebut lulus dari uji-F parsial untuk memasukkan variabel ke dalam
persamaan. Jika lulus, variabel tersebut dimasukkan dan kembali semua nilai-F parsial
variabel yang ada di dalam persamaan regresi diperiksa. Jika gagal, proses pengeluaran
dicoba lagi. Apabila terjadi salah pilih taraf- untuk masuk dan untuk keluar sehingga
5
proses tidak pernah terhenti , jika tidak ada variabel yang dapat dikeluarkan atau
dimasukkan, proses akan berhenti sendiri.
Setiap kali variabel masuk ke dalam persamaan regresi, pengaruhnya terhadap kuadrat
2
koefisien korelasi ganda R selalu bertambah, biasanya dicatat. Sekali lagi, akan
digunakan data di atas untuk mengilustrasikan proses bekerjanya prosedur regresi bertatar.
Aculah keluaran komputer bilamana diperlukan dan ingat bahwa = X5 dan Xi = X1, X2, X3,
dan X4 sebagai variabel bebas. Uji masukan dan keluaran variabel bebas yang dilakukan
pada taraf = 0,10; hasilnya seperti berikut ini.
1).
Hitung korelasi semua variabel peramal Xi dengan variabel respons Y. Sebagai

variabel yang pertama kali dimasukkan ke dalam regresi ambillah yang paling
berkorelasi dengan variabel respons Y. Dari matriks korelasi diperoleh bahwa X4
adalah yang paling berkorelasi dengan respons Y atau X5, dengan koefisien korelasi
r45 = - 0,821. Jadi, X4 adalah variabel pertama yang masuk ke dalam persamaan
regresi.
2).
Regresikan Y terhadap X5. Persamaan regresi kuadrat terkecil yang diperoleh seperti
2
yang ditunjukkan = X5 = 118,0 0,738 X4 dengan R = 67,5. Uji-F keseluruhan
menunjukkan bahwa persamaan regresi ini secara statistik nyata. Jadi X4 dapat
dipertahankan pada persamaan.
3).
Selanjutnya, hitunglah koefisien korelasi parsial semua variabel bebas Xi yang ada di
luar regresi dengan variabel respons Y. Sebagai variabel kedua untuk dimasukkan
ke dalam regresi, ambillah yang koefisien korelasi parsialnya tertinggi. Variabel ini
adalah variabel X1 dengan korelasi parsial: r15.4 = 0,915.
4).
Dengan X4 dan X1 dalam model, persamaan regresi kuadrat terkecil Y = f(X4, X1)
2
adalah dengan persamaan = X5 = 103,0 + 1,44 X1 0,614 X4 dengan R = 97,2.
2
Persamaan ini mempunyai koefisien determinasi R = 97.2% dan nyata, sebab nilai-F
keseluruhannya 176,63 yang melebihi F(0,10; 2; 10) = 5.10. Diketahui bahwa
variabel baru disusupkan X1 menurunkan secara nyata Jumlah Kuadrat Sisa yang
diperlihatkan oleh nilai-F parsialnya = 108,22, yang melebihi F(0.1; 1;10) = 4,95.
Maka variabel bebas X1 dipertahankan dalam persamaan.
Pemeriksa sumbangan X4, seandainya X1 yang dimasukkan lebih dulu. Karena nilai-F
parsialnya adalah 159,295, jauh melebihi F(0,1; l; 10) = 4,95. Sehingga X4 harus
dipertahankan. Di dalam praktek, program komputer tidak diuji kedua variabel tersebut
dengan cara ini, melainkan diuji dengan nilai-F parsial yang paling kecil. Keputusannya
adalah mengeluarkan atau mempertahankan variabel tadi dengan uji F-parsialnya, dan
selanjutnya, menghitung kembali regresi atau mencari variabel bebas Xi berikutnya.
1. Metode bertatar sekarang memilih sebagai variabel bebas berikutnya adalah
yang paling tinggi korelasi-parsialnya dengan variabel respons Y, dalam kondisi bahwa
X4 dan X1 telah ada di dalam persamaan regresi. Ternyata yang terpilih adalah
variabel bebas X2. Kuadrat koefisien korelasi parsial X2 dengan variabel respons Y
2
adalah r 25.41 = 0,358.
136
2. Persamaan baru = f(X4, X1, X2) dengan persamaan regresinya = X5 = 71,6 0,237
2
2
X4 + 1,45 X1 + 0,416 X2 dengan R = 98,2 . Kuadrat koefisien korelasi ganda R
telah naik dari 97.2% menjadi 98.2%. Pada tahap ini, ketiga nilai-F parsial untuk X1,
X2, dan X4 diperiksa kembali dan diuji. Yang nilai-F parsial terkecil adalah F = 1,863
untuk X4 dan karena ini lebih kecil dari F(0,10; 1; 9) = 3,36 berarti X4 harus dikeluarkan
dari persamaan. Persamaan regresi sekarang dihitung kembali dengan X1 dan X2
sebagai variabel peramal yang baru dan keduanya ternyata harus dipertahankan dalam
model karena secara statistik adalah signifikan.
3. Satu-satunya variabel yang perlu diperhitungkan adalah variabel X3 untuk dimasukkan
ke dalam persamaan. Ternyata dalam analisis lanjutan variabel bebas X3 ini kemudian
ditolak, prosedur regresi bertatar terakhir dan berakhirlah proses serta menetapkan
sebagai persamaan regresi terbaiknya dengan dua peubah bebas dengan persamaan
= 52.58 + 1.47 X1 + 6,66 X2.
Dalam pemilihan persamaan regresi rerbaik, merupakan salah satu prosedur untuk
menyeleksi variabel dan direkomendasikan penggunaannya dalam model. Prosedur ini
lebih menghemat waktu-kerja komputer dibandingkan metode-metode yang dibahas
sebelumnya, dan juga mencegah memasukkan lebih banyak variabel X daripada yang
diperlukan sambil memperbaiki persamaannya pada setiap tahap perhitungan.
Seperti halnya semua prosedur lainnya, penilaian yang logis masih tetap diperlukan dalam
pemilihan awal pemilihan variabel-variabel dan dalam pemeriksaan model secara kritis
melalui pemeriksaan Sisaannya. Jika tidak waspada, akan terlalu mudah menyandarkan
diri pada seleksi otomatis yang dilaksanakan oleh komputer.
Tambahan. Perlu diperhatian penjelasan berikut ini. Paket program regresi banyak yang
tidak menghitung koefisien korelasi parsial atau kuadratnya, seperti yang dinyatakan di
atas. Program tersebut menggunakan statistik F to enter (untuk memasuk variabel) untuk
setiap variabel yang berada dl luar persamaan. Pada hakikatnya ini memberikan hasil yang
sama. Variabel yang dicalonkan untuk disusupkan dalam model adalah yang mempunyai
nilai F to enter terbesar. Biasanya paling baik dipilih taraf nyata- yang sama untuk masuk
maupun untuk keluar. Jika nilai- untuk keluar lebih kecil daripada nilai- untuk masuk,
bisa terjadi proses tidak pernah terhenti. Jika nilai- untuk keluar besar, variabel yang
sumbangannya melemah mungkin tetap tertahan di dalam persamaan regresi dan hasil ini
akan membingungkan.
Taraf nyata- di dalam regresi bertatar

Dalam ilustrasi di atas, digunakan = 0,10 yang sama, baik untuk memasukkan variabel
maupun mengeluarkan variabel. Lihat pada langkah ke-4 bahwa nilai-F cukup besar yang
melebihi titik persentase 99,9% atau = 0,001, sedangkan pada langkah ke-6, nilai-F
untuk X4, bila X1 dan X2 sudah ada di dalam regresi, tidak cukup besar untuk melebihi titik
90% atau = 0,10 sekalipun. Biasanya, suatu taraf nyata tertentu, misalnya 95% atau =
0.05, ditetapkan lebih dulu dan digunakan untuk seterusnya. Boleh juga menggunakan
taraf yang berbeda untuk uji memasukan dan uji unuk mengeluarkan.
Akan tetapi, kalau ini dilakukan, maka tidak bijaksana kalau mengambil nilai taraf nyata-
untuk masuk lebih kecil daripada nilai- unuk keluar, sebab ini dapat menyebabkan
dikeluarkannya variabel bebas Xi yang baru disusupkan.
Sebagian orang menetapkan nilai- keluar "lebih besar daripada nilai- masuk, untuk
menciptakan semacam perlindungan bagi variabel yang sudah ada dalam persamaan.
137
Variasi semacam ini sesungguhnya bersifat pribadi, namun digabungkan dengan nilai-F
yang ditentukan mempunyai pengaruh besar pada perilaku prosedur seleksi, serta berapa
banyak variabel peramal dipertahankan di dalam persamaan akhir. Sebagian orang,
bahkan banyak yang mengabaikan nilai-F tabel sama sekali, dan cukup membandingkan
nilai-F parsial dengan suatu bilangan tertentu, misalnya 5.
Untuk anda yang belum memiliki pendapat sendiri yang kokoh, disarankan penggunaan
nilai- = 0,05 atau nilai- = 0,10, baik untuk uji masuk maupun untuk uji keluar, kalau paket
program yang digunakan memungkinkan pemilihan, seperi paket SPSS. Taraf tersebut
dikemudian hari tentu saja dapat diubah sejalan dengan bertambahnya pengalaman dalam
analisis. Sebagaian akan dijelaskan di pasal berikutnya, sesungguhnya nilai- bukanlah
ukuran yang teliti, sehingga penekanan yang berlebihan pada pemilihan nilai- tidak ada
manfaatnya. Pemilihan nilai- = 0,05 sesungguhnya bersifat konservatif, artinya nilai-
sebenarnya jauh lebih besar daripada 0,05 (beberapa studi telah dilakukan dan hasilnya
membenarkan hal ini), sehingga ada kecenderungan memasukkan lebih banyak variabel
bebas X1 daripada yang diantisipasi.
Ada sejumlah paket program regresi bertatar yang banyak digunakan. Khususnya,
SPSS-13, STATISTICA-6, dan MINITAB-14 menghasilkan keluaran yang mempunyai
keistimewaan dan menyediakan sejumlah pilihan untuk solusi analisis regresi bertatar dan
nalisis regresi lainnya.
138

5 - Analisis Regresi Terbaik

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

5 - Analisis Regresi Terbaik

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB V.

PEMILIHAN PERSAMAAN REGRES1 TERBAIK

PDF created with pdfFactory Pro trial version www.pdffactory.com

5.2 Prosedur dalam Pemilihan Persamaan Regresi Terbaik

PDF created with pdfFactory Pro trial version www.pdffactory.com

Nilai R yang dicapai.

Nilai R , S , dan Cp Mallow yang akan dibahas kemudian.

1. Evaluasi dengan menggunakan Statistik R

Dalam penggunaan statistik R dapat diuraikan berdasarkan ketentuan keriteria adalah:

Pengelompokkan persamaan-persamaan regresi tersebut ke dalam lima kelompok:

PDF created with pdfFactory Pro trial version www.pdffactory.com

Persamaan yang dapat dibuat dari data di atas adalah:

PDF created with pdfFactory Pro trial version www.pdffactory.com

Persamaan kelompok [D], tiga peubah bebas X

Persamaan kelompok [E], empat peubah bebas X

Variabel di dalam Persamaan Regresi

Akibatnya, apabila memasukkan variabel lain ke dalam persamaan penduga yang di

PDF created with pdfFactory Pro trial version www.pdffactory.com

2. Evaluasi dengan menggunakan Kuadrat Tengah Sisa (Varians Sisa = S )

Kuadrat Tengah Sisa

115,06; 82,39; 176,31; 80,35

5,79; 122,71; 7,48; 41,54; 86,89; 17,57

PDF created with pdfFactory Pro trial version www.pdffactory.com

Persamaan dengan parameter lebih banyak sehingga mempunyai Goodnees of Fit

PDF created with pdfFactory Pro trial version www.pdffactory.com

5.2.2 Regresi Himpunan Bagian Terbaik (Best Subset Regression)

1). Nilai R maksimum,

PDF created with pdfFactory Pro trial version www.pdffactory.com

Best Subsets Regression

5.2.3 Prosedur Eliminasi Langkah Mundur (The Backward Elimination Procedure):

Menghitung persamaan regresi yang mengandung semua variabel bebas Xi.

PDF created with pdfFactory Pro trial version www.pdffactory.com

Jika FL > Fo, maka ambillah persamaan regresi itu.

JK Total = 2715,76; p = pF; F = F Hitung; SS = JK Regresi;

Nilai F-tabel dengan = 5% ( F0,05;1;11) = 4,84

PDF created with pdfFactory Pro trial version www.pdffactory.com

Tabel 5.8 Nilai ANOVA Lengkap Variabel Bebas Xi terhadap Y

2). Sebagian program menggunakan istilah F to remove (F untuk mengeluarkan variabel

PDF created with pdfFactory Pro trial version www.pdffactory.com

Prosedur Regresi Bertatar (The Stepwise Regression Procedure)

Prosedur dasarnya adalah sebagai berikut:

PDF created with pdfFactory Pro trial version www.pdffactory.com

Hitung korelasi semua variabel peramal Xi dengan variabel respons Y. Sebagai

PDF created with pdfFactory Pro trial version www.pdffactory.com

Taraf nyata- di dalam regresi bertatar

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

Anda mungkin juga menyukai