2 Regresi Himpunan Bagian Terbaik (Best Subset Regression)
Sekarang dengan sudah tersedia solusi komputer yang sangat cepat untuk memilih himpunan bagian terbaik dari variabel-variabel peramal Xi dalam analisis regresi berganda. Salah satu yang populer adalah yang dapat menghitung hanya sebagian dari semua kemungkinan regresi dalam menentukan himpunan bagian terbaik dengan menggunakan Solf-Wares Minitab 13.0. Tiga kriteria dapat digunakan untuk menentukan himpunan bagian terbaik yaitu: 1). Nilai R2 maksimum, 2). Nilai R2 terkoreksi maksimum, dan 3). Statistik Cp Mallows. Dalam paket program Minitab 13.0 terdapat sebuah subprogram yang diberi nama All Possible Subsets Regression yaitu semua kemungkinan regresi himpunan bagian. Pengguna tinggal memasukkan bilangan q dan kriteriumnya dan selanjutnya program akan menghasilkan q persamaan regresi terbaik dari semua kemungkinan regresi terbaik. Keluaran komputer di bawah ini mencantumkan ketiga Statistik di atas namun pemilihan persamaan regresinya didasarkan pada kriterium yang dipilih. Program ini juga menghasilkan q regresi terbaik dengan satu variabel peramal, q regresi terbaik dengan dua variabel peramal, dan seterusnya sampai persamaan regresi yang mencakup semua variabel peramal. Jika nilai q melebihi banyaknya persamaan dalam setiap himpunan bagian, maka semua persamaan dalam himpunan bagian itu akan dicantumkan. Nilai ketiga kriteria dicantumkan namun persamaan-persamaan regresi itu dipilih berdasarkan nilai R2. Prosedur ini mempunyai beberapa kelemahan: 1). Cenderung menghasilkan persamaan regresi dengan terlalu banyak variabel peramal. 2). Jika q diambil terlalu kecil, persamaan regresi yang paling masuk akal untuk dipilih mungkin malah tidak muncul dalam himpunan q-terbaik walau mungkin muncul di tempat lain. 3). Belum ada informasi tercetak yang dengan mudah dapat diperoleh mengenai bagaimana berbagai himpunan bagian dapat diperoleh. Meskipun demikian, program semacam ini besar manfaatnya dan direkomendasikan penggunaannya dalam kaitannya dengan metode regresi bertatar (stepwise regression), jika pemeriksaan persamaan regresi di sekitar regresi yang terbaik dikehendaki. Sebagai teladan perhatikan contoh analisis di bawah ini. Best Subset Regression Regresi terbaik (best subset regression) merupakan suatu metode analisi regresi dengan cara meregresikan satu peubah terikat pada semua kemungkinan kombinasi subset peubah-peubah bebasnya, kemudian dari kombinasi-kombinasi tersebut akan dipilih subset yang terbaik. Pada setiap regresi subset terbaik ditampilkan statistik, yaitu : R-sq, R-sq adj, S dan C-p. Untuk mendapatkan subset terbaik kita memilih subset dengan kriteria : memiliki nilai C-p kurang dari atau sama dengan p + 1, memiliki nilai S yang paling kecil, memiliki nilai R-sq dan R-sq yang paling besar. Untuk pemilihan model regresi terbaik ada beberapa metode yang biasa digunakan. Dua diantaranya Stepwise dan All Possible Regression(Best Subset Regression).
Stepwise dan Best Subset Regression memulai pemilihan
dengan model paling sederhana yaitu model dengan satu peubah. Selanjutnya disusupkan peubah lain satu per satu sampai didapat model yang memenuhi kriteria terbaik. Kriteria didasarkan pada penambahan R2 dan R2 adj , pengurangan S2, atau kedekatan nilai C-p Mallow dengan jumlah peubah dalam model. Metode Stepwise memilih peubah berdasarkan korelasi parsial terbesar dengan peubah yang sudah ada dalam model. Dalam metode ini peubah yang sudah masuk dalam model dapat saja dikeluarkan lagi, sehingga langkah yang diperlukan menjadi banyak. Sementara Best Subset Regression memilih peubah berdasarkan penambahan nilai R2 tertinggi dari model terpilih sebelumnya.