5 - Analisis Regresi Terbaik

BAB V. PEMILIHAN PERSAMAAN REGRES1 TERBAIK 5.
1 Pendahuluan
Dalam pembicaraan ini akan dibahas penterapan beberapa prosedur statistika tertentu untuk menentukan variabel yang akan dimasukkan ke dalam regresi untuk mendapatkan persamaan regresi penduga yang terbaik artinya suatu persamaan regresi penduga yang mempunyai persamaan yang paling fit. Misalkan ingin menentukan pendugaan suatu persamaan regresi linier dengan variabel tak bebas Y tertentu atau Y terhadap variabelvariabel bebas Xi atau variabel peramal X1, X2, . . . , Xp merupakan sekumpulan lengkap variabel bebas X yang diperlukan dan mencakup sembarang fungsi, seperti linier, kuadrat, hasil kali, logaritmik, fungsi kebalikan, dan fungsi perpangkatan, serta fungsi-fungsi lainnya. Dalam kaitan penduga yang terbaik ada dua kriteria yang saling bertentangan seperti: 1). Agar persamaan bermanfaat bagi tujuan peramalan atau pendugaan, biasanya ingin memasukkan sebanyak mungkin variabel bebas Xi sehingga diperoleh nilai ramalan atau dugaan yang dapat diandalkan. Karena untuk memperoleh informasi dari sebanyak mungkin variabel bebas Xi serta pemonitornya seringkali diperlukan biaya yang cukup tinggi, maka diperlukan agar persamaan regresi penduganya mencakup sesedikit mungkin variabel bebas Xi yang dimasukkan dalam persamaan.
2).
Kompromi antara kedua ketentuan 1) dan 2) di atas yang biasanya disebut pemilihan persamaan regresi penduga yang terbaik, maka dalam mengambil keputusan untuk hal-hal seperti tersebut tidak ada satu prosedur statistikapun yang dapat dipakai sebagai pedoman 2 untuk hal di atas. Kalau telah diketahui besarnya (Ragam Regresi Residual sesungguhnya) maka untuk masalah pemilihan persamaan regresi penduga terbaik akan jauh lebih mudah. Sayangnya, dalam kenyataan ini tidak pernah terjadi, sehingga penilaian yang bersifat pribadi merupakan suatu hal yang tidak terelakkan dari metode-metode analisis pemilihan regresi penduga yang terbaik. Prosedur yang akan digunakan dalam pemilihan persamaan regresi terbaik adalah: 1). 2). 3). 3). 4). 5). 6). semua kemungkinan regresi yang dapat dibuat (all possible regression) dengan 2 2 menggunakan tiga kriteria yaitu: R , S , dan Cp Mallow; regresi himpunan bagian terbaik (best subset regression) dengan menggunakan 2 2 standar R , R (terkoreksi), Cp Mallow; dan eliminasi langkah mundur; regresi bertatar (stepwise regression); regresi gulud (ridge regression); regresi komponen utama (principal components regression); regresi akar ciri (latent root regression); dan regresi bertahap (stagewise regression).
Dalam pembicaraan selanjutnya, akan dijelaskan hanya beberapa prosedur saja yang banyak digunakan. Akan tetapi, sering membingunkan, karena metode-metode yang apabila diterapkan pada masalah yang sama tidak selalu menghasilkan jawaban yang sama. Hal ini jelas membingungkan.
124
PDF created with pdfFactory Pro trial version www.pdffactory.com
Apabila penyelesaian perhitungan regresi pada data yang tidak dirancang terlebih dahulu atau data yang diperoleh dari operasi yang sedang berjalan atau survei, dan data bukan yang berasal dari suatu percobaan yang terancang, maka beberapa masalah yang secara potensial akan dapat timbul. Masalah yang timbul seperti yang dibicarakan oleh G.E.P. Box di dalam "Use and abuse of regression", Technometrics (1966). Sehingga, Residual atau Galat Regresi dalam model mungkin tidak bersifat acak, namun merupakan pengaruh hubungan beberapa variabel yang tidak disertakan dalam persamaan regresi atau bahkan tidak diukur, yang sering diistilahkan dengan variabel latent atau variabel bentukan atau variabel tersembunyi. Kelemahan dalam adanya variabel laten yaitu: 1). Kemungkinan terjadinya bias dalam masalah dugaan koefisien regresi bi yang disebut pengaruh palsu suatu variabel bebas X. Pengaruh palsu suatu variabel bebas X mungkin saja disebabkan oleh variabel laten yang tidak terukur. Akan tetapi, karena variabel laten tidak terukur, perubahan yang terjadi tidak diketahui atau dicatat. Perubahan yang terjadi ini mungkin saja menyebabkan persamaan regresinya menjadi tidak terandalkan. 2). Kekurangan lain pada data yang tidak dirancang dengan baik adalah bahwa seringkali variabel peramal Xi yang paling efektif dikendalikan agar berada dalam kisaran yang sangat sempit untuk mempertahankan respon Y agar tetap berada dalam batas-batas spesifikasi yang dikehendaki. Kisaran yang terlalu kecil pada gilirannya akan menyebabkan koefisien regresinya bi tidak nyata (non significant), suatu kesimpulan yang dianggap lucu, karena pada dasarnya variabel tersebut adalah efektif. Hal Ini mudah dipahami, sebab jika suatu variabel bebas X yang efektif tidak banyak divariasikan, maka pengaruhnya akan kecil sekali atau bahkan tidak terlihat. 3). Masalah lain dengan data yang tidak dirancang adalah bahwa aturan pengoperasiannya misalnya jika Xi terlalu tinggi pengaruhnya, turunkan X2 untuk mengimbanginya sehingga sering menyebabkan korelasi yang tinggi diantara variabelvariabel peramal X tersebut. Ini membuat tidak mungkin untuk melihat apakah perubahan dalam Y berkaitan dengan X1 atau X2 atau keduanya. Percobaan yang dirancang secara seksama dapat menghapuskan ketidakjelasan seperti tersebut di atas.
5.2 Prosedur dalam Pemilihan Persamaan Regresi Terbaik 5.2.1 Semua kemungkinan regresi yang dapat dibuat (all possible regression)
Semua kemungkinan regresi yang dapat dibuat, prosedur ini tidak praktis dan tidak mungkin dilakukan tanpa bantuan komputer yang berkecepatan tinggi. Itulah sebabnya prosedur ini baru digunakan setelah akses dengan komputer berkecepatan tinggi dapat dilakukan sehingga relatif gampang dilakukan. Prosedur dari semua kemungkinan regresi yaitu: Pertama-tama prosedur ini menentukan semua kemungkinan persamaan regresi yang melibatkan semua variabel bebas X1, X2, . . . , dan Xp. Karena setiap variabel bebas Xi mungkin berada di dalam atau di luar persamaan, maka jumlah seluruh persamaan yang k dapat dibuat ada sebanyak 2 persamaan termasuk bo sebagai koefisien dari X0 yang nilainya = 1; sehingga suku X0 selalu ada di dalam persamaan.
125
Jadi, jika p = 3, di mana p adalah jumlah variabel bebas Xi, tidak termasuk X0 maka jumlah 3 persamaan yang mungkin dapat dibuat dari p = 3 adalah sebanyak 2 = 8 seperti berikut: 1). 2). 3). 4). = = = = b0 b0 + b1 X1 b0 + b2 X2 b0 + b3 X3
5). = b0 + b1 X1 + b2 X2 6). = b0 + b1 X1 + b3 X3 7). = b0 + b2 X2 + b3 X3 8). = b0 + b1 X1 + b2 X2 + b3 X3 Apabila jumlah variabel bebas Xi sebanyak p = 10, maka dapat dibuat jumlah persamaan 10 penduga yang cukup besar yaitu sebanyak 2 = 1024 buah persamaan yang dapat dibuat; suatu hal yang luar biasa dan tidak mungkin ditelaah secara teoritis. Untuk memilih persamaan penduga yang terbaik, maka seharusnya setiap persamaan regresi penduga dievaluasi menurut kriteria tertentu; dengan kriteria yang telah disebutkan dimuka yaitu: 1). 2). 3). Nilai R yang dicapai. 2 Nilai S yaitu jumlah kuadrat sisa regresi. Nilai Statistik Cp.
2 2 2
Nilai R , S , dan Cp Mallow yang akan dibahas kemudian. Sesungguhnya ketiga kreteria di atas saling berkaitan. Penentuan persamaan mana yang paling baik untuk dipilih, maka dilakukan evaluasi dari pola yang dianalisis. Sebagai contoh data yang akan digunakan mempunyai empat variabel peramal X; berasal dari buku A. Hald Statistical Theory with Engineering Applications, yang diterbitkan oleh Wiley, New York, pada 1952. Masalah ini terutama dipilih karena mengilustrasikan beberapa kesulitan yang biasanya terjadi dalam analisis regresi berganda. Data lengkapnya diberikan pada contoh olahan di bawah ini. Suatu contoh analisis regresi dengan empat variabel bebas Xi yang dilambangkan dengan X1, X2, X3, dan X4, serta variabel responsnya adalah Y = X5. Koefisien regresi o selalu 4 disertakan dalam model. Jadi, seluruhnya terdapat 2 = 16 persamaan regresi yang akan dilibatkan dalam analisis regresi semua kemungkinan regresi yang dapat dibuat seperti pada Tabel 5.1 berikut ini. 1. Evaluasi dengan menggunakan Statistik R
2 2
Dalam penggunaan statistik R dapat diuraikan berdasarkan ketentuan keriteria adalah: [A]. (1) (2) (3) Pengelompokkan persamaan-persamaan regresi tersebut ke dalam lima kelompok: kelompok A yang terdiri atas satu persamaan regresi dengan hanya melibatkan nilai tengah yaitu (E(Y) = o); kelompok B yang terdiri atas empat persamaan regresi dengan satu variabel peramal Xi seperti persamaan (E(Y) = o + i Xi); kelompok C yang terdiri atas enam persamaan regresi dengan dua variabel peramal Xi seperti persamaan (E(Y) = o + i Xi + j Xj;
126
(4) (5)
kelompok D yang terdiri atas empat persamaan regresi dengan tiga variabel peramal Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk; dan kelompok E yang terdiri atas satu persamaan regresi dengan empat variabel peramal Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk + l Xl.
[B]. Urutkan persamaan regresi dalam setiap kelompok menurut besarnya kuadrat oefisien 2 korelasi berganda atau koefisien determinasi R yang di capai. [C]. Periksalah persamaan regresi dari urutan pertama dalam setiap kelompok dan lihatlah apakah ada suatu pola variabel yang terurut secara konsisten dalam persamaanpersamaan tersebut. Tabel 5.1 No, 1 2 3 4 5 6 7 8 9 10 11 12 13 Rata-rata Data pengamatan X1 7,000 1,000 11,000 11,000 7,000 11,000 3,000 1,000 2,000 21,000 1,000 11,000 10,000 7,462 X2 26,000 29,000 56,000 31,000 52,000 55,000 71,000 31,000 54,000 47,000 40,000 66,000 68,000 48,154 X3 6,000 15,000 8,000 8,000 6,000 9,000 17,000 22,000 18,000 4,000 23,000 9,000 8,000 11,769 X4 60,000 52,000 20,000 47,000 33,000 22,000 6,000 44,000 22,000 26,000 34,000 12,000 12,000 30,000 Y = X5 78,500 74,300 104,300 87,600 95,900 109,200 102,700 72,500 93,100 115,900 83,800 113,300 109,400 95,423
Persamaan yang dapat dibuat dari data di atas adalah: Persamaan kelompok [A] tanpa peubah bebas X 1) = X5 = 62,4 Persamaan kelompok [B], satu peubah bebas X 2 1) = X5 = 118,0 0,738 X4 R = 67,5 2 2) = X5 = 57,4 + 0,789 X2 R = 66,6 2 3) = X5 = 81,5 + 1,87 X1 R = 53,4 2 4) = X5 = 110,0 1,26 X3 R = 28,6 Persamaan kelompok [C], dua peubah bebas X 1) = X5 = 52,6 + 1,47 X1 + 0,662 X2 2) = X5 = 103,0 + 1,44 X1 0,614 X4 3) = X5 = 131,0 - 1,20 X3 0,725 X4 4) = X5 = 72,1 + 0,731 X2 1,01 X3 5) = X5 = 94,2 + 0,311 X2 0,457 X4 6) = X5 = 72,3 + 2,31 X1 + 0,494 X3 R 2 R 2 R 2 R 2 R 2 R
2
= = = = = =
97,9 97,2 93,5 84,7 68,0 54,8
127
Persamaan kelompok [D], tiga peubah bebas X 1) = X5 = 48,2 + 1,70 X1 + 0,657 X2 + 0.250 X3 2) = X5 = 71,6 + 1,45 X1 + 0,416 X2 0,237 X4 3) = X5 = 112,0 + 1,05 X1 0,410 X3 0,643 X4 4) = X5 = 204,0 0,92 X2 1,450 X3 1,560 X4 Persamaan kelompok [E], empat peubah bebas X 1) = X5 = 62,40 + 1,55 X1 + 0,510 X2 + 0,102 X3 0,144 X4
R 2 R 2 R 2 R
= = = =
98,2 98,2 98,1 97,3 R = 98,2

2
Untuk contoh olahan di atas persamaan regresi yang menduduki posisi utama dalam setiap kelompok dan terurut seperti pada Tabel 5.2 berikut. Tabel 5.2 Variabel dalam Persamaan Regresi Kelompok B C D E Variabel di dalam Persamaan Regresi = = = = = f (X4) f(X1, X2) dan f(X1, X4) f(X1, X2, X4) f(X1, X2, X3, X4) (%) R
2
67,5% 97,5% 97,2% 98,2% 98,2%
Dari uraian di atas terlihat bahwa dalam kelompok C yang terdiri ats dua persamaan yang 2 mempunyai nilai R yang relatif sama. Kalau disimak lebih lanjut hasil tersebut maka akan terlihat bahwa setelah dua variabel masuk ke dalam persamaan regresi penduga, maka 2 tambahan besarnya R sangat kecil. Pemeriksaan matriks korelasi data tersebut memperlihatkan bahwa (X1 dan X3) serta (X2 dan X4) mempunyai korelasi yang tinggi yaitu r13 = - 0,8241 dan r24 = - 0,9730 seperti Tabel 5.3 berikut di bawah ini. Tabel 5.3 Matriks Koefisien Korelasi X1 X2 X3 X4 X5 X1 1,0000 ,2285 -,8241 -,2454 .7307 X2 1,0000 -,1392 -,9730 .,8163 X3 X4 X5
1,0000 ,0295 -,5357
1,0000 -,6213
1,0000
Akibatnya, apabila memasukkan variabel lain ke dalam persamaan penduga yang di dalamnya sudah ada variabel X1 dan X2 atau X1 dan X4, akan mengambil sedikit sekali keragaman yang belum terjelaskan di dalam variabel respons Y. Ini terlihat jelas dari 2 nilai R yang hanya naik sedikit sekali dari kelompok C ke kelompok D. Demikian pula, 2 kenaikan nilai R dari kelompok D ke kelompok E sangat kecil sekali. Hal ini dapat dipahami sebab variabel-variabel X itu merupakan campuran dan jumlah nilai-nilai X untuk setiap titik pengamatan yang hampir konstan antara 95 dan 99. Selanjutnya, persamaan manakah yang patut dipilih untuk ditinjau lebih jauh?. Maka yang jelas adalah dalam kelompok C, tetapi yang mana dari kelompok tersebut?. Jika f(X1 dan X2) yang dipilih, maka ada sedikit ketidak konsistenan. Sebab persamaan terbaik dengan satu variabel peramal adalah yang menyertakan X4 setelah persamaan yang terbaik. Karena alasan ini maka sebaiknya dipilih f(X1 dan X4).
128
Prosedur pemiliahan dan pemeriksaan persamaan regresi penduga yang mungkin terjadi ternyata tidak memberikan jawaban yang tegas bagi masalah pemilihan regresi terbaik seperti diuraikan tersebut di atas. Informasi lain seperti pengetahuan tentang ciri-ciri produk yang diteliti dan peranan sifat fisik variabel-variabel Xi harus ditambahkan untuk dapat mengambil keputusan yang tepat dalam pemilihan persamaan regresi penduga yang terbaik dan yang berguna. Cara pemilihan persamaan regresi yang cepat adalah melalui seluruh kemungkinan kelompok persamaan regresi yang ada untuk menemukan persamaan regresi 2 yang mempunyai koefisien korelasi berganda R yang terbesar dalam setiap kelompoknya. 2. Evaluasi dengan menggunakan Kuadrat Tengah Sisa (Varians Sisa = S ) Bila jumlah sampel cukup besar evaluasi terhadap rata-rata Kuadrat Tengah Sisa (S ) untuk setiap kelompok seringkali dapat menunjukkan titik pemisah bagi banyaknya variabel yang sebaiknya diikut sertakan dalam persamaa regresi. Berdasarkan pada analisis di atas berbagai Kuadrat Tengah Sisa untuk masing-masing kelompok dengan k variabel, di mana k adalah banyaknya parameter yang ada dalam model termasuk 0. Di mana k = p + 1; seperti Tabel 5.4 di bawah ini. Tabel 5.4 Nilai Kuadrat Tengah Sisa dan Rata-ratanya p 2 3 4 5 Kuadrat Tengah Sisa 115,06; 82,39; 176,31; 80,35 5,79; 122,71; 7,48; 41,54; 86,89; 17,57 5,35; 5,33; 5,65; 8,.20 Rata-rata S (p) 113,53 47,00 6,13 5,98
2 2
5,98
Misalnya 17,57 adalah Kuadrat Tengah Sisa yang diperoleh dari model yang mengandung X3 dan X5.
Bila jumlah variabel bebas Xi yang potensial dalam model cukup besar, misalnya p lebih besar dari sepuluh, dan jika banyaknya sampel pengamatan jauh lebih besar dari p, 2 misalnya 5p atau l0p, maka sebaran S (p) seringkali sangat informatif. Pendugaan persamaan regresi yang melibatkan lebih banyak variabel peramal Xi daripada yang dibutuhkan untuk memperoleh persamaan yang memuaskan disebut overfitting. Semakin banyak variabel peramal Xi ditambahkan ke dalam persamaan yang telah overfitted, Kuadrat Tengah Sisanya akan cenderung stabil dan mendekati nilai Jumlah Kuadrat Sisa 2 Regresi yang sebenarnya, asalkan semua variabel yang penting telah disertakan dalam model dan jumlah pengamatan jauh lebih besar daripada banyaknya variabel peramal Xi yang ada dalam persamaan regresi penduga. Sebaliknya, untuk jumlah sampel yang tidak begitu banyak tidak boleh terlalu berharap bahwa persyaratan yang dikemukakan di atas dapat diterapkan secara efektif. Namun 2 dapat dipakai petunjuk kasar bahwa sebaran rata-rara S (p) memperlihatkan gambaran yang relatif stabil, apabila jumlah variabel relatif banyak. 3. Evaluasi dengan menggunakan Statistika Cp Mallow Sebuah nilai statistika lain yang dapat menjelaskan pemilihan persamaan regresi penduga yang terbaik di tahun-tahun belakangan ini adalah Statistika Cp, yang pada awalnya dikemukakan oleh C.L. Mallows. Staristika ini mempunyai bentuk: Cp = ]K Sk/S - (n - 2k)
2
129
Dalam hal di atas ]K Sk adalah Jumlah Kuadrat Sisa dari model yang mengandung k parameter, di mana k adalah banyaknya parameter dalam model termasuk 0, sehingga k = 2 p + 1, dan S adalah Kuadrat Tengah Sisa dari persamaan terbesar yang dipostulatkan mengandung semua nilai Xi, dan diasumsikan merupakan nilai dugaan takbias yang 2 terandalkan bagi Ragam Galat . Seperti yang dinyatakan oleh R.W. Kennard, bahwa Cp 2 2 2 berkaitan erat dengan statistik koefisien determinasi R terkoreksi (adjusted R = Ra ) dan 2 Statistik ini juga berkaitan dengan statistik koefisien determinasi R . Jika suatu persamaan dengan p variabel bebas Xi sudah memadai, artinya tidak 2 menderita akibat dari ketidakpasan model, di mana nilai harapan E(JK Sk) = (n - k) . 2 2 2 Karena juga diasumsikan bahwa E(s ) = , maka nisbah JK Sk/S mempunyai nilai 2 2 harapan (n - k) / = n - k, sehingga E(Cp) = k. Dengan demikian sebaran Cp vs p akan memperlihatkan model-model yang memadai sebagai titik-titik yang cukup dekat pada garis Cp = p. Persamaan-persamaan regresi yang kurang baik karena keridakpasan model, dengan kata lain persamaan yang berbias akan menghasilkan titik-titik yang jauh di atas atau seringkali jauh di atas garis Cp = p. Nilai yang tinggi dari Cp pada setiap titik sebaran mempunyai arti penting, sebab dapat menunjukkan atau merupakan nilai dugaan bagi Jumlah Kuadrat Simpangan (Ragam Galat plus Galat Bias) dari persamaan regresi penduga sebuah model yang sebenarnya yang tidak diketahui. Semakin banyak data diikut disertakan dalam model untuk dapat menurunkan nilai JK Sp, didapatkan nilai dari Cp semakin tinggi. Sehingga model terbaik dapat ditentukan setelah memeriksa sebaran nilai Cp. Sebenarnya yang dicari adalah persamaan regresi dengan nilai Cp yang rendah yang sama dengan p. Bilamana yang dipilih tidak jelas, maka merupakan penilaian yang bersifat pribadi untuk memilih dari persamaan yang diinginkan: 1). Persamaan yang bias yang tidak mewakili data maupun karena JK Sp-nya lebih besar (sehingga Cp > p) namun memiliki Cp yang lebih kecil daripada yang lain, sehingga Cp merupakan nilai dugaan bagi Simpangan Total (Ragam Galat plus Galat Bias) dari model sebenarnya yang tidak diketahui, atau Persamaan dengan parameter lebih banyak sehingga mempunyai Goodnees of Fit (kecocokan) yang lebih baik terhadap data artinya nilai Cp = p namun mempunyai Simpangan Total (Ragam Galat plus Galat Bias) yang lebih besar dari model sebenarnya dan tidak diketahui. Dengan kata lain, model yang lebih kecil cenderung mempunyai nilai Cp yang lebih kecil pula, namun model yang lebih besar (dengan p yang lebih besar) cenderung mempunyai Cp yang lebih dekat pada p.
2).
Suatu pernyataan dari acuan yang disebutkan terakhir ini adalah bahwa Cp tidak mungkin diharapkan dapat menghasilkan satu persamaan terbaik bila datanya secara intrinsik memang tidak memadai untuk mendukung kesimpulan yang kuat. Begitu pula dengan prosedur seleksi pemilihan persamaan yang terlaik lainnya. Bahwa semua prosedur seleksi pada hakikatmya adalah metode untuk menunjukkan dan menyimak kembali secara teratur data yang dimiliki. Apabila diterapkan prosedur-prosedur itu dengan baik dapat memberikan hasil yang bermanfaat. Sebaliknya, penerapan secara ceroboh dan atau secara mekanis, mungkin dapat menyebabkan prosedur itu tidak berguna atau bahkan menyesatkan.
130
Telaahan penggunaan Statistik Cp dari data di atas. Untuk data dengan n = 13 dan 2 s = 5,983 dari model yang menyertakan keempat variabel peramal Xi. Misalnya untuk model Yi = bo + biXi + e (k = 5 termasuk bo), memperoleh persamaan dengan nilai Cp manjadi: Cp = 1265,687/5,983 - (13 - 4) = 202,5. Perhatikan bahwa untuk persamaan dengan semua variabel peramal disertakan di dalamnya, Cp = p, harusnya demikian menurut definisi, sebab dalam hal ini 2 JK Sp = (n - p)S .
5.2.2 Regresi Himpunan Bagian Terbaik (Best Subset Regression)

Sekarang dengan sudah tersedia solusi komputer yang sangat cepat untuk memilih himpunan bagian terbaik dari variabel-variabel peramal Xi dalam analisis regresi berganda. Salah satu yang populer adalah yang dapat menghitung hanya sebagian dari semua kemungkinan regresi dalam menentukan himpunan bagian terbaik dengan menggunakan Solf-Wares Minitab 13.0. Tiga kriteria dapat digunakan untuk menentukan himpunan bagian terbaik yaitu: 1). Nilai R maksimum, 2 2). Nilai R terkoreksi maksimum, dan 3). Statistik Cp Mallows. Dalam paket program Minitab 13.0 terdapat sebuah subprogram yang diberi nama All Possible Subsets Regression yaitu semua kemungkinan regresi himpunan bagian. Pengguna tinggal memasukkan bilangan q dan kriteriumnya dan selanjutnya program akan menghasilkan q persamaan regresi terbaik dari semua kemungkinan regresi terbaik. Keluaran komputer di bawah ini mencantumkan ketiga Statistik di atas namun pemilihan persamaan regresinya didasarkan pada kriterium yang dipilih. Program ini juga menghasilkan q regresi terbaik dengan satu variabel peramal, q regresi terbaik dengan dua variabel peramal, dan seterusnya sampai persamaan regresi yang mencakup semua variabel peramal. Jika nilai q melebihi banyaknya persamaan dalam setiap himpunan bagian, maka semua persamaan dalam himpunan bagian itu akan dicantumkan. Nilai ketiga kriteria dicantumkan 2 namun persamaan-persamaan regresi itu dipilih berdasarkan nilai R . Prosedur ini mempunyai beberapa kelemahan: 1). Cenderung menghasilkan persamaan regresi dengan terlalu banyak variabel peramal. 2). Jika q diambil terlalu kecil, persamaan regresi yang paling masuk akal untuk dipilih mungkin malah tidak muncul dalam himpunan q-terbaik walau mungkin muncul di tempat lain. 3). Belum ada informasi tercetak yang dengan mudah dapat diperoleh mengenai bagaimana berbagai himpunan bagian dapat diperoleh. Meskipun demikian, program semacam ini besar manfaatnya dan direkomendasikan penggunaannya dalam kaitannya dengan metode regresi bertatar (stepwise regression), jika pemeriksaan persamaan regresi di sekitar regresi yang terbaik dikehendaki. Sebagai teladan perhatikan contoh analisis di bawah ini.
2
131
Best Subsets Regression Y = X5 versus X1, X2, X3, and X4.
Response is Y = X5
Tabel 5.5 Nilai R-Sq, R-Sq (adj), C-P Mallow, dan Sisa Regresi (S) Vars R-Sq R-Sq (adj) 64,7 63.8 49,5 22,6 97,5 96,7 92,4 81,9 97,7 97,8 97,6 96,5 97,5 C-p Mallows 156,2 160,4 228.0 354,7 2,9 6,1 25,0 60,1 3,0 3,0 3,6 7,9 5,0 S X 1 X 2 X 3 X 4 X X X X X X X X X X X
Klompok B 1 67,5 1 66,6 1 53,4 1 28,6 Klompok C 2 97,9 2 97,2 2 93,5 2 84,7 Klompok D 3 98,2 3 98,2 3 98,1 3 98,3 Klompok E 4 98,2
8,5823 8,6907 10,270 42,713 2,2944 2,6070 3,9970 6,1455 2,1903 2,1934 2,2547 2,7169 2,3061
X X X X X X X X X
X X X X X X X X
Keterangan: R-Sq = R2 = koefisien determinasi R-Sq (adj) = R 2 = koefisien determinasi terkoreksi
5.2.3 Prosedur Eliminasi Langkah Mundur (The Backward Elimination Procedure):

Eliminasi langkah mundur mulai dengan regresi terbesar dengan menggunakan semua variabel bebas Xi, dan secara bertahap mengurangi banyaknya variabel di dalam persamaan sampai suatu keputusan dicapai untuk menggunakan persamaan yang diperoleh dengan jumlah variabel tertentu. Metode eliminasi langkah mundur lebih ekonomis dibandingkan dengan metode semua kemungkinan regresi yang ada, dalam pengertian bahwa metode ini mencoha memeriksa hanya regresi terbaik yang mengandung sej'umlah tertentu variabel bebas Xi. Langkah-langkah dalam prosedur ini adalah sebagai berikut: Menghitung persamaan regresi yang mengandung semua variabel bebas Xi. Menghitung nilai-F parsial untuk setiap variabel peramal, seolah-olah merupakan variabel terakhir yang dimasukkan ke dalam persamaan regresi. 3). Membandingkan nilai-F parsial terendah, misalnya FL dengan nilai-Fo bertaraf nyata () tertentu dari tabel-Fo, misalnya F( = 5%). Jika FL F0, maka hilangkan atau buang variabel XL, yang menghasilkan nilai FL tersebut, dari persamaan regresi dan kemudian hitung kembali persamaan regresi tanpa menyertakan variabel XL tersebut; seperti ke langkah 2) di atas. 1). 2).
132
Jika FL > Fo, maka ambillah persamaan regresi itu. Sebagai ilustrasikan prosedur ini dengan menggunakan data yang sama seperti di atas. Pertama-tama kerjakan regresi terhadap semua variabel peramal dan menghasilkan persamaan regresi berganda: = X5 = 62.4 + 1.55 X1 + 0.510 X2 + 0.102 X3 - 0.144 X4 dengan nilai F-hitung 111,48. Prosedur eliminasi langkah mundur pada hakikatnya mencoba membuang semua variabel-X yang tidak dibutuhkan tanpa meningkatkan secara berarti besarnya nilai dugaan 2 Ragam Sisa Regresi . Untuk memeriksa variabel pada tahap ini, harus dihitung sumbangan masing-masing variabel X1, X`2, X3, dan X4, secara parsial kepada Jumlah Kuadrat Regresi seolah-olah masing-masing variabel tersebut dimasukkan terakhir kalinya dalam persamaan regresi. Nilai JK Regresi secara parsial pada keluaran komputer mengukur besarnya sumbangan variabel tersebut, yang hasilnya seperti Tabel 5.6 berikut. Tabel 5.6 Anova dari Data Tabel 5.1. No 1 2 3 4 Source Regression Regression Regression Regression DF 3 3 3 4 SS 2667,65 2667,79 2641,95 2667,90 MS 889,22 889,26 880,65 666,97 F 166,34 166,83 107,38 111,48 P 0,000 0,000 0,000 0,000
DF = DB
Variabel X1,X2,X3 X1,X2,X4 X1,X3,X4 X1,X2,X3,X4
JK Total = 2715,76; p = pF; F = F Hitung; SS = JK Regresi;
Ternyata dari Tabel 5.6 di atas dapat diketahui bahwa tambahan JK Regresi yang disebabkan oleh variabel X3 adalah paling rendah yaitu sebesar 2667,90 2667,79 = 0,11 (lihat pada baris dua dari Tabel 5.6 di atas), sehingga sumbangan X3 dalam regresi berganda = F(X1,X2,X3,X4) adalah paling rendah, dibandingkan dengan variabel lainnya. Tabel 5.7 Nilai F-hitung Secara Individual Untuk Setiap Variabel terhadap Y No. 1 2 3 4 Persamaan = X5 = 81,5 + 1,870 X1 = X5 = 57,4 + 0,789 X2 = X5 = 110,0 1,260 X3 = X5 = 118,0 0,738 X4
Nilai F-tabel dengan = 5% ( F0,05;1;11) = 4,84
F-Hitung 12,6 21,96 4,40 22,80
Variabel X1 X2 X3 X4
Ternyata dari Tabel 5.7 di atas dapat diketahui bahwa pengaruh setiap variabel bebas Xi secara individual terhadap variabel Y. Ternyata bahwa nilai F-hitung secara individual untuk variabel X3 = 4,40 yang lebih kecil dari nilai F-tabel dengan = 5%. Nilai F(0,05; 1; 11) = 4,84; maka X3 berpeluang untuk dikeluarkan dari variabel yang lain. Hal ini dapat dibuktikan dari nilai F-hitung parial untuk X3 seperti Tabel 5.8 di bawah ini.
133
Tabel 5.8 Nilai ANOVA Lengkap Variabel Bebas Xi terhadap Y Source Regression X1 X2 X3 X4 Residual Total DF 4 1 1 1 1 8 12 SS 2667,90 1450,08 1207,78 9,79 0,25 47,86 2715,76 MS 2667,90 1450,08 1207,78 9,79 0,25 5,98 F 446,137 242,489 201,970 1,637 0,042 P 0,000 0,000 0,000 0,237 0,82 Variabel X1,X2,X3,X4 X1 X2 X3 X4
Nilai F-hitung parsial X3 = 1,637 yang lebih kecil dari F-tabel (F5%; 1; 8) = 5,32, sehingga X3 tepat dieliminir dari fungsi Y = f(X1, X2, X3, dan X4). Selanjutnya, hitung persamaan regresi untuk Y = f(X1, X2, dan X4), yang hasilnya seperti = X5 = 71.6 + 1.45 X1 + 0.416 X2 - 0.237 X5. Nilai-F hitung untuk keseluruhan persamaan ini adalah F-hitung = 166,83; yang secara statistik nyata karena melebihi Ftabel (5%; 3; 9) = 3,85. Setelah memeriksa persamaan ini untuk kemungkinan dieliminasi, perlu melihat bahwa X4 mempunyai nilai-F parsial terkecil sehingga menjadi calon untuk dikeluarkan. Prosedur untuk eliminasi ini serupa dengan prosedur eliminasi sebelumnya namun dengan satu perubahan; yaitu, nilai-F tabelnya adalah F(0,05; l; 9) = 5,12. Karena variabel X4 mempunyai nilai-F parsial 1.86 (yang lebih kecil dari 5,12), sehingga X4 dapat dingeluarkan dari model. Maka sekarang perlu dihitung persamaan untuk = f(X1,X2), hasil perhitungan regresinya menjadi: = X5 = 52,6 + 1,47 X1 + 0,662 X2. Ternyata dari perhitungan tersebut menghasilkan persamaan regresi yang secara keseluruhan yang nyata dengan nilai-F hitung sebesar 229.50 yang melebihi nilai F-tabel (2; 10; 0.05) = 4,10. Kedua variabel X1 dan X2 secara statistik nyata, karena nilai-F parsial masing-masingnya lebih besar dari 4,10. Prosedur seleksi eliminasi langkah mundur berakhir dan menghasilkan persamaan: = 52,6 + 1,47X1 + 0,66X2. Prosedur ini memuaskan, khususnya bagi yang ingin melihat semua variabel dalam persamaan sehingga tidak kehilangan sesuatu. Prosedur ini jauh lebih menghemat waktu dan tenaga dibandingkan metode semua kemungkinan regresi yang dapat dibuat. Harus disadari bahwa sekali suatu variabel dikeluarkan dalam prosedur ini, maka ia hilang untuk selamanya. Jadi, semua model alternatif yang menggunakan variabel yang telah dikeluarkan tidak tersedia untuk dipertimbangkan kembali. Hal-hal yang dipertimbangkan dan relevan dalam prosedur di sini adalah. 1). Beberapa program yang didasarkan pada prosedur ini menggunakan uji-t terhadap akar nilai-F parsial, bukan uji-F seperti di atas. Ini didasarkan pada kenyataan bahwa jika niai-F sama dengan F(; 1; db) adalah suatu nilai F dengan derajat bebas, 1 dan db, maka nilai-t sama menjadi t(; db) adalah suatu nilai-t dengan derajat bebas sama dengan db.
2). Sebagian program menggunakan istilah F to remove (F untuk mengeluarkan variabel bebas) dalam keluarannya. Sesungguhnya ini sama dengan uji-F parsial.
134
5.2.4
Prosedur Regresi Bertatar (The Stepwise Regression Procedure)
Dalam metode eliminasi langkah mundur dimulai dari mencari regresi terbesar dengan menggunakan semua variabel bebas Xi, dan secara bertahap mengurangi banyaknya variabel bebas Xi di dalam persamaan sampai suatu keputusan dicapai untuk menggunakan persamaan yang didapatkan. Prosedur seleksi bertatar berusaha mencapai kesimpulan yang serupa namun dengan menempuh arah yang berlawanan, yaitu menyusupkan variabel bebas Xi, satu demi satu sampai diperoleh persamaan regresi yang memuaskan. Urutan penyisipannya ditentukan dengan menggunakan koefisien korelasi parsial sebagai ukuran perlunya variabel bebas Xi yang masih di luar persamaan untuk dimasukkan ke dalam persamaan.
Prosedur dasarnya adalah sebagai berikut:

Pertama-tama, pilih variabel bebas Xi yang paling berkorelasi dengan variabel tak bebas Y, misalkan variabel bebas Xi dan selanjutnya hitung persamaan regresi linear ordo-pertama = f(Xi). Selanjutnya, lakukan uji apakah variabel Xi ini nyata. Kalau tidak nyata, maka berhenti dan diambil model = Y sebagai model yang terbaik. Jika variabel Xi itu nyata maka cari variabel bebas Xi kedua untuk dimasukkan ke dalam persamaan regresi. Kemudian periksalah koefisien korelasi parsial semua variabel bebas Xi yang berada di luar regresi pada tahap ini, yaitu Xj, di mana j i terhadap variabel taka bebas Y; dengan kata lain, Y dan Xj keduanya dikoreksi melalui hubungan garis lurus dengan Xi, dan korelasi antara kedua variabel yang telah dikoreksi itu dihitung untuk semua j i. Dari segi matematis ini ekivalen dengan menghitung korelasi antara: (1) Sisaan Regresi = f(Xi), yang sesungguhnya tidak dikerjakan. = f(Xi) dengan (2) Sisaan Regresi X j Variabel Xj, yang mempunyai korelasi parsial tertinggi dengan Y yang sekarang dipilih, misalkan adalah Xk; dan selanjutnya persamaan regresi kedua = f(Xi, Xk) dihitung. Sekarang persamaan regresi tersebut harus diuji, yaitu peningkatan nilai R harus diperhatikan, dan nilai-F parsial untuk kedua variabel yang ada di dalam persamaan bukan hanya yang baru disusupkan saja. Nilai-F parsial yang terendah kemudian dibandingkan dengan nilai-F tabel. Variabel bebas Xi bersangkutan dipertahankan atau dikeluarkan dari persamaan tergantung pada apakah uji-uji tersebut nyata atau tidak. Pengujian variabel bebas Xi yang ada dalam persamaan regresi yang paling kecil sumbangannya perlu dilakukan pengujian pada setiap tahap prosedur bertatar. Variabel peramal yang sebelumnya pernah menjadi calon terbaik dan disusupkan ke dalam persamaan regresi, pada tahap berikutnya mungkin dapat dianggap berlebihan karena hubungannya dengan variabel lain atau adanya kolilieritas yang sekarang ada di dalam regresi. Untuk memeriksa ini, nilai-F parsial untuk setiap variabel di dalam regresi dihitung, dan yang paling kecil (mungkin berasal dari variabel yang baru masuk, tetapi mungkin juga dari yang sudah lama berada dalam persamaan) dibandingkan dengan nilai-F tabel yang telah ditetapkan sebelumnya. Cara ini menghasilkan penilaian terhadap sumbangan variabel yang paling kurang bermanfaat pada saat itu, seolah-olah variabel tersebut dimasukkan paling akhir, walaupun kenyataannya tidak demikian. Bila sumbangan variabel tersebut tidak nyata, variabel bersangkutan dikeluarkan dari model dan persamaan regresi dihitung kembali berdasarkan variabel-variabel yang masih ada di dalam model.
2
135
Selanjutnya, variabel terbaik yang di luar model yang korelasi parsialnya dengan Y tertinggi diuji, apakah variabel tersebut lulus dari uji-F parsial untuk memasukkan variabel ke dalam persamaan. Jika lulus, variabel tersebut dimasukkan dan kembali semua nilai-F parsial variabel yang ada di dalam persamaan regresi diperiksa. Jika gagal, proses pengeluaran dicoba lagi. Apabila terjadi salah pilih taraf- untuk masuk dan untuk keluar sehingga 5 proses tidak pernah terhenti , jika tidak ada variabel yang dapat dikeluarkan atau dimasukkan, proses akan berhenti sendiri. Setiap kali variabel masuk ke dalam persamaan regresi, pengaruhnya terhadap kuadrat 2 koefisien korelasi ganda R selalu bertambah, biasanya dicatat. Sekali lagi, akan digunakan data di atas untuk mengilustrasikan proses bekerjanya prosedur regresi bertatar. Aculah keluaran komputer bilamana diperlukan dan ingat bahwa = X5 dan Xi = X1, X2, X3, dan X4 sebagai variabel bebas. Uji masukan dan keluaran variabel bebas yang dilakukan pada taraf = 0,10; hasilnya seperti berikut ini. 1). Hitung korelasi semua variabel peramal Xi dengan variabel respons Y. Sebagai variabel yang pertama kali dimasukkan ke dalam regresi ambillah yang paling berkorelasi dengan variabel respons Y. Dari matriks korelasi diperoleh bahwa X4 adalah yang paling berkorelasi dengan respons Y atau X5, dengan koefisien korelasi r45 = - 0,821. Jadi, X4 adalah variabel pertama yang masuk ke dalam persamaan regresi. Regresikan Y terhadap X5. Persamaan regresi kuadrat terkecil yang diperoleh seperti 2 yang ditunjukkan = X5 = 118,0 0,738 X4 dengan R = 67,5. Uji-F keseluruhan menunjukkan bahwa persamaan regresi ini secara statistik nyata. Jadi X4 dapat dipertahankan pada persamaan. Selanjutnya, hitunglah koefisien korelasi parsial semua variabel bebas Xi yang ada di luar regresi dengan variabel respons Y. Sebagai variabel kedua untuk dimasukkan ke dalam regresi, ambillah yang koefisien korelasi parsialnya tertinggi. Variabel ini adalah variabel X1 dengan korelasi parsial: r15.4 = 0,915. Dengan X4 dan X1 dalam model, persamaan regresi kuadrat terkecil Y = f(X4, X1) 2 adalah dengan persamaan = X5 = 103,0 + 1,44 X1 0,614 X4 dengan R = 97,2. 2 Persamaan ini mempunyai koefisien determinasi R = 97.2% dan nyata, sebab nilai-F keseluruhannya 176,63 yang melebihi F(0,10; 2; 10) = 5.10. Diketahui bahwa variabel baru disusupkan X1 menurunkan secara nyata Jumlah Kuadrat Sisa yang diperlihatkan oleh nilai-F parsialnya = 108,22, yang melebihi F(0.1; 1;10) = 4,95. Maka variabel bebas X1 dipertahankan dalam persamaan.
2).
3).
4).
Pemeriksa sumbangan X4, seandainya X1 yang dimasukkan lebih dulu. Karena nilai-F parsialnya adalah 159,295, jauh melebihi F(0,1; l; 10) = 4,95. Sehingga X4 harus dipertahankan. Di dalam praktek, program komputer tidak diuji kedua variabel tersebut dengan cara ini, melainkan diuji dengan nilai-F parsial yang paling kecil. Keputusannya adalah mengeluarkan atau mempertahankan variabel tadi dengan uji F-parsialnya, dan selanjutnya, menghitung kembali regresi atau mencari variabel bebas Xi berikutnya. 1. Metode bertatar sekarang memilih sebagai variabel bebas berikutnya adalah yang paling tinggi korelasi-parsialnya dengan variabel respons Y, dalam kondisi bahwa X4 dan X1 telah ada di dalam persamaan regresi. Ternyata yang terpilih adalah variabel bebas X2. Kuadrat koefisien korelasi parsial X2 dengan variabel respons Y 2 adalah r 25.41 = 0,358.
136
2. Persamaan baru = f(X4, X1, X2) dengan persamaan regresinya = X5 = 71,6 0,237 2 2 X4 + 1,45 X1 + 0,416 X2 dengan R = 98,2 . Kuadrat koefisien korelasi ganda R telah naik dari 97.2% menjadi 98.2%. Pada tahap ini, ketiga nilai-F parsial untuk X1, X2, dan X4 diperiksa kembali dan diuji. Yang nilai-F parsial terkecil adalah F = 1,863 untuk X4 dan karena ini lebih kecil dari F(0,10; 1; 9) = 3,36 berarti X4 harus dikeluarkan dari persamaan. Persamaan regresi sekarang dihitung kembali dengan X1 dan X2 sebagai variabel peramal yang baru dan keduanya ternyata harus dipertahankan dalam model karena secara statistik adalah signifikan. 3. Satu-satunya variabel yang perlu diperhitungkan adalah variabel X3 untuk dimasukkan ke dalam persamaan. Ternyata dalam analisis lanjutan variabel bebas X3 ini kemudian ditolak, prosedur regresi bertatar terakhir dan berakhirlah proses serta menetapkan sebagai persamaan regresi terbaiknya dengan dua peubah bebas dengan persamaan = 52.58 + 1.47 X1 + 6,66 X2. Dalam pemilihan persamaan regresi rerbaik, merupakan salah satu prosedur untuk menyeleksi variabel dan direkomendasikan penggunaannya dalam model. Prosedur ini lebih menghemat waktu-kerja komputer dibandingkan metode-metode yang dibahas sebelumnya, dan juga mencegah memasukkan lebih banyak variabel X daripada yang diperlukan sambil memperbaiki persamaannya pada setiap tahap perhitungan. Seperti halnya semua prosedur lainnya, penilaian yang logis masih tetap diperlukan dalam pemilihan awal pemilihan variabel-variabel dan dalam pemeriksaan model secara kritis melalui pemeriksaan Sisaannya. Jika tidak waspada, akan terlalu mudah menyandarkan diri pada seleksi otomatis yang dilaksanakan oleh komputer. Tambahan. Perlu diperhatian penjelasan berikut ini. Paket program regresi banyak yang tidak menghitung koefisien korelasi parsial atau kuadratnya, seperti yang dinyatakan di atas. Program tersebut menggunakan statistik F to enter (untuk memasuk variabel) untuk setiap variabel yang berada dl luar persamaan. Pada hakikatnya ini memberikan hasil yang sama. Variabel yang dicalonkan untuk disusupkan dalam model adalah yang mempunyai nilai F to enter terbesar. Biasanya paling baik dipilih taraf nyata- yang sama untuk masuk maupun untuk keluar. Jika nilai- untuk keluar lebih kecil daripada nilai- untuk masuk, bisa terjadi proses tidak pernah terhenti. Jika nilai- untuk keluar besar, variabel yang sumbangannya melemah mungkin tetap tertahan di dalam persamaan regresi dan hasil ini akan membingungkan.
Taraf nyata- di dalam regresi bertatar

Dalam ilustrasi di atas, digunakan = 0,10 yang sama, baik untuk memasukkan variabel maupun mengeluarkan variabel. Lihat pada langkah ke-4 bahwa nilai-F cukup besar yang melebihi titik persentase 99,9% atau = 0,001, sedangkan pada langkah ke-6, nilai-F untuk X4, bila X1 dan X2 sudah ada di dalam regresi, tidak cukup besar untuk melebihi titik 90% atau = 0,10 sekalipun. Biasanya, suatu taraf nyata tertentu, misalnya 95% atau = 0.05, ditetapkan lebih dulu dan digunakan untuk seterusnya. Boleh juga menggunakan taraf yang berbeda untuk uji memasukan dan uji unuk mengeluarkan. Akan tetapi, kalau ini dilakukan, maka tidak bijaksana kalau mengambil nilai taraf nyata- untuk masuk lebih kecil daripada nilai- unuk keluar, sebab ini dapat menyebabkan dikeluarkannya variabel bebas Xi yang baru disusupkan. Sebagian orang menetapkan nilai- keluar "lebih besar daripada nilai- masuk, untuk menciptakan semacam perlindungan bagi variabel yang sudah ada dalam persamaan.
137
Variasi semacam ini sesungguhnya bersifat pribadi, namun digabungkan dengan nilai-F yang ditentukan mempunyai pengaruh besar pada perilaku prosedur seleksi, serta berapa banyak variabel peramal dipertahankan di dalam persamaan akhir. Sebagian orang, bahkan banyak yang mengabaikan nilai-F tabel sama sekali, dan cukup membandingkan nilai-F parsial dengan suatu bilangan tertentu, misalnya 5. Untuk anda yang belum memiliki pendapat sendiri yang kokoh, disarankan penggunaan nilai- = 0,05 atau nilai- = 0,10, baik untuk uji masuk maupun untuk uji keluar, kalau paket program yang digunakan memungkinkan pemilihan, seperi paket SPSS. Taraf tersebut dikemudian hari tentu saja dapat diubah sejalan dengan bertambahnya pengalaman dalam analisis. Sebagaian akan dijelaskan di pasal berikutnya, sesungguhnya nilai- bukanlah ukuran yang teliti, sehingga penekanan yang berlebihan pada pemilihan nilai- tidak ada manfaatnya. Pemilihan nilai- = 0,05 sesungguhnya bersifat konservatif, artinya nilai- sebenarnya jauh lebih besar daripada 0,05 (beberapa studi telah dilakukan dan hasilnya membenarkan hal ini), sehingga ada kecenderungan memasukkan lebih banyak variabel bebas X1 daripada yang diantisipasi. Ada sejumlah paket program regresi bertatar yang banyak digunakan. Khususnya, SPSS-13, STATISTICA-6, dan MINITAB-14 menghasilkan keluaran yang mempunyai keistimewaan dan menyediakan sejumlah pilihan untuk solusi analisis regresi bertatar dan nalisis regresi lainnya.
138

5 - Analisis Regresi Terbaik

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

5 - Analisis Regresi Terbaik

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB V. PEMILIHAN PERSAMAAN REGRES1 TERBAIK 5.

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

97,9 97,2 93,5 84,7 68,0 54,8

PDF created with pdfFactory Pro trial version www.pdffactory.com

98,2 98,2 98,1 97,3 R = 98,2

67,5% 97,5% 97,2% 98,2% 98,2%

1,0000 ,0295 -,5357

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

5.2.2 Regresi Himpunan Bagian Terbaik (Best Subset Regression)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Best Subsets Regression Y = X5 versus X1, X2, X3, and X4.

Keterangan: R-Sq = R2 = koefisien determinasi R-Sq (adj) = R 2 = koefisien determinasi terkoreksi

5.2.3 Prosedur Eliminasi Langkah Mundur (The Backward Elimination Procedure):

PDF created with pdfFactory Pro trial version www.pdffactory.com

Variabel X1,X2,X3 X1,X2,X4 X1,X3,X4 X1,X2,X3,X4

JK Total = 2715,76; p = pF; F = F Hitung; SS = JK Regresi;

F-Hitung 12,6 21,96 4,40 22,80

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

Prosedur Regresi Bertatar (The Stepwise Regression Procedure)

Prosedur dasarnya adalah sebagai berikut:

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

Taraf nyata- di dalam regresi bertatar

PDF created with pdfFactory Pro trial version www.pdffactory.com

PDF created with pdfFactory Pro trial version www.pdffactory.com

Anda mungkin juga menyukai