Anda di halaman 1dari 8

ANALISIS REGRESI : PEMILIHAN MODEL TERBAIK

Jika antar variabel prediktor saling berkorelasi satu sama lain, dikatakan terjadi kasus multicolinear. Hal ini karena beberapa variabel prediktor tidak significant berada dalam model valaupun sesungguhnya variabel tersebut berhubungan sangat erat dengan variabel respon Y. Untuk mendapatkan model yang diinginkan terdapat dua pertimbangan dalam pembentukan model, diantaranya: 1. Agar persamaan regresi bermanfaat untuk tujuan prediksi, serigkali diinginkan model yang memuat sebanyak-banyaknya variabel X (prediktor) yang mempengaruhi variabel Y (respon) 2. Karena pertimbangan biaya untuk mendapatkan informasi, maka digunakan sesedikit mungkin variabel X (prediktor) yang mempengaruhi variabel Y (respon) Untuk itu dibutuhkan metode untuk dapat mengakomodasikan dua kepentingan di atas dengan cara Selecting the best regression equation. Berikut ini adalah cara-cara yang sering digunakan dalam memilih model terbaik. 5.1. Best Subset Model Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas. Kriteria yang digunakan adalah: R2 terbesar MS residual terkecil Cp yang mendekati jumlah parameter Dengan menggunakan Minitab lakukan langkah berikut : Stat > Regression > Best Subsets Dialog box items : Respons : Masukkan kolom yang memuat variabel respon Y : masukkan yang memuat variabel variabel prediktor X (maksimum 31 variabel) : pilih kolom-kolom yang memuat variabel yang ingin dimasukkan dalam model. Kolom-kolom ini tidak boleh terdaftar dalam Free predictors. Jika anda menganalisis data dengan lebih dari 15 variabel prediktor, pertimbangkan termasuk variabel prediktor ini dalam rangka mengurangi jumlah free variables dan mempercepat proses perhitungan 5.2. Stepwise, Eliminasi Backward and Forward Selection Regression Metode Stepwise, Backward Elimination dan Forward Selection merupakan suatu metode untuk mengurangi kemungkinan adanya muktikolinearitas dari persamaan/model yang dihasilkan. 5.2.1 Stepwise Regression Regresi stepwise melibatkan dua jenis proses yaitu: forward selection dan backward elimination. Teknik ini dilakukan melalui beberapa tahapan. Pada masing-masing tahapan, kita akan memutuskan variabel mana yang merupakan prediktor terbaik untuk dimasukkan ke dalam model. Variabel ditentukan berdasarkan uji-F, variabel ditambahkan ke dalam model selama nilai p-valuenya kurang dari nilai kritik (biasanya 0,15). Kemudian variabel dengan nilai p-

rs all models

value lebih dari nilai kritik akan dihilangkan. Proses ini dilakukan terus menerus hingga tidak ada lagi variabel yang memenuhi kriteria untuk ditambahkan atau dihilangkan. Model dalam regresi Stepwise adalah: Y = 0 + 1X1 + 2X2 + 3X3 + . + nXn Sedangkan Hipotesis yang digunakan dalam Regresi Stepwise adalah: H0 : 1, 2, 3 = 0 Dengan hipotesis alternatif adalah: Ha : 1, 2, 3 0 Ilustrasi: Berikut ini adalah data gaji manajer pada 10 perusahaan besar, dengan regresi stepwise kita dapat memilih variabel mana saja dari daftar berikut yang signifikan dalam mempengaruhi besarnya gaji para manajer tersebut:

No. Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 15 3 15 1 200 22 1 40 22 0 5 1 16 4 14 1 250 23 1 39 21 0 7 2 16 9 14 0 150 23 1 38 22 0 12 3 16 8 11 0 200 23 1 52 22 1 12 4 16 8 18 1 140 24 1 36 21 0 14 5 16 12 13 0 260 24 1 54 22 1 16 6 16 7 12 0 300 23 1 49 21 0 17 7 16 13 14 0 150 23 1 40 21 0 5 8 16 25 16 1 200 23 1 45 22 0 6 9 19 19 0 240 23 1 48 22 1 9 10 9 Dimana: Y = gaji manajer (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X1 = masa kerja (tahun) X2 = masa pendidikan (tahun) X3 = bonus (1 jika ada, dan 0 jika tidak ada) X4 = Jumlah karyawan yang diawasi (orang) X5 = Aset perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X6 = dewan direksi (1 jika ada, dan 0 jika tidak ada) X7 = umur (tahun) X8 = keuntungan perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X9 = tanggung jawab internasional (1 jika ada, dan 0 jika tidak) X10 = total penjualan perusahaan 12 bulan terakhir (dalam milyar) Hipotesis: H0 = H0 : 1, 2, 3 = 0 Ha : 1, 2, 3 0

Langkah pengerjaan dengan SPSS adalah dengan memilih Analyze Regression Linear, kemudian masukkan variabel dependen maupun independennya. Model dibuat dengan memasukkan variabel prediktor satu persatu (secara bertahap) mulai dari variabel X yang memiliki korelasi tinggi Langkah-langkahnya: 1. Cari variabel X yang berkorelasi paling tinggi dengan Y, kemudian buat regresinya 2. Pemilihan variabel berikutnya adalah variabel yag memiliki korelasi parsial terbesar dengan Y dan buat model dengan memasukkan variabel tersebut. 3. Uji parameter yang telah ada di dalam model 4. Begitu seterusnya ulangi langkah 2-3 sampai diperoleh model terbaik 5.2.2 Backward Elimination Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter parameternya dengan menggunakan partial F test. Nilai partial F-test (FL) terkecil dibandingkan dengan F0 table: Jika FL < F0, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut Jika FL>F0, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih. 5.2.3 Forward Selection Forward Selection merupakan salah satu metode pemodelan (pembangunan model linier) untuk menemukan kombinasi peubah yang terbaik dari suatu gugus peubah. Dalam Prosedur Forward selection, sekalinya variable masuk kedalam persamaan maka tidak bisa dihilangkan. Selain itu, Forward selection dapat berarti memasukkan variabel bebas yang memiliki korelasi yang paling erat dengan variabel tak bebasnya (variabel yang paling potensial untuk memiliki hubungan linier dengan Y). kemudian secara bertahap memasukkan variabel bebas yang potensial berikutnya dan nanti akan terhenti sampai tidak ada lagi variabel bebas yang potensial. Kelebihan dan Kekurangan Forward Selection 1. Kelebihan prosedur Forward selection diantaranya sebagai berikut: a. Metode forward, backward, dan stepwise merupakan alternative untuk mengurangi kemungkinan adanya multikolinearitas dalam model yang dihasilkan. b. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas. 2. Kelemahan prosedur Forward Selection adalah diantaranya; a. Lama dalam penghitungan , karena harus menghitung satu-satu dari peubah yang ada, dari peubah yang memiliki F tersebar.

b. Dalam metode ini, ada kemungkinan untuk memasukkan lebih banyak variable yang tidak begitu signifikan ke dalam model dibanding metode backward dan stepwise, karena MSE yang dihasilkan forward akan lebih kecil yang menyebabkan nilai Fobs besar. c. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas. Prosedur Forward Selection Prosedur forward selection dimulai dengan sebuah persamaan yang terdiri dari suku konstanta, tidak terdiri dari predictor variable. Variable pertama yang masuk ke dalam persamaan adalah variable yang memiliki simple correlation tertinggi dan signifikan dengan variable Y. Jika koefisien regresi signifikan berbeda dari 0 maka tetap dipakai dalam persamaan, dan dilakukan pencarian variable kedua. Variable yang masuk ke dalam persamaan sebagai variable kedua adalah variable yang memiliki korelasi tertinggi kedua dan masih signifikan dengan Y. kemudian koefisien regresi dari variable kedua diuji. Jika signifikan, maka dilakukan pencarian terhadap variable ketiga dengan cara yang sama. Prosedur dihentikan saat pemasukan variable terakhir tidak memiliki koefisien regresi dan tidak signifikan atau semua variable masuk dalam persamaan. Koefisien regresi yang signifikan dari variable terakhir dilihat dari uji-t dari persamaan terakhir. Langkah-langkah Forward Selection; 1. Mulai dengan tidak ada predictor variable (model hanya berisi konstanta), 2. Untuk semua predictor variable tidak dalam model, pilih satu variable dengan nilai pvalue terkecil dan kurang dari taraf nyata . 3. Ulangi langkah b) hingga tidak terdapat predictor variable yang dapat ditambahkan ke dalam model. Dengan menggunakan Minitab lakukan langkah berikut: Stat > Regression > Stepwise>Methods Dalog box items Stepwise (forward and backward) : pilih standard stepwise regression : masukkan variable prediktor. Variabel ini akan dikeluarkan jikap-value lebih besar dari alpha to enter value (Jika ingin mempertahankan variabel tertentu dalam model abaikan nilaip-value dan enter variabel tersebut dalam Predictor to include in every model dalam box utama) Alpha to enter : tetapkan nilai untuk memasukkan variable dalam model : tetapkan nilai untuk mengeluarkan variable dalam model Forward selection : pilih Forward selection Alpha to enter : tetapkan nilai untuk memasukkan variable dalam model Backward elimination : tetapkan nilai untuk mengeluarkan variable dalam model : masukkan variabel prediktor yang tidak ingin dikeluarkan dari model

model

CONTOH SOAL:
DATA A sociologist investigating the recent upward shift in homicide trends throughout the United States studied the extent to wich the homicide rate per 100.000 population (Y) is associated with population size (X1), the percent of families with yearly incomes less than $5,000, and the rate of unemployment (X3). Data are provided in the table for a hypotetical sampel of 20 cities. City X1 X2 X3 Y 1 587 16.5 6.2 11.2 2 643 20.5 6.4 13.4 3 635 26.3 9.3 40.7 4 692 16.5 5.3 5.3 5 1248 19.2 7.3 24.8 6 643 16.5 5.9 12.7 7 1964 20.2 6.4 20.9 8 1531 21.3 7.6 35.7 9 713 17.2 4.9 8.7 10 749 14.3 6.4 9.6 11 7895 18.1 6.0 14.5 12 762 23.1 7.4 26.9 13 2793 19.1 5.8 15.7 14 741 24.7 8.6 36.2 15 625 18.6 6.5 18.1 16 854 24.9 8.3 28.9 17 716 17.9 6.7 14.9 18 921 22.4 8.6 25.8 19 595 20.2 8.4 21.7 20 3353 16.9 6.7 25.7 SOAL: Carilah model regresi terbaik antara Y, X1, X2, X3 pada taraf uji 5% dan 10% dengan menggunakan step: a. stepwise regression b. backward elimination Jawab : A. Stepwise regression (regresi bertatar) Langkah 1. Matriks Korelasi X1 X2 X3 Y X1 1 X2 -0.16378 1 X3 -0.23341 0.815418 1

-0.0671

0.839778

0.864841

Dari matriks di atas variable X3 paling tinggi nilai korelasinya dengan variable respon Y, rx3y = 0.865. Dengan demikian, variable X3 yang pertama dimasukkan ke dalam persamaan regresi. Sumber variasi Regresi X3 Residu Total Df 1 18 19 SS MS Fhit F.05 4.41 F.10 3.01 R2 0.75

1387.59972 1387.69972 53.41 467.602282 25.98 1855.202

Uji F secara keseluruhan untuk variabel X3 menunjukkan bahwa persamaan regresi ini nyata secara statistik dengan R2 = 0.75. Langkah 2: Menghitung koefisien korelasi parsial orde ke-1 untuk memilih variabel selanjutnya (X1 dan X2)

ryx1|x3 = 0.276047 (ryx1|x3 )2= 0.076202 (ryx2|x3 )2= 0.2144123


Dari perhitungan di atas, tampak bahwa koefisien korelasi parsial variabel X2 paling tinggi, sehingga variabel X2 dimasukkan ke dalam model. Langkah 3 : mengevaluasi model Y = f(X3,X2) Analisis Varians Regresi Parsial Sumber variasi Df Regresi (X3,X2,X1) 3 R(X1| X2, X3) 1 R(X2| X1, X3) 1 R(X3| X1, X2) 1 Residu 16 Total 19 R2 0.8183

SS 1518,145 30.28554 94.91292 200.3465 337.1571 1855.202

MS 506.0483 30.28554 94.91292 200.3465 21.06607 97.54221

Fhit 24.02 1.44 4.51 9.51

F.05 3.24 4.49 4.49 4.49

F.10 2.46 3.05 3.05 3.05

Dari ketiga nilai F-parsial, baik pada taraf nyata 5% maupun taraf nyata 10%, ternyata variabel X3 yang terkecil dan tidak signifikan, sehingga harus dikeluarkan dari persamaan. Dengan demikian, variabel yang terpilih adalah X2 dan X3dan prosedur regresi bertahap selesai, dengan persamaan akhir : Persamaan Y = f(X3, X2): Y = -34.0725 + 1.223931 X2 + 4.398936 X3,

R2 = 80.2% II. Metode Backward Elimination (BE) Langkah 1 : Bentuk persamaan lengkap dan analisis varians tertera di bawah ini : Evaluasi model Persamaan Y = f(X3, X 2, X 1) Yest= -36.76492528 + 0.000762937 X1 + 1.192174211 X2 + 4.719821372 X3 Analisis Varian Regresi Parsial Sumber variasi Db Regresi (X3,X2,X1) 3 R(X1| X2, X3) 1 R(X2| X1, X3) 1 R(X3| X1, X2) 1 Residu 16 Total 19 R2 0.8183

JK 1518,145 30.28554 94.91292 200.3465 337.1571 1855.202

RJK 506.0483 30.28554 94.91292 200.3465 21.06607 97.54221

Fhit 24.02 1.44 4.51 9.51

F.05 3.24 4.49 4.49 4.49

F.10 2.46 3.05 3.05 3.05

Dari tabel Analisis Varians F-Parsial, tampak bahwa Variabel X1 mempunyai Nilai Fparsial terkecil dan tidak nyata, sehingga harus dikeluarkan dari model. Langkah 2 : mengevaluasi model tanpa menyertakan Variabel X3 : Y = f(X2, X3) R2 0.802

Analisis Varians Regresi Parsial Sumber variasi Df Regresi (X3,X2) 2 R(X2|X3) 1 R(X3|X2) 1 Residu 17 Total 19

SS 1487,145 100.2597 179.5199 367.3426 1855.202

MS 743.9297 100.2597 179.5199 21.60839 97.54221

Fhit 34.43 3.64 8.31

F.05 3.59 4.45 4.45

F.10 2.46 3.03 3.03

Model Persamaan baru Y = f(X3,X2): Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% Model persamaan ini nyata dengan Nilai F hitung keseluruhan 34.3* (nyata baik pada taraf 5% maupun pada taraf 10%) dengan nilai koefisien determinan, R2 = 80.2% dan nyata. Nilai F-parsial variabel X3 dan X2 juga nyata, sehingga kedua variabel tersebut harus dipertahankan. Karena tidak terdapat lagi variabel yang dikeluarkan dari Model, maka persamaan akhir Regresi dengan pendekatan langkah mundur adalah: Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% Kesimpulan :

Dari Kedua cara pemilihan model regresi terbaik, ternyata untuk kasus sosial di atas semuanya konsisten. Hanya Variabel X2 (pendapatan keluarga) dan X3(tingkat pengangguran) saja yang terpilih dan nyata memberikan kontribusi dalam menentukan tinggi rendahnya Y (Laju bunuh diri)

Anda mungkin juga menyukai