Anda di halaman 1dari 9

Generalized R2

Nagelkerke (1991) generalizes the definition of the coefficient of determination: 1. A generalized coefficient of determination should be consistent with the classical coefficient of determination when both can be computed; 2. Its value should also be maximised by the maximum likelihood estimation of a model; 3. It should be, at least asymptotically, independent of the sample size; 4. Its interpretation should be the proportion of the variation explained by the model; 5. It should be between 0 and 1, with 0 denoting that model does not explain any variation and 1 denoting that it perfectly explains the observed variation; 6. It should not have any unit. The generalized R has all of these properties.

where L(0) is the likelihood of the model with only the intercept, estimated model and n is the sample size. However, in the case of a logistic model, where and

is the likelihood of the

cannot be greater than 1, R is between 0

: thus, it is possible to define a scaled R as R/Rmax.[5]

Metode pemilihan terbaik pada model regresi


Beberapa metode pemilihan model regresi terbaik dapat dijelaskan sebagai berikut : 1. All possible regression Tiap-tiap persamaan regresi dianalisis menurut kriteria tertentu, beberapa kriteria diantaranya adalah sebagai berikut: a. Nilai R-square Langkah-langkahnya adalah sebagai berikut : 1. Mengelompokkan persamaan-persamaan regresi kedalam k + 1 kelompok, dengan k = jumlah variabel bebasnya 2. Menggunakan persamaan regresi dalam setiap kelompok menurut besarnya R-square yang dicapai 3. Memeriksa persamaan regresi urutan pertama dalam tiap kelompok dan melihat apakah ada suatu pola peubah yang konsisten dalam persamaan tersebut b. Nilai S-Square Dalam jumlah pengamatan yang besar, evaluasi terhadap MSE untuk setiap kelompok seringkali menunjukkan titik pemisah yang terbaik bagi banyaknya variabel yang sebaiknya dimasukkan

dalam regresi. Jika jumlah variabel yang potensial cukup besar, begitupula untuk jumlah pengamatannya juga besar, maka distribusi dari R-square akan sangat informative. c. Statistik Cp Cp = SSEp/S2-(n-2p), dengan p parameter. Tingginya Cp disetiap titik sebaran juga penting sebab hal ini merupakan dugaan bagi SSE. Semakin banyak suku yang disertakan kedalam model untuk menurunkan SSEp, biasanya Cp akan semakin tinggi. Model terbaik ditentukan setelah memeriksa sebaran Cp. Yang dicari adalah persamaan regresi dengan nilai Cp rendah yang kira-kira sama dengan p 2. Best subset regression Metode ini dapat memprediksi kemungkinan regresi dalam menentukan himpunan bagian k terbaik. Tiga kriteria dapat digunakan untuk menentukan himpunan bagian k terbaik diantaranya nilai R-square maksimum, nilai R-square terkoreksi maksimum dan statistic Cp mallows. Caranya adalah menentukan k kemungkinan regresi yang bisa dibuat kemudian dilihat ketiga kriteria tersebut. Nilai Cp yang rendah, R-square yang tinggi dan R-square tterkoreksi yang semakin meningkat secara signifikan merupakan kriteria pemilihan model terbaik Atau ket lain dr subset regression: Best Subset Model Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas. Kriteria yang digunakan adalah: R2 terbesar MS residual terkecil Cp yang mendekati jumlah parameter Dengan menggunakan Minitab lakukan langkah berikut : Stat > Regression > Best Subsets Dialog box items : Respons : Masukkan kolom yang memuat variabel respon Y Free predictors : masukkan yang memuat variabel variabel prediktor X (maksimum 31 variabel) Predictors in all models : pilih kolom-kolom yang memuat variabel yang ingin dimasukkan dalam model. Kolom-kolom ini tidak boleh terdaftar dalam Free predictors. Jika anda menganalisis data dengan lebih dari 15 variabel prediktor, pertimbangkan termasuk variabel prediktor ini dalam rangka mengurangi jumlah free variables dan mempercepat proses perhitungan 3. The backward elimination procedure Penggunaan metode ini dapat dilakukan hal-hal berikut ini : a. Menghitung persamaan regresi yang mengandung semua variabel predictor b. Menghitung nilai F-parsial untuk setiap variabel predictor, seolah-olah variabel tersebut merupakan variabel terakhir yang dimasukkan kedalam persamaan regresi

c. Membandingkan nilai F parsial terendah (FL) dengan F dari tabel (F0) Jika (FL)> (F0) maka persamaan ini layak untuk dipilih Backward Elimination Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter parameternya dengan menggunakan partial F test. Nilai partial F-test (FL) terkecil dibandingkan dengan F0 table: Jika FL < F0, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut Jika FL>F0, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih.

4. The forward elimination procedure Variabel perdiktor yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel respon, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel respon adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel prediktor yang significant Forward Selection Forward Selection merupakan salah satu metode pemodelan (pembangunan model linier) untuk menemukan kombinasi peubah yang terbaik dari suatu gugus peubah. Dalam Prosedur Forward selection, sekalinya variable masuk kedalam persamaan maka tidak bisa dihilangkan. Selain itu, Forward selection dapat berarti memasukkan variabel bebas yang memiliki korelasi yang paling erat dengan variabel tak bebasnya (variabel yang paling potensial untuk memiliki hubungan linier dengan Y). kemudian secara bertahap memasukkan variabel bebas yang potensial berikutnya dan nanti akan terhenti sampai tidak ada lagi variabel bebas yang potensial. Kelebihan dan Kekurangan Forward Selection 1. Kelebihan prosedur Forward selection diantaranya sebagai berikut: a. Metode forward, backward, dan stepwise merupakan alternative untuk mengurangi kemungkinan adanya multikolinearitas dalam model yang dihasilkan. b. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas. 2. Kelemahan prosedur Forward Selection adalah diantaranya; a. Lama dalam penghitungan , karena harus menghitung satu-satu dari peubah yang ada, dari peubah yang memiliki F tersebar. b. Dalam metode ini, ada kemungkinan untuk memasukkan lebih banyak variable yang tidak begitu signifikan ke dalam model dibanding metode backward dan stepwise, karena MSE yang dihasilkan forward akan lebih kecil yang menyebabkan nilai Fobs besar.

c.

Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas. Prosedur Forward Selection Prosedur forward selection dimulai dengan sebuah persamaan yang terdiri dari suku konstanta, tidak terdiri dari predictor variable. Variable pertama yang masuk ke dalam persamaan adalah variable yang memiliki simple correlation tertinggi dan signifikan dengan variable Y. Jika koefisien regresi signifikan berbeda dari 0 maka tetap dipakai dalam persamaan, dan dilakukan pencarian variable kedua. Variable yang masuk ke dalam persamaan sebagai variable kedua adalah variable yang memiliki korelasi tertinggi kedua dan masih signifikan dengan Y. kemudian koefisien regresi dari variable kedua diuji. Jika signifikan, maka dilakukan pencarian terhadap variable ketiga dengan cara yang sama. Prosedur dihentikan saat pemasukan variable terakhir tidak memiliki koefisien regresi dan tidak signifikan atau semua variable masuk dalam persamaan. Koefisien regresi yang signifikan dari variable terakhir dilihat dari uji-t dari persamaan terakhir. Langkah-langkah Forward Selection; 1. Mulai dengan tidak ada predictor variable (model hanya berisi konstanta), 2. Untuk semua predictor variable tidak dalam model, pilih satu variable dengan nilai pvalue terkecil dan kurang dari taraf nyata . 3. Ulangi langkah b) hingga tidak terdapat predictor variable yang dapat ditambahkan ke dalam model. Dengan menggunakan Minitab lakukan langkah berikut: Stat > Regression > Stepwise>Methods Dalog box items Stepwise (forward and backward) : pilih standard stepwise regression Predictor in initial model : masukkan variable prediktor. Variabel ini akan dikeluarkan jikap-value lebih besar dari alpha to enter value (Jika ingin mempertahankan variabel tertentu dalam model abaikan nilaip-value dan enter variabel tersebut dalam Predictor to include in every model dalam box utama) Alpha to enter : tetapkan nilai untuk memasukkan variable dalam model Alpha to remove : tetapkan nilai untuk mengeluarkan variable dalam model Forward selection : pilih Forward selection Alpha to enter : tetapkan nilai untuk memasukkan variable dalam model Backward elimination : tetapkan nilai untuk mengeluarkan variable dalam model : masukkan variabel prediktor yang tidak ingin dikeluarkan dari model

5. The stepwise regression procedure Penggunaan metode ini dapat dilakukan hal-hal berikut ini : 1. Menghitung korelasi antara variabel predictor dengan responnya. Sebagai variabel yang pertama kali dimasukkan kedalam regresi, missal X1 adalah yang paling berkorelasi terhadap respon. 2. Regresi variabel respon dengan X yang dipilih tadi. Jika X signifikan maka pertahankan 3. Menghitung korelasi parsial semua variabel predictor diluar regresi dengan variabel respon. Sebagai variabel kedua yang akan dimasukkan kedalam model, dipilih yang memiliki korelasi parsial tertinggi. Misalkan X2 4. Dengan nilai X1 dan X2 yang dimasukkan kedalam model, periksa signifikansi dan R2 dalam model. Jika sesuai dengan kriteria, maka pertahankan jika tidak maka dikeluarkan dan kembali ke prosedur (3) hingga didapatkan model terbaik Atau penjelasan lainnya: Stepwise Regression Regresi stepwise melibatkan dua jenis proses yaitu: forward selection dan backward elimination. Teknik ini dilakukan melalui beberapa tahapan. Pada masing-masing tahapan, kita akan memutuskan variabel mana yang merupakan prediktor terbaik untuk dimasukkan ke dalam model. Variabel ditentukan berdasarkan uji-F, variabel ditambahkan ke dalam model selama nilai p-valuenya kurang dari nilai kritik (biasanya 0,15). Kemudian variabel dengan nilai pvalue lebih dari nilai kritik akan dihilangkan. Proses ini dilakukan terus menerus hingga tidak ada lagi variabel yang memenuhi kriteria untuk ditambahkan atau dihilangkan. Model dalam regresi Stepwise adalah: Y = 0 + 1X1 + 2X2 + 3X3 + . + nXn Sedangkan Hipotesis yang digunakan dalam Regresi Stepwise adalah: H0 : 1, 2, 3 = 0 Dengan hipotesis alternatif adalah: Ha : 1, 2, 3 0 Ilustrasi: Berikut ini adalah data gaji manajer pada 10 perusahaan besar, dengan regresi stepwise kita dapat memilih variabel mana saja dari daftar berikut yang signifikan dalam mempengaruhi besarnya gaji para manajer tersebut: No. 1 2 3 4 5 6 Y 15 16 16 16 16 16 X1 3 4 9 8 8 12 X2 15 14 14 11 18 13 X3 1 1 0 0 1 0 X4 200 250 150 200 140 260 X5 22 23 23 23 24 24 X6 1 1 1 1 1 1 X7 40 39 38 52 36 54 X8 22 21 22 22 21 22 X9 0 0 0 1 0 1 X10 5 7 12 12 14 16

16 7 12 0 300 23 1 49 21 0 17 7 16 13 14 0 150 23 1 40 21 0 5 8 16 25 16 1 200 23 1 45 22 0 6 9 240 23 1 48 22 1 9 10 9 19 19 0 Dimana: Y = gaji manajer (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X1 = masa kerja (tahun) X2 = masa pendidikan (tahun) X3 = bonus (1 jika ada, dan 0 jika tidak ada) X4 = Jumlah karyawan yang diawasi (orang) X5 = Aset perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X6 = dewan direksi (1 jika ada, dan 0 jika tidak ada) X7 = umur (tahun) X8 = keuntungan perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi X9 = tanggung jawab internasional (1 jika ada, dan 0 jika tidak) X10 = total penjualan perusahaan 12 bulan terakhir (dalam milyar) Hipotesis: H0 = H0 : 1, 2, 3 = 0 Ha : 1, 2, 3 0 Langkah pengerjaan dengan SPSS adalah dengan memilih Analyze Regression Linear, kemudian masukkan variabel dependen maupun independennya. Model dibuat dengan memasukkan variabel prediktor satu persatu (secara bertahap) mulai dari variabel X yang memiliki korelasi tinggi Langkah-langkahnya: 1. Cari variabel X yang berkorelasi paling tinggi dengan Y, kemudian buat regresinya 2. Pemilihan variabel berikutnya adalah variabel yag memiliki korelasi parsial terbesar dengan Y dan buat model dengan memasukkan variabel tersebut. 3. Uji parameter yang telah ada di dalam model 4. Begitu seterusnya ulangi langkah 2-3 sampai diperoleh model terbaik

CONTOH SOAL:
DATA A sociologist investigating the recent upward shift in homicide trends throughout the United States studied the extent to wich the homicide rate per 100.000 population (Y) is associated with population size (X1), the percent of families with yearly incomes less than $5,000, and the rate of unemployment (X3). Data are provided in the table for a hypotetical sampel of 20 cities. City X1 X2 X3 Y 1 587 16.5 6.2 11.2 2 643 20.5 6.4 13.4 3 635 26.3 9.3 40.7

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

692 1248 643 1964 1531 713 749 7895 762 2793 741 625 854 716 921 595 3353

16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.1 24.7 18.6 24.9 17.9 22.4 20.2 16.9

5.3 7.3 5.9 6.4 7.6 4.9 6.4 6.0 7.4 5.8 8.6 6.5 8.3 6.7 8.6 8.4 6.7

5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.7 36.2 18.1 28.9 14.9 25.8 21.7 25.7

SOAL: Carilah model regresi terbaik antara Y, X1, X2, X3 pada taraf uji 5% dan 10% dengan menggunakan step: a. stepwise regression b. backward elimination Jawab : A. Stepwise regression (regresi bertatar) Langkah 1. Matriks Korelasi X1 X2 X3 Y X1 1 X2 -0.16378 1 X3 -0.23341 0.815418 1 Y -0.0671 0.839778 0.864841 1

Dari matriks di atas variable X3 paling tinggi nilai korelasinya dengan variable respon Y, rx3y = 0.865. Dengan demikian, variable X3 yang pertama dimasukkan ke dalam persamaan regresi. Sumber variasi Regresi X3 Residu Total Df 1 18 19 SS MS Fhit F.05 4.41 F.10 3.01 R2 0.75

1387.59972 1387.69972 53.41 467.602282 25.98 1855.202

Uji F secara keseluruhan untuk variabel X3 menunjukkan bahwa persamaan regresi ini nyata secara statistik dengan R2 = 0.75.

Langkah 2:

Menghitung koefisien korelasi parsial orde ke-1 untuk memilih variabel selanjutnya (X1 dan X2)

ryx1|x3 = 0.276047 (ryx1|x3 )2= 0.076202 (ryx2|x3 )2= 0.2144123


Dari perhitungan di atas, tampak bahwa koefisien korelasi parsial variabel X2 paling tinggi, sehingga variabel X2 dimasukkan ke dalam model. Langkah 3 : mengevaluasi model Y = f(X3,X2) Analisis Varians Regresi Parsial Sumber variasi Df Regresi (X3,X2,X1) 3 R(X1| X2, X3) 1 R(X2| X1, X3) 1 R(X3| X1, X2) 1 Residu 16 Total 19 R2 0.8183

SS 1518,145 30.28554 94.91292 200.3465 337.1571 1855.202

MS 506.0483 30.28554 94.91292 200.3465 21.06607 97.54221

Fhit 24.02 1.44 4.51 9.51

F.05 3.24 4.49 4.49 4.49

F.10 2.46 3.05 3.05 3.05

Dari ketiga nilai F-parsial, baik pada taraf nyata 5% maupun taraf nyata 10%, ternyata variabel X3 yang terkecil dan tidak signifikan, sehingga harus dikeluarkan dari persamaan. Dengan demikian, variabel yang terpilih adalah X2 dan X3dan prosedur regresi bertahap selesai, dengan persamaan akhir : Persamaan Y = f(X3, X2): Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.2% II. Metode Backward Elimination (BE) Langkah 1 : Bentuk persamaan lengkap dan analisis varians tertera di bawah ini : Evaluasi model Persamaan Y = f(X3, X 2, X 1) Yest= -36.76492528 + 0.000762937 X1 + 1.192174211 X2 + 4.719821372 X3 Analisis Varian Regresi Parsial Sumber variasi Db Regresi (X3,X2,X1) 3 R(X1| X2, X3) 1 R(X2| X1, X3) 1 R2 0.8183

JK 1518,145 30.28554 94.91292

RJK 506.0483 30.28554 94.91292

Fhit 24.02 1.44 4.51

F.05 3.24 4.49 4.49

F.10 2.46 3.05 3.05

R(X3| X1, X2) Residu Total

1 16 19

200.3465 337.1571 1855.202

200.3465 21.06607 97.54221

9.51

4.49

3.05

Dari tabel Analisis Varians F-Parsial, tampak bahwa Variabel X1 mempunyai Nilai Fparsial terkecil dan tidak nyata, sehingga harus dikeluarkan dari model. Langkah 2 : mengevaluasi model tanpa menyertakan Variabel X3 : Y = f(X2, X3) R2 0.802

Analisis Varians Regresi Parsial Sumber variasi Df Regresi (X3,X2) 2 R(X2|X3) 1 R(X3|X2) 1 Residu 17 Total 19

SS 1487,145 100.2597 179.5199 367.3426 1855.202

MS 743.9297 100.2597 179.5199 21.60839 97.54221

Fhit 34.43 3.64 8.31

F.05 3.59 4.45 4.45

F.10 2.46 3.03 3.03

Model Persamaan baru Y = f(X3,X2): Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% Model persamaan ini nyata dengan Nilai F hitung keseluruhan 34.3* (nyata baik pada taraf 5% maupun pada taraf 10%) dengan nilai koefisien determinan, R2 = 80.2% dan nyata. Nilai F-parsial variabel X3 dan X2 juga nyata, sehingga kedua variabel tersebut harus dipertahankan. Karena tidak terdapat lagi variabel yang dikeluarkan dari Model, maka persamaan akhir Regresi dengan pendekatan langkah mundur adalah: Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% Kesimpulan : Dari Kedua cara pemilihan model regresi terbaik, ternyata untuk kasus sosial di atas semuanya konsisten. Hanya Variabel X2 (pendapatan keluarga) dan X3(tingkat pengangguran) saja yang terpilih dan nyata memberikan kontribusi dalam menentukan tinggi rendahnya Y (Laju bunuh diri)