Anda di halaman 1dari 4

6.

1 STRATEGIES IN MODEL SELECTION

Model selection untuk regresi logistic mempunyai persoalan yang sama dengan model
selection untuk regresi biasa. Model selection akan makin sulit jika banyaknya variabel
penjelas bertambah. Ada dua tujuan dalam model selection :

a. Model harus cukup kompleks agar cocok dengan data


b. Sederhana dalam menginterpretasi, lebih baik smoothing daripada overfitting
data

6.1.1 How Many Explanatory Variables Can Be In The Model?

Data unbalanced, dengan respon yang relative sedikit dan banyaknya


predictor dibatasi secara efektif dapat mengestimasi effect. Berdasarkan studi
Monte Carlo, menyarankan ketika terdapat kurang dari 10 outcome dari setiap
tipe per predictor mengakibatkan terdapat estimasi parameter yang bias, estimasi
standar error yang buruk, dan error rates untuk uji Wald dan interval
kepercayaan jauh dari nominal level. Jika y=1 hanya 30 kali dari n=1000.
Secara singkat, pedoman ini menjelaskan bahwa model harus berisi tidak lebih
dari tiga predictor.

Banyak prosedur model selection dan tidak semuanya selalu mendapatakan


hasil yang baik. Catatan berlaku untuk regresi biasa yang memiliki generalized
linear model. Contohnya model dengan beberapa variable penjelas mungkin
menunjukan multikolinearitas. Variabel mungkin menunjukan effect yang kecil
karena overlap dengan variable penjelas lainnya. Menghapus variable yang
berlebihan itu begurna, contohnya untuk mereduksi estimasi standar error dari
estimasi effect.

6.1.2 Example: Horseshoe Crab Mating Data Revisited

Data set horseshoe crab memiliki empat variabel penjelas: warna (4


kategori), kondisi tulang belakang (3 kategori), weight, dan width. Kita
konstruksi model regresi logistik yang sesuai dengan keempat variabel untuk
memprediksi apakah kepiting betina memunyai satelit jantan di sekitarnya ( y=1
).

Konstruksi modelnya yaitu,

logit [ P ( Y =1 ) ] =α + β 1 weight+ β 2 width+ β3 c 1 + β 4 c 2+ β 5 c 3+ β6 s1 + β 7 s 2

dimana warna (c i) dan kondisi tulang belakang ( si) adalah variabel kualitatif
(faktor), dengan variabel indikatornya tiga warna pertama dan dua kondisi tulang
belakang pertama.

Dari tabel di atas dapat terlihat dari uji likelihood ratio untuk varibel
independen Y dengan H 0 : β1 =…=β 7 =0, nilai statistik ujinya adalah 40.56
dengan df = 7 (P<0.0001). Maka dapat disimpulkan bahwa terdapat sedikitnya
satu prediktor memberi pengaruh pada Y.

Walaupun terlihat bahwa uji secara keselurahan signifikan, tetapi hasil uji
pada tabel 6.1 tidak meyakinkan. Estimasi dari weight dan width hanya sedikit
lebih besar dari standar errornya. Untuk warna hanya color 2 yang signifikan,
sedangkan untuk tulang belakang perbedaan terbesarnya lebih kecil dari standar
errornya.

Nilai p-value model yang kecil tetapi kurangnya siginifikansi dari tiap
variabel independennya, dikhawatirkan adanya multikolinearitas. Pada section
5.2.2 ditunjukkan pengaruh yang besar dari width. Tetapi weight dan width
berkorelasi tinggi (0.887). Sebenarnya kedua variabel tersebut merupakan
prediktor yang baik, tetapi mubazir untuk menggunakan keduanya. Pada analisis
selanjutnya digunakan variabel width (W) dengan warna (C) dan tulang
belakang (S) sebagai variabel penjelas. Model pertama yaitu (C+ S +W ) yaitu
model dengan efek utama dan pada model kedua (C+ S∗W ) terdapat interaksi S
x W. Tidak biasanya kita mempertimbangkan model dengan interaksi yang tidak
mengandung efek utama yang menyebabkan interaksi.

6.1.3 Stepwise Procedure: Forward Selection and Backward Elimination

Pemilihan forward menambahkan variabel secara berturut-turut, dimana di


setiap tingkat, dilakukan pemilihan variabel yang memberikan perubahan
terbesar. Proses ini berhenti ketika penambahan tidak memengaruhi secara
signifikan.

Eliminasi backward dimulai dengan model yang kompleks dan secara


berturut-turut menghapus variabel. Proses ini berhenti ketika penghapusan
menyebabkan fit yang lemah secara signifikan.

Kedua pendekatan di atas, untuk prediktor kualitatif dengan lebih dari dua
kategori, harus mempertimbangkan variabel keseluruhan pada setiap tingkat. Hal
ini berlaku juga pada interaksi yang mengandung variabel tersebut.

6.1.4 Example: Backward Elimination For Horseshoe Crab Data

Metode untuk mendapatkan model yang parsimoni dimulai dari pengujian


model dengan order paling tinggi atau paling kompleks sampai model yang
hanya memiliki efek utama tanpa interaksi. Pada contoh data kepiting tapal kuda
dilakukan eliminasi backward
Dengan melihat nilai deviance G2 dan nilai AIC yang menurun, model yang
terbaik merupakan model 8 dengan predictor C dimana terdapat satu indicator
warna, 0 jika berwarna hitam dan 1 jika berwarna putih.

6.1.5 Model Selection and The “Correct” Model

Dalam memilih model dari beberapa kandidat, kita tidak boleh berpikir bahwa salah
satu diantaranya yaitu “correct” model. Model apapun adalah penyederhanaan dari
reality. Contohnya, variable width tidak mempunyai efek linear dengan probabilitas
variable satellite.

Apa logikanya jika kita menguji model ketika kita tahu bahwa model tersebut tidak
berpengaruh?. Model sederhana yang cukup memadai memiliki keuntungan untuk
model parsimony. Jika model memiliki bias yang kecil, dapat menjelaskan reality
sangat baik, itu cenderung memberikan estimasi yang lebih akurat.

Anda mungkin juga menyukai