Model selection untuk regresi logistic mempunyai persoalan yang sama dengan model
selection untuk regresi biasa. Model selection akan makin sulit jika banyaknya variabel
penjelas bertambah. Ada dua tujuan dalam model selection :
dimana warna (c i) dan kondisi tulang belakang ( si) adalah variabel kualitatif
(faktor), dengan variabel indikatornya tiga warna pertama dan dua kondisi tulang
belakang pertama.
Dari tabel di atas dapat terlihat dari uji likelihood ratio untuk varibel
independen Y dengan H 0 : β1 =…=β 7 =0, nilai statistik ujinya adalah 40.56
dengan df = 7 (P<0.0001). Maka dapat disimpulkan bahwa terdapat sedikitnya
satu prediktor memberi pengaruh pada Y.
Walaupun terlihat bahwa uji secara keselurahan signifikan, tetapi hasil uji
pada tabel 6.1 tidak meyakinkan. Estimasi dari weight dan width hanya sedikit
lebih besar dari standar errornya. Untuk warna hanya color 2 yang signifikan,
sedangkan untuk tulang belakang perbedaan terbesarnya lebih kecil dari standar
errornya.
Nilai p-value model yang kecil tetapi kurangnya siginifikansi dari tiap
variabel independennya, dikhawatirkan adanya multikolinearitas. Pada section
5.2.2 ditunjukkan pengaruh yang besar dari width. Tetapi weight dan width
berkorelasi tinggi (0.887). Sebenarnya kedua variabel tersebut merupakan
prediktor yang baik, tetapi mubazir untuk menggunakan keduanya. Pada analisis
selanjutnya digunakan variabel width (W) dengan warna (C) dan tulang
belakang (S) sebagai variabel penjelas. Model pertama yaitu (C+ S +W ) yaitu
model dengan efek utama dan pada model kedua (C+ S∗W ) terdapat interaksi S
x W. Tidak biasanya kita mempertimbangkan model dengan interaksi yang tidak
mengandung efek utama yang menyebabkan interaksi.
Kedua pendekatan di atas, untuk prediktor kualitatif dengan lebih dari dua
kategori, harus mempertimbangkan variabel keseluruhan pada setiap tingkat. Hal
ini berlaku juga pada interaksi yang mengandung variabel tersebut.
Dalam memilih model dari beberapa kandidat, kita tidak boleh berpikir bahwa salah
satu diantaranya yaitu “correct” model. Model apapun adalah penyederhanaan dari
reality. Contohnya, variable width tidak mempunyai efek linear dengan probabilitas
variable satellite.
Apa logikanya jika kita menguji model ketika kita tahu bahwa model tersebut tidak
berpengaruh?. Model sederhana yang cukup memadai memiliki keuntungan untuk
model parsimony. Jika model memiliki bias yang kecil, dapat menjelaskan reality
sangat baik, itu cenderung memberikan estimasi yang lebih akurat.