Y1 = X1 + X2 + X3 + ... + Xn
(binary nonmetric) (nonmetric and metric)
b. Ukuran Sampel
Hal kedua yang perlu diperhatikan dalam desain penelitian menggunakan analisis
regresi logistik adalah kaitannya dengan ukuran sampel dengan mempertimbangkan hal
berikut:
1. Penggunaan teknik estimasi Maximum Likelihood (MLE) pada regresi logistik
menuntut sampel yang besar sehingga daripada regresi berganda. Misalnya, Hosmer
dan Lemeshow merekomendasikan ukuran sampel lebih besar dari 400. Selain itu,
perlu untuk mempertimbangkan adanya sampel holdout sebagai sarana untuk
memvalidasi model logistik.
2. Ukuran sampel per kelompok kategori variabel dependen perlu juga untuk menjadi
pertimbangan. Ukuran sampel yang direkomendasikan untuk setiap kelompok
setidaknya 10 pengamatan per parameter yang diestimasi. Ini lebih besar dari regresi
berganda, yang mensyaratkan minimal lima pengamatan per parameter, dan itu untuk
sampel keseluruhan.
3. Pertimbangan terakhir adalah kaitannya dengan penggunaan variabel independen
nonmetrik. Ukuran sampel dalam sel-sel yang terbentuk dari kombinasi variabel
independen dan dependen non metrik harus cukup.
Selain uji chi-kuadrat, metode "R2-like" telah dikembangkan dan disajikan dalam
berbagai program statistik untuk mewakili keseluruhan model yang cocok. Pseudo-R2
mirip dengan koefisien determinasi dalam regresi berganda. Nilai pseudo R2 dapat
diturunkan untuk regresi logistik mirip dengan R2 dalam analisis regresi.
Sama seperti regresi berganda, nilai logit R2 berkisar dari 0,0 hingga 1,0. Saat model
yang diusulkan meningkatkan kecocokan model, -2LL nilai menurun. Kecocokan
yang sempurna memiliki nilai -2LL 0,0 dan nilai R2LOGIT 1.0.
2. Sama seperti konsep R2 dari regresi sebagai ukuran kecocokan model secara
keseluruhan, kita dapat melihat ke analisis diskriminan untuk ukuran akurasi prediksi
secara keseluruhan. Dua pendekatan yang paling umum adalah matriks klasifikasi dan
ukuran kecocokan berbasis chi-kuadrat:
a. Pendekatan Matriks Klasifikasi identik dengan yang digunakan dengan analisis
diskriminan, yaitu mengukur seberapa baik keanggotaan kelompok diprediksi dan
mengembangkan hit rasio, dimana persentase diklasifikasikan dengan benar.
b. Ukuran Berbasis Chi-Square. Hosmer dan Lemeshow mengembangkan tes
klasifikasi di mana kasus pertama dibagi menjadi sekitar 10 kelas yang sama.
Kemudian, jumlah kejadian aktual dan prediksi dibandingkan di setiap kelas
dengan statistik chi-kuadrat. Tes ini memberikan ukuran akurasi prediksi yang
komprehensif yang tidak didasarkan pada nilai kemungkinan, melainkan pada
prediksi aktual dari variabel dependen. Penggunaan yang tepat dari tes ini
membutuhkan sampe ukuran setidaknya 50 kasus untuk memastikan bahwa setiap
kelas memiliki setidaknya 5 pengamatan dan umumnya sampel yang lebih besar
karena jumlah kejadian yang diprediksi tidak boleh di bawah 1.
b. Menafsirkan Koefisien
Dari proses estimasi yang dijelaskan sebelumnya, kita tahu bahwa koefisien (B0, B1,
B2, . . . , Bn) sebenarnya adalah ukuran perubahan rasio probabilitas (peluang). Namun,
koefisien logistik sulit untuk ditafsirkan dalam bentuk aslinya karena dinyatakan dalam
logaritma ketika kita menggunakan logit sebagai ukuran dependen. Dengan demikian,
sebagian besar program komputer juga menyediakan koefisien logistik eksponen, yang
hanya merupakan transformasi (antilog) dari koefisien logistik asli. Dengan cara ini, kita
dapat menggunakan koefisien logistik asli atau eksponen untuk interpretasi. Kedua jenis
koefisien logistik berbeda karena mencerminkan hubungan variabel independen dengan
dua bentuk variabel dependen, seperti yang ditunjukkan di sini:
Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen
terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa
peningkatan variabel independen dikaitkan dengan peningkatan probabilitas yang
diprediksi, dan sebaliknya untuk hubungan negatif. Tanda koefisien asli (positif atau
negatif) menunjukkan arah hubungan, seperti yang terlihat pada koefisien regresi.
Koefisien positif meningkatkan probabilitas, sedangkan nilai negatif menurunkan
probabilitas yang diprediksi, karena koefisien asli dinyatakan dalam nilai logit, di mana
nilai 0,0 setara dengan nilai odds 1,0 dan probabilitas 0,50. Dengan demikian, angka negatif
berhubungan dengan peluang kurang dari 1,0 dan probabilitas kurang dari 0,50. Koefisien
eksponen harus diinterpretasikan berbeda karena merupakan logaritma dari koefisien
aslinya. Dengan mengambil logaritma, kita sebenarnya menyatakan koefisien yang
dieksponenkan dalam bentuk odds, yang berarti bahwa koefisien yang dieksponenkan tidak
akan memiliki nilai negatif. Karena logaritma 0 (tidak berpengaruh) adalah 1,0, koefisien
eksponen 1,0 sebenarnya sesuai dengan hubungan tanpa arah. Jadi, koefisien eksponensial
di atas 1,0 mencerminkan hubungan positif dan nilai kurang dari 1,0 menunjukkan
hubungan negatif
Untuk menentukan bagaimana banyak kemungkinan akan berubah mengingat
perubahan satu unit dalam variabel independen, nilai numerik dari koefisien harus
dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan
nonmetrik harus ditafsirkan secara berbeda, karena masing-masing mencerminkan dampak
yang berbeda pada variabel terikat. Meskipun paling tepat untuk menentukan arah
hubungan, koefisien logistik asli kurang berguna dalam menentukan besarnya hubungan.
Mereka mencerminkan perubahan dalam nilai logit (peluang yang dicatat), sebuah unit
ukuran yang tidak dapat dipahami secara khusus dalam menggambarkan seberapa besar
kemungkinan yang benar-benar berubah. Koefisien eksponen secara langsung
mencerminkan besarnya perubahan nilai odds. Karena mereka eksponen, mereka
ditafsirkan sedikit berbeda. Dampaknya bersifat multiplikatif, artinya pengaruh koefisien
tidak ditambahkan pada variabel terikat (odds), tetapi dikalikan untuk setiap perubahan
satuan pada variabel bebas. Dengan demikian, koefisien eksponen 1,0 menunjukkan tidak
ada perubahan (1,0× variabel bebas = tidak ada perubahan). Hasil ini sesuai dengan diskusi
kami sebelumnya, di mana koefisien eksponen kurang dari 1,0 mencerminkan hubungan
negatif dan nilai di atas 1,0 menunjukkan hubungan positif.
Seperti yang kita dibahas dalam regresi berganda, variabel dummy mewakili satu
kategori variabel nonmetrik. Dengan demikian, mereka tidak seperti variabel metrik yang
bervariasi di berbagai nilai, tetapi hanya mengambil nilai 1 atau 0, yang menunjukkan ada
atau tidak adanya karakteristik. Seperti yang kita lihat dalam diskusi sebelumnya untuk
variabel metrik, koefisien eksponensial adalah cara terbaik untuk menafsirkan dampak
variabel dummy, tetapi ditafsirkan secara berbeda dari variabel metrik.