Anda di halaman 1dari 10

STATISTIK MULTIVARIAT

Logistic Regression: Regression with a Binary Dependent Variable

Referensi: Hair et al.

APA ITU ANALISIS REGRESI LOGISTIK?


Analisis regresi logistik adalah teknik statistik yang digunakan ketika variabel dependen
adalah kategoris (nominal atau nonmetrik) dan variabel bebasnya adalah variabel metrik atau
nonmetrik. Regresi logistik dan diskriminan sama-sama digunakan ketika variabel dependennya
adalah kategorik. Bedanya adalah analisis diskriminan memerlukan asumsi multivariat normal dan
kesamaan matriks varian kovarian, sementara regresi logistik tidak memerlukan kedua asumsi
tersebut. Sama seperti analisis diskriminan, regresi logistik tujuan utamanya adalah untuk
mengidentifikasi keanggotaan suatu objek pada kelompok-kelompok. Persamaan umumnya
sebegai berikut:

Y1 = X1 + X2 + X3 + ... + Xn
(binary nonmetric) (nonmetric and metric)

PROSES PENGAMBILAN KEPUTUSAN DENGAN REGRESI LOGISTIK


Penerapan regresi logistik untuk pengambilan keputusan dapat dilihat dari enam tahap
pembangunan model berikut:

1. TAHAP 1: TUJUAN REGRESI LOGISTIK


Regresi logistik sama seperti dengan analisis diskriminan, digunakan untuk tujuan sebagai
berikut:
1. Mengidentifikasi variabel independen yang mempengaruhi keanggotaan kelompok dalam
variabel dependen
2. Menetapkan sistem klasifikasi berdasarkan model logistik untuk menentukan keanggotaan
kelompok
2. TAHAP 2: DESAIN PENELITIAN REGRESI LOGISTIK
Regresi logistik memiliki beberapa karakteristik yang mempengaruhi desain penelitian.
Pertama adalah variabel dependen yang biner, yang mempengaruhi spesifikasi dan estimasi
model. Kedua, berkaitan dengan ukuran sampel, yang dipengaruhi oleh beberapa faktor, di
antaranya penggunaan kemungkinan maksimum sebagai teknik estimasi serta perlunya estimasi
dan ketidaksepakatan sampel seperti analisis diskriminan.

a. Representasi Variabel Dependen Biner


Regresi logistik menggambarkan dua kelompok sebagai variabel biner yang
dinyatakan dengan nilai 0 dan 1. Perlunya memperhatikan pemberian nilai kategori mana
untuk kelompok mana karena berpengaruh pada interpretasi koefisien:
• Misalnya kategori jenis kelamin, nilai 1 untuk perempuan dan nilai 0 untuk laki-
laki. Dalam hal ini, koefisien akan mencerminkan dampak variabel independen terhadap
kemungkinan orang tersebut adalah perempuan (kode 1)
• Misalnya kategori berhasil dan gagal, nilai 1 untuk berhasil dan nilai 0 untuk gagal.
Maka, koefisien menggambarkan dampak pada kemungkinan keberhasilan.
Untuk mendefinisikan hubungan yang dibatasi oleh 0 dan 1, regresi logistik
menggunakankurva logistik untuk mewakili hubungan antara variabel independen dan
dependen sebagai berikut:
Variabel dependen yang bersifat biner, jika dikaitkan dengan penggunaan regresi
berganda maka akan melanggar asumsi normalitas, homoskesdastis, serta tidak
memungkinkan untuk mengatasi pelanggaran melalui metode transformasi variabel. Maka
regresi logistik hadir untuk mengatasi masalah ini.

b. Ukuran Sampel
Hal kedua yang perlu diperhatikan dalam desain penelitian menggunakan analisis
regresi logistik adalah kaitannya dengan ukuran sampel dengan mempertimbangkan hal
berikut:
1. Penggunaan teknik estimasi Maximum Likelihood (MLE) pada regresi logistik
menuntut sampel yang besar sehingga daripada regresi berganda. Misalnya, Hosmer
dan Lemeshow merekomendasikan ukuran sampel lebih besar dari 400. Selain itu,
perlu untuk mempertimbangkan adanya sampel holdout sebagai sarana untuk
memvalidasi model logistik.
2. Ukuran sampel per kelompok kategori variabel dependen perlu juga untuk menjadi
pertimbangan. Ukuran sampel yang direkomendasikan untuk setiap kelompok
setidaknya 10 pengamatan per parameter yang diestimasi. Ini lebih besar dari regresi
berganda, yang mensyaratkan minimal lima pengamatan per parameter, dan itu untuk
sampel keseluruhan.
3. Pertimbangan terakhir adalah kaitannya dengan penggunaan variabel independen
nonmetrik. Ukuran sampel dalam sel-sel yang terbentuk dari kombinasi variabel
independen dan dependen non metrik harus cukup.

3. TAHAP 3: ASUMSI REGRESI LOGISTIK


Keuntungan regresi logistik dibandingkan dengan analisis diskriminan dan regresi
berganda adalah tidak memerlukan asumsi-asumsi seperti bentuk distribusi spesifik dari
variabel independen, asumsi homoskesdastis, dan hubungan linier antara variabel independen
dan variabel dependen.

4. TAHAP 4: ESTIMASI MODEL REGRESI LOGISTIK DAN MENILAI KESESUAIAN


KESELURUHAN
Pada regresi logistik dilakukan transformasi pada variabel dependen, yang berdampak pada
proses estimasi dan koefisien yang dihasilkan untuk variabel independen. Regresi logistik
menggunakan pendekatan untuk menilai kecocokan model secara keseluruhan dengan analisis
diskriminan (yaitu, penggunaan matriks klasifikasi) dan regresi berganda (yaitu,R2
Pengukuran). Bagian berikut membahas proses estimasi diikuti dengan cara penilaian model
fit.
a. Memperkirakan Model Regresi Logistik
Regresi logistik merepresentasikan koefisien estimasi menggunakan transformasi
logit, dimana hal ini memerlukan cara tersendiri dalam proses estimasi dan interpretasi:
1. Transformasi variabel dependen. Model logit menggunakan bentuk spesifik dari kurva
logistik, yang berbentuk S, untuk tetap dalam kisaran 0 hingga 1. Untuk memprediksi
keanggotaan kelompok dari kurva logistik, teknik regresi logistik memprediksi nilai
probabilitas antara 0 dan 1. Probabilitas yang diprediksi ini didasarkan pada nilai
variabel independen dan koefisien yang diestimasi. Jika probabilitas yang diprediksi
lebih besar dari cutoff 0,5, maka prediksinya adalah bahwa hasilnya adalah 1, jika
tidak, hasilnya diprediksi menjadi 0.
2. Estimasi koefisien. Dalam regresi logistik, untuk memprediksi variabel dependen
dengan menggunakan variat yang terdiri dari koefisien logistik dan variabel
independen yang sesuai. Apa yang berbeda adalah bahwa dalam regresi logistik, nilai
prediksi tidak pernah bisa berada di luar kisaran 0 hingga 1.
3. Mengubah probabilitas menjadi odds rasio dan nilai logit. Sama seperti dengan
beberapa regresi, regresi logistik memprediksi variabel dependen metrik, dalam hal ini
nilai probabilitas dibatasi pada kisaran antara 0 dan 1. Agar nilai perkiraan tidak berada
di luar kisaran 0 dan 1, maka dilakukan transformasi logistik.
4. Esttimasi model. Proses estimasi koefisien logistik mirip dengan regresi, meskipun
dalam kasus ini hanya dua nilai yang digunakan untuk variabel dependen (0 dan 1).
Estimasi koefisien menggunakan metode Maximum Likelihood Estimation (MLE).
Mengestimasi koefisien untuk variabel independen menggunakan nilai logit atau nilai
odds sebagai ukuran dependen menggunakan formula sebagai berikut:
b. Menilai Kesesuaian Model yang Diestimasi
Kesesuaian model regresi logistik dapat dinilai dengan dua cara yaitu dengan menilai
kesesuaian estimasi model menggunakan nilai “pseudo”R2, dan menggunakan menguji
akurasi prediksi dengan matriks klasifikasi seperti dalam analisis diskriminan.
1. Model estimation fit. Ukuran dasar seberapa baik prosedur estimasi MLE cocok adalah
nilai likelihood, mirip dengan sums of squares yang digunakan dalam regresi
berganda. Regresi logistik mengukur estimasi model yang sesuai dengan nilai -2 kali
log dari nilai likelihood, disebut sebagai -2LL atau -2 log likelihood. Semakin rendah
nilai -2LL, semakin baik kecocokan model. Nilai -2LL dapat digunakan untuk
membandingkan persamaan untuk perubahan kecocokan atau untuk menghitung
ukuran yang sebanding dengan R2 mengukur dalam regresi berganda. Nilai likelihood
dapat dibandingkan antar persamaan untuk menilai perbedaan kecocokan prediktif dari
satu persamaan ke persamaan lainnya, dengan uji statistik untuk signifikansi
perbedaan ini. Pendekatan dasar mengikuti tiga langkah:
a. Langkah pertama adalah menghitung model nol, yang bertindak sebagai dasar
untuk membuat perbandingan perbaikan model fit.
b. Perkirakan model yang diajukan, yaitu memuat variabel-variabel independen
untuk dimasukkan dalam model regresi logistik.
c. Langkah terakhir adalah menilai signifikansi statistik dari nilai -2LL antara dua
model (model nol versus model yang diusulkan).

Selain uji chi-kuadrat, metode "R2-like" telah dikembangkan dan disajikan dalam
berbagai program statistik untuk mewakili keseluruhan model yang cocok. Pseudo-R2
mirip dengan koefisien determinasi dalam regresi berganda. Nilai pseudo R2 dapat
diturunkan untuk regresi logistik mirip dengan R2 dalam analisis regresi.

Sama seperti regresi berganda, nilai logit R2 berkisar dari 0,0 hingga 1,0. Saat model
yang diusulkan meningkatkan kecocokan model, -2LL nilai menurun. Kecocokan
yang sempurna memiliki nilai -2LL 0,0 dan nilai R2LOGIT 1.0.

Perbandingan dengan Regresi Berganda dalam menilai kecocokan model adalah


sebagai berikut:

2. Sama seperti konsep R2 dari regresi sebagai ukuran kecocokan model secara
keseluruhan, kita dapat melihat ke analisis diskriminan untuk ukuran akurasi prediksi
secara keseluruhan. Dua pendekatan yang paling umum adalah matriks klasifikasi dan
ukuran kecocokan berbasis chi-kuadrat:
a. Pendekatan Matriks Klasifikasi identik dengan yang digunakan dengan analisis
diskriminan, yaitu mengukur seberapa baik keanggotaan kelompok diprediksi dan
mengembangkan hit rasio, dimana persentase diklasifikasikan dengan benar.
b. Ukuran Berbasis Chi-Square. Hosmer dan Lemeshow mengembangkan tes
klasifikasi di mana kasus pertama dibagi menjadi sekitar 10 kelas yang sama.
Kemudian, jumlah kejadian aktual dan prediksi dibandingkan di setiap kelas
dengan statistik chi-kuadrat. Tes ini memberikan ukuran akurasi prediksi yang
komprehensif yang tidak didasarkan pada nilai kemungkinan, melainkan pada
prediksi aktual dari variabel dependen. Penggunaan yang tepat dari tes ini
membutuhkan sampe ukuran setidaknya 50 kasus untuk memastikan bahwa setiap
kelas memiliki setidaknya 5 pengamatan dan umumnya sampel yang lebih besar
karena jumlah kejadian yang diprediksi tidak boleh di bawah 1.

5. TAHAP 5: INTERPRETASI HASIL


Model regresi logistik menghasilkan koefisien untuk variabel independen seperti koefisien
regresi dan sangat berbeda dari pemuatan analisis diskriminan. Yang berbeda dari regresi
berganda adalah bagaimana menginterpretasi koefisien

a. Pengujian Signifikansi Koefisien


Regresi logistik menguji hipotesis koefisien individu seperti yang dilakukan dalam
regresi berganda. Pada regresi berganda, uji statistik untuk melihat apakah koefisien
berbeda signifikan dengan 0. Koefisien 0 menunjukkan bahwa koefisien tidak berpengaruh
terhadap variabel dependen. Dalam regresi logistik, juga menggunakan uji statistik untuk
melihat apakah koefisien logistik berbeda dari 0. Bagaimanapun, dalam regresi logistik
menggunakan logit sebagai ukuran dependen, nilai 0 sesuai dengan odds 1,00 atau
probabilitas 0,50 nilai-nilai yang menunjukkan probabilitas sama untuk setiap kelompok.
Jika dalam regresi berganda uji T digunakan untuk menilai signifikansi masing-masing
koefisien, pada Regresi logistik menggunakan Uji Statistik Wald.

b. Menafsirkan Koefisien
Dari proses estimasi yang dijelaskan sebelumnya, kita tahu bahwa koefisien (B0, B1,
B2, . . . , Bn) sebenarnya adalah ukuran perubahan rasio probabilitas (peluang). Namun,
koefisien logistik sulit untuk ditafsirkan dalam bentuk aslinya karena dinyatakan dalam
logaritma ketika kita menggunakan logit sebagai ukuran dependen. Dengan demikian,
sebagian besar program komputer juga menyediakan koefisien logistik eksponen, yang
hanya merupakan transformasi (antilog) dari koefisien logistik asli. Dengan cara ini, kita
dapat menggunakan koefisien logistik asli atau eksponen untuk interpretasi. Kedua jenis
koefisien logistik berbeda karena mencerminkan hubungan variabel independen dengan
dua bentuk variabel dependen, seperti yang ditunjukkan di sini:
Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen
terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa
peningkatan variabel independen dikaitkan dengan peningkatan probabilitas yang
diprediksi, dan sebaliknya untuk hubungan negatif. Tanda koefisien asli (positif atau
negatif) menunjukkan arah hubungan, seperti yang terlihat pada koefisien regresi.
Koefisien positif meningkatkan probabilitas, sedangkan nilai negatif menurunkan
probabilitas yang diprediksi, karena koefisien asli dinyatakan dalam nilai logit, di mana
nilai 0,0 setara dengan nilai odds 1,0 dan probabilitas 0,50. Dengan demikian, angka negatif
berhubungan dengan peluang kurang dari 1,0 dan probabilitas kurang dari 0,50. Koefisien
eksponen harus diinterpretasikan berbeda karena merupakan logaritma dari koefisien
aslinya. Dengan mengambil logaritma, kita sebenarnya menyatakan koefisien yang
dieksponenkan dalam bentuk odds, yang berarti bahwa koefisien yang dieksponenkan tidak
akan memiliki nilai negatif. Karena logaritma 0 (tidak berpengaruh) adalah 1,0, koefisien
eksponen 1,0 sebenarnya sesuai dengan hubungan tanpa arah. Jadi, koefisien eksponensial
di atas 1,0 mencerminkan hubungan positif dan nilai kurang dari 1,0 menunjukkan
hubungan negatif
Untuk menentukan bagaimana banyak kemungkinan akan berubah mengingat
perubahan satu unit dalam variabel independen, nilai numerik dari koefisien harus
dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan
nonmetrik harus ditafsirkan secara berbeda, karena masing-masing mencerminkan dampak
yang berbeda pada variabel terikat. Meskipun paling tepat untuk menentukan arah
hubungan, koefisien logistik asli kurang berguna dalam menentukan besarnya hubungan.
Mereka mencerminkan perubahan dalam nilai logit (peluang yang dicatat), sebuah unit
ukuran yang tidak dapat dipahami secara khusus dalam menggambarkan seberapa besar
kemungkinan yang benar-benar berubah. Koefisien eksponen secara langsung
mencerminkan besarnya perubahan nilai odds. Karena mereka eksponen, mereka
ditafsirkan sedikit berbeda. Dampaknya bersifat multiplikatif, artinya pengaruh koefisien
tidak ditambahkan pada variabel terikat (odds), tetapi dikalikan untuk setiap perubahan
satuan pada variabel bebas. Dengan demikian, koefisien eksponen 1,0 menunjukkan tidak
ada perubahan (1,0× variabel bebas = tidak ada perubahan). Hasil ini sesuai dengan diskusi
kami sebelumnya, di mana koefisien eksponen kurang dari 1,0 mencerminkan hubungan
negatif dan nilai di atas 1,0 menunjukkan hubungan positif.
Seperti yang kita dibahas dalam regresi berganda, variabel dummy mewakili satu
kategori variabel nonmetrik. Dengan demikian, mereka tidak seperti variabel metrik yang
bervariasi di berbagai nilai, tetapi hanya mengambil nilai 1 atau 0, yang menunjukkan ada
atau tidak adanya karakteristik. Seperti yang kita lihat dalam diskusi sebelumnya untuk
variabel metrik, koefisien eksponensial adalah cara terbaik untuk menafsirkan dampak
variabel dummy, tetapi ditafsirkan secara berbeda dari variabel metrik.

6. TAHAP 6: VALIDASI HASIL


Tahap akhir dari analisis regresi logistik adalah memastikan validitas eksternal maupun
internal. Meskipun regresi logistik tidak terlalu rentan seperti analisis diskriminan terhadap
“overfitting”, proses validasi tetap penting, terutama dengan sampel yang kecil. Pendekatan
yang paling umum untuk menetapkan validitas eksternal adalah penilaian hit rasio baik melalui
sampel terpisah (sampel yang tidak digunakan) atau menggunakan prosedur yang berulang kali
memproses sampel estimasi. Validitas eksternal didukung ketika hit rasio dari pendekatan yang
dipilih melebihi standar perbandingan yang mewakili akurasi prediksi yang diharapkan secara
kebetulan.
Bentuk validasi yang paling umum adalah melalui pembuatan a sampel holdout, juga
disebut sebagai sampel validasi, yang terpisah dari sampel analisis digunakan untuk
memperkirakan model. Tujuannya adalah untuk menerapkan model logistik ke kumpulan
responden yang benar-benar terpisah untuk menilai tingkat akurasi prediksi yang dicapai.
Pendekatan kedua adalah validasi silang, yang menggunakan varian dari holdout sample
dimana uji validitas eksternal menggunakan multiple subset dari total sample. Pendekatan yang
paling banyak digunakan adalah metode jackknife berdasarkan prinsip “leave-one-out”.
Biasanya analisis dilakukan pada k - 1 subsampel, menghilangkan satu pengamatan pada satu
waktu dari sampel k kasus. Model logistik dihitung untuk setiap sampel dan kemudian prediksi
keanggotaan kelompok dari observasi yang dieliminasi dihitung. Setelah semua subsampel
dianalisis, matriks klasifikasi dibuat dan rasio hit dihitung untuk kasus ketidaksepakatan di
setiap subsampel. Pembaca didorong untuk meninjau sendiri proses validasi untuk detail lebih
lanjut.

Anda mungkin juga menyukai