com
Regresi logistik:
Regresi dengan Biner
Variabel tak bebas
TUJUAN PEMBELAJARAN
Setelah menyelesaikan bab ini, Anda harus dapat melakukan hal berikut:
Menafsirkan hasil analisis regresi logistik dan menilai akurasi prediksi, dengan
membandingkan regresi berganda dan analisis diskriminan.
Memahami kekuatan dan kelemahan regresi logistik dibandingkan dengan analisis
diskriminan dan regresi berganda.
Pratinjau BAB
Regresi logistik adalah bentuk khusus dari regresi yang diformulasikan untuk memprediksi dan
menjelaskan variabel kategoris biner (dua kelompok) daripada ukuran yang bergantung pada metrik.
Bentuk variat regresi logistik mirip dengan variat pada regresi berganda. Variat mewakili hubungan
multivariat tunggal, dengan koefisien seperti regresi yang menunjukkan dampak relatif dari setiap
variabel prediktor.
Perbedaan antara regresi logistik dan analisis diskriminan akan menjadi lebih jelas dalam pembahasan
kita tentang karakteristik unik regresi logistik. Namun banyak kesamaan juga ada di antara kedua metode
tersebut. Ketika asumsi dasar dari kedua metode terpenuhi, mereka masing-masing memberikan hasil prediksi
dan klasifikasi yang sebanding dan menggunakan tindakan diagnostik yang serupa. Regresi logistik,
bagaimanapun, memiliki keuntungan yang kurang terpengaruh daripada analisis diskriminan ketika asumsi
dasar, terutama normalitas variabel, tidak terpenuhi. Itu juga dapat mengakomodasi variabel nonmetrik melalui
pengkodean variabel dummy, seperti halnya regresi. Regresi logistik terbatas, bagaimanapun, untuk prediksi
hanya ukuran tergantung dua kelompok. Jadi, dalam kasus
Dari Bab 6 dari Analisis Data Multivariat, 7/e. Joseph F. Rambut, Jr., William C. Black, Barry J. Babin, Rolph E. Anderson. Hak Cipta
© 2010 oleh Pearson Prentice Hall. Seluruh hak cipta.
313
Regresi Logistik: Regresi dengan Variabel Dependen Biner
yang tiga atau lebih kelompok membentuk ukuran dependen, analisis diskriminan lebih cocok.
Regresi logistik dapat digambarkan sebagai memperkirakan hubungan antara variabel dependen
nonmetrik (biner) tunggal dan satu set variabel independen metrik atau nonmetrik, dalam bentuk umum
ini:
kamu1 = x1 + x2 + x3 + . . . +xn
(nonmetrik biner) (nonmetrik dan metrik)
Regresi logistik memiliki aplikasi luas dalam situasi di mana tujuan utama adalah untuk mengidentifikasi
kelompok yang objek (misalnya, orang, perusahaan, atau produk) milik. Aplikasi potensial termasuk
memprediksi apa pun di mana hasilnya biner (misalnya, Ya/Tidak). Situasi seperti itu termasuk keberhasilan atau
kegagalan produk baru, memutuskan apakah seseorang harus diberikan kredit, atau memprediksi apakah
suatu perusahaan akan berhasil. Dalam setiap contoh, objek jatuh ke dalam salah satu dari dua kelompok, dan
tujuannya adalah untuk memprediksi dan menjelaskan dasar untuk keanggotaan kelompok setiap objek melalui
satu set variabel independen yang dipilih oleh peneliti.
ISTILAH KUNCI
Sebelum memulai bab ini, tinjaulah istilah-istilah kunci untuk mengembangkan pemahaman tentang konsep dan
terminologi yang akan digunakan. Di sepanjang bab, istilah kunci muncul ditebal. Poin-poin penekanan lain dalam bab
dan referensi silang istilah kunci adalah: dicetak miring.
sampel analisis Kelompok kasus yang digunakan dalam memperkirakan regresi logistik model. Ketika kon-
menyusun matriks klasifikasi, sampel asli dibagi secara acak menjadi dua kelompok, satu untuk
estimasi model (sampel analisis) dan yang lainnya untuk validasi ( sampel ketidaksepakatan).
Variabel kategori Lihat variabel nonmetrik.
Matriks klasifikasi Sarana menilai kemampuan prediksi model regresi logistik. Dibuat dengan
melakukan tabulasi silang keanggotaan grup aktual dengan prediksi keanggotaan grup, matriks
ini terdiri dari angka pada diagonal yang mewakili klasifikasi yang benar dan angka di luar
diagonal yang mewakili klasifikasi yang salah.
Validasi silang Prosedur membagi sampel menjadi dua bagian: sampel analisis Digunakan dalam
estimasi model regresi logistik dan sampel ketidaksepakatan digunakan untuk memvalidasi hasil. Validasi
silang menghindari overfitting regresi logistik dengan memungkinkan validasinya pada sampel yang benar-
benar terpisah.
Koefisien logistik eksponen Antilog dari koefisien logistik, yang digunakan untuk tujuan interpretasi dalam
regresi logistik. Koefisien eksponen dikurangi 1,0 sama dengan persentase perubahan dalamkemungkinan.
Misalnya, koefisien eksponensial .20 mewakili perubahan negatif 80 persen dalam peluang (.20 - 1.0 = -.80)
untuk setiap unit perubahan dalam variabel independen (sama seperti jika peluang dikalikan dengan .20).
Dengan demikian, nilai 1,0 sama dengan tidak ada perubahan dalam peluang dan nilai di atas 1,0
menunjukkan peningkatan peluang yang diprediksi.
Rasio hit Persentase objek (individu, responden, perusahaan, dll.) diklasifikasikan dengan
benar oleh model regresi logistik. Hal ini dihitung sebagai jumlah objek di diagonal
matriks klasifikasi dibagi dengan jumlah benda. Juga dikenal sebagaipersentase diklasifikasikan
dengan benar.
Contoh penangguhan Kelompok objek yang tidak digunakan untuk menghitung model regresi logistik. Kelompok ini
kemudian digunakan untuk memvalidasi model regresi logistik dengan sampel responden yang terpisah. Disebut
jugasampel validasi.
Nilai kemungkinan Ukuran yang digunakan dalam regresi logistik untuk mewakili kurangnya kecocokan prediktif.
Meskipun metode ini tidak menggunakan prosedur kuadrat terkecil dalam estimasi model, seperti yang dilakukan
dalam regresi berganda, nilai kemungkinannya mirip dengan jumlah kesalahan kuadrat dalam analisis regresi.
314
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Koefisien logistik Koefisien dalam regresi logistik model yang bertindak sebagai faktor pembobot untuk
variabel independen dalam kaitannya dengan kekuatan diskriminatif mereka. Mirip dengan bobot
regresi atau koefisien diskriminan.
Kurva logistik Kurva berbentuk S yang dibentuk oleh transformasi logit yang menunjukkan
peluang suatu kejadian. Bentuk berbentuk S adalah nonlinier, karena probabilitas suatu kejadian
harus mendekati 0 dan 1, tetapi tidak pernah keluar dari batas-batas ini. Jadi, meskipun
midrange melibatkan komponen linier, probabilitas saat mendekati batas bawah dan atas
probabilitas (0 dan 1) harus mendatar dan menjadi asimtotik pada batas ini.
Regresi logistik Bentuk khusus regresi di mana variabel dependennya adalah variabel
nonmetrik, dikotomis (biner). Meskipun ada beberapa perbedaan, cara interpretasi secara
umum cukup mirip dengan regresi linier.
Analisis log Lihat regresi logistik.
Transformasi logit Transformasi nilai-nilai variabel dependen biner diskrit dari
regresi logistik menjadi kurva berbentuk S (kurva logistik) mewakili peluang suatu kejadian. Probabilitas ini
kemudian digunakan untuk membentukrasio peluang, yang bertindak sebagai variabel terikat dalam regresi
logistik.
Kriteria peluang maksimum Ukuran akurasi prediktif dalam matriks klasifikasi itu adalah
dihitung sebagai persentase responden dalam kelompok terbesar. Alasannya adalah bahwa pilihan tanpa informasi terbaik
adalah dengan mengklasifikasikan setiap pengamatan ke dalam kelompok terbesar.
Variabel nonmetrik Variabel dengan nilai yang hanya berfungsi sebagai label atau alat identifikasi,
disebut juga sebagai kategoris, nominal, biner, kualitatif, atau taksonomi variabel. Nomor pada jersey
sepak bola adalah contohnya.
Kemungkinan Rasio probabilitas suatu kejadian terjadi dengan probabilitas kejadian tidak terjadi,
yang digunakan sebagai ukuran variabel dependen dalam regresi logistik.
Persentase yang diklasifikasikan dengan benar Lihat rasio pukulan.
Kriteria peluang proporsional Kriteria lain untuk menilai rasio pukulan, di mana probabilitas rata-rata
klasifikasi dihitung dengan mempertimbangkan semua ukuran kelompok.
Semu R2 Nilai kecocokan model keseluruhan yang dapat dihitung untuk regresi logistik; sebanding dengan R2
ukuran yang digunakan dalam regresi berganda.
Contoh validasi Lihat sampel ketidaksepakatan.
Variasikan Kombinasi linier yang merepresentasikan jumlah bobot dari dua atau lebih
variabel bebas yang membentuk fungsi diskriminan. Juga disebut kombinasi linier atau
senyawa linier.
Statistik Wald Tes yang digunakan dalam regresi logistik untuk pentingnya koefisien logistik.
Penafsirannya seperti F atau T nilai yang digunakan untuk pengujian signifikansi koefisien regresi.
315
Regresi Logistik: Regresi dengan Variabel Dependen Biner
asumsi terpenuhi, banyak peneliti lebih memilih regresi logistik karena mirip dengan regresi berganda.
Ini memiliki tes statistik langsung, pendekatan serupa untuk menggabungkan variabel metrik dan
nonmetrik dan efek nonlinier, dan berbagai diagnostik. Jadi, untuk alasan ini dan alasan yang lebih
teknis, regresi logistik setara dengan analisis diskriminan dua kelompok dan mungkin lebih cocok dalam
banyak situasi.
tujuan adalah langkah pertama dalam analisis. Kemudian peneliti harus mengatasi masalah desain khusus dan memastikan asumsi yang
mendasari terpenuhi. Analisis dilanjutkan dengan estimasi probabilitas kejadian di masing-masing kelompok dengan menggunakan kurva
logistik sebagai hubungan yang mendasarinya. Ukuran biner diterjemahkan ke dalam peluang terjadinya dan kemudian nilai logit yang
bertindak sebagai ukuran dependen. Bentuk model ditinjau dari variabel bebas hampir identik dengan regresi berganda. Kecocokan model
dinilai seperti analisis diskriminan dengan terlebih dahulu mencari signifikansi statistik dari model keseluruhan dan kemudian menentukan
akurasi prediksi dengan mengembangkan matriks klasifikasi. Kemudian, mengingat sifat unik dari variabel dependen yang
ditransformasikan, koefisien logistik diberikan dalam skala "asli" mereka, yang dalam istilah logaritmik, dan skala yang diubah, yang
ditafsirkan lebih seperti koefisien regresi. Setiap bentuk koefisien merinci karakteristik tertentu dari dampak variabel independen. Akhirnya,
model regresi logistik harus divalidasi dengan sampel ketidaksepakatan. yang ditafsirkan lebih seperti koefisien regresi. Setiap bentuk
koefisien merinci karakteristik tertentu dari dampak variabel independen. Akhirnya, model regresi logistik harus divalidasi dengan sampel
ketidaksepakatan. yang ditafsirkan lebih seperti koefisien regresi. Setiap bentuk koefisien merinci karakteristik tertentu dari dampak
variabel independen. Akhirnya, model regresi logistik harus divalidasi dengan sampel ketidaksepakatan.
Masing-masing tahapan ini dibahas pada bagian berikut. Diskusi kami sebagian besar berfokus
pada perbedaan antara regresi logistik dan analisis diskriminan atau regresi berganda. Dengan
demikian, pembaca juga harus meninjau prinsip-prinsip yang mendasari model dengan variabel
dependen nonmetrik dan bahkan dasar-dasar model regresi berganda.
• Mengidentifikasi variabel bebas yang mempengaruhi keanggotaan kelompok dalam variabel terikat
Tujuan pertama sangat mirip dengan tujuan utama analisis diskriminan dan bahkan regresi berganda
dalam penekanan yang ditempatkan pada penjelasan keanggotaan kelompok dalam hal variabel independen
dalam model. Dalam proses klasifikasi, regresi logistik, seperti analisis diskriminan, memberikan dasar untuk
mengklasifikasikan tidak hanya sampel yang digunakan untuk memperkirakan fungsi diskriminan tetapi juga
pengamatan lain yang dapat memiliki nilai untuk semua variabel independen. Dengan cara ini, analisis regresi
logistik dapat mengklasifikasikan pengamatan lain ke dalam kelompok yang ditentukan.
316
Regresi Logistik: Regresi dengan Variabel Dependen Biner
penggunaan kemungkinan maksimum sebagai teknik estimasi serta perlunya estimasi dan
ketidaksepakatan sampel seperti analisis diskriminan.
• Jika kelompok mewakili karakteristik (misalnya, jenis kelamin), maka salah satu kelompok dapat diberi nilai 1
(misalnya, perempuan) dan kelompok lainnya diberi nilai 0 (misalnya, laki-laki). Dalam situasi seperti itu,
koefisien akan mencerminkan dampak variabel independen terhadap kemungkinan orang tersebut adalah
perempuan (yaitu, kelompok yang diberi kode 1).
• Jika kelompok mewakili hasil atau peristiwa (misalnya, keberhasilan atau kegagalan, pembelian atau
nonpembelian), penetapan kode kelompok berdampak pada interpretasi juga. Asumsikan bahwa
kelompok yang berhasil diberi kode 1, dengan kegagalan diberi kode 0. Kemudian, koefisien mewakili
dampak pada kemungkinan keberhasilan. Sama mudahnya, kode dapat dibalik (kode 1 sekarang
menunjukkan kegagalan) dan koefisien mewakili kekuatan yang meningkatkan kemungkinan kegagalan.
Regresi logistik berbeda dari regresi berganda, bagaimanapun, karena secara khusus dirancang
untuk memprediksi probabilitas suatu peristiwa yang terjadi (yaitu, probabilitas pengamatan berada
dalam kelompok berkode 1). Meskipun nilai probabilitas adalah ukuran metrik, ada perbedaan mendasar
antara regresi berganda dan regresi logistik.
PENGGUNAAN KURVA LOGISTIK Karena variabel terikat biner hanya memiliki nilai 0 dan 1, nilai prediksi
(probabilitas) harus dibatasi agar berada dalam kisaran yang sama. Untuk mendefinisikan hubungan yang
dibatasi oleh 0 dan 1, regresi logistik menggunakankurva logistik untuk mewakili hubungan antara variabel
independen dan dependen (lihat Gambar 1). Pada tingkat variabel independen yang sangat rendah, probabilitas
mendekati 0, tetapi tidak pernah mencapainya. Demikian juga, ketika variabel independen meningkat, nilai
prediksi meningkat ke atas kurva, tetapi kemudian kemiringan mulai menurun sehingga pada setiap tingkat
variabel independen probabilitas akan mendekati 1,0 tetapi tidak pernah melebihinya. Model regresi linier tidak
dapat mengakomodasi hubungan seperti itu, karena secara inheren nonlinier. Hubungan linier regresi, bahkan
dengan tambahan transformasi untuk efek nonlinier, tidak dapat menjamin bahwa nilai prediksi akan tetap
dalam kisaran 0 dan 1.
SIFAT UNIK DARI VARIABEL TERGANTUNG Sifat biner dari variabel terikat (0 atau 1) memiliki sifat
yang melanggar asumsi regresi berganda. Pertama, istilah kesalahan dari variabel diskrit
mengikuti distribusi binomial bukan distribusi normal, sehingga membatalkan semua
pengujian statistik berdasarkan asumsi normalitas. Kedua, varians dari variabel dikotomis
tidak konstan, menciptakan contoh heteroskedastisitas juga. Selain itu, tidak ada
pelanggaran yang dapat diperbaiki melalui transformasi variabel dependen atau independen.
Regresi logistik dikembangkan untuk secara khusus menangani masalah ini. Hubungan yang unik
antara variabel dependen dan independen, bagaimanapun, memerlukan pendekatan yang agak berbeda
dalam memperkirakan variate, menilai goodness-of-fit, dan menafsirkan koefisien bila dibandingkan
dengan regresi berganda.
317
Regresi Logistik: Regresi dengan Variabel Dependen Biner
1.0
0
Rendah Tinggi
Ukuran sampel
Regresi logistik, seperti setiap teknik multivariat lainnya, harus mempertimbangkan ukuran sampel yang dianalisis.
Sampel yang sangat kecil memiliki begitu banyak kesalahan pengambilan sampel sehingga identifikasi semua kecuali
perbedaan terbesar tidak mungkin. Ukuran sampel yang sangat besar meningkatkan kekuatan statistik sehingga setiap
perbedaan, apakah relevan secara praktis atau tidak, akan dianggap signifikan secara statistik. Namun sebagian besar
situasi penelitian berada di suatu tempat di antara ekstrem ini, yang berarti peneliti harus mempertimbangkan dampak
ukuran sampel pada hasil, baik di tingkat keseluruhan maupun berdasarkan kelompok demi kelompok.
UKURAN SAMPEL KESELURUHAN Aspek pertama dari ukuran sampel adalah ukuran sampel keseluruhan
yang diperlukan untuk mendukung estimasi model logistik secara memadai. Salah satu faktor yang
membedakan regresi logistik dengan teknik lainnya adalah penggunaan maximum likelihood (MLE)
sebagai teknik estimasi. MLE membutuhkan sampel yang lebih besar sehingga, semua hal dianggap
sama, regresi logistik akan membutuhkan ukuran sampel yang lebih besar daripada regresi berganda.
Misalnya, Hosmer dan Lemeshow merekomendasikan ukuran sampel lebih besar dari 400 [4]. Selain itu,
peneliti harus sangat mempertimbangkan untuk membagi sampel menjadi sampel analisis dan sampel
ketidaksepakatan sebagai sarana untuk memvalidasi model logistik (lihat diskusi yang lebih rinci di tahap
6). Dalam membuat pemisahan sampel ini, persyaratan ukuran sampel masih berlaku untuk sampel
analisis dan sampel holdout secara terpisah,
UKURAN SAMPEL PER KATEGORI VARIABEL TERGANTUNG Pertimbangan kedua adalah bahwa
ukuran sampel keseluruhan penting, tetapi begitu juga ukuran sampel per kelompok variabel dependen. Seperti yang
telah kita diskusikan untuk analisis diskriminan, ada pertimbangan tentang ukuran kelompok minimum juga. Ukuran
sampel yang direkomendasikan untuk setiap kelompok setidaknya 10 pengamatan per parameter yang diestimasi. Ini
jauh lebih besar daripada regresi berganda, yang memiliki minimal lima pengamatan per parameter, dan itu untuk
sampel keseluruhan, bukan ukuran sampel untuk setiap kelompok, seperti yang terlihat dengan regresi logistik.
318
Regresi Logistik: Regresi dengan Variabel Dependen Biner
dengan variabel terikat biner. Meskipun tidak perlu bagi masing-masing kelompok ini untuk memenuhi persyaratan
ukuran sampel yang dijelaskan di atas, peneliti masih harus menyadari bahwa jika salah satu dari sel-sel ini memiliki
ukuran sampel yang sangat kecil maka sel tersebut secara efektif dihilangkan dari analisis. Selain itu, jika terlalu banyak
dari sel-sel ini memiliki ukuran sampel nol atau sangat kecil, maka model tersebut mungkin mengalami kesulitan untuk
konvergen dan mencapai solusi.
TRANSFORMASI VARIABEL TERGANTUNG Seperti yang ditunjukkan sebelumnya, model logit menggunakan
bentuk spesifik dari kurva logistik, yang berbentuk S, untuk tetap dalam kisaran 0 hingga 1. Untuk
memperkirakan model regresi logistik, kurva nilai prediksi ini dipasang ke data aktual , seperti yang
dilakukan dengan hubungan linier pada regresi berganda. Namun, karena nilai data aktual dari variabel
dependen hanya dapat berupa 1 atau 0, prosesnya agak berbeda.
Gambar 2 menggambarkan dua contoh hipotetis untuk menyesuaikan hubungan logistik dengan
data sampel. Data aktual mewakili apakah suatu peristiwa terjadi atau tidak dengan menetapkan nilai 1
atau 0 untuk hasil (dalam hal ini 1 diberikan ketika peristiwa itu terjadi, 0 jika tidak, tetapi mereka bisa
dengan mudah dibalikkan). Pengamatan diwakili oleh titik-titik di bagian atas atau bawah grafik. Hasil ini
(terjadi atau tidak) terjadi pada setiap nilai variabel independen (yangx sumbu). Pada bagian (a), kurva
logistik tidak dapat memuat data dengan baik, karena sejumlah nilai variabel independen memiliki hasil
(1 dan 0). Dalam hal ini variabel bebas tidak membedakan antara dua hasil, seperti yang ditunjukkan oleh
tingginya tumpang tindih kedua kelompok.
Namun, pada bagian (b), hubungan yang jauh lebih terdefinisi dengan baik didasarkan pada variabel
independen. Nilai yang lebih rendah dari variabel independen sesuai dengan pengamatan dengan 0 untuk
319
Regresi Logistik: Regresi dengan Variabel Dependen Biner
kamu
0
1 2 3 4 5 6 7 8 9 10
x
kamu
0
1 2 3 4 5 6 7 8 9 10
x
variabel dependen, sedangkan nilai yang lebih besar dari variabel independen sesuai dengan pengamatan
tersebut dengan nilai 1 pada variabel dependen. Dengan demikian, kurva logistik harus dapat menyesuaikan
data dengan cukup baik.
Tapi bagaimana kita memprediksi keanggotaan kelompok dari kurva logistik? Untuk setiap
observasi, teknik regresi logistik memprediksi nilai probabilitas antara 0 dan 1. Memplot nilai prediksi
untuk semua nilai variabel independen menghasilkan kurva yang ditunjukkan pada Gambar 2.
Probabilitas diprediksi ini didasarkan pada nilai independen variabel dan koefisien yang diestimasi. Jika
probabilitas yang diprediksi lebih besar dari .50, maka prediksinya adalah bahwa hasilnya adalah 1
(peristiwa itu terjadi); jika tidak, hasilnya diprediksi menjadi 0 (peristiwa tidak terjadi). Mari kembali ke
contoh kita dan lihat cara kerjanya.
Pada bagian (a) dan (b) dari Gambar 2, nilai 6.0 untuk x (variabel independen) sesuai dengan probabilitas
0,50. Pada bagian (a), kita dapat melihat bahwa sejumlah pengamatan dari kedua kelompok berada di kedua sisi
nilai ini, yang mengakibatkan sejumlah kesalahan klasifikasi. Kesalahan klasifikasi paling banyak
320
Regresi Logistik: Regresi dengan Variabel Dependen Biner
terlihat untuk kelompok dengan nilai 1,0, namun bahkan beberapa pengamatan di kelompok lain (variabel
terikat = 0,0) salah diklasifikasikan. Pada bagian (b), kami membuat klasifikasi sempurna dari dua kelompok saat
menggunakan nilai probabilitas .50 sebagai nilai pisah batas.
Jadi, dengan kurva logistik yang diperkirakan, kita dapat memperkirakan probabilitas untuk setiap pengamatan
berdasarkan nilainya untuk variabel independen dan kemudian memprediksi keanggotaan kelompok menggunakan
0,50 sebagai nilai batas. Setelah kita memiliki keanggotaan yang diprediksi, kita dapat membuat matriks klasifikasi
seperti yang dilakukan untuk analisis diskriminan dan menilai akurasi prediksi.
ESTIMASI KOEFISIEN Dari mana kurva itu berasal? Dalam regresi berganda, kami memperkirakan
hubungan linier yang paling sesuai dengan data. Dalam regresi logistik, kami mengikuti proses yang
sama untuk memprediksi variabel dependen dengan abervariasi terdiri dari koefisien logistik
dan variabel independen yang sesuai. Apa yang berbeda adalah bahwa dalam regresi logistik, nilai prediksi
tidak pernah bisa berada di luar kisaran 0 hingga 1. Meskipun diskusi lengkap tentang masalah konseptual dan
statistik yang terlibat dalam proses estimasi berada di luar cakupan bab ini, beberapa sumber yang sangat baik
dengan perawatan lengkap masalah ini tersedia [1, 5, 6]. Kami dapat menjelaskan proses estimasi dalam dua
langkah dasar saat kami memperkenalkan beberapa istilah umum dan memberikan gambaran singkat tentang
proses tersebut.
MENGUBAH PROBABILITAS MENJADI GANJIL DAN NILAI LOGIT Sama seperti dengan beberapa regresi-
sion, regresi logistik memprediksi variabel dependen metrik, dalam hal ini nilai probabilitas dibatasi pada
kisaran antara 0 dan 1. Tapi bagaimana kita bisa memastikan bahwa nilai perkiraan tidak berada di luar
kisaran ini? Transformasi logistik menyelesaikan proses ini dalam dua langkah.
Menyatakan kembali Probabilitas sebagai Peluang. Dalam bentuk aslinya, probabilitas tidak dibatasi oleh nilai
antara 0 dan 1. Jadi, bagaimana jika kita menyatakan kembali probabilitas sedemikian rupa sehingga variabel baru akan
selalu berada di antara 0 dan 1? Kami menyatakan kembali dengan menyatakan probabilitas sebagaikemungkinan—
rasio probabilitas dua hasil atau peristiwa, MasalahSaya (1 - MasalahSaya). Dalam bentuk ini, setiap nilai probabilitas
sekarang dinyatakan dalam variabel metrik yang dapat diestimasi secara langsung. Nilai peluang apa pun dapat diubah
kembali menjadi probabilitas yang berada di antara 0 dan 1. Kami telah memecahkan masalah membatasi nilai prediksi
ke dalam 0 dan 1 dengan memprediksi nilai peluang dan kemudian mengubahnya menjadi probabilitas.
Mari kita gunakan beberapa contoh probabilitas keberhasilan atau kegagalan untuk mengilustrasikan
bagaimana peluang dihitung. Jika probabilitas sukses adalah 0,80, maka kita juga tahu bahwa probabilitas hasil
alternatif (yaitu, kegagalan) adalah 0,20 (.20 = 1.0 - .80). Probabilitas ini berarti bahwa peluang keberhasilan adalah
4.0 (.80 .20), atau bahwa keberhasilan empat kali lebih mungkin terjadi daripada kegagalan. Sebaliknya, kita dapat
menyatakan peluang kegagalan sebagai .25 (.20 .80), atau dengan kata lain, kegagalan terjadi pada seperempat tingkat
keberhasilan. Jadi, tidak peduli hasil mana yang kita lihat (sukses atau gagal), kita dapat menyatakan probabilitas
sebagai peluang.
Seperti yang mungkin Anda duga, probabilitas 0,50 menghasilkan odds 1,0 (kedua hasil memiliki peluang
yang sama untuk terjadi). Odds kurang dari 1,0 mewakili probabilitas kurang dari 0,50 dan odds yang lebih
besar dari 1,0 sesuai dengan probabilitas yang lebih besar dari 0,50. Kami sekarang memiliki variabel metrik
yang selalu dapat dikonversi kembali ke nilai probabilitas dalam 0 dan 1.
Menghitung Nilai Logit. Variabel odds memecahkan masalah membuat perkiraan probabilitas
antara 0 dan 1, tetapi kami memiliki masalah lain: Bagaimana kami menjaga nilai odds agar tidak di
bawah 0, yang merupakan batas bawah peluang (tidak ada batas atas). Solusinya adalah menghitung
apa yang disebutnilai log, yang dihitung dengan mengambil logaritma peluang. Peluang kurang dari
1,0 akan memiliki nilai logit negatif, rasio odds yang lebih besar dari 1,0 akan memiliki nilai logit positif, dan
rasio peluang 1,0 (sesuai dengan probabilitas .5) memiliki nilai logit 0. Selain itu, tidak peduli seberapa rendah
nilai negatifnya mendapat, itu masih dapat diubah dengan mengambil antilog menjadi nilai odds yang lebih
besar dari 0. Berikut ini menunjukkan beberapa nilai probabilitas tipikal dan nilai odds dan log odds yang terkait.
321
Regresi Logistik: Regresi dengan Variabel Dependen Biner
. 00 . 00 NC
. 10 . 111 - 2.197
. 30 . 428 - . 847
. 50 1.000 . 000
. 70 2.333 . 847
. 90 9.000 2.197
1.00 NC NC
Dengan nilai logit, sekarang kita memiliki variabel metrik yang dapat memiliki nilai positif dan negatif
tetapi selalu dapat ditransformasikan kembali ke nilai probabilitas antara 0 dan 1. Namun, perlu diketahui
bahwa logit tidak pernah dapat benar-benar mencapai salah satu dari 0 atau 1. Nilai ini sekarang menjadi
variabel dependen dari model regresi logistik.
ESTIMASI MODEL Setelah kami memahami bagaimana menginterpretasikan nilai dari peluang atau ukuran logit,
kami dapat melanjutkan untuk menggunakannya sebagai ukuran dependen dalam regresi logistik kami. Proses
estimasi koefisien logistik serupa dengan yang digunakan dalam regresi, meskipun dalam kasus ini hanya dua
nilai aktual yang digunakan untuk variabel dependen (0 dan 1). Selain itu, alih-alih menggunakan kuadrat
terkecil biasa sebagai sarana untuk memperkirakan model, metode kemungkinan maksimum digunakan.
masalah
Eetvn
LogitSaya = lnA b = b +0 b X +1 1+ Bn xn
1 - masalahperistiwa
atau
KemungkinanSaya = A
masalahperistiwa
b = eB0+b1 x1+Á+Bn xn
1 - masalahperistiwa
Kedua formulasi model tersebut ekuivalen, tetapi mana yang dipilih akan mempengaruhi bagaimana koefisien diestimasi.
Banyak program perangkat lunak menyediakan koefisien logistik dalam kedua bentuk, sehingga peneliti harus memahami
bagaimana menafsirkan setiap bentuk. Kami akan membahas masalah interpretasi di bagian selanjutnya.
Proses ini dapat menampung satu atau lebih variabel bebas, dan variabel bebas tersebut
dapat berupa metrik maupun nonmetrik (biner). Seperti yang akan kita lihat nanti dalam diskusi
kita tentang menafsirkan koefisien, kedua bentuk koefisien mencerminkan arah dan besarnya
hubungan, tetapi ditafsirkan secara berbeda.
322
Regresi Logistik: Regresi dengan Variabel Dependen Biner
KESESUAIAN MODEL ESTIMASI Ukuran dasar seberapa baik prosedur estimasi kemungkinan maksimum cocok adalah nilai
kemungkinan, mirip dengan jumlah nilai kuadrat yang digunakan dalam regresi berganda. Regresi logistik mengukur
estimasi model yang sesuai dengan nilai -2 kali log dari nilai kemungkinan, disebut sebagai -2II atau -2 log
kemungkinan. Nilai minimum untuk -2II adalah 0, yang sesuai dengan kecocokan sempurna (kemungkinan = 1 dan -2II
maka 0). Jadi, semakin rendah -2II nilai, semakin baik kecocokan model. Seperti yang akan dibahas pada bagian berikut,
-2II nilai dapat digunakan untuk membandingkan persamaan untuk perubahan kecocokan atau untuk menghitung
ukuran yang sebanding dengan R2 mengukur dalam regresi berganda.
Perbandingan Antara Model. Nilai kemungkinan dapat dibandingkan antar persamaan untuk menilai
perbedaan kecocokan prediktif dari satu persamaan ke persamaan lainnya, dengan uji statistik untuk
signifikansi perbedaan ini. Pendekatan dasar mengikuti tiga langkah:
1. Perkirakan model nol. Langkah pertama adalah menghitung model nol, yang bertindak sebagai dasar
untuk membuat perbandingan perbaikan model fit. Model nol yang paling umum adalah model tanpa
variabel bebas, yang mirip dengan menghitung jumlah kuadrat hanya dengan menggunakan rata-rata
dalam regresi berganda. Logika di balik bentuk model nol ini adalah ia dapat bertindak sebagai dasar
yang dengannya model apa pun yang mengandung variabel independen dapat dibandingkan.
2. Perkirakan model yang diusulkan. Model ini memuat variabel-variabel independen untuk dimasukkan
dalam model regresi logistik. Semoga model fit akan meningkat dari model nol dan menghasilkan -2 .
yang lebih rendahII nilai. Sejumlah model yang diusulkan dapat diperkirakan (misalnya, model dengan
satu, dua, dan tiga variabel independen semuanya dapat menjadi model yang diusulkan terpisah).
3. Menilai -perbedaan 2LL. Langkah terakhir adalah menilai signifikansi statistik dari -2II
nilai antara dua model (model nol versus model yang diusulkan). Jika uji statistik mendukung perbedaan
yang signifikan, maka kita dapat menyatakan bahwa himpunan variabel independen dalam model yang
diusulkan signifikan dalam meningkatkan kecocokan estimasi model.
Dengan cara yang sama, dua model yang diusulkan dapat dibandingkan. Dalam hal ini, -2II
perbedaan mencerminkan perbedaan model fit karena spesifikasi model yang berbeda. Misalnya, model
dengan dua variabel independen dapat dibandingkan dengan model dengan tiga variabel independen untuk
menilai peningkatan yang diperoleh dengan menambahkan satu variabel independen. Dalam hal ini, satu
model dipilih untuk bertindak sebagai model nol dan kemudian dibandingkan dengan model lain.
Sebagai contoh, asumsikan bahwa kita ingin menguji signifikansi satu set variabel independen secara
kolektif untuk melihat apakah mereka meningkatkan kecocokan model. Model nol akan ditetapkan sebagai
model tanpa variabel-variabel ini dan model yang diusulkan akan mencakup variabel-variabel yang akan
dievaluasi. Perbedaan -2II akan menandakan peningkatan dari set variabel independen. Kita bisa melakukan tes
serupa dari perbedaan -2II antara pasangan model lain yang bervariasi dalam jumlah variabel independen yang
dimasukkan dalam setiap model.
Uji chi-kuadrat dan uji terkait untuk signifikansi statistik digunakan untuk mengevaluasi
penurunan nilai kemungkinan log. Namun, uji statistik ini sangat sensitif terhadap ukuran sampel
(untuk sampel kecil lebih sulit untuk menunjukkan signifikansi statistik, dan sebaliknya, untuk
sampel besar). Oleh karena itu, peneliti harus sangat berhati-hati dalam menarik kesimpulan
hanya berdasarkan signifikansi uji chi-kuadrat dalam regresi logistik.
323
Regresi Logistik: Regresi dengan Variabel Dependen Biner
model cocok. Pseudo iniR2 langkah-langkah ditafsirkan dengan cara yang mirip dengan koefisien determinasi
dalam regresi berganda. Asemu R2 nilai dapat dengan mudah diturunkan untuk regresi logistik mirip dengan
R2 nilai dalam analisis regresi [3]. pseudoR2 untuk model logit (R2 masuk) dapat dihitung sebagai
- 2IIbatal - A-2IImodelB
R2masuk =
- 2IIbatal
Sama seperti rekan regresi bergandanya, logit R2 nilai berkisar dari 0,0 hingga 1,0. Saat model yang
diusulkan meningkatkan kecocokan model, -2II nilai menurun. Kecocokan yang sempurna memiliki -2II nilai 0,0
dan R2 masuk dari 1.0.
Dua ukuran lain serupa dalam desain dengan pseudo R2 nilai dan umumnya dikategorikan sebagai pseudo R2
langkah-langkah juga. Cox dan SnellR2 ukuran beroperasi dengan cara yang sama, dengan nilai yang lebih tinggi
menunjukkan kecocokan model yang lebih besar. Namun, ukuran ini terbatas karena tidak dapat mencapai nilai
maksimum 1, sehingga Nagelkerke mengusulkan modifikasi yang memiliki kisaran 0 hingga 1. Kedua ukuran tambahan
ini ditafsirkan sebagai mencerminkan jumlah variasi yang diperhitungkan oleh model logistik. , dengan 1,0
menunjukkan kecocokan model yang sempurna.
Perbandingan dengan Regresi Berganda. Dalam membahas prosedur untuk menilai model fit dalam
regresi logistik, kami membuat beberapa referensi persamaan dengan regresi berganda dalam hal
berbagai ukuran model fit. Pada tabel berikut, kami menunjukkan korespondensi antara konsep yang
digunakan dalam regresi berganda dan rekan-rekan mereka dalam regresi logistik.
Seperti yang dapat kita lihat, konsep antara regresi berganda dan regresi logistik serupa. Pendekatan dasar
untuk menguji kecocokan model secara keseluruhan dapat dibandingkan, dengan perbedaan yang timbul dari metode
estimasi yang digunakan dalam kedua teknik tersebut.
AKURASI PREDIKSI Sama seperti kami meminjam konsep R2 dari regresi sebagai ukuran kecocokan model secara
keseluruhan, kita dapat melihat ke analisis diskriminan untuk ukuran akurasi prediksi secara keseluruhan. Dua
pendekatan yang paling umum adalah matriks klasifikasi dan ukuran kecocokan berbasis chi-kuadrat.
Matriks Klasifikasi. Ini matriks klasifikasi Pendekatan ini identik dengan yang digunakan dengan
analisis diskriminan, yaitu mengukur seberapa baik keanggotaan kelompok diprediksi dan berkembang
rasio pukulan, yang mana persentase diklasifikasikan dengan benar. Kasus regresi logistik akan selalu mencakup
hanya dua kelompok, tetapi semua tindakan yang terkait dengan peluang (misalnya, kesempatan maksimum atau
peluang proporsional) yang digunakan sebelumnya untuk analisis diskriminan juga berlaku di sini.
Ukuran Berbasis Chi-Square. Hosmer dan Lemeshow [4] mengembangkan tes klasifikasi di mana
kasus pertama dibagi menjadi sekitar 10 kelas yang sama. Kemudian, jumlah kejadian aktual dan
prediksi dibandingkan di setiap kelas dengan statistik chi-kuadrat. Tes ini memberikan ukuran akurasi
prediksi yang komprehensif yang tidak didasarkan pada nilai kemungkinan, melainkan pada prediksi
aktual dari variabel dependen. Penggunaan yang tepat dari tes ini membutuhkan sampel
324
Regresi Logistik: Regresi dengan Variabel Dependen Biner
ukuran setidaknya 50 kasus untuk memastikan bahwa setiap kelas memiliki setidaknya 5 pengamatan dan umumnya
sampel yang lebih besar karena jumlah kejadian yang diprediksi tidak boleh di bawah 1. Selain itu, statistik chi-kuadrat
sensitif terhadap ukuran sampel, memungkinkan pengukuran ini untuk menemukan perbedaan kecil yang signifikan
secara statistik ketika ukuran sampel menjadi besar.
Kami biasanya memeriksa sebanyak mungkin ukuran model fit ini. Mudah-mudahan, konvergensi
indikasi dari langkah-langkah ini akan memberikan dukungan yang diperlukan bagi peneliti dalam
mengevaluasi model fit secara keseluruhan.
Menafsirkan Koefisien
Salah satu keuntungan dari regresi logistik adalah bahwa kita hanya perlu mengetahui apakah suatu peristiwa
(pembelian atau tidak, risiko kredit yang baik atau tidak, kegagalan atau keberhasilan perusahaan) terjadi atau
tidak untuk mendefinisikan nilai dikotomis sebagai variabel terikat kita. Namun, ketika kami menganalisis data
ini menggunakan transformasi logistik, regresi logistik dan koefisiennya memiliki arti yang agak berbeda dari
yang ditemukan dalam regresi dengan variabel dependen metrik. Demikian pula, beban diskriminan dari
analisis diskriminan dua kelompok ditafsirkan berbeda dari koefisien logistik.
Dari proses estimasi yang dijelaskan sebelumnya, kita tahu bahwa koefisien (B0, B1, B2, . . . ,
Bn) sebenarnya adalah ukuran perubahan rasio probabilitas (peluang). Namun, koefisien logistik
sulit untuk ditafsirkan dalam bentuk aslinya karena dinyatakan dalam logaritma ketika kita
menggunakan logit sebagai ukuran dependen. Dengan demikian, sebagian besar program
komputer juga menyediakankoefisien logistik eksponen, yang hanya merupakan transformasi
(antilog) dari koefisien logistik asli. Dengan cara ini, kita dapat menggunakan koefisien logistik asli
atau eksponen untuk interpretasi. Kedua jenis koefisien logistik berbeda karena mencerminkan
325
Regresi Logistik: Regresi dengan Variabel Dependen Biner
hubungan variabel independen dengan dua bentuk variabel dependen, seperti yang ditunjukkan
di sini:
Kita akan membahas di bagian berikutnya bagaimana setiap bentuk koefisien mencerminkan baik arah
maupun besaran hubungan variabel bebas, tetapi memerlukan metode interpretasi yang berbeda.
ARAH HUBUNGAN Arah hubungan (positif atau negatif) mencerminkan perubahan variabel
dependen terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa
peningkatan variabel independen dikaitkan dengan peningkatan probabilitas yang diprediksi,
dan sebaliknya untuk hubungan negatif. Kita akan melihat bahwa arah hubungan
direfleksikan secara berbeda untuk koefisien logistik asli dan eksponen.
Menafsirkan Arah Koefisien Asli. Tanda koefisien asli
(positif atau negatif) menunjukkan arah hubungan, seperti yang terlihat pada koefisien regresi.
Koefisien positif meningkatkan probabilitas, sedangkan nilai negatif menurunkan probabilitas
yang diprediksi, karena koefisien asli dinyatakan dalam nilai logit, di mana nilai 0,0 setara dengan
nilai odds 1,0 dan probabilitas 0,50. Dengan demikian, angka negatif berhubungan dengan
peluang kurang dari 1,0 dan probabilitas kurang dari 0,50.
Contoh Interpretasi. Mari kita lihat contoh sederhana untuk melihat apa yang kita maksud dalam hal
perbedaan antara dua bentuk koefisien logistik. JikaBSaya (koefisien asli) adalah positif, transformasinya
(koefisien eksponensial) akan lebih besar dari 1, yang berarti bahwa peluang akan meningkat untuk setiap
perubahan positif dalam variabel independen. Dengan demikian model akan memiliki kemungkinan terjadinya
yang diprediksi lebih tinggi. Begitu juga jikaBSaya negatif, koefisien eksponen kurang dari
1.0 dan peluang akan berkurang. Koefisien nol sama dengan nilai koefisien eksponensial 1,0,
sehingga tidak ada perubahan dalam peluang. Diskusi yang lebih rinci tentang interpretasi
koefisien, transformasi logistik, dan prosedur estimasi dapat ditemukan di banyak teks [4, 5, 6].
326
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Koefisien Logistik Asli. Meskipun paling tepat untuk menentukan arah hubungan, koefisien logistik
asli kurang berguna dalam menentukan besarnya hubungan. Mereka mencerminkan perubahan dalam
nilai logit (peluang yang dicatat), sebuah unit ukuran yang tidak dapat dipahami secara khusus dalam
menggambarkan seberapa besar kemungkinan yang benar-benar berubah.
Contoh Menilai Besarnya Perubahan. Mungkin pendekatan yang lebih mudah untuk ditentukan
besarnya perubahan probabilitas dari nilai-nilai tersebut adalah sebagai berikut:
Contoh berikut mengilustrasikan cara menghitung perubahan probabilitas karena perubahan satu unit
dalam variabel independen untuk rentang koefisien eksponen:
Nilai
Jika koefisien eksponensial adalah .20, perubahan satu unit dalam variabel independen akan
mengurangi peluang sebesar 80 persen (sama seperti jika peluang dikalikan dengan .20). Demikian juga,
koefisien eksponensial 1,5 menunjukkan peningkatan 50 persen dalam rasio odds.
Seorang peneliti yang mengetahui peluang yang ada dan ingin menghitung nilai peluang baru untuk perubahan
variabel independen dapat melakukannya secara langsung melalui koefisien eksponen sebagai berikut:
Peluang dapat diterjemahkan ke dalam nilai probabilitas dengan rumus sederhana Kemungkinan = Peluang/ (1 +
Kemungkinan). Jadi, peluang 3,525 diterjemahkan menjadi probabilitas 77,9 persen (3,25/(1 + 3,25) =
. 779), menunjukkan bahwa peningkatan variabel independen sebesar 1,5 poin akan meningkatkan probabilitas
dari 50 persen menjadi 78 persen, meningkat 28 persen.
Sifat nonlinier dari kurva logistik ditunjukkan, bagaimanapun, ketika kita menerapkan peningkatan yang
sama pada peluang lagi. Kali ini, asumsikan bahwa variabel independen meningkat 1,5 poin lagi, menjadi 8,5.
Apakah kita juga mengharapkan kemungkinan untuk meningkat sebesar 28 persen lagi? Tidak bisa, karena itu
akan membuat probabilitas lebih besar dari 100 persen (78% + 28% = 106%). Dengan demikian,
327
Regresi Logistik: Regresi dengan Variabel Dependen Biner
probabilitas kenaikan atau penurunan melambat sehingga kurva mendekati, tetapi tidak pernah mencapai dua titik
akhir (0 dan 1). Dalam contoh ini, peningkatan 1,5 poin lainnya menciptakan nilai peluang baru sebesar 12.426, yang
diterjemahkan ke dalam peluang sebesar 92,6 persen, peningkatan sebesar 14 persen. Perhatikan bahwa dalam kasus
peningkatan probabilitas dari 78 persen ini, peningkatan probabilitas untuk peningkatan 1,5 dalam variabel independen
adalah setengah (14%) dari peningkatan yang sama ketika probabilitasnya adalah 50 persen.
Hasilnya adalah peneliti mungkin menemukan bahwa koefisien eksponensial cukup berguna tidak
hanya dalam menilai dampak variabel independen, tetapi juga dalam menghitung besarnya efek.
INTERPRETING MAGNITUDE UNTUK VARIABEL INDEPENDEN NONMETRIK (DUMMY) Seperti yang kita
dibahas dalam regresi berganda, variabel dummy mewakili satu kategori variabel nonmetrik.
Dengan demikian, mereka tidak seperti variabel metrik yang bervariasi di berbagai nilai, tetapi
hanya mengambil nilai 1 atau 0, yang menunjukkan ada atau tidak adanya karakteristik. Seperti
yang kita lihat dalam diskusi sebelumnya untuk variabel metrik, koefisien eksponensial adalah cara
terbaik untuk menafsirkan dampak variabel dummy, tetapi ditafsirkan secara berbeda dari variabel
metrik.
Setiap kali variabel dummy digunakan, penting untuk mencatat referensi atau kategori yang dihilangkan.
Dengan cara yang mirip dengan interpretasi dalam regresi, koefisien eksponensial mewakili tingkat relatif dari
variabel dependen untuk kelompok yang diwakili versus kelompok yang dihilangkan. Hubungan ini dapat kita
nyatakan sebagai berikut:
Mari kita gunakan contoh sederhana dari dua kelompok untuk mengilustrasikan poin-poin ini. Jika variabel
nonmetrik adalah jenis kelamin, dua kemungkinannya adalah laki-laki dan perempuan. Variabel dummy dapat
didefinisikan sebagai mewakili laki-laki (yaitu, nilai 1 jika laki-laki, 0 jika perempuan) atau perempuan (yaitu, nilai 1 jika
perempuan, 0 jika laki-laki). Bagaimanapun cara yang dipilih, bagaimanapun, menentukan bagaimana koefisien
diinterpretasikan. Mari kita asumsikan bahwa 1 diberikan kepada perempuan, membuat koefisien eksponensial
mewakili persentase odds rasio perempuan dibandingkan dengan laki-laki. Jika koefisiennya 1,25, maka wanita memiliki
peluang 25 persen lebih tinggi daripada pria (1,25 - 1,0 = .25). Demikian juga, jika koefisiennya adalah 0,80, maka
peluang untuk perempuan adalah 20 persen lebih kecil (.80 - 1.0 = -.20) daripada laki-laki.
328
Regresi Logistik: Regresi dengan Variabel Dependen Biner
ATURAN UMUM 1
Regresi logistik
• Regresi logistik adalah metode yang lebih disukai untuk variabel dependen dua kelompok (biner) karena
ketahanannya, kemudahan interpretasi, dan diagnostiknya
• Pertimbangan ukuran sampel untuk regresi logistik terutama difokuskan pada ukuran setiap kelompok,
yang seharusnya memiliki 10 kali jumlah koefisien model yang diestimasi
• Persyaratan ukuran sampel harus dipenuhi baik dalam analisis maupun sampel yang tidak digunakan
• Uji signifikansi model dilakukan dengan uji chi-kuadrat terhadap perbedaan nilai
kemungkinan log (-2II) antara dua model
• Koefisien dinyatakan dalam dua bentuk: asli dan eksponen untuk membantu interpretasi
• Interpretasi koefisien arah dan besaran adalah sebagai berikut:
• Arah dapat dinilai secara langsung dalam koefisien asli (tanda positif atau negatif) atau secara
tidak langsung dalam koefisien eksponen (kurang dari 1 negatif, lebih besar dari 1 positif)
• Besaran paling baik dinilai dengan koefisien eksponensial, dengan persentase perubahan
variabel terikat ditunjukkan oleh:
329
Regresi Logistik: Regresi dengan Variabel Dependen Biner
2. Menangani variabel independen kategori dengan mudah, sedangkan dalam analisis diskriminan
penggunaan variabel dummy menimbulkan masalah dengan persamaan varians-kovarians.
3. Hasil empiris paralel dengan regresi berganda dalam hal interpretasinya dan tindakan
diagnostik casewise yang tersedia untuk memeriksa residu.
Isu-isu yang dibahas dalam tiga tahap pertama dari proses pengambilan keputusan identik untuk analisis
diskriminan dua kelompok dan regresi logistik.
Masalah penelitian masih untuk mengetahui apakah perbedaan persepsi HBAT (x6 ke x18)
ada antara pelanggan di AS/Amerika Utara versus pelanggan di seluruh dunia (x4). Sampel
sebanyak 100 pelanggan dibagi menjadi sampel analisis sebanyak 60 observasi, dengan 40
observasi sisanya merupakan sampel holdout atau validasi. Kami sekarang fokus pada hasil yang
berasal dari penggunaan regresi logistik untuk memperkirakan dan memahami perbedaan antara
kedua jenis pelanggan ini.
ESTIMASI MODEL LANGKAH Model regresi logistik bertahap diperkirakan seperti regresi berganda di mana model
dasar pertama kali diperkirakan memberikan standar untuk perbandingan (lihat diskusi sebelumnya untuk lebih
detail). Dalam regresi berganda, mean digunakan untuk menetapkan model dasar dan menghitung jumlah
kuadrat total. Dalam regresi logistik, proses yang sama digunakan, dengan rata-rata yang digunakan dalam
model yang diestimasi bukan untuk menghitung jumlah kuadrat, melainkan untuk menghitung nilai
kemungkinan log. Dari model ini, korelasi parsial untuk setiap variabel dapat ditetapkan dan variabel yang
paling diskriminatif dipilih dalam model bertahap sesuai dengan kriteria pemilihan.
330
Regresi Logistik: Regresi dengan Variabel Dependen Biner
TABEL 1 Statistik Deskriptif Kelompok dan Uji Kesetaraan untuk Sampel Estimasi
Memperkirakan Model Dasar. Tabel 2 berisi hasil model dasar untuk analisis regresi logistik
berdasarkan 60 pengamatan dalam sampel analisis. Nilai kemungkinan log (-2LL) adalah 82.108. Statistik
skor, ukuran asosiasi yang digunakan dalam regresi logistik, adalah ukuran yang digunakan untuk
memilih variabel dalam prosedur bertahap. Beberapa kriteria dapat digunakan untuk memandu entri:
pengurangan terbesar dalam -2II nilai, koefisien Wald terbesar, atau probabilitas bersyarat tertinggi.
Dalam contoh kami, kami menggunakan kriteria pengurangan rasio kemungkinan log.
Dalam meninjau statistik skor variabel tidak dalam model saat ini, kita melihat bahwa lima variabel yang
sama dengan perbedaan yang signifikan secara statistik (x6, x11, x12, x13, dan x17) adalah satu-satunya variabel
dengan statistik skor signifikan pada Tabel 2. Karena prosedur bertahap memilih variabel dengan statistik skor
tertinggi, x13 harus menjadi variabel yang ditambahkan pada langkah pertama.
Estimasi Bertahap: Menambahkan Variabel Pertama, X13. Seperti yang diharapkan, x13 dipilih untuk
entri pada langkah pertama proses estimasi (lihat Tabel 3). Ini sesuai dengan statistik skor
tertinggi di semua 13 variabel persepsi. masuknyax13 ke dalam model regresi logistik diperoleh
kecocokan model yang wajar, dengan pseudo R2 nilai mulai dari 0,306 (pseudo R2) hingga 0,459
(Nagelkerke R2) dan rasio hit masing-masing 73,3 persen dan 75,0 persen untuk sampel analisis
dan ketidaksepakatan.
Pemeriksaan hasil, bagaimanapun, mengidentifikasi dua alasan untuk mempertimbangkan tahap tambahan
untuk menambahkan variabel ke model regresi logistik. Pertama, tiga variabel tidak dalam model logistik saat ini (x17, x
11, dan x6) memiliki statistik skor yang signifikan secara statistik, yang menunjukkan bahwa penyertaannya akan secara
signifikan meningkatkan kecocokan model secara keseluruhan. Kedua, rasio hit keseluruhan untuk sampel
ketidaksepakatan baik (75,0%), tetapi salah satu grup (pelanggan AS/Amerika Utara) memiliki rasio hit yang sangat
rendah sebesar 30,8 persen.
Estimasi Bertahap: Menambahkan Variabel Kedua, x17. Semoga satu atau lebih langkah dalam
prosedur bertahap akan menghasilkan pencantuman semua variabel independen dengan statistik skor yang signifikan
serta mencapai rasio hit yang dapat diterima (secara keseluruhan dan khusus kelompok) untuk sampel analisis dan
sampel ketidaksepakatan.
331
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Nilai
x17, dengan statistik skor tertinggi setelah menambahkan x13, dipilih untuk entri pada langkah 2 (Tabel 4).
Peningkatan semua ukuran model fit berkisar dari penurunan -2II nilai untuk berbagai R2
Pengukuran. Lebih penting dari perspektif estimasi model, bagaimanapun, tidak ada variabel tidak dalam
persamaan memiliki skor perubahan yang signifikan secara statistik. Dengan demikian, model logistik dua
variabel termasuk:x13 dan x17 akan menjadi model akhir yang akan digunakan untuk keperluan penilaian model
fit, akurasi prediksi, dan interpretasi koefisien.
MENILAI KESESUAIAN MODEL KESELURUHAN Dalam membuat penilaian kecocokan keseluruhan dari model regresi logistik,
kita dapat menggunakan tiga pendekatan: ukuran statistik kecocokan model keseluruhan, kecocokan semu. R2
ukuran, dan akurasi klasifikasi seperti yang dinyatakan dalam rasio hit. Masing-masing pendekatan
ini akan diuji untuk model regresi logistik satu variabel dan dua variabel yang dihasilkan dari
prosedur bertahap.
Langkah-langkah Statistik. Ukuran statistik pertama adalah uji chi-kuadrat untuk perubahan
- 2II nilai dari model dasar, yang sebanding dengan keseluruhan F uji dalam regresi berganda. Nilai -2 . yang
lebih kecilII ukuran menunjukkan kecocokan model yang lebih baik, dan uji statistik tersedia untuk menilai
perbedaan antara model dasar dan model yang diusulkan lainnya (dalam prosedur bertahap, pengujian ini
selalu didasarkan pada peningkatan dari langkah sebelumnya).
Dalam model variabel tunggal (lihat Tabel 3), -2II nilai tersebut berkurang dari nilai model dasar sebesar 82,108
menjadi 59,971, penurunan sebesar 25,136. Peningkatan kecocokan model ini secara statistik signifikan pada
. 000 tingkat. Dalam model dua variabel, -2II nilai menurun lebih lanjut menjadi 39,960, menghasilkan
penurunan yang signifikan tidak hanya dari model dasar (42,148), tetapi juga penurunan yang signifikan
dari model satu variabel (17,011). Kedua perbaikan model fit ini signifikan pada tingkat .000.
Ukuran statistik kedua adalah ukuran Hosmer dan Lemeshow dari keseluruhan fit. Uji
statistik ini mengukur korespondensi nilai aktual dan prediksi dari variabel dependen. Dalam hal
ini, model fit yang lebih baik ditunjukkan dengan perbedaan yang lebih kecil pada klasifikasi yang
diamati dan diprediksi.
332
TABEL 3 Regresi Logistik Estimasi Bertahap: Menambahkan x13 (Harga Kompetitif)
GANTI -2II
Dari Model Dasar Dari Langkah Sebelumnya
Nilai Makna
Matriks Klasifikasi
Keanggotaan Grup yang DiprediksiC
AMERIKA SERIKAT/ 19 7 26 4 9 13
Amerika Utara (73.1) (30.8)
Di luar 9 25 34 34 26 27
Amerika Utara (73.5) (96.3)
CNilai dalam tanda kurung adalah persentase yang diklasifikasikan dengan benar (rasio hit).
333
TABEL 4 Regresi Logistik Estimasi Bertahap: Menambahkan x17 (Fleksibilitas Harga)
GANTI -2II
Nilai Makna
Matriks Klasifikasi
AMERIKA SERIKAT/ 25 1 26 9 4 13
Amerika Utara (96.2) (69.2)
Di luar 6 28 34 2 25 27
Amerika Utara (82,4) (92.6)
CNilai dalam tanda kurung adalah persentase yang diklasifikasikan dengan benar (rasio hit).
334
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Uji Hosmer dan Lemeshow menunjukkan signifikansi untuk model logistik satu variabel (0,027 dari Tabel
3), menunjukkan bahwa perbedaan signifikan tetap ada antara nilai aktual dan yang diharapkan. Model dua
variabel, bagaimanapun, mengurangi tingkat signifikansi menjadi 0,722 (lihat Tabel 4), nilai yang tidak signifikan
yang menunjukkan bahwa model fit dapat diterima. Untuk model logistik dua-variabel, kedua ukuran
berdasarkan statistik dari keseluruhan model fit menunjukkan bahwa model tersebut dapat diterima dan pada
tingkat yang signifikan secara statistik. Namun, perlu untuk menguji ukuran lain dari model keseluruhan yang
cocok untuk menilai apakah hasilnya mencapai tingkat signifikansi praktis yang diperlukan juga.
Semu R2 Pengukuran. Tiga ukuran yang tersedia sebanding dengan R2 mengukur dalam
regresi berganda: Cox dan Snell R2, Nagelkerke R2, dan pseudo R2 mengukur berdasarkan
pengurangan -2II nilai. Untuk model regresi logistik satu variabel, nilai-nilai ini adalah 0,342,
. 459, dan 0,306, masing-masing. Dalam kombinasi, mereka menunjukkan bahwa model regresi satu
variabel menyumbang sekitar sepertiga dari variasi dalam ukuran dependen. Meskipun model satu
variabel dianggap signifikan secara statistik pada beberapa ukuran kecocokan secara keseluruhan, iniR2
ukuran agak rendah untuk tujuan signifikansi praktis.
Model dua variabel (lihat Tabel 4) memiliki R2 nilai yang masing-masing lebih dari 0,50, menunjukkan bahwa
model regresi logistik menyumbang setidaknya setengah dari variasi antara dua kelompok pelanggan. Seseorang akan
selalu ingin meningkatkan nilai-nilai ini, tetapi tingkat ini dianggap signifikan secara praktis dalam situasi ini. NSR2 nilai-
nilai model dua variabel menunjukkan peningkatan substantif atas model variabel tunggal dan menunjukkan kecocokan
model yang baik jika dibandingkan dengan model variabel tunggal. R2 nilai biasanya ditemukan dalam regresi
berganda. Digabungkan dengan ukuran model fit yang berbasis statistik, model tersebut dianggap dapat diterima baik
dari segi statistik maupun signifikansi praktis.
Akurasi Klasifikasi. Pemeriksaan ketiga kecocokan model secara keseluruhan adalah untuk menilai
akurasi klasifikasi model dalam ukuran akhir signifikansi praktis. Matriks klasifikasi, yang sifatnya identik
dengan yang digunakan dalam analisis diskriminan, mewakili tingkat akurasi prediksi yang dicapai oleh model
logistik. Ukuran akurasi prediksi yang digunakan adalah hit ratio, persentase kasus yang diklasifikasikan dengan
benar. Nilai-nilai ini akan dihitung baik untuk analisis dan sampel ketidaksepakatan, dan pengukuran khusus
kelompok akan diperiksa sebagai tambahan untuk pengukuran keseluruhan. Selain itu, perbandingan dapat
dibuat, seperti yang dilakukan dalam analisis diskriminan, terhadap standar perbandingan yang mewakili
tingkat akurasi prediksi yang dicapai secara kebetulan.
Standar perbandingan untuk rasio hit matriks klasifikasi akan sama dengan yang dihitung
untuk analisis diskriminan dua kelompok. Nilainya adalah 65,5 persen untuk kriteria peluang
proporsional (ukuran yang disukai) dan 76,3 persen untuk kriteria peluang maksimum.
Rasio hit keseluruhan untuk model logistik variabel tunggal masing-masing adalah 73,3 persen
dan 75,0 persen untuk sampel analisis dan ketidaksepakatan. Meskipun rasio hit keseluruhan lebih besar
dari kriteria peluang proporsional dan sebanding dengan kriteria peluang maksimum, masalah
signifikan muncul dalam sampel ketidaksepakatan untuk pelanggan AS/Amerika Utara, di mana rasio hit
hanya 30,8 persen. Tingkat ini berada di bawah kedua standar dan mengharuskan model logistik
diperluas dengan harapan sejauh rasio hit spesifik grup ini akan melebihi standar.
Model dua variabel menunjukkan peningkatan substansial baik dalam rasio hit keseluruhan
maupun nilai spesifik grup. Rasio hit keseluruhan meningkat menjadi 88,3 persen dan 85,0 persen untuk
sampel analisis dan ketidaksepakatan. Selain itu, rasio hit spesifik grup yang bermasalah dalam sampel
ketidaksepakatan meningkat menjadi 69,2 persen, di atas nilai standar untuk kriteria peluang
proporsional. Dengan perbaikan ini baik pada tingkat keseluruhan dan kelompok tertentu, model regresi
logistik dua variabel dianggap dapat diterima dalam hal akurasi klasifikasi.
Di ketiga tipe dasar ukuran kecocokan model keseluruhan, model dua variabel (dengan
x13 dan x17) menunjukkan tingkat signifikansi statistik dan praktis yang dapat diterima.
335
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Dengan kecocokan model keseluruhan yang dapat diterima, kami mengalihkan perhatian kami untuk menilai uji
statistik dari koefisien logistik untuk mengidentifikasi koefisien yang memiliki hubungan signifikan yang mempengaruhi
keanggotaan kelompok.
MENAFSIRKAN KOEFISIEN LOGISTIK Model regresi logistik akhir mencakup dua variabel (x13 dan x17)
dengan koefisien regresi logistik masing-masing 1,079 dan 1,844, dan konstanta -14,190 (lihat
Tabel 4). Membandingkan hasil ini dengan analisis diskriminan dua kelompok mengungkapkan
hasil yang hampir sama, karena analisis diskriminan memasukkan tiga variabel dalam model dua
kelompok—x13 dan x17 bersama x11.
Arah Hubungan. Untuk menilai arah hubungan masing-masing variabel, kita dapat
memeriksa baik koefisien logistik asli atau koefisien eksponen. Mari kita mulai dengan koefisien
asli. Jika Anda ingat dari diskusi kita sebelumnya, kita dapat menafsirkan arah hubungan langsung
dari tanda koefisien logistik asli. Dalam hal ini kedua variabel memiliki tanda positif, menunjukkan
hubungan positif antara kedua variabel independen dan probabilitas yang diprediksi. Sebagai nilai
dari keduanyax13 atau x17 meningkat, probabilitas yang diprediksi akan meningkat, sehingga
meningkatkan kemungkinan bahwa pelanggan akan dikategorikan berada di luar Amerika Utara.
Mengalihkan perhatian kita ke koefisien eksponensial, kita harus ingat bahwa nilai di atas 1,0
menunjukkan hubungan positif dan di bawah 1,0 menunjukkan hubungan negatif. Dalam kasus kami,
nilai 2,942 dan 6,319 juga menunjukkan hubungan positif.
Besaran Hubungan. Metode yang paling langsung untuk menilai besarnya perubahan
probabilitas karena setiap variabel independen adalah dengan menguji koefisien eksponensial.
336
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Seperti yang Anda ingat, koefisien eksponen dikurangi satu sama dengan persentase perubahan peluang.
Dalam kasus kami, itu berarti bahwa peningkatan satu poin meningkatkan peluang sebesar 194 persen untukx
13 dan 531 persen untuk x17. Angka-angka ini dapat melebihi 100 persen karena mereka meningkatkan peluang,
bukan probabilitas itu sendiri. Dampaknya besar karena suku konstan (-14,190) mendefinisikan titik awal hampir
nol untuk nilai probabilitas. Dengan demikian, peningkatan besar dalam peluang diperlukan untuk mencapai
nilai probabilitas yang lebih besar.
Pendekatan lain dalam memahami bagaimana koefisien logistik mendefinisikan probabilitas adalah
dengan menghitung probabilitas yang diprediksi untuk setiap set nilai untuk variabel independen. Untuk
variabel bebasx13 dan x17, mari kita gunakan cara grup untuk dua grup. Dengan cara ini, kita dapat melihat
berapa probabilitas yang diprediksi untuk anggota "tipikal" dari setiap kelompok.
Tabel 5 menunjukkan perhitungan untuk memprediksi probabilitas dari dua kelompok centroid.
Pertama, kita menghitung nilai logit untuk setiap centroid grup dengan memasukkan nilai centroid grup
(misalnya, 5,60 dan 3,63 untuk grup 0 padax13 dan x17, masing-masing) ke dalam persamaan logit. Ingat
dari Tabel 5 bahwa perkiraan bobot adalah 1,079 dan 1,844 untukx13 dan x17, masing-masing, dengan
konstanta -14,192. Dengan demikian, substitusi nilai centroid grup ke dalam persamaan ini
menghasilkan nilai logit -1,452 (grup 0) dan 2,909 (grup 1). Mengambil antilog dari nilai logit
menghasilkan odds 0,234 dan 18,332. Kemudian, probabilitas suatu grup dihitung sebagai nilai
peluangnya di atas jumlah peluang untuk kedua grup. Hal ini mengakibatkan anggota “tipikal” dari grup
0 memiliki kemungkinan salah ditugaskan ke grup 1 sebesar 0,189 (189 = .234 / (.234 + 18.332)) dan
anggota “tipikal” dari grup 1 memiliki probabilitas dari 0,948 karena ditugaskan dengan benar ke grup 1.
Contoh ini menunjukkan bahwa model logistik memang menciptakan pemisahan antara dua pusat
kelompok dalam hal probabilitas yang diprediksi, menghasilkan hasil klasifikasi yang sangat baik yang dicapai
untuk sampel analisis dan sampel ketidaksepakatan.
Koefisien logistik mendefinisikan hubungan positif untuk kedua variabel independen dan menyediakan
sarana untuk menilai dampak dari perubahan salah satu atau kedua variabel pada peluang dan dengan
demikian probabilitas yang diprediksi. Menjadi jelas mengapa banyak peneliti lebih memilih regresi logistik
untuk analisis diskriminan ketika perbandingan dibuat pada informasi yang lebih berguna yang tersedia dari
koefisien logistik versus beban diskriminan.
x4 (Wilayah)
Grup 0: Grup 1:
AS/Amerika Utara Di luar Amerika Utara
337
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Untuk model regresi logistik dua-variabel terakhir, rasio hit untuk sampel analisis dan
ketidaksepakatan melebihi semua standar perbandingan (peluang proporsional dan kriteria
peluang maksimum). Selain itu, semua rasio hit khusus grup cukup besar untuk diterima. Aspek ini
sangat penting untuk sampel ketidaksepakatan, yang merupakan indikator utama validitas
eksternal. Hasil ini mengarah pada kesimpulan bahwa model regresi logistik menunjukkan
validitas eksternal yang cukup untuk penerimaan lengkap hasil, seperti yang ditemukan dengan
model analisis diskriminan juga.
Tinjauan Manajerial
Regresi logistik menyajikan alternatif untuk analisis diskriminan yang mungkin lebih nyaman bagi
banyak peneliti karena kesamaannya dengan regresi berganda. Mengingat ketahanannya dalam
menghadapi kondisi data yang dapat mempengaruhi analisis diskriminan secara negatif (misalnya,
matriks varians-kovarians yang tidak sama), regresi logistik juga merupakan teknik estimasi yang disukai
dalam banyak aplikasi.
Jika dibandingkan dengan analisis diskriminan, regresi logistik memberikan akurasi prediksi yang
sebanding dengan variasi yang lebih sederhana yang menggunakan interpretasi substantif yang sama, hanya
dengan satu variabel yang lebih sedikit. Dari hasil regresi logistik, peneliti dapat fokus pada harga kompetitif
dan fleksibilitas harga sebagai variabel pembeda utama antara kedua kelompok pelanggan. Tujuan dalam
analisis ini bukan untuk meningkatkan probabilitas (seperti halnya menganalisis keberhasilan versus
kegagalan), namun regresi logistik masih memberikan pendekatan langsung bagi HBAT untuk memahami
dampak relatif dari masing-masing variabel independen dalam menciptakan perbedaan antara kedua
kelompok. pelanggan.
RINGKASAN
Peneliti dihadapkan dengan variabel dependen dikotomis tidak perlu menggunakan metode yang dirancang
untuk mengakomodasi keterbatasan regresi berganda atau dipaksa untuk menggunakan analisis diskriminan,
terutama jika asumsi statistiknya dilanggar. Regresi logistik mengatasi masalah ini dan menyediakan metode
yang dikembangkan untuk menangani langsung situasi ini dengan cara yang seefisien mungkin.
Ringkasan
Sifat, konsep, dan pendekatan yang mendasari analisis Regresi logistik umumnya lebih disukai daripada analisis
diskriminan berganda dan regresi logistik telah diskriminan ketika ukuran dependen adalah biner yang
disajikan. Pedoman dasar untuk penerapan dan diberikan set asumsi minimal, dan dengan demikian
interpretasinya dimasukkan untuk memperjelas konsep ketahanannya, dalam kebanyakan situasi. Selain itu,
metodologi lebih lanjut. Bab ini membantu Anda kesamaan interpretasi pada regresi berganda memudahkan
melakukan hal berikut: banyak peneliti daripada fungsi diskriminan dalam model
diskriminan.
Nyatakan keadaan di mana regresi logistik harus
digunakan daripada analisis diskriminan atau regresi Identifikasi jenis variabel dependen dan independen yang
berganda. Dalam memilih teknik analisis yang tepat, digunakan dalam regresi logistik. Meskipun regresi logistik
terkadang kita menghadapi masalah yang melibatkan terbatas hanya pada ukuran yang bergantung pada biner, ia
variabel dependen kategoris dan beberapa variabel memberikan kemampuan untuk memasukkan variabel
independen metrik. Regresi logistik adalah teknik independen metrik dan nonmetrik, seperti halnya regresi
statistik yang tepat ketika masalah penelitian melibatkan berganda. Ini kontras dengan analisis diskriminan, yang dalam
variabel tunggal biner kategoris dependen dan kebanyakan situasi terbatas hanya pada variabel independen
beberapa variabel independen metrik atau nonmetrik. metrik.
338
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Menafsirkan hasil analisis regresi logistik, karena masing-masing mencerminkan dampak yang berbeda pada
dengan perbandingan regresi berganda dan variabel dependen.
analisis diskriminan. Kesesuaian model regresi
logistik dapat dinilai dengan dua cara: Memahami kekuatan dan kelemahan regresi logistik
(1) menggunakan pseudo R2 nilai, mirip dengan yang ditemukan dalam regresi berganda, dan (2) menguji akurasi dibandingkan dengan analisis diskriminan dan
prediksi (yaitu, matriks klasifikasi dalam analisis diskriminan). Kedua pendekatan menguji model fit dari perspektif yang regresi berganda. Meskipun analisis diskriminan dapat
berbeda, tetapi harus menghasilkan kesimpulan yang sama. Salah satu keuntungan dari regresi logistik adalah kita menganalisis situasi apa pun di mana variabel dependen
hanya perlu mengetahui apakah suatu peristiwa terjadi untuk mendefinisikan nilai dikotomis sebagai variabel terikat adalah nonmetrik, regresi logistik lebih disukai karena
kita. Namun, ketika kami menganalisis data ini menggunakan transformasi logistik, regresi logistik dan koefisiennya dua alasan ketika variabel dependen adalah biner.
memiliki arti yang agak berbeda dari yang ditemukan dalam regresi dengan variabel dependen metrik. Demikian pula, Pertama, analisis diskriminan bergantung pada
beban diskriminan dalam analisis diskriminan ditafsirkan berbeda dari koefisien logistik. Koefisien logistik pemenuhan asumsi normalitas multivariat dan matriks
mencerminkan baik arah dan besarnya hubungan variabel independen, tetapi membutuhkan metode interpretasi yang varians-kovarians yang sama di seluruh kelompok-
berbeda. Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen terkait dengan perubahan asumsi yang tidak terpenuhi dalam banyak situasi.
variabel independen. Hubungan positif berarti bahwa peningkatan variabel independen dikaitkan dengan peningkatan Regresi logistik tidak menghadapi asumsi ketat ini dan
probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk menentukan besarnya koefisien, atau jauh lebih kuat ketika asumsi ini tidak terpenuhi,
seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit pada variabel bebas, nilai numerik dari sehingga penerapannya sesuai dalam banyak situasi.
koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan nonmetrik harus Kedua, meskipun asumsi terpenuhi, banyak peneliti
ditafsirkan secara berbeda, Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen terkait lebih memilih regresi logistik, karena mirip dengan
dengan perubahan variabel independen. Hubungan positif berarti bahwa peningkatan variabel independen dikaitkan regresi berganda. Dengan demikian, ia memiliki uji
dengan peningkatan probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk menentukan besarnya statistik langsung, pendekatan serupa untuk
koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit pada variabel bebas, menggabungkan variabel metrik dan nonmetrik dan
nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan efek nonlinier, dan berbagai diagnostik. Regresi logistik
nonmetrik harus ditafsirkan secara berbeda, Arah hubungan (positif atau negatif) mencerminkan perubahan variabel setara dengan analisis diskriminan dua kelompok dan
dependen terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa peningkatan variabel mungkin lebih cocok dalam banyak situasi.
independen dikaitkan dengan peningkatan probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk Regresi logistik adalah pilihan yang berharga dalam
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit masalah penelitian yang melibatkan variabel dependen
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk kategoris tunggal dan beberapa variabel independen metrik
variabel metrik dan nonmetrik harus ditafsirkan secara berbeda, dan sebaliknya untuk hubungan negatif. Untuk atau nonmetrik. Kekuatan relatifnya datang dalam
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit kemampuannya untuk menjadi fleksibel di berbagai pengaturan
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk penelitian, kekokohannya berasal dari serangkaian asumsi yang
variabel metrik dan nonmetrik harus ditafsirkan secara berbeda, dan sebaliknya untuk hubungan negatif. Untuk mendasarinya, dan kesamaannya dengan regresi berganda
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit untuk tujuan interpretasi. Hasilnya adalah berbagai aplikasi
dalam konteks akademis dan praktisi.
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan nonmetrik harus ditafsirkan secara berbeda,
Pertanyaan
1. Bagaimana Anda membedakan antara analisis 3. Bagaimana regresi logistik menangani hubungan
diskriminan berganda, analisis regresi, analisis regresi variabel dependen dan independen?
logistik, dan analisis varians? 4. Apa karakteristik unik dari interpretasi dalam regresi
2. Kapan Anda akan menggunakan regresi logistik logistik?
daripada analisis diskriminan? Apa keuntungan dan 5. Jelaskan konsep peluang dan mengapa digunakan dalam
kerugian dari keputusan ini? memprediksi probabilitas dalam prosedur regresi logistik.
Daftar bacaan yang disarankan yang menggambarkan masalah dan aplikasi analisis diskriminan dan regresi logistik tersedia di Web
di www.pearsonhighered.com/hair atau www.mvstats.com.
339
Regresi Logistik: Regresi dengan Variabel Dependen Biner
Referensi
1. Demaris, A. 1995. Tutorial Regresi Logistik. 4. Hosmer, DW, dan S. Lemeshow. 2000.Regresi Logistik
Jurnal Pernikahan dan Keluarga 57: 956–68. Terapan, edisi 2d. New York: Wiley.
2. Frank, RE, WE Massey, dan DG Morrison. 1965. Bias 5. Panjang, JS 1997. Model Regresi untuk Variabel Dependen
dalam Analisis Diskriminan Berganda.Jurnal Riset Kategoris dan Terbatas: Analisis dan Interpretasi.
Pemasaran 2(3): 250–58. Thousand Oaks, CA: Sage.
3. Gessner, Guy, NK Maholtra, WA Kamakura, dan ME 6. Pampel, FC 2000. Regresi Logistik: Primer,
Zmijewski. 1988. Model Pendugaan dengan Variabel Seri Makalah Universitas Sage tentang Aplikasi
Dependen Biner: Beberapa Pengamatan Teoritis dan Kuantitatif dalam Ilmu Sosial, #07–096. Taman
Empiris.Jurnal Riset Bisnis 16(1): 49–65. Newbury, CA: Sage.
340