Anda di halaman 1dari 28

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Regresi logistik:
Regresi dengan Biner
Variabel tak bebas
TUJUAN PEMBELAJARAN
Setelah menyelesaikan bab ini, Anda harus dapat melakukan hal berikut:

Nyatakan keadaan di mana regresi logistik harus digunakan daripada regresi


berganda.
Identifikasi jenis variabel yang digunakan untuk variabel terikat dan variabel bebas dalam
penerapan regresi logistik.
Jelaskan metode yang digunakan untuk mengubah ukuran biner menjadi ukuran kemungkinan dan
probabilitas yang digunakan dalam regresi logistik.

Menafsirkan hasil analisis regresi logistik dan menilai akurasi prediksi, dengan
membandingkan regresi berganda dan analisis diskriminan.
Memahami kekuatan dan kelemahan regresi logistik dibandingkan dengan analisis
diskriminan dan regresi berganda.

Pratinjau BAB
Regresi logistik adalah bentuk khusus dari regresi yang diformulasikan untuk memprediksi dan
menjelaskan variabel kategoris biner (dua kelompok) daripada ukuran yang bergantung pada metrik.
Bentuk variat regresi logistik mirip dengan variat pada regresi berganda. Variat mewakili hubungan
multivariat tunggal, dengan koefisien seperti regresi yang menunjukkan dampak relatif dari setiap
variabel prediktor.
Perbedaan antara regresi logistik dan analisis diskriminan akan menjadi lebih jelas dalam pembahasan
kita tentang karakteristik unik regresi logistik. Namun banyak kesamaan juga ada di antara kedua metode
tersebut. Ketika asumsi dasar dari kedua metode terpenuhi, mereka masing-masing memberikan hasil prediksi
dan klasifikasi yang sebanding dan menggunakan tindakan diagnostik yang serupa. Regresi logistik,
bagaimanapun, memiliki keuntungan yang kurang terpengaruh daripada analisis diskriminan ketika asumsi
dasar, terutama normalitas variabel, tidak terpenuhi. Itu juga dapat mengakomodasi variabel nonmetrik melalui
pengkodean variabel dummy, seperti halnya regresi. Regresi logistik terbatas, bagaimanapun, untuk prediksi
hanya ukuran tergantung dua kelompok. Jadi, dalam kasus

Dari Bab 6 dari Analisis Data Multivariat, 7/e. Joseph F. Rambut, Jr., William C. Black, Barry J. Babin, Rolph E. Anderson. Hak Cipta
© 2010 oleh Pearson Prentice Hall. Seluruh hak cipta.

313
Regresi Logistik: Regresi dengan Variabel Dependen Biner

yang tiga atau lebih kelompok membentuk ukuran dependen, analisis diskriminan lebih cocok.
Regresi logistik dapat digambarkan sebagai memperkirakan hubungan antara variabel dependen
nonmetrik (biner) tunggal dan satu set variabel independen metrik atau nonmetrik, dalam bentuk umum
ini:

kamu1 = x1 + x2 + x3 + . . . +xn
(nonmetrik biner) (nonmetrik dan metrik)

Regresi logistik memiliki aplikasi luas dalam situasi di mana tujuan utama adalah untuk mengidentifikasi
kelompok yang objek (misalnya, orang, perusahaan, atau produk) milik. Aplikasi potensial termasuk
memprediksi apa pun di mana hasilnya biner (misalnya, Ya/Tidak). Situasi seperti itu termasuk keberhasilan atau
kegagalan produk baru, memutuskan apakah seseorang harus diberikan kredit, atau memprediksi apakah
suatu perusahaan akan berhasil. Dalam setiap contoh, objek jatuh ke dalam salah satu dari dua kelompok, dan
tujuannya adalah untuk memprediksi dan menjelaskan dasar untuk keanggotaan kelompok setiap objek melalui
satu set variabel independen yang dipilih oleh peneliti.

ISTILAH KUNCI

Sebelum memulai bab ini, tinjaulah istilah-istilah kunci untuk mengembangkan pemahaman tentang konsep dan
terminologi yang akan digunakan. Di sepanjang bab, istilah kunci muncul ditebal. Poin-poin penekanan lain dalam bab
dan referensi silang istilah kunci adalah: dicetak miring.

sampel analisis Kelompok kasus yang digunakan dalam memperkirakan regresi logistik model. Ketika kon-
menyusun matriks klasifikasi, sampel asli dibagi secara acak menjadi dua kelompok, satu untuk
estimasi model (sampel analisis) dan yang lainnya untuk validasi ( sampel ketidaksepakatan).
Variabel kategori Lihat variabel nonmetrik.
Matriks klasifikasi Sarana menilai kemampuan prediksi model regresi logistik. Dibuat dengan
melakukan tabulasi silang keanggotaan grup aktual dengan prediksi keanggotaan grup, matriks
ini terdiri dari angka pada diagonal yang mewakili klasifikasi yang benar dan angka di luar
diagonal yang mewakili klasifikasi yang salah.
Validasi silang Prosedur membagi sampel menjadi dua bagian: sampel analisis Digunakan dalam
estimasi model regresi logistik dan sampel ketidaksepakatan digunakan untuk memvalidasi hasil. Validasi
silang menghindari overfitting regresi logistik dengan memungkinkan validasinya pada sampel yang benar-
benar terpisah.
Koefisien logistik eksponen Antilog dari koefisien logistik, yang digunakan untuk tujuan interpretasi dalam
regresi logistik. Koefisien eksponen dikurangi 1,0 sama dengan persentase perubahan dalamkemungkinan.
Misalnya, koefisien eksponensial .20 mewakili perubahan negatif 80 persen dalam peluang (.20 - 1.0 = -.80)
untuk setiap unit perubahan dalam variabel independen (sama seperti jika peluang dikalikan dengan .20).
Dengan demikian, nilai 1,0 sama dengan tidak ada perubahan dalam peluang dan nilai di atas 1,0
menunjukkan peningkatan peluang yang diprediksi.
Rasio hit Persentase objek (individu, responden, perusahaan, dll.) diklasifikasikan dengan
benar oleh model regresi logistik. Hal ini dihitung sebagai jumlah objek di diagonal
matriks klasifikasi dibagi dengan jumlah benda. Juga dikenal sebagaipersentase diklasifikasikan
dengan benar.
Contoh penangguhan Kelompok objek yang tidak digunakan untuk menghitung model regresi logistik. Kelompok ini
kemudian digunakan untuk memvalidasi model regresi logistik dengan sampel responden yang terpisah. Disebut
jugasampel validasi.
Nilai kemungkinan Ukuran yang digunakan dalam regresi logistik untuk mewakili kurangnya kecocokan prediktif.
Meskipun metode ini tidak menggunakan prosedur kuadrat terkecil dalam estimasi model, seperti yang dilakukan
dalam regresi berganda, nilai kemungkinannya mirip dengan jumlah kesalahan kuadrat dalam analisis regresi.

314
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Koefisien logistik Koefisien dalam regresi logistik model yang bertindak sebagai faktor pembobot untuk
variabel independen dalam kaitannya dengan kekuatan diskriminatif mereka. Mirip dengan bobot
regresi atau koefisien diskriminan.
Kurva logistik Kurva berbentuk S yang dibentuk oleh transformasi logit yang menunjukkan
peluang suatu kejadian. Bentuk berbentuk S adalah nonlinier, karena probabilitas suatu kejadian
harus mendekati 0 dan 1, tetapi tidak pernah keluar dari batas-batas ini. Jadi, meskipun
midrange melibatkan komponen linier, probabilitas saat mendekati batas bawah dan atas
probabilitas (0 dan 1) harus mendatar dan menjadi asimtotik pada batas ini.
Regresi logistik Bentuk khusus regresi di mana variabel dependennya adalah variabel
nonmetrik, dikotomis (biner). Meskipun ada beberapa perbedaan, cara interpretasi secara
umum cukup mirip dengan regresi linier.
Analisis log Lihat regresi logistik.
Transformasi logit Transformasi nilai-nilai variabel dependen biner diskrit dari
regresi logistik menjadi kurva berbentuk S (kurva logistik) mewakili peluang suatu kejadian. Probabilitas ini
kemudian digunakan untuk membentukrasio peluang, yang bertindak sebagai variabel terikat dalam regresi
logistik.
Kriteria peluang maksimum Ukuran akurasi prediktif dalam matriks klasifikasi itu adalah
dihitung sebagai persentase responden dalam kelompok terbesar. Alasannya adalah bahwa pilihan tanpa informasi terbaik
adalah dengan mengklasifikasikan setiap pengamatan ke dalam kelompok terbesar.
Variabel nonmetrik Variabel dengan nilai yang hanya berfungsi sebagai label atau alat identifikasi,
disebut juga sebagai kategoris, nominal, biner, kualitatif, atau taksonomi variabel. Nomor pada jersey
sepak bola adalah contohnya.
Kemungkinan Rasio probabilitas suatu kejadian terjadi dengan probabilitas kejadian tidak terjadi,
yang digunakan sebagai ukuran variabel dependen dalam regresi logistik.
Persentase yang diklasifikasikan dengan benar Lihat rasio pukulan.

Kriteria peluang proporsional Kriteria lain untuk menilai rasio pukulan, di mana probabilitas rata-rata
klasifikasi dihitung dengan mempertimbangkan semua ukuran kelompok.
Semu R2 Nilai kecocokan model keseluruhan yang dapat dihitung untuk regresi logistik; sebanding dengan R2
ukuran yang digunakan dalam regresi berganda.
Contoh validasi Lihat sampel ketidaksepakatan.
Variasikan Kombinasi linier yang merepresentasikan jumlah bobot dari dua atau lebih
variabel bebas yang membentuk fungsi diskriminan. Juga disebut kombinasi linier atau
senyawa linier.
Statistik Wald Tes yang digunakan dalam regresi logistik untuk pentingnya koefisien logistik.
Penafsirannya seperti F atau T nilai yang digunakan untuk pengujian signifikansi koefisien regresi.

APA ITU REGRESI LOGISTIK?


Regresi logistik, bersama dengan analisis diskriminan, adalah teknik statistik yang tepat ketika variabel
dependen adalah kategoris (nominal atau nonmetrik) variabel dan variabel bebasnya adalah variabel metrik
atau nonmetrik. Jika dibandingkan dengan analisis diskriminan, regresi logistik dalam bentuk dasarnya terbatas
pada dua kelompok untuk variabel terikat, meskipun formulasi lain dapat menangani lebih banyak kelompok.
Ini memang memiliki keuntungan, bagaimanapun, dengan mudah memasukkan variabel nonmetrik sebagai
variabel independen, seperti dalam regresi berganda.
Dalam arti praktis, regresi logistik mungkin lebih disukai karena dua alasan. Pertama,
analisis diskriminan bergantung pada pemenuhan asumsi normalitas multivariat dan matriks
varians-kovarians yang sama di seluruh kelompok-asumsi yang tidak terpenuhi dalam banyak
situasi. Regresi logistik tidak menghadapi asumsi ketat ini dan jauh lebih kuat ketika asumsi ini
tidak terpenuhi, sehingga penerapannya sesuai dalam banyak situasi. Kedua, bahkan jika

315
Regresi Logistik: Regresi dengan Variabel Dependen Biner

asumsi terpenuhi, banyak peneliti lebih memilih regresi logistik karena mirip dengan regresi berganda.
Ini memiliki tes statistik langsung, pendekatan serupa untuk menggabungkan variabel metrik dan
nonmetrik dan efek nonlinier, dan berbagai diagnostik. Jadi, untuk alasan ini dan alasan yang lebih
teknis, regresi logistik setara dengan analisis diskriminan dua kelompok dan mungkin lebih cocok dalam
banyak situasi.

PROSES KEPUTUSAN REGRESI LOGISTIK


Penerapan regresi logistik dapat dilihat dari perspektif pembangunan model enam tahap. Seperti semua aplikasi multivariat, menetapkan

tujuan adalah langkah pertama dalam analisis. Kemudian peneliti harus mengatasi masalah desain khusus dan memastikan asumsi yang

mendasari terpenuhi. Analisis dilanjutkan dengan estimasi probabilitas kejadian di masing-masing kelompok dengan menggunakan kurva

logistik sebagai hubungan yang mendasarinya. Ukuran biner diterjemahkan ke dalam peluang terjadinya dan kemudian nilai logit yang

bertindak sebagai ukuran dependen. Bentuk model ditinjau dari variabel bebas hampir identik dengan regresi berganda. Kecocokan model

dinilai seperti analisis diskriminan dengan terlebih dahulu mencari signifikansi statistik dari model keseluruhan dan kemudian menentukan

akurasi prediksi dengan mengembangkan matriks klasifikasi. Kemudian, mengingat sifat unik dari variabel dependen yang
ditransformasikan, koefisien logistik diberikan dalam skala "asli" mereka, yang dalam istilah logaritmik, dan skala yang diubah, yang

ditafsirkan lebih seperti koefisien regresi. Setiap bentuk koefisien merinci karakteristik tertentu dari dampak variabel independen. Akhirnya,

model regresi logistik harus divalidasi dengan sampel ketidaksepakatan. yang ditafsirkan lebih seperti koefisien regresi. Setiap bentuk

koefisien merinci karakteristik tertentu dari dampak variabel independen. Akhirnya, model regresi logistik harus divalidasi dengan sampel

ketidaksepakatan. yang ditafsirkan lebih seperti koefisien regresi. Setiap bentuk koefisien merinci karakteristik tertentu dari dampak

variabel independen. Akhirnya, model regresi logistik harus divalidasi dengan sampel ketidaksepakatan.

Masing-masing tahapan ini dibahas pada bagian berikut. Diskusi kami sebagian besar berfokus
pada perbedaan antara regresi logistik dan analisis diskriminan atau regresi berganda. Dengan
demikian, pembaca juga harus meninjau prinsip-prinsip yang mendasari model dengan variabel
dependen nonmetrik dan bahkan dasar-dasar model regresi berganda.

TAHAP 1: TUJUAN REGRESI LOGISTIK


Regresi logistik identik dengan analisis diskriminan dalam hal tujuan dasar yang dapat
ditanganinya. Regresi logistik paling cocok untuk mengatasi dua tujuan penelitian:

• Mengidentifikasi variabel bebas yang mempengaruhi keanggotaan kelompok dalam variabel terikat

• Menetapkan sistem klasifikasi berdasarkan model logistik untuk menentukan keanggotaan


kelompok.

Tujuan pertama sangat mirip dengan tujuan utama analisis diskriminan dan bahkan regresi berganda
dalam penekanan yang ditempatkan pada penjelasan keanggotaan kelompok dalam hal variabel independen
dalam model. Dalam proses klasifikasi, regresi logistik, seperti analisis diskriminan, memberikan dasar untuk
mengklasifikasikan tidak hanya sampel yang digunakan untuk memperkirakan fungsi diskriminan tetapi juga
pengamatan lain yang dapat memiliki nilai untuk semua variabel independen. Dengan cara ini, analisis regresi
logistik dapat mengklasifikasikan pengamatan lain ke dalam kelompok yang ditentukan.

TAHAP 2: DESAIN PENELITIAN REGRESI LOGISTIK


Regresi logistik memiliki beberapa fitur unik yang mempengaruhi desain penelitian. Pertama adalah sifat unik
dari variabel dependen biner, yang pada akhirnya berdampak pada spesifikasi dan estimasi model. Masalah
kedua berkaitan dengan ukuran sampel, yang dipengaruhi oleh beberapa faktor, di antaranya

316
Regresi Logistik: Regresi dengan Variabel Dependen Biner

penggunaan kemungkinan maksimum sebagai teknik estimasi serta perlunya estimasi dan
ketidaksepakatan sampel seperti analisis diskriminan.

Representasi Variabel Dependen Biner


Dalam analisis diskriminan, karakter nonmetrik dari variabel dependen dikotomis diakomodasi dengan
membuat prediksi keanggotaan kelompok berdasarkan diskriminan. Z skor. Ini membutuhkan
perhitungan skor pemotongan dan penugasan pengamatan ke kelompok.
Regresi logistik mendekati tugas ini dengan cara yang lebih mirip dengan yang ditemukan
dengan regresi berganda. Regresi logistik mewakili dua kelompok kepentingan sebagai variabel
biner dengan nilai 0 dan 1. Tidak masalah kelompok mana yang diberi nilai 1 versus 0, tetapi
penugasan ini harus dicatat untuk interpretasi koefisien.

• Jika kelompok mewakili karakteristik (misalnya, jenis kelamin), maka salah satu kelompok dapat diberi nilai 1
(misalnya, perempuan) dan kelompok lainnya diberi nilai 0 (misalnya, laki-laki). Dalam situasi seperti itu,
koefisien akan mencerminkan dampak variabel independen terhadap kemungkinan orang tersebut adalah
perempuan (yaitu, kelompok yang diberi kode 1).
• Jika kelompok mewakili hasil atau peristiwa (misalnya, keberhasilan atau kegagalan, pembelian atau
nonpembelian), penetapan kode kelompok berdampak pada interpretasi juga. Asumsikan bahwa
kelompok yang berhasil diberi kode 1, dengan kegagalan diberi kode 0. Kemudian, koefisien mewakili
dampak pada kemungkinan keberhasilan. Sama mudahnya, kode dapat dibalik (kode 1 sekarang
menunjukkan kegagalan) dan koefisien mewakili kekuatan yang meningkatkan kemungkinan kegagalan.

Regresi logistik berbeda dari regresi berganda, bagaimanapun, karena secara khusus dirancang
untuk memprediksi probabilitas suatu peristiwa yang terjadi (yaitu, probabilitas pengamatan berada
dalam kelompok berkode 1). Meskipun nilai probabilitas adalah ukuran metrik, ada perbedaan mendasar
antara regresi berganda dan regresi logistik.

PENGGUNAAN KURVA LOGISTIK Karena variabel terikat biner hanya memiliki nilai 0 dan 1, nilai prediksi
(probabilitas) harus dibatasi agar berada dalam kisaran yang sama. Untuk mendefinisikan hubungan yang
dibatasi oleh 0 dan 1, regresi logistik menggunakankurva logistik untuk mewakili hubungan antara variabel
independen dan dependen (lihat Gambar 1). Pada tingkat variabel independen yang sangat rendah, probabilitas
mendekati 0, tetapi tidak pernah mencapainya. Demikian juga, ketika variabel independen meningkat, nilai
prediksi meningkat ke atas kurva, tetapi kemudian kemiringan mulai menurun sehingga pada setiap tingkat
variabel independen probabilitas akan mendekati 1,0 tetapi tidak pernah melebihinya. Model regresi linier tidak
dapat mengakomodasi hubungan seperti itu, karena secara inheren nonlinier. Hubungan linier regresi, bahkan
dengan tambahan transformasi untuk efek nonlinier, tidak dapat menjamin bahwa nilai prediksi akan tetap
dalam kisaran 0 dan 1.

SIFAT UNIK DARI VARIABEL TERGANTUNG Sifat biner dari variabel terikat (0 atau 1) memiliki sifat
yang melanggar asumsi regresi berganda. Pertama, istilah kesalahan dari variabel diskrit
mengikuti distribusi binomial bukan distribusi normal, sehingga membatalkan semua
pengujian statistik berdasarkan asumsi normalitas. Kedua, varians dari variabel dikotomis
tidak konstan, menciptakan contoh heteroskedastisitas juga. Selain itu, tidak ada
pelanggaran yang dapat diperbaiki melalui transformasi variabel dependen atau independen.
Regresi logistik dikembangkan untuk secara khusus menangani masalah ini. Hubungan yang unik
antara variabel dependen dan independen, bagaimanapun, memerlukan pendekatan yang agak berbeda
dalam memperkirakan variate, menilai goodness-of-fit, dan menafsirkan koefisien bila dibandingkan
dengan regresi berganda.

317
Regresi Logistik: Regresi dengan Variabel Dependen Biner

1.0

(Variabel tak bebas)


Peluang Kejadian

0
Rendah Tinggi

Tingkat Variabel Independen

GAMBAR 1 Bentuk Hubungan Logistik Antara


Variabel Dependen dan Independen

Ukuran sampel

Regresi logistik, seperti setiap teknik multivariat lainnya, harus mempertimbangkan ukuran sampel yang dianalisis.
Sampel yang sangat kecil memiliki begitu banyak kesalahan pengambilan sampel sehingga identifikasi semua kecuali
perbedaan terbesar tidak mungkin. Ukuran sampel yang sangat besar meningkatkan kekuatan statistik sehingga setiap
perbedaan, apakah relevan secara praktis atau tidak, akan dianggap signifikan secara statistik. Namun sebagian besar
situasi penelitian berada di suatu tempat di antara ekstrem ini, yang berarti peneliti harus mempertimbangkan dampak
ukuran sampel pada hasil, baik di tingkat keseluruhan maupun berdasarkan kelompok demi kelompok.

UKURAN SAMPEL KESELURUHAN Aspek pertama dari ukuran sampel adalah ukuran sampel keseluruhan
yang diperlukan untuk mendukung estimasi model logistik secara memadai. Salah satu faktor yang
membedakan regresi logistik dengan teknik lainnya adalah penggunaan maximum likelihood (MLE)
sebagai teknik estimasi. MLE membutuhkan sampel yang lebih besar sehingga, semua hal dianggap
sama, regresi logistik akan membutuhkan ukuran sampel yang lebih besar daripada regresi berganda.
Misalnya, Hosmer dan Lemeshow merekomendasikan ukuran sampel lebih besar dari 400 [4]. Selain itu,
peneliti harus sangat mempertimbangkan untuk membagi sampel menjadi sampel analisis dan sampel
ketidaksepakatan sebagai sarana untuk memvalidasi model logistik (lihat diskusi yang lebih rinci di tahap
6). Dalam membuat pemisahan sampel ini, persyaratan ukuran sampel masih berlaku untuk sampel
analisis dan sampel holdout secara terpisah,

UKURAN SAMPEL PER KATEGORI VARIABEL TERGANTUNG Pertimbangan kedua adalah bahwa
ukuran sampel keseluruhan penting, tetapi begitu juga ukuran sampel per kelompok variabel dependen. Seperti yang
telah kita diskusikan untuk analisis diskriminan, ada pertimbangan tentang ukuran kelompok minimum juga. Ukuran
sampel yang direkomendasikan untuk setiap kelompok setidaknya 10 pengamatan per parameter yang diestimasi. Ini
jauh lebih besar daripada regresi berganda, yang memiliki minimal lima pengamatan per parameter, dan itu untuk
sampel keseluruhan, bukan ukuran sampel untuk setiap kelompok, seperti yang terlihat dengan regresi logistik.

DAMPAK VARIABEL INDEPENDEN NONMETRIK Pertimbangan terakhir ikut bermain dengan


penggunaan variabel independen nonmetrik. Ketika mereka dimasukkan dalam model, mereka
selanjutnya membagi sampel menjadi sel-sel yang dibuat oleh kombinasi variabel independen dependen
dan nonmetrik. Misalnya, variabel independen biner sederhana membuat empat grup saat digabungkan

318
Regresi Logistik: Regresi dengan Variabel Dependen Biner

dengan variabel terikat biner. Meskipun tidak perlu bagi masing-masing kelompok ini untuk memenuhi persyaratan
ukuran sampel yang dijelaskan di atas, peneliti masih harus menyadari bahwa jika salah satu dari sel-sel ini memiliki
ukuran sampel yang sangat kecil maka sel tersebut secara efektif dihilangkan dari analisis. Selain itu, jika terlalu banyak
dari sel-sel ini memiliki ukuran sampel nol atau sangat kecil, maka model tersebut mungkin mengalami kesulitan untuk
konvergen dan mencapai solusi.

TAHAP 3: ASUMSI REGRESI LOGISTIK


Keuntungan regresi logistik dibandingkan dengan analisis diskriminan dan bahkan regresi berganda sebagian
besar berasal dari kurangnya asumsi umum yang diperlukan dalam analisis regresi logistik. Ini tidak
memerlukan bentuk distribusi spesifik dari variabel independen dan isu-isu seperti heteroskedastisitas tidak
ikut bermain seperti yang mereka lakukan dalam analisis diskriminan. Selain itu, regresi logistik tidak
memerlukan hubungan linier antara variabel independen dan variabel dependen seperti halnya regresi
berganda. Hal ini dapat mengatasi efek nonlinier bahkan ketika istilah eksponensial dan polinomial tidak secara
eksplisit ditambahkan sebagai variabel independen tambahan karena hubungan logistik.

TAHAP 4: ESTIMASI MODEL REGRESI LOGISTIK DAN MENILAI


KESESUAIAN KESELURUHAN
Salah satu karakteristik unik dari regresi logistik adalah penggunaan hubungan logistik yang dijelaskan
sebelumnya baik dalam memperkirakan model logistik dan membangun hubungan antara variabel
dependen dan independen. Hasilnya adalah transformasi unik dari variabel dependen, yang berdampak
tidak hanya pada proses estimasi, tetapi juga koefisien yang dihasilkan untuk variabel independen.
Namun, regresi logistik berbagi pendekatan untuk menilai kecocokan model secara keseluruhan dengan
analisis diskriminan (yaitu, penggunaan matriks klasifikasi) dan regresi berganda (yaitu,R2
Pengukuran). Bagian berikut membahas proses estimasi diikuti dengan berbagai cara di
mana model fit dievaluasi.

Memperkirakan Model Regresi Logistik


Regresi logistik memiliki variate tunggal yang terdiri dari koefisien estimasi untuk setiap variabel
independen, seperti yang ditemukan dalam regresi berganda. Namun, variasi ini diperkirakan dengan
cara yang berbeda. Regresi logistik mendapatkan namanya daritransformasi logit digunakan dengan
variabel dependen, menciptakan beberapa perbedaan dalam proses estimasi (serta proses interpretasi
yang dibahas dalam bagian berikut).

TRANSFORMASI VARIABEL TERGANTUNG Seperti yang ditunjukkan sebelumnya, model logit menggunakan
bentuk spesifik dari kurva logistik, yang berbentuk S, untuk tetap dalam kisaran 0 hingga 1. Untuk
memperkirakan model regresi logistik, kurva nilai prediksi ini dipasang ke data aktual , seperti yang
dilakukan dengan hubungan linier pada regresi berganda. Namun, karena nilai data aktual dari variabel
dependen hanya dapat berupa 1 atau 0, prosesnya agak berbeda.
Gambar 2 menggambarkan dua contoh hipotetis untuk menyesuaikan hubungan logistik dengan
data sampel. Data aktual mewakili apakah suatu peristiwa terjadi atau tidak dengan menetapkan nilai 1
atau 0 untuk hasil (dalam hal ini 1 diberikan ketika peristiwa itu terjadi, 0 jika tidak, tetapi mereka bisa
dengan mudah dibalikkan). Pengamatan diwakili oleh titik-titik di bagian atas atau bawah grafik. Hasil ini
(terjadi atau tidak) terjadi pada setiap nilai variabel independen (yangx sumbu). Pada bagian (a), kurva
logistik tidak dapat memuat data dengan baik, karena sejumlah nilai variabel independen memiliki hasil
(1 dan 0). Dalam hal ini variabel bebas tidak membedakan antara dua hasil, seperti yang ditunjukkan oleh
tingginya tumpang tindih kedua kelompok.
Namun, pada bagian (b), hubungan yang jauh lebih terdefinisi dengan baik didasarkan pada variabel
independen. Nilai yang lebih rendah dari variabel independen sesuai dengan pengamatan dengan 0 untuk

319
Regresi Logistik: Regresi dengan Variabel Dependen Biner

(a) Hubungan yang Kurang Pas


1

kamu

0
1 2 3 4 5 6 7 8 9 10
x

(b) Hubungan yang Didefinisikan dengan Baik


1

kamu

0
1 2 3 4 5 6 7 8 9 10
x

GAMBAR 2 Contoh Penyesuaian Kurva Logistik ke


Contoh data

variabel dependen, sedangkan nilai yang lebih besar dari variabel independen sesuai dengan pengamatan
tersebut dengan nilai 1 pada variabel dependen. Dengan demikian, kurva logistik harus dapat menyesuaikan
data dengan cukup baik.
Tapi bagaimana kita memprediksi keanggotaan kelompok dari kurva logistik? Untuk setiap
observasi, teknik regresi logistik memprediksi nilai probabilitas antara 0 dan 1. Memplot nilai prediksi
untuk semua nilai variabel independen menghasilkan kurva yang ditunjukkan pada Gambar 2.
Probabilitas diprediksi ini didasarkan pada nilai independen variabel dan koefisien yang diestimasi. Jika
probabilitas yang diprediksi lebih besar dari .50, maka prediksinya adalah bahwa hasilnya adalah 1
(peristiwa itu terjadi); jika tidak, hasilnya diprediksi menjadi 0 (peristiwa tidak terjadi). Mari kembali ke
contoh kita dan lihat cara kerjanya.
Pada bagian (a) dan (b) dari Gambar 2, nilai 6.0 untuk x (variabel independen) sesuai dengan probabilitas
0,50. Pada bagian (a), kita dapat melihat bahwa sejumlah pengamatan dari kedua kelompok berada di kedua sisi
nilai ini, yang mengakibatkan sejumlah kesalahan klasifikasi. Kesalahan klasifikasi paling banyak

320
Regresi Logistik: Regresi dengan Variabel Dependen Biner

terlihat untuk kelompok dengan nilai 1,0, namun bahkan beberapa pengamatan di kelompok lain (variabel
terikat = 0,0) salah diklasifikasikan. Pada bagian (b), kami membuat klasifikasi sempurna dari dua kelompok saat
menggunakan nilai probabilitas .50 sebagai nilai pisah batas.
Jadi, dengan kurva logistik yang diperkirakan, kita dapat memperkirakan probabilitas untuk setiap pengamatan
berdasarkan nilainya untuk variabel independen dan kemudian memprediksi keanggotaan kelompok menggunakan
0,50 sebagai nilai batas. Setelah kita memiliki keanggotaan yang diprediksi, kita dapat membuat matriks klasifikasi
seperti yang dilakukan untuk analisis diskriminan dan menilai akurasi prediksi.

ESTIMASI KOEFISIEN Dari mana kurva itu berasal? Dalam regresi berganda, kami memperkirakan
hubungan linier yang paling sesuai dengan data. Dalam regresi logistik, kami mengikuti proses yang
sama untuk memprediksi variabel dependen dengan abervariasi terdiri dari koefisien logistik
dan variabel independen yang sesuai. Apa yang berbeda adalah bahwa dalam regresi logistik, nilai prediksi
tidak pernah bisa berada di luar kisaran 0 hingga 1. Meskipun diskusi lengkap tentang masalah konseptual dan
statistik yang terlibat dalam proses estimasi berada di luar cakupan bab ini, beberapa sumber yang sangat baik
dengan perawatan lengkap masalah ini tersedia [1, 5, 6]. Kami dapat menjelaskan proses estimasi dalam dua
langkah dasar saat kami memperkenalkan beberapa istilah umum dan memberikan gambaran singkat tentang
proses tersebut.

MENGUBAH PROBABILITAS MENJADI GANJIL DAN NILAI LOGIT Sama seperti dengan beberapa regresi-
sion, regresi logistik memprediksi variabel dependen metrik, dalam hal ini nilai probabilitas dibatasi pada
kisaran antara 0 dan 1. Tapi bagaimana kita bisa memastikan bahwa nilai perkiraan tidak berada di luar
kisaran ini? Transformasi logistik menyelesaikan proses ini dalam dua langkah.

Menyatakan kembali Probabilitas sebagai Peluang. Dalam bentuk aslinya, probabilitas tidak dibatasi oleh nilai
antara 0 dan 1. Jadi, bagaimana jika kita menyatakan kembali probabilitas sedemikian rupa sehingga variabel baru akan
selalu berada di antara 0 dan 1? Kami menyatakan kembali dengan menyatakan probabilitas sebagaikemungkinan—
rasio probabilitas dua hasil atau peristiwa, MasalahSaya (1 - MasalahSaya). Dalam bentuk ini, setiap nilai probabilitas
sekarang dinyatakan dalam variabel metrik yang dapat diestimasi secara langsung. Nilai peluang apa pun dapat diubah
kembali menjadi probabilitas yang berada di antara 0 dan 1. Kami telah memecahkan masalah membatasi nilai prediksi
ke dalam 0 dan 1 dengan memprediksi nilai peluang dan kemudian mengubahnya menjadi probabilitas.

Mari kita gunakan beberapa contoh probabilitas keberhasilan atau kegagalan untuk mengilustrasikan
bagaimana peluang dihitung. Jika probabilitas sukses adalah 0,80, maka kita juga tahu bahwa probabilitas hasil
alternatif (yaitu, kegagalan) adalah 0,20 (.20 = 1.0 - .80). Probabilitas ini berarti bahwa peluang keberhasilan adalah
4.0 (.80 .20), atau bahwa keberhasilan empat kali lebih mungkin terjadi daripada kegagalan. Sebaliknya, kita dapat
menyatakan peluang kegagalan sebagai .25 (.20 .80), atau dengan kata lain, kegagalan terjadi pada seperempat tingkat
keberhasilan. Jadi, tidak peduli hasil mana yang kita lihat (sukses atau gagal), kita dapat menyatakan probabilitas
sebagai peluang.
Seperti yang mungkin Anda duga, probabilitas 0,50 menghasilkan odds 1,0 (kedua hasil memiliki peluang
yang sama untuk terjadi). Odds kurang dari 1,0 mewakili probabilitas kurang dari 0,50 dan odds yang lebih
besar dari 1,0 sesuai dengan probabilitas yang lebih besar dari 0,50. Kami sekarang memiliki variabel metrik
yang selalu dapat dikonversi kembali ke nilai probabilitas dalam 0 dan 1.

Menghitung Nilai Logit. Variabel odds memecahkan masalah membuat perkiraan probabilitas
antara 0 dan 1, tetapi kami memiliki masalah lain: Bagaimana kami menjaga nilai odds agar tidak di
bawah 0, yang merupakan batas bawah peluang (tidak ada batas atas). Solusinya adalah menghitung
apa yang disebutnilai log, yang dihitung dengan mengambil logaritma peluang. Peluang kurang dari
1,0 akan memiliki nilai logit negatif, rasio odds yang lebih besar dari 1,0 akan memiliki nilai logit positif, dan
rasio peluang 1,0 (sesuai dengan probabilitas .5) memiliki nilai logit 0. Selain itu, tidak peduli seberapa rendah
nilai negatifnya mendapat, itu masih dapat diubah dengan mengambil antilog menjadi nilai odds yang lebih
besar dari 0. Berikut ini menunjukkan beberapa nilai probabilitas tipikal dan nilai odds dan log odds yang terkait.

321
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Kemungkinan Kemungkinan Peluang Log (Logit)

. 00 . 00 NC
. 10 . 111 - 2.197
. 30 . 428 - . 847
. 50 1.000 . 000
. 70 2.333 . 847
. 90 9.000 2.197
1.00 NC NC

NC = Tidak dapat dihitung.

Dengan nilai logit, sekarang kita memiliki variabel metrik yang dapat memiliki nilai positif dan negatif
tetapi selalu dapat ditransformasikan kembali ke nilai probabilitas antara 0 dan 1. Namun, perlu diketahui
bahwa logit tidak pernah dapat benar-benar mencapai salah satu dari 0 atau 1. Nilai ini sekarang menjadi
variabel dependen dari model regresi logistik.

ESTIMASI MODEL Setelah kami memahami bagaimana menginterpretasikan nilai dari peluang atau ukuran logit,
kami dapat melanjutkan untuk menggunakannya sebagai ukuran dependen dalam regresi logistik kami. Proses
estimasi koefisien logistik serupa dengan yang digunakan dalam regresi, meskipun dalam kasus ini hanya dua
nilai aktual yang digunakan untuk variabel dependen (0 dan 1). Selain itu, alih-alih menggunakan kuadrat
terkecil biasa sebagai sarana untuk memperkirakan model, metode kemungkinan maksimum digunakan.

Memperkirakan Koefisien. Koefisien yang diestimasi untuk variabel independen diestimasi


menggunakan nilai logit atau nilai odds sebagai ukuran dependen. Masing-masing formulasi
model ini ditunjukkan di sini:

masalah
Eetvn
LogitSaya = lnA b = b +0 b X +1 1+ Bn xn
1 - masalahperistiwa

atau

KemungkinanSaya = A
masalahperistiwa
b = eB0+b1 x1+Á+Bn xn
1 - masalahperistiwa

Kedua formulasi model tersebut ekuivalen, tetapi mana yang dipilih akan mempengaruhi bagaimana koefisien diestimasi.
Banyak program perangkat lunak menyediakan koefisien logistik dalam kedua bentuk, sehingga peneliti harus memahami
bagaimana menafsirkan setiap bentuk. Kami akan membahas masalah interpretasi di bagian selanjutnya.
Proses ini dapat menampung satu atau lebih variabel bebas, dan variabel bebas tersebut
dapat berupa metrik maupun nonmetrik (biner). Seperti yang akan kita lihat nanti dalam diskusi
kita tentang menafsirkan koefisien, kedua bentuk koefisien mencerminkan arah dan besarnya
hubungan, tetapi ditafsirkan secara berbeda.

Menggunakan Kemungkinan Maksimum untuk Estimasi. Regresi berganda menggunakan metode


kuadrat terkecil, yang meminimalkan jumlah perbedaan kuadrat antara nilai aktual dan nilai prediksi dari
variabel dependen. Sifat nonlinier dari transformasi logistik mensyaratkan bahwa prosedur lain,
prosedur kemungkinan maksimum, digunakan secara iteratif untuk menemukan perkiraan yang paling
mungkin untuk koefisien. Alih-alih meminimalkan deviasi kuadrat (kuadrat terkecil), regresi logistik
memaksimalkan kemungkinan bahwa suatu peristiwa akan terjadi. Nilai kemungkinan alih-alih jumlah
kuadrat kemudian digunakan saat menghitung ukuran kecocokan model secara keseluruhan.
Menggunakan teknik estimasi alternatif ini juga mengharuskan kami menilai model fit dengan cara yang
berbeda.

322
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Menilai Kesesuaian Model yang Diestimasi


Kesesuaian model regresi logistik dapat dinilai dengan dua cara. Salah satu caranya adalah dengan menilai
kecocokan estimasi model menggunakan “pseudo”R2 nilai, mirip dengan yang ditemukan dalam regresi
berganda. Pendekatan kedua adalah untuk menguji akurasi prediksi (seperti matriks klasifikasi dalam analisis
diskriminan). Kedua pendekatan menguji model fit dari perspektif yang berbeda, tetapi harus menghasilkan
kesimpulan yang sama.

KESESUAIAN MODEL ESTIMASI Ukuran dasar seberapa baik prosedur estimasi kemungkinan maksimum cocok adalah nilai

kemungkinan, mirip dengan jumlah nilai kuadrat yang digunakan dalam regresi berganda. Regresi logistik mengukur
estimasi model yang sesuai dengan nilai -2 kali log dari nilai kemungkinan, disebut sebagai -2II atau -2 log
kemungkinan. Nilai minimum untuk -2II adalah 0, yang sesuai dengan kecocokan sempurna (kemungkinan = 1 dan -2II
maka 0). Jadi, semakin rendah -2II nilai, semakin baik kecocokan model. Seperti yang akan dibahas pada bagian berikut,
-2II nilai dapat digunakan untuk membandingkan persamaan untuk perubahan kecocokan atau untuk menghitung
ukuran yang sebanding dengan R2 mengukur dalam regresi berganda.

Perbandingan Antara Model. Nilai kemungkinan dapat dibandingkan antar persamaan untuk menilai
perbedaan kecocokan prediktif dari satu persamaan ke persamaan lainnya, dengan uji statistik untuk
signifikansi perbedaan ini. Pendekatan dasar mengikuti tiga langkah:

1. Perkirakan model nol. Langkah pertama adalah menghitung model nol, yang bertindak sebagai dasar
untuk membuat perbandingan perbaikan model fit. Model nol yang paling umum adalah model tanpa
variabel bebas, yang mirip dengan menghitung jumlah kuadrat hanya dengan menggunakan rata-rata
dalam regresi berganda. Logika di balik bentuk model nol ini adalah ia dapat bertindak sebagai dasar
yang dengannya model apa pun yang mengandung variabel independen dapat dibandingkan.
2. Perkirakan model yang diusulkan. Model ini memuat variabel-variabel independen untuk dimasukkan
dalam model regresi logistik. Semoga model fit akan meningkat dari model nol dan menghasilkan -2 .
yang lebih rendahII nilai. Sejumlah model yang diusulkan dapat diperkirakan (misalnya, model dengan
satu, dua, dan tiga variabel independen semuanya dapat menjadi model yang diusulkan terpisah).
3. Menilai -perbedaan 2LL. Langkah terakhir adalah menilai signifikansi statistik dari -2II
nilai antara dua model (model nol versus model yang diusulkan). Jika uji statistik mendukung perbedaan
yang signifikan, maka kita dapat menyatakan bahwa himpunan variabel independen dalam model yang
diusulkan signifikan dalam meningkatkan kecocokan estimasi model.

Dengan cara yang sama, dua model yang diusulkan dapat dibandingkan. Dalam hal ini, -2II
perbedaan mencerminkan perbedaan model fit karena spesifikasi model yang berbeda. Misalnya, model
dengan dua variabel independen dapat dibandingkan dengan model dengan tiga variabel independen untuk
menilai peningkatan yang diperoleh dengan menambahkan satu variabel independen. Dalam hal ini, satu
model dipilih untuk bertindak sebagai model nol dan kemudian dibandingkan dengan model lain.
Sebagai contoh, asumsikan bahwa kita ingin menguji signifikansi satu set variabel independen secara
kolektif untuk melihat apakah mereka meningkatkan kecocokan model. Model nol akan ditetapkan sebagai
model tanpa variabel-variabel ini dan model yang diusulkan akan mencakup variabel-variabel yang akan
dievaluasi. Perbedaan -2II akan menandakan peningkatan dari set variabel independen. Kita bisa melakukan tes
serupa dari perbedaan -2II antara pasangan model lain yang bervariasi dalam jumlah variabel independen yang
dimasukkan dalam setiap model.
Uji chi-kuadrat dan uji terkait untuk signifikansi statistik digunakan untuk mengevaluasi
penurunan nilai kemungkinan log. Namun, uji statistik ini sangat sensitif terhadap ukuran sampel
(untuk sampel kecil lebih sulit untuk menunjukkan signifikansi statistik, dan sebaliknya, untuk
sampel besar). Oleh karena itu, peneliti harus sangat berhati-hati dalam menarik kesimpulan
hanya berdasarkan signifikansi uji chi-kuadrat dalam regresi logistik.

Semu R2 Pengukuran. Selain uji chi-kuadrat statistik, beberapa "R2-Suka"


langkah-langkah telah dikembangkan dan disajikan dalam berbagai program statistik untuk mewakili keseluruhan

323
Regresi Logistik: Regresi dengan Variabel Dependen Biner

model cocok. Pseudo iniR2 langkah-langkah ditafsirkan dengan cara yang mirip dengan koefisien determinasi
dalam regresi berganda. Asemu R2 nilai dapat dengan mudah diturunkan untuk regresi logistik mirip dengan
R2 nilai dalam analisis regresi [3]. pseudoR2 untuk model logit (R2 masuk) dapat dihitung sebagai

- 2IIbatal - A-2IImodelB
R2masuk =
- 2IIbatal

Sama seperti rekan regresi bergandanya, logit R2 nilai berkisar dari 0,0 hingga 1,0. Saat model yang
diusulkan meningkatkan kecocokan model, -2II nilai menurun. Kecocokan yang sempurna memiliki -2II nilai 0,0
dan R2 masuk dari 1.0.
Dua ukuran lain serupa dalam desain dengan pseudo R2 nilai dan umumnya dikategorikan sebagai pseudo R2
langkah-langkah juga. Cox dan SnellR2 ukuran beroperasi dengan cara yang sama, dengan nilai yang lebih tinggi
menunjukkan kecocokan model yang lebih besar. Namun, ukuran ini terbatas karena tidak dapat mencapai nilai
maksimum 1, sehingga Nagelkerke mengusulkan modifikasi yang memiliki kisaran 0 hingga 1. Kedua ukuran tambahan
ini ditafsirkan sebagai mencerminkan jumlah variasi yang diperhitungkan oleh model logistik. , dengan 1,0
menunjukkan kecocokan model yang sempurna.

Perbandingan dengan Regresi Berganda. Dalam membahas prosedur untuk menilai model fit dalam
regresi logistik, kami membuat beberapa referensi persamaan dengan regresi berganda dalam hal
berbagai ukuran model fit. Pada tabel berikut, kami menunjukkan korespondensi antara konsep yang
digunakan dalam regresi berganda dan rekan-rekan mereka dalam regresi logistik.

Korespondensi Elemen Utama Model Fit


Regresi Berganda Regresi logistik

Jumlah total kuadrat - 2II dari model dasar


Kesalahan jumlah kuadrat - 2II dari model yang diusulkan Perbedaan -2LL untuk model
Regresi jumlah kuadrat dasar dan model yang diusulkan Uji khi-kuadrat -2II
F uji kecocokan model Koefisien perbedaan Pseudo R2 Pengukuran
determinasi (R2)

Seperti yang dapat kita lihat, konsep antara regresi berganda dan regresi logistik serupa. Pendekatan dasar
untuk menguji kecocokan model secara keseluruhan dapat dibandingkan, dengan perbedaan yang timbul dari metode
estimasi yang digunakan dalam kedua teknik tersebut.

AKURASI PREDIKSI Sama seperti kami meminjam konsep R2 dari regresi sebagai ukuran kecocokan model secara
keseluruhan, kita dapat melihat ke analisis diskriminan untuk ukuran akurasi prediksi secara keseluruhan. Dua
pendekatan yang paling umum adalah matriks klasifikasi dan ukuran kecocokan berbasis chi-kuadrat.

Matriks Klasifikasi. Ini matriks klasifikasi Pendekatan ini identik dengan yang digunakan dengan
analisis diskriminan, yaitu mengukur seberapa baik keanggotaan kelompok diprediksi dan berkembang
rasio pukulan, yang mana persentase diklasifikasikan dengan benar. Kasus regresi logistik akan selalu mencakup
hanya dua kelompok, tetapi semua tindakan yang terkait dengan peluang (misalnya, kesempatan maksimum atau
peluang proporsional) yang digunakan sebelumnya untuk analisis diskriminan juga berlaku di sini.

Ukuran Berbasis Chi-Square. Hosmer dan Lemeshow [4] mengembangkan tes klasifikasi di mana
kasus pertama dibagi menjadi sekitar 10 kelas yang sama. Kemudian, jumlah kejadian aktual dan
prediksi dibandingkan di setiap kelas dengan statistik chi-kuadrat. Tes ini memberikan ukuran akurasi
prediksi yang komprehensif yang tidak didasarkan pada nilai kemungkinan, melainkan pada prediksi
aktual dari variabel dependen. Penggunaan yang tepat dari tes ini membutuhkan sampel

324
Regresi Logistik: Regresi dengan Variabel Dependen Biner

ukuran setidaknya 50 kasus untuk memastikan bahwa setiap kelas memiliki setidaknya 5 pengamatan dan umumnya
sampel yang lebih besar karena jumlah kejadian yang diprediksi tidak boleh di bawah 1. Selain itu, statistik chi-kuadrat
sensitif terhadap ukuran sampel, memungkinkan pengukuran ini untuk menemukan perbedaan kecil yang signifikan
secara statistik ketika ukuran sampel menjadi besar.
Kami biasanya memeriksa sebanyak mungkin ukuran model fit ini. Mudah-mudahan, konvergensi
indikasi dari langkah-langkah ini akan memberikan dukungan yang diperlukan bagi peneliti dalam
mengevaluasi model fit secara keseluruhan.

TAHAP 5: INTERPRETASI HASIL


Seperti dibahas sebelumnya, model regresi logistik menghasilkan koefisien untuk variabel
independen seperti koefisien regresi dan sangat berbeda dari pemuatan analisis diskriminan.
Selain itu, sebagian besar diagnostik yang terkait dengan regresi berganda untuk pengamatan
yang berpengaruh juga tersedia dalam regresi logistik. Apa yang berbeda dari regresi berganda,
bagaimanapun, adalah interpretasi dari koefisien. Karena variabel terikat telah diubah dalam
proses yang dijelaskan pada tahap sebelumnya, koefisien harus dievaluasi dengan cara tertentu.
Diskusi berikut pertama membahas bagaimana directionality dan kemudian besarnya koefisien
ditentukan. Kemudian, perbedaan interpretasi antara metrik dan nonmetrik independen dibahas,
seperti yang diperlukan dalam regresi berganda.

Pengujian Signifikansi Koefisien


Regresi logistik menguji hipotesis tentang koefisien individu seperti yang dilakukan dalam regresi
berganda. Pada regresi berganda, uji statistik untuk melihat apakah koefisien berbeda nyata dengan 0.
Koefisien 0 menunjukkan bahwa koefisien tidak berpengaruh terhadap variabel dependen. Dalam
regresi logistik, kami juga menggunakan uji statistik untuk melihat apakah koefisien logistik berbeda dari
0. Ingat, bagaimanapun, dalam regresi logistik menggunakan logit sebagai ukuran dependen, nilai 0
sesuai dengan odds 1,00 atau probabilitas 0,50—nilai-nilai yang menunjukkan probabilitas sama untuk
setiap kelompok (yaitu, sekali lagi tidak ada pengaruh variabel independen dalam memprediksi
keanggotaan kelompok).
Dalam regresi berganda, T nilai tersebut digunakan untuk menilai signifikansi masing-masing koefisien. Regresi
logistik menggunakan statistik yang berbeda, yaituStatistik Wald. Ini memberikan signifikansi statistik untuk setiap
koefisien yang diperkirakan sehingga pengujian hipotesis dapat terjadi seperti halnya dalam regresi berganda. Jika
koefisien logistik signifikan secara statistik, kita dapat menafsirkannya dalam hal bagaimana hal itu berdampak pada
perkiraan probabilitas, dan dengan demikian prediksi keanggotaan kelompok.

Menafsirkan Koefisien
Salah satu keuntungan dari regresi logistik adalah bahwa kita hanya perlu mengetahui apakah suatu peristiwa
(pembelian atau tidak, risiko kredit yang baik atau tidak, kegagalan atau keberhasilan perusahaan) terjadi atau
tidak untuk mendefinisikan nilai dikotomis sebagai variabel terikat kita. Namun, ketika kami menganalisis data
ini menggunakan transformasi logistik, regresi logistik dan koefisiennya memiliki arti yang agak berbeda dari
yang ditemukan dalam regresi dengan variabel dependen metrik. Demikian pula, beban diskriminan dari
analisis diskriminan dua kelompok ditafsirkan berbeda dari koefisien logistik.
Dari proses estimasi yang dijelaskan sebelumnya, kita tahu bahwa koefisien (B0, B1, B2, . . . ,
Bn) sebenarnya adalah ukuran perubahan rasio probabilitas (peluang). Namun, koefisien logistik
sulit untuk ditafsirkan dalam bentuk aslinya karena dinyatakan dalam logaritma ketika kita
menggunakan logit sebagai ukuran dependen. Dengan demikian, sebagian besar program
komputer juga menyediakankoefisien logistik eksponen, yang hanya merupakan transformasi
(antilog) dari koefisien logistik asli. Dengan cara ini, kita dapat menggunakan koefisien logistik asli
atau eksponen untuk interpretasi. Kedua jenis koefisien logistik berbeda karena mencerminkan

325
Regresi Logistik: Regresi dengan Variabel Dependen Biner

hubungan variabel independen dengan dua bentuk variabel dependen, seperti yang ditunjukkan
di sini:

Koefisien Logistik Mencerminkan Perubahan dalam . . .

Asli Logit (log peluang)


eksponen Odds

Kita akan membahas di bagian berikutnya bagaimana setiap bentuk koefisien mencerminkan baik arah
maupun besaran hubungan variabel bebas, tetapi memerlukan metode interpretasi yang berbeda.

ARAH HUBUNGAN Arah hubungan (positif atau negatif) mencerminkan perubahan variabel
dependen terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa
peningkatan variabel independen dikaitkan dengan peningkatan probabilitas yang diprediksi,
dan sebaliknya untuk hubungan negatif. Kita akan melihat bahwa arah hubungan
direfleksikan secara berbeda untuk koefisien logistik asli dan eksponen.
Menafsirkan Arah Koefisien Asli. Tanda koefisien asli
(positif atau negatif) menunjukkan arah hubungan, seperti yang terlihat pada koefisien regresi.
Koefisien positif meningkatkan probabilitas, sedangkan nilai negatif menurunkan probabilitas
yang diprediksi, karena koefisien asli dinyatakan dalam nilai logit, di mana nilai 0,0 setara dengan
nilai odds 1,0 dan probabilitas 0,50. Dengan demikian, angka negatif berhubungan dengan
peluang kurang dari 1,0 dan probabilitas kurang dari 0,50.

Menafsirkan Arah Koefisien Eksponen. Koefisien eksponen harus


diinterpretasikan berbeda karena merupakan logaritma dari koefisien aslinya. Dengan mengambil logaritma,
kita sebenarnya menyatakan koefisien yang dieksponenkan dalam bentuk odds, yang berarti bahwa koefisien
yang dieksponenkan tidak akan memiliki nilai negatif. Karena logaritma 0 (tidak berpengaruh) adalah
1,0, koefisien eksponen 1,0 sebenarnya sesuai dengan hubungan tanpa arah. Jadi, koefisien
eksponensial di atas 1,0 mencerminkan hubungan positif dan nilai kurang dari 1,0
menunjukkan hubungan negatif.

Contoh Interpretasi. Mari kita lihat contoh sederhana untuk melihat apa yang kita maksud dalam hal
perbedaan antara dua bentuk koefisien logistik. JikaBSaya (koefisien asli) adalah positif, transformasinya
(koefisien eksponensial) akan lebih besar dari 1, yang berarti bahwa peluang akan meningkat untuk setiap
perubahan positif dalam variabel independen. Dengan demikian model akan memiliki kemungkinan terjadinya
yang diprediksi lebih tinggi. Begitu juga jikaBSaya negatif, koefisien eksponen kurang dari
1.0 dan peluang akan berkurang. Koefisien nol sama dengan nilai koefisien eksponensial 1,0,
sehingga tidak ada perubahan dalam peluang. Diskusi yang lebih rinci tentang interpretasi
koefisien, transformasi logistik, dan prosedur estimasi dapat ditemukan di banyak teks [4, 5, 6].

BESARNYA HUBUNGAN VARIABEL INDEPENDEN METRIK Untuk menentukan bagaimana


banyak kemungkinan akan berubah mengingat perubahan satu unit dalam variabel independen, nilai numerik
dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan
nonmetrik harus ditafsirkan secara berbeda, karena masing-masing mencerminkan dampak yang berbeda pada
variabel terikat.
Untuk variabel metrik, pertanyaannya adalah: Seberapa besar kemungkinan yang diperkirakan
akan berubah untuk setiap unit berubah dalam variabel independen? Dalam regresi berganda, kita tahu
bahwa koefisien regresi adalah kemiringan hubungan linier dari ukuran independen dan dependen.
Koefisien 1,35 menunjukkan bahwa variabel dependen meningkat 1,35 unit setiap kali variabel
independen meningkat satu unit. Dalam regresi logistik, kita tahu bahwa kita memiliki hubungan
nonlinier yang dibatasi antara 0 dan 1, sehingga koefisien cenderung ditafsirkan agak berbeda. Selain
itu, kami memiliki kedua koefisien asli dan eksponen untuk dipertimbangkan.

326
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Koefisien Logistik Asli. Meskipun paling tepat untuk menentukan arah hubungan, koefisien logistik
asli kurang berguna dalam menentukan besarnya hubungan. Mereka mencerminkan perubahan dalam
nilai logit (peluang yang dicatat), sebuah unit ukuran yang tidak dapat dipahami secara khusus dalam
menggambarkan seberapa besar kemungkinan yang benar-benar berubah.

Koefisien Logistik Eksponen. Koefisien eksponen secara langsung mencerminkan besarnya


perubahan nilai odds. Karena mereka eksponen, mereka ditafsirkan sedikit berbeda. Dampaknya
bersifat multiplikatif, artinya pengaruh koefisien tidak ditambahkan pada variabel terikat (odds),
tetapi dikalikan untuk setiap perubahan satuan pada variabel bebas. Dengan demikian, koefisien
eksponen 1,0 menunjukkan tidak ada perubahan (1,0× variabel bebas = tidak ada perubahan).
Hasil ini sesuai dengan diskusi kami sebelumnya, di mana koefisien eksponen kurang dari 1,0
mencerminkan hubungan negatif dan nilai di atas 1,0 menunjukkan hubungan positif.

Contoh Menilai Besarnya Perubahan. Mungkin pendekatan yang lebih mudah untuk ditentukan
besarnya perubahan probabilitas dari nilai-nilai tersebut adalah sebagai berikut:

Persentase perubahan odds = (Koefisien eksponensialSaya - 1.0) × 100

Contoh berikut mengilustrasikan cara menghitung perubahan probabilitas karena perubahan satu unit
dalam variabel independen untuk rentang koefisien eksponen:

Nilai

Koefisien Eksponen (eB Saya) . 20 . 50 1.0 1.5 1.7


Koefisien Eksponen - 1,0 - . 80 - . 50 0,0 . 50 . 70
Persentase perubahan peluang - 80% - 50% 0% 50% 70%

Jika koefisien eksponensial adalah .20, perubahan satu unit dalam variabel independen akan
mengurangi peluang sebesar 80 persen (sama seperti jika peluang dikalikan dengan .20). Demikian juga,
koefisien eksponensial 1,5 menunjukkan peningkatan 50 persen dalam rasio odds.
Seorang peneliti yang mengetahui peluang yang ada dan ingin menghitung nilai peluang baru untuk perubahan
variabel independen dapat melakukannya secara langsung melalui koefisien eksponen sebagai berikut:

Nilai odds baru = Nilai odds lama × Koefisien eksponen


× Perubahan variabel bebas
Mari kita gunakan contoh sederhana untuk mengilustrasikan cara di mana koefisien eksponensial
mempengaruhi nilai odds. Asumsikan bahwa odds adalah 1,0 (yaitu, 50-50) ketika variabel independen
memiliki nilai 5,5 dan koefisien eksponen adalah 2,35. Kita tahu bahwa jika koefisien eksponensial lebih
besar dari 1,0, maka hubungannya positif, tetapi kita ingin mengetahui seberapa besar kemungkinannya
akan berubah. Jika kita mengharapkan nilai variabel independen akan meningkat 1,5 poin menjadi 7,0,
kita dapat menghitung sebagai berikut:

Peluang baru = 1,0 × 2.35 × (7,0 - 5,5) = 3,525

Peluang dapat diterjemahkan ke dalam nilai probabilitas dengan rumus sederhana Kemungkinan = Peluang/ (1 +
Kemungkinan). Jadi, peluang 3,525 diterjemahkan menjadi probabilitas 77,9 persen (3,25/(1 + 3,25) =
. 779), menunjukkan bahwa peningkatan variabel independen sebesar 1,5 poin akan meningkatkan probabilitas
dari 50 persen menjadi 78 persen, meningkat 28 persen.
Sifat nonlinier dari kurva logistik ditunjukkan, bagaimanapun, ketika kita menerapkan peningkatan yang
sama pada peluang lagi. Kali ini, asumsikan bahwa variabel independen meningkat 1,5 poin lagi, menjadi 8,5.
Apakah kita juga mengharapkan kemungkinan untuk meningkat sebesar 28 persen lagi? Tidak bisa, karena itu
akan membuat probabilitas lebih besar dari 100 persen (78% + 28% = 106%). Dengan demikian,

327
Regresi Logistik: Regresi dengan Variabel Dependen Biner

probabilitas kenaikan atau penurunan melambat sehingga kurva mendekati, tetapi tidak pernah mencapai dua titik
akhir (0 dan 1). Dalam contoh ini, peningkatan 1,5 poin lainnya menciptakan nilai peluang baru sebesar 12.426, yang
diterjemahkan ke dalam peluang sebesar 92,6 persen, peningkatan sebesar 14 persen. Perhatikan bahwa dalam kasus
peningkatan probabilitas dari 78 persen ini, peningkatan probabilitas untuk peningkatan 1,5 dalam variabel independen
adalah setengah (14%) dari peningkatan yang sama ketika probabilitasnya adalah 50 persen.
Hasilnya adalah peneliti mungkin menemukan bahwa koefisien eksponensial cukup berguna tidak
hanya dalam menilai dampak variabel independen, tetapi juga dalam menghitung besarnya efek.

INTERPRETING MAGNITUDE UNTUK VARIABEL INDEPENDEN NONMETRIK (DUMMY) Seperti yang kita
dibahas dalam regresi berganda, variabel dummy mewakili satu kategori variabel nonmetrik.
Dengan demikian, mereka tidak seperti variabel metrik yang bervariasi di berbagai nilai, tetapi
hanya mengambil nilai 1 atau 0, yang menunjukkan ada atau tidak adanya karakteristik. Seperti
yang kita lihat dalam diskusi sebelumnya untuk variabel metrik, koefisien eksponensial adalah cara
terbaik untuk menafsirkan dampak variabel dummy, tetapi ditafsirkan secara berbeda dari variabel
metrik.
Setiap kali variabel dummy digunakan, penting untuk mencatat referensi atau kategori yang dihilangkan.
Dengan cara yang mirip dengan interpretasi dalam regresi, koefisien eksponensial mewakili tingkat relatif dari
variabel dependen untuk kelompok yang diwakili versus kelompok yang dihilangkan. Hubungan ini dapat kita
nyatakan sebagai berikut:

Kemungkinankategori yang diwakili = Koefisien eksponen × Kemungkinankategori referensi

Mari kita gunakan contoh sederhana dari dua kelompok untuk mengilustrasikan poin-poin ini. Jika variabel
nonmetrik adalah jenis kelamin, dua kemungkinannya adalah laki-laki dan perempuan. Variabel dummy dapat
didefinisikan sebagai mewakili laki-laki (yaitu, nilai 1 jika laki-laki, 0 jika perempuan) atau perempuan (yaitu, nilai 1 jika
perempuan, 0 jika laki-laki). Bagaimanapun cara yang dipilih, bagaimanapun, menentukan bagaimana koefisien
diinterpretasikan. Mari kita asumsikan bahwa 1 diberikan kepada perempuan, membuat koefisien eksponensial
mewakili persentase odds rasio perempuan dibandingkan dengan laki-laki. Jika koefisiennya 1,25, maka wanita memiliki
peluang 25 persen lebih tinggi daripada pria (1,25 - 1,0 = .25). Demikian juga, jika koefisiennya adalah 0,80, maka
peluang untuk perempuan adalah 20 persen lebih kecil (.80 - 1.0 = -.20) daripada laki-laki.

Menghitung Probabilitas untuk Nilai Spesifik Variabel Independen


Dalam diskusi sebelumnya tentang distribusi asumsi variabel dependen yang mungkin, kami
menggambarkan kurva berbentuk S, atau logistik. Untuk mewakili hubungan antara variabel
dependen dan independen, koefisien harus benar-benar mewakili hubungan nonlinier antara
variabel dependen dan independen. Meskipun proses transformasi logaritma memberikan
linearisasi hubungan, peneliti harus ingat bahwa koefisien sebenarnya mewakili kemiringan
yang berbeda dalam hubungan di seluruh nilai-nilai variabel independen. Dengan cara ini,
distribusi berbentuk S dapat diperkirakan. Jika peneliti tertarik pada kemiringan hubungan
pada berbagai nilai variabel bebas, koefisien dapat dihitung dan hubungan dinilai [3].

Ikhtisar Koefisien Interpretasi


Kesamaan koefisien dengan yang ditemukan dalam regresi berganda telah menjadi alasan utama
popularitas regresi logistik. Seperti yang telah kita lihat dalam diskusi sebelumnya, banyak aspek
yang sangat mirip, tetapi sifat unik dari variabel dependen (rasio odds) dan bentuk logaritmik dari
variat (memerlukan penggunaan koefisien eksponensial) memerlukan pendekatan interpretasi
yang agak berbeda. . Peneliti, bagaimanapun, masih memiliki kemampuan untuk menilai arah dan
besarnya dampak masing-masing variabel independen pada ukuran dependen dan akhirnya
akurasi klasifikasi model logistik.

328
Regresi Logistik: Regresi dengan Variabel Dependen Biner

ATURAN UMUM 1

Regresi logistik

• Regresi logistik adalah metode yang lebih disukai untuk variabel dependen dua kelompok (biner) karena
ketahanannya, kemudahan interpretasi, dan diagnostiknya
• Pertimbangan ukuran sampel untuk regresi logistik terutama difokuskan pada ukuran setiap kelompok,
yang seharusnya memiliki 10 kali jumlah koefisien model yang diestimasi
• Persyaratan ukuran sampel harus dipenuhi baik dalam analisis maupun sampel yang tidak digunakan
• Uji signifikansi model dilakukan dengan uji chi-kuadrat terhadap perbedaan nilai
kemungkinan log (-2II) antara dua model
• Koefisien dinyatakan dalam dua bentuk: asli dan eksponen untuk membantu interpretasi
• Interpretasi koefisien arah dan besaran adalah sebagai berikut:
• Arah dapat dinilai secara langsung dalam koefisien asli (tanda positif atau negatif) atau secara
tidak langsung dalam koefisien eksponen (kurang dari 1 negatif, lebih besar dari 1 positif)
• Besaran paling baik dinilai dengan koefisien eksponensial, dengan persentase perubahan
variabel terikat ditunjukkan oleh:

Perubahan persentase = (Koefisien eksponensial - 1,0) × 100

TAHAP 6: VALIDASI HASIL


Tahap akhir dari analisis regresi logistik melibatkan memastikan validitas eksternal maupun internal dari
hasil. Meskipun regresi logistik tidak terlalu rentan seperti analisis diskriminan untuk “melengkapi” hasil,
proses validasi tetap penting, terutama dengan sampel yang lebih kecil. Pendekatan yang paling umum
untuk menetapkan validitas eksternal adalah penilaian rasio hit baik melalui sampel terpisah (sampel
yang tidak digunakan) atau menggunakan prosedur yang berulang kali memproses sampel estimasi.
Validitas eksternal didukung ketika rasio hit dari pendekatan yang dipilih melebihi standar perbandingan
yang mewakili akurasi prediksi yang diharapkan secara kebetulan.
Bentuk validasi yang paling umum adalah melalui pembuatan a sampel ketidaksepakatan, juga disebut
sebagai sampel validasi, yang terpisah dari sampel analisis digunakan untuk memperkirakan model.
Tujuannya adalah untuk menerapkan model logistik ke kumpulan responden yang benar-benar terpisah untuk
menilai tingkat akurasi prediksi yang dicapai. Karena kasus-kasus ini tidak digunakan dalam proses estimasi,
mereka harus memberikan wawasan tentang generalisasi model logistik.
Pendekatan kedua adalah validasi silang, yang menggunakan varian dari holdout sample dimana uji
validitas eksternal menggunakan multiple subset dari total sample. Pendekatan yang paling banyak digunakan
adalah metode jackknife berdasarkan prinsip "tinggalkan-satu-keluar". Biasanya analisis dilakukan pada
k - 1 subsampel, menghilangkan satu pengamatan pada satu waktu dari sampel k kasus. Model
logistik dihitung untuk setiap sampel dan kemudian prediksi keanggotaan kelompok dari
observasi yang dieliminasi dihitung. Setelah semua subsampel dianalisis, matriks klasifikasi dibuat
dan rasio hit dihitung untuk kasus ketidaksepakatan di setiap subsampel. Pembaca didorong
untuk meninjau sendiri proses validasi untuk detail lebih lanjut.

CONTOH ILUSTRASI REGRESI LOGISTIK


Regresi logistik merupakan alternatif yang menarik untuk analisis diskriminan setiap kali variabel dependen
hanya memiliki dua kategori. Keuntungannya dibandingkan analisis diskriminan adalah sebagai berikut:

1. Kurang terpengaruh daripada analisis diskriminan oleh ketidaksetaraan varians-kovarians di


seluruh kelompok, asumsi dasar analisis diskriminan.

329
Regresi Logistik: Regresi dengan Variabel Dependen Biner

2. Menangani variabel independen kategori dengan mudah, sedangkan dalam analisis diskriminan
penggunaan variabel dummy menimbulkan masalah dengan persamaan varians-kovarians.
3. Hasil empiris paralel dengan regresi berganda dalam hal interpretasinya dan tindakan
diagnostik casewise yang tersedia untuk memeriksa residu.

Contoh berikut, identik dengan analisis diskriminan dua kelompok, menggambarkan


keuntungan dan kesamaan regresi logistik dengan hasil yang diperoleh dari regresi berganda.
Seperti yang akan kita lihat, meskipun regresi logistik memiliki banyak keuntungan sebagai
alternatif analisis diskriminan, peneliti harus hati-hati menginterpretasikan hasil karena aspek unik
dari bagaimana regresi logistik menangani prediksi probabilitas dan keanggotaan kelompok.

Tahap 1, 2, dan 3: Tujuan Penelitian, Desain Penelitian, dan Asumsi Statistik

Isu-isu yang dibahas dalam tiga tahap pertama dari proses pengambilan keputusan identik untuk analisis
diskriminan dua kelompok dan regresi logistik.
Masalah penelitian masih untuk mengetahui apakah perbedaan persepsi HBAT (x6 ke x18)
ada antara pelanggan di AS/Amerika Utara versus pelanggan di seluruh dunia (x4). Sampel
sebanyak 100 pelanggan dibagi menjadi sampel analisis sebanyak 60 observasi, dengan 40
observasi sisanya merupakan sampel holdout atau validasi. Kami sekarang fokus pada hasil yang
berasal dari penggunaan regresi logistik untuk memperkirakan dan memahami perbedaan antara
kedua jenis pelanggan ini.

Tahap 4: Estimasi Model Regresi Logistik dan Menilai Kecocokan


Keseluruhan
Sebelum proses estimasi dimulai, dimungkinkan untuk meninjau variabel individual dan menilai hasil
univariatnya dalam hal membedakan antar kelompok. Mengingat bahwa tujuan analisis diskriminan dan
regresi logistik adalah sama, kita dapat menggunakan ukuran diskriminasi yang sama untuk menilai efek
univariat seperti yang dilakukan untuk analisis diskriminan.
Jika kita menguji perbedaan kedua kelompok pada 13 variabel bebas (lihat Tabel 1), kita akan menemukan
bahwa 5 variabel (x6, x11, x12, x13, dan x17) memiliki perbedaan yang signifikan secara statistik antara kedua kelompok.
Kita juga dapat mengharapkan multikolinearitas di antara variabel-variabel ini, karena keduanyax6
dan x13 adalah bagian dari faktor Nilai Produk yang diturunkan dengan analisis faktor. Regresi logistik
dipengaruhi oleh multikolinearitas antara variabel independen dengan cara yang mirip dengan analisis
diskriminan dan analisis regresi.
Sama seperti dalam analisis diskriminan, kelima variabel ini akan menjadi kandidat logis untuk
dimasukkan dalam varian regresi logistik, karena menunjukkan perbedaan terbesar antar kelompok. Regresi
logistik dapat mencakup satu atau lebih variabel ini dalam model, serta bahkan variabel lain yang tidak memiliki
perbedaan yang signifikan pada tahap ini jika mereka bekerja dalam kombinasi dengan variabel lain untuk
meningkatkan prediksi secara signifikan.

ESTIMASI MODEL LANGKAH Model regresi logistik bertahap diperkirakan seperti regresi berganda di mana model
dasar pertama kali diperkirakan memberikan standar untuk perbandingan (lihat diskusi sebelumnya untuk lebih
detail). Dalam regresi berganda, mean digunakan untuk menetapkan model dasar dan menghitung jumlah
kuadrat total. Dalam regresi logistik, proses yang sama digunakan, dengan rata-rata yang digunakan dalam
model yang diestimasi bukan untuk menghitung jumlah kuadrat, melainkan untuk menghitung nilai
kemungkinan log. Dari model ini, korelasi parsial untuk setiap variabel dapat ditetapkan dan variabel yang
paling diskriminatif dipilih dalam model bertahap sesuai dengan kriteria pemilihan.

330
Regresi Logistik: Regresi dengan Variabel Dependen Biner

TABEL 1 Statistik Deskriptif Kelompok dan Uji Kesetaraan untuk Sampel Estimasi

Grup Variabel Dependen


Cara: x4 Wilayah
Grup 0: Grup 1:
AS/Utara Di luar Utara
Amerika Amerika
Variabel independen (n = 26) (n = 34) F Nilai Makna

x6 Kualitas produk 8.527 7.297 14.387 . 000


x7 Aktivitas E-Commerce 3.388 3.626 2.054 . 157
x8 Dukungan teknis 5.569 5.050 1.598 . 211
x9 Penyelesaian Keluhan 5.577 5.253 . 849 . 361
x10 Periklanan 3.727 3.979 . 775 . 382
x11 Lini Produk 6.785 5.274 25.500 . 000
x12 Gambar Tenaga Penjualan 4.427 5.238 9.733 . 003
x13 Harga Kompetitif 5.600 7.418 31,992 . 000
x14 Klaim garansi 6.050 5.918 . 453 . 503
x15 produk baru 4.954 5.276 . 600 . 442
x16 Pesanan & Penagihan 4.231 4.153 . 087 . 769
x17 Fleksibilitas Harga 3.631 4.932 31.699 . 000
x18 Kecepatan Pengiriman 3,873 3.794 . 152 . 698

Memperkirakan Model Dasar. Tabel 2 berisi hasil model dasar untuk analisis regresi logistik
berdasarkan 60 pengamatan dalam sampel analisis. Nilai kemungkinan log (-2LL) adalah 82.108. Statistik
skor, ukuran asosiasi yang digunakan dalam regresi logistik, adalah ukuran yang digunakan untuk
memilih variabel dalam prosedur bertahap. Beberapa kriteria dapat digunakan untuk memandu entri:
pengurangan terbesar dalam -2II nilai, koefisien Wald terbesar, atau probabilitas bersyarat tertinggi.
Dalam contoh kami, kami menggunakan kriteria pengurangan rasio kemungkinan log.
Dalam meninjau statistik skor variabel tidak dalam model saat ini, kita melihat bahwa lima variabel yang
sama dengan perbedaan yang signifikan secara statistik (x6, x11, x12, x13, dan x17) adalah satu-satunya variabel
dengan statistik skor signifikan pada Tabel 2. Karena prosedur bertahap memilih variabel dengan statistik skor
tertinggi, x13 harus menjadi variabel yang ditambahkan pada langkah pertama.

Estimasi Bertahap: Menambahkan Variabel Pertama, X13. Seperti yang diharapkan, x13 dipilih untuk
entri pada langkah pertama proses estimasi (lihat Tabel 3). Ini sesuai dengan statistik skor
tertinggi di semua 13 variabel persepsi. masuknyax13 ke dalam model regresi logistik diperoleh
kecocokan model yang wajar, dengan pseudo R2 nilai mulai dari 0,306 (pseudo R2) hingga 0,459
(Nagelkerke R2) dan rasio hit masing-masing 73,3 persen dan 75,0 persen untuk sampel analisis
dan ketidaksepakatan.
Pemeriksaan hasil, bagaimanapun, mengidentifikasi dua alasan untuk mempertimbangkan tahap tambahan
untuk menambahkan variabel ke model regresi logistik. Pertama, tiga variabel tidak dalam model logistik saat ini (x17, x
11, dan x6) memiliki statistik skor yang signifikan secara statistik, yang menunjukkan bahwa penyertaannya akan secara
signifikan meningkatkan kecocokan model secara keseluruhan. Kedua, rasio hit keseluruhan untuk sampel
ketidaksepakatan baik (75,0%), tetapi salah satu grup (pelanggan AS/Amerika Utara) memiliki rasio hit yang sangat
rendah sebesar 30,8 persen.

Estimasi Bertahap: Menambahkan Variabel Kedua, x17. Semoga satu atau lebih langkah dalam
prosedur bertahap akan menghasilkan pencantuman semua variabel independen dengan statistik skor yang signifikan
serta mencapai rasio hit yang dapat diterima (secara keseluruhan dan khusus kelompok) untuk sampel analisis dan
sampel ketidaksepakatan.

331
Regresi Logistik: Regresi dengan Variabel Dependen Biner

MEJA 2 Hasil Model Basis Regresi Logistik

Kecocokan Model Keseluruhan: Ukuran Kesesuaian

Nilai

– 2 Kemungkinan Log (–2II) 82.108

Variabel Tidak dalam Persamaan

Variabel independen Statistik Skor Makna

x6 Kualitas produk 11.925 . 001


x7 Aktivitas E-Commerce 2.052 . 152
x8 Dukungan teknis 1.609 . 205
x9 Penyelesaian Keluhan . 866 . 352
x10 Periklanan . 791 . 374
x11 Lini Produk 18.323 . 000
x12 Gambar Tenaga Penjualan 8.622 . 003
x13 Harga Kompetitif 21.330 . 000
x14 Klaim garansi . 465 . 495
x15 produk baru . 614 . 433
x16 Pesanan & Penagihan . 090 . 764
x17 Fleksibilitas Harga 21.204 . 000
x18 Kecepatan Pengiriman . 157 . 692

x17, dengan statistik skor tertinggi setelah menambahkan x13, dipilih untuk entri pada langkah 2 (Tabel 4).
Peningkatan semua ukuran model fit berkisar dari penurunan -2II nilai untuk berbagai R2
Pengukuran. Lebih penting dari perspektif estimasi model, bagaimanapun, tidak ada variabel tidak dalam
persamaan memiliki skor perubahan yang signifikan secara statistik. Dengan demikian, model logistik dua
variabel termasuk:x13 dan x17 akan menjadi model akhir yang akan digunakan untuk keperluan penilaian model
fit, akurasi prediksi, dan interpretasi koefisien.

MENILAI KESESUAIAN MODEL KESELURUHAN Dalam membuat penilaian kecocokan keseluruhan dari model regresi logistik,

kita dapat menggunakan tiga pendekatan: ukuran statistik kecocokan model keseluruhan, kecocokan semu. R2
ukuran, dan akurasi klasifikasi seperti yang dinyatakan dalam rasio hit. Masing-masing pendekatan
ini akan diuji untuk model regresi logistik satu variabel dan dua variabel yang dihasilkan dari
prosedur bertahap.

Langkah-langkah Statistik. Ukuran statistik pertama adalah uji chi-kuadrat untuk perubahan
- 2II nilai dari model dasar, yang sebanding dengan keseluruhan F uji dalam regresi berganda. Nilai -2 . yang
lebih kecilII ukuran menunjukkan kecocokan model yang lebih baik, dan uji statistik tersedia untuk menilai
perbedaan antara model dasar dan model yang diusulkan lainnya (dalam prosedur bertahap, pengujian ini
selalu didasarkan pada peningkatan dari langkah sebelumnya).
Dalam model variabel tunggal (lihat Tabel 3), -2II nilai tersebut berkurang dari nilai model dasar sebesar 82,108
menjadi 59,971, penurunan sebesar 25,136. Peningkatan kecocokan model ini secara statistik signifikan pada
. 000 tingkat. Dalam model dua variabel, -2II nilai menurun lebih lanjut menjadi 39,960, menghasilkan
penurunan yang signifikan tidak hanya dari model dasar (42,148), tetapi juga penurunan yang signifikan
dari model satu variabel (17,011). Kedua perbaikan model fit ini signifikan pada tingkat .000.
Ukuran statistik kedua adalah ukuran Hosmer dan Lemeshow dari keseluruhan fit. Uji
statistik ini mengukur korespondensi nilai aktual dan prediksi dari variabel dependen. Dalam hal
ini, model fit yang lebih baik ditunjukkan dengan perbedaan yang lebih kecil pada klasifikasi yang
diamati dan diprediksi.

332
TABEL 3 Regresi Logistik Estimasi Bertahap: Menambahkan x13 (Harga Kompetitif)

Kecocokan Model Keseluruhan: Ukuran Kesesuaian

GANTI -2II
Dari Model Dasar Dari Langkah Sebelumnya

Nilai Mengubah Makna Mengubah Makna

– 2 Kemungkinan Log (–2II) 56.971 25.136 . 000 25.136 . 000


Cox dan Snell R2 . 342
Nagelkerke R2 . 459
Semu R2 . 306

Nilai Makna

Hosmer dan Lemeshow 2 17.329 . 027

Variabel dalam Persamaan

Variabel Independen B Std. Kesalahan Wald df Tanda tangan. Berakhir (B)

x13 Harga Kompetitif 1.129 . 287 15.471 1 . 000 3.092


Konstan – 7.008 1.836 14.570 1 . 000 . 001

B = koefisien logistik, Exp(B) = koefisien eksponensial

Variabel Tidak dalam Persamaan

Variabel Independen Statistik Skor Makna

x6 Kualitas produk 4.859 . 028


x7 Aktivitas E-Commerce . 132 . 716
x8 Dukungan teknis . 007 . 932
x9 Penyelesaian Keluhan 1.379 . 240
x10 Periklanan . 129 . 719
x11 Lini Produk 6.154 . 013
x12 Gambar Tenaga Penjualan 2,745 . 098
x14 Klaim garansi . 640 . 424
x15 produk baru . 344 . 557
x16 Pesanan & Penagihan 2.529 . 112
x17 Fleksibilitas Harga 13,723 . 000
x18 Kecepatan Pengiriman 1.206 . 272

Matriks Klasifikasi
Keanggotaan Grup yang DiprediksiC

SAMPEL ANALISISA SAMPEL HOLDOUTB


x4 Wilayah x4 Wilayah
AMERIKA SERIKAT/ Di luar AMERIKA SERIKAT/ Di luar
Grup Sebenarnya Utara Utara Utara Utara
Keanggotaan Amerika Amerika Total Amerika Amerika Total

AMERIKA SERIKAT/ 19 7 26 4 9 13
Amerika Utara (73.1) (30.8)
Di luar 9 25 34 34 26 27
Amerika Utara (73.5) (96.3)

A73,3% sampel analisis diklasifikasikan dengan benar.


B75,0% sampel ketidaksepakatan diklasifikasikan dengan benar.

CNilai dalam tanda kurung adalah persentase yang diklasifikasikan dengan benar (rasio hit).

333
TABEL 4 Regresi Logistik Estimasi Bertahap: Menambahkan x17 (Fleksibilitas Harga)

Kecocokan Model Keseluruhan: Ukuran Kesesuaian

GANTI -2II

Dari Model Dasar Dari Langkah Sebelumnya

Nilai Mengubah Makna Ubah Signifikansi

– 2 Kemungkinan Log (–2II) 39.960 42.148 . 000 17,011 . 000


Cox dan Snell R2 . 505
Nagelkerke R2 . 677
Semu R2 . 513

Nilai Makna

Hosmer dan Lemeshow 2


5.326 . 722

Variabel dalam Persamaan

Variabel bebas B Std. Kesalahan Wald df Tanda tangan. Berakhir (B)

x13 Harga Kompetitif 1.079 . 357 9.115 1 . 003 2.942


x17 Konstanta 1,844 . 639 8.331 1 . 004 6.321
Fleksibilitas Harga – 14,192 3.712 14.614 1 . 000 . 000

B = koefisien logistik, Exp(B) = koefisien eksponensial

Variabel Tidak dalam Persamaan

Variabel independen Statistik Skor Makna

x6 Kualitas produk . 656 . 418


x7 Aktivitas E-Commerce 3.501 . 061
x8 Dukungan teknis . 006 . 937
x9 Penyelesaian Keluhan . 693 . 405
x10 Periklanan . 091 . 762
x11 Lini Produk 3.409 . 065
x12 Gambar Tenaga Penjualan . 849 . 357
x14 Klaim garansi 2.327 . 127
x15 produk baru . 026 . 873
x16 Pesanan & Penagihan . 010 . 919
x18 Kecepatan Pengiriman 2.907 . 088

Matriks Klasifikasi

Keanggotaan Grup yang DiprediksiC

SAMPEL ANALISISA SAMPEL HOLDOUTB


x4 Wilayah x4 Wilayah

AMERIKA SERIKAT/ Di luar AMERIKA SERIKAT/ Di luar


Grup Sebenarnya Utara Utara Utara Utara
Keanggotaan Amerika Amerika Total Amerika Amerika Total

AMERIKA SERIKAT/ 25 1 26 9 4 13
Amerika Utara (96.2) (69.2)
Di luar 6 28 34 2 25 27
Amerika Utara (82,4) (92.6)

A88,3% sampel analisis diklasifikasikan dengan benar.


B85,0% sampel ketidaksepakatan diklasifikasikan dengan benar.

CNilai dalam tanda kurung adalah persentase yang diklasifikasikan dengan benar (rasio hit).

334
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Uji Hosmer dan Lemeshow menunjukkan signifikansi untuk model logistik satu variabel (0,027 dari Tabel
3), menunjukkan bahwa perbedaan signifikan tetap ada antara nilai aktual dan yang diharapkan. Model dua
variabel, bagaimanapun, mengurangi tingkat signifikansi menjadi 0,722 (lihat Tabel 4), nilai yang tidak signifikan
yang menunjukkan bahwa model fit dapat diterima. Untuk model logistik dua-variabel, kedua ukuran
berdasarkan statistik dari keseluruhan model fit menunjukkan bahwa model tersebut dapat diterima dan pada
tingkat yang signifikan secara statistik. Namun, perlu untuk menguji ukuran lain dari model keseluruhan yang
cocok untuk menilai apakah hasilnya mencapai tingkat signifikansi praktis yang diperlukan juga.

Semu R2 Pengukuran. Tiga ukuran yang tersedia sebanding dengan R2 mengukur dalam
regresi berganda: Cox dan Snell R2, Nagelkerke R2, dan pseudo R2 mengukur berdasarkan
pengurangan -2II nilai. Untuk model regresi logistik satu variabel, nilai-nilai ini adalah 0,342,
. 459, dan 0,306, masing-masing. Dalam kombinasi, mereka menunjukkan bahwa model regresi satu
variabel menyumbang sekitar sepertiga dari variasi dalam ukuran dependen. Meskipun model satu
variabel dianggap signifikan secara statistik pada beberapa ukuran kecocokan secara keseluruhan, iniR2
ukuran agak rendah untuk tujuan signifikansi praktis.
Model dua variabel (lihat Tabel 4) memiliki R2 nilai yang masing-masing lebih dari 0,50, menunjukkan bahwa
model regresi logistik menyumbang setidaknya setengah dari variasi antara dua kelompok pelanggan. Seseorang akan
selalu ingin meningkatkan nilai-nilai ini, tetapi tingkat ini dianggap signifikan secara praktis dalam situasi ini. NSR2 nilai-
nilai model dua variabel menunjukkan peningkatan substantif atas model variabel tunggal dan menunjukkan kecocokan
model yang baik jika dibandingkan dengan model variabel tunggal. R2 nilai biasanya ditemukan dalam regresi
berganda. Digabungkan dengan ukuran model fit yang berbasis statistik, model tersebut dianggap dapat diterima baik
dari segi statistik maupun signifikansi praktis.

Akurasi Klasifikasi. Pemeriksaan ketiga kecocokan model secara keseluruhan adalah untuk menilai
akurasi klasifikasi model dalam ukuran akhir signifikansi praktis. Matriks klasifikasi, yang sifatnya identik
dengan yang digunakan dalam analisis diskriminan, mewakili tingkat akurasi prediksi yang dicapai oleh model
logistik. Ukuran akurasi prediksi yang digunakan adalah hit ratio, persentase kasus yang diklasifikasikan dengan
benar. Nilai-nilai ini akan dihitung baik untuk analisis dan sampel ketidaksepakatan, dan pengukuran khusus
kelompok akan diperiksa sebagai tambahan untuk pengukuran keseluruhan. Selain itu, perbandingan dapat
dibuat, seperti yang dilakukan dalam analisis diskriminan, terhadap standar perbandingan yang mewakili
tingkat akurasi prediksi yang dicapai secara kebetulan.
Standar perbandingan untuk rasio hit matriks klasifikasi akan sama dengan yang dihitung
untuk analisis diskriminan dua kelompok. Nilainya adalah 65,5 persen untuk kriteria peluang
proporsional (ukuran yang disukai) dan 76,3 persen untuk kriteria peluang maksimum.
Rasio hit keseluruhan untuk model logistik variabel tunggal masing-masing adalah 73,3 persen
dan 75,0 persen untuk sampel analisis dan ketidaksepakatan. Meskipun rasio hit keseluruhan lebih besar
dari kriteria peluang proporsional dan sebanding dengan kriteria peluang maksimum, masalah
signifikan muncul dalam sampel ketidaksepakatan untuk pelanggan AS/Amerika Utara, di mana rasio hit
hanya 30,8 persen. Tingkat ini berada di bawah kedua standar dan mengharuskan model logistik
diperluas dengan harapan sejauh rasio hit spesifik grup ini akan melebihi standar.
Model dua variabel menunjukkan peningkatan substansial baik dalam rasio hit keseluruhan
maupun nilai spesifik grup. Rasio hit keseluruhan meningkat menjadi 88,3 persen dan 85,0 persen untuk
sampel analisis dan ketidaksepakatan. Selain itu, rasio hit spesifik grup yang bermasalah dalam sampel
ketidaksepakatan meningkat menjadi 69,2 persen, di atas nilai standar untuk kriteria peluang
proporsional. Dengan perbaikan ini baik pada tingkat keseluruhan dan kelompok tertentu, model regresi
logistik dua variabel dianggap dapat diterima dalam hal akurasi klasifikasi.
Di ketiga tipe dasar ukuran kecocokan model keseluruhan, model dua variabel (dengan
x13 dan x17) menunjukkan tingkat signifikansi statistik dan praktis yang dapat diterima.

335
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Dengan kecocokan model keseluruhan yang dapat diterima, kami mengalihkan perhatian kami untuk menilai uji
statistik dari koefisien logistik untuk mengidentifikasi koefisien yang memiliki hubungan signifikan yang mempengaruhi
keanggotaan kelompok.

SIGNIFIKANSI STATISTIK KOEFISIEN Estimasi koefisien untuk kedua inde-


variabel independen dan konstanta juga dapat dievaluasi untuk signifikansi statistik. Statistik Wald digunakan
untuk menilai signifikansi dengan cara yang mirip denganT uji yang digunakan dalam regresi berganda.
Koefisien logistik untukx13 (1.079) dan x17 (1,844) dan konstanta (-14,190) semuanya signifikan pada tingkat 0,01
berdasarkan uji statistik statistik Wald. Tidak ada variabel lain yang akan masuk ke dalam model dan mencapai
setidaknya tingkat signifikansi 0,05. Dengan demikian, variabel individu signifikan dan dapat diinterpretasikan
untuk mengidentifikasi hubungan yang mempengaruhi probabilitas yang diprediksi dan selanjutnya
keanggotaan kelompok.

DIAGNOSTIK KASUS Analisis kesalahan klasifikasi pengamatan individu dapat memberikan


wawasan lebih lanjut tentang kemungkinan perbaikan model. Diagnostik casewise seperti
residual dan ukuran pengaruh tersedia, serta analisis profil yang dibahas sebelumnya untuk
analisis diskriminan.
Dalam kasus ini, hanya 13 kasus yang salah klasifikasi (7 dalam sampel analisis dan 6 dalam sampel
ketidaksepakatan). Mengingat tingginya tingkat korespondensi antara kasus salah klasifikasi ini dan kasus salah
klasifikasi yang dianalisis dalam analisis diskriminan dua kelompok, proses pembuatan profil tidak akan
dilakukan lagi (pembaca yang tertarik dapat merujuk kembali ke contoh dua kelompok). Diagnostik casewise
seperti residual dan ukuran pengaruh tersedia. Mengingat rendahnya tingkat kesalahan klasifikasi,
bagaimanapun, tidak ada analisis kesalahan klasifikasi lebih lanjut yang dilakukan.

Tahap 5: Interpretasi Hasil


Prosedur regresi logistik bertahap menghasilkan variat yang sangat mirip dengan analisis diskriminan dua
kelompok, meskipun dengan satu variabel independen yang lebih sedikit. Kami akan memeriksa koefisien
logistik untuk menilai baik arah dan dampak masing-masing variabel terhadap probabilitas yang diprediksi dan
keanggotaan kelompok.

MENAFSIRKAN KOEFISIEN LOGISTIK Model regresi logistik akhir mencakup dua variabel (x13 dan x17)
dengan koefisien regresi logistik masing-masing 1,079 dan 1,844, dan konstanta -14,190 (lihat
Tabel 4). Membandingkan hasil ini dengan analisis diskriminan dua kelompok mengungkapkan
hasil yang hampir sama, karena analisis diskriminan memasukkan tiga variabel dalam model dua
kelompok—x13 dan x17 bersama x11.

Arah Hubungan. Untuk menilai arah hubungan masing-masing variabel, kita dapat
memeriksa baik koefisien logistik asli atau koefisien eksponen. Mari kita mulai dengan koefisien
asli. Jika Anda ingat dari diskusi kita sebelumnya, kita dapat menafsirkan arah hubungan langsung
dari tanda koefisien logistik asli. Dalam hal ini kedua variabel memiliki tanda positif, menunjukkan
hubungan positif antara kedua variabel independen dan probabilitas yang diprediksi. Sebagai nilai
dari keduanyax13 atau x17 meningkat, probabilitas yang diprediksi akan meningkat, sehingga
meningkatkan kemungkinan bahwa pelanggan akan dikategorikan berada di luar Amerika Utara.

Mengalihkan perhatian kita ke koefisien eksponensial, kita harus ingat bahwa nilai di atas 1,0
menunjukkan hubungan positif dan di bawah 1,0 menunjukkan hubungan negatif. Dalam kasus kami,
nilai 2,942 dan 6,319 juga menunjukkan hubungan positif.

Besaran Hubungan. Metode yang paling langsung untuk menilai besarnya perubahan
probabilitas karena setiap variabel independen adalah dengan menguji koefisien eksponensial.

336
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Seperti yang Anda ingat, koefisien eksponen dikurangi satu sama dengan persentase perubahan peluang.
Dalam kasus kami, itu berarti bahwa peningkatan satu poin meningkatkan peluang sebesar 194 persen untukx
13 dan 531 persen untuk x17. Angka-angka ini dapat melebihi 100 persen karena mereka meningkatkan peluang,
bukan probabilitas itu sendiri. Dampaknya besar karena suku konstan (-14,190) mendefinisikan titik awal hampir
nol untuk nilai probabilitas. Dengan demikian, peningkatan besar dalam peluang diperlukan untuk mencapai
nilai probabilitas yang lebih besar.
Pendekatan lain dalam memahami bagaimana koefisien logistik mendefinisikan probabilitas adalah
dengan menghitung probabilitas yang diprediksi untuk setiap set nilai untuk variabel independen. Untuk
variabel bebasx13 dan x17, mari kita gunakan cara grup untuk dua grup. Dengan cara ini, kita dapat melihat
berapa probabilitas yang diprediksi untuk anggota "tipikal" dari setiap kelompok.
Tabel 5 menunjukkan perhitungan untuk memprediksi probabilitas dari dua kelompok centroid.
Pertama, kita menghitung nilai logit untuk setiap centroid grup dengan memasukkan nilai centroid grup
(misalnya, 5,60 dan 3,63 untuk grup 0 padax13 dan x17, masing-masing) ke dalam persamaan logit. Ingat
dari Tabel 5 bahwa perkiraan bobot adalah 1,079 dan 1,844 untukx13 dan x17, masing-masing, dengan
konstanta -14,192. Dengan demikian, substitusi nilai centroid grup ke dalam persamaan ini
menghasilkan nilai logit -1,452 (grup 0) dan 2,909 (grup 1). Mengambil antilog dari nilai logit
menghasilkan odds 0,234 dan 18,332. Kemudian, probabilitas suatu grup dihitung sebagai nilai
peluangnya di atas jumlah peluang untuk kedua grup. Hal ini mengakibatkan anggota “tipikal” dari grup
0 memiliki kemungkinan salah ditugaskan ke grup 1 sebesar 0,189 (189 = .234 / (.234 + 18.332)) dan
anggota “tipikal” dari grup 1 memiliki probabilitas dari 0,948 karena ditugaskan dengan benar ke grup 1.
Contoh ini menunjukkan bahwa model logistik memang menciptakan pemisahan antara dua pusat
kelompok dalam hal probabilitas yang diprediksi, menghasilkan hasil klasifikasi yang sangat baik yang dicapai
untuk sampel analisis dan sampel ketidaksepakatan.
Koefisien logistik mendefinisikan hubungan positif untuk kedua variabel independen dan menyediakan
sarana untuk menilai dampak dari perubahan salah satu atau kedua variabel pada peluang dan dengan
demikian probabilitas yang diprediksi. Menjadi jelas mengapa banyak peneliti lebih memilih regresi logistik
untuk analisis diskriminan ketika perbandingan dibuat pada informasi yang lebih berguna yang tersedia dari
koefisien logistik versus beban diskriminan.

Tahap 6: Validasi Hasil


Validasi model regresi logistik dilakukan dalam contoh ini melalui metode yang sama yang digunakan
dalam analisis diskriminan: pembuatan sampel analisis dan ketidaksepakatan. Dengan memeriksa rasio
hit untuk sampel ketidaksepakatan, peneliti dapat menilai validitas eksternal dan signifikansi praktis dari
model regresi logistik.

TABEL 5 Menghitung Perkiraan Nilai Probabilitas untuk Grup


Centroid dari x4 Wilayah

x4 (Wilayah)
Grup 0: Grup 1:
AS/Amerika Utara Di luar Amerika Utara

pusat: x13 5.60 7.42


pusat: x17 3.63 4.93
Nilai LogitA – 1,452 2.909
KemungkinanB . 234 18.332
KemungkinanC . 189 . 948

ADihitung sebagai: Logit = –14.190 + 1.079x13 + 1,844x17 bDihitung


sebagai: Peluang = eMasuk cDihitung sebagai: Probabilitas = Peluang/
(1 + Kemungkinan)

337
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Untuk model regresi logistik dua-variabel terakhir, rasio hit untuk sampel analisis dan
ketidaksepakatan melebihi semua standar perbandingan (peluang proporsional dan kriteria
peluang maksimum). Selain itu, semua rasio hit khusus grup cukup besar untuk diterima. Aspek ini
sangat penting untuk sampel ketidaksepakatan, yang merupakan indikator utama validitas
eksternal. Hasil ini mengarah pada kesimpulan bahwa model regresi logistik menunjukkan
validitas eksternal yang cukup untuk penerimaan lengkap hasil, seperti yang ditemukan dengan
model analisis diskriminan juga.

Tinjauan Manajerial
Regresi logistik menyajikan alternatif untuk analisis diskriminan yang mungkin lebih nyaman bagi
banyak peneliti karena kesamaannya dengan regresi berganda. Mengingat ketahanannya dalam
menghadapi kondisi data yang dapat mempengaruhi analisis diskriminan secara negatif (misalnya,
matriks varians-kovarians yang tidak sama), regresi logistik juga merupakan teknik estimasi yang disukai
dalam banyak aplikasi.
Jika dibandingkan dengan analisis diskriminan, regresi logistik memberikan akurasi prediksi yang
sebanding dengan variasi yang lebih sederhana yang menggunakan interpretasi substantif yang sama, hanya
dengan satu variabel yang lebih sedikit. Dari hasil regresi logistik, peneliti dapat fokus pada harga kompetitif
dan fleksibilitas harga sebagai variabel pembeda utama antara kedua kelompok pelanggan. Tujuan dalam
analisis ini bukan untuk meningkatkan probabilitas (seperti halnya menganalisis keberhasilan versus
kegagalan), namun regresi logistik masih memberikan pendekatan langsung bagi HBAT untuk memahami
dampak relatif dari masing-masing variabel independen dalam menciptakan perbedaan antara kedua
kelompok. pelanggan.

RINGKASAN
Peneliti dihadapkan dengan variabel dependen dikotomis tidak perlu menggunakan metode yang dirancang
untuk mengakomodasi keterbatasan regresi berganda atau dipaksa untuk menggunakan analisis diskriminan,
terutama jika asumsi statistiknya dilanggar. Regresi logistik mengatasi masalah ini dan menyediakan metode
yang dikembangkan untuk menangani langsung situasi ini dengan cara yang seefisien mungkin.

Ringkasan
Sifat, konsep, dan pendekatan yang mendasari analisis Regresi logistik umumnya lebih disukai daripada analisis
diskriminan berganda dan regresi logistik telah diskriminan ketika ukuran dependen adalah biner yang
disajikan. Pedoman dasar untuk penerapan dan diberikan set asumsi minimal, dan dengan demikian
interpretasinya dimasukkan untuk memperjelas konsep ketahanannya, dalam kebanyakan situasi. Selain itu,
metodologi lebih lanjut. Bab ini membantu Anda kesamaan interpretasi pada regresi berganda memudahkan
melakukan hal berikut: banyak peneliti daripada fungsi diskriminan dalam model
diskriminan.
Nyatakan keadaan di mana regresi logistik harus
digunakan daripada analisis diskriminan atau regresi Identifikasi jenis variabel dependen dan independen yang
berganda. Dalam memilih teknik analisis yang tepat, digunakan dalam regresi logistik. Meskipun regresi logistik
terkadang kita menghadapi masalah yang melibatkan terbatas hanya pada ukuran yang bergantung pada biner, ia
variabel dependen kategoris dan beberapa variabel memberikan kemampuan untuk memasukkan variabel
independen metrik. Regresi logistik adalah teknik independen metrik dan nonmetrik, seperti halnya regresi
statistik yang tepat ketika masalah penelitian melibatkan berganda. Ini kontras dengan analisis diskriminan, yang dalam
variabel tunggal biner kategoris dependen dan kebanyakan situasi terbatas hanya pada variabel independen
beberapa variabel independen metrik atau nonmetrik. metrik.

338
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Menafsirkan hasil analisis regresi logistik, karena masing-masing mencerminkan dampak yang berbeda pada
dengan perbandingan regresi berganda dan variabel dependen.
analisis diskriminan. Kesesuaian model regresi
logistik dapat dinilai dengan dua cara: Memahami kekuatan dan kelemahan regresi logistik
(1) menggunakan pseudo R2 nilai, mirip dengan yang ditemukan dalam regresi berganda, dan (2) menguji akurasi dibandingkan dengan analisis diskriminan dan
prediksi (yaitu, matriks klasifikasi dalam analisis diskriminan). Kedua pendekatan menguji model fit dari perspektif yang regresi berganda. Meskipun analisis diskriminan dapat
berbeda, tetapi harus menghasilkan kesimpulan yang sama. Salah satu keuntungan dari regresi logistik adalah kita menganalisis situasi apa pun di mana variabel dependen
hanya perlu mengetahui apakah suatu peristiwa terjadi untuk mendefinisikan nilai dikotomis sebagai variabel terikat adalah nonmetrik, regresi logistik lebih disukai karena
kita. Namun, ketika kami menganalisis data ini menggunakan transformasi logistik, regresi logistik dan koefisiennya dua alasan ketika variabel dependen adalah biner.
memiliki arti yang agak berbeda dari yang ditemukan dalam regresi dengan variabel dependen metrik. Demikian pula, Pertama, analisis diskriminan bergantung pada
beban diskriminan dalam analisis diskriminan ditafsirkan berbeda dari koefisien logistik. Koefisien logistik pemenuhan asumsi normalitas multivariat dan matriks
mencerminkan baik arah dan besarnya hubungan variabel independen, tetapi membutuhkan metode interpretasi yang varians-kovarians yang sama di seluruh kelompok-
berbeda. Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen terkait dengan perubahan asumsi yang tidak terpenuhi dalam banyak situasi.
variabel independen. Hubungan positif berarti bahwa peningkatan variabel independen dikaitkan dengan peningkatan Regresi logistik tidak menghadapi asumsi ketat ini dan
probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk menentukan besarnya koefisien, atau jauh lebih kuat ketika asumsi ini tidak terpenuhi,
seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit pada variabel bebas, nilai numerik dari sehingga penerapannya sesuai dalam banyak situasi.
koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan nonmetrik harus Kedua, meskipun asumsi terpenuhi, banyak peneliti
ditafsirkan secara berbeda, Arah hubungan (positif atau negatif) mencerminkan perubahan variabel dependen terkait lebih memilih regresi logistik, karena mirip dengan
dengan perubahan variabel independen. Hubungan positif berarti bahwa peningkatan variabel independen dikaitkan regresi berganda. Dengan demikian, ia memiliki uji
dengan peningkatan probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk menentukan besarnya statistik langsung, pendekatan serupa untuk
koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit pada variabel bebas, menggabungkan variabel metrik dan nonmetrik dan
nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan efek nonlinier, dan berbagai diagnostik. Regresi logistik
nonmetrik harus ditafsirkan secara berbeda, Arah hubungan (positif atau negatif) mencerminkan perubahan variabel setara dengan analisis diskriminan dua kelompok dan
dependen terkait dengan perubahan variabel independen. Hubungan positif berarti bahwa peningkatan variabel mungkin lebih cocok dalam banyak situasi.
independen dikaitkan dengan peningkatan probabilitas yang diprediksi, dan sebaliknya untuk hubungan negatif. Untuk Regresi logistik adalah pilihan yang berharga dalam
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit masalah penelitian yang melibatkan variabel dependen
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk kategoris tunggal dan beberapa variabel independen metrik
variabel metrik dan nonmetrik harus ditafsirkan secara berbeda, dan sebaliknya untuk hubungan negatif. Untuk atau nonmetrik. Kekuatan relatifnya datang dalam
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit kemampuannya untuk menjadi fleksibel di berbagai pengaturan
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk penelitian, kekokohannya berasal dari serangkaian asumsi yang
variabel metrik dan nonmetrik harus ditafsirkan secara berbeda, dan sebaliknya untuk hubungan negatif. Untuk mendasarinya, dan kesamaannya dengan regresi berganda
menentukan besarnya koefisien, atau seberapa besar kemungkinan akan berubah dengan adanya perubahan satu unit untuk tujuan interpretasi. Hasilnya adalah berbagai aplikasi
dalam konteks akademis dan praktisi.
pada variabel bebas, nilai numerik dari koefisien harus dievaluasi. Sama seperti dalam regresi berganda, koefisien untuk variabel metrik dan nonmetrik harus ditafsirkan secara berbeda,

Pertanyaan

1. Bagaimana Anda membedakan antara analisis 3. Bagaimana regresi logistik menangani hubungan
diskriminan berganda, analisis regresi, analisis regresi variabel dependen dan independen?
logistik, dan analisis varians? 4. Apa karakteristik unik dari interpretasi dalam regresi
2. Kapan Anda akan menggunakan regresi logistik logistik?
daripada analisis diskriminan? Apa keuntungan dan 5. Jelaskan konsep peluang dan mengapa digunakan dalam
kerugian dari keputusan ini? memprediksi probabilitas dalam prosedur regresi logistik.

Bacaan yang Disarankan

Daftar bacaan yang disarankan yang menggambarkan masalah dan aplikasi analisis diskriminan dan regresi logistik tersedia di Web
di www.pearsonhighered.com/hair atau www.mvstats.com.

339
Regresi Logistik: Regresi dengan Variabel Dependen Biner

Referensi
1. Demaris, A. 1995. Tutorial Regresi Logistik. 4. Hosmer, DW, dan S. Lemeshow. 2000.Regresi Logistik
Jurnal Pernikahan dan Keluarga 57: 956–68. Terapan, edisi 2d. New York: Wiley.
2. Frank, RE, WE Massey, dan DG Morrison. 1965. Bias 5. Panjang, JS 1997. Model Regresi untuk Variabel Dependen
dalam Analisis Diskriminan Berganda.Jurnal Riset Kategoris dan Terbatas: Analisis dan Interpretasi.
Pemasaran 2(3): 250–58. Thousand Oaks, CA: Sage.
3. Gessner, Guy, NK Maholtra, WA Kamakura, dan ME 6. Pampel, FC 2000. Regresi Logistik: Primer,
Zmijewski. 1988. Model Pendugaan dengan Variabel Seri Makalah Universitas Sage tentang Aplikasi
Dependen Biner: Beberapa Pengamatan Teoritis dan Kuantitatif dalam Ilmu Sosial, #07–096. Taman
Empiris.Jurnal Riset Bisnis 16(1): 49–65. Newbury, CA: Sage.

340

Anda mungkin juga menyukai