Anda di halaman 1dari 8

8.3.5.1.

metode entri paksa2


Metode standart melakukan regresi adalah 'entry'. Ini adalah sama seperti dipaksa masuk
dalam regresi berganda dalam semua prediktor yang ditempatkan ke dalam model regresi di
satu blok, dan parameter estimasi dihitung untuk masing blok.
8.3.5.2. metode stepwise2
Jika Anda tidak terpengaruh oleh kritik dari metode bertahap pada bab sebelumnya,
maka Anda dapat memilih maju atau metode stepwise mundur. Ketika maju
Metode yang digunakan komputer dimulai dengan model yang hanya mencakup sebuah
konstanta dan kemudian menambahkan prediktor tunggal untuk model berdasarkan kriteria
tertentu. kriteria ini adalah nilai dari statistik skor: variabel dengan skor statistik yang paling
signifikan adalah ditambahkan ke model. hasil komputer sampai tidak ada prediktor yang tersisa
memiliki skor statistik signifikan (0,05). Pada setiap langkah,
komputer juga meneliti variabel dalam model untuk melihat apakah ada harus
dihapus. Hal ini dalam salah satu dari tiga cara. Cara pertama adalah dengan menggunakan rasio
kemungkinan
statistik model dibandingkan dengan model saat prediktor yang dihapus. Jika penghapusan
prediktor membuat perbedaan yang signifikan maka komputer tetap prediktor yang (karena
modelnya yang lebih baik jika prediksi ini
termasuk). Namun, jika penghapusan prediktor membuat sedikit perbedaan untuk model
maka komputer menolak prediksi itu. Daripada menggunakan statistik rasio kemungkinan,
yang memperkirakan seberapa baik model sesuai dengan data yang diamati, komputer bisa
menggunakan
statistik bersyarat sebagai kriteria penghapusan (Forward: Bersyarat). statistik ini adalah
Versi deret hitung kurang intens dari rasio kemungkinan statistik dan sehingga ada sedikit untuk
merekomendasikan atas metode rasio kemungkinan. Kriteria terakhir adalah statistik Wald,
di mana hal apapun prediktor dalam model yang memiliki nilai signifikansi statistik Wald
(Di atas kriteria penghapusan default 0,1) akan dihapus. Metode ini yang
Metode rasio kemungkinan adalah kriteria penghapusan terbaik karena statistik Wald bisa, di
kali, dapat diandalkan (lihat bagian 8.3.3).
Kebalikan dari metode maju adalah metode mundur. Metode ini menggunakan
tiga kriteria penghapusan sama, permulaan model hanya dengan konstan, itu dimulai
model dengan semua prediktor disertakan. Komputer kemudian menguji apakah ada prediktor
yang dapat dihapus dari model yang tdk memiliki efek besar pada data yang diamati. Prediktor
pertama yang dihapus akan menjadi salah satu yang memiliki
dampak setidaknya pada bagaimana model sesuai dengan data.
8.3.5.3. Bagaimana cara memilih metode?2
1. Pertimbangan utama adalah apakah Anda menguji teori
atau hanya melaksanakan pekerjaan eksplorasi.
2. Seperti disebutkan sebelumnya, beberapa orang
percaya bahwa stepwise metode tidak memiliki nilai untuk pengujian teori. Namun,
stepwise metode digunakan penelitian sebelumnya tidak ada yang menjadi dasar hipotesis untuk
pengujian, dan dalam situasi di mana kausalitas tidak menarik dan hanya ingin menemukan
sebuah untuk untuk mencocokan data (Agresti & Finlay, 1986; Menard, 1995).
Metode maka metode backward adalah lebih baik daripada forward metode.

1. prediktor memiliki pengaruh yang signifikan tetapi hanya bila variabel lain tetap konstan.

2. Forward seleksi lebih mungkin Backward eliminasi untuk mengeluarkan prediktor


terlibat dalam suppressor effect. Dengan demikian, forward metode menjalankan risiko lebih
tinggi membuat kesalahan Type II.

Dalam hal statistik uji yang digunakan dalam metode bertahap, statistik Wald,
memiliki kecenderungan untuk menjadi akurat dalam keadaan tertentu dan memiliki Metode
rasio yang terbaik.

8.4. Asumsi dan hal-hal yang bisa salah 4


8.4.1. Asumsi 2
regresi saham logistik beberapa asumsi regresi yang normal:
1 linearitas: Dalam regresi biasa kita mengasumsikan bahwa hasilnya memiliki hubungan linear
dengan prediktor. Dalam regresi logistik hasilnya kategoris dan jadi ini
asumsi dilanggar. Seperti yang saya jelaskan sebelumnya, ini adalah mengapa kita menggunakan
log (atau logit) dari
data. Asumsi linearitas dalam regresi logistik, oleh karena itu, mengasumsikan bahwa
ada hubungan linear antara setiap prediktor terus menerus dan logit dari
hasil variabel. Asumsi ini dapat diuji dengan melihat apakah interaksi
istilah antara prediktor dan transformasi log adalah signifikan (Hosmer &
Lemeshow, 1989).

2 kebebasan kesalahan: Asumsi ini adalah sama seperti untuk regresi biasa (lihat bagian
7.6.2.1). Pada dasarnya ini berarti bahwa kasus data tidak harus terkait; sebagai contoh,
Anda tidak dapat mengukur orang yang sama di berbagai titik dalam waktu. Melanggar asumsi
ini menghasilkan overdispersion (lihat bagian 8.4.4).
3 multikolinearitas: Meskipun tidak benar-benar asumsi seperti itu, multikolinearitas adalah
masalah seperti itu untuk regresi biasa (lihat bagian 7.6.2.1). Pada intinya, prediktor
tidak boleh terlalu tinggi berkorelasi. Seperti regresi biasa, asumsi ini dapat
diperiksa dengan toleransi dan VIF statistik, nilai eigen dari skala, uncentred
cross-produk matriks, indeks kondisi dan proporsi varians. Kita pergi
melalui contoh dalam bagian 8.8.1.
regresi logistik juga memiliki beberapa masalah unik sendiri (bukan asumsi, tapi
hal-hal yang bisa salah). SPSS memecahkan masalah regresi logistik dengan prosedur iteratif
(SPSS Tip 8.1). Kadang-kadang, bukannya menerkam solusi yang tepat cepat, Anda akan
melihat apa-apa yang terjadi: SPSS mulai bergerak jauh perlahan-lahan, atau muncul untuk
memiliki hanya
bosan dengan Anda meminta untuk melakukan hal-hal dan telah pergi mogok. Jika tidak dapat
menemukan yang benar
solusi, maka kadang-kadang itu benar-benar tidak menyerah, diam-diam menawarkan Anda
(tanpa permintaan maaf apapun)
hasil yang benar-benar salah. Biasanya ini diungkapkan oleh implausibly besar
kesalahan standar. Dua situasi dapat memprovokasi situasi ini, baik yang berhubungan dengan
rasio kasus ke variabel: informasi yang tidak lengkap dan pemisahan lengkap.
8.4.2. informasi yang tidak lengkap dari prediktor 4
Bayangkan Anda mencoba untuk memprediksi kanker paru-paru dari merokok (kebiasaan busuk
diyakini dapat meningkatkan
risiko kanker) dan apakah Anda makan tomat (yang diyakini untuk mengurangi risiko
kanker). Anda mengumpulkan data dari orang-orang yang melakukan dan tidak merokok, dan
dari orang-orang yang melakukan
dan tidak makan tomat; Namun, hal ini tidak cukup kecuali jika Anda mengumpulkan data dari
semua kombinasi
merokok dan makan tomat. Bayangkan Anda berakhir dengan data sebagai berikut:
Mengamati hanya tiga kemungkinan pertama tidak mempersiapkan Anda untuk hasil dari
keempat. Anda tidak memiliki cara untuk mengetahui apakah orang terakhir ini akan memiliki
kanker atau tidak berdasarkan
data lain yang telah dikumpulkan. Oleh karena itu, SPSS akan memiliki masalah kecuali Anda
telah dikumpulkan
data dari semua kombinasi variabel Anda. Ini harus diperiksa sebelum Anda menjalankan
analisis
menggunakan tabel tabulasi silang, dan saya menjelaskan bagaimana melakukan ini dalam Bab
18. Sementara Anda
memeriksa tabel ini, Anda juga harus melihat pada frekuensi yang diharapkan dalam setiap sel
tabel
memastikan bahwa mereka adalah lebih besar dari 1 dan tidak lebih dari 20% kurang dari 5 (lihat
bagian
18,4). Hal ini karena kebaikan-of-fit tes dalam regresi logistik membuat asumsi ini.
Hal ini tidak hanya berlaku untuk variabel kategori, tetapi juga untuk orang-orang yang terus-
menerus. Seharusnya
Anda ingin menyelidiki faktor yang berhubungan dengan kebahagiaan manusia. Ini mungkin
termasuk usia,
gender, orientasi seksual, keyakinan agama, tingkat kecemasan dan bahkan apakah seseorang
adalah tangan kanan. Anda wawancara 1000 orang, merekam karakteristik mereka, dan apakah
mereka
senang ( 'ya' atau 'tidak'). Meskipun sampel 1000 tampaknya cukup besar, itu kemungkinan akan
mencakup
tua 80 tahun, lesbian sangat cemas, Buddha kidal? Jika Anda menemukan satu orang tersebut
dan ia bahagia, Anda harus menyimpulkan bahwa orang lain dalam kategori yang sama senang?
Ini akan, jelas, lebih baik untuk memiliki beberapa lebih banyak orang dalam kategori ini
mengkonfirmasi bahwa
kombinasi karakteristik menyebabkan kebahagiaan. Salah satu solusi adalah untuk
mengumpulkan lebih banyak data.
Sebagai titik umum, setiap kali sampel dipecah ke dalam kategori dan satu atau lebih
kombinasi yang kosong itu menciptakan masalah. Ini mungkin akan ditandai dengan koefisien
yang memiliki kesalahan standar besar tidak wajar. peneliti teliti memproduksi
dan periksa crosstabulations multiway dari semua variabel independen kategori. malas tapi
yang hati-hati jangan repot-repot dengan crosstabulations, tapi melihat dengan seksama pada
standar error.
Mereka yang tidak repot-repot dengan baik harus mengharapkan kesulitan.
8.4.3. pemisahan lengkap 4
Situasi kedua di mana runtuh regresi logistik mungkin mengejutkan Anda: itu ketika
variabel hasil dapat sempurna diprediksi oleh satu variabel atau kombinasi dari variabel!
Hal ini dikenal sebagai pemisahan lengkap.
Mari kita lihat sebuah contoh: bayangkan Anda
ditempatkan pad tekanan di bawah pintu Anda
tikar dan terhubung ke keamanan Anda
sistem sehingga Anda bisa mendeteksi pencuri
ketika mereka merayap di malam hari. Namun,
karena anak-anak remaja Anda (yang
Anda akan memiliki jika Anda cukup tua dan
cukup kaya untuk memiliki sistem keamanan dan
bantalan tekanan) dan teman-teman mereka sering
pulang ke rumah di tengah malam,
ketika mereka menginjak pad yang Anda inginkan
untuk bekerja di luar kemungkinan bahwa orang tersebut
adalah pencuri dan tidak anak remaja Anda.
Oleh karena itu, Anda bisa mengukur berat
beberapa pencuri dan beberapa remaja
dan menggunakan regresi logistik untuk memprediksi
hasil (remaja atau pencuri) dari
bobot. grafik akan menunjukkan garis segitiga nol (titik data untuk semua remaja
Anda ditimbang) dan garis segitiga pada 1 (titik data untuk pencuri Anda ditimbang).
Perhatikan bahwa garis-garis ini dari segitiga tumpang tindih (beberapa remaja yang berat seperti
pencuri). Kami sudah
melihat bahwa di regresi logistik, SPSS mencoba untuk memprediksi probabilitas dari hasil
diberikan
nilai prediktor tersebut. Dalam hal ini, pada bobot rendah probabilitas dipasang berikut bagian
bawah
garis plot, dan pada bobot yang tinggi itu mengikuti garis atas. Pada nilai menengah itu mencoba
untuk
ikuti probabilitas karena perubahan.
Bayangkan bahwa kita memiliki tekanan yang sama
pad, tetapi anak-anak remaja kita memiliki
meninggalkan rumah untuk pergi ke universitas. Kami sekarang
tertarik pencuri membedakan dari
kucing peliharaan kami berdasarkan berat. Sekali lagi, kita bisa
menimbang beberapa kucing dan berat beberapa pencuri.
Kali ini grafik masih memiliki deretan segitiga
nol (kucing kita ditimbang) dan
berturut-turut di 1 (pencuri) tapi kali ini
baris segitiga tidak tumpang tindih: ada
tidak ada pencuri yang beratnya sama dengan kucing -
jelas tidak ada pencuri kucing di
sampel (mengerang sekarang di yang maaf alasan untuk
lelucon!). Hal ini dikenal sebagai pemisahan yang sempurna:
hasil (kucing dan pencuri) dapat
secara sempurna diprediksi dari berat badan (apa-apa
kurang dari 15 kg adalah kucing, apa pun
lebih dari 40 kg adalah pencuri). Jika kita mencoba menghitung probabilitas dari hasil yang
diberikan
berat tertentu maka kita mengalami kesulitan. Ketika berat badan rendah, probabilitas adalah 0,
dan
ketika berat yang tinggi, probabilitasnya adalah 1, tetapi apa yang terjadi di antara? Kami tidak
memiliki data
di antara 15 dan 40 kg yang menjadi dasar probabilitas ini. Angka ini menunjukkan dua
kemungkinan
kurva probabilitas bahwa kami bisa cocok untuk data ini: satu jauh lebih curam dari yang lain.
Antara
salah satu kurva ini berlaku berdasarkan data yang kami miliki. Kurangnya data berarti
SPSS akan pasti tentang bagaimana curam harus membuat lereng menengah dan akan mencoba
untuk membawa pusat sebagai dekat dengan vertikal mungkin, tapi perkiraan yang mengarah
goyah terhadap
infinity (kesalahan standar maka besar).
Masalah ini sering muncul ketika terlalu banyak variabel yang dipasang terlalu sedikit kasus.
seringkali
-satunya solusi yang memuaskan adalah untuk mengumpulkan lebih banyak data, tapi kadang-
kadang jawaban yang rapi ditemukan oleh
mengadopsi model sederhana.
8.4.4. Overdispersion4
Aku bukan ahli statistik, dan sebagian besar dari apa yang saya baca di overdispersion tidak
membuat mengerikan
banyak akal bagi saya. Dari apa yang dapat mengumpulkan, itu adalah ketika varians diamati
lebih besar dari
diharapkan dari model regresi logistik. Hal ini dapat terjadi karena dua alasan. Pertama
adalah pengamatan berkorelasi (yaitu ketika asumsi kemerdekaan rusak) dan
kedua adalah karena variabilitas dalam probabilitas keberhasilan. Sebagai contoh, bayangkan
hasil kami
adalah apakah anak anjing di tandu selamat atau mati. Faktor genetik berarti bahwa dalam
diberikan
sampah peluang keberhasilan (hidup) tergantung pada sampah dari mana anak anjing datang.
Sebagai
probabilitas keberhasilan tersebut berbeda-beda di tandu (Halekoh & Højsgaard, 2007), ini
contoh
anak anjing mati sangat baik - bukan karena saya seorang pecinta kucing, tapi karena
menunjukkan bagaimana
variabilitas dalam probabilitas keberhasilan dapat membuat korelasi antara observasi
(kelangsungan hidup
tingkat anak anjing dari sampah yang sama tidak independen).
Overdispersion menciptakan masalah karena cenderung membatasi kesalahan standar dan
hasilnya
di interval kepercayaan sempit untuk statistik uji prediktor dalam regresi logistik
model. Mengingat bahwa statistik uji dihitung dengan membagi dengan standard error, jika
standard error terlalu kecil maka uji statistik akan lebih besar dari yang seharusnya, dan lebih
mungkin dianggap signifikan. Demikian pula, interval kepercayaan yang sempit akan memberi
kita terlalu percaya diri
di efek prediktor kami pada hasil. Singkatnya, ada lebih banyak kesempatan
Tipe I kesalahan. Parameter sendiri (yaitu b-nilai) tidak terpengaruh.
SPSS menghasilkan kebaikan-of-fit statistik chi-square, dan overdispersion hadir jika
rasio statistik ini untuk derajat kebebasan lebih besar dari 1 (rasio ini disebut
parameter dispersi, φ). Overdispersion mungkin akan bermasalah jika parameter dispersi
pendekatan atau lebih besar dari 2. (Kebetulan, underdispersion ditunjukkan oleh nilai-nilai
kurang dari 1, tapi masalah ini jauh kurang umum dalam praktek.) Ada juga penyimpangan yang
kebaikan-of-fit statistik, dan parameter dispersi dapat didasarkan pada statistik ini bukan
(Lagi dengan membagi dengan derajat kebebasan). Ketika chi-square dan penyimpangan statistik
sangat tdk sesuai, maka overdispersion kemungkinan.
Efek dari overdispersion dapat dikurangi dengan menggunakan parameter dispersi untuk rescale
kesalahan dan interval kepercayaan standar. Misalnya, kesalahan standar yang
dikalikan dengan √φ untuk membuat mereka lebih besar (sebagai fungsi dari seberapa besar
overdispersion ini).
Anda dapat mendasarkan koreksi ini pada statistik penyimpangan juga, dan apakah Anda rescale
menggunakan
statistik ini atau Pearson chi-square statistic tergantung pada mana yang lebih besar. Semakin
besar
statistik akan memiliki lebih besar parameter dispersi (karena derajat mereka kebebasan adalah
sama), dan akan membuat koreksi yang lebih besar; Oleh karena itu, yang benar oleh lebih besar
dari dua.
8.5. regresi logistik biner: contoh
yang akan membuat Anda merasa belut 2
Sungguh menakjubkan apa yang Anda temukan dalam jurnal akademik kadang-kadang. Ini
sedikit dari hobi saya
mencoba untuk menggali makalah akademis aneh (benar-benar, jika Anda menemukan email
kepada saya).
Saya percaya bahwa ilmu pengetahuan harus menyenangkan, dan saya suka menemukan
penelitian yang membuat saya tertawa.
Sebuah makalah penelitian oleh Lo dan rekan adalah salah satu yang (sejauh ini) telah membuat
saya tertawa paling
(Lo, Wong, Leung, Hukum, & Yip, 2004). Lo dan rekan melaporkan kasus seorang berusia 50
tahun
Pria yang melaporkan ke Departemen Kecelakaan dan Darurat (ED untuk Amerika)
dengan sakit perut. Pemeriksaan fisik mengungkapkan peritonitis sehingga mereka mengambil
X-ray dari
perut pria itu. Meskipun entah bagaimana menyelinap pikiran pasien untuk menyebutkan ini
untuk
resepsionis setelah tiba di rumah sakit, X-ray mengungkapkan bayangan belut. Itu
penulis tidak langsung mengutip respon manusia terhadap berita ini, tapi aku suka
membayangkan itu
sesuatu untuk efek 'Oh, itu! Erm, ya, baik saya tidak berpikir itu sangat relevan dengan
sakit perut saya jadi saya tidak menyebutkan itu, tapi aku memasukkan belut ke dalam anus saya.
Menurut mu
itulah masalahnya?' Apapun ia mengatakan, para penulis melaporkan bahwa ia mengakui
menyisipkan sebuah
belut hingga anus untuk 'meringankan sembelit'.
Saya dapat memiliki imajinasi yang hidup di kali, dan ketika saya membaca artikel ini
Aku tidak bisa membantu berpikir tentang belut miskin. Di sana itu, mengurus itu
bisnis sendiri berenang sekitar di sungai (atau tangki ikan mungkin), berpikir
untuk dirinya sendiri 'Yah, hari ini sepertinya hari yang bagus, tidak ada hiu belut-makan
tentang, matahari keluar, air bagus, apa yang mungkin bisa salah?'
Hal berikutnya ia tahu, itu yang mendorong sampai anus seorang pria dari
Hongkong. 'Yah, saya tidak melihat bahwa datang,' berpikir belut. menempatkan diri
dalam pola pikir belut sejenak, ia telah menemukan dirinya dalam ketat
terowongan gelap, tidak ada cahaya, ada yang jelas kurangnya air dibandingkan dengan
habitat biasa, dan dia mungkin takut untuk hidupnya. zamannya telah pergi
sangat salah. Bagaimana dia bisa menghindari nasib yang mengerikan ini? Nah, melakukan apa
pun belut menghormati diri
akan dilakukan, ia melihat bahwa sel penjaranya cukup lembut dan memutuskan 'bugger ini, 1
aku akan makan saya
jalan keluar dari sini'. Sayangnya ia tidak berhasil, tapi ia pergi dengan perkelahian (ada
foto cukup menyenangkan dalam artikel dari belut menggigit fleksura lienalis). para penulis
menyimpulkan bahwa 'Penyisipan dari hewan hidup ke dalam rektum menyebabkan perforasi
rektum tidak pernah
dilaporkan. Hal ini mungkin berkaitan dengan kepercayaan kesehatan aneh, perilaku seksual
yang tidak disengaja,
atau penyerangan kriminal. Namun, alasan sebenarnya mungkin tidak akan pernah diketahui.'
Cukup.
OK, jadi ini adalah tale.2 benar-benar suram Ini tidak benar-benar sangat lucu untuk pria atau
belut, tetapi
begitu luar biasa aneh bahwa saya tertawa. Tentu saja reaksi instan saya adalah bahwa menempel
belut hingga anus Anda untuk 'meringankan sembelit' adalah alasan miskin untuk aneh seksual
Perilaku yang pernah saya dengar. Tapi setelah refleksi saya bertanya-tanya apakah aku sedang
keras pada
man - mungkin belut sampai anus benar-benar dapat menyembuhkan sembelit. Jika kita ingin
menguji ini, kami
bisa mengumpulkan beberapa data. hasil kami mungkin 'sembelit' vs 'tidak sembelit', yang
adalah variabel dikotomis bahwa kita mencoba untuk memprediksi. Salah satu variabel prediktor
akan intervensi (belut sampai anus) vs daftar tunggu (tidak ada perawatan). Kita mungkin juga
ingin faktor
berapa hari pasien telah sembelit sebelum pengobatan. Skenario ini sangat cocok
untuk regresi logistik (tetapi tidak untuk belut). Data yang di Eel.sav.
Aku cukup sadar bahwa banyak dosen statistik lebih suka tidak membahas dubur belut-dibuat
perforasi dengan siswa mereka, jadi saya telah menamai variabel dalam file lebih umum:
MM Hasil (variabel dependen): Sembuh (sembuh atau tidak sembuh).
MM Prediktor (variabel independen): Intervensi (intervensi atau tanpa pengobatan).
MM Prediktor (variabel independen): Durasi (jumlah hari sebelum pengobatan
bahwa pasien memiliki masalah).
Dengan demikian, dosen Anda dapat menyesuaikan contoh untuk sesuatu yang lebih enak jika
mereka ingin
, tapi Anda diam-diam akan tahu bahwa itu semua tentang memiliki belut up pantatmu!

Anda mungkin juga menyukai