Anda di halaman 1dari 27

Regresi Logistik

Workshop Jamovi
29-30 September 2018

Rizqy Amelia Zein


Departemen Psikologi Kepribadian dan Sosial

Handy Pratama
Riliv.co / Pratama Solution
Artinya? (1)
• Model yang digunakan untuk mengestimasi variabel outcome yang diskrit dengan
menggunakan informasi dari variabel prediktor, baik yang continuous, maupun
kategorikal.
– Yang diestimasi bukan besaran nilai variabel outcome-nya (berbeda dengan regresi linier).
– Dengan regresi logistik, kita dapat mengestimasi peluang individu digolongkan dalam satu
diantara dua kategori (atau lebih), berdasarkan informasi dari variabel-variabel prediktor.
– Misalnya, kita dapat memperkirakan kemungkinan seseorang menderita diare, dengan
menghitung banyaknya cabe yang ia konsumsi dalam sehari, apakah ia cuci tangan/tidak
sebelum makan dan apakah ia tinggal di area kumuh.
• Peluang; probabilitas atau odds?
– Yang diestimasi dalam regresi logistik adalah log odds (logit)
– Kenapa bukan probabilitas?
Artinya? (2)
• Probabilitas nilainya berkisar 0-1
– Contoh: apabila 7 dari 10 mahasiswa Psikologi Unair wanita, maka bila bertemu mahasiswa
Psikologi Unair di jalan secara acak, probabilitas mahasiswa tersebut adalah wanita adalah 0.7
– Probabilitas tidak terdistribusi linier dan sangat terbatas
• Perubahan nilai yang sama dari variabel prediktor, akan akan menghasilkan
perubahan probabilitas yang berbeda pada kasus yang ekstrim
– Contoh: seorang peneliti ingin mengestimasi probabilitas seseorang membeli mobil Ferrari,
ditinjau dari pendapatan bulanannya
– Kenaikan pendapatan bulanan dari Rp10 juta menjadi Rp100 juta akan menaikkan probabilitas
seseorang membeli mobil Ferrari secara ekstrim
– Tetapi, kenaikan pendapatan dari Rp100 juta, Rp500 juta, Rp1 miliar, dst tidak berdampak
signifikan pada probabilitas seseorang membeli mobil Ferrari
• Oleh karena itu, kurva persamaan logistik bentuknya ogive (S-shaped)
Artinya? (3)
• Kenaikan atau penurunan probabilitas
dapat menghasilkan sesuatu yang secara
teoritis tidak masuk akal.
– Misalnya: diketahui probabilitas seorang
mahasiswa dari keluarga miskin selesai kuliah
tepat waktu adalah 0.1, sedangkan mahasiswa
dari keluarga kaya adalah 0.9.
– Apabila pemberian beasiswa meningkatkan
probabilitas seorang mahasiswa lulus tepat
waktu sebesar 0.3, maka probabilitas
mahasiswa yang kaya lulus tepat waktu = 0.9 +
0.3 = 1.2 (!!!)
Probabilitas dan odds (1)
• Untuk mengatasi kelemahan tersebut, maka probabilitas harus ditransformasikan
menjadi log odds (logit).
– Logit ini mirip seperti Z score.
• Odds adalah cara lain untuk mengekspresikan peluang.
– Odds merupakan perbandingan antara dua probabilitas (terjadinya/hadirnya sesuatu, dengan
tidak hadirnya/terjadinya sesuatu).
– Odds = p/(1-p); apabila p=0.8, maka oddsnya = 0.8/(1-0.8) = 4
– Nilai odds berkisar antara 0 s/d ~
– Dengan menggunakan odds, kita melenyapkan batas atas (upper limit) dari probabilitas (Yaaay!)
– Tapi, bagaimana dengan batas bawahnya (lower limit)?
• Itulah mengapa kita membutuhkan log odds (logit).
– Odds < 1 (p<0.5) menghasilkan logit bernilai negatif
– Odds = 1 (p=0.5) menghasilkan logit = 0; ada nilai tengah yang bermakna (Yaaay!)
– Odds > 1 (p>0.5) menghasilkan logit bernilai positif
Probabilitas dan odds (2)
• Logit = 0 → impas (even)
p odds logit • Logit (-) → less likely to
0.01 0.010 -4.595 occur
• Logit (+) → more likely to
0.1 0.111 -2.197 occur
0.2 0.25 -1.386
0.5 1.000 0
0.8 4.000 +1.386
0.9 9.000 +2.197
0.99 99.000 +4.595
Odds ratio (OR)
• Merupakan indikator peluang relatif yang dimiliki satu kelompok untuk mengalami
kejadian/memiliki karakteristik tertentu, dibandingkan kelompok yang lain.
• Kata kuncinya, ada kelompok yang menjadi patokan (reference group).
Contoh 1:
• Apabila diketahui OR gender terhadap perilaku berhutang di Warung bu Kun adalah sebesar 5.4,
dengan wanita sebagai kelompok patokan (reference group), maka:
• Odds seorang laki-laki ngutang di Warung bu Kun adalah 5.4 kali lipat lebih besar dibandingkan odds
wanita (100 wanita ngutang : 540 laki-laki ngutang).
Contoh 2:
• Apabila diketahui OR gender terhadap perilaku bangun kesiangan adalah sebesar 0.01, dengan laki-
laki sebagai kelompok patokan (reference group), maka:
• Odds wanita bangun kesiangan adalah 1% lebih kecil dibandingkan odds laki-laki (1000 laki-laki
bangun kesiangan : 10 wanita bangun kesiangan)
Magnitude dari OR (Chen, et al 2010)
Menentukan model fit (1)
• Log-likelihood statistics
– Mirip dengan residual sum of squares dalam regresi linier
– Artinya: seberapa banyak varians logit variabel dependen tidak bisa dijelaskan oleh model
– Nilai log-likelihood yang besar menunjukkan varians logit yang tidak bisa dijelaskan semakin
besar → poorly fitted model
• Deviance statistics (-2LL atau X2)
– Lebih sering digunakan daripada log-likelihood karena menggunakan distribusi chi-square (X2),
sehingga lebih mudah diinterpretasi
– Dapat juga digunakan untuk membandingkan nilai informasi antar model → sangat berguna
ketika kita melakukan hierarchical logistic regression
Menentukan model fit (2)
• Pseudo R2
– Serupa dengan R dan R2 dalam regresi linier, menunjukkan seberapa banyak varians skor
prediktor berkaitan/berkorelasi dengan varians skor variabel outcome (korelasi parsial)
– Diperoleh dengan membandingkan log-likelihood dari null model (dimana tidak ada prediktor
yang dimasukkan, hanya ada informasi tentang intercept saja) dengan full model (model dengan
semua prediktor dimasukkan)
– Nagelkerke’s, McFadden’s dan Cox & Snell’s
• Information criteria
– Digunakan untuk mengakomodasi kelemahan dari R2 (setiap penambahan 1 prediktor dalam
model, nilai R2 cenderung naik)
– Kelemahan R2 ini serupa dengan prinsip reliabilitas dan jumlah aitem
– Rumus dari information criteria memberi “penalti” kepada model yang mengandung lebih
banyak variabel prediktor
– Akaike information criteria (AIC) & Bayesian information criteria (BIC)
Yuk kita coba!
Pernah masuk angin?
• Apa yang dilakukan ketika sakit masuk
angin?
• 100 dari 100 orang Jawa akan
menjawab: Kerokan!
• Selain itu?
• Yup, bisa juga dengan minum
Antangin
• Kalau ga sembuh juga?
• Oooh… mungkin karena faktor U ☺
• Yuk kita buat modelnya!
Latihan
• Buka dataset masukangin.omv
• Dalam dataset ada beberapa variabel, yaitu: masukangin, durasikerokan, merah,
antangin dan usia.
– masukangin = sembuh ga masuk anginnya (0=masih sakit, 1=berhasil sembuh)
– durasikerokan = lama dikeroki dalam menit
– merah = tingkat kemerahan hasil kerokan
– antangin = minum antangin ga? (0=ga minum, 1=minum)
– usia = dalam tahun
• Kita buat hierarchical logistic regression
– Blok 1: durasikerokan & merah
– Blok 2: tambahkan antangin
– Blok 3: tambahkan usia
Langkah-langkah (1)
• Klik opsi regression dan pilih 2 outcomes binomial
• Masukkan masukangin dalam kolom dependent variable, durasikerokan dan usia
dalam kolom covariates dan antangin & merah dalam kolom factor.
• Klik opsi model builder, dan buat 3 blok sesuai rencana. Lalu masukkan variabel
prediktor pada blok yang sudah ditentukan.
• Klik reference level dan pastikan untuk variabel kategorikal, kategori yang pertama
adalah patokan (reference group).
• Klik assumption check dan centang analisis collinearity.
• Klik model fit dan centang deviance, AIC, BIC, overall model test, McFadden’s R2 dan
Nagelkerke’s R2
Langkah-langkah (2)
• Klik model coefficients dan centang likelihood ratio test, confidence interval, odds
ratio dan confidence interval dibawahnya.
• Klik estimated marginal means, buat 4 terms dan masukkan masing-masing 1
prediktor dalam 1 terms. Centang marginal means plots.
• Klik prediction, centang classification table dan accuracy.
Yuk kita interpretasikan
outputnya!
Model fit
• Dari ketiga model, dapat disimpulkan
bahwa model 3 adalah yang terbaik.
• Indikatornya:
– Memiliki nilai deviance, AIC dan BIC yang paling
kecil
– Memiliki nilai R2 yang terbesar
– Nilai p dan nilai X2 dari uji chi-square antara
model 1 – model 2 dan model 2 – model 3
mendapatkan hasil bahwa ketiga model tsb
berbeda secara signifikan
Model coefficients (1)
• Dari omnibus likelihood ratio test,
diketahui bahwa:
– merah adalah variabel yang berkorelasi
lebih kuat dengan variabel outcome,
diikuti usia
– Sedangkan yang prediktor yang
korelasinya paling lemah adalah antangin
Interpretasi hasilnya
• Semua prediktor berkorelasi dengan variabel outcome
• Setiap peningkatan 1 menit durasi kerokan, diasosiasikan dengan peningkatan
peluang seseorang untuk sembuh sebanyak 2.055 [95% CI 1.83 – 2.38] kali lipat
• Intensitas ‘merahnya’ kerokan
– Orang yang dikeroki sampai agak merah 49.613 [95% CI 21.01 – 117.12] kali lipat lebih mungkin
sembuh daripada yang hanya dikeroki tapi ga merah blas
– Orang yang dikeroki sampai lumayan merah 1425.83 [95% CI 422.26 – 4814.5] kali lipat lebih
mungkin sembuh daripada yang hanya dikeroki tapi ga merah blas
– Orang yang dikeroki sampai merah banget 79120 [95% CI 14754 – 424285] kali lipat lebih
mungkin sembuh daripada yang hanya dikeroki tapi ga merah blas
• Orang yang minum antangin 41.629 [95% CI 20.33 – 85.24] kali lipat lebih mungkin
sembuh daripada yang tidak minum antangin
• Setiap peningkatan 1 tahun usia seseorang, peluang seseorang untuk sembuh
menurun sebanyak 40.2% (0.42) [95% CI 0.35 – 0.463]
Cek asumsi
• Mulikolinearitas antar prediktor tidak
terjadi
• Variance inflated factor (VIF) < 5
Analisis residual
• Tujuannya untuk menguji ‘ketangguhan’ model
• Dapat dilakukan dengan melihat scatterplot antara prediktor dengan peluang
terjadinya variabel outcome
• Atau dengan melihat classification plot dan nilai prediktif model
• Selaras dengan parameter model fit, nilai prediktif model menjadi meningkat ketika
ditambah prediktor baru

Anda mungkin juga menyukai