Anda di halaman 1dari 37

Workshop Biostatistika

Seri ke 3, 20 Februari 2021

Analisis Regresi
Logistik
Prof. Bhisma Murti

Program Magister Ilmu Kesehatan


Masyarakat, Sekolah Pascasarjana,
Universitas Sebelas Maret
Apakah Regresi Logistik?
Regresi logistik (logistic regression)
merupakan salah satu model
analisis data yang terpopuler dalam
riset kesehatan, yang menjelaskan
(explanation) dan memprediksi
(prediksi) hubungan antara sebuah
variabel dependen biner (dikotomi)
dan sebuah atau sejumlah variabel
independen.

Sebagai model analisis data, regresi


logistik termasuk dalam kategori
Generanlized Linear Model (GLM)
Regresi Linier vs. Regresi Logistik
Regresi linier memprediksi variabel
dependen kontinu, sedang regresi
logistik memprediksi variabel dependen
dikotomi (biner)

Sebagai contoh, model regresi linier


memprediksi nilai tekanan darah
(mmHg), berdasarkan variabel
independen umur, kebiasaan merokok,
diet lemak, dan sebagainya.

Model regresi logistik memprediksi


terjadinya stroke, berdasarkan variabel
independen umur, kebiasaan merokok,
dan sebagainya.
Contoh Masalah Penelitian yang
Dapat Dijawab dengan Regresi
Logistik pada Studi Observasional
1. Berapa probabilitas (risiko) untuk
terkena stroke pada perokok jika
dibandingkan bukan perokok,
setelah memperhitungkan
pengaruh usia dan indeks massa
tubuh?

2. Berapa probabilitas (risiko) untuk


terinfeksi klinis Covid-19 jika telah
divaksin jika dibandingkan tidak
divaksin, setelah mengontrol
pengaruh umur, jenis kelamin?
Asumsi Analisis
Regresi Logistik
1. Variabel dependen harus dikotomi
(biner)
2. Variabel independen dapat
kategorikal atau kontinu
4. Variabel-variabel independen
berhubungan linier dengan log odds
variabel dependen.
5. Variabel independen tidak
berkorelasi kuat (multikolinieritas)
dengan variabel independen lainnya
(kecuali confounding factor)
6. Tidak terdapat outlier pada data.
Perbandingan estimasi regresi
linier dan regresi logistik terhadap
data variabel dependen

Regresi linier Regresi logistik


dalam fungsi
Sigmoid
Variabel dependen

terhadap
Regresi logistik
Prediksi Y probabilitas Y
Garis lurus
terletak dapat
melebihi rentang
antara 0 dan 1

Variabel independen Variabel independen


Perbedaan antara
Probabilitas dan Odds
Probabilitas adalah probabilitas Odds adalah rasio antara probabilitas
(risiko) peristiwa untuk terjadi. peristiwa untuk terjadi dan probabilitas
Misal, probabilitas untuk terjadi peristiwa tidak terjadi. Misal, odds untuk
stroke= 0.10 terjadi stroke= 0.10/0.90= 1/9= 0.11

p
Odds =
1−p

p = Odds − p (Odds)
Odds = p + p(Odds)
Odds = p(1 + Odds)

Odds
p=
1+Odds
Perhitungan
Odds
Transformasi dari p=
1+Odds
Probabilitas
Menjadi Odds Untuk p= 0
0
Odds =
1−0
=0
Untuk p= 1
1
Odds =
1−1
=∞
Untuk p= 0.5
0.5
Odds =
1 − 0.5
=1
Transformasi
dari Probabilitas
Menjadi Odds
Transformasi dari probabilitas
menjadi odds merupakan
transformasi monoton. Artinya,
odds meningkat dengan
meningkatnya probabilitas, vice
versa.

Probabilitas memiliki rentang dari 1


0 hingga 1. Odds memiliki rentang
dari 0 hingga +∞. .5
Perhitungan Untuk p= 0
Transformasi dari p 0
Probabilitas log
1−p
= log
1
Menjadi Log Odds
= log 0
= −∞

Untuk p= 1
p 1
log = log
1−p 0
= log 1 − log 0
=∞
Untuk p= 0.5
p
log =0
1−p
Transformasi
dari Probabilitas
Menjadi Log Odds
Transformasi dari probabilitas
menjadi log odds (logit)
merupakan transformasi log,
merupakan transformasi
monoton. Artinya, makin besar
probabilitas, makin besar log
odds, vice versa.

Probabilitas memiliki rentang dari


0 hingga 1. Log odds memiliki
rentang dari -∞ hingga +∞.
Transformasi
dari Odds
Menjadi Log Odds
Transformasi dari odds menjadi
log odds (logit) merupakan
transformasi log, merupakan
transformasi monoton. Artinya,
makin besar odds, makin besar log
odds, vice versa.

Odds memiliki rentang dari 0


hingga +∞. Log odds memiliki
rentang dari -∞ hingga +∞. 1
Rentang Berbagai Nilai dari
Probabilitas, Odds, dan Logodds
Rentang nilai Probabilitas = [ 0, 1 ]
p
Odds =
1−p
Rentang nilai Odds = [0, +∞ ]

Rentang nilai log (odds)= [ - ∞, +∞ ]

Kemungkinan untuk sakit dan


tidak sakit sama besarnya:

• P= 0.5
• Odds= 1.0
• atau log odds= 0.0

Transformasi logodds (logit)


Mengapa Perlu Melakukan
Transformasi dari Probabilitas
Menjadi Log Odds?
1. Terdapat kesulitan membuat model
estimasi variabel dependen yang memiliki
keterbatasan rentang seperti probabilitas
(0, 1). Transformasi berguna untuk
memecahkan problem tersebut.
Transformasi memetakan probabilitas
dengan rentang 0 hingga 1 menjadi log
odds dengan rentang dari -∞ hingga +∞.

2. Dari berbagai pilihan, transformasi log of


odds merupakan alternatif yang paling
mudah dipahami dan diinterpretasikan.
Transformasi itu disebut transformasi logit.
Fungsi Log Odds
(Fungsi Logit)
Regresi logistik mentransformasikan variabel dependen
menjadi sebuah variabel logit (yakni, natural log dari odds
terjadi atau tidak terjadinya variabel dependen) menurut
(sejumlah) variabel independen.
Regresi logistik menggunakan transformasi log odds (logit)
dari variabel dependen yang memiliki hubungan linier
dengan sebuah atau sejumlah variabel independen:

p
log odds = log
1−p
= β0 + β1 X1 + β2 X2 + … . βk Xk
Perbandingan Karakteristik dari Itu sebabnya
regresi logistik
Dua Cara Mengekspresikan termasuk kategori
Model Regresi Logistik Generalized Linear
Model (GLM)

Regresi logistik Regresi logistik


dalam fungsi dalam fungsi
Sigmoid linier terhadap
terhadap log odds Y
probabilitas Y
Logistic model

Log (odds)= b0 + b1 𝑋1
Maximum Regresi logistik menggunakan metode
Maximum Likelihood Estimation (MLE) untuk
Likelihood mengestimasi koefisien regresi masing-masing
Estimation variabel independen dan probabilitas peristiwa
(misalnya, kejadian stroke) untuk terjadi.
MLE adalah metode untuk mengestimasi
parameter observasi dalam sebuah model, yang
memaksimalkan probabilitas observasi itu.
Artinya, MLE bertujuan menemukan
parameter-parameter yang memaksimalkan
probabillitas (p) terjadi peristiwa 1 dan
probabilitas (1-p) tidak terjadi peristiwa 0.

Jadi MLE memaksimalkan:


Probability (event + non-event) = 1
Log-Likelihood
Log-likelihood merupakan statistik yang
mengekspresikan maksimalisasi nilai-nilai
estimasi koefisien regresi (β).
Nilai-nilai log-likelihood tidak bisa
digunakan sebagai satu-satunya statistik
untuk menunjukkan kesesuaian model,
karena merupakan fungsi dari besar
sampel. Log likelihood dapat digunakan
untuk membandingkan kesesuaian dari
berbagai koefisien.
Makin tinggi nilai log-likelihood makin
baik. Sebagai contoh, nilai log-likelihood=
-3 lebih baik daripada -7.
Perbandingan Hasil Estimasi antara
Metode Ordinary Least Square (Biru) dan
Maximum Likelihood Estimation (Merah)

Perhatikan, kedua
metode memberikan
hasil estimasi koefisien
yang sangat mirip
Apakah Odds
Ratio?
Odds ratio (OR) adalah ukuran hubungan
antara paparan (variabel independen) dan
penyakit (variabel dependen.

OR adalah odds terjadinya penyakit jika


terpapar dibandingkan dengan odds
terjadinya penyakit jika tidak terpapar.

OR dapat dihitung dari semua desain


studi, baik studi observasional
maupun studi eksperimental.
Odds Ratio dan
Regresi Logistik
Dalam regresi logistik, koefisien
regresi (b) adalah log dari OR jika
terpapar dibandingkan tidak
terpapar.

Dengan kata lain, Odds Ratio adalah


fungsi eksponensial dari koefisien
regresi, yaitu exp (b), jika terpapar
dibandingkan tidak terpapar.
Hubungan antara Koefisien
Regresi dan Odds Ratio

Log (odds)= b0 + b1 𝐺𝑒𝑛𝑑𝑒𝑟

e adalah angka Euler, suatu konstanta


OR= exp (b) matematika yang kurang lebih=
2.71828. e digunakan sebagai basis
= eb natural logarithm dalam regresi logistik.
= eb = e1.694596 = 5.444
Interpretasi
Odds Ratio

OR=1 Paparan tidak berhubungan


dengan odds terjadinya penyakit
OR>1 Paparan meningkatkan odds
terjadinya penyakit
OR<1 Paparan menurunkan odds
terjadinya penyakit
Interpretasi Kekuatan
Hubungan dari Odds Ratio
Faktor Protektif Faktor Risiko Interpretasi

OR=1.0 OR=1.0 Paparan tidak berhubungan dengan penyakit

0.67 ≤ OR < 1.0 1.0 < OR < 1.5 Hubungan antara paparan dan penyakit lemah

0.33 ≤ OR < 0.67 1.5 ≤ OR < 3.0 Hubungan antara paparan dan penyakit sedang

0.10 ≤ OR < 0.33 3.0 ≤ OR < 10.0 Hubungan antara paparan dan penyakit kuat

OR < 0.10 OR ≥ 10.0 Hubungan antara paparan dan penyakit sangat kuat
Contoh 1 Aplikasi Regresi Logistik
Perhatikan, pengaruh paparan dapat dianalisis
dalam lebih dari dua kategori dengan paparan yang
terendah sebagai kategori referensi (pembanding)
Perhatikan, laporkan Odds Ratio Confounding factor
estimasi titik dan estimasi interval yang pengaruhnya
(Confidence Interval 95%) dikendalikan
Perhatian:

Estimasi ini merupakan


analisis kasar, belum
mengontrol pengaruh
cpnfounding factor

Interpretasi: Sumber: Varona et al., 2021

Tenaga kesehatan dari suatu studi sero-prevalensi dengan demam


memiliki odds (kemungkinan) untuk positif IgG SARS-Cov-2 12.95 kali
dibandingkan tanpa demam (OR= 12.95; CI95% 10.20 hingga 16.48)
Perhatian:

Estimasi ini merupakan


analisis kasar, belum
mengontrol pengaruh
cpnfounding factor

Sumber: Varona et al., 2021


Interpretasi:

Tenaga kesehatan dari suatu studi sero-prevalensi dengan anosmia


memiliki odds (kemungkinan) untuk positif IgG SARS-Cov-2 36.44 kali
dibandingkan tanpa anosmia (OR= 36.44; CI95% 26.21 hingga 51.57)
Interpretasi: Sumber: Varona et al., 2021

Tenaga kesehatan dari suatu studi sero-prevalensi yang tinggal di


Barcelona memiliki odds (kemungkinan) untuk positif IgG SARS-Cov-2 0.52
kali dibandingkan tinggal di Madrid (OR= 0.52; CI95% 0.40 hingga 0.66)
Interpretasi: Sumber: Varona et al., 2021

Tenaga kesehatan dari suatu studi sero-prevalensi yang mengalami paparan


risiko sedang memiliki odds (kemungkinan) untuk positif IgG SARS-Cov-2
1.67 kali dibandingkan tinggal di Madrid (OR= 1.67; CI95% 1.25 hingga 2.26)
Contoh 2 Aplikasi Regresi Logistik
(low)
(low)

(< 150 cm)

Interpretasi: Sumber: Muslimah et al., 2020

Anak usia 6-12 tahun yang terinfeksi cacing memiliki logodds


(kemungkinan) untuk stunting 2.11 unit lebih tinggi daripada
tidak terinfeksi cacing (b= 2.11; CI95% 1.11 hingga 3.10; p< 0.001)
(< 48 cm)
(no)
(no)

Interpretasi: Sumber: Muslimah et al., 2020

Anak usia 6-12 tahun panjang badan lahir < 48cm memiliki logodds
(kemungkinan) untuk stunting 1.91 unit lebih tinggi daripada tidak
terinfeksi cacing (b= 1.91; CI95% 0.94 hingga 2.87; p< 0.001)
Persamaan:

Masalah Penelitian OR= Exp (b)

Berapa besar risiko untuk


mengalami stunting jika anak Perhitungan:
terinfeksi cacing?
b 2.11 1.11 3.1
(Muslimah et al., 2020) OR 8.248241 3.034358 22.19795

Interpretasi:
Anak usia 6-12 tahun yang terinfeksi cacing
Mengkoversikan memiliki risiko (odds) untuk mengalami stunting 8
Koefisien kali dibandingkan tidak terinfeksi cacing (OR=
8.25; CI95% 3.30 sd 22.20)
Regresi menjadi Dengan tingkat keyakinan 95% dapat dikatakan,
Odds Ratio pada anak usia 6-12 tahun yang terinfeksi cacing
Regresi Logistik memiliki risiko (odds) untuk mengalami stunting 3
hingga 22 kali dibandingkan tidak terinfeksi
cacing (OR= 8.25; CI95% 3.30 sd 22.20)
Zoom you later…

Anda mungkin juga menyukai