BIOSTATISTIK II – S014
Modul 1
Uji Normalitas dan Uji Beda Mean (Compare Means)
1.1 Pendahuluan
Prosedure Compare Means dipakai untuk menganalisis perbedaan rerata satu sampel,
dua sampel berpasangan, dua sampel bebas, dan menganalisis perebdaan rerata
lebih dari dua sampel bebas. Pada modul ini akan dibahas indikasi, persyaratan,
langkah menjalanan prosedure compare mean dan cara interpretasi hasilnya.
Tujuan
Mahasiswadiharapkan dapat menggunakan STATA sebagai alat bantu analisis
perbedaan rerata pada berbagai penelitian kesehatan dan dapat memberikan
interpretasi berbagai output analisis compare mean.
Pokok Bahasan
Pada modul ini akan dibahas prosedure:
• One Sample T Test
• Paired Sampels T Test
• Independent Samples t Test
1.2.2 Persyaratan
One Sample T Test adalah bagian dari uji parametrik yang memiliki asumsi data
bedistribusi normal.
1.2.3 Hipotesis:
Ho. µ = 14 (rerata tidak berbeda dengan 14)
Ha. µ ≠ 14 (rerata berbeda dengan 14)
x − test.value
t=
sd / n
1.2.5 CI perbedaan
Nilai interval kepercayaan dihitung dengan rumus sbb;
Contoh Kasus
Untuk menguji hipotesis tersebut, sebanyak 21 sampel diukur tekanan intraocularnya
dan hasilnya adalah sbb:
14,5 12,9 14,0 16,1 12,0 17,5 14,1 12,9 17,9 12,0
16,4 24,2 12,2 14,4 17,0 10,0 18,5 20,8 16,2 14,9
19,6
Apakah dari data sampel ini dapat disimpulkan bahwa tekanan intraocular orang tua
lebih dari 14 mmHg? Cara analisisnya adalah sbb.
• Rekam data
Lakukan langkah rekam data, rekam sebanyak observasi (n =21). contoh
sbb:
. swilk TIO
• Interpretasi Output
Untuk data Tekanan Intraoculer, uji normalitas yang dipakai adalah uji
Shapiro-Wilk dan data dinyatakan berdistribusi normal karena nilai Prob (p)
> 0,05. Oleh karena itu, perbedaan rerata tekanan intraocular dengan 14
dapat diuji dengan uji t (uji parametrik).
3) Uji perbedaan mean satu sampel
Dalam kasus ini, sebagai nilai test (test value) adalah 14 dan langkah
analisisnya adalah sbb:
• Ketik syntax pada jendela command: ttest TIO == 14
Lalu tekan enter, maka akan tampil output sbb:
. ttest TIO==14
One-sample t test
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
1.2.8 Interpretasi
Ho diterima bila nilai p > 0,05 dan sebaliknya Ho ditolak bila nilai p ≤ 0,05. Nilai p pada
hasil diatas adalah 0.0398, sesuai dengan Ha dua sisi yaitu Ha= µ≠14
Berdasarkan hasil analisis dapat disimpulkan bahwa Ho ditolak, berartinya rerata
tekanan intraoculer 15,62 ± 3,38 mmHg berbeda dengan 14 mmHg. Sehingga dapat
disimpulkan bahwa rerata tekanan intraoculer orang tua lebih tinggi dari 14 mmHg.
95% CI yaitu 14.08 – 17.16.
1.3.2 Persyaratan
Paired Samples T Test adalah bagian dari uji parametrik yang memiliki asumsi data
bedistribusi normal.
1.3.3 Hipotesis:
Untuk 2 sisi
Ho. µd = 0 (tidak berbeda antar pasangan)
Ha. µd ≠0 (berbeda antar pasangan)
Untuk 1 sisi
Ho. µd ≤ 0 atau Ho. µd ≥ 0
Ha. µd > 0 atau Ho. µd < 0
1.3.5 CI perbedaan
Nilai interval kepercayaan beda rerata pasangan dapat dihitung dengan rumus sbb:
CI(1-α) = d ± t x sd/√n
α
Dimana:
d = rerata beda pasangan
n = jumlah sampel pasangan
t = nilai t tabel untuk α tertentu
α
Contoh Kasus:
Akan diteliti efek intervensi ergonomi terhadap produktivitas karyawan pabrik sepatu.
Rancangan penelitian yang dipakai adalah rancangan sama subyek. Sebanyak 10
pekerja pembuat sepatu dijadikan sebagai subyek penelitian. Produktivitas diukur dari
hasil kerja selama 5 hari kerja dengan kondisi kerja lama dan dengan kondisi kerja
yang ergonomis (suhu, statasiun kerja, sikap kerja dan manajemen kerja yang
ergonomik). Data hasil pengukuran produktivitas adalah sbb:
2 .169 .30
3 .201 .29
4 .215 .35
5 .225 .33
6 .218 .33
7 .326 .53
8 .252 .40
9 .345 .36
10 .227 .35
Dari hasil diperoleh bahwa nilai p > 0.05 pada kedua kelompok, sehingga dapat
disimpulkan bahwa data berdistribusi normal. Sehingga dapat digunakan uji
paired-t test pada kasus tersebut.
3) Uji Beda Mean
Langkah pertama adalah dengan menentukan tingkat kepercayaan yang
dipakai yaitu 99%.
Ketik syntax pada command yaitu : set level 99
Lalu enter,
Kemudian ketik syntax pada command dengan format yaitu : ttest var_pre
var_post
Contoh pada kasus ini : ttest pretest = posttest
Lalu enter, maka akan muncul output sebagai berikut :
1.3.8 Interpretasi
Hipotesis:
Ho. µd ≥ 0 (intervensi ergonomi tidak meningkatkan produktivitas)
Ha. µd < 0 (intervensi ergonomi meningkatkan produktivitas)
Catatan : Hipotesis harus disesuaikan dengan perhitungan beda, pada kasus ini beda
diperoleh dari mean pre dikurangi mean post, maka hipotesis adalah seperti
diatas.
Bila beda diperoleh dari mean post dikurangi mean pre maka hipotesisnya
akan berbeda, kebalikan dari hipotesis diatas.
Kesimpulan
Ho diterima bila nilai p > α
Ho ditolak bila nilai p ≤ α
Berdasarkan hasil analisis didapatkan bahwa p = 0,0002 (p < 0.05) pada Ha µd
> 0 berarti Ho ditolak.
1.4 Independent Samples T-Test
1.4.1 Indikasi
Independent Samples T-Test dipakai untuk menguji perbedaan rerata dua sampel
bebas (independent samples). Sebagai contoh, akan diuji efek ekstrak seredelai
terhadap serum feritin tikus. Sebanyak 20 tikus dijadikan binatang percobaan,
separunya diberi ekstrak seredelai dan seperuhnya diberikan aqua (kontrol).
1.4.2 Persyaratan
Independent Samples T Test adalah bagian dari uji parametrik yang memiliki asumsi
data bedistribusi normal dan kedua kelompok memiliki varian yang sama (homogen).
1.4.3 Hipotesis:
Ho. µ1 = µ2 (tidak terdapat perbedaan serum Fe antara perlakuan dengan
kontrol)
Ha. µ1 # µ2 (terdapat perbedaan rerata serum Fe antara perlakuan dengan
kontrol)
F =SD12/SD22
Kedua sampel dinyatakan memiliki varian homogen bila uji Leven menunjukan nilai p >
α dan sebaliknya dinyatakan tidak homogen bila nilai p ≤ α.
x1 − x 2 Keterangan:
t=
2 2 SDp = SD gabungan
SD p SD p SD 1 = standar deviasi sampel 1
+
n1 n2 SD 2 = standar deviasi sampel 2
n1 = jumlah sampel 1
n2 = jumlah sampel 2
SDp2 = {(n1-1)SD12 + (n2-1)SD22}/(n1+n2-2)
Cara penghitungan nilai statistik T untuk dua sampel tidak homogen
x1 − x 2
t=
2 2
SD1 SD2
+
n1 n2
1.4.6 CI perbedaan
Nilai interval kepercayaan beda rerata pasangan dapat dihitung dengan rumus sbb:
( )
CI(1-α) = x 1 − x 2 ± t x seα
Dimana:
(x 1 )
− x 2 = beda rerata
se = standar error beda rerata
t = nilai t tabel untuk α tertentu
α
Contoh Kasus:
Sebagai contoh, akan diuji efek ekstrak seredelai terhadap serum feritin tikus.
Sebanyak 20 tikus dijadikan binatang percobaan, separuhnya diberi ekstrak
seredelai dan seperuhnya diberikan aqua (kontrol). Alokasi sampel tikus ke
masing-masing perlakuan dilakuka secara random. Data hasil pengukuran
adalah sbb.
Data serum Fe kelompok kontrol dan eksperimen
Kontrol Ekstrak Seredelai
30.662 54.604
25.037 52.914
25.473 96.993
34.121 47.178
37.447 36.391
25.167 26.395
39.186 48.681
1.4.8 Prosedure Independent Samples T Test
1) Buat Struktur data Ada 2 variabel dalam kasus ini yaitu variabel kelompok
(kontrol = 1 dan seredele = 2) dan variabel serum feritin (serumFe). Rekam
data sejumlah observasi yang dilakukan pada kedua kelompok. Contoh struktur
data adalah
Anda dapat membuat label untuk kelompok dengan langkah yang sudah
diberikan pada pertemuan sebelumnya, misal 1 = kontrol dan 2 = seredele
2) Uji Normalitas
Ketik syntax pada command dengan format : bysort variabel_kelompok: swilk
variable_interest
Contoh pada kasus ini : bysort kelompok: swilk serumFe
Lalu enter, dan muncul output sebagai berikut:
Ho. S12 = S22 (kedua kelompok memiliki variance sama atau homogen)
Ha. S12 = S22 (kedua kelompok memiliki variance berbeda atau heterogen)
Kesimpulan:
Ho diterima bila nilai p > α (kedua kelompok homogen)
Ho ditolak bila nilai p ≤α (kedua kelompok heterogen)
Nilai Wo menunjukkan nilai F dari Levene test. P=0.179; p>0.05 maka variance
homogen.
4) Uji Beda Mean Independent sample t-test
Tingkat kepercayaan STATA by default adalah 95%.
Format command STATA untuk uji independent sample t-test :
Bila variance equal/homogen : ttest variable_interest, by (var_kelompok)
Bila variance unequal/tidak homogen maka : ttest variable_interest, by
(var_kelompok) unequal
Pada kasus ini ketik : ttest serumFe, by (kelompok)
Lalu enter sehingga muncul output berikut :
1.4.9 Interpretasi
Deskriptif:
Rerata serum Fe tikus pada kelompok seredele lebih besar dari rerata di
kelompok kontrol. Rerata serum Fe pada kelompok seredele 51.88±522.23,
sedangkan untuk kelompok kontrol adalah31.01±6.04.
Kesimpulan
Didapatkan beda mean = - 20.87 dengan CI 95% adalah -47.46 s/d 5.73 dan
nilai p= 0.0337 (p < 0,05). Ini berarti bahwa ada perbedaan rerata serumFe tikus
pada kedua kelompok yaitu yang diberikan seredele dan yang tidak diberikan
seredele.
Modul 2
One-Way ANOVA
2.1 Pendahuluan
Prosedure One-Way ANOVA dipakai untuk menganalisis perbedaan rerata lebih dari
dua sampel bebas. Pada modul ini akan dibahas indikasi, persyaratan, langkah
menjalanan prosedure One-Way ANOVA dan cara interpretasi hasilnya.
Tujuan
Mahasiswadiharapkan dapat menggunakan STATA sebagai alat bantu analisis
perbedaan rerata pada berbagai penelitian kesehatan dan dapat memberikan
interpretasi berbagai output analisis One-Way ANOVA.
Pokok Bahasan
Pada modul ini akan dibahas prosedure:
• Indikasi
• Persyaratan
• Hipotesis
• Uji One-Way ANOVA
• Uji Post Hoc
2.2 Indikasi
Uji One-way Anova dipakai menganalisis perbedaan rerata lebih dari dua kelompok
sampel bebas. Sebagai contoh, akan menganalisis efek ekstrak seredelai terhadap
serum Fe. Penelitian eksperimen dengan rancangan acak lengkap dimana terdapat
tiga kelompok percobaan, yaitu kelompok kontrol, ekstrak seredelai dosis 50% dan
seredelai dosis 75%. Untuk menganalisis perbedaan efek dilakukan dengan
membadingkan rerata serum Fe antara ke tiga kelompok. Analisis perbedaan rerata
serum Fe dari ketiga kelompok dilakukan dengan uji One-way Anova.
2.3 Persyaratan
Uji One-way ANOVA adalah bagian dari uji parametrik yang memiliki asumsi data
bedistribusi normal dan antar kelompok memiliki varian yang sama (homogen).
2.4 Hipotesis:
Ho. µ1 = µ2 = µ3 (tidak terdapat perbedaan serum Fe antara perlakuan
dengan kontrol)
Ha. Paling sedikt terdapat dua kelompok yang memiliki rerata serum Fe
berbeda
2.5 Uji Statistik
Uji statistik pada analisis variance menggunakan uji Variance Ratio atau uji F dengan
rumus statistik sbb:
Varian antar kelompok
F = -------------------------------------
Varian dalam kelompok
k n
2
Jumlah kwadrat dalam kelompok = ∑∑ (y
i j
i. j − y i. ) dimana i = 1 s/d k dan j
=1 s/d n
Derajat bebas dalam kelompok = n – k, maka:
k n
2
Varian dalam kelompok = ∑∑ (y
i j
i. j )
− y i. / (n − k )
Berdasarkan uraian di atas, maka resume perhitungan analisis varian pada One-Way
Anova dapat disajikan sebagai berikut.
2.7 Uji Post Hoc
Uji Post Hoc merupakan analisis lanjutan dari analisis variance bila Ho pada analisis
varian ditolak. Uji post hoc dipakai untuk menguji kelompok mana yang berbeda
dengan cara melakukan perbandingan terhadap semua kelompok (multiple
comparasion). Uji uji statistik untuk Post Hoc Test dikelompokan menjadi dua
kelompok, yaitu jenis uji Post Hoc bila semua kelompok memiliki variance yang sama
(homogen) dan bila vararian tidak homogen. Jenis uji Post Hoc untuk variance
homogen antara lain LSD, Scheffe, Duncan, dll dan untuk variance tidak homogen
adalah Thamhane, Dunnet, dll.
Bila terdapat 3 kelompok yang dibadingkan, maka akan terdapat 3 perbandingan antar
kelompok, yaitu:
1) Antara kelompok 1 vs kelompok 2 dengan Ho: µ1 = µ2
2) Antara kelompok 1 vs kelompok 3 dengan Ho: µ1 = µ3
3) Antara kelompok 2 vs kelompok 3 dengan Ho: µ2 = µ3
Dari perbadingan antar kelompok ini akan dapat diketahui kelompok mana yang
berbeda dengan kelompok yang mana.
2.8 LATIHAN
Contoh Kasus
Satu penelitian eksperimen laboratorium akan menganalisis efek pemberian ekstrak
seredelai terhadap serum Fe pada tikus. Penelitian eksperimen dengan rancangan
acak lengkap dimana terdapat tiga kelompok percobaan, yaitu: kelompok kontrol,
ekstrak seredelai dosis 50% dan seredelai dosis 75%. Untuk menganalisis perbedaan
efek dilakukan dengan membadingkan rerata serum Fe antara ke tiga kelompok. Data
hasil pengukuran serum Fe setelah percobaan pada ke tiga kelompok adalah sbb.
Data serum Fe kelompok kontrol dan eksperimen
Kontrol Ekstrak Seredelai Ekstrak Seredelai
dosis 50% Dosis 75%
30,662 35,765 54,604
25,037 28,169 52,914
25,473 35,211 96,993
34,121 51,042 47,178
37,447 29,635 36,391
25,167 42,010 26,395
39,186 43,512 48,681
Prosedur STATA
Membuat struktur data dan Merekam Data
Jumlah variabel pada kasus di atas adalah 2, yaitu variabel bebas Perlakuan (kategori:
1=kontrol 2=dosis 50% dan 3=dosis 75%) dan Serum Fe (numerik), maka struktur data
file menjadi sbb:
1=kontrol
1 Dosis N 8 0 Dosis
2=dosis 50%
percobaan
3=dosis 75%
2 Serum_Fe N 8 3 Kadar serum
Fe
Kesimpulan semua kelompok berdistribusi normal karena nilai p masing-masing > 0.05
2) Uji Homogenitas Variance
STATA command format adalah robvar variable_bebas, by variable_kelompok
Kasus ini : robvar serumFe, by (perlakuan)
Lalu enter dan muncul output sebagai berikut:
Nilai Wo menunjukkan nilai F dari Levene test. P=0.219; p>0.05 maka variance
homogen.
3) Deskriptif statistik
Format STATA Command : bysort variabel_kelompok: sum var_bebas
Contoh pada kasus ini: bysort perlakuan: sum serumFe
Lalu enter maka akan muncul output sbb:
atau dengan command lainnya: oneway variabel_bebas variabel_kelompok
contoh ini : oneway serumFe perlakuan
Lalu enter sehingga muncul output sbb:
6) Interpretasi
Statistik Deskriptif
Rerata serum Fe pada kontrol adalah 31,01 dosis 50% adalah 37,91 dan dosis
75% adalah 51,88.
Kesimpulan: rerata serum Fe tikus yang diberikan dosis 75% berbeda dengan
rerata serum Fe tikus yang tidak diberikan seredele (kontrol). Dosis 75%
terbukti mempunyai efek meningkatkan serum Fe tikus, sedangkan dosis 50%
tidak memberikan efek peningkatan serum Fe.
MODUL 3
Analisis Perbedaan Risk
3.1 Pendahuluan
Pada penelitian kesehatan sering dipelajari hubungan antara dua variabel kategori
atau lebih, seperti misalnya terjadinya suatu penyakit dikaitkan dengan keberadaan
faktor risio tertentu. Sebagai contoh, misalnya akan diteliti apakah kebiasaan merokok
meningkatkan resiko terjadinya penyakit jantung koroner. Dua jenis ratio yang sering
dipakai untuk memperkirakan besarnya resiko, yaitu: relatif risk (RR) dan odd ratio
(OR). RR dan OR dikembagkan di bidang epidemiologi, tetapi sekarang
pengunaannya tidak hanya di bidang epidemiologi melainnya dibanyak penelitian
kesehatan. RR dan OR dipakai menentukan besarnya resiko pada penelitian
prospektif dan OR dipakai dalam penelitian retrospektif.
Uji Chi-square dipakai menguji hipotesis hubungan antara variabel kategorikal. Pada
modul ini akan dibahas uji hipotesis hubungan antara dua variabel kategori untuk
rancangan random dan rancangan berpasangan (matched design).
Tujuan
Mahasiswa diharapkan dapat menggunakan STATA sebagai alat bantu analisis
perbedaan risk pada berbagai penelitian kesehatan dan dapat memberikan interpretasi
berbagai output analisis korelasi.
Pokok Bahasan
Pada modul ini akan dibahas:
• Indikasi RR, OR, uji chi-square dan uji McNemar
• Hipotesis
• Kesimpulan
• Prosedur uji dengan STATA
• Interpretasi
Ho: RR=1 Ha: RR>1
Penarikan kesimpulan
Dari tabel Chi Square 2 x 2 didapatkan nilai Chi Square batas adalah 3,841.
Ho : tidak ditolak bila nilai chi square hitung < 3,841
Ho : ditolak bila nilai Chi Square hitung ≥ 3,841
Contoh Kasus : Faktor risiko asi ekslusif diteliti menggunakan rancangan cross-
sectional dan datanya disimpan dalam file Stata dengan nama “Faktor Risiko Asi
eslusive.dta” dengan struktur sbb:
asi Asi ekslusif 1=tidak, 0=ya
umur Klp umur 1= berisiko, 0=tidak
paritas paritas 1= berisiko, 0=tidak
pendidikan Pendidikan 1= berisiko, 0=tidak
pekerjaan pekerjaan 1= berisiko, 0=tidak
t4tinggal Tempat tinggal 1= berisiko, 0=tidak
persepsi Persepsi asi ekslusif 1= berisiko, 0=tidak
pengetahuan Pengetahuan asi 1= berisiko, 0=tidak
ekslusif
d_keluarga Dukungan keluarga 1= berisiko, 0=tidak
d_nakes Dukungan nakes 1= berisiko, 0=tidak
Analisis apakah paritas, pendidikan, tempat tinggal, pengetahuan, persepsi, dukungan
keluarga, dan dukungan tenaga kesehatan merupakan faktor risiko pemberian asi
ekslusif.
Prosedur STATA :
1. Buka Faktor Risiko Asi eslusive.dta
2. Ketik syntax dengan format : cs <vartergantung> <varbebas>
Contoh : hubungan tempattinggal dengan asi ekslusif è cs asi t4tinggal
Lalu tekan enter hingga muncul Output berikut:
. cs asi t4tinggal
Cases 35 29 64
Noncases 15 49 64
Total 50 78 128
Risk .7 .3717949 .5
3. Interpretasi
RR = 1.88, 95% CI 1.34 – 2.65, Chi-square (13.13) > 3.841, p < 0.05 è Ho
ditolak
Sehingga dapat disimpulkan bahwa tempat tinggal berhubungan dengan
pemberian asi eksklusif, dimana tempat tinggal yang tidak kondusif 1.88 kali
meningkatkan risiko ibu untuk tidak memberikan asi eksklusif pada bayinya
(95% CI 1.34 – 2.65).
Penarikan kesimpulan
Dari tabel Chi Square 2 x 2 didapatkan nilai Chi Square batas adalah 3,841.
Ho : tidak ditolak bila nilai chi square hitung < 3,841
Ho : ditolak bila nilai Chi Square hitung ≥ 3,841
Prosedur STATA :
1. Dengan menggunakan contoh kasus di atas, asumsi penelitian case-control
untuk mencari hubungan tempattinggal dengan asi ekslusif. Ketik syntax
dengan format :
cc <vartergantung> <varbebas>
contoh ini = cc asi t4tinggal
maka akan muncul output sbb :
. cc asi t4tinggal
Proportion
Exposed Unexposed Total Exposed
Cases 35 29 64 0.5469
Controls 15 49 64 0.2344
2. Interpretasi
OR = 3.94, 95% CI 1.73 – 9.09, Chi-square (13.13) > 3.841, p < 0.05 è Ho
ditolak
Sehingga dapat disimpulkan bahwa tempat tinggal berhubungan dengan
pemberian asi eksklusif, dimana tempat tinggal yang tidak kondusif 3.9 kali
meningkatkan peluang ibu untuk tidak memberikan asi eksklusif pada bayinya
(95% CI 1.34 – 2.65).
3. Jika contoh di atas menggunakan metode matched case control maka syntax
STATA adalah
mcc var_exposed_case var_exposed_control
MODUL 4
KORELASI & REGRESI LINEAR
Correlation & Linear Regression
4.1 KORELASI
4.1.1 Pendahuluan
Korelasi dipakai untuk menganalisis hubungan dua variabel numerik atau ordinal,
misalnya hubungan antara berat badan (numerik) dengan tinggi badan (numerik) atau
antara skor kepuasan pasien (ordinal) dengan skor loyalitas pasien (ordinal). Pada
modul ini akan dibahas indikasi, persyaratan, langkah-langkah dalam prosedure
correlation dan cara interpretasi hasilnya.
Tujuan
Mahasiswa diharapkan dapat menggunakan STATA sebagai alat bantu analisis
korelasi pada berbagai penelitian kesehatan dan dapat memberikan interpretasi
berbagai output analisis korelasi.
Pokok Bahasan
Pada modul ini akan dibahas:
• Indikasi korrelation
• Asumsi
• Hipotesis
• Metode analisis
• Conclussion
• Prosedur Corelate
• Output & Interpretasi
4.1.2 Indikasi
Analisis korelasi dipakai untuk menganalisis hubungan variabel X dan Y dimana
variabel X dan y berskala pengukuran interval atau ordinal. Misalnya akan mempelajari
hubungan antara panjang tungkai kaki dengan jauh lompatan. Panjang tungkai bawah
(dalam cm) adalah variabel berskala interval dan jauh lompatan (dalam meter) juga
berskala interval.
4.1.3 Persyaratan
Uji korelasi terdiri dari tiga jenis yaitu: korelasi Pearson, Spearman Rank, dan Kendall.
1) Pearson Correlation
Variabel X dan Y merupakan variabel numerik atau interval dan berdistribus
normal.
Variabel X dan Y adalah variabel numerik akan tetapi data dari kedua atau salah
satu dari variabel tersebut tidak berdistribusi normal atau keduanya merupakan
variabel ordinal.
3) Kendall
Variabel X dan Y berskala pengukuran ordinal.
12.00
15.00
10.00
12.50
8.00
Y
Y
6.00
10.00
4.00
7.50
2.00
5.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X X
15.00 14.00
12.00
12.00
10.00
9.00
8.00
Y
6.00
6.00
4.00
3.00
2.00
0.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X X
15.00
10.00
Y
5.00
0.00
r=
∑ XY − (∑ X ∑ Y )/ n
{∑ X 2
− (∑ X ) / n}{∑ Y − (∑ Y )
2 2 2
/n }
Keterangan:
r = koefisien korelasi
ƩXY = jumlah hasil kali nilai var X dengan var Y
ƩX = jumlah nilai var X
ƩY = jumlah nilai var Y
ƩX2 = jumlah nilai var X kwadrat
ƩY2 = jumlah nilai var Y kwadrat
n = jumlah sampel
2) Metode analisis
Koefisien korelasi mempunyai distribusi menyerupai distribusi t, oleh karena itu,
uji Hipotesa koefisien korelasi dilakukan dengan statistik uji “t” dengan derajat
bebas df = n-2 dengan rumus sbb.
r r
t= = ( n − 2)
2
(1 − r ) (1 − r 2 )
(n − 2)
Keterangan:
t = nilai statistik t
r = koefisien korelasi sampel
n = jumlah sampel
Contoh Kasus
Sebagai bahan latihan, berikut adalah data sebuah penelitian cross-sectional
karakteristik faktor risiko penderita CHD di Rumah Sakit X.
Tabel 1. Karakteristik faktor risiko CHD di Rumah Sakit X
No. Age Chol BMI No. Age Chol BMI
1 56 292 31.85 16 56 329 20.30
2 48 339 31.06 17 44 349 25.96
3 60 303 30.17 18 29 419 25.40
4 59 269 27.94 19 45 278 26.08
5 58 312 21.43 20 44 354 28.62
6 64 185 32.44 21 34 317 22.67
7 59 303 24.96 22 40 334 24.66
8 47 304 33.05 23 34 345 31.47
9 47 334 23.02 24 39 330 39.54
10 28 328 27.12 25 45 347 25.10
11 54 363 28.46 26 41 339 22.05
12 38 399 26.63 27 57 353 28.59
13 35 321 25.90 28 57 220 25.84
14 64 244 30.83 29 38 385 26.83
15 34 314 24.55 30 45 240 32.73
Rekam data di atas dengan cara seperti yang sudah dilakukan pada modul
sebelumnya.
30 40 50 60 70
age
Tampak hubungan negatif antara umur dengan kolesterol darah pada penderita
CHD
3) Analisis korelasi
Uji Pearson bila data normal atau Kendall bila data ordinal atau Spearman bila
data tidak normal seperti bagan berikut. Dalam kasus ini data berdistribusi
normal maka akan digunakan analisis Pearson Correlation. Misalnya ingin
melakukan analisis korelasi antara umur dengan kadar kolesterol.
Ketik syntax pada jendela command dengan format : pwcorr varY varX, sig obs
Pada contoh syntaxnya adalah : pwcorr age chol, sig obs
Lalu enter maka akan muncul output sebagai berikut :
Bila ingin melakukan analisis korelasi antara umur dengan kadar kolesterol dan
BMI maka syntaxnya adalah : pwcorr age chol BMI , sig obs. Hasilnya adalah
sebagai berikut:
Matriks korelasi variabel umur, kolesterol dan BMI
4.1.10 Interpretasi
Ø Interpretasi
Arah hubungan dilihat dari tanda koefisien korelasi. Bila sign negatif, berarti
hubungannnya negatif atau berlawanan arah. Sebaliknya, bila sign positif
berarti ada hubungan positif atau searah.
Kuat hubungan dilihat dari nilai absolut koefisien korelasi. Korelasi sempurna
bila r = 1, kuat bila 0,7<r< 1, sedang bila0,4 <r <0,7, ringan bila 0<r<0,4, dan
tidak ada hubungan bila r=0.
Signifikansi hubungan
Hubungan dinyatakan bermakna bila nilai p ≤ α dan sebaliknya dinyatakan
tidak bermakna bila p > α
Dari hasil analisis di atas dapat disimpulkan bahwa umur berkorelasi negatif
sedang (r = - 0.5510) dengan kolesterol (p = 0,0016), tetapi umur tidak
berkorealsi dengan BMI (p=0.5427). Kolesterol berhubungan negatif sedang
dengan umur (p = 0,0016), tetapi tidak berkorelasi dengan BMI (p=0,1152).
4.2 Regresi Linier
4.2.1 Pendahuluan
Metode korelasi dipakai untuk mempelajari hubungan antara variabel numerik X
dengan numerik Y. Korelasi tidak menjelaskan hubungan sebab-akibat atau causal
relationship antara variabel terhadap Y. Berbeda dengan metode regresi, dimana
tujuan utamanya adalah mempelajari hubungan sebab-akibat antara variabel bebas X
terhadap variabel tergantung Y. Dalam regresi, variabel bebas juga disebut sebagai
variabel prediktor karena nilai variabel y dapat dipredikasi dari nilai variabel X
berdasarkan persamaan regresi antara variabel Y dengan X.
Tujuan
Mahasiswa diharapkan dapat menggunakan STATA sebagai alat bantu analisis regresi
pada berbagai penelitian kesehatan dan dapat memberikan interpretasi berbagai
output analisis korelasi.
Pokok Bahasan
Sehubungan dengan kegunaan tersebut, pada modul ini akan dibahas tentang:
• Indikasi
• Asumsi
• Metode seleksi variabel prediktor
• Parameter Regresi
• Prosedur STATA
• Interpretasi hasil
Indikasi
Prosedur Regresi Linear dipakai untuk menganalisis hubungan dan pengaruh satu
atau beberapa variabel prediktor atau Risk faktor terhadap satu variabel tergantung
yang berskala interval atau numerik. Regresi linier sederhana adalah untuk
menganalisis hubungan dan pengaruh satu variabel prediktor terhadap satu variabel
tergantung, sedangkan regresi linier berganda untuk menganalisis hubungan dari
beberapa variabel prediktor terhadap satu variabel tergantung. Sebagai contoh
misalnya akan dipelajari pengaruh merokok (ya/tidak), umur (th), kolesterol darah,
indek masa tubuh (IMT), tekanan darah sistole terhadap kadar gula penderita DM type
II.
4.2.2 Model
Dalam analisa regresi, pengaruh variabel bebas Xi terhadap variabel tergantung Y
diasumsikan linier, sehingga hubungan dari kedua variabel tersebut dapat dinyatakan
dalam suatu persamaan garis lurus yang disebut sebagai Model Regresi Linier
sederhana sebagai berikut:
Y = a + b iX i + ε
Keterangan:
Y = variabel tergantung (dependent variable)
Xi = variabel bebas (independent variable) ke i
bi = koefisien regresi variabel bebas ke i
a = konstan atau intercept
ε = residu (eror)
4.2.3 Persyaratan
Validitas hasil analisis regresi diragukan atau bias bila asumsi analisis regresi seperti
berikut tidak terpenuhi.
1. Homoskedastik
Data dari variabel outcome Y, untuk setiap nilai variabel prediktor X, harus
berdistribusi normal dan memiliki varian yang sama (homogen) serta memiliki
nilai rerata yang terletak dalam satu garis lurus atau disebut Homoskedastik
(untuk regresi linier sederhana dan berganda).
2. Tidak terdapat multikolinearitas
Tidak terdapat korelasi yag kuat antara variabel prediktor atau tidak tedapat
multikolinearitas (untuk regresi linier berganda).
3. Tidak terdapat otokorelasi
Tidak terdapat korelasi berseri antara variabel prediktor (untuk regresi linier
berganda).
4. Linearitas
Terdapat hubungan linear dari semua variabel prediktor Xi dengan variabel
outcome Y (untuk regresi linier sederhana dan berganda).
b=
∑ XY − (∑ X )(∑ Y ) / n
2 2
∑ X − (∑ X ) / n
Keterangan:
b = koefisien regresi
∑XY = jumlah hasil kali nilai var bebas (X) dengan nilai var tak bebas (Y)
∑X = jumlah nilai variabel bebas (X)
∑Y = jumlah nilai var tak bebas (Y)
2
∑X = jumlah kwadrat nilai var bebas (X)
n = jumlah sampel
4.2.7 Prosedur STATA
Sebagai bahan latihan akan dipakai data hasil penelitian mengenai hubungan antara
kadar hb, intake kalori dan berat badan. Data disimpan dalam file: latihan korelasi dan
regresi.
Ø Analisis Multikolinearitas
Sesudah melakukan command regress, lanjutkan dengan syntax : estat VIF
Ø Analisis Homoskedastisitas
Sesudah melakukan command regress, lanjutkan dengan syntax : estat hettest
9 10 11 12 13 14
Fitted values
4.2.8 Interpretasi
1) Goodness of Fit
Apakah data fit dengan model regresi linear dapat dilihat dari hasil Anova (F).
Data dikatakan fit dengan model regresi linear bila nilai P dari hasil ANOVA < α
dan sebaliknya dinyatakan tidak fit bila nilai p dari analisis ANOVA > α. Pada
hasil analisis anova dari kasus di atas menunjukan nilai p < α (p = 0.00120),
berarti data dari kasus di atas fit dengan model regresi linear.
2) Multikolinearitas
Adanya multikolinearitas antar variabel prediktor ditentukan dari nilai VIF
(Variance Inflating Factors). Dinyatakan terdapat multikoliearitas bila nilai VIF >
10. Pada output STATA di atas didapatkan nilai VIF < 10, maka dapat
disimpulkan bahwa tidak terdapat multikliearitas antara variabel prediktor.
3) Homoskedastisitas
Dapat dilakukan dengan menggunakan analisis estat hettest. Nilai p>0.05
artinya variance konstan/homogen (tidak ada heteroskedastisitas). Asumsi
homokedastisitas terpenuhi. Homoskedastisitas vari variabel Y juga dapat
dilihat dari plot antara ZPRED (nilai standar dari nilai prediksi) dengan SRESID
(nilai studentize dari nilai residu). Bila plot dari ZPRED dengan SRESID tidak
memilki bentuk tertentu atau plotnya menyebar di semua area grafik, maka nilai
Y dikatakan memenuhi persyaratan homoskedastik. Sebaliknya, bila plotnya
memilki bentuk tertentu, dinyatakan asumsi homoskedastik tidak terpenuhi.
Hasil analisis di atas menunjukan plot antara ZPRED dengan SRESID tidak
memilki bentuk spesifik, maka asumsi homoskedastik terpenuhi.
4) Oto Korelasi
Otokorelasi dilihat dari statistik Durbin-Watson. Terjadi otokorelasi bila nilai
statistik Durbin-Watson < 2 atau > 4. Pada hasil analisis di atas didapatkan nilai
statistik Durbin-Watson > 2 dan < 4, berarti tidak terdapat otokorelasi.
5) Linearitas
Linearitas hubungan antara variabel prediktor terhadap variabel outcome Y
dapat dilihat dari hasil analisis Anova. Dinyatakan terdapat hubunga linear bila
nilai p dari analisis Anova < α. Linearitas juga dapat diuji dengan uji linearitas
pada prosedur “Compare mean”. Pada hasil Anova di atas didapatkan nilai p <
0,05, berarti terdapat hubungan yag linear antara prediktor dengan variabel
outcome.
Besar pengaruh dari variabel yang terdapat di dalam model regresi dapat
dilihat dari nilai R2 yang terdapat pada model summary. Bila menggunakan
metode seleksi ENTER, nilai R2 yang diberikan merupakan nilai R2 gabungan
dari semua variabel prediktor. Bila menggunakan metode Stepwise atai
Forward, R2 dari masing-masing variabel prediktor yang berpengaruh dapat
dilihat dari nilai R2 change.
MODUL 5
ANALISIS STRATIFIKASI DAN REGRESI LOGISTIK
Tujuan
Mahasiswa diharapkan dapat menggunakan STATA sebagai alat bantu analisis
stratifikasi pada berbagai penelitian kesehatan dan dapat memberikan interpretasi
berbagai output analisis stratifikasi.
5.1.2 Konsep Analisis Startifikasi
ai × d i
ORMH =
∑ (w × OR ) = ∑ n
i i i
∑w b ×c i i
∑ n
i
χ2 =
(∑ O − E ) ai ai
MH
∑V i
a. Kategori paparan rendah atau tidak terpapar dari suatu variabel bebas
harus diberikan kode 0. Kategori ini akan dilabel sebagai kategori “tidak
terpapar/paparan rendah”
b. Kategori paparan yang lebih tinggi atau terpapar dari suatu variabel
bebas harus diberikan kode 1. Kategori ini akan dilabel sebagai kategori
“terpapar/paparan tinggi”.
5. Data alcohol direcode dari 1,2,3,4 (rendah ke tinggi). Untuk tujuan latihan, kita
akan collapse menjadi binary variabel 0 (kategori awal 1, rendah) dan 1
(kategori awal 2,3,4 è tinggi).
8. Interpretasi :
a. Crude OR itu adalah OR untuk oesophageal cancer dengan konsumsi
alcohol. Interpretasinya adalah minum minuman keras 5.85 kali
berpeluang untuk menderita kanker oesophageal.
b. M-H combined itu adalah OR untuk esophageal cancer dengan
konsumsi alcohol, yang sudah dikontrol dengan aktivitas merokok.
Interpretasinya minum minuman keras 5.3 kali meningkatkan odd
menderita kanker oesophageal setelah dikontrol oleh aktivitas
merokok.
e. Jadi untuk kasus diatas ada effect modifikasi (interaksi) dan ada
fenomena yang menarik dari kasus ini, oleh karena tidak bisa
sesederhana itu kita mengontrol/adjust untuk variabel merokok.
5.2 REGRESI LOGISTIK
5.2.1 Pendahuluan
Berdasarkan skala pengukuran, variabel dibedakan menjadi variabel nominal,
ordinal, interval dan ratio. Variabel nominal adalah variabel yang hasil pengukurannya
atau unit nilai pengukurannya tidak memiliki rentang ukuran yang tetap dan hasil
pengukurannya tidak dapat diurut. Misalnya jenis kelamin, pekerjaan, dan lainnya.
Variabel nominal dibedakan menjadi variabel nominal binary dengan hanya dua
kategori dan multinomial dengan lebih dari dua kategori. Variabel skala ordinal juga
tidak memilki interval yang tetap, akan tetapi hasil pengkurannya dapat diurut.
Misalnya status gizi baliti dengan kategori hasil pengkurannya terdiri dari gizi lebih, gizi
baik, gizi kurang, dan gizi bukur. Variabel interval memiliki unit ukuran yanh memilki
ienterval tetap dan juga dapat diurut, akan tetapi tidak mempunyai nilai nol absolut.
Misalnya suhu udara dalam derajat Celcius dimana nilainya bisa –10o C. Variabel ratio
sama dengan variabel interval, tetapi dia memiliki nilai nol absolut artinga hasil
pengukuran dari variabel tersebut tidak ada kemungkinan nilainya < nol. Misalnya
tinggi badan, berat badan, gula darah, dsbnya.
Dalam penelitian kesehatan atau kedokteran, outcome variabel yang sering
diteliti merupakan variabel dengan dua kategori atau disebut binary outcome. Misalnya
pada penelitian faktor risiko penyakit jantung koroner (PJK), yang menjadi variabel
outcome (tergantung) adalah PJK dengan dua kategori, yaitu menderita PJK dan
bukan PJK. Pada contoh penelitian lain, diteliti pemberian ASI ekslusif terhadap risiko
diare, dimana variabel outcome-nya adalah diare dengan dua kategori yaitu: diare dan
tidak diare.
Pada umumnya masalah di bidang kesehatan/kedokteran sifatnya komplek dan
jarang terjadinya satu kejadian yang disebabkan oleh satu faktor tunggal. Sebagai
contoh, misalnya penyakit jantung koroner (PJK) disebabkan oleh banyak faktor
seperti faktor fisik, perilaku, lingkungan, dan akses terhadap pelayaan. Untuk
mempelajari hubungan satu masalah dengan berbagai faktor yang terkait tidak bisa
lagi dianalisis secara bivariate saja. Metode analisis mulivariate atau multivariabel
merupakan metode analisis yang memungkinkan kita mempelajari hubungan beberapa
variabel bebas dengan satu variabel tergantung. Misalnya pada penelitian faktor risiko
PJK, faktor determinan kematian bayi, dan lainnya. Metode analisis multivariate
dibedakan menurut jenis variabel outcomenya seperti pada matrik di bawah ini.
Nominal Penyebab Chi-square Multinomial Logistic
kematian, lokasi Regression
kanker
Tujuan
Mahasiswa diharapkan dapat menggunakan STATA sebagai alat bantu analisis binary
outcome salah satunya dengan menggunakan analisis regresi logistik pada berbagai
penelitian kesehatan dan dapat memberikan interpretasi berbagai output analisis
regresi logistik.
Pokok Bahasan
Sehubungan dengan kegunaan tersebut, pada modul ini akan dibahas tentang:
• Indikasi
• Model
• Metode seleksi variabel prediktor
• Perhitungan Odd Ratio (OR)
• Uji Hipotesis Odd Ratio
• Prosedur STATA
• Interpretasi hasil
5.2.2 Indikasi
Regresi logistik adalah salah satu metode analisis multivariate untuk
menganalisis hubungan satu variabel binary outcome dengan satu atau lebih variabel
bebas dengan skala pengukuran nominal, ordinal atau interval dimana parameter yang
dipakai menilai hubungan tersebut adalah Odd Ratio (OR). Metode ini banyak dipakai
menganalisis faktor risiko suatu penyakit, misalnya faktor risiko penyakit jantung
koroner, faktor risiko penyakit diabetes militus type 2, dll. Metode ini banyak dipakai
pada penelitian faktor risiko dengan rancangan case-control dimana pada rancangan
ini angka insiden tidak memungkinkan untuk didapatkan. Metode ini juga dipakai untuk
menganalisis faktor risiko pada penelitian dengan rancangan cross-sectional dimana
pada rancangan ini juga tidak dimungkinkan untuk mendapatkan angka insiden.
5.2.3 Model
Pada regresi logistik, binary outcome variabel ditranformasi dengan
menggunakan logit, sehingga hubungan antara variabel outcome (Y) dengan variabel
tergantung (Xi) dapat dinyatakan dalam model persamaan regresi sbb:
Diketahui bahwa:
Logit (Py=1) = log(P/(1-P)) dan
P/(1-P) = Odd
Log Odd = a + biXi atau dapat juga ditulis sbb Odd = exp (a + biXi)
1. Metode Enter
Bila metode seleksi yang dipakai adalah metode Enter, maka akan terdapat satu
model saja yang berisikan semua variabel prediktor. Bila variabel prediktornya
adalah X1, X2, dan X3, maka model regresi logistik dari variabel tersebut adalah:
Pada metode enter hanya dterdapat satu nilai koefsiien determinanasi (R2) yang
menyatakan besar pengaruh semua variabel prediktor yang ada di dalam model
terhadap variabel outcome. Misalnya dari analisis didapatkan nilai R2 = 0,30,
berarti semua variabel prediktor mempunyai pengaruh sebesar 30% terhadap nilai
variabel outcome. Apabila terdapat lebih dari satu variabel prediktor, maka kita
tidak bisa menentukan berapa pengaruh dari masing-masing variebel prediktor
terhadap variabel outcomenya.
2. Metode Forward
Pada metode Forward, variabel prediktor akan dipilih satu persatu secara
berjenjang (stepwise) mulai dari variabel prediktor yang nilai p dari hubungannya
terhadap outcome variabel paling kuat dan selanjutnya disusul oleh variabel yang
nilai pnya di bawah variabel yang terpilih sebelumnya, sampai semua variabel
yang memenuhi ktiteria terpilih masuk ke model. Kriteria terpilih disebut nilai p
enter yang umumnya besarnya 0,1 yang artinya variabel yang bisa dipilih adalah
variabel prediktor yang mempunyai hubungan dengan variabel outcome dengan
nilai p ≤ 0,1 saja yang akan dianalisis, sedangkan variabel prediktor yang lain
tidak. Banyak peneliti menggunakan nilai P(enter) sebesar 0,2. Bila menggunakan
nilai p enter 0,2, maka hanya variabel prediktor yang mempunyai hubungan
dengan variabel outcome dengan nilai p ≤ 0,2 saja yang akan dianalisis,
sedangkan variabel prediktor yang lain tidak.
Misalnya dari analisis bivarite hubungan ketiga variabe tersebut dengan variabel
outcome memiliki nilai p untuk X1 adalah 0,01, X2 adalah 0,001 dan X3 adalah
0,25 dan nilai p(enter) = 0,2, maka proses seleksinya adalah sbb:
Step 1: Odd = exp (a + b2X2)
Step 2: Odd = exp (a + b2X2 + b1X1)
Model terakhir menjadi: Odd = exp (a + b2X2 + b1X1), dimana X3 tidak dipilih
karena nilai p > 0,2.
Pada metode seleksi Forward, nilai R2 dari setiap step dihitung, sehingga dari nilai
R2 tersebut dapat dihitung R2 dari masing-masing variabel.
3. Metode Backward
Metode Backward adalah kebalikan dari metode forward, dimana pada tahap
pertama, semua variabel prediktor dimasukkan ke model, kemudian akan dipilih
satu persatu secara bertingkat untuk dikeluarkan dari model bila variabel tersebut
mempunyai hubungan dengan nilai p yang lebih besar dari kriteria dikeluarkan.
Variabel prediktor yang pertama dipilih untuk dikeluarkan dari model adalah
variabel prediktor yang memiliki nilai p pada analisis bivariate paling besar dan
disusul oleh variabel dengan nilai p yang lebih kecil sampai semua variabel yang
mempunyai nilai p lebih besar dari kriteria removed dikeluarkan dari model.
Kriteria dikeluarkan biasanya ditentukan besarnya 0,1 atau 0,2.
Misalnya dari analisis bivariate dengan variabel outcome, ketiga variabe tersebut
memiliki nilai p untuk X1 adalah 0,01, X2 adalah 0,001 dan X3 adalah 0,25 dan
nilai p(enter) = 0,2, maka proses seleksinya adalah sbb:
Step 1: Odd = exp(a + b1X1 + b2X2 + b3X3)
Step 2: Odd = exp(a + b1X1 + b2X2)
Model terakhir menjadi: Odd = exp (a + b1X1 + b2X2), dimana X3 keluar dari
model karena nilai p > 0,2.
Metode seleksi backward tidak dapat memberikan nilai R2 dari masing-masing
variabel yang ada di dalam model.
Odd(X=1) Exp(a + bX1 + b2X2 + b3X3) Exp(a + b1)
OR = ------------- = ----------------------------------------- = ----------------- = Exp b1
Odd(X=0) Exp(a + bX1 + b2X2 + b3X3) Exp(a)
Jadi penentuan besarnya nilai OR dari variabel prediktor Xi adalah sama dengan
Exponentian dari bi. Nilai OR tersebut disebut adjusted OR.
Nilai OR dari satu variabel prediktor yang dihitung dengan model regresi
logistik adalah nilai OR dimana efek variabel lainnya dikendalikan. Oleh karena itu,
nilai OR tersebut merupakan Adjusted OR. Berbeda dengan nilai OR yang dihitung
dengan metode bivariate, dimana efek dari variabel lainnya tidak dikendalaikan. Oleh
karena itu, nilai OR yang dihitung secara bivariate disebut unadjusted OR.
Uji Statistik
Untuk menguji apakah Ho diterima atau ditolak, maka Ho tersebut harus diuji
kebenarannya dengan menggunakan data emperis yang dikumpulkan dari sampel.
Parameter yang diuji adalah koefisien regresi “b” dengan uji Wald.
Kesimpulan
1. Menggunakan nilai p
Nilai signifikansi dari uji Wald akan dipakai dasar pengambilan keputusan
dalam uji hipotesis tentang OR. Ho diterima atau tidak terdapat perbedaan risk
antara kelompok terpapar dengan kelompok tidak terpapar bila nilai p dari
statistik Wald > α (tingkat kemaknaan). Sebaiknya Ho ditolak atau terdapat
perbedaan risk antara kelompok terpapar dengan kelompok tidak terpapar
apabila nilai p ≤ α. Apabila Ho ditolak, perlu dilihat apakah nilai OR > 1 atau
nilai OR < 1. Bila nilai OR > 1 dan nilai p ≤ α, berarti faktor tersebut
meningkatkan risiko. Sebaliknya, bila nilai OR < 1 dan nilai p ≤ α, berarti faktor
tersebut menurunkan risiko atau faktor tersebut memberikan efek pencegahan.
2. Menggunakan nilai CI
Kesimpulan hasil uji hipotesis juga dapat dibuat dengan menggunakan CI dari
OR. Ho diterima bila angka “1” berada di dalam rentangan nilai CI, mialnya CI
95% OR adalah 0,15 - 10,5. Sebaliknya, Ho ditolak bila angka “1” berada di
luar rentang nilai CI, misalnya CI 95% OR adalah 2,5 – 7,5.
Click “Open”, maka file data dibuka sehingga di layar akan tampak variabel
yang terdapat pada file seperti gambar berikut.
Maka akan tampak sbb:
Click “OK” untuk menjalankan prosedur, maka akan tampak output sbb:
6. Goodness of Fit
Click Menu: Statistics > Binary outcome > Postestimation > Goodness of Fit,
seperti gambar berikut.
Selanjutnya akan tampak sbb:
. estat gof, all
Command: logistic
Syntax : logistic <outcome> <exposure> <confounding>
Cara:
Ketik: logistic CHD obase sex klp_umur, pada kotak Command, maka hasilnya
adalah sbb:
Hasil:
OR(adjusted odd ratio) obase adalah 3,288 (CI 95%: 1,670 – 6,472)
Catatan:
1. Pada Logistic Regresi risk ratio ditetukan dengan OR
2. Nilai OR akan selalu lebih besar dari PR bila PR > 1 dan akan lebih kecil bila
PR < 1.
3. Nilai OR sulit diiterpretasi dibandingan PR untuk penelitian cross-sectional
MODUL 6
REGRESI POISSON DAN REGRESI COX
6.1 Pendahuluan
Regresi Poisson dipakai menganalisis rate ratio yaitu untuk mempekirakan rate
ratio antara kelompok terpapar dengan kelompok tidak terpapar. Kegunaan regresi
Poisson sama dengan regresi Cox yaitu dipakai untuk menganalis hubungan atau efek
beberapa variabel bebas kontinyus (interval) atau kategorikal terhadap rate suatu
kejadian. Akan tetapi berbeda halnya dengan Regresi Logistik yang dipakai untuk
memperkirakan Odd Ratio antara kelompok terpapar dengan kelompok kontrol.
Metode regresi poisson banyak dipakai menganalisis data penelitian longitudinal,
dimana pada penelitian tersebut dimungkinkan peneliti mengukur waktu terjadinya
kejadian yang diteliti, sehingga rate dapat dihitung.
6.2 Model
Pola umum dari model Regresi Poisson adalah mirip dengan model regresi
logistik dan model regresi linear berganda. Pada model regresi linear
memformulasikan hubungan antara satu variabel tergatung kontinyu Y dengan
beberapa variabel bebas/prediktor Xi yang berskala interval. Model regresi Poisson
memformulasikan hubungan antara beberapa variabel bebas kategorikal atau
konyinyu dengan Log (rate) terjadinya kejadian Y (binary). Sehingga model umum dari
regresi Poisson adalah:
Log (rate) = β0 + β1X1 + β2X2 + β3X3 + .....+ βkXk
Keterangan:
β0 = log (rate) kelompok kontrol (unexposed) atau baseline group
βi = log (rate ratio) adalah rate rasio antara kelompok exposed dengan nonexposed
dari varaiabel prediktor ke i.
Xi = variabel prediktor ke i.
Rate kelompok kontrol (X1=0) = exp(b0 + b1X1) = Exp(b0), maka:
exp(b0 + b1)
Rate Ratio = ----------------------- = exp(b1)
exp(b0)
Pengitungan Rate Ratio variabel kategori yang memiliki kategori lebih dari dua
Bagaiamana menentukan rate ratio variabel merokok terhadap kejadian CHD
dimana variabel prediktor merokok mempuntai 3 kategori, yaitu: 1 = merokok
berat, 2 = merokok ringan, dan 3 = tidak merokok (baseline). Penghitungan rate
ratio dari setiap kategori paparan dilakukan dengan membuat rate ratio setiap
kategori dengan baseline. Yang dijadikan baseline adalah rate kelompok kontrol,
maka untuk menentukan rate ratio merokok berat dilakukan dengan
membandingkan rate merokok berat dengan rate tanpa merokok. Penghitungan
rate ratio merokok sedang dilakukan dengan membandingkan rate merokok
sedang dengan rate tanpa merokok. Pada semua paket statistik terdapat
prosedur untuk penentuan rate-ratio variabel karegori yang memiliki lebih dari 2
kategori dan akan diminta kategori yang akan dijadikan refrence atau baseline.
2. Menentukan variabel independent
Clik tanda pada bagian belakang kotak “Dependent variabel”, lalu click
CHD, maka variabel CHD akan berada pada kotak “Dependent variable” sepeti
gambar di bawah ini.
4. Menentukan Exposure variable
Clik tanda pada bagian belakang kotak “Exposure variabel”, lalu click time,
maka variabel time akan berada pada kotak “Exposure variable” sepeti gambar
di bawah ini.
6. Jalankan prosedur
Clik “OK”, maka akan tampak output sbb:
Pilih Pearson goodness-of-fit test (Gof) seperti di bawah ini.
. estat gof
Prosedur regresi poisson pada program Stata dapat dijalanka dengan mengetik
command untuk regresi poisson dan juga dapat dijalankan dengan menggunakan
menu.
Syntax
command “poisson” diketik paling depan, diikuti dengan mengetik nama variabel
tergantung, dikuiti dengan semua nama variabel bebas kemudian ketik tanda
koma “,” dan ketik option.
option
exposure (time) à time variabel waktu pengamatan
level (99) à tingkat kepercayaan 99% atau 95%
irr à Incidence Rate Ratio
Contoh Kasus:
Variabel tergantung : chd
Exposure : time
Prediktor : obase (1=obse, 0=non obase)
hiperkolesterolemi (1=hyperkolesterol, 0=normal)
sex (1=laki. 0=perempuan)
age (interval)
Command Stata :
Poisson chd obase hiperkolesterolemi sex age, exposure (time) level (95) irr
Hasil analisisnya adalah sbb:
Interpretasi hasil :
Hasil ini menunjukan bahwa terdapat pengaruh variabel prediktor terhadap
kejadian CHD
Pseudo R2 = 0,1035
R2 dari ke lima prediktor terhadap CHD sebesar 10,35%, berarti variasi rate
CHD hanya 10,35% ditentukan oleh kelima prediktor tersebut. Berarti 89% rate
CHD ditentukan oleh faktor lain selain ke lima prediktor yang dianalisis.
Syntak
poisgof
Catatan:
Command “poisgof” dapat dieksekusi bila command regresi poisson (“poisson”)
sudah dijalankan.
Contoh:
. poisgof
Interpretasi Hasil
Goodness of Fit Chi-square = 117,707 dengan nilai p = 1,0. Hasil ini menjunjukan
bahwa data fit dengan model regresi poisson karena p > 0,05.
6.5 Prosedur STATA untuk regresi COX
Langkah 1:
Membuat memory variable time (person-years) dan status end point 1=end point
dan 0 = censored
Command: stset
Syntax : stset <time>, failure (outcome)
Bila akan dinalisis hubungan antara obase dengan CHD dimana CHD = 1 adalah
status end point dan CHD = 0 adalah censored dan time adalah waktu
pengamatan, maka command untuk pembuatan variabel memory adalaah:
Langkah 2:
Membuat prosedur regresi cox
Command: stcox
syntax : stcox <var1> <var2> <var3> , noshow nolog
dimana: var1, var2, var3 adalah variabel prediktor.
Contoh:
Bila akan dianalisis hubungan antara obase, sex dengan CHD, maka command
Cox regression adalah:
DAFTAR PUSTAKA
Barros AJD, Hirakata VN. 2003. Alternatives for logistic regression in cross-
sectional studies: an emperical comparasion of models that directly
estimate the prevalence ratio, BMC Medical Research Methodology.
Available from: http://www.biomedicalcentral.com/[471-2288/3/21]
Coutinho MS, Scazufca M, Menezez PR. 2008. Methods for estimating prevalence
ratio in cross-sectional studies, Rev Saude Publica; 42 (6).
Hamilton L.C. 2009. Statistic with Stata, Versi 10. Brooks/Cole, Canada.
Kirkwood B.R, Stern J.A.C. 2000. Medical Statistics, Snd Edition, Blackwell,
Melbourne.
Lee J, Tan CS, Chia KS. A Practical Guide for Multivariate Analysis of
Dichotomous Outcomes. Ann Acad Med Singapore 2009; 38:714-9
Nurminen M. 1995. To use or not to use the odd ratio in epidemiologic studies?,
European Journal of Epidemiology 1995; 11: 365-371.
Reichenheim ME, Coutinho ESF. 2010. Measures and models for causal inference
in cross-sectional studies: arguments for the appropiateness of the
prevalence odds ratio and related logistic regression. Available from:
http://www.biomedicalcentral.com/[471-2288/10/66]
StataCorp. 2013. Stata Glossary and Index: Release 13. Statistical Software.
College Station, TX: StataCorp LP.
Thompson M.L, Myers J.E, Kribel D. 1998. Prevalence odd ratio or prevalence
ratio in the analysiss of cross sectional data: what is to be done?, Occup
Environ Med 1998; 55: 272-277.