Adoc - Pub Biostatistika Dan Epidemiologi Mms 4411
Adoc - Pub Biostatistika Dan Epidemiologi Mms 4411
Disusun oleh:
Dr. Danardono, MPH.
1 Pendahuluan 2
1.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Biostatistika dan Epidemiologi . . . . . . . . . . . . . . . . . . . 2
1.3 Profesi Biostatistisi dan Epidemiolog . . . . . . . . . . . . . . . . 3
1.4 Metode dan Proses Pembelajaran . . . . . . . . . . . . . . . . . . 3
1.5 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Desain Penelitian 5
2.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 5
2.3 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Penelitian Cross-sectional dan Longitudinal . . . . . . . . . . . . 7
2.5 Penelitian Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 8
2.6 Penelitian Case-control . . . . . . . . . . . . . . . . . . . . . . . 8
2.7 Penelitian Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8 Model Statistik dan Kausalitas . . . . . . . . . . . . . . . . . . . 9
2.9 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10
ii
Daftar Isi iii
6 Uji Diagnostik 58
6.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . . . . . . . . . . . 58
6.3 Kurva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
9 Konsultasi Statistika 91
9.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 91
9.2 Konsultan Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi . 92
9.4 Ringkasan Metode dan Topik Lanjut . . . . . . . . . . . . . . . . 94
9.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1
Pendahuluan
2
1.3. Profesi Biostatistisi dan Epidemiolog 3
1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yang
mudah diakses (misalnya handbook suatu program studi) baik yang berba-
hasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah terse-
but tersebut atau dapatkan hardcopy/softcopy dari handbook suatu program
studi, kemudian tuliskan materi atau kompetensi yang diajarkan serta meto-
de pembelajarannya.
1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengam-
bil matakuliah ini. Berilah satu contoh analisis data terkait penelitian di
bidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing me-
tode yang telah saudara pelajari tersebut.
1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan atau
alumnus program studi Statistika (dari perguruan tinggi manapun di Indone-
sia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologi
atau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atau
epidemiolog.
2
Desain Penelitian
5
2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 6
A B
Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian popu-
lasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B:
pengambilan informasi dari sampel.
dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel peneli-
tian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang
akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakter-
istik atau informasi yang ingin diperoleh dari unit tersebut.
Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyam-
pelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang repre-
sentatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota pop-
ulasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random.
Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan
pengambilan sampel random. Namun, pengambilan random menjamin obyek-
tivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun
berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengam-
bilan sampel random yang pada hakekatnya bertujuan untuk mengatasi hetero-
genitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster,
sistematik, dan lainnya.
Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi
dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B
pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan penguku-
ran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan
dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan
pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen
utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat
dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenis-
jenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah
bagian ini.
servasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan de-
ngan satu pengukuran atau observasi untuk satu unit.
• Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba
pertama obat pada manusia setelah sukses dengan uji coba pada binatang
2.8. Model Statistik dan Kausalitas 9
• Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus
kepada keamanannya
• Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum
didaftarkan pada pihak yang berwenang
E(Y | X) = β0 + β1 X (2.1)
observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka mo-
del ini kurang kuat untuk menjelaskan kausalitas X terhadap Y . Namun bila x
diperoleh dengan kaidah desain eksperimental maka model dapat digunakan un-
tuk menjelaskan hubungan kausal
Dalam penelitian epidemiologi dikenal prinsip-prinsip untuk mendapatkan
bukti adanya kausalitas yang dikenal sebagai Hill’s Criteria for Causality
(Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut:
1. Hubungan (association) yang kuat antara X (variabel independen,faktor re-
siko atau paparan) dengan Y (variabel dependen, respon atau outcome).
2. Hubungan yang diperoleh harus spesifik dalam arti suatu faktor atau pa-
paran hanya berhubungan dengan satu jenis penyakit saja.
3. Paparan atau faktor (X) harus mendahului respon (Y ), atau sebab harus
mendahului akibat.
4. Harus ada penjelasan secara biologis mengapa suatu paparan atau faktor
resiko menyebabkan suatu penyakit.
5. Harus dapat ditunjukkan adanya dose-response effect atau biologic gradient
yaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinya
penyakit
6. Terkait kriteria 5, jika paparan dihilangkan, penyakit juga seharusnya tidak
muncul
7. Adanya konsistensi hasil atau kesimpulan yang diperoleh dari beberapa stu-
di.
waktu T
2.9. Latihan dan Tugas 12
Untuk meneliti fenomena tersebut di atas desain yang paling tepat adalah:
a. longitudinal b. cross-sectional c. multiple cross-sectional d. survival
2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakah
wanita yang minum pil kontrasepsi akan mengalami menopause (tidak
mengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkan
wanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompok
wanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 mereka
sudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan di
sebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidak
diambil sebagai subyek karena alasan tidak dapat dihubungi, menolak
sebagai subyek, belum menopause dan alasan kesehatan. Diperoleh data
sebagai berikut:
Umur saat menopause (tahun)
n Mean SD
minum pil 12 47,2 2,1
tdk. minum 19 47,5 2,1
(a) Apa desain studi ini? Jelaskan!
(b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan!
2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang program
atau aktivitas yang dapat menghentikan kebiasaan merokok.
(a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menu-
rut saudara.
2.9. Latihan dan Tugas 13
6
5
4
DMFT
3
2
1
10 20 30 40 50 60
Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula
(b) Apa variabel independen atau paparan (exposure) utama penelitian ter-
sebut?
(c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas?
Jelaskan!
(d) Bagaimana seharusnya saudara memilih subyek dan mengukur
(mengambil informasi) dari mereka sehingga tidak terjadi bias?
2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jan-
tung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’. Jawa-
2.9. Latihan dan Tugas 14
ban diklasifikasikan untuk setiap responden sebagai prokok dan bukan pe-
rokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angi-
na atau tidak. Setelah data dianalisis, tidak diperoleh hubungan antara
merokok dengan pernah tidaknya mengalami angina.
(a) Dari banyak studi yang telah dilakukan sebelumnya dapat ditunjukkan
adanya bukti bahwa resiko mendapatkan angina meningkat seiring
dengan naiknya konsumsi rokok seseorang. Jelaskan apa saja yang
mungkin menyebabkan studi di atas gagal menunjukkan hubungan an-
tara angina dengan merokok?
(b) Apa alternatif desain studi yang lebih tepat? Jelaskan!
15
3.2. Prevalensi dan insidensi 16
well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog
adalah ”ada” atau ”tidak ada” penyakit 1 .
Statistik atau ukuran paling dasar yang sering digunakan untuk melihat be-
sarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau fre-
kuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung
pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergan-
tung pada besar populasi dan lama periode pengamatan yang banyak digunakan
adalah prevalensi (prevalence) dan insidensi (incidence)
Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau
menderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskan
sebagai:
d
P = , (3.1)
N
dengan P adalah prevalensi; d adalah banyaknya subyek yang mengalami kejadi-
an tertentu atau menderita penyakit tertentu pada suatu waktu tertentu; N adalah
banyaknya subyek pada suatu waktu tersebut.
Insidensi adalah banyaknya subyek yang mengalami kejadian baru atau men-
dapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insi-
densi yang sering dipakai adalah insidensi kumulatif IK dan tingkat insidensi
(incidence rate)I.
IK dirumuskan sebagai:
d
IK = , (3.2)
N0
dengan IK adalah insidensi kumulatif; d adalah banyaknya subyek yang mengala-
mi kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu
tertentu; N0 adalah banyaknya subyek yang belum mengalami kejadian tertentu
atau menderita penyakit tertentu pada awal interval waktu tersebut.
Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu ba-
nyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu.
Insidensi (Incidence rate) dirumuskan sebagai:
d
I= , (3.3)
NT
dengan I adalah insidensi; d adalah banyaknya subyek yang mengalami kejadian
tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N T
1
Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah
pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan
quality of life, dan seterusnya.
3.2. Prevalensi dan insidensi 17
adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderi-
ta penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai
person-time atau risk-time)
Istilah lain yang sering digunakan untuk insidensi adalah person-time inci-
dence rate, instantaneous incidence rate, force of morbidity, incidence-density,
hazard).
Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan
langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan
perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak di-
anjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk
menunjukkan besarnya masalah kesehatan.
Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat
ditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubah
menurut waktu.
S
π
1−π G
Gambar 3.2: Model Bernoulli.
• tiap usaha (trial) menghasilkan satu dari dua hasil yang mungkin, dina-
makan sukses (S) dan gagal (G);
P (X = x; π) = π x (1 − π)1−x , (3.5)
(i) π = 0,1:
(ii) π = 0,5
0.0012
0.0008
Likelihood
0.0004
L(0.5)
0.0000
L(0.1)
Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan π = 0,1
dan π = 0,5.
Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripada π = 0,1 sehingga dapat
disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5
daripada π = 0,1 (Lihat Gambar 3.3).
Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4).
Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal
dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum Like-
lihood.
Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu in-
terval konfidensi (confidence interval), menurut teori frequentist; supported range
untuk parameter berdasarkan likelihood ratio menurut teori likelihood; dan cred-
ible interval menurut teori Bayesian (Clayton and Hills, 1993). Metode yang
paling sering digunakan dan diterima di komunitas peneliti di bidang epidemio-
logi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral.
Dalam perkembangannya kedua metode yang lain mulai berkembang dan menda-
patkan perhatian.
3.2. Prevalensi dan insidensi 20
0.0012
0.00119
0.0008
Likelihood
0.0004
0.0000
Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada
π = 0,4.
M
π1
M
π2
1− M
π1
H π3
1−
π2
H
1−
π3
H
1 3 5
Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, de-
ngan sukses M (mati) dan gagal H (hidup).
meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada
akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pa-
da akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehing-
ga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas
meninggal pada akhir tahun ketiga, 0,7 × 0,8 × 0,1= 0,056.
Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional
(untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of
mortality)
P (t ≤ T < t + h | T ≥ t)
λ = lim (3.6)
h→0 h
Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan men-
ganggap bahwa probabilitas sukses adalah λh dengan h kecil,
M
0,3
M
0,2
0,7 M
H 0,1
0,8
H
0,9
H
1 3 5
Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghi-
tungan probabilitas bersyarat).
Contoh 3.2
Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (person-years).
Log-likelihood untuk λ
Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar
3.7)
−37.5
log likelihood
−38.5
−39.5
λ
Gambar 3.7: Log-likelihood untuk λ dan nilai maksimumnya
3.3. Faktor Resiko 23
Contoh 3.3
Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris pada
tahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikate-
gorikan menurut umur dan status merokok (Tabel 3.1).
Tabel 3.1: Kematian akibat jantung koroner menurut umur dan status merokok
Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitung menggu-
nakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah
32 + 104 + 206 + . . . + 31
λ̂ =
52407 + 43248 + 28612 + . . . + 1462
731
= = 0,004
181467
karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agak
besar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang.
Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Mi-
salnya insidensi dalam kelompok perokok adalah
32 + 104 + 206 + 186 + 102
λ̂1 =
52407 + 43248 + 28612 + 12663 + 5317
630
= = 4,43 per 1000 orang,
142247
dan untuk kelompok bukan perokok λ̂0 =101/39220= 2,58 per 1000 orang. Kematian
dalam kelompok perokok terlihat lebih tinggi.
ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain
penelitian yang digunakan.
Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko di-
antaranya:
• Selisih resiko (risk difference)
• Rasio resiko (risk ratio)
• Odds ratio
Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2
untuk subyek yang tidak terpapar. Sebagai contoh, π1 adalah probabilitas subyek
terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas
subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko,
rasio resiko dan odds ratio akan dijelaskan berdasarkan π1 dan π2 di atas.
Selisih resiko didefinisikan sebagai
RD = π1 − π2 . (3.10)
RR = π1 /π2 . (3.11)
Estimasi titik untuk RD, RR dan OR dapat diperoleh dengan mengganti π1 dan
π2 pada persamaan (3.10), (3.11) dan (3.13) dengan π̂1 dan π̂2 .
Selisih resiko RD pada dasarnya adalah selisih dua sampel independen yang
berdistribusi Binomial. Proporsi sampel π̂i mempunyai harga harapan πi dan va-
riansi πi (1 − πi )/Ni , dengan i = 1, 2. Sehingga estimasi titik untuk RD adalah
d = π̂1 − π̂2
RD (3.16)
yang mempunyai galat standar (standard error)
π (1 − π ) π (1 − π ) 1/2
d 1 1 2 2
σ RD = + (3.17)
N1 N2
Interval konfidensi (1 − α)100% untuk RD dapat dihitung dengan menggunakan
pendekatan Normal sebagai berikut:
d d
RD ± Zα/2 σ̂ RD , (3.18)
dengan σ̂ RDd adalah σ RD d namun dengan πi diganti π̂i .
Estimasi titik untuk RR dapat diturunkan dari (3.11), (3.14) dan (3.15) yaitu
d = π̂1
RR
π̂2
d sangat menceng (skewed), sehingga pendekatan Nor-
Distribusi untuk RR
d Galat standar untuk
mal lebih baik jika menggunakan transformasi log dari RR.
d
log RR adalah
1 − π 1 − π2
1/2
d 1
σ log RR = + (3.19)
π 1 N1 π2 N2
Diperoleh interval konfidensi (1 − α)100% untuk log RR
d ± Zα/2 σ log RR
log RR d (3.20)
Karena interval ini pada skala transformasi log, untuk interpretasinya harus
dikembalikan pada skala asal dari RR dengan mengambil eksponensial, baik un-
tuk batas interval bawah maupun atas.
Seperti halnya RR, estimasi titik untuk OR dapat diturunkan dari (3.13),
(3.14) dan (3.15) yaitu
d = π̂1 (1 − π̂2 )
OR
π̂2 (1 − π̂1 )
n11 n22
= , (3.21)
n12 n21
3.4. Inferensi untuk RD, RR dan OR 27
Untuk menghindari masalah bila ada nij = 0 dapat digunakan allternatif untuk
(3.21),
Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompok
orang yang tertekan karena pekerjaan dan yang tidak tertekan adalah
π̂1 = 97/404 = 0,240 dan π̂2 = 200/1609 = 0,124
d dapat dihitung menggunakan π̂1
Estimasi titik untuk RR dan standard error dari log RR
dan π̂2 , yaitu:
d = π̂1 /π̂2
RR d 1 − π1 1 − π2 1/2
σ log RR = +
= 0,240/0,124 π1 N 1 π2 N 2
= 1,932 1 − 0,240 1 − 0,124 1/2
= +
0,240(404) 0,124(1609)
= 0,1105
3.4. Inferensi untuk RD, RR dan OR 28
n o
Batas bawah interval konfidensi 95% adalah exp log(RR) d − 1,96 × σ log RR d =
n o
1,555; dan batas atas interval exp log(RR) d + 1,96 × σ log RR
d = 2,399. Diperoleh
estimasi RR dan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ).
Estimasi titik untuk OR dan σ log OR d :
d = π̂1 /(1 − π̂1 )
OR d 1 1 1 1 1/2
π̂2 /(1 − π̂2 ) σ̂ log OR = + + +
n11 n12 n21 n22
= 0,316/0,142 1/2
1 1 1 1
= 2,225 = + + +
97 307 200 1409
=n 0,1388 o
Batas bawah interval konfidensi 95% adalah exp log(OR) d − 1,96 × σ log OR d =
n o
1,696; dan batas atas interval exp log(OR) d + 1,96 × σ log OR
d = 2,922. Diperoleh
estimasi OR dan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ).
Estimasi titik untuk RD adalah
d = π̂1 − π̂2
RD d π1 (1 − π1 ) π2 (1 − π2 ) 1/2
σ RD = +
= 0,240 − 0,124 N1 N2
= 0,0228
= 0,116
d = 0,071; dan batas atas
Batas bawah interval konfidensi 95% (π̂1 − π̂2 ) − 1,96 × σ RD
d = 0,161. Diperoleh estimasi RD dan interval
intervalnya (π̂1 − π̂2 ) + 1,96 × σ RD
konfidensinya adalah : 0,116 (0,071 — 0,161 ).
g = φ̂1 (1 − φ̂2 )
OR
φ̂2 (1 − φ̂1 )
n11 n22
= , (3.25)
n12 n21
dengan φ̂1 = n11 /M1 dan φ̂2 = n12 /M2 . Ternyata ORg = OR, d yang implikasinya
adalah OR dapat diestimasi untuk desain Case-Control.
Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan valid
hanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studi
prevalensi. Meskipun RD, RR dan OR dapat dihitung dari data yang diperoleh
dari studi cross-sectional, kesimpulan atau interpretasi yang diperoleh kemung-
kinan akan tidak valid.
3.5 Latihan
3.1. Hitunglah odds S (Sukses) terhadap G (Gagal), dengan sukses misalnya
adalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penya-
kit), bila probabilitas S diketahui adalah:
(a) 0,75 (b) 0,50 (c) 0,25
3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bila
kita tertarik pada parameter π, yaitu probabilitas pasien meninggal, nilai
manakah yang lebih didukung oleh data, π = 0,2 atau π = 0,6? Jelaskan!
Carilah estimator untuk parameter π!
3.4. Diketahui data penderita tuberkulosis (tb) di suatu sekolah sebagai berikut:
3.5. Latihan 30
3.5. Merujuk soal no 2.8 (halaman 12), hitung risk difference, risk ratio dan odds
ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpre-
tasikan hasilnya.
3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa ada
hubungan antara konsumsi teh dan sindroma pra-menstruasi. Satu grup
yang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek peneli-
tian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensi
sindroma pra-menstruasi di antara pelajar adalah 40% dan di antara pekerja
pabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindro-
ma pra-menstruasi?
3.7. Buktikan persamaan (3.21) pada halaman 26 dan (3.25) pada halaman 29!
4
Perancuan dan Interaksi
Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan
4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E,
sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus.
Contoh 4.1
Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat ban-
gun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka
31
4.2. Konsep dan Identifikasi Perancuan 32
E E E
D D D
F F F
Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (vari-
abel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
E E
D D
F F
E E
D D
F F
Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) de-
ngan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
4.2. Konsep dan Identifikasi Perancuan 33
pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh
data seperti pada Tabel 4.1. Rasio resiko dari data ini adalah
79/824
RR = = 2,9
286/8576
Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat meng-
akibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh
data seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain.
Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah
55/106
RR = = 1,04
5/10
24/718
RR = = 1,02
281/8566
untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak
terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya
bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore
dengan kematian.
Contoh 4.2
Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, ter-
lihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurut
confounder, terlihat ada pengaruh faktor resiko terhadap disease.
4.3. Metode Standarisasi dan Mantel-Haenszel 34
D+ D− Total
+
E 240 420 660 π̂1 = 0,3636
E− 200 350 550 π̂2 = 0,3636
RR = π̂1 /π̂2 = 1
Tabel 4.4: Data faktor resiko dengan disease distratifikasi menurut variabel lain
(confounder)
Variabel F = 0:
D+ D− Total
E+ 135 415 550 π̂1 = 0,2455
E− 5 45 50π̂2 = 0,1000
RR = π̂1 /π̂2 = 2,45
Variabel F = 1:
D+ D− Total
E+ 105 5 110 π̂1 = 0,9545
E− 195 305 500 π̂2 = 0,3900
RR = π̂1 /π̂2 = 2,45
Pk ni
i=1 Ni Mi
r = C Pk , (4.1)
i=1 Mi
dengan C suatu konstanta yang digunakan agar bilangan yang diperoleh tidak
terlalu kecil. Biasanya C = 1000, sehingga satuan untuk r adalah banyaknya
kejadian per 1000 orang.
Deviasi standar untuk r adalah
s
C k
X Mi
2
SE(r) = Pk ni (4.2)
i=1 Mi
Ni
i=1
yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu: r±1,96×
SE(r).
4.3.3 Mantel-Haenszel
Untuk data yang distratifikasi menurut variabel perancu, dapat dihitung odds ratio
gabungan dari masing-masing strata. Estimator ini disebut Mantel-Haenszel odds
ratio yang
Pk !
ai di /ni
Ψ̂MH = Pi=1 k
(4.7)
i=1 bi ci /ni
peluang disease
E E
B= B=
−
E
B=
B = E−
A = E− A = E+ A = E− A = E+
(c) interaksi sinergis (d) interaksi antagonis
peluang disease
peluang disease
+
E +
= E
B =
B
B=E
−
B=
E−
A = E− A = E+ A = E− A = E+
Gambar 4.3: Jenis Interaksi untuk Dua Faktor Resiko A dan B
Interval konfidensi 95% untuk Ψ̂MH sendiri dapat dihitung dengan mengambil ni-
lai eksponensial dari masing-masing batas interval tersebut.
4.4 Interaksi
Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadian
penyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda dari
faktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemio-
logi adalah modifikasi efek (effect modification). Bila tidak ada interaksi, seti-
ap faktor resiko akan mempunyai efek yang tetap (homogen) pada tingkat yang
berbeda-beda dari faktor yang lain.
Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkan
ada dua faktor A dan B yang menjadi perhatian dan masing-masing mempunyai
dua tingkat faktor yaitu terpapar (exposed E + ) dan tidak terpapar (non-exposed
E − ).
Bila tidak ada interaksi antara faktor A dan B, peluang terjadinya disease
(efek dari faktor) dari non-exposed ke exposed akan sama tingkat kenaikannya
(Gambar 4.3 (a)). Untuk faktor B tidak terpapar (B = E − ), pengaruh faktor A
akan naik dari ketika A = E − ke A = E + yang mana tingkat kenaikannya sama
4.4. Interaksi 38
dengan ORAB , ORA dan ORB didefinisikan dan diinterpretasikan serupa seperti
RR di atas. Misalnya ORA = [π10 /(1 − π10 )]/[π00 /(1 − π00 )] adalah odds ra-
tio antara odds mendapatkan penyakit jika terpapar oleh A dan tidak terpapar B,
dengan odds mendapatkan penyakit jika tidak terpapar oleh A maupun B.
Interaksi dapat pula terjadi pada skala aditif (interaction on additive scale)
dengan menggunakan RD (Tabel 4.7 (d)). Dengan cara ini, faktor A dan B
dikatakan tidak ada interaksi bila
yaitu selisih resiko antara paparan bersama A dan B sama dengan total selisih
resiko antara masing-masing faktor.
Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan model-
model regresi yang akan dibahas pada Bab-Bab selanjutnya.
4.5 Latihan
1. Diberikan tabel 2 × 2 seperti di bawah yang diperoleh dari studi prospektif
dengan variabel paparan E dan variabel penyakit D.
4.5. Latihan 40
D+ D−
E+ 205 76
E− 65 116
2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel status
merokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh da-
ta resiko relatif (RR) untuk kombinasi status merokok dan tingkat konsumsi
lemak adalah sebagai berikut:
konsumi status merokok
lemak tidak pernah mantan ringan berat
rendah 1 1.5 2.0 3.0
medium 1.2 1.8 2.4 3.6
tinggi 1.5 2.3 3.0 4.5
sangat tinggi 2.0 3.5 4.0 6.0
Dalam penelitian ini yang dianggap sebagai tingkat paparan yang terendah
adalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak,
dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangat
tinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkat
paparan. Apakah data ini menunjukkan adanya perancuan (confounding)?
Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak de-
ngan merokok kaitannya dalam mengakibatkan penyakit?
5
Model Linear Tergeneralisasi
5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Re-
gresi Logistik dan Regresi Poisson.
41
5.2. Generalisasi Model Linear 42
• Prediktor linear
ηi = x i β = β0 + β1 xi1 + . . . + βp xip
• Fungsi variansi Vi
Fungsi densitas f (y; θ) disebut sebagai Keluarga eksponensial (exponential
family) bila:
f (y; θ) = s(y)t(θ)ea(y)b(θ)
= exp(a(y)b(θ) + c(θ) + d(y))
dengan s(y) = exp(d(y)) dan t(θ) = exp(c(θ)).
• jika a(y) = y, f (y; θ) disebut bentuk standar (canonical, standard form)
• b(θ) sering disebut parameter natural
Beberapa contoh keluarga eksponensial
Distribusi parameter natural c d
Poisson log θ −θ − log y!
µ µ2 1 2 y2
Normal σ 2 − 2σ 2 − 2
log(2πσ ) − 2σ 2
Binomial log( 1−ππ
) n log(1 − π) log ny
Beberapa contoh GLM:
Model Jenis respon Y distribusi fungsi penghubung
Model linear Normal kontinu Normal identitas: g(µ) = µ
µ
Regresi Logistik proporsi binomial logit: g(µ) = log 1−µ
Regresi Poisson cacah Poisson log : g(µ) = log µ
Model Gamma kontinu, positif Gamma log: g(µ) = log µ
Beberapa contoh fungsi penghubung:
• identitas : g(µ) = µ
µ
• logit: g(µ) = log 1−µ
Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk vari-
abel independen atau faktor yang lebih dari satu, fungsi untuk πi dapat diperluas
menjadi
1 eZ
πi = , atau π i = (5.3)
1 + e−Z 1 + eZ
dengan Z = β0 + β1 x1 + β1 x1 + · · · + βp adalah fungsi linear dari p variabel
penjelas.
Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel indepen-
den seperti halnya pada model linear sebagai berikut
πi
log = β0 + β1 x1i + β2 x2i + · · · + βp xpi (5.4)
1 − πi
atau
dengan x1i , x2i , . . . , xpi adalah variabel independen, faktor atau kovariat; dan
β0 , β1 , . . . , βp adalah parameter model.
5.3. Regresi Logistik 44
logit(πi ) = β0 + β1 xi (5.7)
dengan
(
0 i tdk terpapar
xi =
1 i terpapar
dapat dituliskan
πi
log = β0 + β1 xi
1 − πi
πi
= exp [β0 + β1 xi ]
1 − πi
atau
Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik
sederhana adalah OR. Jika variabel X kontinu, kenaikan m-unit untuk satu vari-
abel penjelas X, misalnya X = x + m dibandingkan dengan X = x mempunyai
OR sama dengan exp(mβ1 ).
Estimasi titik dan interval konfidensi (1 − α)100% untuk OR dapat dihitung
asalkan estimasi β̂1 dan standar error-nya σ̂(βˆ1 ) diperoleh.
c = exp(βˆ1 )
OR (5.9)
Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan vari-
abel penjelas bertipe kontinu maupun kategori. Secara umum OR antara individu
atau kelompok yang mempunyai karakteristik x1 dengan individu atau kelompok
yang mempunyai karakteristik x0 adalah sebagai berikut:
odds(πx1 )
OR =
odds(πx0 )
exp(β0 + β1 x11 + β2 x12 + . . . + βp x1p )
=
exp(β0 + β1 x01 + β2 x02 + . . . + βp x0p )
( p )
X
= exp βj (x1j − x0j ) . (5.11)
j=1
Bentuk umum di atas dapat juga digunakan untuk menyusun interval kon-
fidensi suatu model regresi logistik yang memuat interaksi. Dalam Bagian 4.4
telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang
5.3. Regresi Logistik 46
dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terli-
bat dalam model interaksi. Dengan menggunakan model regresi, termasuk model
regresi logistik, masalah tersebut dapat diatasi.
Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X1 , X2 , X3 .
Model yang menjadi perhatian adalah
logit(π) = β0 + β1 X1 + β2 X1 + β3 X3 (5.14)
dengan X1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabel
yang menjadi perhatian, X2 dan X3 dianggap sebagai confounder. Variabel X2
dan X3 dapat bertipe kontinu maupun kategori, misal X2 adalah usia dalam tahun,
dan X3 adalah jenis kelamin dengan X3 = 0 jika perempuan, X3 = 1 jika laki-
laki. Variabel X1 kemungkinan berinteraksi dengan salah satu X2 atau X3 .
Misal ingin dihitung OR antara seorang laki-laki yang terpapar dan berusia 40
tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalam
hal ini nilai x1 = (X11 = 1, X12 = 40, X13 = 1) dan x0 = (X01 = 0, X02 =
40, X03 = 1). Menggunakan (5.11) OR x1 terhadap x0 adalah:
( 3 )
X
OR = exp βj (X1j − X0j )
j=1
= exp {β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 )}
= exp {β1 (1 − 0) + β2 (40 − 40) + β3 (1 − 1)}
= exp {β1 } (5.15)
Meskipun rumusan OR yang diperoleh pada regresi logistik ganda (5.15) sama de-
ngan yang diperoleh pada regresi logistik sederhana (5.8) namun nilainya berbe-
da. Dalam (5.15) nilai OR dikatakan sudah diselaraskan (adjusted, controlled)
dengan variabel X2 dan X3 sedangkan pada (5.8) tidak diselaraskan, perhitungan
hanya dari variabel utama X1 saja. Interval konfidensi 95% dapat menggunakan
standard error untuk log(OR) atau SE(β̂1 ), yaitu exp(log(OR) ± 1,96 × σ̂(β̂1 )).
Misalkan model yang menjadi perhatian sekarang adalah model dengan inter-
aksi
logit(π) = β0 + β1 X1 + β2 X1 + β3 X3 + β4 X1 X2 + β5 X1 X3 . (5.16)
Rumusan OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan
seorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi:
( 3 )
X
OR = exp βj (X1j − X0j )
j=1
= exp{β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 ) +
β4 (X11 X12 − X01 X02 ) + β4 (X11 X13 − X01 X03 )}
5.3. Regresi Logistik 47
Estimasi OR untuk model regresi logistik dengan interaksi ini tidak sama dengan
OR untuk model regresi logistik tanpa interaksi. Estimasi standard error log(OR)
juga berbeda dan lebih rumit.
Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik seder-
hana logit(πi ) = β0 + β1 xi , i = 1, . . . , 2013 (ada 97 + 307 + 200 + 1409 = 2013
subyek dalam studi tersebut). Variabel respon Yi bernilai 1 jika i terkena penyakit jan-
tung koroner, bernilai 0 jika tidak; variabel dependen (faktor) Xi bernilai 1 jika i tertekan
karena pekerjaan, bernilai 0 jika tidak. Estimasi β0 dan β1 dapat dilakukan dengan meng-
gunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimal
menampilkan hasil estimasi β dan standard error nya. Untuk data di atas diperoleh hasil
sebagai berikut:
Untuk menghitung RR antara subyek atau kelompok yang tertekan karena pekerjaan de-
ngan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasi πi dari model
logistik logit(πi ) = −1,952 + 0,800xi .
5.4. Regresi Poisson 48
Resiko atau probabilitas kondisional subyek terkena jantung koroner jika dia tertekan
karena pekerjaan adalah
π̂xi =1 = P (yi = 1 | xi = 1)
= alogit(−1,952 + 0,800xi )
= alogit(−1,952 + 0,800 × 1)
= alogit(−1,152)
= 0,240
distribusi Poisson. Dalam contoh tersebut ada dua komponen yang mencirikan
distribusi Poisson, yaitu banyaknya sukses atau cacah kejadian (events) dan unit
dimana banyaknya sukses tersebut terjadi. Mean µ dari distribusi Poisson adalah
rate banyaknya sukses dibagi total unit.
Regresi Poisson memodelkan mean µ sebagai fungsi dari variabel independen
dan besarnya unit. Regresi Poisson dengan satu variabel independen dituliskan
sebagai berikut:
dengan
(
0 i tdk terpapar
xi =
1 i terpapar
5.4. Regresi Poisson 50
Dapat dihitung rasio antara mean antara unit i yang terpapar dengan yang tidak
terpapar sebagai berikut
E(Yi | Xi = 1)
RR =
E(Yi | Xi = 0)
si exp(β0 + β1 )
=
si exp(β0 )
= eβ1 (5.25)
Seperti model regresi logistik, regresi Poisson dapat diperluas untuk banyak
variabel (regresi Poisson ganda) sebagai berikut:
0,00061061 atau karena bilangan insidensi kecil biasanya dikalikan dengan suatu konstan
besar misalnya 100.000, jadi insidensinya adalah 61,06 kematian per seratus ribu orang.
Dengan cara yang sama dapat dihitung nilai insidensi yang lain seperti pada Tabel 5.1.
Untuk membandingkan insidensi dapat dihitung RR perokok dan bukan perokok dalam
kelompok umur yang sama. Misalnya RR untuk perokok dibanding bukan perokok dalam
kelompok umur 35 − 44 adalah 61,06/10,64 = 5,74. Nilai RR yang lain dapat dilihat
pada Tabel. Plot insidensi menurut status merokok dan usia dapat dilihat pada Gambar
5.1. Dapat dilihat pada Tabel 5.1 dan Gambar 5.1 bahwa tingkat kematian untuk perokok
lebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelom-
pok usia lanjut.
Tabel 5.1: Insidensi dan RR kematian akibat jantung koroner menurut umur
dan status merokok
1500
1000
500
0
kelompok umur
Gambar 5.1: Tingkat kematian akibat penyakit jantung koroner per 100.000
person-years untuk perokok N dan bukan perokok •
5.4. Regresi Poisson 52
Parameter Estimasi β SE
β0 -9,15 0,71
β1 1,75 0,73
β2 2,36 0,76
β3 3,83 0,73
β4 4,62 0,73
β5 5,29 0,73
β6 -0,99 0,79
β7 -1,36 0,76
β8 -1,44 0,76
β9 -1,85 0,76
Untuk menganalisis data ini dapat digunakan beberapa alternatif model regresi Poisson
ganda. Model pertama memuat semua kombinasi tingkat faktor dari status merokok mau-
pun kelompok umur. model ini disebut sebagai saturated model karena banyaknya data
sama dengan banyaknya parameter. Model dibentuk dengan membuat variabel-variabel
boneka (dummy) untuk kelompok umur dengan interaksi variabel-variabel tersebut de-
ngan status merokok. Modelnya adalah sebagai berikut:
dengan
• si : person-years
• x1i xki , h = 2, 3, . . . , 5: interaksi (hasil kali) antara x1i dengan kelompok umur xki
Diperoleh estimasi seperti pada Tabel 5.2. Untuk mengestimasi insidensi untuk tiap-
tiap kombinasi status merokok dan kelompok umur dapat digunakan nilai estimasi
(β0 , . . . , β9 ) dan nilai variabelnya. Misalnya untuk perokok dalam kelompok umur 35
– 44 akan dihitung estimasinya menggunakan model (5.27). Dalam kelompok ini x1 = 1
(perokok), x2 = 0 (kelompok usia 35 – 44) dan interaksinya x1 x2 = 0, nilai variabel
5.4. Regresi Poisson 53
Program statistik standar biasanya menghitung matriks variansi dan kovariansi dari
estimator β selain nilai estimasi β nya sendiri. Diperoleh Var(β̂1 ) = 0,5313,
c = 0,5313 + 0,6242 +
Var(β̂6 ) = 0,6242 dan Kov(β̂1 , β̂6 ) = −0,5313, jadi SE(log RR)
2(−0,5313) = 0,0930. Interval konfidensi 95% untuk RR pada kelompok usia 45 – 54
c ± 1,96SE(log RR))
adalah exp(log RR c atau exp(log(2,14) ± 1,96(0,0930)), yaitu (1,782
c
– 2.566). Cara penghitungan RR dan interval konfidensi nya untuk kelompok usia yang
lain dapat dilakukan dengan cara yang sama.
Contoh 5.4
Alternatif model regresi Poisson (5.27) adalah menganggap kelompok usia sebagai vari-
abel kontinu, misalnya dengan mengambil nilai median interval masing-masing kelom-
pok umur, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya de-
ngan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar
5.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkan
adanya interaksi.
dengan
• si : person-years
• x2i : usia 1, 2, 3, 4, 5 ;
Diperoleh hasil estimasi β dan standard error nya seperti pada Tabel 5.3. Model (5.28)
Parameter Estimasi β SE
β0 -19,700 1,2530
β1 2,364 0,6562
β2 0,356 0,0363
β3 -0,002 0,0003
β4 -0,0308 0,0097
memiliki lebih sedikit parameter dibandingkan model (5.27) dan kecocokan yang lebih
baik dilihat dari nilai AIC (Akaike Information Criterion) yaitu nilai AIC 66,70, lebih
kecil dibanding model (5.27) yaitu 75.07. Namun memberi nilai numerik pada variabel
5.5. Latihan 55
kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dari
interval ke rasio. Apabila umur sebenarnya dari setiap individu diketahui, lebih baik di-
gunakan nilai variabel umur ini dalam model.
Resiko relatif dapat dihitung dengan cara yang sama seperti contoh 5.3. Misalkan
ingin diestimasi RR antara perokok dan bukan perokok untuk usia 50 tahun, maka
Batas bawah dan atas interval konfidensi 95% adalah (exp(log RR c ± 1,96SE(log RR))),
c
yang dapat dihitung asalkan nilai matrik variansi-kovariansi β diketahui.
5.5 Latihan
5.1. Mengacu soal nomor 2.8, misalkan digunakan regresi logistik logit(π) =
β0 + β1 X, dengan X bernilai 1, jika menggunakan helm, 0 jika tidak;
(a) Hitung nilai estimasi β0
(b) Hitung nilai estimasi β1
5.2. Diberikan model regresi logistik logit(πi ) = β0 + β1 xi , dengan
(
−1 jika subyek i tidak terpapar
Xi =
1 jika subyek i terpapar
5.4. Ingin diteliti apakah status sosial (variabel SOC, 1= kelas sosial tinggi,
0=kelas sosial rendah) berpengaruh terhadap mortalitas akibat penyakit jan-
tung (variabel CVD, 1=meninggal karena penyakit jantung, 0=meninggal
bukan karena penyakit jantung). Variabel lain yang dipandang penting
adalah status merokok (variabel SMK, 0=tidak merokok, 1=merokok) dan
tekanan darah sistolik (SBP, variabel kontinu). Dari follow-up study sela-
ma 12 tahun terhadap 200 pria yang berusia 50 tahun atau lebih diperoleh
estimasi parameter model logistik sebagai berikut:
Model 1: Model 2:
Variable Estimasi β Variable Estimasi β
Intersep −1,1800 Intersep −1,1900
SOC −0,5200 SOC −0,5000
SBP 0,0400 SBP 0,0100
SMK −0,5600 SMK −0,4200
SOC × SBP −0,0330
SOC × SMK 0,1750
(b) Hitung Risk Ratio meninggal karena CVD untuk status sosial tinggi
terhadap status sosial rendah berdasarkan Model 1 dan Model 2, untuk
perokok yang tekanan darah sistoliknya 150!
(c) Berapakah Odds Ratio meninggal karena CVD untuk status sosial
tinggi terhadap status sosial rendah setelah diselaraskan oleh variabel
yang lain (adjusted for other variables) berdasarkan Model 1 dan Mo-
del 2?
Hitung estimasi RR antara individu yang terpapar dengan yang tidak terpa-
par!
5.6. Diperoleh data banyak kasus (N) kanker kulit untuk dua daerah A dan B
dan untuk kelompok umur sebagai berikut:
Daerah A Daerah B
Kel. umur N populasi N populasi
15 – 24 1 172 675 4 181 343
25 – 34 16 123 065 38 146 207
35 – 44 30 96 216 119 121 374
Lakukan analisis dengan menggunakan regresi Poisson untuk data di atas
(gunakan paket statistik)!
6
Uji Diagnostik
58
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi 59
Sensitivitas (sensitivity): Yaitu probabilitas tes akan positif jika seseorang pada
kenyataannya memang sakit, Sens = P (T + | D+)
Spesifisitas (specificity): Yaitu probabilitas tes akan negatif jika seseorang pada
kenyataannya memang tidak sakit, Spec = P (T − | D−)
Nilai Prediksi + (Predictive Value +): Yaitu probabilitas seseorang sakit jika
hasil tes menunjukkan hasil positif, PV+ = P (D+ | T +)
Nilai Prediksi - (Predictive Value -): Yaitu probabilitas seseorang tidak sakit jika
hasil tes menunjukkan hasil negatif, PV− = P (D− | T −)
Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisi-
tas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas
dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah
kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah
diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes
diagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan cara
dibandingkan dengan tes lain yang dianggap paling tepat (gold standar test).
Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah,
apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu pe-
nyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diag-
nostik tersebut.
Nilai prediksi positif dapat diturunkan menggunakan Teorema Bayes:
T− T+ Total
D− 23.362 362 23.724
D+ 225 154 379
Contoh 6.1
Suatu tes sitologi (cytological test) dilakukan untuk screening kanker rahim pada wanita.
Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderita
kanker rahim (dengan tes yang dianggap sebagai gold standar). Diperoleh data seperti
pada Tabel 6.1. Hitung sensitivity dan specificity tes tersebut!
Jawab:
154
sens = = 0,406
379
= 40,6%
23,362
spec = = 0,985
23,724
= 98,5%
Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut:
• Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampir
pasti akan negatif ( specificity = 98,5% cukup besar)
• Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak ter-
deteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%)
Suatu alat atau prosedur diagnostik biasnya sudah dilengkapi dengan nilai sen-
sitivitas dan spesifisitas sehingga ketika digunakan untuk diagnosis, nilai predik-
tivitas positif (PV+) maupun nilai prediktivitas negatif (PV−) dapat dihitung
asalkan nilai prevalensi juga diketahui. Untuk nilai sensitivitas dan spesifisitas
yang tertentu dan tetap, semakin besar prevalensi nilai PV+ akan semakin besar
sedangkan PV− akan semakin kecil.
Contoh 6.2
Table 6.2 menyajikan PV+ dan PV− yang dihitung berdasarkan persamaan (6.1) dan
(6.5) untuk berbagai nilai prevalensi dengan spec=98,5% dan sens=40,6%. Terlihat bahwa
PV+ dan PV− nilainya terpengaruh oleh prevalensi, semakin besar prevalensi PV+ akan
semakin besar sedangkan PV− akan semakin kecil.
6.3. Kurva ROC 61
Tabel 6.2: Nilai PV+ dan PV- untuk berbagai nilai prevalensi
Tabel 6.3: Skor dari radiolog untuk hasil CT image pasien syaraf
seperti contoh sebelumnya, dalam data ini tidak diberikan kriteria untuk menentukan tes
positif atau negatif. Sehingga untuk menentukan sensitivitas maupun spesifitasnya digu-
nakan titik batas (cut-off point) yang berbeda-beda. Misalnya jika digunakan titik batas
suatu pasien dikatakan positif sakit adalah skor 4 ke atas (skor 4 atau 5) maka sensitivitas
tes adalah (11 + 33)/51 = 0,86, sedangkan spesifitasnya adalah (33 + 6 + 6)/58 = 0,78.
Dengan cara yang sama dapat dihitung sensitivitas maupun spesifitas untuk titik batas
yang lain seperti pada Tabel 6.4. Plot antara sensitivitas dengan 1 − spesifisitas adalah
kurva ROC untuk skor radiolog ini (Gambar 6.1).
6.3. Kurva ROC 62
b
(0.03, 0.65)
sensitivitas
(0.00, 0.00)
1-specifisitas
Gambar 6.1: Kurva ROC untuk skor radiolog.
Hasil suatu tes atau prosedur diagnostikyang berupa data ordinal, interval atau
kontinu dapat dianalisis sensitivitas dan sepesifitasnya dengan kurva ROC seperti
pada contoh 6.3. Kurva ROC juga dapat digunakan untuk membandingkan bebe-
rapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas
area di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 6.2,
prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh.
Luas di bawah kurva ROC dapat dihitung dengan aturan trapezoid.
Contoh 6.4
Merujuk contoh 6.3, hitung luas area di bawah kurva ROC dan interpretasinya!
Jawab:
Luas area LROC di bawah kurva ROC adalah
sensitivitas
1-specifisitas
Dapat disimpulkan bahwa radiolog tersebut dapat membedakan individu yang nor-
mal dengan yang abnormal berdasarkan skor CT nya dengan probabilitas sebesar
89,5%.
6.4 Latihan
6.1. Dalam diagnostik atau screening ukuran apakah yang terpengaruh oleh
prevalensi? Jelaskan!
6.2. Cara pembandingan apakah yang paling tepat untuk dua macam tes diag-
nostik yang hasilnya berupa suatu bilangan kontinu nonnegatif (seperti mi-
salnya serum kolesterol, tekanan darah, dst)? Jelaskan!
6.3. Tabel di bawah menunjukkan hasil penggunaan x-ray sebagai tes screening
untuk tuberkulosis:
Tuberkulosis
X-ray Tidak Ya
Negatif 1739 8
Positif 51 22
Hitung sensitivitas, spesifisitas dan prevalensi berdasarkan tabel di atas!
6.4. Suatu tes digunakan untuk mendiagnosis pasien Alzheimer’s dan demen-
6.4. Latihan 64
tia. Disease atau D+ pada tabel di bawah ini adalah dementia (kepikunan).
skor Tes D− D+
0–5 0 2
6–10 0 1
11–15 3 4
16–20 9 5
21–25 16 3
26–30 18 1
46 16
(a) Jika digunakan titik batas skor ≤ 20 untuk mengidentifikasi dementia,
hitung sensitivitas dan spesifitas tes ini!
(b) Buatlah kurva ROC dari tabel data di atas!
(c) Hitung area di bawah kurva ROC dan interpretasikan hasilnya!
7
Analisis Data Longitudinal
65
7.2. Deskripsi Data longitudinal 66
b
b
Kemampuan Membaca
Kemampuan Membaca
b
b
b b
b b
b b b b
b b b b
b
b
b
b
Umur Umur
Gambar 7.1: Data longitudinal
• Data Panel
• Dapat membedakan efek dari umur dengan efek dari cohort maupun efek
dari periode
Secara umum data longitudinal mempunyai struktur seperti pada Tabel 7.1.
Seperti halnya dalam semua metode statistika, sebelum melakukan analisis
perlu dilakukan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranya
adalah:
B Program rehabilitasi yang sekarang digunakan dalam rumah sakit yang sama
C Program perawatan biasa yang dilakukan dalam rumah sakit yang lain
Setiap kelompok perlakuan terdiri dari 8 pasien yang diamati selama 8 minggu. Respon
yang diperoleh adalah Bartel index, yaitu skor yang menunjukkan kemampuan fungsional
pasien, nilai yang tinggi menunjukkan kemampuan yang baik (maksimum 100).
Data longitudinal dapat disusun seperti dalam bentuk melebar, yaitu satu baris data
menunjukkan satu individu yang dapat diobservasi beberapa kali seperti pada Tabel 7.2.
Data longitudinal dapat pula disusun memanjang yang mana satu baris menunjukkan satu
observasi pada suatu individu (Tabel 7.3). Bentuk data memanjang ini merupakan bentuk
yang biasa digunakan dalam komputasi data longitudinal yang notasi secara umum adalah
seperti pada Tabel 7.1.
7.2. Deskripsi Data longitudinal 68
A
80
B
60
skor
C
40
20
2 4 6 8
minggu
Gambar 7.2: Profile plot Bartel Index selama waktu penelitian dan
lowess plot setiap kelompok terapi
7.2. Deskripsi Data longitudinal 69
Tabel 7.3: Data longitudinal bentuk memanjang satu baris satu observasi
Respon dari data longitudinal yang berupa Bartel index ini dapat ditampilkan berupa
profile plot yaitu plot nilai respon untuk tiap-tiap individu. Untuk melihat kecenderun-
gan kelompok-kelompok dalam data, yang dalam contoh ini adalah jenis terapi A, B dan
C, dapat ditampilkan plot yang mewakili masing-masing kelompok menggunakan fungsi
penghalusan (smoothing) nonparametrik lowess. Gambar 7.2 adalah profile plot dari res-
pon Bartel index dengan lowess plot untuk kelompok terapi A, B dan C. Terlihat bahwa
terapi A mempunyai kemiringan yang paling menonjol dibandingkan terapi yang lain.
Untuk melihat korelasi antar minggu pengamatan dihitung korelasi bivariat untuk
8 minggu dan scatterplot matrix nya seperti pada Gambar 7.3. Terlihat bahwa pada
minggu pengamatan yang berdekatan korelasi linear antara nilai Bartel index cukup be-
sar.
Untuk data yang berukuran cukup besar, baik banyaknya individu maupun
observasi berulangnya dapat digunakan profile plot untuk semua individu dan
plot beberapa individu yang dipilih secara random. Sebagai contoh, Gambar 7.4
adalah plot antara banyaknya sel CD4+ dengan waktu sejak zeroconversion un-
tuk penderita AIDS. Karena individu cukup banyak (369 individu dengan total
observasi 2376) dalam plot itu selain plot untuk keseluruhan individu, plot untuk
beberapa individu yang dipilih secara random juga ditampilkan. Lowess plot ke-
seluruhan individu untuk melihat kecenderungan banyaknya del CD4 juga ditam-
7.3. Model Regresi Data longitudinal 70
20 80 20 80 20 80 20 80
20 100
m1 0,93 0,88 0,83 0,79 0,71 0,62 0,55
20 100
20
m4 0,92 0,88 0,83 0,77
20
20
100
m6 0,96 0,93
20
100
m7 0,98
20
100
m8
20
20 80 20 80 20 80 20 80
pilkan. Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasien
AIDS didiagnosis menderita penyakit tersebut.
2500
Banyaknya sel CD4+
1500
500
0
−2 0 2 4
• Individu: i = 1, . . . , m
• Variabel respon:
variabel random respon observasi
Yij yij
Yi = (Yi1 , . . . , Yini ) yi = (yi1 , . . . , yini )
Y = (Y1 , . . . , Ym ) y = (y1 , . . . , ym )
• Variabel independen:
xij = (xij1 , . . . , xijp )T , vektor berukuran p × 1
Xi = (xi1 , . . . , xini ), matriks berukuran ni × p
dengan (
1 i mendapat perlakuan B
X1i =
0 i mendapat perlakuan selain B
(
1 i mendapat perlakuan C
X2i =
0 i mendapat perlakuan selain C
dan X3i = 1, 2, . . . , 8 adalah minggu pengamatan; banyaknya observasi N = 24 × 8 =
192, yang diperoleh dari 24 pasien (terbagi dalam 3 grup perlakuan) dan diamati selama
8 minggu. Struktur data yang digunakan adalah seperti pada Tabel 7.1 atau 7.3.
Karena terapi kemungkinan berinteraksi dengan lamanya minggu pengamatan, model
yang memuat interaksi antara terapi dengan waktu menjadi alternatif naive model yang
lain seperti di bawah ini:
dengan (X1i × X3i ) dan (X2i × X3i ) adalah interaksi antara perlakuan dengan waktu.
Tabel 7.4 adalah hasil estimasi parameter kedua model tersebut di atas.
7.3. Model Regresi Data longitudinal 73
Tabel 7.4: Hasil estimasi naive model (7.1) dan model (7.2)
Parameter Estimasi SE
Model (7.1):
β0 36,84 3,971
β1 -5,63 3,715
β2 -12,11 3,715
β3 4,76 0,662
Model (7.2):
β0 29,82 5,774
β1 3,35 8,166
β2 -0,02 8,166
β3 6,32 1,143
β4 -1,99 1,617
β5 -2,69 1,617
Tabel 7.5: Hasil estimasi naive model dan model linear umum dengan bentuk
korelasi uniform dan eksponensial
adalah yang terkecil dibandingkan yang lain. Jadi model dengan interaksi antara terapi
dengan lama minggun pengamatan dan dengan korelasi antar pengamatan yang semakin
mengecil (korelasi eksponensial) adalah yang terbaik.
Data dengan distribusi respon yang lain, misalnya respon biner, cacah dapat
dianalisis dengam metode GLM untuk data berkorelasi (data longitudinal) mi-
7.4. Latihan 75
7.4 Latihan
7.1. Mengacu soal nomor 2.6 pada halaman 11, dengan anggapan ada interaksi
antara perlakuan dengan waktu, tuliskan model regresi data longitudinal
yang perlu untuk dianalisis!
7.3. Diketahui data 30 tikus percobaan yang diberi perlakuan secara random ke
dalam tiga grup perlakuan (Tabel 7.6). Grup 1 adalah kontrol berupa air
minum biasa, grup 2 adalah thiouracil dalam air minum tikus, grup 3 adalah
thyroxin dalam air minum tikus. Thyroxin berpengaruh meningkatkan
metabolisme tubuh. Sebailknya thiouracil akan menurunkan metabolisme
tubuh. Berat badan tikus diukur dalam interval waktu mingguan sampai
mingggu ke-empat. Variabel grup adalah perlakuan, tikus adalah nomor
identitas tikus dalam grup bb0, bb1, bb2, bb3, bb4 adalah berat badan
tikus mulai awal penelitian samapi minggu ke-empat.
77
8.2. Fungsi Survival dan Hazard 78
1.0
0.8
0.6
S(t)
0.4
0.2
0.0
P (t ≤ T < t + ∆t | T ≥ t)
h(t) = lim (8.2)
∆t→0 ∆t
Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard
dapat bernilai berapa saja asalkan non-negative, h(t) ≥ 0. Gambar 8.2, 8.3, 8.4
dan 8.5 adalah contoh beberapa macam fungsi hazard.
8.2. Fungsi Survival dan Hazard 79
5
4
3
h(t)
2
1
0
2
1
0
5
4
3
h(t)
2
1
0
2
1
0
Fungsi hazard h(t), survival S(t) dan fungsi densitas f (t) mempunyai hu-
bungan sebagai berikut
f (t)
h(t) = (8.2)
S(t)
8.3. Kaplan-Meier dan Life Table 81
(
1 jika t < t1
Ŝ(t) = Q di
ti ≤t (1 − Yi ) jika ti ≤ t
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang bere-
siko (number at risk)
Variansi dari KM estimator, sering disebut sebagai Greenwood’s formula,
adalah
X di
var[Ŝ(t)] = Ŝ(t)2 (8.3)
ti ≤t
Yi (Yi − di )
[1 − Ŝ(t)]
var[Ŝ(t)] = Ŝ(t)2 (8.4)
Y (t)
Contoh 8.1
Diketahui data survival yang dihitung mulai dari awal pemberian perlakuan sampai pasien
meninggal sebagai berikut:
10,12,13,15,16,20,20,24,24,26,26,27,39,42,
45,45,48,52,58,60,61,62,73,75,77,104,120
Pertama data survival diurutkan, kemudian diambil hanya nilai tunggalnya saja
(unique values). Misalnya 20 yang muncul dua kali, hanya diambil satu saja. Sebagai con-
toh perhitungan, diambil baris kedua dari Tabel 8.1. Pada saat t = 10 masih ada 27 pasien
yang belum mendapatkan kejadian dan hanya ada satu saja yang meninggal, jadi Y = 27
dan d = 1. Estimasi Kaplan-Meier saat t = 10 adalah Ŝ(10) = 1 × 0, 963 = 0, 963.
Nilai estimasi hazard kumulatif saat t = 10 adalah Ĥ(10) = 1/27 = 0,037, estimasi
8.3. Kaplan-Meier dan Life Table 83
4
0.8
3
H(t)
S(t)
2
0.4
1
0.0
0
0 20 60 100 0 20 60 100
t t
nilai survival dengan Nelson-Aalen menggunakan hubungan antara S(t) dan H(t), yaitu
Ŝ(t) = exp(−Ĥ(t)), atau Ŝ(t) = exp(−0,037) = 0,9636. Plot Kaplan-Meier dan
Nelson-Aalen dapat dilihat pada Gambar 8.6.
Salah satu permasalahan dalam analisis data survival adalah adanya observasi
yang tidak lengkap yang dinamakan tersensor (censored) dan terpotong (truncat-
ed). Permasalahan yang sering muncul dalam penelitian prospektif atau cohort
biasanya adalah tersensor kanan (right censored), yaitu pada saat akhir penelitian,
subyek belum mendapatkan kejadian. Estimasi Kaplan-Meier maupun Nelson-
Aalen dapat digunakan untuk data yang tidak lengkap seperti ini tanpa perlu
mengestimasi terlebih dahulu data yang tersensor.
Contoh 8.2
Dipunyai data survival pasien untuk dua kelompok perlakuan sebagai berikut:
Dapat dihitung estimasi Kaplan-Meier untuk kelompok terapi adalah seperti pada
Tabel 8.2. Pada data yang tersensor kanan, nilai t diambil untuk yang mendapatkan keja-
dian saja, dengan kata lain nilai t yang diberi tanda + tidak dipakai dalam penghitungan
Kaplan-Meier (kecuali ada nilai yang sama yang tidak tersensor, misalnya 6 dan 10 dalam
contoh ini).
8.4. Membandingkan Distribusi Survival 84
t Y d Ŝ(t)
6 21 3 0.857
7 17 1 0.807
10 15 1 0.753
13 12 1 0.690
16 11 1 0.627
22 7 1 0.538
23 6 1 0.448
1.0
0.8
terapi
0.6
S(t)
0.4
0.2
placebo
0.0
0 5 10 15 20
Gambar 8.7: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.
Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar
8.7. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih ting-
gi,dibandingkan grup placebo.
hipotesis alternatif
H1 : S1 (t) > S2 (t)
H1 : S1 (t) < S2 (t)
H1 : S1 (t) 6= S2 (t)
Untuk menguji hipotesis tersebut beberapa Metode Non-parametrik untuk data
yang tidak tersensor seperti metode Wilcoxon, Mann-Whitney dan Sign test dapat
digunakan. Sedangkan untuk data tersensor prosedur yang dapat digunakan di-
antaranya: Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank
test, Peto and Peto’s generalized Wilcoxon test, Cox’s F-test, Gehan’s generalized
Wilcoxon test, the Cox-Mantel test, the logrank test (1972), Peto and Peto’s gen-
eralized Wilcoxon test, dan Cox’s F-test. Satu metode yang akan dibahas dalam
bagian ini adalah Log-rank Test.
Log-rank Test
Prosedur ini didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
(O1 − E1 )2 (O2 − E2 )2
W = + (8.6)
E1 E2
dengan W ∼ χ2 (df = 1). H0 ditolak dengan tingkat signifikasni α bila W >
χ2 (1 − α, df = 1).
Contoh 8.3
Merujuk ke Contoh 8.2, akan diuji apakah fungsi survival grup terapi berbeda dengan
grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 8.3 untuk digunakan dalam
penghitungan 8.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian
(d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.
Diperoleh statistik
(O1 − E1 )2 (O2 − E2 )2
W = +
E1 E2
(9 − 19, 26)2 (21 − 10, 74)2
= + = 15,267
19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
8.5. Model Regresi Data Survival 86
t d1 d2 Y1 Y2 e1 e2
1 0 2 21 21 (21/42) × 2 (21/42) × 2
2 0 2 21 19 (21/40) × 2 (19/40) × 2
3 0 1 21 17 (21/38) × 1 (17/38) × 1
4 0 2 21 16 (21/37) × 2 (16/37) × 2
5 0 2 21 14 (21/35) × 2 (14/35) × 2
6 3 0 21 12 (21/33) × 3 (12/33) × 3
7 1 0 17 12 (17/29) × 1 (12/29) × 1
8 0 4 16 12 (16/28) × 4 (12/28) × 4
10 1 0 15 8 (15/23) × 1 (8/23) × 1
11 0 2 13 8 (13/21) × 2 (8/21) × 2
12 0 2 12 6 (12/18) × 2 (6/18) × 2
13 1 0 12 4 (12/16) × 1 (4/16) × 1
15 0 1 11 4 (11/15) × 1 (4/15) × 1
16 1 0 11 3 (11/14) × 1 (3/14) × 1
17 0 1 10 3 (10/13) × 1 (3/13) × 1
22 1 1 7 2 (7/9) × 2 (2/9) × 2
23 1 1 6 1 (6/7) × 2 (1/7) × 2
Total 9 21 19,26 10,74
Dalam bagian ini akan dibahas dua model regresi survival yaitu AFT dan model
hazard proporsional, khususnya model regresi Cox.
Setiap model regresi survival dapat direpresentasikan sebagai fungsi hazard,
fungsi survival maupun fungsi hazard kumulatif. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model AFT.
log T = µ + Xα + σǫ (8.10)
dengan
(
0 placebo
x =
1 obat baru
8.6. Latihan 88
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
HR =
h(t | x = 0)
h0 (t) exp(1 × β)
=
h0 (t) exp(0 × β)
= exp(β)
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun
jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .
Kebanyakan program statistik standar seperti SPSS, R, STATA, SAS dan
Minitab dapat mengestimasi nilai β̂ dan standard error nya.
8.6 Latihan
8.1. Diketahui T berdistribusi Uniform
(
1/θ untuk 0 ≤ t ≤ θ
f (t) =
0 t yang lain
Carilah: (i) fungsi survival S(t); dan
(ii) fungsi hazard h(t)
untuk variabel random tersebut!
8.2. Diketahui data survival sebagai berikut:
grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan
Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test (α = 0,025)
8.3. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.
Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-
nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-
nis (grup 1) diperoleh data
8.6. Latihan 89
8.4. Data di bawah ini adalah lama hidup 42 pasien leukemia yang mana seten-
gah di antaranya mendapatkan terapi baru dan yang lainnya mendapatkan
terapi standar. Variabel ID adalah nomor identitas pasien; lama adalah
lama survival dalam minggu; relapse adalah indikator meninggal atau tidak
(1=meninggal, 0=tidak); jk adalah jenis kelamin (1=laki-laki, 0=perem-
puan); log WBC adalah nilai log dari banyaknya sel darah putih; dan Rx
adalah terapi (1=terapi standar, 0=terapi baru).
91
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 92
• Grafik
• Fleksibel
Akses Olah
Data
Presentasi Analisis
Gambar 9.1: Fasilitas atau Kemampuan yang diperlukan dari Perangkat Lunak
Statistik
Akses: Memasukkan data (entry data), mengambil data (dari format data yang
lain)
1. Data collection
2. Data entry
3. Data checking
4. Data screening
5. Data analysis
9.4. Ringkasan Metode dan Topik Lanjut 94
6. Checking results
7. Interpretation
9.5 Latihan
9.1. Apakah saudara pernah melakukan kegiatan semacam konsultasi statistika
(profit maupun non-profit)? Bila pernah, sebutkan dalam bidang masalah
apa (epidemologi, pertanian, teknik, dst.) dan metode statistik yang digu-
nakan (Pilih satu saja bila pernah melakukan lebih dari satu kali kegiatan
konsultasi).
9.3. Sebuah studi akan dilakukan untuk mengetahui apakah manajemen (penan-
ganan) terpadu untuk anak balita sakit memang efektif meningkatkan caku-
pan banyaknya anak yang tertangani di puskesmas, meningkatkan kepuasan
9.5. Latihan 95
9.4. Dari hasil pencarian di pubmed central1 , metode statistik apa yang saudara
temukan paling populer? Menurut saudara mengapa metode tersebut pop-
uler digunakan di bidang epidemiologi dan penelitian kesehatan?
1
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
9.5. Latihan 96
Armitage, P. and Colton, T. (1998). Encyclopedia of Biostatistics, John Wiley and Sons,
Inc.
Beaglehole, R., Bonita, R. and Kjellström, T. (2000). Basic Epidemiology, World Health
Organization.
Hofacker, C, F. (1983). Abuse of statistical packages: the case of the general linear model,
Am J Physiol Regul Integr Comp Physiol 245: R299–R302.
97