Bio Stat
Bio Stat
(MMS-4411)
BIOSTATISTIKA DAN EPIDEMIOLOGI
Disusun oleh:
Dr. Danardono, MPH.
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
2006
ii
Daftar Isi
1 Pendahuluan
1.1 Biostatistika dan Epidemiologi . . . . . . . . . . . . . . . . . . .
1.2 Profesi Biostatistisi dan Epidemiolog . . . . . . . . . . . . . . . .
1
1
2
2 Desain Penelitian
2.1 Penelitian dalam bidang ilmu hayati, kedokteran, dan epidemiologi
2.2 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . .
2.3 Penelitian Cross-sectional dan Longitudinal . . . . . . . . . . . .
2.4 Penelitian Follow-up . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Penelitian Case-control . . . . . . . . . . . . . . . . . . . . . . .
2.6 Penelitian klinis . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Model Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
5
5
5
5
6
6
.
.
.
.
.
.
.
9
9
10
11
12
15
17
19
4 Uji Diagnostik
4.1 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . . . . . . . . . . .
4.2 Kurva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23
25
5 Regresi Logistik
5.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . . . . .
5.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . . . . .
29
30
31
iii
iv
Daftar Isi
Regresi Poisson
6.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . . . . .
6.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . . . . .
33
33
34
.
.
.
.
39
39
40
43
43
47
47
48
52
Ringkasan Metode
57
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Pendahuluan
1.1
Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan
epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih
sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau
dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang
biologi, lingkungan dan pertanian sering disebut biometrika (biometrics).
Definisi Epidemiologi menurut (Last, 1995) adalah
The study of distribution and determinants of health-related states or
events in specified population, and the application of this study to
control of health problems.
MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti
layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan
tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan
pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kesehatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa
karena banyak pengembangan teori statistika yang berawal dari permasalahan
dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini
mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai
statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan
sudut pandang yang berbeda dari seorang statistisi.
Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami
dasar serta teknik metode statistik secara umum dan mampu melakukan analisis
statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan
dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk
lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.
1.2
2
Desain Penelitian
2.1
Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan
penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control.
Selengkapnya dapat dijelaskan sebagai berikut:
1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enumerasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan kecenderungan atau trend penyakit;
2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang menjadi sebab dari suatu penyakit tertentu dan cara transmisinya;
3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam populasi;
4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan
pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama
hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatannya
Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar
sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu
rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia sebagai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang
lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Misalnya, kita tidak mungkin memberikan perlakuan yang jelas membahayakan subyek penelitian.
3
populasi
sampel
data
Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian populasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B:
pengambilan informasi dari sampel.
Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu penelitian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil
dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel penelitian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang
akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakteristik atau informasi yang ingin diperoleh dari unit tersebut.
Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyampelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang representatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota populasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random.
Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan
pengambilan sampel random. Namun, pengambilan random menjamin obyektivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun
berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengambilan sampel random yang pada hakekatnya bertujuan untuk mengatasi heterogenitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster,
sistematik, dan lainnya.
Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi
dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B
pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan pengukuran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan
dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan
pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen
utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat
dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenisjenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah
bagian ini.
2.2
Penelitian observasional
Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktorfaktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian
ini, tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B.
2.3
Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik waktu tertentu saja. Jenis penelitian ini dikontraskan dengan penelitian longitudinal,
yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya penelitian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau observasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan dengan satu pengukuran atau observasi untuk satu unit.
2.4
Penelitian Follow-up
Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti selama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuran
atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasional maupun eksperimental.
2.5
Penelitian Case-control
2.6
Penelitian klinis
Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah
... an experiment performed by a health care organization or professional to evaluate the effect of an intervention or treatment against a
control in a clinical environment. It is a prospective study to identify
outcome measures that are influenced by the intervention. A clinical trial is designed to maintain health, prevent diseases, or treat diseased subjects. The safety, efficacy, pharmacological, pharmacokinetic, quality-of-life, health economics, or biochemical effects are measured in a clinical trial.
Tahapan penelitian klinis (Le, 2003):
Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba
pertama obat pada manusia setelah sukses dengan uji coba pada binatang
Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus
kepada keamanannya
Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum
didaftarkan pada pihak yang berwenang
Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi
yang lebih detail tentang efektivitas obat dan keamanannya
2.7
Model Statistik
Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf
X untuk variabel penjelas, variabel independen, faktor; dan Y untuk variabel dependen atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabel
paparan (exposure) dan perancu (confounder) yang termasuk dalam kelompok X,
dan outcome yang termasuk dalam kelompok Y .
Umumnya setiap penelitian bertujuan untuk mencari tahu apakah X menyebabkan Y , atau seberapa besar pengaruh X terhadap Y . Model statistik, seperti
misalnya model regresi sederhana
E(Y | X) = 0 + 1 X
merupakan representasi untuk mencapai tujuan itu.
(2.1)
3
Statistik dan Ukuran dalam
Epidemiologi
3.1
Definisi sehat menurut WHO adalah: health is a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran well-being.
Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog adalah ada
atau tidak ada penyakit 1 .
Ukuran paling dasar yang sering digunakan untuk melihat besarnya permasalahan adalah banyaknya kejadian atau frekuensi kejadian (sakit, meninggal,
dsb.). Namun ukuran ini sangat bergantung pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergantung pada besar populasi dan lama
periode pengamatan yang banyak digunakan adalah prevalensi (prevalence) dan
insidensi (incidence)
Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau
menderita penyakit tertentu pada suatu waktu tertentu
Prevalensi dirumuskan sebagai:
P =
d
N
(3.1)
Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah
pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan
quality of life, dan seterusnya.
10
Insidensi adalah banyaknya subyek yang mengalam kejadian baru atau mendapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insidensi yang sering dipakai adalah Insidensi Kumulatif (IK) dan tingkat insidensi (incidence rate).
IK dirumuskan sebagai:
d
(3.2)
N0
d: banyaknya subyek yang mengalami kejadian tertentu atau menderita
penyakit tertentu dalam suatu interval waktu tertentu
N0 : banyaknya subyek yang belum mengalami kejadian tertentu atau
menderita penyakit tertentu pada awal interval waktu tersebut
IK =
Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu
banyaknya perubahan kuantitatif yang terjadi terkait dengan waktu.
Insidensi (Incidence rate) dirumuskan sebagai:
d
(3.3)
NT
d: banyaknya subyek yang mengalami kejadian tertentu atau menderita
penyakit tertentu dalam suatu interval waktu tertentu
N T : Total waktu subyek yang belum mengalami kejadian tertentu atau
menderita penyakit tertentu dalam interval waktu tersebut (sering juga
disebut sebagai person-time atau risk-time)
I=
Istilah lain yang sering digunakan untuk insidensi adalah person-time incidence rate, instantaneous incidence rate, force of morbidity, incidencedensity, hazard)
3.1.1 Faktor-faktor
prevalensi
yang
berpengaruh
terhadap
nilai
Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak dianjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk
menunjukkan besarnya masalah kesehatan.
Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat
ditunjukkan sebagai berikut:
Bila prevalensi kecil dan tidak berubah menurut waktu
prevalensi insidensi durasi
(3.4)
11
naik karena
turun karena
12
3.2
Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu
berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi,
khususnya incidence rate (3.3).
Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen
Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit
dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insidensi, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode
waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang
13
0.0008
0.0004
L(0.5)
0.0000
Likelihood
0.0012
L(0.1)
0.0
0.2
0.4
0.6
0.8
1.0
0.0004
0.0008
0.00119
0.0000
Likelihood
0.0012
Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan = 0,1
dan = 0,5
0.0
0.2
0.4
0.6
0.8
1.0
Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada
= 0,4
14
1
M
1
3
2
Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, dengan sukses M (mati) dan gagal H (hidup)
yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu
pengamatan.
Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga merupakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahun
tersebut probabilitas meninggal sama, misalnya , maka model yang dapat digunakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam
setiap interval waktu probabilitas meninggal berbeda, misalnya 1 , 2 , 3 seperti
terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda
dan merupakan probabilitas bersyarat.
Sebagai contoh pada Gambar 3.6 diketahui nilai 1 , 2 , 3 . Probabilitas
meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada
akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pada akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehingga probabilitasnya adalah 0,7 0,2 = 0,14. Demikian pula untuk probabilitas
meninggal pada akhir tahun ketiga, 0,7 0,8 0,1= 0,056.
Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional
(untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of
mortality)
P (t T < t + h | T t)
(3.5)
h0
h
Likelihood untuk dapat diturunkan dari likelihood binomial dengan menganggap bahwa probabilitas sukses adalah h dengan h kecil,
= lim
L() = D exp(Y )
(3.6)
15
0,3
M
0,2
0,7
M
0,1
H
0,8
H
0,9
H
1
Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghitungan probabilitas bersyarat)
dengan D adalah banyaknya kejadian, Y adalah total waktu observasi.
Log-likelihood untuk
() = D log() Y
(3.7)
Persamaan (3.6) dan (3.7) adalah fungsi likelihood dan log-likelihood untuk
distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk
= D/Y .
adalah
Contoh 2:
Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (personyears). Log-likelihood untuk
() = 7 log() 500
Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada = 0,014 (Gambar 3.7)
3.3
Bagian di muka membahas statistik dan ukuran tanpa memandang adanya faktor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata
lain dalam notasi statistika di muka, sementara hanya dilihat variabel Y saja tanpa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian
ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran
16
37.5
38.5
39.5
log likelihood
0.005
0.010
0.015
0.020
0.025
0.030
17
Tabel 3.1: Notasi untuk frekuensi terobservasi (observed frequencies) dalam tabel
kontingensi 2 2
Y
X
1
2
1 n11 n12 n1
2 n21 n22 n2
n1 n2 n
Jika RR < 1, paparan berkaitan dengan penurunan probabilitas terkena penyakit;
dan jika RR = 1, paparan tidak berkaitan dengan penyakit tersebut.
Odds merupakan representasi alternatif untuk probabilitas. Untuk probabilitas
= 1, odds didefinisikan sebagai
.
=
1
Meskipun probabilitas dan odds merepresentasikan informasi yang sama, nilai rentang tidak sama dengan , yaitu 0 1 sedangkan > 0. Bila
didefinisikan 1 = 1 /(1 1 ) dan 2 = 2 /(1 2 ), Odds ratio adalah rasio
antara dua odds 1 dan 2
OR =
1
1 (1 2 )
=
.
2
2 (1 1 )
(3.8)
Odds ratio mirip dengan rasio resiko RR dalam hal perubahannya yang diukur
secara multiplikatif. Interpretasi nilai OR juga ekivalen dengan RR.
(3.9)
18
Tabel 3.2: Model probabilitas untuk desain penelitian cohort, prospektif atau
follow-up
Y
X
1
2
1 1|1 2|1 1
2 1|2 2|2 1
dengan
1 = n11 /n1 dan
2 = n21 /n2 . Estimator ini mempunyai galat standar
(standard error)
(
1
2 ) =
1 (1 1 ) 2 (1 2 )
+
n1
n2
1/2
(3.10)
(3.11)
(
1
2 ) sama seperti (
1
2 ) dengan i diganti
i .
Estimasi titik untuk RR
RR =
(3.12)
1 1 1 2
+
1 n1
2 n2
1/2
(3.13)
(3.14)
n11 n22
n12 n21
(3.15)
(3.16)
log OR =
1
1
1
1
+
+
+
n11 n12 n21 n22
1/2
(3.17)
19
E
D
E
D
Gambar 3.8: Variabel F adalah perancu antara D (variabel respon) dengan E (variabel paparan). Tanda pengaruh satu arah; pengaruh dua arah
Interval konfidensi (1 )100% untuk log OR
log OR Z/2
log OR
(3.18)
Tabel 2 2 dapat dikembangkan dan diperluas untuk tabel yang lebih umum
b k, maupun variabel yang lebih dari dua.
3.4
Perancuan (Confounder)
20
Gambar 3.9: Variabel F bukan perancu antara D dengan E (variabel respon) dengan E (variabel paparan). Tanda pengaruh satu arah; pengaruh dua arah
dapat bangun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka pada kulit yang dapat berlanjut ke otot dan tulang dan dapat
berakibat fatal. Diperoleh data seperti pada Tabel 3.3. Rasio resiko dari data ini
adalah
79/824
= 2,9
286/8576
RR =
55/106
= 1,04
5/10
24/718
= 1,02
281/8566
untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore
tidak terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan
satu. Artinya bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore dengan kematian.
21
22
4
Uji Diagnostik
4.1
Untuk menentukan sakit atau tidaknya seseorang diperlukan diagnosa yang tepat.
Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengobatan.
Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mustahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam program preventif penyakit. Dalam hal ini diagnosa sering disebut sebagai screening.
Dalam diagnosa ataupun screening digunakan suatu prosedur atau tes untuk
melihat apakah seseorang menderita penyakit tertentu atau tidak. Kegiatan diagnostik dapat dipandang sebagai peristiwa-peristiwa probabilitas sebagai berikut:
T + : diagnosa atau screening menunjukkan tes positif
T : diagnosa atau screening menunjukkan tes negatif
D+ : kenyataannya positif ada penyakit
D : kenyataannya tidak ada penyakit (negatif)
Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkan
probabilitas-probabilitas bersyarat di bawah ini:
Sensitivitas (sensitivity): Sens = P (T + | D+)
Specifisitas (sensitivity): Spec = P (T | D)
Nilai Prediksi + (Predictive Value +): PV+ = P (D+ | T +)
Nilai Prediksi - (Predictive Value -): PV = P (D | T )
Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisitas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas
dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah
kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah
diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes
23
24
25
Tabel 4.2: Nilai PV+ dan PV- untuk berbagai nilai prevalensi
prevalensi PV+
PV0,0010 0,0264 0,999
0,0157 0,3015 0,990
0,0500 0,5876 0,969
0,1000 0,7505 0,937
0,5000 0,9644 0,624
154
= 0,406
379
= 40,6%
sens =
23.362
= 0,985
23.724
= 98,5%
spec =
Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut:
Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes
hampir pasti akan negatif ( specificity = 98,5% cukup besar)
Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang
tidak terdeteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%)
Untuk menghitung PV+ dan PV diperlukan prevalensi. Table 4.2 menyajikan PV+ dan PV untuk berbagai nilai prevalensi dengan spec=98,5% dan
sens=40,6%. Terlihat bahwa PV+ dan PV nilainya terpengaruh oleh prevalensi,
semakin besar prevalensi PV+ akan semakin besar sedangkan PV akan semakin
kecil.
4.2
Kurva ROC
26
Tabel 4.3: Skor dari radiolog untuk hasil CT image pasien syaraf
Status
Skor dari radiolog
Penyakit (D) (1)
(2)
(3)
(4)
(5)
Normal (D)
0,303
0,055
0,055
0,101
0,018
0,532
Abnormal (D+)
0,028
0,018
0,018
0,101
0,303
0,468
(1) hampir pasti normal; (2) mungkin normal; (3) tidak dapat ditentukan (4) mungkin abnormal; (5) hampir pasti abnormal
Tabel 4.4: Sensitivitas dan Specifisitas berdasarkan beberapa kriteria tes positif
Kriteria tes positif sensitivitas spesifitas 1-spesifitas
1 skor
1,00
0,00
1,00
2 skor
0,94
0,57
0,43
3 skor
0,90
0,67
0,33
4 skor
0,86
0,78
0,22
5 skor
0,65
0,97
0,03
5 < skor
0,00
1,00
0,00
pasien syaraf oleh seorang radiolog adalah seperti pada Tabel 4.3. Dari tabel tersebut dapat ditentukan beberapa kriteria tes positif berdasarkan nilai skor radiolog.
Nilai sensitivitas, spesifisitas dan 1 spesifisitas dapat dihitung berdasarkan kriteria tersebut seperti pada Tabel 4.4. Plot antara sensitivitas dengan 1 spesifisitas
adalah kurva ROC untuk skor radiolog ini (Gambar 4.1).
Kurva ROC dapat digunakan untuk membandingkan beberapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas area di bawah
kurva ROC yang paling besar. Sebagai contoh pada Gambar 4.2, prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh.
27
(0.43, 0.94)
(1.00, 1.00)
sensitivitas
(0.33, 0.90)
(0.22, 0.86)
(0.03, 0.65)
(0.00, 0.00)
sensitivitas
1-specifisitas
Gambar 4.1: Kurva ROC untuk skor radiolog.
1-specifisitas
28
30
5.1
Misalkan Yi adalah variabel random Bernoulli untuk individu i, distribusi probabilitas YI adalah
P (Yi = yi ) = iyi (1 i )1yi ,
yi = 0, 1
(5.1)
1
1 + exp((0 + 1 xi ))
(5.2)
Fungsi seperti i dalam persamaan (5.2) dinamakan fungsi logistik. Untuk kovariat atau variabel penjelas yang lebih dari satu, fungsi untuk i dapat diperluas
menjadi
i =
eZ
1
,
atau
=
i
1 + eZ
1 + eZ
(5.3)
i
= 0 + 1 x1i + 2 x2i + + p xpi
1 i
(5.4)
atau
logit() = 0 + 1 x1i + 2 x2i + + p xpi
(5.5)
dengan x1i , x2i , . . . , xpi adalah variabel penjelas, faktor atau kovariat; dan 0 +
1 x1 + 1 x1 + + p adalah parameter model.
Estimasi untuk = (0 , 1 , . . . , p ) dapat diperoleh dengan MLE untuk
fungsi likelihood berikut ini
n
L() =
P (Yi = yi )
i=1
(5.6)
estimasi
31
5.2
dengan
xi =
0 i tdk terpapar
1 i terpapar
dapat dituliskan
i
= exp [0 + 1 xi ]
1 i
atau
oddsxi = exp [0 + 1 xi ]
Sehingga
OR =
odds1
e0 +1
= 0 = e1
odds0
e
Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik
adalah OR. Interpretasi ini dapat diperluaas untuk model regresi logistik ganda
dan untuk variabel penjelas kontinu bukan kategori seperti contoh di atas. Untuk
variabel kontinu, kenaikan m-unit untuk satu variabel penjelas X, misalnya X =
x + m dibandingkan dengan X = x mempunyai OR sama dengan em1 .
Estimasi titik dan interval konfidensi (1 )100% untuk OR:
OR = exp()
Z/2 SE())
exp(
Contoh 2: :
Dengan menggunakan paket statistik R dapat diestimasi RD, RR maupun RD
dari data Contoh 1 di muka. Digunakan fungsi glm (Generalized Linear Model)
dengan fungsi penghubung (link function) logit dan distribusi Binomial 1
1
Regresi logistik sebenarnya merupakan bagian dari model yang lebih umum lagi yang dinamakan GLM (Generalized Linear Model)
32
6
Regresi Poisson
6.1
x = 0, 1, 2, . . .
(6.1)
(6.2)
atau
(6.3)
34
L() =
i=1
n
=
i=1
P (Yi = yi )
(6.4)
(6.5)
Dapat digunakan beberapa program statistika seperti R, STATA, SAS untuk esti
masi dan kesalahan standarnya SE().
6.2
:
Untuk model regresi Poisson sederhana
log i = log si + 0 + 1 xi
dengan
xi =
0 i tdk terpapar
1 i terpapar
RR =
(6.6)
(6.7)
(6.8)
Contoh 1:
Data diperoleh dari studi awal tentang akibat buruk merokok bagi kesehatan pada
tahun 1951. Kematian akibat penyakit jantung koroner dikategorikan menurut
umur dan status merokok (Tabel 6.1).
Dapat dilihat pada Gambar 6.1 bahwa tingkat kematian untuk perokok lebih
tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk
kelompok usia lanjut.
Untuk menganalisis data ini dapat digunakan regresi Poisson. Ada dua alternatif model yang dapat dicocokkan.
35
1500
1000
500
0
2000
Tabel 6.1: Kematian akibat jantung koroner menurut umur dan status merokok
Kel.
perokok
bukan perokok
Umur kematian person-years
kematian person-years
35 44
32
52407
2
18790
45 54
104
43248
12
10673
55 64
206
28612
28
5710
65 74
186
12663
28
2585
75 84
102
5317
31
1462
3544
4554
5564
6574
7584
kelompok umur
Gambar 6.1: Tingkat kematian akibat penyakit jantung koroner per 100.000
person-years untuk perokok dan bukan perokok
36
(6.9)
dengan
i : mean dari kematian
si : person-years
x1i : perokok atau bukan;
x2i : usia 1, 2, 3, 4, 5 ;
x1i x2i : interaksi (hasil kali) antara x1i dengan x2i ;
x21i : kuadrat umur
Untuk model ini diperoleh estimasi seperti pada Tabel 6.2.
Model kedua membuat variabel-variabel boneka (dummy) untuk kelompok
umur seperti biasa dengan interaksi variabel-variabel tersebut dengan status
merokok.
log i = log(si ) + 1 x1i + 2 x2i + 3 x3i + 4 x4i + 5 x5i +
6 x1i x2i + 7 x1i x3i + 8 x1i x4i + 9 x1i x5i
i = 1, 2, . . . , 10
dengan
i : mean dari kematian
(6.10)
37
Apabila umur sebenarnya dari individu diketahui, lebih baik digunakan nilai variabel ini
dalam model
38
7
Analisis Data Longitudinal
7.1
Data longitudinal
40
Kemampuan Membaca
Kemampuan Membaca
Umur
Gambar 7.1: Data longitudinal
Umur
7.2
Prinsip Pemodelan
41
x11p
x12p
..
.
x1n1 p
x21p
x22p
..
.
n1
..
.
t2n1
..
.
y2n1
..
.
x2n1 1
..
.
...
..
.
x2n1 p
..
.
m
m
..
.
1
2
..
.
t21
t22
..
.
ym1
ym2
..
.
xm11
xm21
..
.
...
...
..
.
xm1p
xm2p
..
.
nm
t2n1
ymn1
x2m1 1
...
xmn1 p
2000
1000
500
0
3000
2
..
.
42
korelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atau observasi berulang. Dua hal ini harus dimasukkan dalam pemodelan.
Notasi yang digunakan dalam analisis data longitudinal
Individu: i = 1, . . . , m
Observasi pada individu i: jh = 1, . . . , ni
Total observasi: N =
m
i=1
ni
respon observasi
yij
yi = (yi1 , . . . , yini )
y = (y1 , . . . , ym )
Variabel penjelas:
xij = (xij1 , . . . , xijp )T , vektor berukuran p 1
Xi = (xi1 , . . . , xini ), matriks berukuran ni p
Mean Yi untuk individu i: E(Yi ) = i
Variansi Yi ; Matriks Kovariansi ni ni untuk individu i:
vi11 . . . vi1ni
Var(Yi ) = . . . vijk . . .
vini 1 . . . vini ni
dengan vijk = Cov(Yij , Yik )
7.3
43
7.4
Data observasi:
yi = (yi1 , . . . , yini ), i = 1, . . . , ni adalah vektor observasi untuk subyek i dan
ti = (ti1 , . . . , tini ) adalah waktu observasi; yi merupakan realisasi dari
Yi M V N (Xi , 2 Vi (ti , ))
dengan dan adalah parameter yang tidak diketahui nilainya dengan dimensi
p dan q.
44
korelasi serial
Zij
galat pengukuran
45
W = (XT WX)1 XT Wy
0 ) = (XT V1 X)1 XT V1 y
(V
(7.2)
1
nm log 2 + m log | V0 | + 2 RSS(V0 )
2
(7.3)
0 ))T V1 (y X(V
0 ))
dengan RSS(V0 ) = (y X(V
Parameter: , 2 dan V0
Turunkan (7.3) ke 2 , diperoleh estimasi
2
(7.4)
(7.5)
46
8
Analisis Data Survival
8.1
Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatu status) lebih lama daripada t
S(t) = P (T > t)
(8.1)
S(t) adalah fungsi non-increasing terhadap waktu t dengan sifat
S(t) =
1 untuk t = 0
0 untuk t =
(8.2)
dimana s adalah banyaknya individu yang masih hidup lebih lama dari t ; N
adalah total banyaknya individu
Fungsi Hazard menunjukkan tingkat (rate) terjadinya suatu event yang didefinisikan sebagai
h(t) = lim
t0
P (t T < t + t | T t)
t
Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard
dapat bernilai berapa saja asalkan non-negative, h(t) 0. Gambar 8.2, 8.3, 8.4
dan 8.5 adalah contoh beberapa macam fungsi hazard.
47
48
0.0
0.2
0.4
S(t)
0.6
0.8
1.0
0.0
0.5
1.0
1.5
2.0
f (t)
S(t)
H(t) =
h(x)dx
0
8.2
Kaplan-Meier merupakan estimator non-parametrik untuk S(t) (sering disebut juga sebagai Product-Limit estimator)
=
S(t)
1
ti t (1
di
)
Yi
jika t < t1
jika ti t
49
h(t)
0.0
0.5
1.0
1.5
2.0
h(t)
0.0
0.5
1.0
1.5
2.0
50
h(t)
0.0
0.5
1.0
1.5
2.0
h(t)
0.0
0.5
1.0
1.5
2.0
51
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresiko (number at risk)
Variansi dari KM estimator (Greenwoods formula)
2
var[S(t)]
= S(t)
ti t
Alternatif:
di
Yi (Yi di )
2 [1 S(t)]
var[S(t)]
= S(t)
Y (t)
H(t)
=
0
di
ti t Yi
jika t < t1
jika ti t
dengan variansi
H(t))
Var(
=
ti t
8.3
di
Yi2
52
Log-rank Test
Berdasarkan observed dan expected event pada setiap event-time
Untuk 2 grup
Statistik penguji:
2 =
(O1 E1 )2 (O2 E2 )2
+
E1
E2
dengan 2 Chi-square(df=1)
Contoh:
grup 1: 23, 16+, 18+, 20+, 24+
grup 2: 15, 18, 19, 19, 20
H0 : S1 (t) = S2 (t)
H1 : S1 (t) = S2 (t)
8.4
53
untuk semua t
S(t | x) = S0 (exp(x)t),
untuk semua t
atau
54
Misalkan:
x =
0 placebo
1 obat baru
Hazard ratio:
h(t | x = 1)
h(t | x = 0)
h0 (t) exp(1 )
h0 (t) exp(0 )
Model:
h(t | x) = h0 (t) exp(x)
Hazard ratio:
h(t | x = 1)
h(t | x = 0)
h0 (t) exp(1 )
h0 (t) exp(0 )
= exp()
55
h0 (t) exp(1 )
h0 (t) exp(0 )
= exp()
S(t | x) = S0 (t)exp(x )
dengan H0 adalah baseline hazard kumulatif dan S0 adalah baseline survival
56
9
Ringkasan Metode
Metode statistik yang dapat digunakan sebagai alat analisis dalam penelitian di bidang
kedokteran, ilmu hayati dan epidemiologi dapat diringkas seperti Tabel 9.1.
Tentu saja masih banyak metode lain yang tidak disebutkan dalam ringkasan. Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Selain itu, masih
banyak masalah yang memerlukan pengembangan metode baru atau modifikasi metode.
Misalnya beberapa desain seperti case-cohort, case-control memerlukan modifikasi metode regresi logistik dan regresi Cox.
57
58
Respon
Kontinu
Biner
Nominal, 2
kategori
atau lebih
Ordinal
Cacah
Kategorik
Durasi (survival)
Respon
berkorelasi
Regresi Logistik
Nominal
Regresi Logistik
Ordinal
Model Log-linear,
Regresi Poisson
Regresi Poisson
Log-rank test
Survival analysis
Generalized Estimating
equation
Multilevels model
Analisis Data
Longitudinal
Analisis Data Panel
Daftar Pustaka
Armitage, P. and Colton, T. (1998). Encyclopedia of Biostatistics, John Wiley & Sons,
Inc.
Chow, S.-C. (2000). Encyclopedia of Biopharmaceutical Statistics., Marcel Dekker, New
York.
Kleinbaum, D. G., Kupper, L. L. and Morgenstern, H. (1982). Epidemiologic Research:
Principles and Quantitative Methods., Wadsworth, Inc.
Last, J. (1995). A Dictionary of Epidemiology, 3rd edn, Oxford University Press.
Le, C. T. (2003). Introductory Biostatistics, John Wiley & Sons, Inc.
59