Anda di halaman 1dari 100

BAHAN AJAR

BIOSTATISTIKA DAN EPIDEMIOLOGI


(MMS-4411)

Disusun oleh:
Dr. Danardono, MPH.

PROGRAM STUDI STATISTIKA


JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
2011
Daftar Isi

1 Pendahuluan 2
1.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Biostatistika dan Epidemiologi . . . . . . . . . . . . . . . . . . . 2
1.3 Profesi Biostatistisi dan Epidemiolog . . . . . . . . . . . . . . . . 3
1.4 Metode dan Proses Pembelajaran . . . . . . . . . . . . . . . . . . 3
1.5 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Desain Penelitian 5
2.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 5
2.3 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Penelitian Cross-sectional dan Longitudinal . . . . . . . . . . . . 7
2.5 Penelitian Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 8
2.6 Penelitian Case-control . . . . . . . . . . . . . . . . . . . . . . . 8
2.7 Penelitian Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8 Model Statistik dan Kausalitas . . . . . . . . . . . . . . . . . . . 9
2.9 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Statistik dan Ukuran dalam Epidemiologi 15


3.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Prevalensi dan insidensi . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.1 Model untuk Prevalensi . . . . . . . . . . . . . . . . . . 17
3.2.2 Model untuk Insidensi . . . . . . . . . . . . . . . . . . . 20
3.3 Faktor Resiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Inferensi untuk RD, RR dan OR . . . . . . . . . . . . . . . . . . 25
3.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Perancuan dan Interaksi 31


4.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Konsep dan Identifikasi Perancuan . . . . . . . . . . . . . . . . . 31

ii
Daftar Isi iii

4.3 Metode Standarisasi dan Mantel-Haenszel . . . . . . . . . . . . . 34


4.3.1 Standarisasi Langsung . . . . . . . . . . . . . . . . . . . 34
4.3.2 Standarisasi Tidak Langsung . . . . . . . . . . . . . . . . 35
4.3.3 Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . 36
4.4 Interaksi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Model Linear Tergeneralisasi 41


5.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Generalisasi Model Linear . . . . . . . . . . . . . . . . . . . . . 41
5.3 Regresi Logistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . 43
5.3.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . 44
5.4 Regresi Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . 48
5.4.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . 49
5.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6 Uji Diagnostik 58
6.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . . . . . . . . . . . 58
6.3 Kurva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7 Analisis Data Longitudinal 65


7.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2 Deskripsi Data longitudinal . . . . . . . . . . . . . . . . . . . . . 65
7.3 Model Regresi Data longitudinal . . . . . . . . . . . . . . . . . . 70
7.3.1 Naive Model . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.2 Model Linear Umum untuk Data Longitudinal . . . . . . 73
7.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8 Analisis Data Survival 77


8.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2 Fungsi Survival dan Hazard . . . . . . . . . . . . . . . . . . . . . 77
8.3 Kaplan-Meier dan Life Table . . . . . . . . . . . . . . . . . . . . 81
8.4 Membandingkan Distribusi Survival . . . . . . . . . . . . . . . . 84
8.5 Model Regresi Data Survival . . . . . . . . . . . . . . . . . . . . 86
8.6 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Daftar Isi 1

9 Konsultasi Statistika 91
9.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 91
9.2 Konsultan Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi . 92
9.4 Ringkasan Metode dan Topik Lanjut . . . . . . . . . . . . . . . . 94
9.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1
Pendahuluan

1.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Menjelaskan pengertian biostatistika dan epidemiologi dan penekanan


matakuliah ini

2. Memberi contoh profesi yang berkaitan dengan biostatistika dan epidemio-


logi

3. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu-


juan umum pembelajaran, metode dan proses pembelajaran, penilaian dan
sumber referensi

1.2 Biostatistika dan Epidemiologi


Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan
epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih
sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau
dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang
biologi, lingkungan dan pertanian sering disebut sebagai biometrika (biometrics).
Definisi Epidemiologi menurut (Last, 1995) adalah

The study of distribution and determinants of health-related states or


events in specified population, and the application of this study to
control of health problems.

2
1.3. Profesi Biostatistisi dan Epidemiolog 3

MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti


layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan
tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan
pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kese-
hatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa
karena banyak pengembangan teori statistika yang berawal dari permasalahan
dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini
mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai
statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan
sudut pandang yang berbeda dari seorang statistisi.
Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami
dasar serta teknik metode statistik secara umum dan mampu melakukan analisis
statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan
dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk
lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.

1.3 Profesi Biostatistisi dan Epidemiolog


Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang seperti
tersebut di bawah ini,
• Lembaga penelitian
• Akademik atau lembaga pendidikan
• Lembaga pemerintah bidang kesehatan atau rumah sakit
• Industri obat dan farmasi
• Konsultan
Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter,
apoteker atau dosen, namun di negara maju dan di negara ASEAN seperti Singa-
pura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukan
penelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatis-
tisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnya
asuransi kesehatan dan kematian, yang baik dan terukur akan sangat memerlukan
ahli di bidang biostatistik dan epidemiologi.

1.4 Metode dan Proses Pembelajaran


Metode dan proses pembelajaran untuk matakuliah ini dapat dilihat pada RPKPS
(Rencana Program Kegiatan Pembelajaran Semester) MMS-4411.
1.5. Latihan dan Tugas 4

1.5 Latihan dan Tugas


1.1. Sebutkan matakuliah apa saja di program studi Statistika UGM yang terkait
matakuliah MMS-4411.

1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yang
mudah diakses (misalnya handbook suatu program studi) baik yang berba-
hasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah terse-
but tersebut atau dapatkan hardcopy/softcopy dari handbook suatu program
studi, kemudian tuliskan materi atau kompetensi yang diajarkan serta meto-
de pembelajarannya.

1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengam-
bil matakuliah ini. Berilah satu contoh analisis data terkait penelitian di
bidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing me-
tode yang telah saudara pelajari tersebut.

1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan atau
alumnus program studi Statistika (dari perguruan tinggi manapun di Indone-
sia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologi
atau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atau
epidemiolog.
2
Desain Penelitian

2.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Menjelaskan tujuan penelitian dalam bidang epidemiologi

2. Menjelaskan tipe-tipe penelitian

3. Mengidentifikasi desain penelitian yang digunakan dalam suatu penelitian

4. Mengusulkan desain penelitian yang tepat untuk suatu permasalahan

5. Menjelaskan peran statistika dalam penelitian di bidang ilmu hayati, kedok-


teran dan epidemiologi

6. Menjelaskan proses pembangkitan data dikaitkan dengan desain dan model


statistik

7. Menyebutkan matakuliah lain yang terkait dengan topik desain penelitian

2.2 Penelitian dalam Bidang Ilmu Hayati, Kedok-


teran, dan Epidemiologi
Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan
penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control.
Selengkapnya dapat dijelaskan sebagai berikut:

5
2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 6

populasi sampel data

A B

Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian popu-
lasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B:
pengambilan informasi dari sampel.

1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enu-


merasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan ke-
cenderungan atau trend penyakit;

2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang men-


jadi sebab dari suatu penyakit tertentu dan cara transmisinya;

3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam


populasi;

4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan


pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama
hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatan-
nya

Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar


sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu
rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia seba-
gai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang
lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Mi-
salnya, tidak mungkin akan diberikan suatu jenis perlakuan yang membahayakan
atau merugikan subyek penelitian.
Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu peneli-
tian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil
2.3. Penelitian observasional 7

dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel peneli-
tian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang
akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakter-
istik atau informasi yang ingin diperoleh dari unit tersebut.
Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyam-
pelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang repre-
sentatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota pop-
ulasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random.
Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan
pengambilan sampel random. Namun, pengambilan random menjamin obyek-
tivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun
berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengam-
bilan sampel random yang pada hakekatnya bertujuan untuk mengatasi hetero-
genitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster,
sistematik, dan lainnya.
Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi
dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B
pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan penguku-
ran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan
dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan
pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen
utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat
dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenis-
jenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah
bagian ini.

2.3 Penelitian observasional


Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktor-
faktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini,
tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B (Gambar
2.1).

2.4 Penelitian Cross-sectional dan Longitudinal


Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik wak-
tu tertentu saja. Jenis penelitian ini dikontraskan dengan penelitian longitudinal,
yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya peneli-
tian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau ob-
2.5. Penelitian Follow-up 8

servasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan de-
ngan satu pengukuran atau observasi untuk satu unit.

2.5 Penelitian Follow-up


Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti se-
lama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuran
atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasion-
al maupun eksperimental.

2.6 Penelitian Case-control


Penelitian case-control merupakan salah satu contoh penelitian retrospektif.
Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatu event atau
end-point. Unit sampel yang memiliki event atau end-point tersebut kemudian
diteliti. Penelitian case-control dimulai dari unit yang mendapatkan kasus (pe-
nyakit misalnya), kemudian dipilih sekelompok pembanding atau kontrol (yaitu
unit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penje-
las yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol.

2.7 Penelitian Klinis


Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah

” ... an experiment performed by a health care organization or profes-


sional to evaluate the effect of an intervention or treatment against a
control in a clinical environment. It is a prospective study to identify
outcome measures that are influenced by the intervention. A clini-
cal trial is designed to maintain health, prevent diseases, or treat dis-
eased subjects. The safety, efficacy, pharmacological, pharmacokinet-
ic, quality-of-life, health economics, or biochemical effects are mea-
sured in a clinical trial.”

Dalam penelitian ini dilakukan manipulasi, pemberian perlakuan (treatment) atau


intervensi pada tahap B (Gambar 2.1)
Tahapan penelitian klinis (Le, 2003):

• Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba
pertama obat pada manusia setelah sukses dengan uji coba pada binatang
2.8. Model Statistik dan Kausalitas 9

• Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus
kepada keamanannya

• Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum
didaftarkan pada pihak yang berwenang

• Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi


yang lebih detail tentang efektivitas obat dan keamanannya

2.8 Model Statistik dan Kausalitas


Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf
X untuk variabel penjelas, variabel independen, faktor; dan Y untuk variabel de-
penden atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabel
paparan (exposure) dan perancu (confounder) yang termasuk dalam kelompok X,
dan outcome yang termasuk dalam kelompok Y .
Umumnya setiap penelitian bertujuan untuk mencari tahu apakah X menye-
babkan Y , atau seberapa besar pengaruh X terhadap Y . Model statistik, seperti
misalnya model regresi sederhana

E(Y | X) = β0 + β1 X (2.1)

merupakan representasi untuk mencapai tujuan itu.


Statistisi memikirkan model seperti (2.1) sebagai suatu ”pembangkit data”
(data generating-process). Realisasi dari model itu adalah data yang diperoleh
(sering dituliskan sebagai huruf kecil x dan y). Apabila model dan estimasi pa-
rameternya dinyatakan cukup tepat untuk menjelaskan data, dapat dilakukan infe-
rensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferen-
si itu adalah penggunaan model untuk prediksi dan kausalitas.
Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yang
cukup tepat untuk menjelaskan suatu set data. Untuk itu harus diingat pendap-
at yang mengatakan bahwa ada banyak model yang baik tapi pilihlah satu yang
berguna. Dikaitkan dengan penelitian di bidang Epidemiologi dan kedokteran,
model yang berguna di sini adalah model yang terdiri dari variabel yang ni-
lainya dapat atau mudah dimodifikasi dalam praktek dan model yang sesederhana
mungkin.
Desain penelitian, atau cara memperoleh data penelitian, sangat mempen-
garuhi asumsi model statistik yang pada akhirnya mempengaruhi penjelasan dan
interpretasi dari hubungan X dengan Y . Ambil contoh model sederhana seperti
(2.1). Misalkan untuk mendapatkan x (realisasi dari variabel X) digunakan cara
2.9. Latihan dan Tugas 10

observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka mo-
del ini kurang kuat untuk menjelaskan kausalitas X terhadap Y . Namun bila x
diperoleh dengan kaidah desain eksperimental maka model dapat digunakan un-
tuk menjelaskan hubungan kausal
Dalam penelitian epidemiologi dikenal prinsip-prinsip untuk mendapatkan
bukti adanya kausalitas yang dikenal sebagai Hill’s Criteria for Causality
(Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut:
1. Hubungan (association) yang kuat antara X (variabel independen,faktor re-
siko atau paparan) dengan Y (variabel dependen, respon atau outcome).
2. Hubungan yang diperoleh harus spesifik dalam arti suatu faktor atau pa-
paran hanya berhubungan dengan satu jenis penyakit saja.
3. Paparan atau faktor (X) harus mendahului respon (Y ), atau sebab harus
mendahului akibat.
4. Harus ada penjelasan secara biologis mengapa suatu paparan atau faktor
resiko menyebabkan suatu penyakit.
5. Harus dapat ditunjukkan adanya dose-response effect atau biologic gradient
yaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinya
penyakit
6. Terkait kriteria 5, jika paparan dihilangkan, penyakit juga seharusnya tidak
muncul
7. Adanya konsistensi hasil atau kesimpulan yang diperoleh dari beberapa stu-
di.

2.9 Latihan dan Tugas


Untuk soal pilihan ganda, pilihlah satu jawaban yang tepat (a, b, c atau d); untuk
soal esai tuliskan jawabannya dengan singkat dan jelas!
2.1. Keuntungan desain penelitian case-control terhadap desain penelitian co-
hort salah satunya adalah:
a. dengan desain case-control dapat dihitung OR
b. case-control dapat mengatasi masalah etik penelitian terhadap
manusia yang mungkin terjadi pada desain cohort
c. ukuran sampel untuk case-control relatif lebih kecil dibandingkan
cohort
d. dapat digunakan untuk menunjukkan hubungan sebab-akibat
(cause-effect)
2.9. Latihan dan Tugas 11

2.2. Keuntungan desain penelitian longitudinal terhadap cross-sectional salah


satunya adalah:
a. lebih mudah dilaksanakan
b. ada variabel kontrol yang dapat digunakan sebagai perbandingan
c. ukuran sampel relatif lebih kecil
d. dapat digunakan untuk menunjukkan hubungan sebab-akibat
(cause-effect)
2.3. Suatu penelitian yang bertujuan untuk membandingkan dua perlakuan A
dan B dilakukan dengan cara sebagai berikut: subyek secara random diberi
perlakuan A atau B; setelah periode waktu tertentu subyek berganti men-
dapat perlakuan yang lain, untuk subyek yang pada awalnya mendapat per-
lakuan A kemudian mendapat B, dan sebaliknya. Desain yang digunakan
disebut:
a. cross-over trial b. cross-sectional
c. cohort d. randomized block
2.4. Desain penelitian yang sesuai dan layak (dapat dilaksanakan) untuk menge-
tahui faktor resiko suatu penyakit dengan insidensi yang sangat rendah
(seperti misalnya kanker) adalah:
a. cross-sectional b. cohort
c. case-control d. clinical-trial
2.5. Dalam penelitian tentang program atau kebijakan yang berkaitan dengan
kesehatan masyarakat, randomisasi pada unit penelitian biasanya sulit untuk
dilakukan, meskipun demikian pengaruh faktor (pemberian program atau
penerapan kebijakan) tetap dapat diteliti efeknya. Desain penelitian yang
tepat untuk permasalahan ini adalah:
a. cross-sectional b. cohort
c. observational d. quasi-experimental
2.6. Misalkan dari teori dan penelitian sebelumnya dapat diasumsikan bahwa
perlakuan A, B dan C akan menghasilkan respon individual seperti pada
gambar di bawah ini.
A
B
respon Y

waktu T
2.9. Latihan dan Tugas 12

Untuk meneliti fenomena tersebut di atas desain yang paling tepat adalah:
a. longitudinal b. cross-sectional c. multiple cross-sectional d. survival

2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakah
wanita yang minum pil kontrasepsi akan mengalami menopause (tidak
mengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkan
wanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompok
wanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 mereka
sudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan di
sebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidak
diambil sebagai subyek karena alasan tidak dapat dihubungi, menolak
sebagai subyek, belum menopause dan alasan kesehatan. Diperoleh data
sebagai berikut:
Umur saat menopause (tahun)
n Mean SD
minum pil 12 47,2 2,1
tdk. minum 19 47,5 2,1
(a) Apa desain studi ini? Jelaskan!
(b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan!

2.8. Sebuah penelitian dilakukan untuk mengetahui keefektivan helm dalam


mencegah kerusakan di kepala akibat kecelakaan kendaraan bermotor.
Diperoleh data 793 kecelakaan dalam periode 3 bulan sebagai berikut:
Menggunakan helm
kerusakan di kepala Ya Tidak Total
Ya 17 218 235
Tidak 130 428 558
Total 147 646 793
Apa desain studi ini? Jelaskan!

2.9. Jelaskan perbedaan utama antara penelitian prospektif dengan retrospektif


dan keuntungan kerugian masing-masing!

2.10. Jelaskan perbedaan utama antara penelitian observasional dengan dengan


eksperimental dan keuntungan kerugian masing-masing!

2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang program
atau aktivitas yang dapat menghentikan kebiasaan merokok.

(a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menu-
rut saudara.
2.9. Latihan dan Tugas 13

6
5
4
DMFT

3
2
1

10 20 30 40 50 60

konsumsi gula (kg/orang/tahun)

Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula

(b) Apa variabel independen atau paparan (exposure) utama penelitian ter-
sebut?
(c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas?
Jelaskan!
(d) Bagaimana seharusnya saudara memilih subyek dan mengukur
(mengambil informasi) dari mereka sehingga tidak terjadi bias?

2.12. Gambar 2.2 menunjukkan hasil penelitian epidemiologi hubungan antara


banyaknya gigi yang rusak dengan konsumsi gula pada 20 negara. Gigi
yang rusak dinyatakan dengan skor DMFT (decayed, missing and filled
teeth) yang diperoleh dari mean dari survei di masing-masing negara de-
ngan responden anak usia 12 tahun. konsumsi gula diperoleh dari laporan
tahunan pemerintah dibagi estimasi total populasi berdasarkan sensus.
(a) Apakah dapat ditunjukkan dari gambar bahwa konsumsi gula meng-
akibatkan tingginya DMFT? Jelaskan!
(b) Apa kelemahan studi seperti di atas dan berikan alternatif desain yang
lebih tepat

2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jan-
tung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’. Jawa-
2.9. Latihan dan Tugas 14

ban diklasifikasikan untuk setiap responden sebagai prokok dan bukan pe-
rokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angi-
na atau tidak. Setelah data dianalisis, tidak diperoleh hubungan antara
merokok dengan pernah tidaknya mengalami angina.
(a) Dari banyak studi yang telah dilakukan sebelumnya dapat ditunjukkan
adanya bukti bahwa resiko mendapatkan angina meningkat seiring
dengan naiknya konsumsi rokok seseorang. Jelaskan apa saja yang
mungkin menyebabkan studi di atas gagal menunjukkan hubungan an-
tara angina dengan merokok?
(b) Apa alternatif desain studi yang lebih tepat? Jelaskan!

2.14. Untuk meneliti suatu permasalahan epidemiologi sering dilakukan lebih


dari satu studi yang mana variabel utamanya sama namun populasi dan set-
ting studinya mungkin berbeda. Apakah ada keuntungan yang diperoleh
dari banyak studi tersebut untuk menjawab satu permasalahan yang sama
dalam epidemiologi? Jelaskan!
3
Statistik dan Ukuran dalam
Epidemiologi

3.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Menggunakan ukuran statistik yang tepat untuk suatu permasalahan dalam


epidemiologi

2. Menginterpretasikan hasil hitungan ukuran statistik

3. Menjelaskan model yang mendasari prevalensi dan insidensi

4. Menggunakan likelihood ratio test sebagai alternatif inferensi untuk model


prevalensi dan insidensi

5. Menggunakan ukuran faktor yang tepat untuk suatu permasalahan dengan


datanya

6. Menginterpretasikan hasil hitungan ukuran faktor

3.2 Prevalensi dan insidensi


Definisi sehat menurut WHO adalah: health is a state of complete physical,
mental, and social well-being and not merely the absence of disease or infir-
mity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran

15
3.2. Prevalensi dan insidensi 16

well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog
adalah ”ada” atau ”tidak ada” penyakit 1 .
Statistik atau ukuran paling dasar yang sering digunakan untuk melihat be-
sarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau fre-
kuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung
pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergan-
tung pada besar populasi dan lama periode pengamatan yang banyak digunakan
adalah prevalensi (prevalence) dan insidensi (incidence)
Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau
menderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskan
sebagai:
d
P = , (3.1)
N
dengan P adalah prevalensi; d adalah banyaknya subyek yang mengalami kejadi-
an tertentu atau menderita penyakit tertentu pada suatu waktu tertentu; N adalah
banyaknya subyek pada suatu waktu tersebut.
Insidensi adalah banyaknya subyek yang mengalami kejadian baru atau men-
dapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insi-
densi yang sering dipakai adalah insidensi kumulatif IK dan tingkat insidensi
(incidence rate)I.
IK dirumuskan sebagai:
d
IK = , (3.2)
N0
dengan IK adalah insidensi kumulatif; d adalah banyaknya subyek yang mengala-
mi kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu
tertentu; N0 adalah banyaknya subyek yang belum mengalami kejadian tertentu
atau menderita penyakit tertentu pada awal interval waktu tersebut.
Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu ba-
nyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu.
Insidensi (Incidence rate) dirumuskan sebagai:
d
I= , (3.3)
NT
dengan I adalah insidensi; d adalah banyaknya subyek yang mengalami kejadian
tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N T
1
Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah
pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan
quality of life, dan seterusnya.
3.2. Prevalensi dan insidensi 17

naik karena turun karena

durasi penyakit yg panjang durasi penyakit yg pendek


pasien hidup lama pasien hidup singkat
insidensi meningkat insidensi menurun
in-migrasi kasus in-migrasi penduduk sehat
out-migrasi penduduk sehat out-migrasi kasus
in-migrasi orang yg rentan out-migrasi orang yg rentan
meningkatnya diagnosis meningkatnya kesembuhan

Gambar 3.1: Faktor-faktor yang mempengaruhi estimasi prevalensi (Beaglehole


et al., 2000).

adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderi-
ta penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai
person-time atau risk-time)
Istilah lain yang sering digunakan untuk insidensi adalah person-time inci-
dence rate, instantaneous incidence rate, force of morbidity, incidence-density,
hazard).
Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan
langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan
perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak di-
anjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk
menunjukkan besarnya masalah kesehatan.
Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat
ditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubah
menurut waktu.

prevalensi ≈ insidensi × durasi (3.4)

3.2.1 Model untuk Prevalensi


Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yang
mempunyai asumsi sebagai berikut :
3.2. Prevalensi dan insidensi 18

S
π

1−π G
Gambar 3.2: Model Bernoulli.

• tiap usaha (trial) menghasilkan satu dari dua hasil yang mungkin, dina-
makan sukses (S) dan gagal (G);

• peluang sukses, P (S) = π dan peluang gagal P (G) = 1 − π

• usaha-usaha tersebut independen

Fungsi probabilitas Bernoulli adalah

P (X = x; π) = π x (1 − π)1−x , (3.5)

dengan π adalah probabilitas sukses dan x = 0, 1 (gagal, sukses). Dalam konteks


Epidemiologi, definisi sukses misalnya terkena penyakit tertentu atau meninggal.
Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsi likeli-
hood berdasarkan data yang diperoleh.
Contoh 3.1
Dari n = 10 orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnya
sukses adalah terkena penyakit tertentu dan gagal adalah tidak terkena penyakit tertentu).
Seberapa mungkin data ini berasal dari model binomial dengan (i) π = 0,1; (ii) π = 0,5?
Jawab:

(i) π = 0,1:

L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π)


= 0,14 × 0,96
= 5,31 × 10−5

(ii) π = 0,5

L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π)


= 0,54 × 0,56
= 9,77 × 10−4
3.2. Prevalensi dan insidensi 19

0.0012
0.0008
Likelihood

0.0004

L(0.5)
0.0000

L(0.1)

0.0 0.2 0.4 0.6 0.8 1.0

Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan π = 0,1
dan π = 0,5.

Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripada π = 0,1 sehingga dapat
disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5
daripada π = 0,1 (Lihat Gambar 3.3).
Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4).
Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal
dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum Like-
lihood.

Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu in-
terval konfidensi (confidence interval), menurut teori frequentist; supported range
untuk parameter berdasarkan likelihood ratio menurut teori likelihood; dan cred-
ible interval menurut teori Bayesian (Clayton and Hills, 1993). Metode yang
paling sering digunakan dan diterima di komunitas peneliti di bidang epidemio-
logi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral.
Dalam perkembangannya kedua metode yang lain mulai berkembang dan menda-
patkan perhatian.
3.2. Prevalensi dan insidensi 20

0.0012
0.00119
0.0008
Likelihood

0.0004
0.0000

0.0 0.2 0.4 0.6 0.8 1.0

Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada
π = 0,4.

3.2.2 Model untuk Insidensi


Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu
berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi,
khususnya incidence rate (3.3).
Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen
Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit
dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insiden-
si, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode
waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang
yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu
pengamatan.
Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga meru-
pakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahun
tersebut probabilitas meninggal sama, misalnya π, maka model yang dapat digu-
nakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam
setiap interval waktu probabilitas meninggal berbeda, misalnya π1 , π2 , π3 seperti
terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda
dan merupakan probabilitas bersyarat.
Sebagai contoh pada Gambar 3.6 diketahui nilai π1 , π2 , π3 . Probabilitas
3.2. Prevalensi dan insidensi 21

M
π1
M
π2
1− M
π1
H π3
1−
π2
H
1−
π3
H

1 3 5
Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, de-
ngan sukses M (mati) dan gagal H (hidup).

meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada
akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pa-
da akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehing-
ga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas
meninggal pada akhir tahun ketiga, 0,7 × 0,8 × 0,1= 0,056.
Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional
(untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of
mortality)

P (t ≤ T < t + h | T ≥ t)
λ = lim (3.6)
h→0 h
Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan men-
ganggap bahwa probabilitas sukses adalah λh dengan h kecil,

L(λ) = λD exp(−λY ) (3.7)


dengan D adalah banyaknya kejadian, Y adalah total waktu observasi.
Log-likelihood untuk λ
ℓ(λ) = D log(λ) − λY (3.8)
Persamaan (3.7) dan (3.8) adalah fungsi likelihood dan log-likelihood untuk
distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk λ
adalah
D
λ̂ = (3.9)
Y
3.2. Prevalensi dan insidensi 22

M
0,3
M
0,2
0,7 M
H 0,1
0,8
H
0,9
H

1 3 5
Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghi-
tungan probabilitas bersyarat).

Contoh 3.2
Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (person-years).
Log-likelihood untuk λ

ℓ(λ) = 7 log(λ) − 500λ

Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar
3.7)
−37.5
log likelihood

−38.5
−39.5

0.005 0.010 0.015 0.020 0.025 0.030

λ
Gambar 3.7: Log-likelihood untuk λ dan nilai maksimumnya
3.3. Faktor Resiko 23

Contoh 3.3
Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris pada
tahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikate-
gorikan menurut umur dan status merokok (Tabel 3.1).

Tabel 3.1: Kematian akibat jantung koroner menurut umur dan status merokok

Kel. perokok bukan perokok


Umur kematian person-years kematian person-years
35 – 44 32 52407 2 18790
45 – 54 104 43248 12 10673
55 – 64 206 28612 28 5710
65 – 74 186 12663 28 2585
75 – 84 102 5317 31 1462

Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitung menggu-
nakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah
32 + 104 + 206 + . . . + 31
λ̂ =
52407 + 43248 + 28612 + . . . + 1462
731
= = 0,004
181467

karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agak
besar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang.
Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Mi-
salnya insidensi dalam kelompok perokok adalah
32 + 104 + 206 + 186 + 102
λ̂1 =
52407 + 43248 + 28612 + 12663 + 5317
630
= = 4,43 per 1000 orang,
142247

dan untuk kelompok bukan perokok λ̂0 =101/39220= 2,58 per 1000 orang. Kematian
dalam kelompok perokok terlihat lebih tinggi.

3.3 Faktor Resiko


Bagian di muka membahas statistik dan ukuran tanpa memandang adanya fak-
tor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata
lain dalam notasi statistika di muka, sementara hanya dilihat variabel Y saja tan-
pa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian
ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran
3.3. Faktor Resiko 24

ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain
penelitian yang digunakan.
Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko di-
antaranya:
• Selisih resiko (risk difference)
• Rasio resiko (risk ratio)
• Odds ratio
Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2
untuk subyek yang tidak terpapar. Sebagai contoh, π1 adalah probabilitas subyek
terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas
subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko,
rasio resiko dan odds ratio akan dijelaskan berdasarkan π1 dan π2 di atas.
Selisih resiko didefinisikan sebagai

RD = π1 − π2 . (3.10)

yaitu selisih antara dua probabilitas π1 dan π2 . Karena π1 = RD + π2 , selisih


resiko mengukur perubahan pada skala aditif. Jika RD > 0, paparan berkaitan
dengan kenaikan probabilitas terkena penyakit. Sebaliknya jika RD < 0, paparan
berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RD = 0,
paparan tidak berkaitan dengan penyakit tersebut.
Rasio resiko didefinisikan sebagai rasio antara dua probabilitas, yaitu

RR = π1 /π2 . (3.11)

Karena π1 = RRπ2 , rasio resiko mengukur perubahan pada skala multiplikatif.


Jika RR > 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit.
Jika RR < 1, paparan berkaitan dengan penurunan probabilitas terkena penyakit;
dan jika RR = 1, paparan tidak berkaitan dengan penyakit tersebut.
Odds merupakan representasi alternatif untuk probabilitas. Untuk probabilitas
π 6= 1, odds ω didefinisikan sebagai
π
ω= . (3.12)
1−π
Pernyataan odds dalam penggunaan sehari-hari biasanya digunakan untuk
mengekspresikan kebolehjadian, misalnya dalam suatu pertandingan olahra-
ga: ”peluang saya menang melawan dia 60:40”, artinya peluang saya menang
adalah 0,6.
Meskipun probabilitas dan odds merepresentasikan informasi yang sama, ni-
lai rentang ω tidak sama dengan π, yaitu 0 ≤ π ≤ 1 sedangkan ω > 0. Bila
3.4. Inferensi untuk RD, RR dan OR 25

Tabel 3.2: Data dan Model Probabilitas untuk Desain Cohort


(a) Data pada tabel 2 × 2 (b) Model probabilitas
D D
E 1 2 E 1 2
1 n11 n12 N1 1 π1 1 − π1 1
2 n21 n22 N2 2 π2 1 − π2 1

didefinisikan ω1 = π1 /(1 − π1 ) dan ω2 = π2 /(1 − π2 ), Odds ratio adalah rasio


antara dua odds ω1 dan ω2
ω1 π1 (1 − π2 )
OR = = . (3.13)
ω2 π2 (1 − π1 )
Odds ratio mirip dengan rasio resiko RR dalam hal perubahannya yang diukur
secara multiplikatif. Interpretasi nilai OR juga ekivalen dengan RR.

3.4 Inferensi untuk RD, RR dan OR


Untuk desain cohort, semua ukuran faktor resiko RD, RR dan OR dapat diesti-
masi dari data dan dapat diinterpretasikan. Data dan model probabilitasnya dapat
digambarkan seperti pada Table 3.2.
Pada tabel tersebut E adalah variabel paparan (exposure) atau faktor resiko
yang diteliti dan D adalah outcome. Nilai E = 1 menunjukkan adanya paparan
(exposed) dan E = 2 menunjukkan tidak adanya paparan (non-exposed). Mi-
salkan variabel paparan yang akan diteliti adalah status merokok, E = 1 adalah
merokok dan E = 2 tidak merokok. Nilai D = 1 menunjukkan adanya disease
atau outcome yang menjadi perhatian, dan D = 2 menunjukkan tidak adanya
disease. Misalnya D = 1 adalah terdiagnosis kanker paru, dan D = 2 tidak
terdiagnosis kanker paru.
Untuk desain cohort π1 adalah probabilitas mendapatkan disease untuk kelom-
pok yang diketahui sebelumnya sudah mendapatkan paparan, atau dengan notasi
probabilitas π1 = P (E = 1 | D = 1). Sedangkan π2 adalah probabilitas men-
dapatkan disease untuk kelompok yang diketahui sebelumnya tidak mendapatkan
paparan, atau π2 = P (E = 1 | D = 2). Total baris untuk model probabilitas
adalah satu karena kelompok paparan diambil dari dua populasi yang berbeda,
yaitu kelompok exposed E = 1, dan kelompok non-exposed E = 2.
Estimasi titik untuk π1 dan π2 adalah

π̂1 = n11 /N1 (3.14)


π̂2 = n21 /N2 (3.15)
3.4. Inferensi untuk RD, RR dan OR 26

Estimasi titik untuk RD, RR dan OR dapat diperoleh dengan mengganti π1 dan
π2 pada persamaan (3.10), (3.11) dan (3.13) dengan π̂1 dan π̂2 .
Selisih resiko RD pada dasarnya adalah selisih dua sampel independen yang
berdistribusi Binomial. Proporsi sampel π̂i mempunyai harga harapan πi dan va-
riansi πi (1 − πi )/Ni , dengan i = 1, 2. Sehingga estimasi titik untuk RD adalah
d = π̂1 − π̂2
RD (3.16)
yang mempunyai galat standar (standard error)
   π (1 − π ) π (1 − π ) 1/2
d 1 1 2 2
σ RD = + (3.17)
N1 N2
Interval konfidensi (1 − α)100% untuk RD dapat dihitung dengan menggunakan
pendekatan Normal sebagai berikut:
 
d d
RD ± Zα/2 σ̂ RD , (3.18)
   
dengan σ̂ RDd adalah σ RD d namun dengan πi diganti π̂i .
Estimasi titik untuk RR dapat diturunkan dari (3.11), (3.14) dan (3.15) yaitu

d = π̂1
RR
π̂2
d sangat menceng (skewed), sehingga pendekatan Nor-
Distribusi untuk RR
d Galat standar untuk
mal lebih baik jika menggunakan transformasi log dari RR.
d
log RR adalah
  1 − π 1 − π2
1/2
d 1
σ log RR = + (3.19)
π 1 N1 π2 N2
Diperoleh interval konfidensi (1 − α)100% untuk log RR
 
d ± Zα/2 σ log RR
log RR d (3.20)

Karena interval ini pada skala transformasi log, untuk interpretasinya harus
dikembalikan pada skala asal dari RR dengan mengambil eksponensial, baik un-
tuk batas interval bawah maupun atas.
Seperti halnya RR, estimasi titik untuk OR dapat diturunkan dari (3.13),
(3.14) dan (3.15) yaitu

d = π̂1 (1 − π̂2 )
OR
π̂2 (1 − π̂1 )
n11 n22
= , (3.21)
n12 n21
3.4. Inferensi untuk RD, RR dan OR 27

Untuk menghindari masalah bila ada nij = 0 dapat digunakan allternatif untuk
(3.21),

d = (n11 + 0,5)(n22 + 0,5)


OR (3.22)
(n12 + 0,5)(n21 + 0,5)
d ini juga sangat menceng seperti RR,
Distribusi untuk OR d sehingga diperlukan
transformasi log untuk membentuk interval konfidensi OR.
d adalah
Estimasi galat standar untuk log OR
   1 1 1 1
1/2
d =
σ̂ log OR + + + , (3.23)
n11 n12 n21 n22
c adalah
Sehingga interval konfidensi (1 − α)100% untuk log OR
 
d ± Zα/2 σ̂ log OR
log OR d (3.24)

Interpretasinya harus dikembalikan pada skala asal dari OR dengan mengambil


eksponensial baik untuk batas bawah maupun batas atas dari interval konfidensi
OR.
Contoh 3.4
Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan peker-
jaan seperti pada Tabel 3.3.

Tabel 3.3: Data studi tentang hubungan penyakit jantung koroner


dengan tekanan pekerjaan

Tertekan krn. Penyakit jantung koroner


Pekerjaan Ya Tidak Total
Ya 97 307 404
Tidak 200 1409 1609

Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompok
orang yang tertekan karena pekerjaan dan yang tidak tertekan adalah
π̂1 = 97/404 = 0,240 dan π̂2 = 200/1609 = 0,124
d dapat dihitung menggunakan π̂1
Estimasi titik untuk RR dan standard error dari log RR
dan π̂2 , yaitu:
   
d = π̂1 /π̂2
RR d 1 − π1 1 − π2 1/2
σ log RR = +
= 0,240/0,124 π1 N 1 π2 N 2
 
= 1,932 1 − 0,240 1 − 0,124 1/2
= +
0,240(404) 0,124(1609)
= 0,1105
3.4. Inferensi untuk RD, RR dan OR 28

n  o
Batas bawah interval konfidensi 95% adalah exp log(RR) d − 1,96 × σ log RR d =
n  o
1,555; dan batas atas interval exp log(RR) d + 1,96 × σ log RR
d = 2,399. Diperoleh
estimasi RR dan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ).
 
Estimasi titik untuk OR dan σ log OR d :
   
d = π̂1 /(1 − π̂1 )
OR d 1 1 1 1 1/2
π̂2 /(1 − π̂2 ) σ̂ log OR = + + +
n11 n12 n21 n22
= 0,316/0,142  1/2
1 1 1 1
= 2,225 = + + +
97 307 200 1409
=n 0,1388  o
Batas bawah interval konfidensi 95% adalah exp log(OR) d − 1,96 × σ log OR d =
n  o
1,696; dan batas atas interval exp log(OR) d + 1,96 × σ log OR
d = 2,922. Diperoleh
estimasi OR dan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ).
Estimasi titik untuk RD adalah
   
d = π̂1 − π̂2
RD d π1 (1 − π1 ) π2 (1 − π2 ) 1/2
σ RD = +
= 0,240 − 0,124 N1 N2
= 0,0228
= 0,116
 
d = 0,071; dan batas atas
Batas bawah interval konfidensi 95% (π̂1 − π̂2 ) − 1,96 × σ RD
 
d = 0,161. Diperoleh estimasi RD dan interval
intervalnya (π̂1 − π̂2 ) + 1,96 × σ RD
konfidensinya adalah : 0,116 (0,071 — 0,161 ).

Pada desain case-control, Data dan model probabilitasnya dapat digambarkan


seperti pada Tabel 3.4. Dalam tabel ini M1 dan M2 adalah banyaknya sampel yang
diperoleh dari kelompok sampel yang mendapatkan disease (D = 1) dan dari
kelompok yang tidak mendapatkan disease (D = 2). Dari masing-masing kelom-
pok diambil informasi secara retrospektif apakah sampel telah terpapar (E = 1
atau tidak E = 2. Model probabilitasnya juga berbeda dengan desain Cohort kare-
na probabilitas kondisionalnya adalah terhadap disease D bukan terhadap paparan
E, yaitu probabilitas φ1 = P (E = 1 | D = 1) dan φ2 = P (E = 1 | D = 2).
Berdasarkan model ini, tidak mungkin diperoleh estimasi untuk πi , i = 1, 2
seperti pada desain Cohort. Sehingga estimasi untuk RD dan RR tidak dapat
diperoleh. Bagaimana dengan OR? Apabila estimasi OR dihitung untuk odds
paparan dalam kelompok diseased dibagi odds paparan dalam kelompok non-
3.5. Latihan 29

Tabel 3.4: Data dan Model Probabilitas untuk Desain Case-Control.


(a) Data pada tabel 2 × 2 (b) Model probabilitas
D D
E 1 2 E 1 2
1 n11 n12 1 φ1 φ2
2 n21 n22 2 1 − φ1 1 − φ2
M1 M2 1 1

diseased maka dapat diperoleh

g = φ̂1 (1 − φ̂2 )
OR
φ̂2 (1 − φ̂1 )
n11 n22
= , (3.25)
n12 n21

dengan φ̂1 = n11 /M1 dan φ̂2 = n12 /M2 . Ternyata ORg = OR, d yang implikasinya
adalah OR dapat diestimasi untuk desain Case-Control.
Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan valid
hanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studi
prevalensi. Meskipun RD, RR dan OR dapat dihitung dari data yang diperoleh
dari studi cross-sectional, kesimpulan atau interpretasi yang diperoleh kemung-
kinan akan tidak valid.

3.5 Latihan
3.1. Hitunglah odds S (Sukses) terhadap G (Gagal), dengan sukses misalnya
adalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penya-
kit), bila probabilitas S diketahui adalah:
(a) 0,75 (b) 0,50 (c) 0,25

3.2. Hitunglah probabilitas sukses S bila diketahui odds S terhadap gagal G


adalah:
(a) 0,3 (b) 3,0

3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bila
kita tertarik pada parameter π, yaitu probabilitas pasien meninggal, nilai
manakah yang lebih didukung oleh data, π = 0,2 atau π = 0,6? Jelaskan!
Carilah estimator untuk parameter π!

3.4. Diketahui data penderita tuberkulosis (tb) di suatu sekolah sebagai berikut:
3.5. Latihan 30

Paparan banyaknya siswa banyaknya siswa


yang diperiksa yang posisif tb
tinggi 129 63
rendah 325 36
Hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta
interval interval konfidensinya. Interpretasikan hasilnya.

3.5. Merujuk soal no 2.8 (halaman 12), hitung risk difference, risk ratio dan odds
ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpre-
tasikan hasilnya.

3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa ada
hubungan antara konsumsi teh dan sindroma pra-menstruasi. Satu grup
yang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek peneli-
tian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensi
sindroma pra-menstruasi di antara pelajar adalah 40% dan di antara pekerja
pabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindro-
ma pra-menstruasi?

3.7. Buktikan persamaan (3.21) pada halaman 26 dan (3.25) pada halaman 29!
4
Perancuan dan Interaksi

4.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Menjelaskan pengertian perancuan (confounder) dan interaksi dan menye-


butkan contohnya dalam penelitian epidemiologi

2. Mengidentifikasi adanya perancuan dalam suatu permasalahan atau data


penelitian epidemiologi

3. Mengidentifikasi adanya interaksi dalam suatu permasalahan atau data


penelitian epidemiologi

4.2 Konsep dan Identifikasi Perancuan


Variable perancu adalah variabel yang memenuhi dua kondisi:

• merupakan faktor resiko

• mempunyai hubungan dengan variabel paparan tapi bukan merupakan kon-


sekuensi dari variabel paparan

Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan
4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E,
sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus.
Contoh 4.1
Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat ban-
gun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka

31
4.2. Konsep dan Identifikasi Perancuan 32

Tabel 4.1: Data Bedsores study

Meninggal hidup Total


Bedsore 79 745 824
tidak Bedsore 286 8.290 8.576
Total 365 9.035 9.400

E E E

D D D

F F F

Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (vari-
abel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah

E E

D D

F F

E E

D D

F F

Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) de-
ngan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
4.2. Konsep dan Identifikasi Perancuan 33

Tabel 4.2: Data Bedsores study distratifikasi menurut tingkat keparahan

Tingkat keparahan tinggi akibat penyakit lain:


Meninggal hidup Total
Bedsore 55 51 106
tidak Bedsore 5 5 10
Total 60 56 116

Tingkat keparahan rendah akibat penyakit lain:


Meninggal hidup Total
Bedsore 24 694 718
tidak Bedsore 281 8.285 8.566
Total 305 8.979 9.284

pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh
data seperti pada Tabel 4.1. Rasio resiko dari data ini adalah

79/824
RR = = 2,9
286/8576
Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat meng-
akibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh
data seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain.
Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah

55/106
RR = = 1,04
5/10

untuk tingkat keparahan tinggi dan

24/718
RR = = 1,02
281/8566

untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak
terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya
bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore
dengan kematian.

Contoh 4.2
Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, ter-
lihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurut
confounder, terlihat ada pengaruh faktor resiko terhadap disease.
4.3. Metode Standarisasi dan Mantel-Haenszel 34

Tabel 4.3: Data faktor resiko dengan disease

D+ D− Total
+
E 240 420 660 π̂1 = 0,3636
E− 200 350 550 π̂2 = 0,3636
RR = π̂1 /π̂2 = 1

Tabel 4.4: Data faktor resiko dengan disease distratifikasi menurut variabel lain
(confounder)

Variabel F = 0:
D+ D− Total
E+ 135 415 550 π̂1 = 0,2455
E− 5 45 50π̂2 = 0,1000
RR = π̂1 /π̂2 = 2,45
Variabel F = 1:
D+ D− Total
E+ 105 5 110 π̂1 = 0,9545
E− 195 305 500 π̂2 = 0,3900
RR = π̂1 /π̂2 = 2,45

4.3 Metode Standarisasi dan Mantel-Haenszel


Metode standarisasi digunakan untuk mengatasi confounding dengan cara mem-
bandingkan atau melakukan standarisasi dengan suatu populasi pembanding
(standar). Metode ini biasa digunakan dalam Demografi. Variabel atau faktor
yang biasanya digunakan dalam standarisasi adalah usia dan jenis kelamin. Dike-
nal dua jenis standarisasi yaitu (1) standarisasi langsung (direct standardization);
dan (2) standarisasi tidak langsung (indirect standardization)

4.3.1 Standarisasi Langsung


Standarisasi langsung dibentuk dari hasil estimasi banyaknya kejadian (event)
yang diperoleh dari model (distribusi) populasi studi (study population), dike-
nakan pada populasi standar (standard/reference population). Variabel yang biasa
digunakan untuk standarisasi adalah kelompok umur. Data yang diperlukan untuk
penghitungan standarisasi dapat disusun seperti pada Tabel 4.5, dengan ni adalah
banyaknya kejadian (misalnya kematian) dalam interval (kelompok umur) i untuk
populasi studi; Ni adalah ukuran (banyaknya) populasi studi dalam interval i dan
Mi : ukuran populasi pembanding.
Standarisasi langsung untuk rate banyaknya kejadian adalah
4.3. Metode Standarisasi dan Mantel-Haenszel 35

Tabel 4.5: Data untuk Standarisasi

Kel. Populasi Populasi


umur studi pembanding
n1
1 N1
M1
n2
2 N2
M2
.. .. ..
. . .
ni
i Ni
Mi
.. .. ..
. . .
nk
k Nk
Mk

Pk ni
i=1 Ni Mi
r = C Pk , (4.1)
i=1 Mi
dengan C suatu konstanta yang digunakan agar bilangan yang diperoleh tidak
terlalu kecil. Biasanya C = 1000, sehingga satuan untuk r adalah banyaknya
kejadian per 1000 orang.
Deviasi standar untuk r adalah
 s  
C  k
X Mi 
2
SE(r) = Pk ni (4.2)
i=1 Mi
 Ni 
i=1

yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu: r±1,96×
SE(r).

4.3.2 Standarisasi Tidak Langsung


Metode ini menggunakan dua tahapan proses. Pertama model dari populasi pem-
banding yang biasanya berupa ASDR (Age Specific Deaths Rate) dikenakan pada
studi populasi. Untuk penghitungan ini diperlukan informasi banyaknya kejadi-
an (kematian) di populasi pembanding (dinotasikan sebagai mi ) karena ASDR
= mi /Mi . Harga harapan banyaknya kematianPk dalam populasi studi berdasarkan
model populasi pembanding adalah E = i=1 Ni (mi /Mi ). Diperoleh standard-
ized event ratio (ser) atau standardized mortality ratio (smr) jika event yang men-
jadi perhatian adalah mortalitas sebagai berikut,
Pk
ni
smr = i=1 , (4.3)
E
4.3. Metode Standarisasi dan Mantel-Haenszel 36

Tabel 4.6: Data Tabel 2 × 2 untuk strata ke-i

Status Sakit/Event Total


D+ D−
E+ ai bi ai + b i

E ci di ci + di
Total ai + ci bi + di ni

dengan standard error qP


( ki=1 ni )
SE(smr) = (4.4)
E
Pada tahapan kedua dapat dihitung standarisasi tidak langsung sebagai berikut
Pk
mi
rindirect = C × smr × Pki=1 , (4.5)
i=1 M i

dengan standard error


qP
Pk
( ki=1 ni ) mi
SE(rindirect ) = C × × Pki=1 (4.6)
E i=1 M i

4.3.3 Mantel-Haenszel
Untuk data yang distratifikasi menurut variabel perancu, dapat dihitung odds ratio
gabungan dari masing-masing strata. Estimator ini disebut Mantel-Haenszel odds
ratio yang
Pk !
ai di /ni
Ψ̂MH = Pi=1 k
(4.7)
i=1 bi ci /ni

dengan standar error untuk log(Ψ̂MH ) adalah


s P P P P
Pi Ri Pi Si + Qi Ri Qi Si
SE(log(Ψ̂MH )) = P 2
+ P P + P 2 (4.8)
2( Ri ) 2 Ri Si 2( Si )

untuk setiap stratum i,

Pi = (ai + di )/ni , Qi = (bi + ci )/ni ,


Ri = ai di /ni , Si = bi ci /ni ,
4.4. Interaksi 37

(a) tidak ada interaksi (b) interaksi unilateral


+ +
peluang disease

peluang disease
E E
B= B=

E
B=
B = E−

A = E− A = E+ A = E− A = E+
(c) interaksi sinergis (d) interaksi antagonis
peluang disease

peluang disease
+
E +
= E
B =
B
B=E

B=
E−

A = E− A = E+ A = E− A = E+
Gambar 4.3: Jenis Interaksi untuk Dua Faktor Resiko A dan B

Interval konfidensi 95% untuk log(Ψ̂MH ) adalah

log(Ψ̂MH ) ± 1,96 SE(log(Ψ̂MH )), (4.9)

Interval konfidensi 95% untuk Ψ̂MH sendiri dapat dihitung dengan mengambil ni-
lai eksponensial dari masing-masing batas interval tersebut.

4.4 Interaksi
Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadian
penyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda dari
faktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemio-
logi adalah modifikasi efek (effect modification). Bila tidak ada interaksi, seti-
ap faktor resiko akan mempunyai efek yang tetap (homogen) pada tingkat yang
berbeda-beda dari faktor yang lain.
Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkan
ada dua faktor A dan B yang menjadi perhatian dan masing-masing mempunyai
dua tingkat faktor yaitu terpapar (exposed E + ) dan tidak terpapar (non-exposed
E − ).
Bila tidak ada interaksi antara faktor A dan B, peluang terjadinya disease
(efek dari faktor) dari non-exposed ke exposed akan sama tingkat kenaikannya
(Gambar 4.3 (a)). Untuk faktor B tidak terpapar (B = E − ), pengaruh faktor A
akan naik dari ketika A = E − ke A = E + yang mana tingkat kenaikannya sama
4.4. Interaksi 38

(kemiringannya) untuk faktor B terpapar (B = E + ). Untuk interaksi unilateral


(Gambar 4.3 (b)), efek dari faktor A ada jika faktor B terpapar (B = E + ). Namun
bila B tidak terpapar faktor A tidak berpengaruh. Interaksi sinergis terjadi bila
pengaruh faktor A searah atau sama-sama naik dari A = E − ke A = E + , tapi
kenaikan akan makin besar bila ada B terpapar (B = E + ). Interaksi antago-
nis berlawanan dengan interaksi sinergis. Jenis interaksi variabel ini terjadi bila
pengaruh faktor A menjadi berkebalikan ketika B berubah. Jika B tidak terpapar
(B = E − ), pengaruh A akan menurun dari ketika tidak terpapar (A = E − ) ke
terpapar (A = E + ). Sebaliknya jika B terpapar (B = E + ), pengaruh A akan
naik.
Untuk mengidentifikasi adanya interaksi, perlu dilakukan analisis baik secara
deskriptif berupa diagram interaksi maupun dengan uji statistik. Pengetahuan ten-
tang substansi variabel atau faktor yang diteliti sudah tentu diperlukan untuk iden-
tifikasi awal variabel atau faktor apa saja yang mungkin berinteraksi.
Untuk menguji interaksi dapat digunakan statistik berdasarkan risk rasio
(RR), risk difference (RD) maupun odds ratio (OR). Misalkan ada dua faktor
A dan B seperti digunakan di atas. Untuk menyederhanakan notasi, terpapar oleh
faktor A atau A = E + dituliskan sebagai A1 , tidak terpapar oleh faktor A atau
A = E − dituliskan sebagai A0 , demikian pula untuk faktor B. Kemudian dide-
finisikan kombinasi dari faktor A dan B sebagai berikut A1 B1 , A1 B0 , A0 B1 dan
A0 B0 . Notasi A1 B1 adalah terpapar baik oleh faktor A maupun B, kombinasi
yang lain dapat diartikan dengan cara yang sama.
Didefinisikan pula probabilitas kondisional mendapatkan penyakit (D+ ) de-
ngan diberikan kombinasi faktor A dan B sebagai berikut:

π11 = P (D+ | A1 B1 ) π10 = P (D+ | A1 B0 )


π01 = P (D+ | A0 B1 ) π00 = P (D+ | A0 B0 )

Empat macam resiko terkena penyakit dinyatakan sebagai probabilitas bersyarat


terhadap kombinasi antara faktor A dan B ini dapat dilihat seperti pada Tabel 4.7
(a).
Menggunakan RR (Tabel 4.7 (b)), faktor A dan B dikatakan tidak ada inter-
aksi bila
RRAB = RRA RRB , (4.10)
dengan RRAB adalah risk ratio antara resiko mendapatkan penyakit jika terpapar
oleh A dan terpapar B, dengan resiko mendapat penyakit jika tidak terpapar oleh
A maupun B; atau RRAB = π11 /π00 . Dengan interpretasi yang sama didefinisi-
kan pula RRA = π10 /π00 dan RRB = π01 /π00 . Pernyataan (??) dinamakan in-
teraksi pada skala multiplikatif (interaction on multiplicative scale). Berdasarkan
skala multiplikatif, tidak ada interaksi berarti rasio resiko paparan bersama A dan
B sama dengan hasil kali rasio resiko masing-masing faktor.
4.5. Latihan 39

Tabel 4.7: Interaksi menurut RR, OR dan RD

(a) Resiko, diketahui faktor A dan B (b) Menggunakan RR


faktor B faktor B
faktor A B = E −
B = E+ faktor A B = E − B = E +

A=E π00 π01 A = E− 1 RRB
+ +
A=E π10 π11 A=E RRA RRAB
tdk ada interaksi: RRAB = RRA RRB

(c) Menggunakan OR (c) Menggunakan RD


faktor B faktor B
faktor A B = E − B = E + faktor A B = E − B = E+
A = E− 1 ORB A = E− 0 RDB
+ +
A=E ORA ORAB A=E RDA RDAB
tdk ada interaksi: ORAB = ORA ORB tdk ada interaksi: RDAB = RDA + RDB

Pengujian interaksi secara multiplikatif dapat pula dilakukan menggunakan


OR (Tabel 4.7 (c)) sebagai berikut

ORAB = ORA ORB , (4.11)

dengan ORAB , ORA dan ORB didefinisikan dan diinterpretasikan serupa seperti
RR di atas. Misalnya ORA = [π10 /(1 − π10 )]/[π00 /(1 − π00 )] adalah odds ra-
tio antara odds mendapatkan penyakit jika terpapar oleh A dan tidak terpapar B,
dengan odds mendapatkan penyakit jika tidak terpapar oleh A maupun B.
Interaksi dapat pula terjadi pada skala aditif (interaction on additive scale)
dengan menggunakan RD (Tabel 4.7 (d)). Dengan cara ini, faktor A dan B
dikatakan tidak ada interaksi bila

RDAB = RDA + RDB (4.12)


(π11 − π00 ) = (π10 − π00 ) + (π01 − π00 )

yaitu selisih resiko antara paparan bersama A dan B sama dengan total selisih
resiko antara masing-masing faktor.
Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan model-
model regresi yang akan dibahas pada Bab-Bab selanjutnya.

4.5 Latihan
1. Diberikan tabel 2 × 2 seperti di bawah yang diperoleh dari studi prospektif
dengan variabel paparan E dan variabel penyakit D.
4.5. Latihan 40

D+ D−
E+ 205 76
E− 65 116

(a) Stratifikasilah tabel di atas menjadi dua buah tabel 2 × 2 sedemikian


sehingga variabel ketiga yang men-stratifikasi tabel di atas merupakan
variabel confounder (berikan nama variabelnya F dan kategorinya F0
dan F1 )
(b) Hitunglah OR Mantel-Haenszel dari data tabel yang saudara buat di
atas

2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel status
merokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh da-
ta resiko relatif (RR) untuk kombinasi status merokok dan tingkat konsumsi
lemak adalah sebagai berikut:
konsumi status merokok
lemak tidak pernah mantan ringan berat
rendah 1 1.5 2.0 3.0
medium 1.2 1.8 2.4 3.6
tinggi 1.5 2.3 3.0 4.5
sangat tinggi 2.0 3.5 4.0 6.0
Dalam penelitian ini yang dianggap sebagai tingkat paparan yang terendah
adalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak,
dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangat
tinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkat
paparan. Apakah data ini menunjukkan adanya perancuan (confounding)?
Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak de-
ngan merokok kaitannya dalam mengakibatkan penyakit?
5
Model Linear Tergeneralisasi

5.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Menjelaskan konsep Model Linear Tergeneralisasi (Generalized Linear Mo-


del) dan kaitannya dengan model statistika lain seperti Regresi Linear,
ANAVA, Regresi Logistik dan Regresi Poisson.

2. Melakukan inferensi Regresi Logistik.

3. Melakukan inferensi Regresi Poisson.

4. Mengidentifikasi model yang tepat untuk permasalahan dalam epidemiologi


dan penelitian kesehatan.

5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Re-
gresi Logistik dan Regresi Poisson.

5.2 Generalisasi Model Linear


Model Linear yang sudah dikenal seperi Regresi Linear dan ANAVA juga bebe-
rapa metode regresi lain yang cukup populer seperti regresi logistik sebenarnya
merupakan satu keluarga model regresi yang lebih luas yang dinamakan Model
Linear Terumumkan (GLM :Generalized Linear Model).
Ada tiga komponen utama yang membentuk GLM yaitu

• Variabel random Y1 , Y2 , . . . , Yn dengan E(Yi ) = µi dengan fungsi densitas


dari keluarga eksponensial (exponential family)

41
5.2. Generalisasi Model Linear 42

• Prediktor linear
ηi = x i β = β0 + β1 xi1 + . . . + βp xip

• Fungsi penghubung (link function), yang menghubungkan E(Yi ) = µi de-


ngan xi β
g(µi ) = xi β

• Fungsi variansi Vi
Fungsi densitas f (y; θ) disebut sebagai Keluarga eksponensial (exponential
family) bila:
f (y; θ) = s(y)t(θ)ea(y)b(θ)
= exp(a(y)b(θ) + c(θ) + d(y))
dengan s(y) = exp(d(y)) dan t(θ) = exp(c(θ)).
• jika a(y) = y, f (y; θ) disebut bentuk standar (canonical, standard form)
• b(θ) sering disebut parameter natural
Beberapa contoh keluarga eksponensial
Distribusi parameter natural c d
Poisson log θ −θ − log y!
µ µ2 1 2 y2
Normal σ 2 − 2σ 2 − 2
log(2πσ ) − 2σ 2
Binomial log( 1−ππ
) n log(1 − π) log ny
Beberapa contoh GLM:
Model Jenis respon Y distribusi fungsi penghubung
Model linear Normal kontinu Normal identitas: g(µ) = µ
µ
Regresi Logistik proporsi binomial logit: g(µ) = log 1−µ
Regresi Poisson cacah Poisson log : g(µ) = log µ
Model Gamma kontinu, positif Gamma log: g(µ) = log µ
Beberapa contoh fungsi penghubung:
• identitas : g(µ) = µ
µ
• logit: g(µ) = log 1−µ

• probit: g(µ) = Φ−1 (µ), Φ distribusi kumulatif Normal standar


(
µλ jika λ 6= 0
• power: g(µ) =
log(µ) jika λ = 0

• log: g(µ) = log µ


• complementary log log: g(µ) = log(− log(1 − µ))
5.3. Regresi Logistik 43

5.3 Regresi Logistik


Pada Bagian 3.3 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2 × 2 ini
baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua je-
nis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanya
mempunyai lebih dari satu variabel penjelas atau faktor X. Untuk data penelitian
semacam ini dapat digunakan regresi logistik.

5.3.1 Model dan Estimasi Parameter


Misalkan Yi adalah variabel random Bernoulli untuk individu i, distribusi proba-
bilitas YI adalah

P (Yi = yi ) = πiyi (1 − πi )1−yi , yi = 0, 1 (5.1)

Setiap individu i mempunyai karakteristik berupa variabel xi yang mempengaruhi


πi dalam bentuk
1
πi = (5.2)
1 + exp(−(β0 + β1 xi ))

Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk vari-
abel independen atau faktor yang lebih dari satu, fungsi untuk πi dapat diperluas
menjadi

1 eZ
πi = , atau π i = (5.3)
1 + e−Z 1 + eZ
dengan Z = β0 + β1 x1 + β1 x1 + · · · + βp adalah fungsi linear dari p variabel
penjelas.
Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel indepen-
den seperti halnya pada model linear sebagai berikut
πi
log = β0 + β1 x1i + β2 x2i + · · · + βp xpi (5.4)
1 − πi
atau

logit(πi ) = β0 + β1 x1i + β2 x2i + · · · + βp xpi (5.5)

dengan x1i , x2i , . . . , xpi adalah variabel independen, faktor atau kovariat; dan
β0 , β1 , . . . , βp adalah parameter model.
5.3. Regresi Logistik 44

Estimasi untuk β = (β0 , β1 , . . . , βp ) dapat diperoleh dengan MLE untuk


fungsi likelihood berikut ini
n
Y
L(β) = P (Yi = yi )
i=1
[exp(β0 + β1 x1i + β2 x2i + · · · + βpi )]yi
= (5.6)
1 + exp(β0 + β1 x1i + β2 x2i + · · · + βpi )
Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk
estimasi β̂ dan kesalahan standarnya SE(β̂).

5.3.2 Interpretasi Parameter Model


Untuk model regresi logistik sederhana

logit(πi ) = β0 + β1 xi (5.7)

dengan
(
0 i tdk terpapar
xi =
1 i terpapar

dapat dituliskan
 
πi
log = β0 + β1 xi
1 − πi
πi
= exp [β0 + β1 xi ]
1 − πi
atau

oddsxi = exp [β0 + β1 xi ] ,

yang diinterpretasikan sebagai odds seseorang yang mempunyai karakteristik xi .


Untuk orang yang terpapar (exposed), nilai xi = 1 dan odds-nya ditulis sebagai
oddsxi =1 . Demikian juga untuk orang yang tidak terpapar, odds-nya ditulis seba-
gai oddsxi =0 .
Sehingga odds ratio antara orang yang terpapar (xi = 1) dengan yang tidak
terpapar (xi = 0) adalah

oddsxi =1 eβ0 +β1 ×1 eβ0 +β1


OR = = β0 +β1 ×0 = β0
oddsxi =0 e e
β1
= e . (5.8)
5.3. Regresi Logistik 45

Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik
sederhana adalah OR. Jika variabel X kontinu, kenaikan m-unit untuk satu vari-
abel penjelas X, misalnya X = x + m dibandingkan dengan X = x mempunyai
OR sama dengan exp(mβ1 ).
Estimasi titik dan interval konfidensi (1 − α)100% untuk OR dapat dihitung
asalkan estimasi β̂1 dan standar error-nya σ̂(βˆ1 ) diperoleh.
c = exp(βˆ1 )
OR (5.9)

exp(βˆ1 ± Zα/2 σ̂(βˆ1 )) (5.10)

Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan vari-
abel penjelas bertipe kontinu maupun kategori. Secara umum OR antara individu
atau kelompok yang mempunyai karakteristik x1 dengan individu atau kelompok
yang mempunyai karakteristik x0 adalah sebagai berikut:
odds(πx1 )
OR =
odds(πx0 )
exp(β0 + β1 x11 + β2 x12 + . . . + βp x1p )
=
exp(β0 + β1 x01 + β2 x02 + . . . + βp x0p )
( p )
X
= exp βj (x1j − x0j ) . (5.11)
j=1

Untuk menyederhanakan penulisan, indeks i yang biasa digunakan untuk me-


nunjukkan suatu individu dihilangkan. Karakteristik x1 adalah vektor yang
bernilai (x11 , x12 , . . . , x1p ) dan karakteristik x0 adalah vektor yang bernilai
(x01 , x02 , . . . , x0p ).
Untuk menghitung interval konfidensi (1 − α)100% OR diperlukan nilai stan-
dard error dari log(OR) c yang mempunyai bentuk umum
v ( p )
u
u X
c = tVar
SE[log(OR)] βj (x1j − x0j ) . (5.12)
j=1

Sehingga interval konfidensi 95% nya adalah


 
c ± 1,96 × SE[log(OR)]
exp log(OR) c (5.13)

Bentuk umum di atas dapat juga digunakan untuk menyusun interval kon-
fidensi suatu model regresi logistik yang memuat interaksi. Dalam Bagian 4.4
telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang
5.3. Regresi Logistik 46

dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terli-
bat dalam model interaksi. Dengan menggunakan model regresi, termasuk model
regresi logistik, masalah tersebut dapat diatasi.
Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X1 , X2 , X3 .
Model yang menjadi perhatian adalah
logit(π) = β0 + β1 X1 + β2 X1 + β3 X3 (5.14)
dengan X1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabel
yang menjadi perhatian, X2 dan X3 dianggap sebagai confounder. Variabel X2
dan X3 dapat bertipe kontinu maupun kategori, misal X2 adalah usia dalam tahun,
dan X3 adalah jenis kelamin dengan X3 = 0 jika perempuan, X3 = 1 jika laki-
laki. Variabel X1 kemungkinan berinteraksi dengan salah satu X2 atau X3 .
Misal ingin dihitung OR antara seorang laki-laki yang terpapar dan berusia 40
tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalam
hal ini nilai x1 = (X11 = 1, X12 = 40, X13 = 1) dan x0 = (X01 = 0, X02 =
40, X03 = 1). Menggunakan (5.11) OR x1 terhadap x0 adalah:
( 3 )
X
OR = exp βj (X1j − X0j )
j=1
= exp {β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 )}
= exp {β1 (1 − 0) + β2 (40 − 40) + β3 (1 − 1)}
= exp {β1 } (5.15)
Meskipun rumusan OR yang diperoleh pada regresi logistik ganda (5.15) sama de-
ngan yang diperoleh pada regresi logistik sederhana (5.8) namun nilainya berbe-
da. Dalam (5.15) nilai OR dikatakan sudah diselaraskan (adjusted, controlled)
dengan variabel X2 dan X3 sedangkan pada (5.8) tidak diselaraskan, perhitungan
hanya dari variabel utama X1 saja. Interval konfidensi 95% dapat menggunakan
standard error untuk log(OR) atau SE(β̂1 ), yaitu exp(log(OR) ± 1,96 × σ̂(β̂1 )).
Misalkan model yang menjadi perhatian sekarang adalah model dengan inter-
aksi
logit(π) = β0 + β1 X1 + β2 X1 + β3 X3 + β4 X1 X2 + β5 X1 X3 . (5.16)
Rumusan OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan
seorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi:
( 3 )
X
OR = exp βj (X1j − X0j )
j=1
= exp{β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 ) +
β4 (X11 X12 − X01 X02 ) + β4 (X11 X13 − X01 X03 )}
5.3. Regresi Logistik 47

= exp{β1 (1 − 0) + β2 (40 − 40) + β3 (1 − 1) +


β4 (1 × 40 − 0 × 40) + β5 (1 × 1 − 0 × 1)}
= exp{β1 + 40β4 + β5 } (5.17)

Estimasi OR untuk model regresi logistik dengan interaksi ini tidak sama dengan
OR untuk model regresi logistik tanpa interaksi. Estimasi standard error log(OR)
juga berbeda dan lebih rumit.

Var[log(OR)] = Var (β1 + 40β4 + β5 )


= Var(β1 ) + 402 Var(β4 ) + Var(β5 ) + 2(40)Kov(β1 , β4 ) +
2Kov(β1 , β5 ), (5.18)
p
jadi SE[log(OR)] = Var[log(OR)] memerlukan nilai Variansi estimator β1 , β4 ,
β5 dan Kovariannya.
Program statistik standar biasanya mampu menghitung β̂ maupun Kov(β̂)
yang diperlukan untuk interval konfidensi. Beberapa program sudah dilengkapi
pula dengan output batas interval konfidensi untuk OR-nya.
Contoh 5.1
Merujuk data pada Tabel 3.4 tentang hubungan antara penyakit jantung koroner dengan
tekanan pekerjaan, telah dihitung estimasi untuk RR, OR dan RD sebagai berikut:

Estimasi titik Interval Konfidensi 95%


Risk ratio (RR) 1,932 1,555 — 2,399
Odds ratio (RR) 2,225 1,696 — 2,922
Risk difference (RD) 0,116 0,071 — 0,161

Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik seder-
hana logit(πi ) = β0 + β1 xi , i = 1, . . . , 2013 (ada 97 + 307 + 200 + 1409 = 2013
subyek dalam studi tersebut). Variabel respon Yi bernilai 1 jika i terkena penyakit jan-
tung koroner, bernilai 0 jika tidak; variabel dependen (faktor) Xi bernilai 1 jika i tertekan
karena pekerjaan, bernilai 0 jika tidak. Estimasi β0 dan β1 dapat dilakukan dengan meng-
gunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimal
menampilkan hasil estimasi β dan standard error nya. Untuk data di atas diperoleh hasil
sebagai berikut:

Estimasi titik standard error


Insersep β̂0 = −1,952 σ̂(β̂0 ) = 0,0756
Tertekan karena pekerjaan β̂1 = 0,800 σ̂(β̂1 ) = 0,1388

Untuk menghitung RR antara subyek atau kelompok yang tertekan karena pekerjaan de-
ngan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasi πi dari model
logistik logit(πi ) = −1,952 + 0,800xi .
5.4. Regresi Poisson 48

Resiko atau probabilitas kondisional subyek terkena jantung koroner jika dia tertekan
karena pekerjaan adalah

π̂xi =1 = P (yi = 1 | xi = 1)
= alogit(−1,952 + 0,800xi )
= alogit(−1,952 + 0,800 × 1)
= alogit(−1,152)
= 0,240

dengan alogit adalah fungsi invers dari logit


exp(u)
alogit(u) = (5.19)
1 + exp(u)
Dengan cara yang sama dapat dihitung resiko subyek terkena jantung koroner jika dia
tidak tertekan karena pekerjaan, yaitu π̂xi =0 = 0,124. Estimasi titik untuk risk ratio,
odds ratio dan risk difference dapat dihitung menggunakan π̂xi =1 dan π̂xi =0 .
Estimasi odds ratio juga dapat dihitung menggunakan persamaan (5.8) atau secara umum
d = exp(0,800) = 2,225. Interval konfidensi untuk OR dapat
(5.11). Dalam contoh ini OR
d = exp(β̂1 ), atau log(OR)
dihitung menggunakan σ̂(β̂1 ) karena dalam model ini OR d =
β̂1 . Diperoleh interval konfidensi untuk OR dengan batas bawah exp(0,800 − 1,96 ×
0,1388) dan batas atas exp(0,800 + 1,96 × 0,1388) atau (1,696 – 2,292), yang sama
dengan hasil yang diperoleh pada contoh 3.4 di muka.
Standard error untuk RR dan RD tidak mudah dihitung berdasarkan π̂xi =1 dan π̂xi =0 se-
hingga dalam praktek estimasi dan interval konfidensi untuk RR dan RD dengan meng-
gunakan regresi logistik tidak banyak digunakan.

5.4 Regresi Poisson


5.4.1 Model dan Estimasi Parameter
Distribusi Poisson biasanya digunakan untuk memodelkan cacah kejadian dalam
suatu unit interval waktu, atau daerah tertentu. Distribusi probabilitas Poisson
mempunyai fungsi probabilitas sebagai berikut
θx e−µ
P (Y = y | µ) = , y = 0, 1, 2, . . . (5.20)
y!
yang mempunyai mean dan variansi sama yaitu µ.
Banyaknya pasien yang datang di unit gawat darurat per hari, banyaknya ke-
matian akibat kanker per orang-tahun (person-years), banyaknya kematian bayi
per 1000 kelahiran merupakan contoh fenomena yang dapat dimodelkan dengan
5.4. Regresi Poisson 49

distribusi Poisson. Dalam contoh tersebut ada dua komponen yang mencirikan
distribusi Poisson, yaitu banyaknya sukses atau cacah kejadian (events) dan unit
dimana banyaknya sukses tersebut terjadi. Mean µ dari distribusi Poisson adalah
rate banyaknya sukses dibagi total unit.
Regresi Poisson memodelkan mean µ sebagai fungsi dari variabel independen
dan besarnya unit. Regresi Poisson dengan satu variabel independen dituliskan
sebagai berikut:

E(Yi | Xi ) = µi = si λ(xi ) (5.21)


= si exp(β0 + β1 xi ), atau
log µi = log si + β0 + β1 xi (5.22)

dengan Yi adalah banyaknya sukses pada unit i, si adalah ukuran besarnya


tiap unit i, λ(xi ) dinamakan resiko unit i dan xi adalah variabel independen,
i = 1, 2, . . . , n. Ukuran unit si dapat berupa banyaknya anggota populasi, in-
terval waktu, luasan, exposure time dan sebagainya. Dalam model regresi Poisson
ini karakteristik suatu unit yang dinyatakan dengan variabel independen xi mem-
pengaruhi µ melalui probabilitas resiko λ.
Dengan asumsi Yi berdistribusi Poisson, diperoleh fungsi likelihood:
n
Y
L(β) = P (Yi = yi )
i=1
n
Y [si λ(xi )]yi exp[−si λ(xi )]
=
i=1
yi !
Yn
[si exp(β0 + β1 xi )]yi exp[−si exp(β0 + β1 xi )]
= (5.23)
i=1
yi !

Untuk mengestimasi β dan kesalahan standarnya SE(β̂) dapat digunakan bebe-


rapa program statistika seperti R, STATA, SPSS atau SAS.

5.4.2 Interpretasi Parameter Model


Untuk model regresi Poisson sederhana

log µi = log si + β0 + β1 xi (5.24)

dengan
(
0 i tdk terpapar
xi =
1 i terpapar
5.4. Regresi Poisson 50

Dapat dihitung rasio antara mean antara unit i yang terpapar dengan yang tidak
terpapar sebagai berikut
E(Yi | Xi = 1)
RR =
E(Yi | Xi = 0)
si exp(β0 + β1 )
=
si exp(β0 )
= eβ1 (5.25)

Dengan menggunakan pendekatan Poisson untuk Binomial, rasio di atas dapat


diinterpretasikan sebagai relative risk atau risk ratio RR. Pendekatan ini akan
cukup baik jika probabilitas atau resiko kejadian kecil (rare events) dengan ukuran
unit yang cukup besar.
Contoh 5.2
Merujuk pada Contoh 3.3 tentang pengaruh rokok pada kematian, telah dihitung insidensi
untuk kelompok perokok dan bukan perokok dalam satuan per 1000 orang, yaitu untuk
perokok adalah 4,43 dan untuk bukan perokok adalah 2,58. Rasio resiko untuk meninggal
antara perokok dan bukan perokok adalah RR = 4,43/2,58 = 1,72. Regresi Poisson
sederhana dapat digunakan untuk menghitung RR beserta interval konfidensinya. Dengan
menggunakan paket program statistik diperoleh estimasi untuk β0 dan β1 beserta standard
error nya sebagai berikut β̂0 = −5,9618, SE(β̂0 ) = 0,0995 dan β̂1 = 0,5422, SE(β̂1 ) =
0,1072.
c = exp(β̂1 ) = exp(0,5422) = 1,72
RR
c ± 1,96SE(β̂1 ) atau
Interval konfidensi 95% untuk RR adalah eksponensial dari log(RR)
(1,4 – 2,1).

Seperti model regresi logistik, regresi Poisson dapat diperluas untuk banyak
variabel (regresi Poisson ganda) sebagai berikut:

log µi = log si + β0 + β1 xi + . . . + βp xp (5.26)

dengan x1 , x2 , . . . , xp adalah variabel dependen dan β1 , β2 , . . . , βp adalah koe-


fisien regresi Poisson. Model regresi Poisson juga dapat digunakan untuk men-
ganalisis interaksi seperti halnya pada model regresi logistik. Cara penghitungan
RR dan interval konfidensi pada regresi Poisson juga mengikuti prinsip penghi-
tungan OR dan interval konfidensinya pada regresi logistik.
Contoh 5.3
Merujuk kembali pada Contoh 3.3, insidensi untuk tiap kelompok umur dan status
merokok pada Tabel 3.1 dapat dihitung menggunakan rumus (3.9). Misalnya untuk pe-
rokok dalam kelompok umur 35 − 44, estimasi insidensi kematian adalah 32/52407 =
5.4. Regresi Poisson 51

0,00061061 atau karena bilangan insidensi kecil biasanya dikalikan dengan suatu konstan
besar misalnya 100.000, jadi insidensinya adalah 61,06 kematian per seratus ribu orang.
Dengan cara yang sama dapat dihitung nilai insidensi yang lain seperti pada Tabel 5.1.
Untuk membandingkan insidensi dapat dihitung RR perokok dan bukan perokok dalam
kelompok umur yang sama. Misalnya RR untuk perokok dibanding bukan perokok dalam
kelompok umur 35 − 44 adalah 61,06/10,64 = 5,74. Nilai RR yang lain dapat dilihat
pada Tabel. Plot insidensi menurut status merokok dan usia dapat dilihat pada Gambar
5.1. Dapat dilihat pada Tabel 5.1 dan Gambar 5.1 bahwa tingkat kematian untuk perokok
lebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelom-
pok usia lanjut.

Tabel 5.1: Insidensi dan RR kematian akibat jantung koroner menurut umur
dan status merokok

Kel. Insidensi Rasio Resiko


Umur perokok bukan perokok (RR)
35 – 44 61,06 10,64 5,74
45 – 54 240,47 112,43 2,14
55 – 64 719,98 490,37 1,47
65 – 74 1468,85 1083,17 1,36
75 – 84 1918,38 2120,38 0,90
2000
kematian per 100.000 per tahun

1500
1000
500
0

35−44 45−54 55−64 65−74 75−84

kelompok umur

Gambar 5.1: Tingkat kematian akibat penyakit jantung koroner per 100.000
person-years untuk perokok N dan bukan perokok •
5.4. Regresi Poisson 52

Tabel 5.2: Estimasi parameter model (5.27)

Parameter Estimasi β SE
β0 -9,15 0,71
β1 1,75 0,73
β2 2,36 0,76
β3 3,83 0,73
β4 4,62 0,73
β5 5,29 0,73
β6 -0,99 0,79
β7 -1,36 0,76
β8 -1,44 0,76
β9 -1,85 0,76

Untuk menganalisis data ini dapat digunakan beberapa alternatif model regresi Poisson
ganda. Model pertama memuat semua kombinasi tingkat faktor dari status merokok mau-
pun kelompok umur. model ini disebut sebagai saturated model karena banyaknya data
sama dengan banyaknya parameter. Model dibentuk dengan membuat variabel-variabel
boneka (dummy) untuk kelompok umur dengan interaksi variabel-variabel tersebut de-
ngan status merokok. Modelnya adalah sebagai berikut:

log µi = log(si ) + β0 + β1 x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i +


β6 x1i x2i + β7 x1i x3i + β8 x1i x4i + β9 x1i x5i
i = 1, 2, . . . , 10 (5.27)

dengan

• µi : mean dari kematian

• si : person-years

• x1i : perokok atau bukan;

• xki , k = 2, 3, . . . , 5: kelompok umur 35 − 44, 45 − 54, . . ., 75 − 84

• x1i xki , h = 2, 3, . . . , 5: interaksi (hasil kali) antara x1i dengan kelompok umur xki

Diperoleh estimasi seperti pada Tabel 5.2. Untuk mengestimasi insidensi untuk tiap-
tiap kombinasi status merokok dan kelompok umur dapat digunakan nilai estimasi
(β0 , . . . , β9 ) dan nilai variabelnya. Misalnya untuk perokok dalam kelompok umur 35
– 44 akan dihitung estimasinya menggunakan model (5.27). Dalam kelompok ini x1 = 1
(perokok), x2 = 0 (kelompok usia 35 – 44) dan interaksinya x1 x2 = 0, nilai variabel
5.4. Regresi Poisson 53

yang lain adalah 0, jadi estimasinya adalah


µ = exp(β̂0 + β̂1 xi + . . . + β̂9 x1 x5 )
= exp(−9,15 + (1,75)(1) + (2,36)(0) + (3,83)(0) + (4,62)(0) + (5,29)(0) +
(−0, 99)(0) + (−1, 36)(0) + (−1, 44)(0) + (−1, 85)(0))
= exp(−7,40) = 0,0006106
atau 61,06 per 100.000 orang seperti pada Tabel 5.1. Untuk mengestimasi banyak-
nya kematian, nilai estimasi ini dikalikan dengan si (person years) pada kelompok ter-
sebut. Untuk perokok dalam kelompok umur 35 – 44 diketahui si = 52407, atau
0,0006106(52407) = 32 yang nilainya sama dengan data pada Tabel 3.1. Nilai insid-
ensi pada kombinasi tingkat faktor yang lain dapat dihitung dengan cara serupa.
Resiko relatif antara perokok dan bukan perokok (RR) untuk setiap kelompok dapat pula
dihitung berdasarkan model regresi Poisson (5.27) dengan hasil estimasi pada Tabel 5.2.
Misalnya untuk kelompok usia 45 – 54,

c= estimasi insidensi untuk kelompok perokok usia 45 – 54


RR
estimasi insidensi untuk kelompok bukan perokok usia 45 – 54
Estimasi insidensi untuk kelompok perokok usia 45 – 54 adalah
n
exp β̂0 + β̂1 (1) + β̂2 (1) + β̂3 (0) + β̂4 (0) + β̂5 (0)+
o
β̂6 (1)(1) + β̂7 (1)(0) + β̂8 (1)(0) + β̂9 (1)(0) = exp(β̂0 + β̂1 + β̂2 + β̂6 )

Sedangkan untuk kelompok bukan perokok usia 45 – 54 adalah


n
exp β̂0 + β̂1 (0) + β̂2 (1) + β̂3 (0) + β̂4 (0) + β̂5 (0)+
o
β̂6 (0)(1) + β̂7 (0)(0) + β̂8 (0)(0) + β̂9 (0)(0) = exp(β̂0 + β̂2 )

Menggunakan nilai estimasi β1 dan β6 diperoleh

c = exp(β̂0 + β̂1 + β̂2 + β̂6 )


RR
exp(β̂0 + β̂2 )
= exp(β̂1 + β̂6 )
= exp(1,75 + (−0,99)) = exp(0,76) = 2,14.
c ini sama seperti pada Tabel 5.1 untuk kelompok umur 45 – 54. Interval konfi-
Nilai RR
c
densinya dapat dihitung dengan terlebih dahulu menghitung standard error dari log RR
yaitu
q
c =
SE(log RR) Var(β̂1 + β̂6 )
q
= Var(β̂1 ) + Var(β̂6 ) + 2Kov(β̂1 , β̂6 )
5.4. Regresi Poisson 54

Program statistik standar biasanya menghitung matriks variansi dan kovariansi dari
estimator β selain nilai estimasi β nya sendiri. Diperoleh Var(β̂1 ) = 0,5313,
c = 0,5313 + 0,6242 +
Var(β̂6 ) = 0,6242 dan Kov(β̂1 , β̂6 ) = −0,5313, jadi SE(log RR)
2(−0,5313) = 0,0930. Interval konfidensi 95% untuk RR pada kelompok usia 45 – 54
c ± 1,96SE(log RR))
adalah exp(log RR c atau exp(log(2,14) ± 1,96(0,0930)), yaitu (1,782
c
– 2.566). Cara penghitungan RR dan interval konfidensi nya untuk kelompok usia yang
lain dapat dilakukan dengan cara yang sama.

Contoh 5.4
Alternatif model regresi Poisson (5.27) adalah menganggap kelompok usia sebagai vari-
abel kontinu, misalnya dengan mengambil nilai median interval masing-masing kelom-
pok umur, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya de-
ngan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar
5.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkan
adanya interaksi.

log µi = log(si ) + β0 + β1 x1i + β2 x2i + β3 x1i × x2i + β4 x21i , i = 1, . . . , 10 (5.28)

dengan

• µi : mean dari kematian

• si : person-years

• x1i : perokok atau bukan;

• x2i : usia 1, 2, 3, 4, 5 ;

• x1i × x2i : interaksi (hasil kali) antara x1i dengan x2i ;

• x21i : kuadrat umur

Diperoleh hasil estimasi β dan standard error nya seperti pada Tabel 5.3. Model (5.28)

Tabel 5.3: Estimasi parameter model (5.28)

Parameter Estimasi β SE
β0 -19,700 1,2530
β1 2,364 0,6562
β2 0,356 0,0363
β3 -0,002 0,0003
β4 -0,0308 0,0097

memiliki lebih sedikit parameter dibandingkan model (5.27) dan kecocokan yang lebih
baik dilihat dari nilai AIC (Akaike Information Criterion) yaitu nilai AIC 66,70, lebih
kecil dibanding model (5.27) yaitu 75.07. Namun memberi nilai numerik pada variabel
5.5. Latihan 55

kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dari
interval ke rasio. Apabila umur sebenarnya dari setiap individu diketahui, lebih baik di-
gunakan nilai variabel umur ini dalam model.
Resiko relatif dapat dihitung dengan cara yang sama seperti contoh 5.3. Misalkan
ingin diestimasi RR antara perokok dan bukan perokok untuk usia 50 tahun, maka

c = estimasi insidensi untuk kelompok perokok usia 50


RR
estimasi insidensi untuk kelompok bukan perokok usia 50
exp(β̂0 + β̂1 (1) + β̂2 (50) + β̂3 (1)(50) + β̂4 502 )
=
exp(β̂0 + β̂1 (0) + β̂2 (50) + β̂3 (0)(50) + β̂4 502 )
= exp(β̂1 (1) + β̂3 (1)(50))
= exp(2,364 + (−0,002)(50))
= 9,622
c dihitung dengan terlebih dahulu menghitung nilai
Interval konfidensi untuk RR
c yaitu
SE(log RR),
q
c =
SE(log RR) Var(β̂1 ) + 502 Var(β̂3 ) + 2Kov(β̂1 D, β̂3 )

Batas bawah dan atas interval konfidensi 95% adalah (exp(log RR c ± 1,96SE(log RR))),
c
yang dapat dihitung asalkan nilai matrik variansi-kovariansi β diketahui.

5.5 Latihan
5.1. Mengacu soal nomor 2.8, misalkan digunakan regresi logistik logit(π) =
β0 + β1 X, dengan X bernilai 1, jika menggunakan helm, 0 jika tidak;
(a) Hitung nilai estimasi β0
(b) Hitung nilai estimasi β1
5.2. Diberikan model regresi logistik logit(πi ) = β0 + β1 xi , dengan
(
−1 jika subyek i tidak terpapar
Xi =
1 jika subyek i terpapar

Berapakah OR antara individu yang terpapar dengan yang tidak terpapar?


5.3. Respiratory Distress Syndrome (RDS) merupakan salah satu penyakit
penyebab utama kematian bayi. Gangguan fisiologis seperti kekurangan ok-
sigen dan tingkat keasaman tinggi dalam darah diperkirakan menjadi penye-
bab RDS. Suatu penelitian cross-sectional tentang RDS dilakukan pada 50
bayi dengan variabel respon adalah SURVIVAL (1: mati, 0: hidup) dan vari-
abel penjelas TREATMNT (tipe tritmen untuk menetralisasi asam dalam
5.5. Latihan 56

darah, 1: THAM, 0: sodium carbonate); TIME (lama waktu yang diper-


lukan bayi untuk bernapas kembali, dalam menit), WEIGHT (Berat lahir,
kilogram), RESP (Terapi pernafasan, 1: Ya, 0:Tidak), AGE (usia gestasional
atau lama bayi/janin dalam kandungan, minggu). Diperoleh output regresi
logistik dari sebuah paket statistik sebagai berikut:

Variable B S.E. Wald df Sig R Exp(B)


TREATMNT .94 .78 1.44 1 .22 .00 2.56
TIME .04 .10 .14 1 .70 .00 1.04
WEIGHT 3.94 1.62 5.85 1 .91 .24 51.50
RESP -1.88 .82 5.26 1 .02 -.22 .15
AGE -.35 .24 2.05 1 .15 -.02 .69
Constant 4.10 5.80 .50 1 .47

(a) Hitung estimasi probabilitas untuk bayi yang mendapatkan tritmen 1,


lama waktu bernafas kembali 2 menit, berat lahir 1,05 kg, tidak men-
dapat terapi pernafasan dan usia gestasional 28 minggu!
(b) Hitung interval konfidensi 95% untuk OR (odds ratio) antara tritmen
(TREATMNT) 1: THAM dengan 0: sodium carbonate!
(c) Hitung estimasi RR (risk ratio) antara tritmen (TREATMNT) 1: THAM
dengan 0: sodium carbonate dan nilai variabel yang lain sama un-
tuk masing-masing tritmen, yaitu TIME=2, WEIGHT=1,05 , RESP=0
AGE=28!

5.4. Ingin diteliti apakah status sosial (variabel SOC, 1= kelas sosial tinggi,
0=kelas sosial rendah) berpengaruh terhadap mortalitas akibat penyakit jan-
tung (variabel CVD, 1=meninggal karena penyakit jantung, 0=meninggal
bukan karena penyakit jantung). Variabel lain yang dipandang penting
adalah status merokok (variabel SMK, 0=tidak merokok, 1=merokok) dan
tekanan darah sistolik (SBP, variabel kontinu). Dari follow-up study sela-
ma 12 tahun terhadap 200 pria yang berusia 50 tahun atau lebih diperoleh
estimasi parameter model logistik sebagai berikut:
Model 1: Model 2:
Variable Estimasi β Variable Estimasi β
Intersep −1,1800 Intersep −1,1900
SOC −0,5200 SOC −0,5000
SBP 0,0400 SBP 0,0100
SMK −0,5600 SMK −0,4200
SOC × SBP −0,0330
SOC × SMK 0,1750

(a) Tuliskan formulasi model logistik untuk Model 1 dan Model 2!


5.5. Latihan 57

(b) Hitung Risk Ratio meninggal karena CVD untuk status sosial tinggi
terhadap status sosial rendah berdasarkan Model 1 dan Model 2, untuk
perokok yang tekanan darah sistoliknya 150!
(c) Berapakah Odds Ratio meninggal karena CVD untuk status sosial
tinggi terhadap status sosial rendah setelah diselaraskan oleh variabel
yang lain (adjusted for other variables) berdasarkan Model 1 dan Mo-
del 2?

5.5. Diberikan model regresi Poisson log(µi ) = log si + −6,757 + 0,304xi ,


dengan si adalah ukuran tiap unit i, µi adalah unit ke-i dan
(
−1 jika subyek i tidak terpapar
Xi =
1 jika subyek i terpapar

Hitung estimasi RR antara individu yang terpapar dengan yang tidak terpa-
par!

5.6. Diperoleh data banyak kasus (N) kanker kulit untuk dua daerah A dan B
dan untuk kelompok umur sebagai berikut:
Daerah A Daerah B
Kel. umur N populasi N populasi
15 – 24 1 172 675 4 181 343
25 – 34 16 123 065 38 146 207
35 – 44 30 96 216 119 121 374
Lakukan analisis dengan menggunakan regresi Poisson untuk data di atas
(gunakan paket statistik)!
6
Uji Diagnostik

6.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan Sensitivitas, Spesifisitas dan Nilai Prediksi beserta teori yang
mendasarinya
2. Menghitung dan menginterpretasikan kurva ROC, untuk suatu data diagno-
sis

6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi


Untuk menentukan sakit atau tidaknya seseorang diperlukan diagnosa medis yang
tepat. Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengo-
batan. Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mus-
tahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam program
preventif penyakit. Dalam hal ini diagnosis sering disebut sebagai screening, yaitu
menjaring orang yang mungkin berpotensi untuk menderita suatu penyakit terten-
tu.
Dalam diagnosis ataupun screening digunakan suatu prosedur atau tes untuk
melihat apakah seseorang menderita penyakit tertentu atau tidak. Kegiatan diag-
nostik dapat dipandang sebagai probabilitas peristiwa-peristiwa sebagai berikut:
T + : diagnosa atau screening menunjukkan tes positif
T − : diagnosa atau screening menunjukkan tes negatif
D+ : kenyataannya positif ada penyakit
D− : kenyataannya tidak ada penyakit (negatif)
Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkan
probabilitas-probabilitas bersyarat di bawah ini:

58
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi 59

Sensitivitas (sensitivity): Yaitu probabilitas tes akan positif jika seseorang pada
kenyataannya memang sakit, Sens = P (T + | D+)
Spesifisitas (specificity): Yaitu probabilitas tes akan negatif jika seseorang pada
kenyataannya memang tidak sakit, Spec = P (T − | D−)
Nilai Prediksi + (Predictive Value +): Yaitu probabilitas seseorang sakit jika
hasil tes menunjukkan hasil positif, PV+ = P (D+ | T +)
Nilai Prediksi - (Predictive Value -): Yaitu probabilitas seseorang tidak sakit jika
hasil tes menunjukkan hasil negatif, PV− = P (D− | T −)
Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisi-
tas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas
dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah
kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah
diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes
diagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan cara
dibandingkan dengan tes lain yang dianggap paling tepat (gold standar test).
Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah,
apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu pe-
nyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diag-
nostik tersebut.
Nilai prediksi positif dapat diturunkan menggunakan Teorema Bayes:

PV+ = P (D+ | T +) (6.1)


P (D+ ∩ T +)
= (6.2)
P (T +)
P (D+)P (T + | D+)
= (6.3)
P (D+)P (T + | D+) + P (D−)P (T + | D−)
Prevalence × Sensitivity
= . (6.4)
prev. × sens. + (1 − prev.) × (1 − spec.)
Demikian pula untuk Nilai prediksi negatif,

PV− = P (D− | T −) (6.5)


P (D− ∩ T −)
= (6.6)
P (T −)
P (D−)P (T − | D−)
= (6.7)
P (D−)P (T − | D−) + P (D+)P (T − | D+)
(1 − Prevalence) × Specificity
= . (6.8)
(1 − prev.) × spec. + prev. × (1 − sens.)
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi 60

Tabel 6.1: Hasil cytological test

T− T+ Total
D− 23.362 362 23.724
D+ 225 154 379

Contoh 6.1
Suatu tes sitologi (cytological test) dilakukan untuk screening kanker rahim pada wanita.
Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderita
kanker rahim (dengan tes yang dianggap sebagai gold standar). Diperoleh data seperti
pada Tabel 6.1. Hitung sensitivity dan specificity tes tersebut!
Jawab:

154
sens = = 0,406
379
= 40,6%

23,362
spec = = 0,985
23,724
= 98,5%

Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut:

• Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampir
pasti akan negatif ( specificity = 98,5% cukup besar)

• Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak ter-
deteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%)

Suatu alat atau prosedur diagnostik biasnya sudah dilengkapi dengan nilai sen-
sitivitas dan spesifisitas sehingga ketika digunakan untuk diagnosis, nilai predik-
tivitas positif (PV+) maupun nilai prediktivitas negatif (PV−) dapat dihitung
asalkan nilai prevalensi juga diketahui. Untuk nilai sensitivitas dan spesifisitas
yang tertentu dan tetap, semakin besar prevalensi nilai PV+ akan semakin besar
sedangkan PV− akan semakin kecil.
Contoh 6.2
Table 6.2 menyajikan PV+ dan PV− yang dihitung berdasarkan persamaan (6.1) dan
(6.5) untuk berbagai nilai prevalensi dengan spec=98,5% dan sens=40,6%. Terlihat bahwa
PV+ dan PV− nilainya terpengaruh oleh prevalensi, semakin besar prevalensi PV+ akan
semakin besar sedangkan PV− akan semakin kecil.
6.3. Kurva ROC 61

Tabel 6.2: Nilai PV+ dan PV- untuk berbagai nilai prevalensi

prevalensi PV+ PV-


0,0010 0,0264 0,999
0,0157 0,3015 0,990
0,0500 0,5876 0,969
0,1000 0,7505 0,937
0,5000 0,9644 0,624

6.3 Kurva ROC


Kurva ROC (receiver operating characteristic) digunakan apabila respon diagno-
sis atau (screening test) lebih dari dua jenis respon atau berupa bilangan kontinu.
Kurva ini pada awalnya digunakan di dunia militer untuk penyelidikan tentang
deteksi sinyal oleh radar.
Kurva ini menghubungkan nilai sensitivitas dengan 1-spesifisitas, dimana titik
pada kurva bersesuaian dengan batas cut-off point yang digunakan untuk menen-
tukan tes positif. Area di bawah kurva ROC dapat digunakan untuk menilai keaku-
ratan suatu diagnosis. Semakin besar luasan di bawah kurva ROC, semakin akurat
suatu diagnosis.
Contoh 6.3
Dari 109 pasien syaraf diperoleh skor hasil interpretasi CT image (computed tomographic
image) oleh seorang radiolog seperti pada Tabel 6.3. Status penyakit untuk setiap pasien
telah diketahui berdasarkan diagnosis yang dianggap paling benar (gold standard). Tidak

Tabel 6.3: Skor dari radiolog untuk hasil CT image pasien syaraf

Status Skor dari radiolog ∗


Penyakit (D) (1) (2) (3) (4) (5) Total
Normal (D−) 33 6 6 11 2 58
Abnormal (D+) 3 2 2 11 33 51
Abnormal (D+) 36 8 8 22 35 109
∗ (1) hampir pasti normal; (2) mungkin normal; (3) tidak dapat ditentukan (4) mungkin abnormal;
(5) hampir pasti abnormal

seperti contoh sebelumnya, dalam data ini tidak diberikan kriteria untuk menentukan tes
positif atau negatif. Sehingga untuk menentukan sensitivitas maupun spesifitasnya digu-
nakan titik batas (cut-off point) yang berbeda-beda. Misalnya jika digunakan titik batas
suatu pasien dikatakan positif sakit adalah skor 4 ke atas (skor 4 atau 5) maka sensitivitas
tes adalah (11 + 33)/51 = 0,86, sedangkan spesifitasnya adalah (33 + 6 + 6)/58 = 0,78.
Dengan cara yang sama dapat dihitung sensitivitas maupun spesifitas untuk titik batas
yang lain seperti pada Tabel 6.4. Plot antara sensitivitas dengan 1 − spesifisitas adalah
kurva ROC untuk skor radiolog ini (Gambar 6.1).
6.3. Kurva ROC 62

Tabel 6.4: Sensitivitas dan Specifisitas berdasarkan beberapa kriteria tes


positif

Kriteria tes positif sensitivitas spesifitas 1-spesifitas


1 ≤ skor 1,00 0,00 1,00
2 ≤ skor 0,94 0,57 0,43
3 ≤ skor 0,90 0,67 0,33
4 ≤ skor 0,86 0,78 0,22
5 ≤ skor 0,65 0,97 0,03
5 < skor 0,00 1,00 0,00
b
(0.43, 0.94) (1.00, 1.00)
b
b
b (0.33, 0.90)
(0.22, 0.86)

b
(0.03, 0.65)
sensitivitas

(0.00, 0.00)
1-specifisitas
Gambar 6.1: Kurva ROC untuk skor radiolog.

Hasil suatu tes atau prosedur diagnostikyang berupa data ordinal, interval atau
kontinu dapat dianalisis sensitivitas dan sepesifitasnya dengan kurva ROC seperti
pada contoh 6.3. Kurva ROC juga dapat digunakan untuk membandingkan bebe-
rapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas
area di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 6.2,
prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh.
Luas di bawah kurva ROC dapat dihitung dengan aturan trapezoid.
Contoh 6.4
Merujuk contoh 6.3, hitung luas area di bawah kurva ROC dan interpretasinya!
Jawab:
Luas area LROC di bawah kurva ROC adalah

LROC = 0,5(0 + 0,65)0,03 + 0,5(0,65 + 0,86)(0,22 − 0,03) + 0,5(0,86 + 0,90)(0,33 − 0,22)


+0,5(0,90 + 0,94)(0,43 − 0,33) + 0,5(0,94 + 1,0)(1,0 − 0,43)
= 0,895
6.4. Latihan 63

sensitivitas

1-specifisitas

Gambar 6.2: Perbandingan Kurva ROC.

Dapat disimpulkan bahwa radiolog tersebut dapat membedakan individu yang nor-
mal dengan yang abnormal berdasarkan skor CT nya dengan probabilitas sebesar
89,5%.

6.4 Latihan
6.1. Dalam diagnostik atau screening ukuran apakah yang terpengaruh oleh
prevalensi? Jelaskan!

6.2. Cara pembandingan apakah yang paling tepat untuk dua macam tes diag-
nostik yang hasilnya berupa suatu bilangan kontinu nonnegatif (seperti mi-
salnya serum kolesterol, tekanan darah, dst)? Jelaskan!

6.3. Tabel di bawah menunjukkan hasil penggunaan x-ray sebagai tes screening
untuk tuberkulosis:
Tuberkulosis
X-ray Tidak Ya
Negatif 1739 8
Positif 51 22
Hitung sensitivitas, spesifisitas dan prevalensi berdasarkan tabel di atas!

6.4. Suatu tes digunakan untuk mendiagnosis pasien Alzheimer’s dan demen-
6.4. Latihan 64

tia. Disease atau D+ pada tabel di bawah ini adalah dementia (kepikunan).
skor Tes D− D+
0–5 0 2
6–10 0 1
11–15 3 4
16–20 9 5
21–25 16 3
26–30 18 1
46 16
(a) Jika digunakan titik batas skor ≤ 20 untuk mengidentifikasi dementia,
hitung sensitivitas dan spesifitas tes ini!
(b) Buatlah kurva ROC dari tabel data di atas!
(c) Hitung area di bawah kurva ROC dan interpretasikan hasilnya!
7
Analisis Data Longitudinal

7.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Mengidentifikasi data longitudinal dalam permasalahan epidemiologi dan
penelitian kesehatan

2. Melakukan statistika deskriptif (ringkasan statistik dan grafik) untuk data


longitudinal

3. Melakukan inferensi menggunakan model regresi untuk data longitudinal

7.2 Deskripsi Data longitudinal


Banyak penelitian dalam bidang kedokteran, kesehatan dan epidemiologi yang
menggunakan desain pengumpulan data longitudinal.
Yang dimaksud dengan data longitudinal adalah
• Individu (subyek, unit sampel) diamati dalam suatu periode waktu tertentu
lebih dari satu kali

• Pengukuran berulang pada suatu individu (subyek, unit sampel)


Data longitudinal mempunyai kelebihan dibandingkan data yang hanya
dikumpulkan satu kali saja (cross-sectional). Keuntungan ini dapat diilustrasikan
seperti pada Gambar 7.1. Akan lebih mudah melihat informasi bahwa kemam-
puan membaca semakin naik atau semakin menurun seiring dengan umur bila
individu diamati lebih dari satu kali.
Jenis data yang berkaitan dengan data longitudinal diantaranya adalah:

65
7.2. Deskripsi Data longitudinal 66

b
b
Kemampuan Membaca

Kemampuan Membaca
b
b

b b

b b

b b b b

b b b b

b
b

b
b

Umur Umur
Gambar 7.1: Data longitudinal

• Data Panel

• Data Survival, Antar Kejadian (Event History)

• Data Runtun Waktu

Beberapa keuntungan menggunakan data longitudinal dibandingkan dengan


data cross-sectional:

• Dapat digunakan untuk mengetahui pola perubahan

• Setiap individu dapat menjadi kontrol bagi dirinya sendiri

• Dapat membedakan efek dari umur dengan efek dari cohort maupun efek
dari periode

• Memungkinkan untuk meneliti kausalitas

Secara umum data longitudinal mempunyai struktur seperti pada Tabel 7.1.
Seperti halnya dalam semua metode statistika, sebelum melakukan analisis
perlu dilakukan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranya
adalah:

• tampilkan sebanyak mungkin data mentah daripada hanya ringkasannya

• tonjolkan pola atau ringkasannya

• identifikasilah baik pola cross-sectional maupun longitudinal

• identifikasilah individu atau observasi yang tidak biasa (outliers)


7.2. Deskripsi Data longitudinal 67

Tabel 7.1: Bentuk umum data longitudinal

subyek observasi waktu response kovariat


1 1 t11 y11 x111 ... x11p
1 2 t12 y12 x121 ... x12p
.. .. .. .. .. .. ..
. . . . . . .
1 n1 t1n1 y1n1 x1n1 1 ... x1n1 p
2 1 t21 y21 x211 ... x21p
2 2 t22 y22 x221 ... x22p
.. .. .. .. .. .. ..
. . . . . . .
2 n1 t2n1 y2n1 x2n1 1 ... x2n1 p
.. .. .. .. .. .. ..
. . . . . . .
m 1 t21 ym1 xm11 ... xm1p
m 2 t22 ym2 xm21 ... xm2p
.. .. .. .. .. .. ..
. . . . . . .
m nm t2n1 ymn1 x2m1 1 ... xmn1 p

Paket statistik standard biasanya menyediakan fasilitas untuk data eksplorasi


seperti scatter plot matrix dan lowess plot. Dalam bagian ini penggunaan dan
interpretasi eksplorasi data longitudinal akan dijelaskan dalam contoh namun tek-
nis pengerjaannya tidak dibahas secara khusus.
Contoh 7.1
Suatu studi dilakukan untuk merehabilitasi pasien stroke. Ada 3 perlakuan dalam studi
ini, yaitu:

A Terapi yang baru

B Program rehabilitasi yang sekarang digunakan dalam rumah sakit yang sama

C Program perawatan biasa yang dilakukan dalam rumah sakit yang lain

Setiap kelompok perlakuan terdiri dari 8 pasien yang diamati selama 8 minggu. Respon
yang diperoleh adalah Bartel index, yaitu skor yang menunjukkan kemampuan fungsional
pasien, nilai yang tinggi menunjukkan kemampuan yang baik (maksimum 100).
Data longitudinal dapat disusun seperti dalam bentuk melebar, yaitu satu baris data
menunjukkan satu individu yang dapat diobservasi beberapa kali seperti pada Tabel 7.2.
Data longitudinal dapat pula disusun memanjang yang mana satu baris menunjukkan satu
observasi pada suatu individu (Tabel 7.3). Bentuk data memanjang ini merupakan bentuk
yang biasa digunakan dalam komputasi data longitudinal yang notasi secara umum adalah
seperti pada Tabel 7.1.
7.2. Deskripsi Data longitudinal 68

Tabel 7.2: Data longitudinal bentuk melebar satu baris per-individu

subyek kovariat respon (pada minggu ke-)


(perlakuan) 1 2 3 4 5 6 7 8
1 A 45 45 45 45 80 80 80 90
2 A 20 25 25 25 30 35 30 50
3 A 50 50 55 70 70 75 90 90
4 A 25 25 35 40 60 60 70 80
5 A 100 100 100 100 100 100 100 100
6 A 20 20 30 50 50 60 85 95
7 A 30 35 35 40 50 60 75 85
8 A 30 35 45 50 55 65 65 70
9 B 40 55 60 70 80 85 90 90
10 B 65 65 70 70 80 80 80 80
11 B 30 30 40 45 65 85 85 85
12 B 25 35 35 35 40 45 45 45
13 B 45 45 80 80 80 80 80 80
14 B 15 15 10 10 10 20 20 20
15 B 35 35 35 45 45 45 50 50
16 B 40 40 40 55 55 55 60 65
17 C 20 20 30 30 30 30 30 30
18 C 35 35 35 40 40 40 40 40
19 C 35 35 35 40 40 40 45 45
20 C 45 65 65 65 80 85 95 100
21 C 45 65 70 90 90 95 95 100
22 C 25 30 30 35 40 40 40 40
23 C 25 25 30 30 30 30 35 40
24 C 15 35 35 35 40 50 65 65
100

A
80

B
60
skor

C
40
20

2 4 6 8

minggu

Gambar 7.2: Profile plot Bartel Index selama waktu penelitian dan
lowess plot setiap kelompok terapi
7.2. Deskripsi Data longitudinal 69

Tabel 7.3: Data longitudinal bentuk memanjang satu baris satu observasi

subyek observasi respon kovariat


(minggu ke-) (perlakuan)
1 1 45 A
1 2 45 A
1 3 45 A
1 4 45 A
1 5 80 A
1 6 80 A
1 7 80 A
1 8 90 A
..
. ...
9 1 40 B
9 2 55 B
9 3 60 B
9 4 70 B
9 5 80 B
9 6 85 B
9 7 90 B
9 8 90 B
..
. ...

Respon dari data longitudinal yang berupa Bartel index ini dapat ditampilkan berupa
profile plot yaitu plot nilai respon untuk tiap-tiap individu. Untuk melihat kecenderun-
gan kelompok-kelompok dalam data, yang dalam contoh ini adalah jenis terapi A, B dan
C, dapat ditampilkan plot yang mewakili masing-masing kelompok menggunakan fungsi
penghalusan (smoothing) nonparametrik lowess. Gambar 7.2 adalah profile plot dari res-
pon Bartel index dengan lowess plot untuk kelompok terapi A, B dan C. Terlihat bahwa
terapi A mempunyai kemiringan yang paling menonjol dibandingkan terapi yang lain.
Untuk melihat korelasi antar minggu pengamatan dihitung korelasi bivariat untuk
8 minggu dan scatterplot matrix nya seperti pada Gambar 7.3. Terlihat bahwa pada
minggu pengamatan yang berdekatan korelasi linear antara nilai Bartel index cukup be-
sar.

Untuk data yang berukuran cukup besar, baik banyaknya individu maupun
observasi berulangnya dapat digunakan profile plot untuk semua individu dan
plot beberapa individu yang dipilih secara random. Sebagai contoh, Gambar 7.4
adalah plot antara banyaknya sel CD4+ dengan waktu sejak zeroconversion un-
tuk penderita AIDS. Karena individu cukup banyak (369 individu dengan total
observasi 2376) dalam plot itu selain plot untuk keseluruhan individu, plot untuk
beberapa individu yang dipilih secara random juga ditampilkan. Lowess plot ke-
seluruhan individu untuk melihat kecenderungan banyaknya del CD4 juga ditam-
7.3. Model Regresi Data longitudinal 70

20 80 20 80 20 80 20 80

20 100
m1 0,93 0,88 0,83 0,79 0,71 0,62 0,55
20 100

m2 0,92 0,88 0,85 0,79 0,70 0,64

m3 0,95 0,91 0,85 0,77 0,70

20
m4 0,92 0,88 0,83 0,77
20

m5 0,97 0,91 0,88

20
100

m6 0,96 0,93
20

100
m7 0,98

20
100

m8
20

20 80 20 80 20 80 20 80

Gambar 7.3: Scatterplot matrix Bartel Index untuk pasangan 8 minggu


pengamatan dan nilai korelasinya

pilkan. Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasien
AIDS didiagnosis menderita penyakit tersebut.

7.3 Model Regresi Data longitudinal


Seperti halnya model regresi biasa, permasalahan ilmiah diformulasikan sebagai
model regresi yang terdiri dari variabel respon dan variabel penjelas. Dua hal
penting yang perlu diperhatikan, secara alamiah dalam data longitudinal terdapat
variabel yang berubah sepanjang waktu (time-varying explanatory variables) dan
korelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atau
observasi berulang. Dua hal ini harus dimasukkan dalam pemodelan.
Berikut adalah notasi yang digunakan dalam analisis data longitudinal meru-
juk pada bentuk umum data longitudinal (Tabel 7.1):
7.3. Model Regresi Data longitudinal 71

2500
Banyaknya sel CD4+

1500
500
0

−2 0 2 4

Lama (tahun) sejak seroconversion

Gambar 7.4: Contoh eksplorasi data dengan plot

• Individu: i = 1, . . . , m

• Observasi pada individu i: jh = 1, . . . , ni


P
• Total observasi: N = m i=1 ni

• Waktu observasi aktual: tij

• Variabel respon:
variabel random respon observasi
Yij yij
Yi = (Yi1 , . . . , Yini ) yi = (yi1 , . . . , yini )
Y = (Y1 , . . . , Ym ) y = (y1 , . . . , ym )
• Variabel independen:
xij = (xij1 , . . . , xijp )T , vektor berukuran p × 1
Xi = (xi1 , . . . , xini ), matriks berukuran ni × p

• Mean Yi untuk individu i: E(Yi ) = µi


7.3. Model Regresi Data longitudinal 72

• Variansi Yi ; Matriks Kovariansi ni × ni untuk individu i:


 
vi11 . . . vi1ni
Var(Yi ) =  . . . vijk . . . 
vini 1 . . . vini ni

dengan vijk = Cov(Yij , Yik )

7.3.1 Naive Model


Model ini mengasumsikan semua observasi independen, kemudian model dianali-
sis seperti regresi linear ganda biasa. Model ini sering disebut pula sebagai pooled
analysis,
Contoh 7.2
Merujuk ke contoh 7.1, naive model untuk data Bartel index dari hasil terapi pasien stroke
adalah sebagai berikut

E(Yi | Xi ) = β0 + β1 X1i + β2 X2i + β3 X3i , i = 1, . . . , N (7.1)

dengan (
1 i mendapat perlakuan B
X1i =
0 i mendapat perlakuan selain B
(
1 i mendapat perlakuan C
X2i =
0 i mendapat perlakuan selain C
dan X3i = 1, 2, . . . , 8 adalah minggu pengamatan; banyaknya observasi N = 24 × 8 =
192, yang diperoleh dari 24 pasien (terbagi dalam 3 grup perlakuan) dan diamati selama
8 minggu. Struktur data yang digunakan adalah seperti pada Tabel 7.1 atau 7.3.
Karena terapi kemungkinan berinteraksi dengan lamanya minggu pengamatan, model
yang memuat interaksi antara terapi dengan waktu menjadi alternatif naive model yang
lain seperti di bawah ini:

E(Yi | Xi ) = β0 + β1 X1i + β2 X2i + β3 X3i + (7.2)


β4 (X1i × X3i ) + β5 (X2i × X3i ), i = 1, . . . , N

dengan (X1i × X3i ) dan (X2i × X3i ) adalah interaksi antara perlakuan dengan waktu.
Tabel 7.4 adalah hasil estimasi parameter kedua model tersebut di atas.
7.3. Model Regresi Data longitudinal 73

Tabel 7.4: Hasil estimasi naive model (7.1) dan model (7.2)

Parameter Estimasi SE
Model (7.1):
β0 36,84 3,971
β1 -5,63 3,715
β2 -12,11 3,715
β3 4,76 0,662
Model (7.2):
β0 29,82 5,774
β1 3,35 8,166
β2 -0,02 8,166
β3 6,32 1,143
β4 -1,99 1,617
β5 -2,69 1,617

7.3.2 Model Linear Umum untuk Data Longitudinal


Model linear umum merupakan perluasan dari model linear (ANAVA, Regresi,
ANACOVA) dengan bentuk variansi-kovariansi yang lebih umum. Estimasi pa-
rameter untuk model ini dapat dilakukan dengan Generalized Least-Squares atau
dengan Maximum Likelihood Estimation atau perluasan dari kedua metode terse-
but, terutama dalam memodelkan matriks variansi-kovariansinya.
Dalam model linear umum ini, data observasi yi merupakan realisasi dari vari-
abel random Yi yang dimodelkan sebagaimana berikut
Yi = Xi β + ǫi (7.3)
dengan Xi adalah ni × p matriks variabel independen β adalah vektor-p koefisien
regresi, ǫi adalah vektor ni sesatan (error) yang berdistribusi N (0, Vi ) dengan Vi
adalah ni × ni matriks kovariansi untuk individu i.
Model (7.3) dapat ditulis sebagai satu model (tidak menunjuk ke i tertentu)
dengan menggabungkan semua observasi menurut kolom (variabel independen
dan respon) menjadi
Y = Xβ + ǫ (7.4)
dengan ǫ ∼ N (0, V). Karena antar subyek dianggap independen maka σ 2 V
adalah blok diagonal matriks yang terdiri atas n × n blok σ 2 Vi (matriks variansi
vektor observasi pada suatu subyek).
Dikenal banyak bentuk korelasi antar dua observasi pada satu subyek misalnya
korelasi uniform dan eksponensial. Korelasi Uniform mempunyai bentuk
Vi = (1 − ρ)I + ρI (7.5)
7.3. Model Regresi Data longitudinal 74

dengan ρ adalah korelasi I adalah matrik identitas, Jb adalah matriks ni × ni


dengan anggota semuanya 1. Dalam model korelasi ini ini antar observasi pa-
da satu individu dianggap tidak independen namun besar korelasinya sama yang
diekspresikan sebagai ρ. Korelasi Eksponensial mempunyai bentuk

vjk = σ 2 exp(−φ(| tj − tk |)) (7.6)

dengan vjk = Cov(Yij , Yik ). Korelasi eksponensial mengasumsikan bahwa kore-


lasi antar dua pengukuran akan menurun menuju nol seiring dengan membesarnya
jarak antar observasi.
Contoh 7.3
Merujuk ke contoh 7.1 dan 7.2, dalam contoh ini digunakan model (7.4) untuk menganal-
isis data Bartel index pada pasien stroke. Model yang digunakan sama seperti (7.1) dan
(7.2) namun model korlasinya ditentukan uniform dan eksponensial bukan model korelasi
independen Hasil estimasinya dapat dilihat pada Tabel 7.5 ditampilkan bersama dengan
estimasi naive model contoh 7.2. Nilai AIC model (7.2) dengan korelasi eksponensial

Tabel 7.5: Hasil estimasi naive model dan model linear umum dengan bentuk
korelasi uniform dan eksponensial

Parameter Estimasi (SE)


Naive korelasi uniform korelasi eksponensial
Model (7.1):
β0 36,84 (3,971) 36,84( 7,308) 39,96 (7,363)
β1 -5,63 (3,715) -5,63(10,177) -9,75 (9,935)
β2 -12,11 (3,715) -12,11(10,177) -16,30 (9,935)
β3 4,76 (0,662) 4,76( 0,282) 4,62 (0,490)
(AIC=1707,897) (AIC=1467,559) (AIC=1324,897)
Model (7.2):
β0 29,82 (5,774) 29,82( 7,497) 33,39( 7,937)
β1 3,35 (8,166) 3,35(10,603) -0,12(11,225)
β2 -0,02 (8,166) -0,02(10,603) -6,23(11,225)
β3 6,32 (1,143) 6,32( 0,467) 6,08( 0,844)
β4 -1,99 (1,617) -1,99( 0,661) -2,14( 1,193)
β5 -2,69 (1,617) -2,69( 0,661) -2,24( 1,193)
(AIC=1703,614) (AIC=1452,715) (AIC=1320,321)

adalah yang terkecil dibandingkan yang lain. Jadi model dengan interaksi antara terapi
dengan lama minggun pengamatan dan dengan korelasi antar pengamatan yang semakin
mengecil (korelasi eksponensial) adalah yang terbaik.

Data dengan distribusi respon yang lain, misalnya respon biner, cacah dapat
dianalisis dengam metode GLM untuk data berkorelasi (data longitudinal) mi-
7.4. Latihan 75

salnya Generalized Estimating Equation (GEE). Alternatif pemodelan yang lain


seperti random effects model juga dimungkinkan.

7.4 Latihan
7.1. Mengacu soal nomor 2.6 pada halaman 11, dengan anggapan ada interaksi
antara perlakuan dengan waktu, tuliskan model regresi data longitudinal
yang perlu untuk dianalisis!

7.2. Tinjau model

Yij = β0 + βxij + ǫij , j = 1, . . . , n; i = 1, . . . , m

dengan variabel random ǫij mempunyai mean 0.

(a) Carilah β̂, yaitu estimasi kuadrat terkecil untuk β


(b) Tunjukkan bahwa β̂ merupakan estimasi yang bias bila model yang
benar adalah

Yij = β0 + βC xi1 + βL (xij − xi1 ) + ǫij

7.3. Diketahui data 30 tikus percobaan yang diberi perlakuan secara random ke
dalam tiga grup perlakuan (Tabel 7.6). Grup 1 adalah kontrol berupa air
minum biasa, grup 2 adalah thiouracil dalam air minum tikus, grup 3 adalah
thyroxin dalam air minum tikus. Thyroxin berpengaruh meningkatkan
metabolisme tubuh. Sebailknya thiouracil akan menurunkan metabolisme
tubuh. Berat badan tikus diukur dalam interval waktu mingguan sampai
mingggu ke-empat. Variabel grup adalah perlakuan, tikus adalah nomor
identitas tikus dalam grup bb0, bb1, bb2, bb3, bb4 adalah berat badan
tikus mulai awal penelitian samapi minggu ke-empat.

(a) Lakukan eksplorasi pada data longitudinal tersebut!


(b) Lakukan analisis data longitudinal dan ambil kesimpulan analisisnya!
7.4. Latihan 76

Tabel 7.6: Data berat badan tikus

grup tikus bb0 bb1 bb2 bb3 bb4


1 1 57 86 114 139 172
1 2 60 93 123 146 177
1 3 52 77 111 144 185
1 4 49 67 100 129 164
1 5 56 81 104 121 151
1 6 46 70 102 131 153
1 7 51 71 94 110 141
1 8 63 91 112 130 154
1 9 49 67 90 112 140
1 10 57 82 110 139 169
2 1 61 86 109 120 129
2 2 59 80 101 111 122
2 3 53 79 100 106 133
2 4 59 88 100 111 122
2 5 51 75 101 123 140
2 6 51 75 92 100 119
2 7 56 78 95 103 108
2 8 58 69 93 114 138
2 9 46 61 78 90 107
2 10 53 72 89 104 122
3 1 59 85 121 146 181
3 2 54 71 90 110 138
3 3 56 75 108 151 189
3 4 59 85 116 148 177
3 5 57 72 97 120 144
3 6 52 73 97 116 140
3 7 52 70 105 138 171
8
Analisis Data Survival

8.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:

1. Mengidentifikasi data survival dalam permasalahan epidemiologi dan


penelitian kesehatan

2. Menjelaskan fungsi-fungsi yang digunakan dalam data survival

3. Melakukan inferensi untuk fungsi survival menggunakan metode Kaplan-


Meier

4. Melakukan analisis data menggunakan regresi parametrik untuk data sur-


vival misalnya dengan model regresi Weibull

5. Melakukan analisis data menggunakan regresi Cox untuk data survival

8.2 Fungsi Survival dan Hazard


Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatu sta-
tus) lebih lama daripada t
S(t) = P (T > t) (8.1)
S(t) adalah fungsi non-increasing terhadap waktu t dengan sifat
(
1 untuk t = 0
S(t) = (8.1)
0 untuk t = ∞

77
8.2. Fungsi Survival dan Hazard 78

1.0
0.8
0.6
S(t)

0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0

Gambar 8.1: Grafik dua fungsi survival

Fungsi survival S(t) mempunyai hubungan dengan distribusi kumulatif F (t)


sebagai berikut
S(t) = 1 − F (t) (8.1)
Penduga untuk S(t) bila data tidak tersensor
s
Ŝ(t) = (8.2)
N
dimana s adalah banyaknya individu yang masih hidup lebih lama dari t ; N
adalah total banyaknya individu
Fungsi Hazard menunjukkan tingkat (rate) terjadinya suatu event yang dide-
finisikan sebagai

P (t ≤ T < t + ∆t | T ≥ t)
h(t) = lim (8.2)
∆t→0 ∆t
Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard
dapat bernilai berapa saja asalkan non-negative, h(t) ≥ 0. Gambar 8.2, 8.3, 8.4
dan 8.5 adalah contoh beberapa macam fungsi hazard.
8.2. Fungsi Survival dan Hazard 79

5
4
3
h(t)

2
1
0

0.0 0.5 1.0 1.5 2.0

Gambar 8.2: Fungsi hazard konstan


5
4
3
h(t)

2
1
0

0.0 0.5 1.0 1.5 2.0

Gambar 8.3: Fungsi hazard naik


8.2. Fungsi Survival dan Hazard 80

5
4
3
h(t)

2
1
0

0.0 0.5 1.0 1.5 2.0

Gambar 8.4: Fungsi hazard naik-turun


5
4
3
h(t)

2
1
0

0.0 0.5 1.0 1.5 2.0

Gambar 8.5: Fungsi hazard bathtub

Fungsi hazard h(t), survival S(t) dan fungsi densitas f (t) mempunyai hu-
bungan sebagai berikut
f (t)
h(t) = (8.2)
S(t)
8.3. Kaplan-Meier dan Life Table 81

Kumulatif integral dari fungsi hazards disebut sebagai Hazard Kumulatif


Z t
H(t) = h(x)dx (8.2)
0

Fungsi ini mempunyai hubungan dengan S(t) sebagai berikut

H(t) = − log S(t) (8.2)

8.3 Kaplan-Meier dan Life Table


Kaplan-Meier merupakan estimator non-parametrik untuk S(t) (sering disebut ju-
ga sebagai Product-Limit estimator)

(
1 jika t < t1
Ŝ(t) = Q di
ti ≤t (1 − Yi ) jika ti ≤ t

dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang bere-
siko (number at risk)
Variansi dari KM estimator, sering disebut sebagai Greenwood’s formula,
adalah
X di
var[Ŝ(t)] = Ŝ(t)2 (8.3)
ti ≤t
Yi (Yi − di )

Sebagai alternatif (8.3), var[Ŝ(t)] dapat diestimasi dari formulasi berikut

[1 − Ŝ(t)]
var[Ŝ(t)] = Ŝ(t)2 (8.4)
Y (t)

Nelson-Aalen merupakan estimator untuk fungsi hazard kumulatif H(t) yang


merupakan kumulatif dari tingkat kejadian (hazard) sampai periode ke-t:
(
0 jika t < t1
Ĥ(t) = P di
ti ≤t Yi jika ti ≤ t

yang mempunyai variansi


X di
ˆ Ĥ(t)) =
Var( (8.5)
Y2
t ≤t i
i
8.3. Kaplan-Meier dan Life Table 82

Contoh 8.1
Diketahui data survival yang dihitung mulai dari awal pemberian perlakuan sampai pasien
meninggal sebagai berikut:

10,12,13,15,16,20,20,24,24,26,26,27,39,42,
45,45,48,52,58,60,61,62,73,75,77,104,120

Hitung estimasi Kaplan-Meier dan Nelson-Aalen!


Jawab:
Hasil hitungan estimasi Kaplan-Meier dan Nelson-Aalen untuk data di atas ada pada Tabel
8.1. Kolom t, d dan Y pada Tabel adalah seperti yang didefinisikan pada rumus Kaplan-
Meier (8.3) maupun Nelson-Aalen (8.5).

Tabel 8.1: Estimasi Kaplan-Meier (KM) dan Nelson-Aalen (NA)

No. t Y d 1 − d/Y Ŝ(t) (KM) Ĥ(t) Ŝ(t) (NA)


1 0 27 0 1 1 0
2 10 27 1 0,963 0,963 0,037 0,963
3 12 26 1 0,962 0,926 0,075 0,927
4 13 25 1 0,960 0,889 0,115 0,890
5 15 24 1 0,958 0,852 0,157 0,854
6 16 23 1 0,957 0,815 0,201 0,818
7 20 22 2 0,909 0,741 0,292 0,747
8 24 20 2 0,900 0,667 0,392 0,676
9 26 18 2 0,889 0,593 0,503 0,604
10 27 16 1 0,938 0,556 0,565 0,568
11 39 15 1 0,933 0,519 0,632 0,531
12 42 14 1 0,929 0,481 0,703 0,495
13 45 13 2 0,846 0,407 0,857 0,424
14 48 11 1 0,909 0,370 0,948 0,387
15 52 10 1 0,900 0,333 1,048 0,350
16 58 9 1 0,889 0,296 1,159 0,313
17 60 8 1 0,875 0,259 1,284 0,276
18 61 7 1 0,857 0,222 1,427 0,240
19 62 6 1 0,833 0,185 1,594 0,203
20 73 5 1 0,800 0,148 1,794 0,166
21 75 4 1 0,750 0,111 2,044 0,129
22 77 3 1 0,667 0,074 2,377 0,092
23 104 2 1 0,500 0,037 2,877 0,056
24 120 1 1 0,000 0,000 3,877 0,020

Pertama data survival diurutkan, kemudian diambil hanya nilai tunggalnya saja
(unique values). Misalnya 20 yang muncul dua kali, hanya diambil satu saja. Sebagai con-
toh perhitungan, diambil baris kedua dari Tabel 8.1. Pada saat t = 10 masih ada 27 pasien
yang belum mendapatkan kejadian dan hanya ada satu saja yang meninggal, jadi Y = 27
dan d = 1. Estimasi Kaplan-Meier saat t = 10 adalah Ŝ(10) = 1 × 0, 963 = 0, 963.
Nilai estimasi hazard kumulatif saat t = 10 adalah Ĥ(10) = 1/27 = 0,037, estimasi
8.3. Kaplan-Meier dan Life Table 83

4
0.8

3
H(t)
S(t)

2
0.4

1
0.0

0
0 20 60 100 0 20 60 100

t t

Gambar 8.6: Plot Estimasi Kaplan-Meier dan Nelson-Aalen.

nilai survival dengan Nelson-Aalen menggunakan hubungan antara S(t) dan H(t), yaitu
Ŝ(t) = exp(−Ĥ(t)), atau Ŝ(t) = exp(−0,037) = 0,9636. Plot Kaplan-Meier dan
Nelson-Aalen dapat dilihat pada Gambar 8.6.

Salah satu permasalahan dalam analisis data survival adalah adanya observasi
yang tidak lengkap yang dinamakan tersensor (censored) dan terpotong (truncat-
ed). Permasalahan yang sering muncul dalam penelitian prospektif atau cohort
biasanya adalah tersensor kanan (right censored), yaitu pada saat akhir penelitian,
subyek belum mendapatkan kejadian. Estimasi Kaplan-Meier maupun Nelson-
Aalen dapat digunakan untuk data yang tidak lengkap seperti ini tanpa perlu
mengestimasi terlebih dahulu data yang tersensor.
Contoh 8.2
Dipunyai data survival pasien untuk dua kelompok perlakuan sebagai berikut:

Grup 1 (n = 21) perlakuan Grup 2 (n = 21) placebo


6, 6, 6, 7, 10, 13, 16, 22, 23, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,
6+, 9+, 10+, 11+, 17+, 19+, 20+, 11, 11, 12, 12, 15, 17, 22, 23
25+, 32+, 32+, 34+, 35+
tanda + menunjukkan tersensor kanan

Dapat dihitung estimasi Kaplan-Meier untuk kelompok terapi adalah seperti pada
Tabel 8.2. Pada data yang tersensor kanan, nilai t diambil untuk yang mendapatkan keja-
dian saja, dengan kata lain nilai t yang diberi tanda + tidak dipakai dalam penghitungan
Kaplan-Meier (kecuali ada nilai yang sama yang tidak tersensor, misalnya 6 dan 10 dalam
contoh ini).
8.4. Membandingkan Distribusi Survival 84

Tabel 8.2: Estimasi Kaplan-Meier untuk grup terapi

t Y d Ŝ(t)
6 21 3 0.857
7 17 1 0.807
10 15 1 0.753
13 12 1 0.690
16 11 1 0.627
22 7 1 0.538
23 6 1 0.448
1.0
0.8

terapi
0.6
S(t)

0.4
0.2

placebo
0.0

0 5 10 15 20

Gambar 8.7: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.

Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar
8.7. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih ting-
gi,dibandingkan grup placebo.

8.4 Membandingkan Distribusi Survival


Membandingkan dua populasi yang masing-masing mempunyai fungsi survival
S1 (t) dan S2 (t). Hipotesis nol untuk uji ini adalah H0 : S1 (t) = S2 (t) dengan
8.4. Membandingkan Distribusi Survival 85

hipotesis alternatif
H1 : S1 (t) > S2 (t)
H1 : S1 (t) < S2 (t)
H1 : S1 (t) 6= S2 (t)
Untuk menguji hipotesis tersebut beberapa Metode Non-parametrik untuk data
yang tidak tersensor seperti metode Wilcoxon, Mann-Whitney dan Sign test dapat
digunakan. Sedangkan untuk data tersensor prosedur yang dapat digunakan di-
antaranya: Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank
test, Peto and Peto’s generalized Wilcoxon test, Cox’s F-test, Gehan’s generalized
Wilcoxon test, the Cox-Mantel test, the logrank test (1972), Peto and Peto’s gen-
eralized Wilcoxon test, dan Cox’s F-test. Satu metode yang akan dibahas dalam
bagian ini adalah Log-rank Test.

Log-rank Test
Prosedur ini didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
(O1 − E1 )2 (O2 − E2 )2
W = + (8.6)
E1 E2
dengan W ∼ χ2 (df = 1). H0 ditolak dengan tingkat signifikasni α bila W >
χ2 (1 − α, df = 1).
Contoh 8.3
Merujuk ke Contoh 8.2, akan diuji apakah fungsi survival grup terapi berbeda dengan
grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 8.3 untuk digunakan dalam
penghitungan 8.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian
(d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.
Diperoleh statistik

(O1 − E1 )2 (O2 − E2 )2
W = +
E1 E2
(9 − 19, 26)2 (21 − 10, 74)2
= + = 15,267
19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
8.5. Model Regresi Data Survival 86

Tabel 8.3: Penghitungan untuk Uji log-rank

t d1 d2 Y1 Y2 e1 e2
1 0 2 21 21 (21/42) × 2 (21/42) × 2
2 0 2 21 19 (21/40) × 2 (19/40) × 2
3 0 1 21 17 (21/38) × 1 (17/38) × 1
4 0 2 21 16 (21/37) × 2 (16/37) × 2
5 0 2 21 14 (21/35) × 2 (14/35) × 2
6 3 0 21 12 (21/33) × 3 (12/33) × 3
7 1 0 17 12 (17/29) × 1 (12/29) × 1
8 0 4 16 12 (16/28) × 4 (12/28) × 4
10 1 0 15 8 (15/23) × 1 (8/23) × 1
11 0 2 13 8 (13/21) × 2 (8/21) × 2
12 0 2 12 6 (12/18) × 2 (6/18) × 2
13 1 0 12 4 (12/16) × 1 (4/16) × 1
15 0 1 11 4 (11/15) × 1 (4/15) × 1
16 1 0 11 3 (11/14) × 1 (3/14) × 1
17 0 1 10 3 (10/13) × 1 (3/13) × 1
22 1 1 7 2 (7/9) × 2 (2/9) × 2
23 1 1 6 1 (6/7) × 2 (1/7) × 2
Total 9 21 19,26 10,74

8.5 Model Regresi Data Survival


Permasalahan dalam biostatistika dan epidemiologi biasanya melibatkan lebih
dari satu variabel atau faktor. Demikian pula untuk data survival, diperlukan mo-
del regresi untuk data survival yang dapat digunakan untuk permasalahan yang
lebih luas dari hanya pembandingan kurva survival saja. Model regresi data sur-
vival tersebut di antaranya

• AFT (accelerated failure-time model)

• model hazard proporsional

• model hazard aditif

Dalam bagian ini akan dibahas dua model regresi survival yaitu AFT dan model
hazard proporsional, khususnya model regresi Cox.
Setiap model regresi survival dapat direpresentasikan sebagai fungsi hazard,
fungsi survival maupun fungsi hazard kumulatif. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model AFT.

h(t | X) = h0 (exp(Xβ)t) exp(Xβ), (8.7)

S(t | X) = S0 (exp(Xβ)t), (8.8)


8.5. Model Regresi Data Survival 87

H(t | X) = H0 (exp(Xβ)t) (8.9)

dengan X adalah matriks (n × p) dari variabel penjelas; β T = (β1 . . . βp ) adalah


vektor (p × 1) parameter regresi; h0 adalah baseline hazard, H0 adalah baseline
hazard kumulatif dan S0 adalah baseline survival.
Model AFT juga dapat direpresentasikan sebagai log T sebagai berikut

log T = µ + Xα + σǫ (8.10)

dengan αT = (α1 . . . αp ) dan µ adalah parameter regresi; ǫ adalah suku error


berdistribusi tertentu dan σ > 0 adalah suatu parameter skala.
Model hazard proporsional didasarkan pada asumsi bahwa proporsi antara dua
kelompok atau dua orang mempunyai hazard yang tetap dan independen terhadap
waktu. Misalkan ada dua orang yang masing-masing mempunyai hazard λ1 = 0, 1
dan λ2 = 0, 3, maka hazard ratio antara dua orang tersebut adalah:
λ2
HR =
λ1
0, 3
= =3
0, 1
Model hazard proporsional dapat dimodelkan secara paramterik maupun non
tau semi-parametrik. Model hazard proporsional semi-parametrik sering dina-
makan sebagai Model regresi Cox. Berikut ini berturut-turut adalah fungsi hazard,
survival dan hazard kumulatif untuk model regresi Cox.

h(t | X) = h0 (t)exp(Xβ) (8.11)

S(t | X) = S0 (t)exp(Xβ ) (8.12)

H(t | X) = H0 (t) exp(Xβ) (8.13)

dengan X, β, h0 , S0 dan H0 sama seperti yang didefinisikan pada model AFT.


Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Mi-
salkan diberikan model regresi Cox dengan satu variabel independen

h(t | x) = h0 (t) exp(xβ)

dengan
(
0 placebo
x =
1 obat baru
8.6. Latihan 88

maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
HR =
h(t | x = 0)
h0 (t) exp(1 × β)
=
h0 (t) exp(0 × β)
= exp(β)
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun
jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .
Kebanyakan program statistik standar seperti SPSS, R, STATA, SAS dan
Minitab dapat mengestimasi nilai β̂ dan standard error nya.

8.6 Latihan
8.1. Diketahui T berdistribusi Uniform
(
1/θ untuk 0 ≤ t ≤ θ
f (t) =
0 t yang lain
Carilah: (i) fungsi survival S(t); dan
(ii) fungsi hazard h(t)
untuk variabel random tersebut!
8.2. Diketahui data survival sebagai berikut:
grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan
Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test (α = 0,025)
8.3. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.
Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-
nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-
nis (grup 1) diperoleh data
8.6. Latihan 89

Grup 1 (n = 25) Grup 2 (n = 25)


12,3+, 5,4, 8,2, 12,2+, 11,7, 5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,
10,0, 5,7, 9,8, 2,6, 11,0, 9,2, 1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,
12,1+, 6,6, 2,2, 1,8, 10,2, 10,7, 2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,
11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8, 8,8, 7,8, 4,7, 3,9
3,0
tanda + menunjukkan tersensor kanan

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan


gambarlah estimasi fungsinya
(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggu-
nakan logrank test (α = 0,025)
(c) Gunakan regresi Cox untuk menganalisis data tersebut, dan band-
ingkan hasilnya dengan uji log-rank

8.4. Data di bawah ini adalah lama hidup 42 pasien leukemia yang mana seten-
gah di antaranya mendapatkan terapi baru dan yang lainnya mendapatkan
terapi standar. Variabel ID adalah nomor identitas pasien; lama adalah
lama survival dalam minggu; relapse adalah indikator meninggal atau tidak
(1=meninggal, 0=tidak); jk adalah jenis kelamin (1=laki-laki, 0=perem-
puan); log WBC adalah nilai log dari banyaknya sel darah putih; dan Rx
adalah terapi (1=terapi standar, 0=terapi baru).

(a) Lakukan analisis KM untuk variabel terapi!


(b) Kategorikan variable log WBC menjadi: rendah jika (02,30), sedang
jika (2,313,00) atau tinggi jika (> 3,00). Lakukan analisis KM untuk
variabel bentukan dari log WBC ini!
(c) Gunakan regresi untuk data survival (regresi Cox atau yang lain) untuk
menganalisis pengaruh terapi, log WBC dan jenis kelamin!
8.6. Latihan 90

Tabel 8.4: Data lama survival pasien lekuemia

ID lama relapse jk log WBC Rx


1 35 0 1 1.45 0
2 34 0 1 1.47 0
3 32 0 1 2.20 0
4 32 0 1 2.53 0
5 25 0 1 1.78 0
6 23 1 1 2.57 0
7 22 1 1 2.32 0
8 20 0 1 2.01 0
9 19 0 0 2.05 0
10 17 0 0 2.16 0
11 16 1 1 3.60 0
12 13 1 0 2.88 0
13 11 0 0 2.60 0
14 10 0 0 2.70 0
15 10 1 0 2.96 0
16 9 0 0 2.80 0
17 7 1 0 4.43 0
18 6 0 0 3.20 0
19 6 1 0 2.31 0
20 6 1 1 4.06 0
21 6 1 0 3.28 0
22 23 1 1 1.97 1
23 22 1 0 2.73 1
24 17 1 0 2.95 1
25 15 1 0 2.30 1
26 12 1 0 1.50 1
27 12 1 0 3.06 1
28 11 1 0 3.49 1
29 11 1 0 2.12 1
30 8 1 0 3.52 1
31 8 1 0 3.05 1
32 8 1 0 2.32 1
33 8 1 1 3.26 1
34 5 1 1 3.49 1
35 5 1 0 3.97 1
36 4 1 1 4.36 1
37 4 1 1 2.42 1
38 3 1 1 4.01 1
39 2 1 1 4.91 1
40 2 1 1 4.48 1
41 1 1 1 2.80 1
42 1 1 1 5.00 1
9
Konsultasi Statistika

9.1 Tujuan Pembelajaran


Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan aktivitas konsultasi statistik

2. Melakukan konsultasi statistik dengan klien adalah pelaku penelitian di


bidang epidemiologi, kesehatan dan ilmu hayati

3. Melakukan analisis data dengan menggunakan suatu paket statistik

4. Memanfaatkan teknologi informasi dalam kegiatan konsultasi statistik

5. Mengidentikasi metode yang tepat untuk suatu permasalahan atau data


dalam bidang epidemiologi, kesehatan dan ilmu hayati, melakukan anali-
sis data dan mengkomunikasikannya hasilnya

9.2 Konsultan Statistik


Konsultan Statistik merupakan profesi yang mungkin akan menjadi pilihan lulu-
san program studi Statistika. Permasalahan yang dikonsultasikan oleh klien bi-
asanya adalah:
• Desain penelitian dan ukuran sampel

• Prosedur analisis statistik yang tepat

• Penggunaan program komputer

• Interpretasi hasil analisis statistik

91
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 92

Selain konsultasi (consulting) dikenal juga istilah kolaborasi (collaboration). Per-


masalahan dalam pekerjaan kolaborasi hampir sama dengan konsultasi tetapi
dalam kolaborasi biasanya statistisi lebih terlibat dan bertanggung-jawab secara
penuh. Dalam suatu proyek penelitian sebagai kolaborator, statistisi biasanya
berhak mendapatkan authorship dalam penulisan laporan atau artikel ilmiah. Dari
semua aktivitas konsultasi, komunikasi informasi statistik ke bidang lain meru-
pakan tantangan bagi statistisi.

9.3 Penggunaan Perangkat Lunak Statistika dan


Teknologi Informasi
Dalam pekerjaan konsultasi, statistisi sering memerlukan alat bantu seperti
perangkat lunak (software) statistik dan teknologi informasi. Banyak perangkat
lunak statistik yang dapat membantu seperti SPSS, Minitab, STATA, SPLUS,
SAS, R yang lebih merupakan perangkat lunak untuk keperluan analisis data se-
cara umum, termasuk untuk biostatistika dan epidemiologi. Ada pula perangkat
lunak yang khusus untuk pekerjaan di bidang biostatistika dan epidemiologi seper-
ti misalnya EPI-INFO. Tentang penggunakan perangkat lunak ini, ada komentar
yang perlu mendapat perhatian

The good news is that statistical analysis is becoming easier and


cheaper. The bad news is that statistical analysis is becoming easi-
er and cheaper. (Hofacker, 1983)

Yang memberi peringatan kepada pengguna perangkat lunak statistik bahwa


perangkat lunak hanyalah alat, bisa berguna dan bisa justru berbahaya. Oleh kare-
na itu statistisi seharusnya benar-benar menguasai alat dan metode yang digu-
nakan.
Keuntungan menggunakan perangkat lunak statistik dibandingkan melakukan
secara manual di antaranya:

• Akurasi dan kecepatan

• Fasilitas dan metode yang digunakan lebih banyak

• Grafik

• Fleksibel

• Manipulasi variabel mudah

• Volume data besar


9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 93

Akses Olah

Data

Presentasi Analisis

Gambar 9.1: Fasilitas atau Kemampuan yang diperlukan dari Perangkat Lunak
Statistik

• Transfer data mudah

Secara umum perangkat lunak statistik setidaknya mempunyai kemampuan

Akses: Memasukkan data (entry data), mengambil data (dari format data yang
lain)

Olah: Mengurutkan, menyeleksi, mentransformasi, mengambil subset data,


menambah data

Presentasi: Membuat deskripsi data, tabel, grafik, ringkasan-ringkasan statistik

Analisis: Melakukan analisis data berdasarkan teori, metode-metode statistika


tertentu atau metode-metode kuantitatif yang lain

yang dapat digambarkan seperti pada Gambar refgb:alat


Tahapan analisis data menggunakan komputer meliputi:

1. Data collection

2. Data entry

3. Data checking

4. Data screening

5. Data analysis
9.4. Ringkasan Metode dan Topik Lanjut 94

6. Checking results

7. Interpretation

Selain itu sebagai konsultan statistik di bidang epidemiologi, kedokter-


an dan ilmu hayati, statistisi setidaknya mengenal berbagai sumber infor-
masi di bidang tersebut, misalnya berupa online-reference dari interner seperti
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
Informasi lain pada jaman teknologi informasi ini lebih mudah dan dapat di-
akses melalui berbagai fasilitas pencarian di internet.

9.4 Ringkasan Metode dan Topik Lanjut


Sebagian besar metode statistik yang digunakan sebagai alat analisis dalam
penelitian di bidang kedokteran, ilmu hayati dan epidemiologi dan sebagian di-
antaranya sudah dibahas dalam diktat ini dapat diringkas seperti pada Tabel 9.1.
Masih banyak metode lain yang tidak semuanya disebutkan dalam ringkasan.
Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Se-
lain itu, masih banyak masalah yang memerlukan pengembangan metode baru
atau modifikasi metode. Misalnya beberapa desain seperti case-cohort, case-
control memerlukan modifikasi metode regresi logistik dan regresi Cox.

9.5 Latihan
9.1. Apakah saudara pernah melakukan kegiatan semacam konsultasi statistika
(profit maupun non-profit)? Bila pernah, sebutkan dalam bidang masalah
apa (epidemologi, pertanian, teknik, dst.) dan metode statistik yang digu-
nakan (Pilih satu saja bila pernah melakukan lebih dari satu kali kegiatan
konsultasi).

9.2. Carilah klien yang mempunyai permasalahan penelitian atau pekerjaan di


bidang epidemiologi, kedokteran atau ilmu hayati. Untuk lingkungan di
perguruan tinggi klien dapat berasal dari fakultas kedokteran, kesehatan
masyarakat, keperawatan, farmasi, kedokteran gigi, biologi dan kedokteran
hewan. Dapat juga dari instansi atau lembaga penelitian di bidang kesehat-
an. Lakukan konsultasi dengan klien, tuliskan laporan dan presentasikan.

9.3. Sebuah studi akan dilakukan untuk mengetahui apakah manajemen (penan-
ganan) terpadu untuk anak balita sakit memang efektif meningkatkan caku-
pan banyaknya anak yang tertangani di puskesmas, meningkatkan kepuasan
9.5. Latihan 95

pasien terhadap pelayanan kesehatan di puskesmas dan mengurangi morta-


litas balita. Apabila saudara diminta menjadi konsultan statistik studi ini
apa saja yang direncanakan mulai dari desain studi sampai dengan kemung-
kinan analisis yang dapat digunakan

9.4. Dari hasil pencarian di pubmed central1 , metode statistik apa yang saudara
temukan paling populer? Menurut saudara mengapa metode tersebut pop-
uler digunakan di bidang epidemiologi dan penelitian kesehatan?

1
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
9.5. Latihan 96

Tabel 9.1: Ringkasan Metode

Respon Variabel penjelas Metode


Kontinu Biner t-test, z-test
Nominal, 2 kategori atau ANAVA
lebih
Ordinal ANAVA
Kontinu Regresi Ganda
Nominal dan kontinu Analisis Kovariansi
Kategorik dan kontinu Regresi Ganda
Biner Kategorik Tabel kontingensi
Regresi Logistik
Kontinu Regresi Logistik, probit
atau
model dose-response
Kategorik dan kontinu Regresi Logistik
Nominal, 2 Nominal Tabel kontingensi
kategori
atau lebih Kategorik dan kontinu Regresi Logistik Nominal
Ordinal Kategorik dan kontinu Regresi Logistik Ordinal
Cacah Kategorik Model Log-linear,
Regresi Poisson
Kategorik dan kontinu Regresi Poisson
Durasi (survival) Biner Log-rank test
Kategorik dan kontinu Survival analysis
Respon berkorelasi Kategorik dan kontinu Generalized Estimating
equation
Multilevels model
Analisis Data
Longitudinal
Analisis Data Panel
Bibliografi

Armitage, P. and Colton, T. (1998). Encyclopedia of Biostatistics, John Wiley and Sons,
Inc.

Beaglehole, R., Bonita, R. and Kjellström, T. (2000). Basic Epidemiology, World Health
Organization.

Chow, S. C. (2000). Encyclopedia of Biopharmaceutical Statistics., John Wiley and Sons,


Inc.

Clayton, D. and Hills, M. (1993). Statistical Models in Epidemiology, Oxford university


Press.

Hofacker, C, F. (1983). Abuse of statistical packages: the case of the general linear model,
Am J Physiol Regul Integr Comp Physiol 245: R299–R302.

Kleinbaum, D. G., Kupper, L. L. and Morgenstern, H. (1982). Epidemiologic Research:


Principles and Quantitative Methods., Wadsworth, Inc.

Last, J. (1995). A Dictionary of Epidemiology, 3rd edn., Oxford University Press.

Le, C. T. (2003). Introductory Biostatistics, John Wiley and Sons, Inc.

97

Anda mungkin juga menyukai