Anda di halaman 1dari 31

Penilaian Bukti

Kita telah menyelesaikan pencarian literatur dan mengidentifikasi beberapa bukti.


Sekarang, kita perlu memutuskan apakah hal tersebut valid dan penting sebelum kita
dapat menerapkan bukti pada pasien kita. Urutan di mana kita mempertimbangkan
validitas dan kepentingan tergantung pada preferensi individu. Kita bisa mulai dengan
menilai validitasnya, dengan alasan bahwa jika tidak valid, siapa yang peduli apakah
itu menunjukkan efek yang besar? Atau, kita dapat menentukan kepentingan
klinisnya, dengan alasan bahwa jika bukti tidak menunjukkan dampak penting secara
klinis, siapa yang peduli jika itu valid? Kita bisa mulai dengan sebuah pertanyaan,
selama kita ingat untuk menindaklanjuti satu jawaban yang sesuai dengan pertanyaan
lainnya, dan berpindah ke pertanyaan lain jika salah satu jawaban tidak sesuai.

Terdapat banyak sumber yang berpotensi bias (didefinisikan sebagai penyimpangan


sistematis dari kebenaran) yang dapat mempengaruhi validitas studi dan dengan
demikian mempengaruhi apakah kita percaya hasil mereka. Kami tidak akan
menjelaskan semua sumber bias potensial di sini (kami merujuk Anda ke beberapa
bacaan klasik yang tercantum di akhir bagian ini). Sebaliknya, dalam bab-bab
berikutnya, kita akan membahas beberapa sumber utama bias dalam berbagai jenis
studi yang perlu kita pertimbangkan agar kita dapat menjadi konsumen literatur yang
efektif.

Terdapat beberapa ciri yang umum untuk menilai sebagian besar studi seperti terapi,
diagnosis, prognosis, dan etiologi/merugikan. Paul Glasziou menyarankan agar kita
mempertimbangkan analogi perlombaan untuk mengilustrasikan kesamaan ini.

Pertama, apakah awalan studi tersebut bagus? Ini akan mencakup pertimbangan
tentang apa populasi yang diminati. Bagaimana hal tersebut diidentifikasi? Apakah
populasi dipilih dengan tepat? Apakah penugasan untuk intervensi atau paparan
sesuai?

Kedua, apakah intervensi yang diberikan sama? Secara khusus, apakah peserta
penelitian diperlakukan sama? Apakah semua partisipan dapat menyelesaikan studi
(intervensi yang diberikan)?

Ketiga, apakah penyelesaian studi berakhir adil/sama? Apakah ada pengukuran hasil
yang tepat, yaitu blind dan/atau objektif? Apakah analisis hasil sudah sesuai?
Perhatikan bahwa alih-alih analogi perlombaan, kita dapat menggunakan format PICO
dari halaman 21 ketika kita mempertimbangkan validitasnya.

Pertama, apa itu Populasi (siapa pasiennya), yang memerlukan pertimbangan


bagaimana mereka direkrut dan apakah populasi target yang tepat telah diidentifikasi.

Kedua, Intervensi, paparan, atau tes apa yang mereka alami?

Ketiga, apa kelompok Perbandingan, atau Kontrol, dan bagaimana para peserta dipilih
atau dialokasikan?

Keempat, apakah Hasil penting secara klinis diukur secara blind dan/atau objektif, dan
apakah diukur pada waktu yang tepat dari perspektif klinis? Kami akan membahas
masing-masing masalah ini (dan sumber bias potensial) di bab-bab berikutnya.

Seperti disebutkan di halaman 44, ketika kita melakukan pencarian literatur, daripada
mencari hasil dari satu studi, kita harus mencari perpaduan (campur) pengetahuan
yang dicari secara sistematis dan menggabungkan bukti dari semua studi yang relevan
dengan topik, karena akan memberi kita jawaban yang lebih dapat diandalkan untuk
pertanyaan klinis. Perpaduan pengetahuan atau tinjauan sistematis literatur paling
sering ditemukan untuk topik terapi, dan kami akan mengulasnya secara rinci di
halaman 112. Selama 10 tahun terakhir, publikasi tinjauan sistematis telah meledak;
jenis tinjauan dan analisis baru, seperti "network meta analysis", yang telah muncul;
dan target tinjauan baru, seperti panduan prediksi klinis, yang telah ditangani. Apakah
kita sedang mempertimbangkan tinjauan sistematis tentang prognosis, terapi, akurasi
tes diagnostik, atau kerugian, kekhawatiran tentang validitas umum terjadi pada semua
tinjauan sistematis ini.

1. Apakah penelusuran literatur komprehensif?

Pertanyaan ini mencakup pertimbangan apakah penulis memasukkan studi dari


database elektronik yang sesuai; apakah menggunakan sumber tambahan untuk
mengidentifikasi studi, seperti dengan mencari jurnal secara manual atau menghubungi
ahli di bidangnya; dan apakah penulis menempatkan batasan bahasa pada hasil
pencarian mereka.

2. Apakah kualitas dari studi individu dinilai?

Kita ingin melihat bahwa para peneliti secara kritis menilai studi individu untuk
validitas (menggunakan kriteria yang serupa dengan yang kami jelaskan dalam bab-bab
berikutnya) dan bahwa mereka menyediakan metodologi eksplisit untuk ini.

Dalam bab-bab berikutnya, setelah berdiskusi tentang validitas sebuah studi (apakah
studi individu atau tinjauan sistematis), kita akan mempertimbangkan apakah hasil
studi mereka penting. Pembahasan ini akan mencakup pertimbangan besaran
(magnitude) dan ketepatan hasil. Untuk tinjauan sistematis, kita juga ingin
mempertimbangkan heterogenitas, seberapa konsisten hasil dari penelitian ke
penelitian?

Banyak critical appraisal worksheets dan ceklist yang berbeda yang dapat digunakan
saat mempertimbangkan validitas studi individu. Kami telah menyediakan satu format
dalam buku ini, tetapi ada format lain yang mungkin ingin Anda tinjau, termasuk alat
penilaian GATE, yang dikembangkan oleh Rod Jackson
(https://www.fmhs.auckland.ac.nz/en/soph/about/ourdepartments/epidemiology-
and-biostatistics/research/epiq/evidencebased-practice-and-cats.html), dan CASP
tools (http://www.caspuk.net/#!casp-tools-checklists/c18f8). Tidak ada satu cara
untuk menilai secara kritis sebuah studi atau mengajarkan penilaian kritis (memang,
kami hanya dibatasi oleh imajinasi kami!), dan kami mendorong Anda untuk
menemukan strategi yang sesuai untuk Anda dan kolega serta pelajar Anda.
TERAPI
Dalam bab ini, kita akan membahas penilaian kritis sebuah artikel terapi. Kita mulai
dengan mempertimbangkan uji coba individu karena banyak strategi yang kami
gunakan dalam menilai uji coba individu dan dapat diterapkan pada evaluasi jenis studi
lain. Namun, percobaan individu bukanlah bukti kualitas terbaik yang dapat kita
temukan tentang efek terapi kecuali penelitian dalam jumlah besar, dan high-quality
randomized trials. Ada banyak alasan untuk ini. Di satu sisi, uji coba individu mungkin
tidak valid secara internal; dengan kata lain, mungkin ada kelemahan metodologis. Di
sisi lain, metodenya mungkin masuk akal, tetapi mungkin tidak valid secara eksternal;
yaitu, mereka tidak dapat digeneralisasikan untuk konteks klinis kita. Alasannya
mungkin karena populasi yang diteliti dalam uji coba memiliki keterbatasan definisi dan
populasi. Ada faktor lain yang dapat membantu kita menentukan validitas percobaan
individu, yang akan dijelaskan nanti dalam bab ini.

Setelah kami membangun beberapa prinsip dan alat dasar untuk menilai studi individu,
kami akan menggunakannya untuk mengembangkan keterampilan untuk menilai
tinjauan sistematis (SR) dan meta-analisis (MA). MA mengumpulkan hasil dari studi
individu secara kuantitatif. SR dapat mencakup MA tetapi juga dapat membatasi sintesis
pada deskripsi naratif. Dalam hierarki kualitas bukti, ulasan ini memiliki kualitas yang
lebih tinggi dibandingkan dengan uji coba individu karena mereka mengidentifikasi
apakah temuan dalam satu penelitian konsisten di beberapa penelitian, menciptakan
keyakinan yang lebih besar pada hasil.

Setelah menjelaskan percobaan dan ulasan individu, kita akan secara singkat
memeriksa studi kualitatif dan masalah kepatuhan. Studi kualitatif semakin
berkontribusi pada basis bukti karena menawarkan metode untuk menjawab
pertanyaan klinis yang tidak dapat dengan mudah dijawab dengan menggunakan
metode kuantitatif standar. Mereka menggunakan wawancara dan fokus pada grup,
untuk menyebutkan beberapa metodologi, untuk menggambarkan nilai, tujuan, dan
pengalaman pasien atau individu lain.

Terkadang kami ingin memperluas pencarian kami untuk mendukung pengambilan


keputusan kami, di luar dari uji coba individu, SR, dan studi kualitatif. Misalnya,
mungkin ada trade-off antara manfaat dan kerugian dari intervensi. Dalam hal ini, kami
mungkin ingin menangkap analisis keputusan klinis (Clinical Decision Analysis/CDA)
dalam pencarian literatur kami. Dalam tinjauan bab ini tentang analisis keputusan
klinis, kami akan menjelaskan bagaimana alat yang disebut decision tree dapat
digunakan untuk mengevaluasi berbagai kemungkinan terapi dan hasil potensialnya. Ini
mengarah secara alami ke dalam diskusi tentang analisis ekonomi, studi yang
menggabungkan alat analisis keputusan dengan ekonomi untuk memeriksa
minimalisasi biaya, efektivitas biaya, manfaat biaya, atau utilitas biaya.
Kami akan menutup dengan menilai literatur yang berada pada level paling
makroskopik—panduan praktik klinis (clinical practice guidelines/CPGs). Ini
merangkum bukti untuk perancu target tertentu di berbagai aspek perawatan,
termasuk membuat diagnosis, menetapkan prognosis, dan merekomendasikan terapi
yang tepat. Ini akan diikuti oleh penelitian-penelitian yang berada pada tingkat yang
paling mikroskopis—pada tingkat uji coba n-of-1. Kami menggunakan jenis penelitian
ini dalam situasi di mana kami mungkin tidak dapat melacak bukti yang dengan jelas
menjawab pertanyaan tentang terapi yang diajukan oleh pasien kami atau untuk diri
kami sendiri. Studi-studi ini paling baik digunakan untuk penyakit kronis tanpa dasar
bukti yang kuat. Dalam kasus ini, kami dapat membuat penelitian di mana pasien kami
berfungsi sebagai kontrolnya sendiri, menyeberang di antara intervensi (di mana kita
berdua, lebih dipilih, blinded), untuk menentukan jenis strategi manajemen yang
membantu mengendalikan gejala atau mengurangi eksaserbasi.

Pada setiap langkah sepanjang bab ini, kita akan bertanya pada diri sendiri untuk
menentukan apakah penelitian itu valid, penting, dan dapat diterapkan pada situasi kita.
Melaporkan Studi Individu
Kita mulai dengan percobaan individu. Untuk mengilustrasikan diskusi kita, mari kita
pertimbangkan sebuah skenario:

Kita bertemu seorang wanita 62 tahun di klinik untuk mengevaluasi risiko jantungnya.
Dia sebelumnya sehat, hanya diketahui memiliki kelebihan berat badan ringan dengan
peningkatan rasio pinggang-pinggul 0,84. Dia tidak memiliki diabetes, hipertensi, atau
dislipidemia yang diketahui. Dia khawatir karena ayahnya meninggal pada usia 50
tahun setelah serangan jantung. Dia tidak minum obat apa pun atau memiliki alergi
terhadap obat. Dia tidak merokok, minum alkohol, atau menggunakan narkoba. Dia
makan makanan yang seimbang dan berolahraga secara teratur. Dia bertanya apakah
ada peran dari minum obat penurun kolesterol, mirip dengan apa yang diambil
kakaknya, untuk mengurangi risiko serangan jantung.

Berdasarkan skenario ini, kami mengajukan pertanyaan berikut, “Pada pasien dengan
risiko menengah penyakit arteri koroner, apakah penurunan kolesterol menurunkan
risiko infark miokard?” Ingat dari halaman 43 bahwa kita dapat menggunakan mesin
pencari, seperti PubMed Clinical Queries, dan alat, seperti ACP Journal Club, untuk
menemukan bukti yang menjawab pertanyaan kita. Kami menggunakan istilah
pencarian "penurun kolesterol" dan "infark miokard", dan kami mengidentifikasi studi
terbaru yang mungkin membantu kami menjawab pertanyaan ini. Percobaan ini secara
khusus membahas dampak statin pada titik akhir primer komposit kematian dari
penyebab kardiovaskular, infark miokard nonfatal (MI), dan stroke nonfatal, tetapi juga
menawarkan data pada masing-masing komponen individu dari hasil komposit.

Ketika kita menilai studi individu, kita dapat mengambil pendekatan sistematis untuk
menentukan apakah hasilnya valid (Kotak 4.1). Dengan mengajukan pertanyaan-
pertanyaan yang disebutkan di bawah ini, kita dapat dengan cepat menentukan apakah
suatu penelitian layak ditinjau untuk menjawab pertanyaan klinis khusus kita.
Mengingat pertumbuhan bukti yang eksponensial, Pedoman Consolidated Standards of
Reporting Trials (CONSORT) dibuat untuk memastikan bahwa penyelidik melaporkan
hasil randomize control trial (RCT) dengan cara yang transparan dan standar untuk
membantu konsumen bukti menilai temuan mereka dengan andal. Banyak jurnal telah
mengadopsi pernyataan CONSORT untuk pelaporan, dan ini memudahkan kami untuk
meninjau artikel untuk validitas.

*blind: blind yang dimaksud adalah dari penelitian tersebut sampel/probandus tidak
tahu intervensi apa yang diberikan
Kotak 4.1

Apakah bukti tentang terapi ini (dari percobaan acak individu) valid?
Apakah awal dari studi tersebut bagus (fair)?
1. Apakah penugasan pasien untuk pengobatan dilakukan secara acak?
2. Apakah pengacakan disembunyikan?
3. Apakah kelompok-kelompok tersebut serupa pada awal percobaan?
Apakah ada pengelompokan (race) yang baik?
1. Apakah tindak lanjut pasien cukup lama dan lengkap?
2. Apakah semua pasien dianalisis dalam kelompok yang diacak?
Beberapa poin yang lebih baik
1. Siapa yang dibutakan: Apakah pasien, dokter, dan personel penelitian tetap blind
terhadap pengobatan?
2. Apakah kelompok diperlakukan sama, selain dari terapi eksperimental?

Apakah hasil studi individu ini valid?

1. Apakah tindakan pada pasien untuk pengobatan diacak?

Sebelumnya diyakini bahwa hormon replacement therapy (HRT) dapat menurunkan


risiko penyakit arteri koroner (CAD) pada wanita pascamenopause. Keyakinan ini
didasarkan pada data dari beberapa studi observasional yang menemukan bahwa
wanita yang menggunakan HRT memiliki penurunan risiko mengalami kejadian
jantung.

Namun, dalam studi eksperimental berikutnya pada wanita pascamenopause dengan


CAD (studi pencegahan sekunder), pasien diacak untuk menerima HRT atau plasebo
dan para peneliti menemukan bahwa tidak ada penurunan tingkat kejadian jantung
dengan HRT, yang mengejutkan dokter dan pasien! Selanjutnya, studi dari Women's
Health Initiative menemukan bahwa HRT juga tidak efektif dalam pencegahan primer
CAD.

Ini adalah perubahan praktik, untuk sedikitnya, terutama karena HRT secara
bersamaan meningkatkan risiko kanker tertentu dan tromboemboli vena. Ini juga
menjelaskan keterbatasan studi observasional—misalnya, studi kohort atau studi
kasus-kontrol yang mencari pola dalam kumpulan data—dan menyoroti pentingnya
mencoba menguji hipotesis secara eksperimental, menggunakan metode studi seperti
RCT.

Ada banyak contoh randomize trial yang menghasilkan hasil yang mengejutkan,
bertentangan dengan apa yang sebelumnya ditemukan dalam studi observasional atau
bahkan dari hasil yang mungkin kita harapkan berdasarkan "prinsip pertama"
patofisiologi. Misalnya, rangkaian kasus dan laporan kasus bypass arteri ekstrakranial-
intrakranial (EC/IC) menyarankan bahwa operasi ini dapat mengurangi risiko stroke
iskemik, tetapi percobaan acak bypass EC/IC dibandingkan dengan perawatan medis
(standar perawatan) saja tidak menemukan manfaat dengan operasi. Contoh penting
lainnya datang dari kardiologi—aritmia ventrikel setelah MI merupakan faktor risiko
kematian yang diketahui. Diperkirakan bahwa jika aritmia ini ditekan (dengan beberapa
agen, seperti encainide dan flecainide), kematian akan menurun pada pasien ini.
Namun, hasil dari percobaan acak (Cardiac Arrhythmia Suppression Trial [CAST])
menemukan lebih banyak kerugian daripada kebaikan yang dihasilkan dari agen-agen
ini. Memang, diperkirakan lebih banyak orang Amerika yang tewas akibat menerima
agen-agen ini daripada akibat Perang Vietnam selama periode yang sama!

Mengapa ada perbedaan antara hasil studi observasional dan eksperimen? Dalam studi
observasional, preferensi pasien dan/atau dokter menentukan apakah pasien menerima
pengobatan atau tidak. Seringkali, faktor-faktor seperti adanya penyakit penyerta,
penggunaan obat lain, keyakinan individu, dan tingkat keparahan penyakit dan
gejalanya mempengaruhi proses pengambilan keputusan terapeutik pasien dan dokter.
Faktor dari pasien, faktor tersebut terkadang tidak relevan dengan pertanyaan yang
diajukan, mungkin terkait dengan sumber daya, sikap, atau perilaku lain yang dapat
secara independen memengaruhi hasil klinis yang dicoba evaluasi dengan pengobatan.
Selain itu, faktor-faktor tersebut mungkin tidak merata antara kelompok intervensi.
Faktor-faktor ini disebut perancu karena mereka "membingungkan" kemampuan kita
untuk menentukan kausalitas antara perlakuan tertentu dan hasil yang diinginkan.
Dinyatakan secara formal, perancu adalah sesuatu yang terkait dengan paparan minat
dan hasil minat tetapi tidak pada jalur kausal. Ini berarti bahwa ini memberikan
kemiripan kausalitas antara paparan (misalnya, pengobatan) dan hasil (misalnya, CAD),
meskipun hubungan tersebut hanyalah salah satu dari asosiasi melalui faktor-faktor
bersama yang tidak teramati ini.

Misalnya, banyak orang percaya bahwa minum segelas anggur merah setiap hari dapat
membantu mengurangi risiko kejadian jantung. Meskipun pernyataan ini sebagian
didasarkan pada SR dan MA, studi individu yang disertakan dalam pelaksanaan MA ini
semuanya adalah studi kohort (studi observasional). Kritik terhadap teori ini telah
membuat pengamatan yang cerdik bahwa temuan ini mungkin hasil dari pembaur oleh
status sosial ekonomi, khususnya, minum anggur merah dikaitkan dengan status sosial
ekonomi yang lebih tinggi. Status sosial ekonomi yang lebih tinggi itu sendiri terkait
dengan penurunan risiko terkena penyakit jantung, kemungkinan karena segala macam
faktor peningkatan kesehatan, termasuk mampu membeli makanan sehat atau memiliki
waktu dan sarana untuk berolahraga. Jika kita mengevaluasi status sosial ekonomi
sebagai pembaur, kita juga harus memastikan bahwa status itu sendiri tidak berada di
jalur sebab akibat. Kita dapat melihat bahwa minum anggur merah tidak mengarah ke
status sosial ekonomi yang lebih tinggi, yang akan mengarah pada risiko kejadian
jantung yang lebih rendah, sehingga memenuhi kriteria ini.

Singkatnya, ini mungkin bukan anggur merah tetapi, lebih tepatnya, semua keuntungan
yang diberikan oleh status sosial ekonomi yang lebih tinggi yang memediasi
pengurangan kejadian jantung! Status sosial ekonomi mungkin menjadi perancu!
Sayangnya, kami tidak pernah bisa mengkonfirmasi temuan ini dengan RCT karena
dewan peninjau etika akan sulit sekali menyetujui penelitian yang secara acak
menugaskan pasien untuk minum alkohol—dengan semua kemungkinan efek
kesehatan yang merugikan.

Kita dapat melihat bahwa jika faktor-faktor ini, atau pembaur, tidak merata antara
kelompok intervensi, mereka mungkin membesar-besarkan, membatalkan, atau bahkan
melawan efek terapi. Misalnya, jika faktor-faktor ini melebih-lebihkan efek nyata dari
pengobatan yang tidak efektif, seperti yang mungkin terjadi pada anggur merah dan
status sosial ekonomi, ini dapat mengarah pada kesimpulan positif palsu bahwa
pengobatan itu berguna padahal sebenarnya tidak. Sebaliknya, jika pembaur
meniadakan atau menetralkan efek pengobatan yang benar-benar manjur, ini dapat
mengarah pada kesimpulan negatif palsu bahwa pengobatan yang bermanfaat tidak
berguna atau bahkan berbahaya.

Meskipun ada cara untuk mengurangi dampak faktor perancu (eksklusi, pengambilan
sampel bertingkat, pencocokan, analisis bertingkat, standarisasi dan pemodelan
multivariat), hal –hal tersebut dibutuhkan untuk mengidentifikasi faktor perancu.
Namun, terkadang ketika mempelajari suatu hasil, semua faktor prognostik penyakit
belum diketahui atau tidak dapat diukur dengan mudah. Dalam kasus ini, pengacakan
dapat mengurangi perancu dan membantu menarik kesimpulan tentang kausalitas
dengan menyeimbangkan kelompok intervensi untuk faktor prognostik yang diketahui
dan tidak diketahui. Asumsinya di sini adalah bahwa jika sebuah kelompok cukup besar
dan pasien secara acak ditempatkan pada masing-masing kelompok intervensi, sifat dan
faktor risiko mereka akan didistribusikan secara merata di antara kedua kelompok.
Tentu saja, kesimpulan ini mengambil sedikit lompatan keyakinan dan mengingatkan
kita bahwa kita harus selalu memindai "Tabel 1" dari setiap penelitian untuk
memeriksa diri kita sendiri bahwa fitur klinis penting dan faktor risiko telah
didistribusikan secara merata di antara kedua kelompok intervensi.

Kita harus menekankan alokasi acak untuk pengobatan karena itu lebih mendekati
daripada desain penelitian lainnya untuk menciptakan kelompok pasien pada awal
percobaan yang identik dalam risiko mengalami peristiwa yang kita coba cegah. Dari
sana, kita dapat mengatakan bahwa perbedaan dalam tingkat hasil dapat secara wajar
dikaitkan dengan parameter tunggal yang berbeda antara kedua kelompok, yaitu
intervensi. Misalnya, jika kita secara ajaib mendapatkan persetujuan untuk melakukan
RCT yang membandingkan risiko MI antara pasien yang memakai anggur merah versus
pasien yang memakai plasebo, tindakan pengacakan akan menghasilkan dua kelompok
yang kemungkinan seimbang berkaitan dengan status sosial ekonomi, serta pembaur
potensial lainnya (dan mungkin tidak teridentifikasi). Ketika kami mengkonfirmasi
pengacakan selama penilaian studi kami, kami harus memeriksa bahwa peneliti telah
menggambarkan beberapa metode yang analog dengan melempar koin untuk
menetapkan pasien ke kelompok pengobatan (misalnya, pengobatan eksperimental
diberikan jika koin mendarat "kepala" dan konvensional , pengobatan "kontrol" atau
"plasebo" diberikan jika koin mendarat "ekor").
Pengacakan adalah sesuatu yang bisa dibanggakan oleh peneliti, dan seringkali Anda
akan menemukannya disebutkan secara eksplisit dalam abstrak (atau judulnya!). Jika
penelitian ini tidak diacak, kami sarankan Anda berhenti membacanya dan melanjutkan
ke artikel berikutnya dalam pencarian Anda. Perhatikan bahwa ini dapat membantu
Anda menilai literatur secara efisien dengan memindai abstrak untuk menentukan
apakah sebuah penelitian diacak—jika tidak, move on (pindah). Hanya mencari
kesimpulan dari studi observasional jika Anda tidak dapat menemukan percobaan acak.
Dalam kasus ini, jika satu-satunya bukti yang Anda miliki tentang pengobatan adalah
dari studi observasional nonrandomized, Anda memiliki lima pilihan:

1. Periksa halaman 35–65 lagi, atau dapatkan bantuan dari pustakawan untuk
melakukan pencarian literatur lain untuk melihat apakah Anda melewatkan uji coba
terapi secara acak.

2. Menilai apakah efek pengobatan yang dijelaskan dalam uji coba nonrandomized
begitu besar sehingga tidak mungkin menjadi penelitian positif palsu. (Hal ini sangat
jarang, dan biasanya hanya memuaskan bila prognosis pasien yang tidak diobati sama-
sama buruk; misalnya, kematian 100% pada meningitis bakteri tanpa penggunaan
antibiotik.) Sebagai pemeriksaan, Anda dapat bertanya kepada rekan Anda apakah
mereka mempertimbangkan calon terapi sangat mungkin manjur sehingga mereka akan
menganggapnya tidak etis untuk mengacak pasien seperti Anda ke dalam penelitian
yang mencakup kelompok tanpa pengobatan atau plasebo.

3. Jika percobaan non-acak menyimpulkan bahwa pengobatan itu tidak berguna atau
berbahaya, maka biasanya aman untuk menerima kesimpulan itu. Kesimpulan positif
palsu dari studi non-acak jauh lebih umum daripada yang negatif palsu. Ini masuk akal
ketika Anda mempertimbangkan bahwa perawatan biasanya tidak diberikan pada
pasien dengan prognosis paling buruk. Selain itu, pasien yang taat meminum obat
mereka ditakdirkan untuk hasil yang lebih baik, bahkan ketika mereka menggunakan
perawatan atau plasebo yang tidak berguna, semakin mengurangi kemungkinan hasil
negatif palsu.

4. Pertimbangkan apakah percobaan "n-of-1" mungkin masuk akal bagi Anda dan pasien
Anda. Ini berguna dalam manajemen penyakit kronis (dan kami akan menjelaskannya
secara rinci nanti).

5. Coba untuk menemukan bukti untuk opsi manajemen alternatif.

Untuk menjawab pertanyaan kami tentang penurunan kolesterol dan tingkat MI,
abstrak laporan percobaan oleh Yusuf et al. menyatakan bahwa pasien secara acak
ditugaskan untuk menerima rosuvastatin 10 mg setiap hari atau plasebo. Pengacakan
dikelompokkan berdasarkan pusat, sebuah strategi yang berguna karena pusat
perawatan kesehatan itu sendiri mungkin menjadi faktor prognostik–—jika ada variasi
dalam praktik di berbagai pusat (atau bahkan lintas negara). Karena penelitian ini
dilakukan di 228 pusat di 21 negara, prosedur stratifikasi ini bermanfaat. Ini juga
memudahkan untuk menginterpretasikan data jika satu pusat kebetulan menarik diri
dari penelitian karena kita dapat percaya bahwa faktor prognostik tetap seimbang di
seluruh pusat yang tersisa.
2 Apakah pengacakan dirahasiakan (concealed) ?

Apakah pengacakan disembunyikan/ditutupi/dirahasiakan dari dokter dan personel


penelitian yang memasukkan pasien ke dalam percobaan dan memantau mereka? Jika
alokasi dirahasiakan, dokter tidak akan menyadari intervensi mana yang akan diterima
pasien berikutnya dan dengan demikian mereka tidak dapat, secara sadar atau tidak,
mengubah keseimbangan antara kelompok yang dibandingkan. Pengetahuan tentang
penugasan mungkin mengarah pada pengecualian pasien tertentu dari salah satu
kelompok berdasarkan prognosis mereka — dokter mungkin menghindari
mengalokasikan beberapa pasien ke kelompok yang mereka anggap tidak pantas, atau
tanpa manfaat. Seperti halnya kegagalan menggunakan pengacakan, penyembunyian
alokasi yang tidak memadai dapat mendistorsi efek nyata dari perlakuan di kedua arah,
menyebabkan efeknya tampak lebih besar atau lebih kecil daripada yang sebenarnya.

Artikel terkadang tidak secara eksplisit menyatakan apakah daftar pengacakan


disembunyikan, tetapi jika pengacakan terjadi melalui sistem yang dijaga pada jarak
dari garis depan (yaitu, di mana pasien dimasukkan ke dalam percobaan), misalnya,
melalui telepon atau komputer terpusat , kita dapat berasumsi bahwa telah ada
penyembunyian yang memadai. Tugas juga harus dikirimkan satu per satu, karena
setiap pasien terdaftar, untuk mencegah gangguan pada pengacakan.

Telah ditunjukkan bahwa laporan penyelidik mengatasi hampir semua jenis strategi
penyembunyian alokasi—mulai dari memegang amplop hingga cahaya terang hingga
mengobrak-abrik arsip kantor penyelidik utama untuk menemukan daftar alokasi!
Dengan demikian kita dapat melihat bahwa penyembunyian tidak semudah yang
dibayangkan!

Bagian "metode" dari teks lengkap menunjukkan bahwa pasien diacak menggunakan
"central concealed randomization procedure” (“prosedur pengacakan tersembunyi
pusat.")
3 Apakah kelompok-kelompok penelitian serupa pada awal percobaan?

Kita harus memeriksa untuk melihat apakah kelompok serupa dalam semua metode
yang penting secara prognostik (kecuali untuk menerima pengobatan) pada awal
percobaan. Seperti disebutkan di atas, manfaat pengacakan adalah bahwa kita dapat
mengasumsikan distribusi perancu potensial yang sama antara kelompok studi. Namun,
perbedaan dasar antara kelompok studi mungkin ada sebagai akibat dari kebetulan.
Biasanya tidak ada nilai untuk memberikan nilai p dalam tabel yang menggambarkan
karakteristik dasar peserta, dan jurnal mendorong penulis untuk menjauh dari
menyediakan ini. Tes hipotesis ini menilai kemungkinan bahwa perbedaan yang diamati
antara kedua kelompok dapat terjadi secara kebetulan, dan dalam uji coba acak yang
dirancang dengan baik, kita dapat dengan aman menganggap ini benar.

Studi telah menunjukkan bahwa peneliti yang menggunakan tes hipotesis untuk
membandingkan karakteristik dasar melaporkan hasil signifikan yang lebih sedikit
daripada yang diharapkan secara kebetulan. Alasan mungkin bahwa peneliti mungkin
tidak melaporkan perbedaan yang signifikan dalam karakteristik dasar karena
kekhawatiran bahwa hal ini dapat mempengaruhi kredibilitas hasil mereka. Jika
kelompok tidak serupa, kita harus menentukan apakah penyesuaian untuk faktor
prognostik yang berpotensi penting ini dilakukan. Penyesuaian dapat dilakukan dengan
menggunakan banyak metodologi yang berbeda, termasuk pengecualian, pengambilan
sampel bertingkat, pencocokan, analisis bertingkat, dan standarisasi. Sangat
meyakinkan jika analisis yang disesuaikan dan tidak disesuaikan menghasilkan hasil
yang serupa.

Dalam studi oleh Yusuf et al., pemindaian Tabel 1 mengungkapkan bahwa tidak ada
perbedaan penting antara pasien dalam kedua kelompok. Juga, tidak ada nilai p yang
disediakan untuk karakteristik dasar.
4 Apakah tindak lanjut pada pasien cukup lama dan lengkap?

Setelah kami puas bahwa penelitian ini diacak, kami dapat melihat untuk melihat
apakah semua pasien yang dimasukkan ke dalam percobaan diperhitungkan pada
kesimpulannya. Menentukan ini menjadi lebih mudah dengan dimasukkannya diagram
alur, biasanya ditunjuk sebagai "Gambar 1" dalam penelitian ini. Pencantuman diagram
alur adalah bagian dari pernyataan CONSORT (http://www.consort-statement.org,
yang, seperti disebutkan sebelumnya, bertujuan untuk meningkatkan akurasi pelaporan
percobaan) (Gbr. 4.1).

Gambar 4.1 Diagram CONSORT

Idealnya, kami ingin melihat bahwa tidak ada pasien yang mangkir karena pasien ini
mungkin memiliki hasil yang akan mempengaruhi kesimpulan penelitian. Jika, misalnya,
pasien yang menerima pengobatan eksperimental keluar karena hasil yang merugikan,
ketidakhadiran mereka dari analisis akan menyebabkan perkiraan yang berlebihan dari
kemanjuran pengobatan (dan pelaporan yang kurang dari potensi efek samping dari
intervensi).

Apa yang dapat kita anggap sebagai kerugian yang dapat diterima? Untuk memastikan
kesimpulan percobaan, peneliti harus dapat mengambil semua pasien yang mangkir,
menetapkan mereka ke hasil kasus terburuk (asumsikan bahwa setiap orang yang
mangkir dari kelompok yang anggotanya tersisa bernasib lebih baik memiliki hasil yang
buruk. dan berasumsi bahwa setiap orang yang mangkir dari grup yang anggotanya
tersisa bernasib lebih buruk memiliki hasil yang baik) dan masih dapat mendukung
kesimpulan awal mereka. Jika metode ini tidak mengubah kesimpulan penelitian,
mangkir bukan merupakan ancaman terhadap validitas penelitian. Namun, jika hasil
studi berubah, validitasnya terancam, dan kita harus memutuskan apakah hasil yang
diperoleh dari metode kasus terburuk itu masuk akal. Akan menjadi hal yang tidak
biasa bagi sebuah percobaan untuk bertahan dalam analisis kasus terburuk jika
kehilangan lebih dari 20% pasiennya (tetapi ini tergantung pada jumlah hasil yang
diamati—misalnya, jika hanya ada sedikit hasil yang diamati dalam jumlah besar. studi,
hilangnya 20% pasien dapat berdampak besar pada hasil). Pemotongan 20% adalah
perkiraan yang baik untuk sebagian besar studi acak besar, sedemikian rupa sehingga
jurnal, seperti ACP Journal Club, tidak akan menerbitkan uji coba dengan kurang dari
80% tindak lanjut.

Kami juga harus memastikan bahwa tindak lanjut pasien cukup lama untuk melihat efek
penting secara klinis. Misalnya, jika penelitian kami yang menilai penggunaan statin dan
risiko MI hanya menindaklanjuti pasien selama 1 minggu atau 1 bulan, kami tidak akan
menemukan hasil yang sangat membantu karena interval waktu yang terlalu pendek
untuk mengamati klinis ini. hasil. Mengingat sifat dari gangguan target, kami ingin
melihat periode tindak lanjut, idealnya, bertahun-tahun. Salah satu tantangan yang kita
hadapi sebagai dokter menilai literatur adalah bahwa obat-obatan sering digunakan
untuk jangka waktu yang lebih lama dalam kehidupan nyata daripada masa tindak
lanjut dari kebanyakan penelitian. Seperti uji coba statin, misalnya, ada kekurangan uji
coba serotonin reuptake inhibitors yang berlangsung lebih dari beberapa tahun untuk
pengobatan depresi, meskipun agen ini sering digunakan selama beberapa tahun, jika
bukan seumur hidup. Ini adalah masalah yang perlu kita pertimbangkan ketika
memutuskan penerapan studi terapi. Kita perlu bertanya pada diri sendiri apakah
periode tindak lanjut dalam studi masuk akal untuk hasil yang menarik berdasarkan
apa yang kita ketahui dari studi lain dan dari patofisiologi. Periode tindak lanjut yang
singkat mungkin sesuai untuk penelitian yang mengevaluasi efek antibiotik
dibandingkan dengan plasebo pada resolusi gejala infeksi, tetapi tidak akan sesuai
untuk penelitian yang mengevaluasi dampak pengobatan kronis pada hasil seperti
kematian akibat penyakit kronis.

Kita sering melihat uji coba dihentikan lebih awal ketika manfaat besar terlihat. Namun,
jika ini terjadi ketika ukuran sampel dan jumlah hasil kecil, hal ini dapat mengakibatkan
perkiraan yang terlalu tinggi dari efek pengobatan; hasil penelitian semacam itu harus
ditafsirkan dengan hati-hati. Kadang-kadang, informasi tentang tindak lanjut tersedia
dalam abstrak penelitian, tetapi lebih sering, kita harus beralih ke hasil untuk
mendapatkan rincian spesifik.

Dalam penelitian kami, tindak lanjut adalah 99,1% (ini luar biasa!). Median tindak lanjut
adalah 5,6 tahun.
5 Apakah semua pasien dianalisis dalam kelompok yang diacak?

Apa pun yang terjadi setelah pengacakan dapat memengaruhi kemungkinan pasien
penelitian memiliki hasil yang diinginkan. Misalnya, seorang pasien mungkin terlibat
dalam perilaku kesehatan yang berbeda, memperoleh diagnosis baru dari komorbiditas
yang relevan, atau memiliki perubahan dalam faktor sosial ekonomi yang
mempengaruhi kesehatan menjadi lebih baik atau lebih buruk. Oleh karena itu, penting
bahwa semua pasien, termasuk mereka yang gagal minum obat atau mereka yang
secara tidak sengaja atau sengaja menerima pengobatan yang salah, dianalisis dalam
kelompok tempat mereka dialokasikan. Setelah kelompok yang sebanding dibentuk
pada awal penelitian, mereka harus tetap seperti ini untuk mempertahankan manfaat
pengacakan. Telah ditunjukkan berulang kali bahwa pasien yang "melakukan" dan
"tidak" mengambil obat studi mereka memiliki hasil yang sangat berbeda, bahkan
ketika studi kedokteran adalah plasebo. Partisipan studi yang meninggalkan studi atau
pindah ke kelompok perlakuan lain mungkin memiliki karakteristik tertentu sehingga
mereka yang tersisa dalam kelompok tidak lagi sebanding seperti pada awal studi.
Untuk mempertahankan nilai pengacakan, kita harus menuntut "analisis niat untuk
mengobati" di mana semua pasien dianalisis dalam kelompok yang awalnya ditugaskan,
terlepas dari apakah mereka menerima, atau bahkan benar-benar mengambil,
pengobatan yang ditugaskan kepada mereka. Oleh karena itu, kami menganalisisnya
“sebagaimana dimaksud.” Penting bahwa kita tidak hanya mencari istilah "analisis niat
untuk mengobati" di bagian "metode" tetapi juga melihat hasilnya untuk memastikan
bahwa analisis ini dilakukan.

Berbeda dengan metode analisis intention-to-treat (ITT) yang unggul, analisis per
protokol (PP) adalah metode yang hanya menganalisis pasien yang menyelesaikan
pengobatan yang awalnya ditugaskan kepada mereka. Hal ini dapat menyebabkan bias
karena mungkin ada faktor yang memaksa pasien ini untuk tetap berpegang pada
protokol yang ditetapkan yang mungkin tidak ada pada pasien rata-rata, sehingga
mendistorsi bagaimana terapi akan bekerja di "dunia nyata." 15 Perhatikan bahwa
meskipun prinsip ini berlaku untuk uji coba superioritas (uji coba yang menunjukkan
bahwa satu intervensi lebih baik daripada yang lain), yang merupakan jenis studi yang
cenderung paling kita kenal, ada beberapa kontroversi dalam literatur mengenai
apakah analisis ITT diperlukan pada tingkat yang sama dalam studi noninferioritas
(percobaan menunjukkan bahwa satu intervensi tidak lebih buruk dari yang lain).

Studi oleh Yusuf et al. menggunakan analisis intention-to-treat (ITT).


6 Apakah pasien, dokter, dan personel penelitian tetap blind terhadap
pengobatan?

Blinding diperlukan untuk menghindari pelaporan gejala pasien atau kepatuhan pasien
terhadap pengobatan dipengaruhi oleh firasat tentang apakah pengobatan itu efektif.
Demikian pula, seorang dokter atau penilai hasil dapat dipengaruhi oleh efektivitas
yang dirasakan dari intervensi penelitian, sehingga membutakan mencegah bagaimana
dia menafsirkan gejala atau melaporkan hasil selama penelitian. Tidak mengherankan,
membutakan sangat penting ketika hasil yang diinginkan subjektif, dan penilaian oleh
dokter atau penilai hasil diperlukan.

Ketika pasien dan dokter tidak dapat blind (misalnya, dalam uji bedah), seringkali
dimungkinkan untuk meminta blinded clinicians lainnya menilai catatan medis
(dibersihkan dari penyebutan kelompok tugas) untuk menghilangkan bias dalam
menilai hasil yang mungkin dipengaruhi dengan mengetahui tugas Strategi lain adalah
dengan menggunakan pengukuran hasil yang objektif, seperti kematian. Sebagai contoh,
dalam Percobaan Endarterektomi Karotid Gejala Amerika Utara, pasien dengan stenosis
arteri karotis simptomatik diacak untuk dilakukan endarterektomi karotis atau terapi
medis dengan aspirin. Pasien dalam kelompok bedah (dan ahli bedah yang melakukan
prosedur) jelas tidak dapat dibutakan terhadap pengobatan. Sebaliknya, peristiwa hasil
dinilai oleh empat kelompok — ahli saraf dan ahli bedah yang berpartisipasi; ahli saraf
di pusat studi; anggota komite pengarah yang “buta”; dan juri eksternal yang
“dibutakan”. Langkah-langkah ini membantu untuk mengurangi bias yang mungkin
timbul dari kurangnya kebutaan dokter dan pasien.

Awalnya, pasien ditempatkan pada pengobatan dalam periode single-blind run-in,


setelah itu mereka diacak jika mereka patuh/taat dan tidak mengalami efek samping
yang serius (perhatikan bahwa populasi pasien yang menjalani pengacakan mungkin
tidak mewakili populasi secara luas, mengingat bahwa mereka yang tidak patuh atau
menderita konsekuensi yang merugikan tidak maju dalam uji coba. Langkah ini
mungkin telah menimbulkan bias seleksi). Setelah pengacakan, pasien tidak mengetahui
pengobatan yang mereka terima. Dokter, juga tidak menyadari alokasi pengobatan,
menilai pasien untuk hasil kardiovaskular pada setiap kunjungan tindak lanjut. Dalam
materi tambahan yang disediakan, yang mencakup protokol percobaan terperinci,
dicatat bahwa semua hasil primer dan sekunder diputuskan oleh Komite Ajudikasi
Peristiwa, yang juga tidak mengetahui alokasi pengobatan. Komite pengarah juga
dibutakan. Dengan demikian, setidaknya ada empat tingkat kebutaan dalam penelitian
ini.
7 Apakah kelompok diperlakukan sama, selain dari terapi eksperimental?

Membutakan pasien, dokter, dan personel studi dapat mencegah mereka menambahkan
perawatan tambahan (atau "intervensi bersama"), selain dari perawatan eksperimental,
ke salah satu kelompok saja. Misalnya, baik pasien maupun dokter dapat mengubah
perilaku mereka atau menggunakan perawatan tambahan yang dapat mempengaruhi
hasil. Jika dokter tahu bahwa pasien mereka telah terdaftar dalam kelompok kontrol
daripada kelompok intervensi, dan mereka percaya bahwa kelompok intervensi akan
menuai keuntungan, mereka mungkin berbeda, atau lebih agresif, mengelola faktor
risiko lain pada pasien mereka untuk memberikan pasien mereka kesempatan terbaik
untuk menghindari hasilnya. Ini akan mempersempit ukuran efek yang mungkin
diharapkan dengan pengobatan karena kelompok kontrol mungkin diperlakukan lebih
agresif dibandingkan dengan kelompok intervensi. Biasanya, kita dapat menemukan
informasi tentang penggunaan intervensi bersama, disengaja atau tidak disengaja, di
bagian "metode" dan/atau bagian "hasil" dari sebuah artikel.

Dalam penelitian ini, dokter mengidentifikasi pasien di kedua kelompok sehubungan


dengan modifikasi gaya hidup individu yang mungkin bermanfaat, dan mereka
menyesuaikan saran.

Menyatukan semuanya

Jika penelitian gagal salah satu kriteria yang dibahas di atas, kita perlu memutuskan
apakah flaw (cacat/kekurangan) itu signifikan dan mengancam validitas penelitian. Jika
ini masalahnya, kita perlu mencari studi lain. Namun, jika kita menemukan bahwa
artikel kita memenuhi semua kriteria, kami dapat melanjutkan untuk
mempertimbangkan kepentingannya.

Kami percaya bahwa penelitian kami telah memenuhi semua kriteria validitas utama,
dan akan melihat hasilnya. Catatan: Berapa banyak kriteria validitas yang disebutkan
dalam abstrak artikel asli? Dalam penelitian yang kami identifikasi, abstrak hanya
menyebutkan pengacakan dan median durasi tindak lanjut. Meskipun tidak semua
kriteria validitas disebutkan, melihat ini secara abstrak membantu kita untuk menilai
artikel lebih cepat. Kami kemudian dapat pindah ke bagian "metode" untuk mencari
kriteria validitas lainnya.

Apakah hasil yang valid dari studi individu ini penting? Pada bagian ini, kita akan
membahas bagaimana menentukan apakah potensi manfaat (atau bahaya) dari
pengobatan yang dijelaskan dalam sebuah penelitian itu penting. Kami akan mengacu
pada panduan di Kotak 4.2 untuk diskusi ini. Memutuskan apakah kita harus terkesan
dengan hasil percobaan yang membutuhkan dua langkah. Pertama, mencoba
menentukan ekspresi klinis yang paling berguna dari hasil ini—yaitu, apakah yang
paling masuk akal untuk melaporkan hasil sebagai rasio, seperti risiko relatif (RR) atau
rasio peluang (OR), atau hasilnya lebih bermakna dinyatakan sebagai perbedaan,
seperti perbedaan risiko atau pengurangan risiko absolut? Kami akan masuk ke "seluk
beluk" komputasi secara lebih rinci saat Anda membaca. Kedua, kami mencoba
membandingkan hasilnya dengan treatment lain untuk gangguan target lainnya.

Misalnya, VA Cooperative Study adalah percobaan pertama yang membandingkan


aspirin dengan plasebo untuk mencegah kematian setelah sindrom koroner akut. Hasil
gabungan dari kematian atau infark miokard akut (IMA) adalah 5% pada kelompok
aspirin versus 10,1%, pada kelompok plasebo, sebuah temuan yang signifikan secara
statistik dengan nilai p yang tidak disesuaikan 0,0005 (bila disesuaikan dengan
karakteristik dasar, nilai p menjadi 0,0002). Ini berarti pengurangan risiko absolut
sebesar 5,1% dan pengurangan risiko relatif (RRR) sebesar 51% (kami akan
menjelaskan cara menghitungnya secara rinci di bawah). Temuan yang mengesankan
ini mengarah pada peningkatan penggunaan aspirin dalam pengobatan sindrom
koroner akut! Kami jarang mendapatkan hasil yang begitu menarik, tetapi
membandingkan efek pengobatan yang Anda lihat dalam penelitian Anda dengan
pengobatan yang diketahui membantu Anda menentukan apakah itu cukup signifikan
secara klinis untuk menjamin penyerapan.
Kotak 4.2

Apakah bukti yang valid tentang terapi (dari percobaan acak individu) ini penting?

1. Berapa besaran efek pengobatan?

2. Seberapa tepat perkiraan efek pengobatan?

1 Bagaimanakah besaran efek dari pengobatan?

Pertimbangan besarnya hasil memerlukan penilaian hasil yang diikutsertakan dalam


penelitian. Sampai saat ini, kami telah membatasi diskusi untuk fokus pada hasil yang
relevan dengan pasien kami. Terkadang, uji coba akan melaporkan hasil pengganti, yang
merupakan hasil yang dihipotesiskan terkait dengan hasil yang sebenarnya mungkin
menarik bagi pasien. Misalnya, dalam studi yang menilai efektivitas terapi osteoporosis,
idealnya uji coba harus mencakup pengukuran dampak intervensi pada patah tulang.
Namun, kepadatan mineral tulang (BMD) adalah hasil pengganti yang sering digunakan
dalam penelitian ini. BMD telah terbukti berkorelasi dengan risiko patah tulang,
sehingga merupakan hasil pengganti yang dapat diterima. Hasil pengganti dapat
diterima jika terbukti sebagai proxy yang valid untuk hasil yang penting secara klinis.

Oleh karena itu, ketika mereka digunakan, kita perlu berpikir kritis tentang validitasnya
dan tidak hanya berasumsi bahwa peneliti telah memilih hasil yang merupakan
perkiraan yang masuk akal untuk apa yang sebenarnya penting bagi pasien dan dokter.
Hasil pengganti sering digunakan karena dapat mengurangi ukuran sampel dan waktu
tindak lanjut dan dengan demikian mungkin lebih layak untuk dikumpulkan dari
perspektif logistik atau biaya.

Hasil gabungan juga sering terlihat dalam uji coba, dan uji coba yang menggunakannya
harus dinilai dengan hati-hati. Manfaat bagi peneliti menggunakan hasil gabungan
adalah membuat percobaan lebih "efisien" karena lebih banyak hasil akan terjadi dalam
kerangka waktu yang wajar, sehingga lebih murah untuk melakukan penelitian ini. Ini
penting jika hasil yang menarik membutuhkan waktu lama untuk berkembang atau jika
jarang. Kerugiannya adalah bahwa tanggung jawab ada pada pembaca untuk
menentukan apakah manfaat atau kerugian yang terlihat dalam hasil gabungan
didorong oleh semua komponennya atau hanya salah satu dari mereka, dan apakah
semua komponen mengarah ke arah yang sama atau tidak. sebagai hasil gabungan.
Misalnya, dalam percobaan ADVANCE (Action in Diabetes and Vascular Disease:
Preterax and Diamicron MR Controlled Evaluation), lebih dari 11.000 pasien dengan
diabetes mellitus tipe 2 diacak untuk terapi intensif (target A1C 6,5%). Hasil utama
adalah hasil gabungan, termasuk makrovaskular (MI nonfatal atau stroke atau kematian
akibat penyebab kardiovaskular) atau kejadian mikrovaskular (memburuknya
nefropati atau retinopati). Nefropati yang memburuk didefinisikan sebagai
makroalbuminuria, penggandaan kreatinin serum, terapi penggantian ginjal, atau
kematian akibat penyebab ginjal.
Perbedaan yang signifikan terlihat pada hasil gabungan kejadian makrovaskular dan
mikrovaskular (Tabel 4.1). Namun, terlepas dari hasil ini, jelas bahwa tidak ada
perbedaan yang signifikan dalam kejadian makrovaskular. Kejadian mikrovaskular
berkurang secara signifikan dengan terapi intensif—namun, perbedaan
makroalbuminurialah yang mendorong perbedaan ini. Memang, 1,2% dari keseluruhan
perbedaan risiko 1,9% disumbangkan oleh pengurangan makroalbuminuria saja. 21
Meskipun pengurangan makroalbuminuria telah terbukti memiliki efek ginjal dan
kardiovaskular yang menguntungkan, bisa dibilang itu bukan hasil yang penting bagi
pasien seperti komplikasi makrovaskular, seperti MI atau stroke! Jika kita tidak melihat
dengan hati-hati apakah hasil makrovaskular tersebut juga berkurang dengan terapi
intensif, kita mungkin salah berasumsi bahwa titik akhir komposit berbicara untuk
semua titik akhir individu!

Tabel 4.1 Kontrol glukosa intensif versus standar untuk mencegah kejadian vaskular
pada diabetes tipe 2*

*Abbreviations are defined in the Glossary: RRR, RRI, NNT, NNH, and CI calculated from
data in article.

†Nonfatal myocardial infarction (intensive vs standard, 2.7% vs 2.8%), nonfatal stroke


(3.8% vs 3.8%), or death from cardiovascular causes (4.5% vs 5.2%).

‡New or worsening nephropathy or retinopathy (6.0% vs 6.3%).

§Macroalbuminuria, doubling of serum creatinine (1.2% vs 1.1%), and renal


replacement therapy or death from renal causes (0.4% vs 0.6%). From ACP Journal
Club. 2008;149:JC3–JC6; The ADVANCE Collaborative Group. Intensive blood glucose
control and vascular outcomes in patients with type 2 diabetes. N Engl J Med.
2008;358:2560–2572.

Studi Yusuf et al. menggunakan dua hasil co-primer. Hasil co-primer pertama adalah
gabungan kematian akibat kardiovaskular, infark miokard nonfatal, atau stroke
nonfatal. Hasil co-primer kedua juga merupakan hasil gabungan; itu menambahkan
revaskularisasi, gagal jantung, dan henti jantung resusitasi ke hasil co-primer pertama.
Masing-masing komponen individu juga dianalisis secara terpisah. Masuk akal bahwa
para peneliti ini akan menetapkan hasil gabungan karena mereka melihat populasi
pasien yang berisiko menengah mengalami kejadian kardiovaskular, sehingga mereka
akan membutuhkan waktu lebih lama untuk mengembangkan satu atau lebih hasil.

Ada berbagai metode yang dapat kita gunakan untuk menggambarkan hasil, dan kami
telah memasukkan yang paling penting dalam Tabel 4.2, termasuk pengurangan risiko
absolut (ARR), RRR, dan jumlah yang dibutuhkan untuk mengobati (NNT). Kita dapat
menggunakan analogi untuk memahami ARR dan RRR. Pertimbangkan penjualan di
toko ritel. Jika item pakaian diturunkan dari $25 menjadi $20, ini merupakan diskon
mutlak $5 (mirip dengan ARR), tetapi juga dapat dipasarkan sebagai diskon 20%
(seperti RRR). Kita dapat melihat bahwa diskon relatif lebih cenderung menarik
perhatian pembeli—itulah sebabnya peneliti (dan jurnalis) sering cenderung
melaporkan hasil penelitian dalam kaitannya dengan RRR! Terserah kita untuk
menentukan apakah hasil penelitian benar-benar revolusioner seperti yang terlihat,
atau jika penggunaan RRR menutupi fakta bahwa efek pengobatan absolut kecil
(dengan kata lain, ada sejumlah kecil hasil absolut pada keduanya. kelompok).

Tabel 4.2 Measures of effect size (Besaran dari efek ukuran)

Kami akan mengilustrasikan konsep-konsep ini dengan sebuah contoh—uji coba statin
secara acak pada pasien dengan risiko stroke yang dilakukan oleh Medical Research
Council (disebut sebagai Uji Coba MRC). Seperti yang Anda lihat dari hasil uji coba yang
dilaporkan pada Tabel 4.2, rata-rata 5 tahun masa tindak lanjut, stroke terjadi di antara
5,7% pasien yang diacak pada kelompok kontrol (kami akan menyebutnya "tingkat
kejadian kontrol" [CER] ) dan pada 4,3% pasien yang ditugaskan untuk menerima
intervensi, terapi statin (kami akan menyebutnya "tingkat kejadian eksperimental"
[EER]). Perbedaan ini signifikan secara statistik, tetapi bagaimana hal itu dapat
diekspresikan dengan cara yang bermanfaat secara klinis? Seperti disebutkan
sebelumnya, paling sering kita melihat efek ini dilaporkan dalam jurnal klinis dan pers
sebagai RRR yang dihitung sebagai (|CER EER|/CER). Dalam contoh ini, RRR adalah
(5,7% 4,3%)/5,7% (yaitu, 25%), dan kita dapat mengatakan bahwa terapi statin
menurunkan risiko stroke sebesar 25% dibandingkan dengan mereka yang menerima
plasebo.

Dengan cara yang sama, kita dapat menggambarkan situasi di mana perlakuan
eksperimental meningkatkan risiko kejadian yang baik sebagai “peningkatan manfaat
relatif” (RBI; juga dihitung sebagai |CER EER|/CER). Jika perlakuan meningkatkan
kemungkinan kejadian buruk, kita dapat menggunakan rumus yang sama untuk
menghasilkan "peningkatan risiko relatif" (RRI). Kita dapat melihat bahwa meskipun
matematika tetap sama, dalam setiap kasus ini kerangka acuan kita bergeser.

Untuk memperjelas kelemahan RRR dan cara-cara yang dapat menyesatkan, mari kita
periksa data hipotetis yang diuraikan di baris bawah Tabel 4.2. RRR tidak
mencerminkan risiko kejadian tanpa terapi (CER, atau risiko dasar) dan oleh karena itu
tidak dapat membedakan efek pengobatan yang besar dari yang kecil. Misalnya, jika
risiko stroke sepele (0,000057%) pada kelompok kontrol dan sama sepele
(0,000043%) pada kelompok eksperimen, RRR tetap 25%!

Salah satu ukuran yang mengatasi kurangnya diskriminasi antara efek perlakuan kecil
dan besar ini terlihat pada perbedaan aritmatika absolut antara tarif dalam dua
kelompok. Ini disebut pengurangan risiko absolut (ARR) (atau perbedaan risiko), dan
ini mempertahankan risiko dasar. Pada percobaan MRC, ARR adalah 5,7% 4,3% = 1,4%.
Dalam kasus hipotetis kami di mana risiko dasar adalah sepele, ARR juga sepele, pada
0,000014%. Dengan demikian, ARR adalah ukuran efek pengobatan yang lebih
bermakna dibandingkan dengan RRR. Ketika perlakuan eksperimental meningkatkan
kemungkinan kejadian yang baik, kita dapat menghasilkan peningkatan manfaat absolut
(ABI), yang juga dihitung dengan menemukan perbedaan aritmatika absolut dalam
tingkat kejadian. Demikian pula, ketika perlakuan eksperimental meningkatkan
kemungkinan kejadian buruk, kita dapat menghitung peningkatan risiko absolut (ARI).

Kebalikan dari ARR (1/ARR) adalah bilangan bulat dan memiliki sifat yang berguna
untuk memberi tahu kita NNT dengan terapi eksperimental selama percobaan untuk
mencegah satu hasil buruk tambahan. Dalam contoh percobaan MRC kami, NNT adalah
1/1,4% 72, yang berarti bahwa kami perlu merawat 72 orang dengan statin (bukan
plasebo) selama 5 tahun untuk mencegah satu orang tambahan menderita stroke.
Perhatikan bahwa berdasarkan konvensi, kami selalu membulatkan ke bilangan bulat
terdekat saat mendeskripsikan NNT. Dalam contoh hipotetis kami di baris bawah Tabel
4.2, kegunaan klinis NNT digarisbawahi; efek pengobatan kecil ini berarti bahwa kita
harus merawat lebih dari tujuh juta pasien selama 5 tahun untuk mencegah satu
kejadian buruk tambahan!

Hasil co-primer pertama, yang merupakan gabungan kematian akibat kardiovaskular,


infark miokard nonfatal, atau stroke nonfatal, terjadi pada 3,7% pasien yang menerima
rosuvastatin dan 4,8% pasien yang menerima plasebo, sebuah temuan yang signifikan
secara statistik. Hasil ini menghasilkan ARR 1,1%, rasio hazard (HR) 0,76 (95%
confidence interval [CI] 0,64-0,91). Hasil individu semua cenderung ke arah yang sama,
dan ada penurunan yang signifikan secara statistik dalam terjadinya MI dengan ARR
0,4% dan HR 0,65 (95% CI 0,44-0,94). Ada penurunan kematian dari penyebab
kardiovaskular dengan ARR 0,3% dan HR 0,89 (95% CI 0,72-1,11), meskipun seperti
yang dapat dilihat, temuan ini tidak signifikan secara statistik. Hasil ini tercantum dalam
Tabel 2 kertas.

Hasil co-primer pertama adalah gabungan kematian akibat kardiovaskular, MI nonfatal,


atau stroke nonfatal. Hasil co-primer kedua adalah gabungan kematian dari penyebab
kardiovaskular, MI nonfatal, stroke nonfatal, revaskularisasi, gagal jantung, atau henti
jantung resusitasi. Hasil sekunder adalah gabungan kematian dari penyebab
kardiovaskular, MI nonfatal, stroke nonfatal, revaskularisasi, gagal jantung, henti
jantung resusitasi, atau angina dengan bukti iskemia. Hasil tambahan termasuk
kematian dari penyebab apa pun, masing-masing komponen individu yang terdiri dari
hasil primer dan sekunder, diagnosis diabetes baru, fungsi kognitif (di antara individu
yang berusia 70 tahun), dan disfungsi ereksi (di antara pria).

Apa itu NNT yang bagus? Kita bisa mendapatkan ide dengan membandingkan NNT yang
kita lihat dalam penelitian dengan NNT untuk intervensi lain dan durasi terapi,
disesuaikan dengan pengalaman dan keahlian klinis kita sendiri. Semakin kecil NNT,
semakin mengesankan hasilnya karena kita perlu merawat lebih sedikit pasien untuk
melihat manfaat klinis. Namun, kita juga harus mempertimbangkan keseriusan hasil
yang kita coba cegah. Kami telah memberikan beberapa contoh NNT pada Tabel 4.3.
Misalnya, kita hanya perlu merawat 63 orang dengan hipertensi dengan terapi intensif
(dibandingkan mereka yang menerima kontrol tekanan darah standar [BP]) untuk
mencegah satu kejadian gabungan tambahan, termasuk kejadian ACS pertama, stroke,
gagal jantung, atau kematian kardiovaskular.
Tabel 4.3. Beberapa NNT yang berguna (a)
Ini adalah hasil yang kami harap dapat ditingkatkan (daripada mencegah, seperti
kebanyakan uji coba terkontrol secara acak). Oleh karena itu, EER lebih tinggi dari CER,
tetapi ini adalah distribusi hasil yang diinginkan, dan kita harus memperhitungkan ini
dalam menghitung ARR dan NNT dengan membalikkan perbedaan (EER CER daripada
CER EER).Please see www.cebm.utoronto.ca for additional NNTs.

a. N Eng J Med. 2015;373(22):2103–2116.


b. N Eng J Med. 2013;368(9):795–805.
c. N Eng J Med. 2013;368(5):407–415.
d. N Eng J Med. 2012;366(17):1567–1576.
e. JAMA. 2016;176(2):184–190.
f. BMJ. 2016;532:h6895.
g. N Eng J Med. 1991;325:445–453.
h. BMJ. 1995;291:97–104.
i. JAMA. 1967;202:116–22.

Kami dapat menggambarkan efek samping terapi dengan cara yang analog, sebagai
Number Needed to Harm  NNH (jumlah yang dibutuhkan untuk membahayakan) pada
satu pasien lagi dari terapi. NNH dihitung sebagai 1/ARI. Dalam percobaan MRC, 0,03%
dari kelompok kontrol mengalami rhabdomyolysis dibandingkan dengan 0,05% pasien
yang mengalami hal ini pada kelompok yang menerima statin. Peningkatan risiko
absolut ini sebesar |0,03% 0,05%| 0,02% menghasilkan NNH 5000 selama 5 tahun. Ini
berarti bahwa kita perlu merawat 5000 pasien dengan statin selama 5 tahun untuk
menyebabkan satu pasien tambahan mengalami rhabdomyolysis. Dengan demikian,
NNT dan NNH bersama-sama memberi kami ukuran yang bagus dari upaya yang kami
dan pasien kami harus keluarkan untuk mencegah hasil buruk yang seimbang dengan
potensi risiko terkait. Kegunaan formula ini sebagai rasio usaha/hasil (atau "analisis
efektivitas biaya dokter yang buruk") sudah jelas terlihat.

Dalam studi oleh Yusuf et al, hasil co-primer pertama, yang merupakan gabungan
kematian akibat kardiovaskular, MI nonfatal, atau stroke nonfatal, memiliki ARR 1,1%,
yang menghasilkan NNT 91 selama 5,6 tahun. menindaklanjuti. Jika kita melihat data
mentah yang diberikan di bagian "diskusi", hanya 1 dari 6361 peserta yang menerima
rosuvastatin mengembangkan rhabdomyolysis, dibandingkan dengan 0 dari 6344
peserta yang menerima plasebo. Hal ini menghasilkan ISPA sebesar 0,000157% dan
NNH sebesar 636,100 (walaupun CI untuk perkiraan ini besar).

Untuk memahami NNT, kita perlu mempertimbangkan beberapa fitur tambahan.


Pertama, mereka selalu memiliki dimensi waktu tindak lanjut yang terkait dengan
mereka. Referensi cepat ke Tabel 4.3 mengingatkan kita bahwa NNT dari 10 untuk
mencegah satu lagi stroke berat atau kematian dengan melakukan endarterektomi pada
pasien dengan gejala stenosis karotis derajat tinggi mengacu pada hasil selama periode
2 tahun (dalam hal ini, dari operasi yang selesai dalam beberapa menit). Salah satu
konsekuensi dari dimensi waktu ini adalah jika kita ingin membandingkan NNT dan
NNH untuk waktu tindak lanjut yang berbeda, kita harus membuat asumsi tentang
mereka dan "penyesuaian waktu" untuk setidaknya salah satu dari mereka. Katakanlah
kami ingin membandingkan NNT untuk mencegah satu stroke tambahan, MI, atau
kematian dengan obat-obatan di antara pasien dengan hipertensi ringan versus berat.
Tampilan cepat lainnya pada Tabel 4.3 memberi kita NNT 3 pada 1,5 tahun untuk
pasien dengan hipertensi berat (ini adalah pasien yang sudah mengalami kerusakan
organ akhir) dan NNT 128 pada 5,5 tahun untuk pasien dengan hipertensi ringan
(kebanyakan gratis). komplikasi organ akhir). Untuk membandingkan NNT mereka, kita
perlu menyesuaikan setidaknya satu dari mereka sehingga mereka berhubungan
dengan waktu tindak lanjut yang sama. Asumsi yang kami buat di sini adalah bahwa
RRR dari terapi antihipertensi adalah konstan dari waktu ke waktu (yaitu, kami
berasumsi bahwa terapi antihipertensi memberikan manfaat relatif yang sama pada
tahun 1 seperti halnya selama 4 tahun ke depan). Jika kita merasa nyaman dengan
asumsi itu, maka kita dapat melanjutkan untuk melakukan penyesuaian waktu. Asumsi
ini mungkin masuk akal untuk antihipertensi karena kebanyakan dari mereka
memberikan efeknya dalam beberapa minggu dan, jika diminum sesuai resep, efeknya
tahan lama dari waktu ke waktu. Namun, ini mungkin tidak berlaku untuk perawatan
lain seperti agen analgesik yang membuat pasien menjadi tidak peka dari waktu ke
waktu.

Mari kita sesuaikan NNT untuk kelompok pasien dengan hipertensi ringan (128 selama
"diamati" 5,5 tahun) ke NNT yang sesuai dengan "hipotetis" 1,5 tahun. Kita dapat
melakukan ini dengan menyiapkan persamaan seimbang:

Setelah diatur ulang, diperoleh:

Dengan memasukkan nilai-nilai, kita mendapatkan:

(Dengan konvensi, kami membulatkan NNT desimal apa pun ke atas ke bilangan bulat
berikutnya.)

Sekarang kita dapat menilai perbedaan besar dalam hasil upaya klinis untuk mengobati
pasien dengan hipertensi ringan versus hipertensi berat: Kita perlu mengobati 35 dari
yang pertama, tetapi hanya tiga dari yang terakhir selama 1,5 tahun untuk mencegah
satu hasil buruk tambahan. Penjelasannya terletak pada perbedaan besar dalam CER,
yang jauh lebih tinggi di antara pasien dengan hipertensi berat yang ditindaklanjuti
hanya 1,5 tahun daripada di antara pasien dengan hipertensi ringan yang
ditindaklanjuti selama 5,5 tahun—artinya kami melihat ARR yang jauh lebih substansial
dalam kohort pasien dengan hipertensi berat.

Mempertimbangkan skenario kami, hasil co-primer pertama, yang merupakan


gabungan kematian akibat kardiovaskular, MI nonfatal, atau stroke nonfatal, memiliki
ARR 1,1%, yang menghasilkan NNT 91 selama 5,6 tahun masa tindak lanjut. Ingatlah
bahwa ini adalah temuan di antara populasi dengan risiko menengah kejadian
kardiovaskular. Percobaan “Pengurangan Iskemia Miokard dengan Penurunan
Kolesterol Agresif” (MIRACL) meneliti penggunaan statin pada populasi pasien dengan
risiko tinggi kejadian kardiovaskular. 23 Dalam penelitian ini, 3086 pasien dengan
angina tidak stabil baru-baru ini atau MI non-ST elevasi diacak untuk menerima
atorvastatin 80 mg versus plasebo, setiap hari, dalam waktu 4 hari rawat inap. Hasil
utama, serupa tetapi tidak identik dengan percobaan HOPE-3 (Heart Outcomes
Prevention Evaluation 3), adalah gabungan dari semua penyebab kematian, infark
miokard nonfatal, henti jantung yang memerlukan resusitasi, atau rehospitalisasi untuk
ACS. Tingkat hasil gabungan ini adalah 14,8% pada kelompok intervensi versus 17,4%
pada kelompok kontrol, menghasilkan ARR 2,6% dan NNT 39 selama 16 minggu masa
tindak lanjut. Kita sudah bisa melihat bahwa NNT lebih mengesankan, dan itu juga,
dalam waktu yang JAUH lebih singkat! Jika kita ingin membuat NNT sebanding selama
periode yang sama, kita dapat menyesuaikan NNT dari HOPE-3 ke periode tindak lanjut
16 minggu:

Stelah diatur ulang, diperoleh:

Dengan memasukkan nilai-nilai, kita mendapatkan:

Seperti yang Anda lihat, jika pasien dengan risiko menengah hanya diberi resep statin,
perlu dilakukan perawatan sebanyak 710 pasien selama 16 minggu untuk mengurangi
risiko titik akhir komposit (kematian akibat kardiovaskular, infark miokard nonfatal,
atau stroke nonfatal) di hanya salah satu dari mereka! Sebaliknya, untuk pasien berisiko
tinggi, kita hanya perlu merawat 39 orang!

Kita juga dapat menyesuaikan NNT tergantung pada risiko dasar pasien. Kembali ke
Tabel 4.2 dan contoh percobaan MRC kami, kami menghitung NNT sebesar 72 untuk
penelitian tersebut—tetapi pasien dapat memiliki risiko awal yang berbeda dari hasil
(tergantung pada adanya penyakit penyerta, dll.), dan oleh karena itu mereka mungkin
berada di risiko kejadian yang lebih tinggi atau lebih rendah daripada pasien "rata-rata"
dalam penelitian ini. NNT dapat disesuaikan untuk risiko awal individu pasien kami dari
hasil, dan ini akan dibahas secara rinci di halaman 104.

2 Seberapa tepat perkiraan efek pengobatan ini?

CI adalah alat yang dapat kita gunakan untuk menyampaikan ketepatan hasil studi. CI
memberikan rentang nilai yang kemungkinan mencakup risiko sebenarnya dan
mengkuantifikasi ketidakpastian dalam pengukuran kami. Parameter yang umum
digunakan adalah 95% CI, dan ini menentukan batas di mana asosiasi sebenarnya
berada, 95% dari waktu.

Kita dapat bekerja melalui konsep ini dengan mempertimbangkan NNT, yang, seperti
dicatat, seperti ukuran klinis lainnya karena ini hanyalah perkiraan kebenaran — oleh
karena itu, kita harus menentukan batas di mana kita dapat dengan yakin menyatakan
bahwa NNT yang sebenarnya kebohongan. Dalam percobaan PROGRESS, penurunan
tekanan darah setelah stroke atau TIA “mengurangi tingkat absolut stroke iskemik dari
14% menjadi 10%.” Ini sebesar RRR = 28%; Interval kepercayaan 95%: (17% hingga
38%). Kami diberikan CI ini di koran. Cara untuk menafsirkan ini adalah bahwa kita
memiliki keyakinan 95% bahwa nilai RRR yang sebenarnya terletak antara 17% dan
38%, dengan 28% sebagai nilai yang paling mungkin.

Pengurangan risiko absolut untuk hasil ini dari percobaan PROGRESS (Perindopril
Protection Against Recurrent Stroke Study) adalah 4% (14% 10%), yang untuk itu kita
juga dapat menghitung 95% CI. Kita melakukannya dengan mengingat bahwa RRR (|
CER EER|/CER) dan ARR adalah |CER EER|, yang dapat kita peroleh dari RRR dengan
mengalikan RRR dengan CER:

Dalam contoh kami, CER adalah 14% atau 0,14 dan batas-batas RRR CI, yang dilaporkan
dalam makalah, adalah (17%–38%). Oleh karena itu, untuk mendapatkan ARR 95% CI:
Penting untuk mempertimbangkan apakah interval kepercayaan berisi "nol", di mana
"null" berarti tidak ada manfaat dengan terapi. Null tergantung pada ukuran asosiasi
yang digunakan. Untuk ARR, yaitu |CER EER| (berarti perbedaan risiko), tidak ada
manfaat yang ditunjukkan oleh nilai 0 (yaitu, CER EER). Artinya ketika confidence
interval melewati 0, termasuk kemungkinan tidak ada pengaruh. Ini berarti bahwa
hasilnya tidak signifikan secara statistik—yaitu, nilai p lebih besar dari 0,5. Kami akan
menjelaskan hubungan antara interval kepercayaan dan nilai p secara lebih rinci di
bawah ini. Kita dapat melihat bahwa dalam contoh kita, ARR 95% CI adalah (2,38%-
5,32%), dan tidak termasuk 0%; oleh karena itu, ini adalah temuan yang signifikan
secara statistik, dan kemungkinan tidak ada manfaat dalam penelitian ini.

Akhirnya, kita dapat menghitung interval kepercayaan untuk NNT hanya dengan
mengambil kebalikan dari interval kepercayaan ARR (karena NNT 1/ARR): 1/0.0238
dan 1/0.0532. Jadi, 95% CI untuk NNT adalah 43 hingga 19, yang kami tulis ulang
sebagai (19-43).

Semakin kecil jumlah pasien dalam penelitian yang menghasilkan NNT, semakin luas CI-
nya karena kami "kurang yakin" bahwa hasilnya menunjukkan efek yang sebenarnya
jika hanya ada beberapa pasien yang kami lakukan eksperimen (lebih sedikit pasien
berarti bahwa hasil yang kita lihat mungkin terjadi melalui bias atau kebetulan).
Meskipun demikian, bahkan ketika CI lebar, itu dapat memberi kita beberapa panduan,
dan kita harus melihat batas-batas CI. 25 Contoh uji PROGRESS di atas menunjukkan
efek positif, tetapi kita perlu melihat batas atas CI untuk NNT. Apakah nilai 43 penting
secara klinis? Jika kita memutuskan bahwa tidak, hasil studi tidak membantu, meskipun
secara statistik signifikan (yaitu, meskipun "p <0,05"). Demikian pula, jika hasil studi
negatif, kita dapat melihat batas CI untuk melihat apakah manfaat positif yang
berpotensi penting telah dikecualikan. Hasil yang tidak signifikan secara statistik (yaitu
“p > 0,05) masih dapat membantu kami! Kebetulan, interval kepercayaan dan nilai p
terkait erat (Kotak 4.3).

Kotak 4.3 Interval kepercayaan dan uji signifikansi

Interval kepercayaan (CI) dan uji signifikansi terkait erat. Umumnya, nilai p "signifikan"
p <0,05 akan sesuai dengan 95% CI, yang mengecualikan nilai yang menunjukkan tidak
ada perbedaan. Nilai "tidak ada perbedaan" adalah 0 untuk perbedaan tindakan
(misalnya, pengurangan risiko absolut, atau dikenal sebagai perbedaan risiko) dan 1
untuk rasio (misalnya, risiko relatif, rasio peluang, atau rasio bahaya).

Misalnya, perbedaan risiko absolut 5% (95% CI 5% hingga +15%) tidak signifikan


secara statistik karena 95% CI mencakup 0, sedangkan perbedaan risiko 5% (95% CI
2%–8% ) akan signifikan secara statistik karena jika tidak menyertakan 0. Demikian
pula, risiko relatif 0,80 (95% CI 0,50–1,1) tidak akan signifikan secara statistik karena
mencakup 1, sedangkan risiko relatif 0,80 (95% CI 0,70–0,90 ) akan signifikan secara
statistik karena tidak termasuk 1 (nilai "tidak berpengaruh" untuk ukuran rasio).
Sebagian besar ahli statistik sekarang setuju bahwa estimasi, termasuk CI, lebih disukai
untuk meringkas hasil penelitian, tetapi nilai CI dan p dapat dipertukarkan dan banyak
makalah menyajikan keduanya. Untuk informasi lebih lanjut tentang interval
kepercayaan, termasuk detail tentang cara menghitungnya, lihat Lampiran 1 (LINK).

Anda mungkin juga menyukai