Anda di halaman 1dari 4

Perdebatantentangpvalue

Ringkasan: Nilai p adalah konsep statistik yang paling banyak digunakan dalam penelitian
biomedis. Baru-baru ini, ada kontroversi atas utilitas dan atas kemungkinan hubungan antara
penyalahgunaan p-value dan proporsi yang relatif tinggi dari terbitan penelitian medis yang
tidak dapat direplikasi. Dalam tulisan ini, kami memperkenalkan p-value dalam istilah awam
dan menjelaskan ketidakaturannya dan keterbatasannya. Namun, kami juga menunjukkan
bahwa alternatif yang tersedia untuk p-value juga memiliki keterbatasan yang sama. Kami
menyimpulkan bahwa menggunakan p-value adalah cara yang sah untuk menguji hipotesis
null dan hipotesis alternatif dalam uji klinis. Namun, dengan menggunakan p-value dari uji
statistik tunggal untuk menilai kepantasan ilmiah dari proyek penelitian adalah
penyalahgunaan p-value; hasil tes kesimpulan menggunakan p-value perlu diintegrasikan
dengan hasil sekunder dan data lainnya agar sampai pada kesimpulan klinis yang sah.
Memahami variabilitas dan keterbatasan p-value penting bagi interpretasi hasil statistik dalam
studi penelitian.

PENDAHULUAN
latar belakang yang mengganggu. NHST
Biasanya dalam studi, seperti adalah metode analisis data yang paling
percobaan klinis, para peneliti mungkin banyak digunakan di sebagian besar disiplin
tertarik pada perbedaan dalam preselected ilmu. Kami melihat perbedaan antara dua
primary endpoint antara pengobatan yang perlakuanyangkitaamatidalamujicobadan
inovatif dan kelompok placebo control (atau bertanyakepadadirisendiri:"Apaprobabilitas
pengobatanstandard).Termotivasiolehbukti dari mengamati perbedaan antara dua
bukti awal bahwa pengobatan inovatif kelompokbesarsepertiyangsatu(ataulebih
berpotensi menguntungkan bagi pasien, uji besar) di bawah equipoise (null) hipotesis?"
klinisbertujuanuntukmengujihipotesissecara probabilitas inidisebut sebagai 'pvalue'atau
ketat. 'probabilitas signifikansi.' Ketika probabilitas
ini cukup kecil, kami yakin bahwa
Sebelum kita membuktikan bahwa,
kemungkinan ada perbedaan antar perlakuan
perlakuan eksperimental terbaru ini berhasil,
sangat kecil dan, dengan demikian, kami
kitaharusmenjagakeseimbanganuntukkedua
menyimpulkan bahwa uji percobaan
pilihan perlakuan agar dapat diadakan
mendukung hipotesis alternatif (yaitu,
pengujiansesuaietik.Equipoiseberartibahwa
hipotesis kerja yang memotivasi penelitian).
tidak ada perbedaan antara dua perlakuan.
Ketikaprobabilitaslebihbesar,kitamemiliki
Hipotesisiniadalahapayangsecarastatistik
sedikit bukti untuk mendukung hipotesis
kita sebut sebagai 'hipotesis nol'. Dengan
alternatif,meskipunmasihmungkinbenar.
adanya hipotesis nol, semua uji klinis juga
memiliki hipotesis kerja bahwa perlakuan Dalam pengujian hipotesis statistik,
eksperimentaltidakhanyaakanbekerja,tetapi ada dua jenis kesalahan dapat terjadi: positif
jugamencapaimanfaatklinisyangsignifikan. palsu (yaitu, penolakan yang salah dari
Hipotesisiniseringdisebutsebagaihipotesis hipotesis nol) dan negatif palsu (yaitu,
alternatif. kegagalanuntukmenolakhipotesisnolpalsu).
Setelahmenyelesaikanujicoba,kami Pendekatan NHST menggunakan nilai cutoff
memeriksadatapercobaanuntukmenentukan sewenangwenang (biasanya 0,05) untuk
hipotesis mana hipotesis nol atau hipotesis mengontrol tingkat falsepositif. Temuan
alternatif yang didukung. Pada tahun 1925 dengan pvalues lebih kecil dari nilai cutoff
Fisher memperkenalkan null hypothesis digambarkansebagai'statistiksignifikan'atau
significance testing (NHST) untuk secara 'positif,' sementara temuan dengan pvalues
obyektif memisahkan temuan menarik dari sama dengan atau lebih besar dari cutoff
digambarkan sebagai 'tidak signifikan' atau value satu sisi dari 2,5% akan memiliki
'negatif'. intervalkepercayaan95%untukpvaluemulai
dari 0 79%. Namun, lebar interval
kepercayaan ini dapat dipersempit dengan
PERDEBATANTENTANGPVALUES meningkatkan ukuran sampel dari percobaan
Keindahandaripvalueadalahbahwa replikasi.
ia menggabungkan kedua sinyal (perbedaan Salah satu penyalahgunaan yang sering
perlakuan) dan gangguan (variasi acak dari terjadi dari pvalue tidak terkait dengan
sinyal yang diperkirakan) menjadi kekuatan pengulangan dari hasil penelitian adalah
ukurantunggaldaribuktiyangdiberikanoleh bahwahalituseringdisalahartikanolehdokter
data percobaan. Diadopsi secara luas dalam dan orang lain yang tidak terlatih dalam
komunitas riset ilmiah, pnilai dianggap statistik. Pvalue, yang menilai kemungkinan
sebagai konsep statistik yang paling hasilyangdiberikanadalahkarenakebetulan,
berpengaruh dan transformatif dalam ilmu seringsalahdiartikansebagaiukurankekuatan
pengetahuan modern. Namun, diluar dari dari suatu hubungan. Misalnya, dalam uji
keberhasilan mereka, ada sebuah perdebatan klinispvaluesyanglebihkecildianggapsalah
yang muncul tentang bisa atau tidak untuk menunjukkan keunggulan yang lebih
penggunaan pvalue bertanggung jawab atas besar dari intervensi eksperimental
kegagalan yang sering terjadi untuk dibandingkan dengan intervensi (jika ada)
mereplikasi temuan ilmiah yang signifikan pada kelompok kontrol. Namun, efek klinis
secara statistik masalah serius yang signifikan yang kecil dapat dikaitkandengan
membatasi terjemahan dari penelitian klinis pvalueyangsangatrendahjikaukuransampel
dalam praktek klinis. Dalam tulisan terbaru cukup besar. Dengan demikian, pnilai yang
merekadiNatureMethods,Halseydanrekan rendah tidak selalu berarti bahwa temuan
berpendapatbahwa: tersebut adalah kepentingan klinis atau
"Pvalueseringdigunakantanpasadarbahwa keuntunganbiologis.
dalamkebanyakankasuskekuatanstatistik Beberapa alternatif untuk pvalue telah
daristuditerlalurendahuntukPuntuk diusulkan, termasuk confidence intervals dan
membantuinterpretasisuatudata....Para statistikBayesian.Sebuahconfidenceintervals
penelitiakanlebihbaikuntukmembuangP memberikan dua informasi dimensi, estimasi
valuedanmenggunakanukuranstatistik point (sinyal) dan lebar confidence intervals
alternatifuntukinterpretasidata." (noise), sehingga dapat berpotensi menjadi
Sesuaidenganpemikiranini,paraeditorjurnal lebihinformatifdaripvaluedanharusselalu
Basic and Applied Social Psychology baru dilaporkan. Namun, confidence intervals
baruinimelarangpvaluedanhipotesistesting adalahunittergantungdan,dengandemikian,
dariartikelyangdipublikasikandalamjurnal sulituntukmembandingkanantarastudiyang
mereka. berbeda. Selain itu, aturanaturan keputusan
tentang penerimaan atau penolakan hipotesis
Berbeda dengan pandangan ini, kami nol berdasarkan hasil confidence intervals
berpendapat bahwa pvalue saja tidak bisa pada kesimpulan yang sama seperti aturan
disalahkankarenakurangnyapengulangandari keputusan berdasarkan pvalue setiap kali
temuan penelitian ilmiah. Pvalue adalah 95% confidence intervals mengekslusi nilai
metriksatudimensiyangmengukurkekuatan nol dari parameter ada kesamaan pvalue
daribuktisebagai signaltonoiseratio dalam kurangdari0,05. 'BayesiancredibleInterval'
satupercobaan.Samasepertisemuastatistik, dalam statistik Bayesian, sejalan dengan
pvalue diperkirakan dari data dan, dengan confidence interval dalam statistik frekuensi,
demikian,tundukpadavariasiacak;sehingga adalah alternatif lain untuk pvalue. Namun
interval kepercayaannya bisa sangat luas, kedua metode alternatif ini bisa, seperti p
terutamaketikadataasli berasal dari sampel value,menghasilkanpositifpalsudannegatif
yang relatif kecil. Sebagai contoh, palsuketikamemutuskanuntukmenerimaatau
berdasarkanpadakaryaLazzeronidanrekan, menolak hipotesis klinis dan dapat salah
replikasi identik dari tes dengan laporan p
ditafsirkanuntukmewakilikepentinganklinis untuk mengurangi jumlah hasil positif palsu
ataubiologisdaritemuan. yang diterbitkan. Hal ini juga membantu
membedakanhasilanalisiskonfirmatori,yang
MELARANG PVALUES BUKAN cukupkuat,darihasilanalisiseksplorasi,yang
SOLUSIUNTUKPENELITIANYANG harusditanganidengankeraguan.
DIREPRODUKSI
Insentifuntukmempublikasikanhanya
hasilsignifikansecarastatistik('positif')yang
Terdapat banyak tahapan design
telah menyebabkan bias publikasi, fenomena
dananalisisdarikeberhasilansebuahstudi, di mana studi dengan hasil positif lebih
termasuk pengumpulan data, proses, dan mungkin untuk diterbitkan dari studi dengan
analisis.Langkahterhakhirdaritahapanini hasil negatif. Bias publikasi adalah masalah
adalah perhitungan atas inferential serius yangmempengaruhi baik pengulangan
statistic, seperti pvaluedan aplikasi dari dari hasil penelitian dan, mungkin lebih
keputusan aturanmemakai statistic penting lagi, interpretasi yang benar dan
(p<0,05) untuk menerima atau menolak terjemahan dari hasil penelitian yang
hipotesis yang diinginkan. Dalam perjalanan dipublikasikan menjadi pedoman klinis dan
mengumpulkan dan menganalisa data, para kebijakan kesehatan. Namun, bias publikasi
penelitimemilikibanyakkeputusanyangakan adalah masalah dari publikasi selektif yang
dibuat,sepertiberapabanyakdatayangharus tidak berhubungan untuk menggunakan p
dikumpulkan, observasi mana yang akan value;selektifinimelaporkanstudipositifjuga
diekslusi, dan kondisi tepat untuk dapat terjadi ketika statistik inferensial lain
menggabungkan dan membandingkan. seperti Bayesian critical interval digunakan
Keputusan ini dibuat sebelum analisis data untuk menguji hipotesis nol dan alternatif.
memiliki dampak yang lebih besar pada Biaspublikasidapatdikurangibukandengan
keabsahanhasil akhir dari keputusantentang dengan melarang penggunaan pvalue, tetapi
statistik inferensial mana yang akan denganmenerapkanstandaryanglebihtinggi
digunakan. dan proses tinjauan berbasis ilmiah, dan
Simmons dan rekanrekannya telah dengan mendorong publikasi yang dirancang
menunjukkan bahwa meskipun dukungan dengan baik dan melakukan penelitian
nominal tingkat positif palsu maksimum 5% 'negatif'.
(yaitu, p<0,05), perubahandalam keputusan Kurangnya pengulangan dalam
berdasarkan beberapa data analisis dapat penelitian tidak dapat disalahkan pada
meningkatkan tingkat positif palsu menjadi penggunaan pnilai. Seperti yang dijelaskan
60% pada studi tunggal. Untuk melindungi olehLeekdanPeng,"membuangilmustatistic
terhadap kurangnya estimasi pada tingkat yangburukakanmembutuhkanpengawasandi
positif palsu, mereka merekomendasikan setiap langkahnya, bukan hanya yang
penyelesaianpenuhdarisemuakeputusandata terakhir". Penelitian uji klinis dibangun dari
analisis dan pelaporan semua perbandingan hipotesis nol dan alternative yang jelas,
yang relevan, bukan hanya yang signifikan. sehinggapenggunaanpvalueuntukpengujian
Sebuah metode yang lebih ketat untuk hipotesistepat.Melarangpenggunaanpvalue
mengurangi publikasi dengan hasil positif bukanlah solusi untuk pengulangan rendah
palsu direkomendasikan oleh Gelman dan temuanpenelitianilmiah.
Loken; melibatkan semua penelitian dalam Jadi apa penyebab utama yang bisa
dua tahap, yang pertama sebagai studi menjelaskan pengulangan temuan penelitian
eksplorasi berdasarkan teori dan yang kedua yangsalah?Jikakitaberpikirtentangstatistik,
sebagai studi konfirmatori dengan protokol pengambilankeputusantessebagaidiagnostik
preregistrasinya yang menspesifikasi dalam validitas ilmiah dari hasil yang dihasilkan
kemajuan semuarincianpengolahandatadan menggunakan data yang dikumpulkan dalam
analisis.Pendekataninimemungkinkanuntuk senunah penelitian, pvalue dapat dilihat
kebebasan dan fleksibilitas pada analisis sebagai nilai tes laboratorium (mirip dengan
sembari memberikan kekokohan yang cukup tes laboratorium untuk membantu dalam
penentuandaridiagnosisklinis.Dalamanalogi hasil, dan benar ukuran uji klinis untuk
ini salah satu kekurangan pvalue adalah memastikan kekuatan statistic yang tinggi
khusus tes diagnostik, yaitu kesempatan (yaitu, kepekaan). Dokter tidak mendiagnosa
menerimahipotesisnolbilatidakadaefekdari penyakithanyaberdasarkannilailaboratorium
pengobatan. Kekuatan statistic adalah saja; mereka bergantung pad bukti kolektif
sensitivitas tes diagnostic, kemampuan untuk yang mendukung uji diagnostic. Demikian
mengidentifikasihipotesisbenar/sah.Namun, pula, hasil uji klinis dan openelitian medis
jikahanyasebagiankecildaripenelitianyang lainnya tidak harus bergantung sepenuhnya
dilakukan memiliki validitas untuk hipotesis padapvalueuntukhasilakhir.Temuanuntuk
klinis,nilaiprediktifpositifdaritesdiagnostic/ hasilakhirdenganbuktipendukungdarihasil
statistic (yaitu, kemungkinan hipotesis klinis akhirsekunderdandenganbuktibuktilainnya
yang benar diberi tes yang signifikan secara harus diperhitungkan. Akhirnya, itu sangat
statistic)akanrendah.Misalnya,menggunakan penting untuk melaporkan temuan studi
desain penelitian dengan tingkat 5% tipe 1 dengan cara yang akurat, lengkap, dan
error(yaitu,95%sensitivitas)dandaya80% transparanyangmemungkinkanpembacayang
(sensitivitas),ketikahanya10%darihipotesis mungkin ingin untuk menggunakan atau
klinisuntukdiujiadalah,benarkemungkinan meniruhasildneganjenismemahamikekuatan
bahwa nilai prediksi posituif secata statistic danketerbatasanpenelitian,dankekuatandan
hasilnya benar adalah hanya 60% dan akan keterbatasanmetode statistic yangdigunakan
lebih buruk untuk desain dengan kekuatan untukmenganalisisdatayangdihasilkanoleh
statisticyanglebihrendah.Dengandemikian, penelitian.
melarang pvalue bukan solusi unruk
penelitianyangdidasarkanpadahipotesisyang Kesimpulan
masih dipertanyakan. Konsep ini dijelaskan Singkatnyapvalueadalahinferensial
oleh Dr. Ionnadis pada tahun 2005 dalam statistic yang dapat diterima untuk menguji
artikel terkenal berjudul Mengapa hasil hipotesis dalam penelitian uji klinis. Namun,
penelitian yang paling sering dipubliskan secaraekslusifhanyabergantungpadasatup
adalahpalsu.Ilmupengetahuanadalahproses value untuk menilai prestasi ilmiah dari
belajar berulang. Tidak ada jalan pintas. penelitian adalah penyalahgunaan pvalue;
Selama proporsi hipotesis yang benar adalah kesimpulan studi perlu didasarkan pada
rendah di antara studi yang dilakukan atau berbagaitemuanyangsalingberkaitan,tidak
kekuatan statistic dari studi yang dilakukan pada uji statistic tunggal. Memahami
rendah (sensitivitas rendah), hasilnya kurang keterbatasan dan variabilitas dari pvalue
cenderung berulang. Sampah masuk sampah sangat penting untuk menafsirkan hasil
keluar! percobaan dengan benar. Persiapan latar
Untukmeningkatkanreproduktifhasil belakang yang lebih baik untuk penelitian
penelitian, pertama kita harus ketat contoh pelaksanaan penelitian yang efektif
menerapkan prinsipprinsip ilmiah untuk sebelum melakukan kajian utama adalah
menghasilkanhipotesisyangjelasdanilmiah langkahyangpalingpentingyangdiperlukan
yang dibenarkan. Hal ini memerlukan untukmeningkatkanvaliditasdanpengulangan
penelitian latar belakang menyeluruh (sering dari temuantemuan ilmiah. Melarang
termasuk ulasan sistematis) untuk penggunaan pvalue dan pengujian hipotsis
mengembangkanprotokoldengandasaryang karena keterbatasan tidak mungkin memiliki
kuat, melakukan studi percontohan untuk banyak pengaruh pada peningkatan
membuktikan konsep, menggunakan metode pengulangan dalam melakukan penelitian uji
yang ketat untuk obyektif menilai ukuran klinis.