Anda di halaman 1dari 15

EVALUASI EFIKASI DAN EFEKTIVITAS

Meskipun evaluasi program akan selalu memiliki banyak tujuan, tujuan utamanya adalah untuk
menentukan tingkat kesetiaan pengiriman intervensi program HP-DP dan metode pengukuran oleh
staf dan penerimaan oleh klien, dan kemanjuran atau efektivitasnya dalam menghasilkan
perubahan signifikan dalam arti penting. tingkat dampak. Tujuan utama bersama adalah untuk
menghasilkan data dan wawasan tentang kualitas yang memadai untuk menginformasikan
pengambilan keputusan tentang program HP-DP dan kebijakan kesehatan terkait. Sayangnya,
sebagian besar evaluasi tidak mencapai tujuan ini.

Buruknya proses, dampak, hasil, dan evaluasi ekonomi biaya sering dilakukan karena
kurangnya waktu dan sumber daya, dan / atau, sayangnya, keahlian teknis yang buruk dan
kurangnya pengalaman staf. Banyak evaluasi HP-DP yang tidak valid terjadi karena didorong
secara politis. Mereka tidak mencerminkan pemilihan dan implementasi metode suara. Sebelum
alokasi sumber daya yang signifikan untuk program baru atau yang sedang berlangsung dibuat,
rencana evaluasi yang ketat, anggaran yang memadai, dan jadwal yang realistis sangat penting
untuk memiliki peluang untuk menghasilkan hasil yang valid.

Seperti dibahas dalam Bab 1, evaluasi meta (ME) harus dilakukan sebagai salah satu
langkah perencanaan pertama untuk menentukan dasar pengukuran dan bukti intervensi untuk
masalah target dan populasi. ME, suatu tinjauan sistematis yang menggunakan kriteria standar,
mendefinisikan PHASE Evaluasi untuk setiap program HP-DP dan mendefinisikan kelayakan
berbagai jenis evaluasi untuk masalah kesehatan tertentu, populasi, dan pengaturan praktik.
Rencana dan anggaran program tertulis dengan deskripsi jenis, frekuensi, dan intensitas metode
intervensi, dan definisi replikasi pengukuran dan prosedur pengumpulan data, berdasarkan ME
saat ini, harus disusun dan diedarkan untuk tinjauan dan diskusi internal. Penilaian Evaluabilitas,
yang mendefinisikan hambatan untuk evaluasi yang ketat dan tinjauan staf internal yang bijaksana,
perlu diselesaikan untuk menentukan tingkat kesiapan program dan staf untuk melakukan program
dan evaluasinya.

Evaluasi formatif dan uji coba untuk mengidentifikasi hambatan dan solusi untuk
kebutuhan program dan untuk meningkatkan implementasi program rutin adalah komponen
standar dan esensial dari rencana evaluasi. Pengalaman penulis selama periode 40 tahun dan ME
program HP DP mengkonfirmasi bahwa banyak komponen dari rencana evaluasi yang memadai
sering hilang, tidak lengkap, atau cacat secara metodologi. Konsultan evaluasi sering diminta
untuk mengevaluasi program-program yang kekurangan banyak komponen teknis, dan / atau
diminta untuk mengevaluasi program yang telah ada selama beberapa tahun, dan hampir
menyelesaikan siklus pendanaan implementasi.
Kategori Desain Evaluasi

Ketika menyiapkan rencana evaluasi, terutama memilih desain evaluasi, berbagai masalah
metodologis dan praktis, seperti dibahas pada Bab 1 dan 2, harus diatasi. Adalah penting untuk
mengidentifikasi dan berusaha mengendalikan banyak sumber bias yang mungkin, yang selalu
melemahkan, atau mengkompromikan, interpretasi hasil. Apresiasi menyeluruh terhadap prinsip
desain evaluasi diperlukan untuk menjawab dua pertanyaan tentang validitas hasil: (1) Apakah
perubahan dampak atau tingkat hasil signifikan secara statistik? dan (2) Dapatkah perubahan yang
diamati dikaitkan dengan program HP-DP, atau apakah sebagian atau semua hasil disebabkan oleh
penjelasan masuk akal lainnya? Desain evaluasi mengidentifikasi selama periode waktu apa, untuk
siapa, kapan, dan prosedur intervensi dan pengukuran apa yang (atau harus) diterapkan selama
implementasi. Jika direncanakan dengan baik dan berhasil diimplementasikan, desain
eksperimental harus menghasilkan data dan wawasan paling valid untuk mendukung kesimpulan
yang dapat dipertahankan tentang efek. Desain yang baik juga harus memungkinkan suatu program
memperkirakan, dengan tingkat kepercayaan tertentu, tingkat perubahan apa yang mungkin terjadi,
jika peserta tidak terpapar pada program HP-DP baru. Seperti dicatat dalam Tabel 3.1, ada tiga
kategori desain: pra-eksperimental, quasi eksperimental, dan eksperimental.

Tabel 3.1 Kategori Desain Evaluasi

Desain Deskripsi
Termasuk satu kelompok peserta dengan pengamatan awal dan
Pra-Eksperimental tindak lanjut. Ini mungkin menegaskan kontrol variabel atas bias
utama ke validitas hasil. Digunakan untuk menetapkan tingkat
keberhasilan dan tingkat dasar dampak dari program HP-DP
yang ada.
Termasuk grup E eksperimental dan grup perbandingan (C)
Quasi Eksperimental yang dibuat dengan metode selain penugasan acak. Ini termasuk
pengamatan dasar dari kedua kelompok sebelum dan sesudah
penerapan prosedur intervensi. Ini mungkin menghasilkan bukti
dampak yang dapat ditafsirkan dan mendukung, menyatakan
berbagai tingkat kontrol atas beberapa bias, tetapi biasanya tidak
semua bias terhadap validitas hasil.

Eksperimental Termasuk tugas acak ke grup E dan kontrol C eksperimental.


Pengamatan kedua kelompok, sebelum dan sesudah penerapan
prosedur intervensi, dilakukan. Jika berhasil dilaksanakan, itu
harus menghasilkan bukti dampak yang paling dapat ditafsirkan.
Ini harus menegaskan tingkat kontrol tertinggi atas bias utama
yang membahayakan validitas hasil.
Notasi Desain Evaluasi

Mempelajari notasi desain evaluasi dasar (seperti yang ditunjukkan pada Tabel 3.2), seperti istilah
evaluasi pembelajaran, diperlukan untuk komunikasi yang efisien dan konsisten.Seperangkat
huruf kecil yang umum, yang menunjuk elemen desain yang berbeda, digunakan dalam diagram
dan diskusi di bagian lain bab ini.

Faktor yang Mempengaruhi Hasil Validitas Internal dan Eksternal

Meta-Evaluation mendefinisikan FASE perkembangan program HP-DP untuk masalah dan


populasi tertentu. Validitas internal suatu program didefinisikan oleh beberapa, evaluasi
metodologi FASE 1 dan 2. Jika FASE 3 dan 4 hasil Evaluasi dari sejumlah besar studi dengan
validitas internal tinggi konsisten dan positif, "validitas eksternal" dari intervensi HP-DP dapat
didukung dalam berbagai tingkat. Namun, berbagai dampak yang ketat dan evaluasi hasil
diperlukan untuk menghasilkan konsensus profesional (Pedoman Praktik Terbaik) tentang
validitas internal, terutama validitas eksternal semua program HP-DP.

Tabel 3.2 Notasi Desain Evaluasi

Definisi Notasi

R Penugasan acak dari peserta, unit, atau situs ke grup evaluasi


E Eksperimental — intervensi atau perawatan — kelompok. E1, E2, E3 ...;
menunjukkan pemaparan terencana kelompok terhadap berbagai intervensi dan
prosedur penilaian (P)
C Kelompok kontrol (setara) yang didirikan hanya dengan penugasan acak;
menunjukkan tidak ada paparan intervensi atau paparan intervensi standar dan
prosedur penilaian
(C) Grup pembanding dibuat dengan metode apa pun selain pengacakan
X Prosedur intervensi diterapkan pada grup E. X1, X2, X3. . . ; menunjukkan intervensi
yang terdiri dari banyak, Prosedur yang berbeda
N Jumlah peserta dalam kelompok E, C, atau (C)
O Pengamatan atau pengukuran untuk mengumpulkan data: tes, wawancara, penilaian,
atau catatan ulasan O1, O2, O3 ...; menunjukkan beberapa pengukuran pada waktu
yang berbeda
T Waktu ketika pengamatan, penugasan ke kelompok, atau penerapan prosedur
intervensi telah terjadi: T1, T2, T3 ...; menunjukkan waktu spesifik untuk Prosedur

Orang, staf, tempat, dan karakteristik program akan selalu bervariasi dalam cara kecil atau
besar. Program HP-DP dan rencana evaluasinya harus disesuaikan dengan karakteristik struktural
dan proses yang unik dan untuk personel dan peserta dalam pengaturan tertentu (faktor
kontekstual). Sementara metode teknis dari evaluasi program kontrol tekanan darah tinggi sedang
direncanakan untuk mendokumentasikan efektivitas di Washington, DC, atau Sidney, Australia,
harus sebanding, masing-masing program individu perlu lebih peduli tentang cara
mengoptimalkan penerimaan program kepada staf dan klien, dan efektivitas di mana program dan
evaluasinya sedang dilakukan. Keberhasilan implementasi harus ditingkatkan dan kemungkinan
perubahan positif meningkat dengan mengadaptasi prosedur program dengan populasi dan praktik
yang diberikan.

Meskipun pada prinsipnya, evaluasi harus terutama berkaitan dengan validitas internal dan
eksternal, hampir semua evaluasi berkaitan dengan menghasilkan hasil dengan validitas internal
yang tinggi. Ini memungkinkan suatu program untuk memanfaatkan sumber daya, waktu, dan staf
secara optimal untuk meningkatkan kesempatan untuk menghasilkan perubahan yang diinginkan
pada saat ini, untuk populasi ini dan pengaturan praktik. Validitas eksternal, dapat
digeneralisasikan ke populasi yang ditentukan, hampir selalu di luar sumber daya evaluasi.
Vaksinasi campak akan, dengan pengecualian yang jarang, akan efektif untuk semua anak di
negara manapun dan memiliki validitas internal dan eksternal yang tinggi. Namun, banyak faktor
yang kompleks perlu dipertimbangkan sebelum program HP DP dapat mengatakan ia memiliki
validitas eksternal. Masalahnya adalah heterogenitas populasi, serta variasi dalam kapasitas,
kepegawaian, dan sumber daya di mana suatu program disampaikan.

Sintesis Bias Kontemporer untuk Validitas Internal

Literatur review dalam pendidikan, pendidikan kesehatan-promosi kesehatan, dan ilmu


sosial dan perilaku selama lebih dari 50 tahun secara tradisional mengidentifikasi delapan ancaman
umum (bias) terhadap validitas internal dari hasil yang diamati berdasarkan Campbell dan Stanley
(1966). Setiap ancaman pada Tabel 3.3 dapat mengacaukan atau membiaskan interpretasi
“keberhasilan” atau “efektivitas” program HP-DP dengan secara independen atau kolektif
menghasilkan semua atau sebagian dari perubahan yang diamati dalam tingkat dampak atau hasil.
Metode evaluasi kontemporer dan 30 tahun studi evaluasi HP-DP dan penelitian berkualitas tinggi
telah menghasilkan sintesis delapan ancaman terhadap validitas dari Campbell dan Stanley (1963).

Tabel 3.3 Ancaman terhadap Validitas Internal

Definisi Ancaman

# 1 Historis Bias dari peristiwa atau paparan organisasi


nasional, lokal, atau internal yang
signifikan, tidak direncanakan yang terjadi
selama evaluasi yang dapat menghasilkan
# 2 Maturasi perubahan perilaku
Bias dari perubahan biologis, sosial, perilaku,
atau administratif yang terjadi di antara
peserta atau staf selama periode studi, mis.,
Semakin tua, staf menjadi lebih / kurang
terampil, atau lebih efektif-efisien dalam
# 3 Pengujian pengiriman program
Bias dari mengambil tes, diwawancarai, atau
# 4 Instrumen diamati
Bias dari perubahan karakteristik instrumen,
metode observasi proses pengumpulan
data, mempengaruhi reliabilitas + validitas
# 5 Regresi Statistik instrumen
Bias dari pemilihan kelompok E, C, atau (C)
berdasarkan tingkat karakteristik tinggi
atau rendah menghasilkan perubahan
# 6 Seleksi dalam pengukuran masa depan
Identifikasi kelompok C atau (C) tidak setara
dengan kelompok E karena karakteristik
# 7 Attriction demografis, psikososial, atau perilaku
Bias diperkenalkan dalam data dampak oleh
kerugian non random (> 10%) dalam
# 8 Efek Interaktif kelompok E, C, (C)
Kombinasi ketujuh ancaman terhadap validitas

Evaluasi kontemporer seperti dicatat dalam Tabel 3.4, delapan sumber bias terhadap
validitas internal hasil dikondensasi oleh Windsor, Clark, Boyd, dan Goodman pada tahun 1994
(2nd ed.) Dan 2004 (3rd ed.) Ke dalam tiga kategori bias utama : Pengukuran, Seleksi, dan Historis
(MSH). Literatur menegaskan bahwa kategori-kategori ini adalah sumber bias yang paling sering
dan serius yang mempengaruhi hasil. Tim evaluasi perlu mengetahui cara terbaik untuk
mengontrol masing-masing, dan untuk memilih desain untuk diterapkan agar memungkinkan
untuk mengesampingkan, penjelasan alternatif dampak atau hasil.
Tabel 3.4 Kategori Utama Bias terhadap Validitas Hasil Internal

Masalah Dimensi Bias

Pengukuran (m) Validitas (V) Kualitas + Kelengkapan: Metode dan Jenis


Data pada O1 + O2 + Aktif… untuk Model
Reliabilitas (R) Teoritis atau Perencanaan

Seleksi (S) Tingkat Partisipasi Representatif: Eligibelitas/Kelayakan (% /


(participation rate) (P) +) dari sampel dari populasi target
Tingkat Peralihan (attriction beresiko pada O1 + O2 + Pada ...
rate) (A)

Historis (H) External Events (He) Eksposur: Jenis - Intensitas - Durasi -


Internal Events (Hi) Frekuensi terencana dan tidak terencana
Intervention (Hx) Event program HP-DP dan event eksternal
yang menonjol selama evaluasi

Bias Pengukuran

Sebagaimana dibahas dalam Bab 4, kategori bias pertama dan paling menonjol terhadap
atribusi perubahan signifikan dalam tingkat dampak atau hasil dari intervensi HP-DP adalah
pengukuran. Kategori bias ini menggabungkan ancaman # 3 (Pengujian) dan # 4 (Instrumentasi)
dari Campbell dan Stanley. Ini memiliki dua sumber utama kesalahan potensial dan bias dalam
tingkat dampak atau hasil: validitas buruk (V) dan keandalan (R) pengukuran yang buruk.

Penghapusan bias ini harus selalu terjadi sebelum evaluator dapat menilai secara akurat
jika, dan seberapa banyak, perubahan telah terjadi dalam tingkat dampak.

Meta-evaluasi (ME) literatur terkait mendefinisikan dampak perilaku primer atau tingkat
hasil kesehatan dan variabel dependen Ini mengidentifikasi metode "standar emas" dan
menjelaskan cara masing-masing mengukur secara valid dan andal. Selain itu, ME mendefinisikan
variabel demografis independen yang paling menonjol, dan / atau konstruksi sosial-sosial yang
memprediksi tingkat dampak atau hasil untuk populasi target. ME memberikan evaluasi dengan
data dan wawasan yang valid untuk menentukan jenis bias apa yang mungkin telah diperkenalkan
oleh kesalahan pengukuran, dan partisipan tidak mengikuti tingkat tindak lanjut. Analisis
psikometri yang tepat sangat penting untuk menetapkan validitas tindakan dan data. Diskusi
terperinci disajikan dalam Bab 4 (Pengukuran dan Analisis dalam Evaluasi) dari buku ini.

Pada permulaan perencanaan, tujuan evaluasi haruslah untuk memilih set data yang
optimal dan fokus pada metode pelaksanaan, uji coba semua metode pengukuran observasi untuk
mengurangi kesalahan pada O1 dan O2, dan mencapai> 90% peserta / data tingkat tindak lanjut.
Validitas, kelengkapan keandalan, dan beban staf / peserta, daripada jumlah data, harus memandu
keputusan akhir tentang data evaluasi “inti”. Masalah mendasar adalah sejauh mana evaluasi
menggunakan metode pengukuran yang dapat ditiru dan standar. Apakah metode "standar emas"
dipilih dari meta evaluasi ilmu pengukuran untuk masalah atau kondisi tertentu? Apakah metode
pengukuran “standar emas” diterapkan untuk variabel dampak proses prediksi yang menonjol?

Suatu evaluasi perlu menghadirkan bukti empiris yang mengkonfirmasikan kualitas,


akurasi, dan stabilitas data dampak, yang dikumpulkan sebelum, pada permulaan, dan selama
evaluasi. Penting untuk ditekankan: desain “mengendalikan” bias pengukuran hanya jika
kesalahannya kecil dan dapat dibandingkan untuk semua kelompok evaluasi. Penugasan acak
peserta / data dengan validitas pengukuran yang buruk mendistribusikan sumber bias yang besar
secara merata; pengacakan tidak mengontrol untuk kesalahan besar.

Bias Seleksi

Kategori bias kedua untuk atribusi efek program HP-DP adalah seleksi. Kategori bias ini
menggabungkan ancaman # 5 (Regresi), # 6 (Pilihan), dan # 7 (Gesekan) dari Campbell dan
Stanley. Kriteria inklusi dan eksklusi peserta akan mempengaruhi seberapa representatif suatu
evaluasi sampel adalah populasi, sebelum evaluasi dimulai. Kriteria kelayakan harus dibenarkan
dengan baik, dan tidak boleh mengecualikan proporsi yang signifikan, untuk contoh,> 10%, dari
populasi target, pada awal evaluasi. Itu kombinasi data perilaku demografis, psiko-sosial, dan
terkini untuk peserta kelompok E dan C memungkinkan evaluasi untuk menetapkan kesetaraan
pada baseline (O1) dan periode penilaian titik akhir (O2). Ini kategori memiliki dua sumber bias
utama: tingkat partisipasi rendah yang memenuhi syarat Subjek kelompok E dan C pada O1,
misalnya,> 10% dengan baseline yang berbeda karakteristik, dan tingkat gesekan yang tinggi
(mangkir / LTF) dari E atau C peserta kelompok di O2, misalnya,> 10% dengan karakteristik dasar
yang berbeda.

Rencana evaluasi perlu menggambarkan kriteria kelayakan untuk populasi target


(penyebut) dan menyajikan data yang mendokumentasikan total arakteristik dan jumlah peserta
yang memenuhi syarat yang berpartisipasi (pembilang) dan penolakan di setiap lokasi evaluasi.
Pertanyaan penting yang tidak dijawab oleh banyak laporan evaluasi termasuk berikut ini: Berapa
persen dari subjek yang memenuhi syarat berpartisipasi dan menolak setiap lokasi sepanjang setiap
tahun evaluasi? Siapa, setelah awalnya setuju untuk berpartisipasi, memutuskan, secara aktif atau
pasif, untuk menarik, atau keluar? Siapa di antara peserta yang memenuhi syarat untuk tindak
lanjut yang mangkir (LTF)? Pengacakan, yang mungkin termasuk stratifikasi dan pencocokan
sebelum penugasan, adalah metode utama untuk mengendalikan sejumlah besar karakteristik
independen, bias seleksi, dari sampel penelitian yang memprediksi probabilitas perubahan dalam
dampak atau hasil tingkat ketergantungan.

Kriteria dan metode untuk mengatasi masalah ini didefinisikan dalam Cochrane Review
dan ME Prosedur. Penting juga untuk menekankan: jika besar persen dari peserta yang memenuhi
syarat tidak setuju untuk berpartisipasi dan sebagian besar LTF, pengacakan tidak mengendalikan
bias signifikan ini di O1 dan O2.

Kecuali jika ada alasan yang dapat dibenarkan, misalnya, kelompok E, C, atau (C) peserta
telah pindah ke lokasi non-studi lain, mata pelajaran acak harus biasanya digunakan untuk
menghitung tingkat gesekan dan dampak: "Niat untuk Kebijakan Perlakukan. ”Evaluasi perlu
membandingkan karakteristik dasar peserta yang setuju, dan mereka yang berhak tetapi yang
menolak untuk berpartisipasi pada awal atau yang menarik nanti selama evaluasi. Setiap partisipasi
dasar dan tingkat putus sekolah tindak lanjut menentukan seberapa kecil atau besar pilihan Bias
dalam evaluasi. Karena partisipasi memerlukan informasi sukarela menyetujui, mendaftar> 90%
dari peserta yang memenuhi syarat, dan menindaklanjuti >90% akan dianggap sebagai partisipasi
yang sangat baik dan tindak lanjut gesekan tarif untuk hampir semua evaluasi HP-DP. Tingkat
partisipasi dan / atau gesekan tingkat, bagaimanapun, lebih rendah dari masing-masing dua
"Kinerja Program ini atau Standar Praktek > 90% ”akan mengurangi dan dapat membahayakan
validitas hasil. Pertanyaan inti yang harus dijawab oleh semua evaluasi adalah sebagai berikut:
Sejauh mana hasil evaluasi kami diterapkan pada target populasi berisiko dalam pengaturan
praktik HP-DP ini?

Kemampuan untuk menggeneralisasi hasil evaluasi ke populasi besar yang ditentukan


berisiko akan sangat terbatas atau tidak mungkin, jika semua bias seleksi tidak dibahas, terutama
selama perencanaan, uji coba metode, dan implementasi evaluasi. Sangat penting untuk melakukan
formatif evaluasi, uji coba semua prosedur pengukuran dan intervensi oleh semua staf di semua
lokasi, untuk meningkatkan implementasi rutin. Metode ini seharusnya secara signifikan
mengurangi penolakan peserta di awal dan mengurangi E, C, atau (C) tingkat putus sekolah peserta
selama evaluasi.

Bias Historis

Kategori ketiga bias terhadap atribusi dampak adalah Historis. Kategori ini
menggabungkan ancaman validitas # 1 (Historis) dan # 2 (Maturasi) dari Campbell dan Stanley.
Ia memiliki tiga sumber bias utama. Pertama, sementara atau apa kejadian-kejadian historis
eksternal yang abadi (Dia) mungkin masuk akal, independent penyebab perubahan signifikan yang
diamati? "H" yang kuat dan berskala nasional peristiwa yang memiliki dampak eksternal yang
substansial pada kehidupan orang Amerika dan semua orang studi evaluasi yang sedang
berlangsung adalah serangan 11 September 2001. Lebih peristiwa Historis khas untuk negara
bagian, kabupaten, atau kota yang mungkin sementara berpengaruh pada evaluasi program,
misalnya, tingkat skrining kanker, akan baik itu gubernur mengembangkan kanker payudara, atau
walikota mengembangkan prostat kanker selama evaluasi.

Kedua, apa yang mungkin dimiliki oleh acara program historis internal (Hai) terjadi selama
evaluasi, misalnya, perubahan kebijakan, organisasi atau struktur program, dan kehilangan staf,
dan / atau sumber daya? Ketiga, apa prosedur intervensi spesifik (X1 + X2 + Xn) yang disampaikan
atau tidak dikirimkan ke berapa persen peserta grup E yang memenuhi syarat? Masalahnya di sini
adalah sejauh mana paparan atau tidak terpapar intervensi spesifik (Xn) prosedur, intensitas,
durasi, dan frekuensi, didokumentasikan oleh suatu proses evaluasi. Apa tingkat stabilitas,
konsistensi, dan replikasi penyampaian prosedur intervensi oleh staf (Program Fidelity)?

Resesi ekonomi> 2008 akan menjadi contoh penting dari Hai itu program yang terkena
dampak.

Desain Evaluasi dan Bias


Meskipun ada banyak jenis desain evaluasi, jumlah yang sangat kecil bisa diterapkan untuk
menegaskan kontrol yang cukup untuk bias yang menonjol ke validitas hasil. Empat opsi desain
disajikan pada Tabel 3.5, dengan informasi tentang tujuh sumber independen potensial bias ke
validitas internal, dan sumber kedelapan (□), efek interaktif dari bias 1 hingga 7. Catatan: Tidak
notasi ditempatkan pada Tabel 3.5 untuk menandakan bahwa setiap desain dan bias perlu diperiksa
oleh setiap evaluasi. Setiap bias mungkin menjadi alternatif, masuk akal penjelasan untuk efek
yang diamati, bukan program HP-DP. Bahkan ketika desain acak (# 4) digunakan, hasil evaluasi
mungkin samar-samar atau dikompromikan, kecuali penjelasan alternatif yang masuk akal dari
perubahan itu dikesampingkan.
Desain eksperimental (# 4) harus menjadi pilihan pertama untuk menyingkirkan ancaman untuk
validitas dan untuk menghasilkan tingkat kepastian yang tinggi tentang efektivitas, dan efektivitas
biaya atau manfaat biaya dari suatu intervensi. desain multi-faktorial yang lebih kompleks
melibatkan tiga atau empat kelompok evaluasi dapat dilakukan untuk menjawab beberapa
pertanyaan tentang independen (X1) dan efek interaktif (X1 + X2 + X3) dari prosedur intervensi
HP-DP.
Desain faktorial biasanya diterapkan dalam FASE 1 atau 2 studi, yang akan memiliki
keahlian ilmiah, sumber daya, staf yang memadai, dan waktu yang cukup untuk memenuhi
implementasi multi / kompleks, pelatihan dan tuntutan analitis. Uji klinis acak kelompok (GRCT)
desain, studi multi-situs yang melibatkan pencocokan dan pengacakan sekolah-klinik-tempat
kerja-desa-masyarakat-kabupaten, mungkin juga terpilih. Contoh kelompok acak, tidak acak, dan
seri waktu desain evaluasi disajikan dalam bab ini. Perencanaan dan pelaksanaan sebuah GRCT,
bagaimanapun, menyajikan berbagai implementasi tambahan yang kompleks, masalah analitis,
dan fiskal. Diskusi komprehensif GRCT dan analisis disajikan oleh Murray (1998). Systematic
review 34 desain randomized cluster oleh Eldridge et al., Lancet (2008) dikonfirmasi bahwa sekitar
50% dari evaluasi yang menerapkan desain GRCT memiliki masalah metodologis yang serius.
Banyak GRCT juga gagal melaporkan data / informasi terutama tentang kelayakan dan pengiriman
intervensi HP-DP.

Karakteristik program, atau pengaturan pengiriman praktik, dan / atau kelompok sasaran
mungkin mempersulit melakukan evaluasi metodologi yang tinggi kualitas. Namun demikian, tim
evaluasi harus selalu memulai dengan desain seketat mungkin.Kemudian, jika perlu, modifikasi
desain atau sesuaikan dengan situasi yang tidak terduga. Jika rencana evaluasi dimulai dengan
menyesuaikan kekakuan metode, kesempatan biasanya hilang untuk memeriksa program atau
elemen program sebelum semua kemungkinan desain telah dieksplorasi.. Sayangnya, karena
kurangnya pelatihan, pengalaman, dan terutama kebijaksanaan politik / tekanan, program dan
kepemimpinan evaluasi sering pilih desain evaluasi yang secara metodologi lebih lemah untuk
menilai dampak.

Meskipun kompromi tentang penggunaan desain eksperimental saat perencanaan evaluasi


jarang terjadi, RCT mungkin tidak layak untuk dilakukan beberapa program dan pengaturan.
Literatur evaluasi menegaskan bahwa desain kuasi-eksperimental, perbandingan non-acak historis
yang cocok (C) desain kelompok dapat diterapkan dalam situasi tertentu untuk menilai dampak.
Desain grup (C), bagaimanapun, akan membutuhkan aplikasi spesifik metode evaluasi dan
analisis. Karena masalah yang melekat dalam menafsirkan hasil dari desain kuasi-eksperimental,
ketika diterapkan, masalah implementasi akan membahayakan validitas internal dan eksternal
evaluasi. Dalam beberapa evaluasi, desain deret waktu (TSD) mungkin menjadi pilihan yang
paling tepat.
Ancaman terhadap Hasil Validitas Eksternal

Sebuah meta-evaluasi yang melibatkan tinjauan komprehensif dan sistematis dan


penilaian sejawat yang ditinjau, evaluasi yang diterbitkan oleh panel ahli yang independen dan
meta-analisis (jika perlu) adalah metode utama yang digunakan untuk menentukan validitas
eksternal. NIH, AHRQ, dan Cochrane Review menggunakan metodologi ini untuk mengevaluasi
dan membuat penilaian tentang basis bukti dan validitas internal dan eksternal dari program
perawatan HP-DP. Sebagaimana dibahas dalam Bab 1, validitas eksternal didefinisikan sebagai
tingkat di mana meta-evaluasi telah mendokumentasikan tingkat kepercayaan di mana perubahan
signifikan secara statistik dalam dampak perilaku atau tingkat outcome status kesehatan dari FASE
3 dan 4 Evaluasi dapat dikaitkan dengan HP-DP treatment dan dapat digeneralisasi untuk populasi
besar yang didefinisikan sebagai masalah tertentu. ME dapat memberikan dokumentasi bahwa
program HP-DP lebih atau kurang efektif untuk populasi tertentu atau pengaturan praktik,
misalnya, orang dewasa versus remaja, atau berbasis klinik versus berbasis rumah program.
Berbagai tantangan dan kompleksitas untuk menghasilkan bukti dari satu atau dua evaluasi
yang dirancang dengan baik dapat digeneralisasikan untuk masalah kesehatan dan populasi yang
besar dan terdefinisi dengan baik di Amerika Serikat — misalnya, jatuh karena cedera untuk anak
di bawah <6, kontrol tekanan darah tinggi di antara senior (> 65) warga negara, atau perokok hamil
yang didukung oleh Medicaid — terbukti dengan sendirinya. Meskipun ada pengecualian langka,
validitas eksternal hasil dari evaluasi HP-DP untuk hampir semua masalah dan populasi didasarkan
pada yang valid, bukti kumulatif dari sejumlah besar berhasil diimplementasikan evaluasi di
berbagai lokasi dan dalam berbagai sistem perawatan di dalam negara dan bahasa yang sama.

Selain ancaman (bias) ke validitas internal yang dijelaskan dalam ini bab, empat kategori
ancaman terhadap generalisasi validitas eksternal hasil evaluasi umumnya diidentifikasi: (1)
seleksi-treatment bias interaksi, (2) bias reaksi- treatment, (3) beberapa bias perlakuan, dan (4)
bias reaksi pengukuran. Masalah utama yang harus diselesaikan untuk Bias Kategori # 1 (bias
interaksi seleksi-pengobatan) adalah sejauh mana peserta evaluasi yang telah selesai adalah
perwakilan dari populasi kepada siapa hasilnya digeneralisasi. Contoh pertanyaan kritis yang harus
dijawab meliputi yang berikut: Apa kriteria kelayakannya? Apa karakteristik peserta yang setuju
atau menolak untuk berpartisipasi, yang melanjutkan evaluasi, yang keluar, dan / atau siapa yang
mangkir? Apakah treatment HP-DP hanya efektif untuk peserta dengan serangkaian karakteristik
tertentu, misalnya, pria versus wanita, berpenghasilan rendah versus menengah, atau paruh baya
versus warganegara senior?

Dimensi Bias # 1 yang membutuhkan perhatian utama adalah sangat besar variasi
kontekstual-lingkungan dalam karakteristik demografi peserta dan staf program HP-DP.
Perbedaan infrastruktur yang sangat besar, penganggaran, pelatihan, dan tingkat sumber daya
klinik atau tempat praktik di dalam dan di antara program HP-DP dan system pelayanan kesehatan
masyarakat-primer selalu ada. Jika konsisten, hasil positif dihasilkan, presentasi data tentang di
mana (beberapa lokasi geografis), kapan (waktu daya tahan periode), dan berapa banyak evaluasi
HP-DP yang berhasil dilakukan memperkuat penilaian tentang tingkat validitas eksternal.

Bias Kategori # 1 cenderung menjadi ancaman paling menonjol dan kompleks terhadap
validitas di antara empat kategori bias. Konfirmasi bahwa stratifikasi, pencocokan, dan
pengacakan sejumlah besar perwakilan situs atau peserta di situs program HP-DP berhasil dapat
mengatasi generalisasi tingkat pertama. Konfirmasi bahwa sampel representatif dari lokasi
evaluasi dan populasi berisiko yang setuju untuk berpartisipasi dan yang menyelesaikan prosedur
penilaian tindak lanjut terencana dari kedua kelompok E dan C dapat membahas generalisasi
tingkat kedua. Jika dirangkum hasil ME dan MA dinilai representatif, ini harus berarti bahwa ada
kemungkinan besar bahwa program dapat disampaikan dengan kesetiaan di seluruh negara bagian
dan program oleh staf reguler selama pengiriman reguler layanan program.
Bias Kategori # 2, # 3, dan # 4 fokus tentang sejauh mana prosedur pengukuran dan
perawatan program HP-DP cukup unik untuk secara mandiri menghasilkan sebagian atau seluruh
mengamati efek pengobatan yang signifikan. Merencanakan Evaluasi Penyebaran PHASE 4 yang
metode perawatan dan pengukurannya telah menunjukkan kelayakan dan transferabilitas dari
PHASE 1, 2, dan 3 Evaluasi untuk populasi target, masalah, dan pengaturan praktik akan
berkurang, jika tidak menghilangkan, kemungkinan ancaman dari Bias # 2, # 3, dan # 4. Studi
kasus 2, 4, dan 7 dalam bab ini adalah evaluasi yang dirancang untuk menghasilkan hasil dengan
validitas internal dan eksternal.

Ringkasan Desain Evaluasi

Desain evaluasi menjelaskan bagaimana program HP-DP telah direncanakan untuk


meminimalkan atau menghilangkan bias utama, sistematis (non-acak) untuk karakteristik peserta
yang sudah ada sebelumnya. Desain eksperimental, jika berhasil diimplementasikan, biasanya
menegaskan kontrol atas bias dalam tiga kategori utama, Bias Pengukuran, Bias Seleksi, dan Bias
Historis, dengan mendistribusikan kesalahan secara merata di antara kelompok peserta E dan C.
Pengacakan peserta di setiap situs program evaluasi, atau stratifikasi dan pencocokan situs,
didistribusikan secara merata secara kebetulan (jika berhasil), semua karakteristik peserta yang
diukur dan tidak terukur. Proses ini harus menetapkan setidaknya dua kelompok setara pada awal:
kelompok C untuk biasanya menerima intervensi HP-DP "dasar" (X1) dan grup E untuk biasanya
menerima intervensi HP-DP "dasar + praktik terbaik" (X1 + X2 + X3).
Penting untuk ditekankan: desain acak tidak selalu "mengontrol" untuk beberapa dimensi
dari tiga kategori bias. E versus C kesetaraan kelompok pada awal dan pada tindak lanjut tidak
boleh diasumsikan: itu harus dikonfirmasi secara empiris. Meski jarang, jika kelompok E dan C
signifikan berbeda pada garis dasar yang layak, perbedaan ini biasanya akan karena kesalahan
acak, bukan kesalahan sistematis. Metode analitik, misalnya, Analisis Kovarian, dapat diterapkan
pada data dampak untuk menyesuaikan untuk perbedaan baseline. Selama perencanaan dan
evaluasi formatif fase, tim evaluasi perlu melatih staf, menyiapkan implementasi merencanakan,
dan melakukan uji coba untuk mengidentifikasi dan mengatasi setiap sumber bias. Masalah
metodologi dan implementasi dalam memilih desain, ditunjukkan pada Tabel 3.5, dijelaskan pada
bagian berikut dan studi kasus

Desain # 1: Satu Grup Pre-test dan Post-test

Sebagai desain pra-eksperimental, Desain # 1 adalah metode paling dasar untuk penilaian program.
Seharusnya tidak digunakan untuk menilai perilaku program dampak atau hasil kesehatan selama
periode waktu yang panjang, misalnya,> 12 bulan. Dalam desain ini, pengukuran dasar dilakukan
(O1), sebuah intervensi (X1) disediakan, dan tindak lanjut pengamatan-pengukuran (O2)
dilakukan. Mengaitkan perubahan signifikan yang diamati yang terjadi antara O1 dan O2 dengan
intervensi (X) memerlukan evaluasi secara sistematis menjelaskan bagaimana itu dikendalikan
untuk bias Pengukuran, Seleksi, dan Historis. Misalnya, apakah peristiwa Historis lainnya, paparan
yang tidak direncanakan, atau kegiatan tak terduga dari peserta program antara O1 dan O2
sebagian atau sepenuhnya menjelaskan perubahan signifikan yang diamati? Semakin lama periode
waktu antara O1 dan O2, semakin besar kemungkinan itu adalah internal atau eksternal peristiwa
historis (H), paparan yang tidak direncanakan, atau perubahan program mungkin terjadi
mempengaruhi perilaku peserta dan mempengaruhi hasil program. Pengukuran atau bias seleksi
juga dapat menjelaskan setiap perubahan yang diamati antara O1 dan O2.
Desain # 1 dapat sangat berguna, bagaimanapun, dalam melakukan langsung / penilaian
jangka pendek dari program HP-DP yang ada. Suatu program mungkin memutuskan untuk menilai
dampak langsung (1-6 bulan) dari intervensi untuk masalah khusus (lansia jatuh) atau kondisi
tertentu (tekanan darah tinggi kontrol). Interval antara O1 dan O2 harus pendek, dan evaluasi
terencana dan berhasil dilaksanakan sehingga bias seleksi dan historis adalah penjelasan tidak
masuk akal dari dampak yang signifikan. Jika baseline dan pengukuran tindak lanjut valid dan
lengkap dan terjadi sebelum dan segera setelah intervensi, misalnya, beberapa minggu / bulan
sebelumnya dan setelah itu, bias historis mungkin bukan ancaman yang masuk akal terhadap hasil
dampak.

Evaluasi proses sangat penting untuk memastikan keberhasilan implementasi prosedur


intervensi dan penilaian.

Kontrol maksimum atas kualitas pengukuran dan proses pengumpulan data harus
ditegaskan untuk mengendalikan bias ini, terlepas dari ukuran atau tujuan evaluasi. Konfirmasi
validitas data dan keterwakilan sampel sangat penting dalam Desain # 1, dan semua desain. Jika
validitas pengukuran dikonfirmasi dan periode waktunya singkat, ancaman pertama terhadap
validitas internal untuk Desain # 1 akan menjadi bias seleksi. Apakah dokumen program tinggi
(100%) Tingkat penilaian O1 dan O2 (> 90%) untuk klien evaluasi? Apa sejauh mana peserta
evaluasi dapat dibandingkan atau berbeda dari pengguna lain di situs program HP-DP? Berikut ini
adalah contoh dari penggunaan Desain # 1.

Contoh Desain # 1

Direktur program perawatan prenatal yang didukung Medicaid di Kansas City, Kansas, dan
keenam manajer kliniknya memutuskan untuk mendokumentasikan prevalensi status merokok
pasien saat masuk dan selama perawatan. Mereka juga ingin menentukan dampak perilaku dari
metode konseling pasien yang ada (X ...) staf keperawatan dan pekerja sosial reguler. Direktur
meminta formatif laporan penilaian dalam enam bulan, tiga bulan sebelum tahun fiskal berikutnya.
Karena keterbatasan sumber daya dan waktu, enam lokasi klinik adalah dicocokkan menjadi tiga
pasangan dengan variabel demografi entry-level pasien dan sensus pasien baru setiap bulan. Tiga
klinik dipilih secara acak tiga pasangan, dan pasien berturut-turut di setiap klinik yang merokok
adalah terdaftar dalam studi penilaian formatif. Selama periode satu bulan di tiga klinik, 100 dari
115 perokok hamil (tingkat partisipasi 87%), 30–40 pasien per situs yang menerima perawatan
dan konseling prenatal normal, mengisi Formulir Penilaian baseline singkat. Status mereka
merokok saat ini didokumentasikan pada Formulir Penilaian Pasien (O1). Karena pasien tidak
secara akurat melaporkan status merokok, karbon monoksida yang kadaluwarsa (CO) nilai tes
dikumpulkan untuk setiap pasien oleh staf biasa sebagai bagian dari prosedur program normal.
Data ini menginformasikan pasien dan staf tentang tingkat prevalensi dan tingkat paparan
tembakau pasien pada awalnya kunjungan perawatan prenatal. Semua 100 pasien menerima
program konseling yang ada (X1): a 5–7 menit, sesi konseling RN satu-ke-satu ditambah brosur
tentang risiko. MD setiap pasien juga secara rutin memberikan saran yang sangat singkat di setiap
pasien kunjungan pasien. Pada kunjungan klinik ketiga atau keempat mereka, prosedur penilaian
yang sama dilakukan (O2). Laporan status merokok dan tes CO secara mandiri dari 92 dari 100
pasien dicatat kembali oleh staf perawat sebagai bagian dari tindak lanjut rutin (O2). Seorang
pasien harus mengatakan bahwa dia telah berhenti dan memiliki nilai CO <6 PPM (bagian per
juta) untuk dihitung sebagai orang yang menyerah pada O2. Kelompok perokok dapat disebut
kelompok program E standar atau kelompok pembanding (C).

Dalam contoh ini, data dampak berikut mungkin didokumentasikan di antara 92 pasien di
O2: (1) peningkatan signifikan dalam skor risiko keyakinan kesehatan ibu-bayi (penggunaan
tembakau) dari 70% menjadi 95%, dan (2) jumlahnya dari berhenti merokok yang dilaporkan
sendiri dari tindak lanjut 92 O2 dengan CO yang dikonfirmasi berhenti adalah lima. Tingkat
dampak ini, tingkat berhenti 5,0% (5/100, bukan 5/92: Intent to Treat kebijakan), perlu diperiksa
untuk setiap bias utama terhadap validitas internal. Pengukuran status merokok sangat baik
(laporan diri + tes CO), dan periode waktu antara O1 dan O2 pendek. Sampel tiga klinik dipilih
secara acak dari enam pasangan yang cocok, 87% pasien yang memenuhi syarat terdaftar, dan 92%
ditindaklanjuti sebagai bagian dari perawatan normal.

Satu pertanyaan metodologis yang penting ini adalah: Seberapa representatif populasi
pasien tipikal pada enam lokasi dengan 90 pasien di tiga lokasi penelitian? Ini dapat dikonfirmasi
oleh laporan sensus klinik bulanan di setiap situs. Meskipun perlu didokumentasikan, kelompok
studi dalam contoh ini mungkin sebanding dengan pasien di tiga klinik yang tidak dipilih, karena
pencocokan dan pemilihan acak, dan periode waktu yang singkat. Tingkat partisipasi 87% dan
tingkat pengurangan hanya 8% di klinik juga memberikan dukungan yang sangat baik untuk bias
seleksi kecil. Periode waktu yang singkat akan mengindikasikan bahwa kemungkinan pemaparan
pasien terhadap peristiwa / bias historis internal atau eksternal lainnya menghasilkan tingkat
berhenti 5,0%. Penjelasan yang paling masuk akal dari tingkat berhenti 5% adalah bahwa hal itu
disebabkan oleh konseling yang diterima dari perawat pasien dan saran singkat dari staf
profesional lainnya pada kunjungan klinik pertama, kedua, dan ketiga. Jika berhasil diterapkan,
skor validitas internal (1 = sangat rendah hingga 10 = unggul) untuk penelitian ini akan menjadi
8,0 (sangat baik). Studi ini memberikan data dan wawasan yang baik untuk perencanaan masa
depan. Studi kasus 2 dalam bab ini menerapkan Desain # 1.

Anda mungkin juga menyukai