PENELITIAN EVALUASI
SEBAGAI PROSES
Setiap upaya untuk mengurangi atau menghilangkan suatu masalah sosial memerlukan teori,
program, dan biasanya sejumlah besar uang. Efektivitas program untuk mengurangi kejahatan dan
kenakalan, memerangi kecanduan narkoba, mengatasi masalah kesehatan, dan meningkatkan
lingkungan dan komunitas serta kualitas hidup secara umum—semuanya menimbulkan masalah dalam
evaluasi. Karena persoalan-persoalan ini sangat penting bagi kehidupan nasional dan masyarakat
serta memakan biaya yang sangat besar, maka evaluasi menjadi prioritas utama dan penelitian
evaluasi semakin meningkat.
Evaluasi selalu dimulai dengan suatu nilai, baik yang tersurat maupun yang
tersirat—misalnya, baik untuk berumur panjang; kemudian dirumuskan suatu
tujuan yang berasal dari nilai tersebut. Pemilihan tujuan biasanya didahului atau
bersamaan dengan “pembentukan nilai”. Contoh dari “penetapan tujuan” adalah
pernyataan bahwa lebih sedikit orang yang mengidap penyakit jantung, atau tidak
banyak orang yang meninggal karena kanker. Kekuatan penentu tujuan selalu
bersaing satu sama lain untuk mendapatkan uang, sumber daya, dan usaha.
Selanjutnya harus ada suatu cara untuk “mengukur pencapaian tujuan.” Jika kita
menetapkan tujuan bahwa lebih sedikit orang yang meninggal karena kanker,
maka kita memerlukan cara untuk mengetahui berapa banyak orang yang
meninggal karena kanker saat ini (misalnya, statistik vital). Sifat evaluasi akan
sangat bergantung pada jenis tindakan yang kita miliki untuk menentukan pencapaian
tujuan kita. Langkah selanjutnya dalam proses ini adalah identifikasi semacam
“aktivitas pencapaian tujuan”. Dalam kasus kanker, misalnya, program kegiatan
deteksi kanker yang bertujuan untuk deteksi dini dan pengobatan dapat
dipertimbangkan. Kemudian aktivitas pencapaian tujuan dilaksanakan. Pusat
diagnostik didirikan dan orang-orang didesak untuk datang untuk pemeriksaan.
Kemudian, pada titik tertentu, kami melakukan penilaian terhadap operasi yang
diarahkan pada tujuan ini. Tahapan ini meliputi evaluasi sejauh mana program operasi
telah mencapai tujuan yang telah ditetapkan. Seperti yang dinyatakan sebelumnya,
penilaian ini mungkin dilakukan secara ilmiah atau tidak.
pendekatan yang digunakan sebelumnya. Selama era Great Society, Kongres mengesahkan
banyak program baru dan evaluasi sistematis diamanatkan dalam beberapa undang-
undang yang lebih penting.1
Karakter interdisipliner dari kegiatan ilmu sosial baru ini sangat penting. Para ekonom,
sosiolog, psikolog, dan peneliti pendidikan sering kali mendapati diri mereka menawar kontrak
yang sama dalam persaingan satu sama lain, sebuah proses yang memfasilitasi transfer
pengetahuan, pengetahuan kerajinan, dan saling menghormati melintasi batas-batas disiplin
ilmu. Perusahaan dan lembaga penelitian yang sebelumnya didominasi oleh satu disiplin
ilmu memperluas pandangan mereka dengan merekrut profesional dari ilmu sosial lain,
terutama untuk meningkatkan keunggulan kompetitif mereka. Masyarakat profesional
interdisipliner juga didirikan, misalnya Masyarakat Riset Evaluasi dan Jaringan Evaluasi.2
Peneliti ilmu sosial yang berbasis di universitas lambat dalam memanfaatkan peluang
baru untuk pendanaan penelitian, meskipun topik yang terlibat sering kali menjadi perhatian
utama, yang merupakan cerminan dari ketidakpedulian (bahkan permusuhan) terhadap
pekerjaan terapan yang menjadi ciri khas departemen ilmu sosial akademis. hingga saat
ini (Raizen & Rossi 1981, Rossi & Wright 1983, Rossi dkk. 1978). Namun, pengusaha
swasta lebih cepat menyadari dan memanfaatkan penekanan baru pada evaluasi. Beberapa
perusahaan yang belum terlalu tertarik pada ilmu-ilmu sosial membuka anak perusahaan
yang dapat bersaing untuk mendapatkan kontrak penelitian sosial (misalnya Westing-house).
Pihak lain memperluas bagian penelitian ilmu sosial mereka (misalnya Rand Corporation). Di dalam
Selain itu, ratusan perusahaan baru bermunculan, beberapa di antaranya meraih kesuksesan
spektakuler selama “tahun emas” (misalnya, Abt Associates).3
Pada pertengahan tahun 1970-an, terdapat sekitar 500-600 perusahaan swasta yang melakukan
penawaran atas kontrak penelitian sosial terapan. Seperti dalam bidang aktivitas korporasi lainnya, hanya
sedikit perusahaan yang mengumpulkan sebagian besar dana yang tersedia. Misalnya, dalam
periode 1975-1980, 6 perusahaan riset besar menerima lebih dari 60% dana evaluasi yang
dikeluarkan oleh Departemen Pendidikan (Raizen & Rossi 1981).
Sejumlah besar perusahaan tambahan bermunculan untuk mengajukan penawaran pada kontrak
evaluasi dan kegiatan penelitian sosial terapan lainnya di tingkat negara bagian dan lokal. Peluang
penelitian ini tidak didanai sebaik yang ada di tingkat federal dan tugas-tugasnya juga tidak menantang
secara intelektual atau teknis. Namun, terdapat (dan masih akan ada) cukup “bisnis” evaluasi di
tingkat negara bagian dan lokal, untuk menyediakan “roti dan mentega” yang penting bagi sejumlah
besar lapangan kerja skala kecil.
Beberapa lembaga penelitian berbasis universitas yang memiliki sejarah penelitian sosial berskala
besar juga berkembang pesat selama periode ini. Pusat Penelitian Opini Nasional di Universitas
Chicago dan Pusat Penelitian Survei di Universitas Michigan keduanya berkembang pesat. Staf mereka
akhirnya mengerdilkan sebagian besar departemen akademis di bidang terkait. Organisasi penelitian
akademis baru juga mulai memanfaatkan peluang pendanaan yang ditawarkan melalui mekanisme hibah
dan kontrak.
riset. Landasan konseptual telah dikembangkan beberapa dekade sebelumnya, dan pendekatan ini
telah menjadi paradigma penelitian yang berlaku baik di bidang psikologi maupun biologi selama
bertahun-tahun. Kontribusi khusus yang diberikan selama periode tinjauan saat ini adalah bahwa
paradigma tersebut dibawa keluar dari laboratorium dan diterapkan di lapangan, dan digabungkan
dengan survei sampel dalam penelitian yang dirancang untuk menguji dampak program yang
diusulkan. Bagi banyak ilmuwan sosial yang memiliki kecenderungan teknokratis, eksperimen lapangan
yang dilakukan secara acak ini menjanjikan pengganti pendekatan coba-coba (trial-and-error) yang kikuk
dalam membentuk kebijakan sosial dengan “masyarakat bereksperimen” yang lebih rasional dan sadar
diri (Campbell 1969).
Pada awal tahun 1970-an, sejumlah besar eksperimen skala besar telah didanai dan dimulai. Eksperimen
ini mencakup beragam topik: rencana pemeliharaan pendapatan yang dimaksudkan untuk menggantikan
sistem tunjangan kesejahteraan yang ada: tunjangan perumahan yang mungkin merangsang pasar untuk
memproduksi perumahan yang lebih baik bagi masyarakat miskin; rencana asuransi kesehatan yang
tidak akan menimbulkan dampak buruk pada harga layanan medis; dan seterusnya melalui daftar
eksperimen lapangan yang sebenarnya. Ironisnya, kebanyakan dari mereka dirancang dan dijalankan
oleh para ekonom, anggota dari bidang yang tidak terkenal dengan tradisi kerja eksperimentalnya.
Namun kesadaran segera muncul bahwa eksperimen yang dilakukan secara acak dan terkontrol
hanya dapat dilakukan dengan benar dalam kondisi yang sangat terbatas dan bahwa tuntutan akan
evaluasi mencakup banyak program yang tidak dapat dinilai dengan cara ini.
Tidak hanya seringnya terdapat batasan etika dan hukum dalam pengacakan, namun banyak program
yang sudah ada yang mencakup seluruh (atau hampir seluruh) populasi penerima manfaat yang dituju
tidak dapat dinilai menggunakan eksperimen terkontrol karena tidak ada cara untuk membentuk
kelompok kontrol yang sesuai. Ternyata eksperimen lapangan juga memakan waktu lama—3 hingga
5 tahun atau lebih—mulai dari desain hingga laporan akhir, sebuah penundaan yang tidak dapat
ditoleransi mengingat rentang waktu yang jauh lebih singkat bagi sebagian besar pembuat kebijakan dan
administrator publik.
Campbell dan Stanley (1966) telah memberikan satu solusi yang mungkin untuk dilema ini dengan
menciptakan istilah eksperimen semu dan menggunakannya untuk mencakup desain penelitian
evaluasi yang tidak bergantung pada pengacakan untuk membentuk kontrol. Meskipun mereka
secara eksplisit mengakui rendahnya validitas data yang dihasilkan dengan cara ini, mereka juga
membahas kondisi di mana kesimpulan sebab-akibat yang valid dapat ditarik dari studi evaluasi yang
menggunakan desain tersebut. Perlakuan mereka terhadap desain penelitian kuasi-eksperimental tentu saja
merangsang penggunaan desain seperti itu dalam studi evaluasi, terkadang dalam kondisi yang secara
eksplisit dinyatakan oleh Campbell dan Stanley berpotensi fatal. Memang benar, sebagian besar evaluasi
yang telah dilakukan merupakan eksperimen semu, bukan eksperimen acak yang “benar”, terutama karena
eksperimen tersebut terbukti sulit, bahkan tidak mungkin, untuk diterapkan di dunia nyata.
Namun desain kuasi-eksperimental pun mempunyai keterbatasan. Salah satu alasannya, meskipun tidak
semahal atau memakan waktu seperti eksperimen “sebenarnya”, eksperimen semu yang dilakukan dengan baik
mungkin memerlukan lebih banyak dana, waktu, dan bakat daripada yang tersedia. Masalah lainnya adalah
bahwa banyak desain kuasi-eksperimental yang lebih canggih (khususnya, desain rangkaian waktu terputus)
memerlukan data rangkaian waktu yang panjang—idealnya, rangkaian data yang berisi observasi jangka panjang
sebelum diperkenalkannya intervensi kebijakan dan yang terus berlanjut selama jangka waktu tertentu.
beberapa tahun setelah itu. Mengenai hal pertama, data yang diperlukan sering kali tidak tersedia; dan,
sehubungan dengan yang kedua, masalah lama mengenai ketepatan waktu muncul kembali. Masalah terakhir,
tentu saja—yang dibahas secara rinci oleh Campbell dan Stanley—adalah adanya potensi ancaman terhadap
validitas desain kuasi-eksperimental apa pun. Dalam menggunakan desain seperti itu, seseorang selalu
menghadapi risiko salah mengira berbagai artefak sebagai efek program yang sebenarnya. Oleh karena itu,
eksperimen semu hampir selalu rentan terhadap serangan kritis; saksikan kontroversi dendam seputar beberapa
evaluasi pendidikan utama (misalnya, McLaughlin 1975, Mosteller & Moynihan 1972, Rossi & Wright 1982).
Karena banyaknya masalah yang nyata dalam pendekatan eksperimental dan kuasi-eksperimental
terhadap penelitian evaluasi, diperlukannya metode evaluasi yang tepat waktu, relatif murah, dan tanggap
terhadap ketakutan banyak administrator dan pejabat program bahwa evaluasi akan “merugikan mereka”. ”
dengan cepat menjadi jelas. Pernyataan ini berlaku terutama untuk evaluasi yang diamanatkan oleh
Kongres dan yang seharusnya dilakukan oleh lembaga program itu sendiri. Memang benar, Kongres—yang
menggabungkan antusiasme barunya terhadap evaluasi dengan pemahaman yang sangat keliru mengenai
waktu, sumber daya manusia, dan dana yang diperlukan untuk melaksanakan evaluasi meskipun kualitasnya
minimal—seringkali memaksakan tugas-tugas evaluasi pada lembaga-lembaga program yang jauh
melebihi kapasitas penelitian lembaga-lembaga tersebut dan kemudian memberikan tugas-tugas evaluasi
kepada lembaga-lembaga tersebut. dana yang sangat tidak memadai untuk mencapainya.
Kebutuhan akan evaluasi yang dapat dilakukan oleh orang-orang yang secara teknis tidak berpengalaman
dan tepat waktu serta berguna bagi administrator program memicu dorongan kuat untuk melakukan evaluasi.
minat pada pendekatan kualitatif terhadap penelitian evaluasi (Patton 1980, Scriven 1977, Guba &
Lincoln 1981, House 1980). Metode penelitian kualitatif selalu mempunyai pengikut dalam semua ilmu-
ilmu sosial, khususnya sosiologi. Daya tarik khusus mereka dalam sosiologi adalah kemampuan
mereka untuk tetap dekat dengan kenyataan dan untuk meningkatkan pemahaman tentang proses
sosial melalui keakraban dengan kondisi lapangan.
Selain itu, untuk tujuan evaluasi, metode kualitatif tampaknya memiliki tiga keuntungan yang menarik,
yaitu murah, tepat waktu, dan responsif terhadap kebutuhan administrator.
Pendekatan-pendekatan ini khususnya menarik bagi para sponsor dan operator program karena
pendekatan-pendekatan ini tampaknya cukup fleksibel untuk menangani program-program sosial yang,
setelah dilaksanakan, cenderung sangat bervariasi dari satu daerah ke daerah lain, tidak hanya dalam
tujuannya tetapi juga dalam manfaat dan layanan yang diberikan. sebenarnya disampaikan. Tujuan dari
beberapa program berspektrum luas (misalnya, Kota Model) tidak didefinisikan secara jelas oleh
Kongres atau lembaga penyelenggara. Masing-masing lembaga operasional menetapkan tujuannya
sendiri dan sering kali mengubahnya (Kaplan 1973, Williams 1980). Daya tarik pendekatan kualitatif
terhadap evaluasi, setidaknya pada awalnya, adalah bahwa pendekatan tersebut berpotensi peka
terhadap perbedaan tujuan program yang tidak jelas dan terus berkembang.
Ledakan besar dalam evaluasi berakhir pada tahun 1981 ketika pemerintahan Reagan mulai
membongkar program-program sosial yang telah dikembangkan selama 20 tahun sebelumnya.
Program penelitian ketenagakerjaan yang ekstensif di Departemen Tenaga Kerja hampir tidak ada sama
sekali dan terdapat pengurangan serupa (walaupun tidak terlalu drastis) di Departemen Kesehatan dan
Layanan Kemanusiaan, Pendidikan, Pertanian, dan lain-lain. Konsekuensi langsungnya adalah
pengurangan drastis jumlah dana federal yang tersedia untuk penelitian sosial terapan.
Ironisnya, pengurangan yang dilakukan Reagan terjadi ketika semakin banyak departemen akademis
mulai menyadari bahwa terdapat pasar nonakademik untuk gelar PhD yang baru dicetak.
Peluang bagi peneliti evaluasi merupakan komponen besar dari pasar ini. Asosiasi Sosiologi
Amerika mengadakan konferensi yang dihadiri banyak orang di Washington, DC, pada tahun 1981
(Freeman et al. 1983) tentang pelatihan yang sesuai untuk karir di bidang sosiologi terapan. Banyak
departemen pascasarjana di seluruh negeri memulai program untuk melatih segala jenis peneliti
terapan, dan terdapat minat yang jelas di antara setidaknya beberapa sosiolog terkemuka. Memang
benar, kedua presiden American Sociological Association pada tahun 1980 dan 1981 mendedikasikan
pidato kepresidenan mereka untuk bidang pekerjaan terapan (Rossi 1981, Whyte 1982).
Pertumbuhan pesat penelitian evaluasi selama tahun 1960an dan 1970an menghasilkan peningkatan
nyata dalam pengetahuan kita tentang masalah-masalah sosial yang relevan dan peningkatan nyata
dalam kecanggihan teknis penelitian dalam ilmu-ilmu sosial. Kedua perkembangan ini telah
memberikan dampak pada ilmu-ilmu sosial dan akan semakin bernilai bagi bidang kita di masa depan.
Mungkin pencapaian substantif dan teknis yang paling mengesankan sepanjang Zaman Keemasan
adalah eksperimen lapangan berskala besar. Sebagian besar percobaan ini awalnya didanai oleh Kantor
Peluang Ekonomi dan, setelah lembaga tersebut bubar, oleh Departemen Kesehatan, Pendidikan dan
Kesejahteraan.
Di sisi teknis, eksperimen ini menggabungkan teknik survei sampel dan desain eksperimen klasik.
Kelompok eksperimen dan kontrol dibentuk dengan mengambil sampel komunitas terbuka dan
kemudian secara acak mengalokasikan rumah tangga sampel ke kelompok eksperimen dan kontrol.
Wawancara dengan rumah tangga eksperimen dan kontrol kemudian dilakukan, menggunakan teknik
survei sampel tradisional untuk mengukur tanggapan terhadap perlakuan eksperimental. Jika
dipandang sebagai survei, eksperimen ini merupakan panel jangka panjang dengan pengukuran berulang
terhadap variabel dependen utama (yaitu hasil). Pengukuran dilakukan sebulan sekali pada beberapa
percobaan dan diperpanjang hingga lima tahun. Dipandang sebagai eksperimen, penelitian ini
merupakan penelitian faktorial yang mana parameter-parameter penting dari perlakuan divariasikan
secara sistematis.
Mungkin eksperimen lapangan yang paling terkenal selama Zaman Keemasan adalah eksperimen
yang dirancang untuk menguji berbagai bentuk “pajak penghasilan negatif” (NIT) sebagai sarana untuk
mempertahankan tingkat pendapatan yang wajar bagi rumah tangga miskin. Secara keseluruhan, terdapat
lima percobaan serupa di Amerika Serikat dan satu di Kanada.
Ada banyak alasan mengapa desain eksperimen acak tidak dapat digunakan dalam beberapa studi
evaluasi. Pertama, program-program yang sedang berjalan yang mencakup sebagian besar atau seluruh populasi
sasaran tidak mengakui adanya pengendalian yang dapat dipercaya. Misalnya saja, diperkirakan 5-10% orang
yang memenuhi syarat untuk mendapatkan manfaat Asuransi Hari Tua dan Penyintas (Jaminan Sosial)
belum mengajukan permohonan untuk mereka. Namun, orang-orang yang tidak mengajukan permohonan
ini tidak dapat secara realistis berfungsi sebagai pengendali dalam memperkirakan dampak manfaat jaminan
sosial, karena faktor seleksi mandiri tentu saja kuat. Membandingkan orang-orang yang menerima manfaat
jaminan sosial dengan orang-orang yang berhak, namun karena alasan apa pun, belum mengajukan permohonan,
merupakan pelanggaran terhadap ketentuan ceteris paribus.
Kedua, beberapa program, seperti Head Start, gagal menjangkau sebagian besar penduduk yang memenuhi
syarat—mungkin sebanyak 25% dari contoh Head Start. Anak-anak ini tidak terjangkau oleh program Head
Start karena orang tua tidak mengizinkan anak-anak mereka untuk mendaftar atau karena sistem sekolah yang
terlibat memiliki terlalu sedikit anak miskin untuk mendukung proyek Head Start. Jelasnya, faktor seleksi
mandiri yang kuat sedang berperan, dan oleh karena itu, membandingkan peserta Head Start dengan nonpeserta
yang memenuhi syarat tidak akan menghasilkan perbedaan penting yang konstan antara kedua kelompok.
Terakhir, secara etis tidak terpikirkan untuk menggunakan pengacakan dalam evaluasi beberapa program.
Misalnya, cara pasti untuk memperkirakan efektivitas relatif sekolah menengah swasta dan negeri adalah
dengan menugaskan remaja ke salah satu sekolah tersebut.
secara acak dan amati hasilnya dalam jangka waktu yang lama. Tentu saja, pembuat kebijakan atau
orang tua tidak mungkin membiarkan evaluasi seperti itu dilakukan.
Dengan demikian, banyak studi evaluasi dalam dua dekade terakhir menggunakan sesuatu
selain desain eksperimen acak klasik. Sayangnya, evaluasi ini secara teknis belum berhasil
secara keseluruhan. Masing-masing evaluasi non-eksperimental utama diselimuti kontroversi—
kontroversi yang muncul karena implikasi politik dari temuan-temuan yang dihasilkan, namun seringkali
berpusat pada kelemahan teknis dari desain yang digunakan. Dengan demikian, upaya Coleman (1966)
untuk memilah dampak sekolah terhadap prestasi akademik dengan menganalisis survei cross-
sectional terhadap ribuan siswa dari ratusan sekolah menengah dikritik terutama karena model
statistik yang digunakannya (Mosteller & Moynihan 1972). Demikian pula, evaluasi (Westinghouse
Learning Corporation 1969) mengenai dampak jangka panjang dari berpartisipasi dalam Head Start
mendapat kecaman (Campbell & Erlebacher 1970) karena para peneliti membandingkan anak-anak
yang pernah mengikuti prasekolah Head Start dengan anak-anak “sebanding” yang tidak pernah
mengikuti prasekolah Head Start. Menurut para kritikus studi tersebut, faktor-faktor perancu dalam
pemilihan diri tidak diragukan lagi berperan sehingga membuat kedua kelompok tersebut tidak
dapat dibandingkan dalam hal-hal penting.
Masalah administrasi atau seleksi mandiri peserta program dan non-peserta merupakan inti dari
kerentanan desain evaluasi non-eksperimental terhadap kritik. Untuk mengilustrasikan hal ini, kita
dapat mempertimbangkan studi terbaru Coleman dan rekan-rekannya (1982) tentang prestasi akademik
di sekolah menengah negeri dan swasta (kebanyakan Katolik). Perbandingan kritis dalam penelitian
semacam ini jelas dipengaruhi oleh faktor seleksi mandiri: apakah seorang anak bersekolah di sekolah
menengah paroki Katolik atau sekolah menengah umum tidak dapat dianggap sebagai pilihan acak.
Orang tua sering kali membuat pilihan sendirian, meskipun terkadang mereka berkonsultasi
dengan anak; mereka membuat keputusan pendidikan berdasarkan faktor-faktor seperti perkiraan
pendapatan mereka, komitmen mereka terhadap kelompok agama dan ideologinya, penilaian mereka
terhadap kemampuan intelektual anak mereka, reputasi relatif dari sekolah menengah setempat, dan
sebagainya. Orang tua dan anak juga bukan satu-satunya kekuatan yang terlibat. Sekolah menengah
paroki melakukan penilaian tentang siapa yang ingin mereka terima, memilih siswa berdasarkan
faktor-faktor seperti pengalaman pendidikan mereka sebelumnya, jenis kurikulum yang diinginkan
anak atau orang tua, dan reputasi anak sebagai masalah perilaku. Beberapa di antaranya
faktor-faktor tersebut mungkin terkait dengan prestasi sekolah menengah; sejauh mana faktor-faktor
ini secara independen mempengaruhi pencapaian tersebut akan mengacaukan perbandingan sederhana
antara nilai prestasi siswa sekolah menengah paroki dan sekolah menengah umum.
Tentu saja, salah satu jalan keluar dari masalah ini adalah dengan mempertahankan secara statistik
faktor-faktor yang berkaitan dengan prestasi dan pilihan sekolah. Namun kesulitan dalam melakukan hal
ini juga terlihat jelas. Pertama, penting untuk menentukan faktor-faktor yang relevan dengan benar,
suatu tugas yang biasanya sulit karena tidak adanya teori yang didasarkan secara empiris untuk
membantu spesifikasi tersebut. Kedua, jika unsur pilihan adalah salah satu faktor tersebut (seperti
dalam contoh ini), maka unsur tersebut tidak dapat dianggap konstan karena pilihan ada untuk satu
kelompok tetapi tidak untuk kelompok lain; dalam kasus ini, umat non-Katolik tidak mempunyai pilihan
untuk menyekolahkan anak-anak mereka ke sekolah paroki. [Lihat Rossi & Wright (1982) untuk
kritik yang lebih rinci terhadap Coleman seperti ini.]
Sebuah solusi yang berpotensi bermanfaat terhadap masalah ini baru-baru ini diusulkan oleh
para ahli ekonometrika (Goldberger 1980, Barnow et al. 1980, Berk & Ray 1982). Mereka
mengusulkan agar para peneliti membangun model eksplisit dari proses pengambilan keputusan
dan memasukkan model-model ini ke dalam sistem persamaan struktural sebagai sarana untuk
menjaga proses seleksi mandiri tetap konstan. Meskipun usulan-usulan ini agak lebih menarik
dibandingkan dengan pendekatan biasa yang menambahkan variabel-variabel independen ke dalam
persamaan regresi, usulan-usulan tersebut sebagian besar masih tidak relevan karena model
keputusan yang tepat tidak dapat dibangun kecuali dalam keadaan-keadaan khusus.
Perkembangan penting lainnya dalam metodologi yang digunakan dalam evaluasi non-
eksperimental adalah penerapan model deret waktu (time series) dalam penilaian dampak bersih program
berskala besar. [Model-model ini awalnya dikembangkan dalam peramalan ekonomi (Pindyck & Rubinfeld
1976) dan kemudian diterapkan secara khusus pada masalah evaluasi (McCleary & Hay 1980,
Cook & Campbell 1979).] Pertama kali disarankan oleh Campbell & Stanley (1966) sebagai “deret waktu
terputus” desain, penerapan model deret waktu telah memungkinkan untuk menilai dampak program
baru berskala besar atau dampak modifikasi program yang sudah ada tanpa menggunakan
eksperimen acak klasik. Pendekatan ini terbatas pada program-program yang mempunyai
serangkaian data jangka panjang mengenai hasil-hasilnya dan yang permulaannya dapat ditentukan
tepat pada waktunya, misalnya dengan diberlakukannya undang-undang baru.
Di antara evaluasi rangkaian waktu terputus yang paling terkenal adalah berbagai penilaian hukum senjata
Massachusetts Bartley-Fox (GL Pierce & Bowers 1979, Deutsch & Alt 1977, Hay & McCleary 1979).
Undang-undang ini menerapkan hukuman wajib bagi mereka yang membawa senjata tanpa izin, dengan
tujuan mengurangi penggunaan senjata dalam kejahatan. Dengan menggunakan model deret waktu, para
peneliti memodelkan tren kejahatan terkait senjata sebelum undang-undang Bartley-Fox berlaku dan
membandingkan proyeksi yang dihasilkan dengan tren yang diamati setelah undang-undang tersebut
diberlakukan. Temuan-temuan yang ada menunjukkan bahwa undang-undang tersebut hanya
menyebabkan sedikit penurunan penggunaan senjata api dalam kejahatan. Model deret waktu yang
digunakan (model Box-Jenkins) terdiri dari sekumpulan kerangka kerja, yang masing-masing berbeda satu
sama lain dalam asumsinya mengenai jenis proses yang bergantung pada waktu di tempat kerja. Pada
tingkat tertentu, pilihan model-model tersebut merupakan keputusan untuk mengambil keputusan, suatu
kondisi yang menyebabkan perdebatan polemik di antara para peneliti independen mengenai dampak
sebenarnya dari undang-undang tersebut (misalnya, Hay & McCleary 1979, Deutsch 1979).
Kedua perkembangan yang baru saja dibahas mempunyai implikasi terhadap sosiologi yang
melampaui penelitian evaluasi itu sendiri. Konseptualisasi masalah seleksi diri dalam penelitian
evaluasi mempunyai penerapan langsung pada sebagian besar penelitian sosiologi yang mengandalkan
studi cross-sectional. Permasalahan analisis data yang dihadapi adalah identik, sehingga solusi yang
dikembangkan di bidang evaluasi memiliki penerapan langsung dalam banyak studi sosiologis di mana
permasalahan seleksi mandiri mempersulit interpretasi temuan.
Rangkaian waktu data penting tersedia di banyak bidang substantif yang menjadi perhatian para sosiolog.
Data agregat tentang tingkat kejahatan sudah ada sejak hampir 50 tahun yang lalu; tingkat pengangguran
telah tersedia setiap bulan selama hampir 40 tahun; dan seterusnya.
Sejak penilaian penelitian evaluasi di atas ditulis oleh Rossi dan Wright pada tahun 1984, penelitian evaluasi
mengalami penurunan dukungan fiskal. Penurunan ini mulai terlihat sejak tahun 1980, dalam iklim politik
yang diberlakukan oleh pemerintahan Reagan. Personil Kantor Akuntansi Umum AS baru-baru ini melaporkan hal
berikut.
2. Antara tahun 1980 dan 1984, jumlah staf profesional di semua unit evaluasi lembaga menurun
sebesar 22%, dari sekitar 1.500 menjadi sekitar 1.200. Sebaliknya, jumlah staf di lembaga-
lembaga tersebut hanya berkurang 6% selama periode ini.
4. Antara tahun 1980 dan 1984, dana untuk evaluasi program berkurang sebesar 37%, dibandingkan
dengan peningkatan sebesar 4% untuk lembaga-lembaga tersebut secara keseluruhan.
6. Hilangnya informasi dan distorsi temuan dilaporkan sebagai akibat dari kurangnya penilaian. Kegagalan-
kegagalan ini terbukti paling serius di bidang pertahanan, lingkungan hidup, serta tenaga kerja dan
personel (Chelimsky dkk. 1989).
Masa depan penelitian evaluasi, meskipun mengalami penurunan akhir-akhir ini, cukup menjanjikan.
Kebutuhan-kebutuhan ini tidak akan hilang. Apalagi, ketika tuntutan sosial lama semakin parah dan
kebutuhan sosial baru meningkat, dan ketika anggaran meningkat hingga miliaran dolar,
penelitian evaluasi menjadi semakin penting bagi Kongres, bagi para manajer program, dan bagi
masyarakat. Dan kebutuhan akan evaluasi tidak terbatas pada pemerintah federal saja; hal ini sama
pentingnya bagi pemerintah negara bagian dan kota.
Evaluasi tampaknya telah menjadi bagian dari alat pemerintah. Lembaga penelitian swasta akan terus
menerima kontrak penting untuk penilaian program.
Oleh karena itu, mungkin akan ada kebutuhan berkelanjutan terhadap personel yang terlatih dalam
ilmu-ilmu sosial untuk menjadi staf proyek penelitian yang akan dilakukan, dan sosiolog dapat terus
mencari pekerjaan dalam penelitian evaluasi.
Daftar literatur terlampir yang dikutip oleh Rossi dan Wright merupakan kompilasi yang luar biasa
dari metodologi evaluasi dan studi evaluasi program sosial.
Catatan
1. Yang paling penting adalah evaluasi yang diamanatkan dalam Undang-Undang Pendidikan
Sekolah Dasar dan Menengah tahun 1964 (McLaughlin 1975), dalam otorisasi anggaran
Pembangunan Perumahan dan Perkotaan tahun 1970 yang menyerukan evaluasi eksperimental
terhadap program tunjangan perumahan yang diusulkan (Struyk & Bendick 1981), dan dalam undang-
undang yang memungkinkan Program Pelatihan Ketenagakerjaan Komprehensif Departemen Tenaga
Kerja (Rossi dkk. 1980). Penelitian evaluasi saat ini dapat ditemukan di semua bidang utama
intervensi sosial, termasuk kesehatan, kesehatan mental, peradilan pidana, perumahan, dan anak-anak
cacat serta keluarganya. Departemen Pertahanan semakin banyak menggunakan penelitian evaluasi.
2. Sebuah tabulasi disiplin ilmu utama dari anggota Evaluation Research Society (Evaluation Research
Society 1979) dengan baik menggambarkan karakter interdisipliner dari bidang penelitian evaluasi.
Berikut ini rincian keanggotaannya menurut
bidang: psikologi 47%; sosiologi 10%; ekonomi 4%; ilmu politik 6%; pendidikan 15%; dan lainnya 18%.
3. Beberapa keberhasilan spektakuler di masa-masa makmur, tentu saja, telah banyak berkurang karena
kebalikan dari masa-masa sulit saat ini. Pada puncaknya, Abt Associates mempekerjakan lebih banyak
PhD di bidang ilmu sosial dibandingkan universitas mana pun di wilayah Boston dan lebih banyak daripada
kebanyakan kombinasi universitas. Dalam beberapa tahun terakhir, tenaga kerja PhD telah berkurang hampir
50%.
SUMBER: Dari Peter H. Rossi dan James D. Wright (1984), “Evaluation Research: An Assessment,” Annual
Review of Sociology, 10, 332-352. Dicetak ulang dengan izin Tinjauan Tahunan,
Daftar pustaka#
Tindakan Manusia
Secara tradisional, sebagian besar evaluasi bersifat eksternal, dilakukan oleh evaluator yang dipilih dari luar
organisasi, namun hal ini telah berubah. Salah satu keuntungan utama evaluasi internal, di tengah
keterbatasan anggaran yang semakin ketat saat ini, adalah biaya yang lebih rendah yang biasanya terkait
dengan evaluasi internal. Beberapa faktor lain juga ikut berperan.
•
Kemungkinan kurangnya kekuasaan dalam organisasi
•
Kemungkinan kurangnya kemandirian
• Dilema etika
• Beban tugas tambahan
•
Bias organisasi yang dirasakan
• Mungkin kurang memiliki keahlian evaluasi teknis
•
Kurangnya pengetahuan tentang organisasi
•
Akses terbatas ke data organisasi
•
Lebih mahal
Ini “urutan metodis dari komponen-komponen penting yang diperlukan untuk sebuah internal
evaluasi” hampir menjamin serangkaian hasil yang menyeluruh dan lengkap. Pengikut
urutan, yang mudah dimodifikasi tergantung pada masalah khusus yang dihadapi, adalah sebuah
titik awal yang sangat baik.
4. Pencarian literatur
•
Tinjau kebijakan dan dokumen organisasi serta
literatur substantif
6. Tahap formulasi
•
Mengembangkan isu-isu dan menyusun pertanyaan-pertanyaan evaluasi
8. Rencana evaluasi
•
Menyiapkan rencana kerja
•
Evaluasi desain
•
Siapkan matriks desain
10. Pengumpulan dan analisis data
•
Menentukan kualitas dan ketersediaan data
•
Pastikan presisi diperlukan dalam data evaluatif
•
Menyelesaikan strategi pengumpulan data kuantitatif dan kualitatif
•
Tentukan metodologi pengambilan sampel secara acak atau terarah
•
Merencanakan dan mencocokkan alat statistik dan analitis yang sesuai
data yang diantisipasi
12. Mengkomunikasikan hasil evaluasi
•
Tentukan apakah laporan akan ditulis
•
Siapkan briefing yang sesuai
•
Menyelesaikan prosedur diseminasi temuan evaluasi
14. Tulis rekomendasi
•
Identifikasi opsi jika sesuai
16. Prosedur penutupan
• Persiapan kertas kerja
•
Penyimpanan dan disposisi kertas kerja
•
Anotasi laporan
•
Penanganan material rahasia (jika perlu)
•
Kontrol pembaruan log
18. Tindak lanjut
•
Setelah enam bulan, tentukan status perubahan yang disarankan,
rekomendasi yang disetujui, dan upaya untuk mengukur dampaknya
evaluasi
John Owen dan Patricia Rogers (1999) telah menciptakan apa yang mereka sebut sebagai meta-model
evaluasi yang didasarkan pada lima bentuk evaluasi, masing-masing dengan “mendefinisikan
orientasi dan fokus pada serangkaian masalah umum, yang memberikan panduan bagi
perencanaan dan pelaksanaan investigasi.”
• Proaktif
• Klarifikasi
• Interaktif
•
Pemantauan
•
Dampak
Seperti yang akan segera Anda lihat, semuanya dapat dibandingkan berdasarkan berbagai kriteria, termasuk
tujuan evaluasi, permasalahan yang ditangani oleh berbagai bentuk evaluasi, pendekatannya
diambil pada saat evaluasi, fokus utama evaluasi, dan lain-lain. Tabel 3.1
mengatur lima bentuk evaluasi ini sebagai fungsi dari kriteria ini.
Sage Publications melanjutkan upaya publikasi yang sangat aktif di bidang evaluasi,
dengan cakupan teori, metode, dan pemanfaatan. Siswa atau peneliti tertarik
dalam aspek operasional penelitian evaluasi harus terlebih dahulu mengkaji volume dalam
Kit Evaluasi Program dan kemudian lanjutkan dengan bacaan yang tercantum di bagian ini untuk
contoh penelitian evaluasi pilihan lainnya yang berfokus pada masalah tertentu. Itu
“referensi umum” ditujukan kepada siswa yang mencari pemahaman yang lebih lengkap
teori, metode, dan kemajuan penelitian.
Minat terhadap penelitian evaluasi semakin meningkat, baik cakupan maupun publikasinya. Salah satu
titik awal yang baik adalah ERIC Clearinghouse on Assessment and Evaluation, yang dapat ditemukan
di . Di sini, Anda dapat menemukan seluruh buku, artikel jurnal, dan sumber daya lainnya mengenai
penilaian, evaluasi, dan topik penelitian terkait.
• Volume 1—Buku Panduan Penilai (1988) oleh Joan L. Herman, Lynn Lyons Morris, dan Carol
Taylor Fitz-Gibbon. Jilid pertama ini merupakan inti dari Perangkat Evaluasi Program
dan memberikan gambaran luas tentang perencanaan evaluasi dan panduan praktis untuk
merancang dan mengelola program. • Volume 2—Bagaimana
Memfokuskan Evaluasi (1988) oleh Brian Stecher dan W Alan Davis. Buku ini memberikan gambaran
luas tentang perencanaan evaluasi dan panduan praktis untuk merancang dan mengelola
program. • Volume 3—Bagaimana Merancang Evaluasi Program
(1988) oleh Carol Taylor Fitz-Gibbon dan Lynn Lyons Morris. Buku ini mencerminkan ledakan
besar minat terhadap bidang penting proses evaluasi ini dan menyadari bahwa
memutuskan apa yang akan dievaluasi merupakan proses negosiasi kompleks
yang melibatkan banyak faktor berbeda. • Volume 4—Bagaimana Menggunakan Metode
Kualitatif dalam Evaluasi (1988) oleh
Michael Quinn Patton. Memperkenalkan pembaca pada pendekatan kualitatif. • Volume 5—
Bagaimana Menilai Implementasi Program (1988) oleh Jean A. King, Lynn
Lyons Morris, dan Carol Taylor Fitz-Gibbon. Direvisi secara ekstensif untuk mencerminkan
pandangan modern mengenai implementasi program, buku ini memperkenalkan
beragam fungsi yang dilakukan oleh studi implementasi dan peran yang dimainkan oleh data
kualitatif dan kuantitatif. • Volume 6—Bagaimana Mengukur Sikap (1988) oleh Marlene E.
Henerson,
Lynn Lyons Morris, dan Carol Taylor Fitz-Gibbon. Sebagai bagian penting dari setiap
proses evaluasi, buku ini berfokus pada penilaian sikap.
• Volume 7—Bagaimana Mengukur Kinerja dan Tes Penggunaan (1988) oleh Lynn
Lyons Morris, Carol Taylor Fitz-Gibbon, dan Elaine Lindheim. Peran evaluator dalam
pengukuran kinerja merupakan elemen penting, dan buku ini berfokus pada cara
evaluator dapat memilih, mengembangkan, dan menganalisis tes. • Volume 8—Cara
Menganalisis Data (1988) oleh Carol Taylor Fitz-Gibbon dan Lynn Lyons Morris. Ini adalah
pengenalan dasar terhadap berbagai teknik statistik dasar, termasuk teknik untuk
merangkum data, untuk menguji perbedaan antar kelompok, dan untuk menguji hubungan
antara dua kelompok.
Pengukuran.
Volume 2: diedit oleh Marcia Guttentag bersama Shalom Saar (1977, 736
halaman)
Volume 10: diedit oleh Linda H. Aiken dan Barbara H. Kehrer (1985, 650
halaman) Volume
11: diedit oleh David S. Cordray dan Mark W Lipsey (1986-1987, 757 halaman)
Volume
12: diedit oleh William R. Shadish, Jr., dan Charles S. Reichardt (1988, 704 halaman)
Bourque, L., & Fielder, EP Bagaimana melakukan survei yang dikelola sendiri dan melalui
pos.
Frey, J., & Oishi, SM Bagaimana melakukan wawancara melalui telepon dan
tatap muka.