Anda di halaman 1dari 52

Mengapa Melakukan

Randomisasi?
Ben Olken
Universitas Harvard dan J-PAL

www.povertyactionlab.org
Agenda

I. Permasalahan dalam evaluasi program


II. Contoh: suplemen zat besi di Jawa Tengah
III. Percobaan teracak
IV. Kelebihan dan keterbatasan percobaan
V. Seberapa jauh Anda bisa salah: kampanye
“Vote 2002”
VI. Kesimpulan
Apakah yang dimaksud dengan Evaluasi
Program atau Evaluasi Dampak?
• Evaluasi Program adalah sekumpulan cara yang
digunakan untuk menentukan apakah suatu tindakan/
upaya perlakuan atau intervensi ‘berhasil’.

• Contoh:
– Apakah pemberian beasiswa dapat meningkatkan kehadiran di
sekolah?
– Apakah mengaudit proyek-proyek pembangunan jalan dapat
mengurangi tingkat korupsi?
– Apakah pemakaian kelambu dapat mencegah penyakit malaria?
Susunan dasar untuk evaluasi program

• Bagaimana kita menjawab pertanyaan-pertanyaan


tersebut?

• Kuncinya adalah dengan menetapkan kontrafaktual.


– Suatu Kontrafaktual didefinisikan sebagai “apa yang akan terjadi
apabila tidak ada tindakan/ upaya perbaikan”.

– Kontrafaktual yang sebenarnya tidak dapat diamati – kita tak pernah


tahu apa yang akan dialami oleh kelompok yang mendapatkan upaya
perbaikan apabila mereka tidak mendapatkan upaya perbaikan, karena
mereka telah mendapatkan upaya perbaikan.

– Tujuan utama dari semua metode evaluasi program/dampak adalah


untuk menciptakan atau “meniru” kontrafaktual dengan menggunakan
beberapa jenis kelompok kontrol
Susunan dasar untuk evaluasi program

• Definisi-definisi:
– Hasil (Y): Hasil yang mungkin dipengaruhi oleh tindakan/upaya
perbaikan
– Diberi Tindakan (T): Kelompok yang dipengaruhi program
– Kontrol (C): Kelompok yang tidak terpengaruh program

• Asumsi utama :
– Bila tidak dilakukan upaya perbaikan, maka hasilnya akan sama antara
kelompok yand diuji coba dan kelompok kontrol
– Atau, dengan kata lain – kelompok kontrol adalah kontrafaktual

• Maka dampak dari upaya perbaikan itu adalah:


– DAMPAK = HASIL (diberi tindakan) – HASIL (kontrol)
Bias Seleksi

• Ingat asumsi utama :


– Apabila upaya perbaikan tidak dilakukan, maka hasilnya akan sama
antara kelompok yang mendapatkan upaya perbaikan dan
kelompok kontrol
• Apa yang terjadi bila ada penyimpangan dalam asumsi tsb?
– contoh, bagaimana jika ada faktor-faktor lain yang tak teramati yang
mungkin mempengaruhi unit-unit yang mendapat upaya perbaikan,
namun tidak mempengaruhi unit-unit kontrol?
– faktor-faktor yang tak teramati ini kami sebut sebagai “bias seleksi”.
Keberadaan bias seleksi ini tidak terkendali dalam penelitian yang
bersifat pengamatan.
– Bila terdapat bias seleksi, maka Anda akan mendapat jawaban
yang salah!
• Jawaban = Dampak upaya perbaikan + Bias Seleksi
– Bila bias seleksi positif, maka penelitian yang bersifat pengamatan
akan menyatakan dampak upaya perbaikan secara berlebihan; bila
negatif, dampak tersebut akan ternyatakan secara tidak memadai.
Contoh-Contoh bias seleksi
• Di dunia nyata, bagaimanakah wujud bias seleksi?
• Beberapa contoh bias seleksi:
– Pangan bersubsidi. Masyarakat yang mendapat subsidi makanan (misal:
Raskin) lebih miskin daripada mereka yang tidak. Apakah Raskin
menjadikan mereka miskin?

– Sekolah. Masyarakat yang menyelesaikan pendidikan jenjang


menengahnya berpenghasilan lebih banyak dibandingkan mereka yang
keluar sebelum lulus sekolah menengah. Apakah ini pengaruh dari
bersekolah? Atau karena mereka yang lebih cerdas mendapat lebih
banyak pendidikan? Atau kombinasi di antara keduanya?

– Jalanan. Desa-desa yang mendapat pembangunan jalan dari pemerintah


menunjukkan peningkatan dalam penghasilan pertanian. Apakah
pembanguan jalan berdampak pada perubahan penghasilan? Atau
apakah pemerintah membangun jalan di lokasi-lokasi yang ‘strategis’?
Dua jenis evaluasi dampak
1. Evaluasi Teracak:
– Menggunakan undian– misal, lempar koin – untuk
menentukan siapa yang masuk dalam kelompok tindakan/
yang mendapatkan upaya perbaikan & siapa yang masuk
dalam kelompok kontrol.
– Karena perbedaan antara dua kelompok hanya pada hasil
lempar koin, kita tahu bahwa kelompok kontrol memberikan
kontrafaktual yang baik dan tidak ada bias seleksi.

Dikenal pula dengan sebutan:


• Penelitian Penempatan Teracak
• Pengujian Lapangan Teracak
• Eksperimen Sosial
• Eksperimen Terkontrol Teracak
Jenis-Jenis Metode Evaluasi
Dampak (Lanjutan)
2. Metode Non-Eksperimental atau Kuasi-Eksperimental
– Metode ini menggunakan pendekatan lain untuk menciptakan
sebuah kelompok kontrol dengan bias seleksi minimum
• Contoh:
– Perbedaan Sederhana
• Bandingkan hasil dari kelompok tindakan dan kelompok kontrol, di mana
kelompok kontrol tak terpapar pada program karena alasan-alasan eksogen
– Perbedaan-dalam-perbedaan
• Bandingkan perubahan dari waktu ke waktu antara kelompok tindakan dan
kelompok kontrol
– Penjodohan Statistik
• Mengidentifikasi kelompok kontrol berdasarkan faktor-faktor yang tampak
dalam pengamatan
– Variabel-variabel Tambahan
• Memprediksi upaya perbaikan sebagai fungsi variabel yang tidak secara
langsung berdampak pada hasil yang diminati
• Presentasi ini difokuskan pada metode-metode teracak
II – CONTOH:
SUPLEMEN ZAT BESI DI JAWA TENGAH

www.povertyactionlab.org
Contoh: suplemen zat besi di Jawa
• Latar belakang:
– Anemia (kekurangan zat besi) menyebabkan kurangnya energi dan
menurunkan kemampuan orang untuk bekerja
– Masalah ini bisa jadi parah di wilayah-wilayah pertanian di mana
masyarakat biasanya makan makanan yang tak diperkaya dengan zat
tambahan

• Program:
– Program percontohan pengayaan zat besi di Purworejo, Jawa Tengah
– Tenaga kesehatan mendatangi rumah tangga dan memotivasi mereka
untuk mengonsumsi pil zat besi satu kali per minggu

• Pertanyaan: apakah program ini memperbaiki kesehatan,


meningkatkan kemampuan kerja, dan mengurangi
kemiskinan?
Apakah dampak programnya?
Penghasilan bulanan
(Rp100.000)

9 (diamati)

Inikah dampak programnya?

Belum tentu!
7
(diamati)

waktu
2002 2003
PROGRAM
Kita perlu mengetahui apa yang akan
terjadi jika program tidak dilaksanakan
Penghasilan bulanan
(Rp100.000)

9 (diamati)

(apa yang akan terjadi jika


tak ada program?)

waktu
2002 2003
Kita perlu mengetahui apa yang akan
terjadi jika program tidak dilaksanakan
Penghasilan bulanan
(Rp100.000)

9 (diamati)

Dampak: 9 – X

X (Apa yang akan terjadi jika tak


ada program?) (tidak
diamati)
7

waktu
2002 2003
Gagasan: Gunakan kelompok kontrol
untuk memperkirakan X
Penghasilan bulanan
(Rp100.000)

9 (Diamati di antara penerima


manfaat)
Dampak: 9 – 7.9 = 1.1

7.9 (Diamati dalam kelompok kontrol)

waktu
2002 2003
Apa yang membuat sebuah kelompok
kontrol baik/ buruk?
• Apabila terdapat perbedaan antara kelompok peserta
dan bukan-peserta
– Misalkan, suplemen zat besi hanya diberikan kepada rumah
tangga yang berada dekat Puskesmas
– Dalam hal ini. kelompok yang mendapatkan tindakan tinggal
dekat Puskesmas sedangkan kelompok kontrol tinggal jauh
dari Puskesmas

 Hal ini dapat membiaskan perbandingan …


– Rumah tangga itu mungkin berada di wilayah-wilayah
sejahtera, dan mungkin penghasilan untuk rumah tangga
tersebut telah meningkat, bahkan tanpa adanya program

 Inilah satu contoh “bias seleksi”


Bias Seleksi
Penghasilan bulanan
(Rp100.000)
Kelompok Tindakan

Dampak sesungguhnya: 9 –
7.9 = 1.1
X (Apa yang akan terjadi bila
tak ada program?)

Kelompok Kontrol

waktu
2002 2003
Bias Seleksi
Penghasilan bulanan
(Rp100.000) Kelompok Tindakan

Dampak yang anda


perkirakan menggunakan
X kelompok kontrol yang
‘salah’: 9 – 7 = 2
Kelompok Kontrol

waktu
2002 2003
Satu solusi … evaluasi teracak
• Dalam hal ini, mereka menentukan rumah tangga mana
yang menerima suplemen zat besi, dan mana yang
tidak, melalui undian

• Hal ini menciptakan suatu kelompok pembanding yang


secara sistematis tidak berbeda dari para peserta
– Yaitu,satu kelompok yang tidak mengalami bias seleksi

• Jadi, kelompok kontrol tampak mirip dengan kelompok


tindakan, hanya mereka tidak mendapatkan upaya
perbaikan
Eksperimen Teracak
Penghasilan bulanan
(Rp100.000)
Kelompok Tindakan

Dampak sesungguhnya:
9 – 7.9 =1.1
Dampak yang Anda
perkirakan jika
X menggunakan kelompok
kontrol yang salah : 9 – 7
=2
Kelompok Kontrol

waktu
2002 2003
Contoh: Hasil dari penelitian
Purworejo
10 9.36
penghasilan Bulanan Rp (100,000)

7.91
8
6.6

6 5.5
Tindakan
4 Kontrol

0
Laki-laki Perempuan
III – APA YANG DIMAKSUD
DENGAN EVALUASI
TERACAK ITU
SEBENARNYA?

www.povertyactionlab.org
Ketentuan-ketentuan Dasar
Dimulai dengan hal sederhana:
• Ambil sampel dari calon peserta program
• Secara acak masukkan mereka ke dalam:
– Kelompok Tindakan – mendapatkan upaya perbaikan
– Kelompok Kontrol – tidak diperbolehkan untuk mendapatkan upaya
perbaikan (selama masa evaluasi)
• Acak berarti bahwa penentuan suatu kelompok untuk
mendapatkan upaya perbaikan atau tidak dilakukan melalui
undian:
– Dapat diundi lewat komputer
– Dapat diundi langsung di tengah masyarakat
• Catatan: penetapan acak terhadap kelompok tindakan dan
kelompok kontrol tidak sama dengan pengambilan sampel
secara acak
Mengapa penempatan secara acak
dapat berhasil?
• Mengapa penempatan secara acak terhadap kelompok tindakan dan
kelompok kontrol dapat menghasilkan kontrafaktual yang baik?

• Karena adanya hukum jumlah besar (law of large numbers) …


– Dapatkan 200 orang dan kemudian pisahkan mereka secara acak ke dalam
dua kelompok yang masing-masing terdiri dari 100 orang
– Dua kelompok memiliki rata-rata tinggi dan berat yang sama
– Ini berhasil untuk masyarakat, anak sekolah, perusahaan, sekolah,
kecamatan …
– (tidak berhasil apabila Anda hanya memiliki 10 unit yang akan diacak)

• Maka…
– Apabila tidak ada upaya perbaikan, kedua kelompok akan sama
– Perbedaan satu-satunya antara kelompok tindakan dan kelompok kontrol
adalah dampak upaya perbaikan!
Persiapan Dasar suatu Evaluasi Acak
Populasi Sasaran

Peserta Potensial

Sampel Evaluasi

Penempatan Acak

Kelompok Kelompok
Tindakan Kontrol

Peserta hadir Peserta tak hadir


Berdasarkan Orr (1999)
Langkah-langkah utama dalam
melakukan eksperimen teracak
1. pada kelompok tindakan atau kelompok kontrol
2. Rancang penelitiannya dengan seksama
– Apa masalahnya? Apa pertanyaan kunci yang harus dijawab?
– Kebijakan apa saja yang mungkin dibuat untuk mengatasi masalah tsb?
3. Kumpulkan data dasar dan secara acak tempatkan orang-
orang Verifikasikan bahwa penempatan itu nampak acak
4. Pantau proses sehingga integritas eksperimen tidak
diragukan
5. Kumpulkan data lanjutan baik untuk kelompok tindakan
maupun kelompok kontrol
6. Perkirakan dampak program dengan membandingkan
hasil rata-rata dari kelompok tindakan vs kelompok kontrol
7. Lakukan penilaian apakah dampak program signifikan
secara statistik maupun dalam prakteknya
Beberapa variasi atas ketentuan dasar
• Melakukan penempatan ke beberapa kelompok tindakan
• Melakukan penempatan ke dalam unit-unit selain dari
individu atau rumahtangga
– Pusat Kesehatan
– Sekolah
– Pemerintahan Daerah
– Desa

• Faktor-faktor penting :
– Apa unit pengambil keputusannya?
– Pada tingkat mana data dapat dikumpulkan?
IV – KELEBIHAN DAN
KEKURANGAN DARI EVALUASI
TERACAK

www.povertyactionlab.org
Validitas
• Dalam menilai setiap penelitian, ada dua jenis masalah
yang harus dipikirkan:
– Validitas Internal: berhubungan dengan kemampuan untuk
menarik kesimpulan kausal, misalnya, dapatkah kita mengaitkan
perkiraan dampak dengan program, dan bukan dengan hal
lainnya?

– Validitas Eksternal: berhubungan dengan kemampuan untuk


melakukan generalisasi terhadap situasi menarik lainnya, yaitu
dapatkah kita mengeneralisasikan perkiraan dampak dari
program ini pada masyarakat, waktu, negara lain, dst.?
Kelebihan Utama Pengacakan

• Jauh lebih kuat dalam hal Validitas Internal:


– Tidak ada bias seleksi

tidak banyak keraguan bahwa perbedaan yang tampak di antara


kelompok tindakan dan kelompok kontrol memang disebabkan
oleh program Anda
Kelebihan-kelebihan lain dari
eksperimen
• Dibandingkan dengan hasil dari penelitian-penelitian
non-eksperimental, hasil-hasil dari eksperimen bersifat:

– Tidak terlalu tunduk pada perdebatan metodologis


– Lebih mudah untuk disampaikan
– Memiliki kemungkinan yang lebih besar untuk meyakinkan
penyokong dana program dan/ atau pembuat kebijakan
Kekurangan-kekurangan dari
Eksperimen
• Meskipun eksperimen-eksperimen memiliki kelebihan
metodologis yang besar, terdapat berbagai ancaman
terhadap validitas eksperimen. Sebagai contoh,
– Validitas Internal
(misalnya Dampak Hawthorne, survei yang tidak mendapat
tanggapan, ketidakhadiran peserta, persilangan, bias durasi,
dsb.)

– Validitas Eksternal
(misalnya, apakah hasil-hasilnya dapat digeneralisasikan
terhadap populasi yang diamati?)

• Penting diketahui bahwa beberapa ancaman tersebut


juga mempengaruhi validitas dari penelitian-penelitian
non-eksperimental
Kekurangan-kekurangan lain dari
eksperimen
• Mengukur dampak dari penawaran untuk berpartisipasi
dalam program
– Tergantung pada rancangannya, dimungkinkan untuk
memahami mekanisme yang mendasari intervensi.

• Biaya (meskipun perlu mempertimbangkan biaya untuk


mendapatkan jawaban yang keliru dan biaya-biaya yang
lain)

• Ekuilibrium parsial
Kekurangan-kekurangan lain dari
Eksperimen
• Masalah Etika
– Sebagian besar program dijatahkan karena kurangnya sumber
daya
– Proses pemilihan acak merupakan cara yang “adil” untuk
mengalokasikan sumber daya.
– Mungkin ada baiknya juga menghapus unsur kebijaksanaan
dalam pengalokasian karena sebab-sebab lain (misalnya,
mencegah favoritisme)
– Masuk-bertahap atau proyek percontohan secara alami memberi
ruang pada randomisasi
– Mengeksploitasi proyek percontohan atau sisipan oleh sebab
keterbatasan anggaran
V –SEBERAPA JAUH ANDA BISA
SALAH: KAMPANYE VOTE 2002

www.povertyactionlab.org
Kasus 1 – Kampanye “Vote 2002”
• Intervensi yang dirancang untuk meningkatkan tingkat
partisipasi pemilih dalam pemilihan umum di A.S. pada
tahun 2002
• Panggilan telepon kepada ~60.000 orang
• Hanya ~35.000 orang yang berhasil dihubungi
• Pertanyaan utama: Apakah kampanye tersebut memiliki
dampak positif terhadap tingkat partisipasi pemilih?
– 5 metode digunakan untuk memperkirakan dampak
Metode 1-3

• Berdasarkan perbandingan orang-orang yang berhasil


dihubungi dan yang tidak berhasil dihubungi :
– Metode 1: selisih dalam tingkat partisipasi pemilih,
(tingkat partisipasi pemilih)berhasil dihubungi – (tingkat partisipasi
pemilih)tidak berhasil dihubungi

– Metode 2: Regresi berganda yang mengendalikan beberapa


perbedaan di antara kedua kelompok

– Metode 3: Metode 2, namun juga mengendalikan perbedaan


perilaku di antara kedua kelompok dalam pemilihan umum yang
telah lalu
Perkiraan dampak dengan
menggunakan Metode 1-3

Perkiraan Dampak

Metode 1 10.8 pp *

Metode 2 6.1 pp *

Metode 3 4.5 pp *

pp=percentage point (angka presentase); *: secara statistik signifikan pada tingkat 5%


Metode 1-3

Apakah ada dari perkiraan-perkiraan


dampak itu yang mungkin merupakan
dampak sesungguhnya dari kampanye
“Vote 2002”?
Yang Berhasil Dihubungi vs.
Yang Tidak Berhasil Dihubungi
Berhasil Tidak berhasil Perbedaan
dihubungi dihubungi
Perempuan 56.2% 53.8% 2.4 pp*
Baru terdaftar 7.3% 9.6% -2.3 pp*
Dari Iowa 54.7% 46.7% 8.0 pp*

Memberikan suara 71.7% 63.3% 8.3 pp*


di thn 2000
Memberikan suara 46.6% 37.6% 9.0 pp*
pada di thn 1998

pp= angka presentase *: secara statistik signifikan pada tingkat 5%


Metode 4: Penjodohan

• Terdapat data yang sama tentang 2.000.000 orang


• Pilih sebagai kelompok pembanding suatu sub-
kelompok dari 2.000.000 orang yang sedapat
mungkin mirip dengan kelompok yang berhasil
dihubungi
• Prosedur statistik: penjodohan
• Untuk memperkirakan dampak, bandingkan tingkat
partisipasi pemilih antara kelompok yang berhasil
dihubungi dengan kelompok pembanding
Ilustrasi penjodohan

Sumber: Arceneaux, Gerber, dan Green (2004)


Perkiraan Dampak dengan
Menggunakan Penjodohan

Perkiraan Dampak

Penjodohan pada 4 kovariat 3.7 pp *

Penjodohan pada 6 kovariat 3.0 pp *

Penjodohan pada semua kovariat 2.8 pp *

pp=angka presentase; *: secara statistik signifikan pada tingkat 5%


Metode 4: Penjodohan

• Apakah perkiraan dampak ini mungkin merupakan


dampak sesungguhnya dari kampanye “Vote 2002?
• Kunci: Kedua kelompok itu harus ekuivalen dalam hal
karakteristik-karakteristik yang dapat diamati yang
digunakan untuk melakukan penjodohan.

Namun bagaimana dengan karakteristik-karakteristik


yang tidak teramati?
Metode 5: Eksperimen Teracak
• Ternyata 60.000 orang tersebut dipilih secara acak dari
populasi sebesar 2.060.000 orang
• Oleh karena itu, upaya perbaikan ditetapkan secara
acak pada dua kelompok:
– Kelompok Tindakan (60.000 orang yang ditelepon)
– Kelompok Kontrol (2.000.000 orang yang tidak ditelepon)
• Untuk memperkirakan dampak, bandingkan tingkat
partisipasi pemilih antara kelompok tindakan dan
kelompok kontrol
– Lakukan penyesuaian statistik untuk mengatasi kenyataan
bahwa tidak semua orang dalam kelompok tindakan berhasil
dihubungi
Metode 5: Eksperimen Teracak
• Perkiraan dampak: 0.4%, secara statistik tidak signifikan
• Apakah perkiraan dampak ini mungkin merupakan
dampak sesungguhnya dari kampanye “Vote 2002”?
• Kunci: kelompok tindakan dan kelompok kontrol harus
ekuivalen baik berkenaan dengan karakteristik-
karakteristik yang dapat diamati maupun yang tidak
dapat diamati
• Karenanya, setiap perbedaan dalam hasil akhir dapat
dikaitkan dengan kampanye Vote 2002
Tabel Ringkasan
Metode Perkiraan Dampak
1 – Perbedaan Sederhana 10.8 pp *

2 – Regresi Berganda 6.1 pp *

3 – Regresi Berganda 4.5 pp *


dengan data panel
4 – Penjodohan 2.8 pp *

5 – Eksperimen Teracak 0.4 pp


VI - KESIMPULAN
Kesimpulan
• Kebijakan publik yang baik membutuhkan pengetahuan
akan dampak kausal.
• Dampak kausal dapat diperkirakan hanya apabila kita
memiliki kontrafaktual yang baik.
• Apabila tidak ada kontrafaktual yang baik, maka analisis
akan terkontaminasi dengan bias seleksi.
• Berhati-hatilah dengan klaim kausal yang berasal dari
penelitian-penelitian yang bersifat pengamatan.
• Randomisasi menawarkan solusi untuk menghasilkan
kontrafaktual yang baik.
Kesimpulan
• Apabila dirancang dan dijalankan secara benar, maka
eksperimen sosial akan memberikan penilaian yang
paling dapat dipercaya atas dampak dari suatu program

• Hasil-hasil dari eksperimen sosial mudah dipahami dan


dan tidak akan terlalu menjadi obyek keberatan-
keberatan metodologis

• Kredibilitas + Kemudahan => lebih mungkin untuk


meyakinkan para pembuat kebijakan serta peyokong
dana tentang efektivitas (atau kurang efektifnya) suatu
program
Kesimpulan (lanjutan)
• Namun demikian, kelebihan-kelebihan tersebut hanya
akan didapatkan apabila eksperimen sosial dirancang
serta dilaksanakan dengan semestinya.

• Harus menilai validitas eksperimen dengan cara yang


sama seperti ketika kita menilai validitas penelitian lain
mana pun

• Harus mengetahui kekurangan-kekurangan eksperimen


SELESAI

Anda mungkin juga menyukai