Anda di halaman 1dari 31

Kinerja subyektif Evaluasi di Sektor Publik: Bukti Dari Inspeksi Sekolah

Abstrak
Pengukuran kinerja di sektor publik sebagian besar didasarkan pada hardmetrics, yang
memiliki manfaat yang transparan, tetapi dapat dikenakan perilaku game. Evaluasi kinerja
subyektif menawarkan keuntungan potensial dari emeasuring apa matters, tapi terbuka untuk
manipulasi oleh birokrat dibebankan dengan pengawasan. Makalah ini menyelidiki inspeksi
sistem sekolah baru di mana inspektur independen mengunjungi dan menilai sekolah pada
pemberitahuan yang sangat singkat, menulis dan mengungkapkan laporan kualitas sekolah dan
sekolah sanksi dinilai 'Gagal'.
Setelah menunjukkan bahwa peringkat pemeriksaan yang berlaku dalam arti yang
kondisional berkorelasi dengan independen ukuran kualitas sekolah dasar, penelitian
mengevaluasi efek kausal dari inspeksi gagal pada prestasi murid berikutnya. Bukti
menunjukkan bahwa inspeksi gagal mengarah untuk menguji keuntungan skor. Keuntungan
terbesar dinikmati oleh siswa dengan kemampuan yang lebih rendah sebelumnya, hasil ini tidak
dapat dipertanggungjawabkan oleh 'efek langit-langit' bagi siswa kemampuan tinggi. Bukti juga
menunjukkan bahwa setidaknya beberapa keuntungan terakhir ke jangka menengah. Selanjutnya,
dan kontras dengan banyak bukti dari uji berbasis rezim akuntabilitas, studi ini menemukan ada
bukti yang menunjukkan bahwa sekolah dapat mengembang kinerja skor tes dengan game
sistem, menunjukkan bahwa pengawasan oleh inspektur dapat membatasi perilaku strategis
seperti.

1. Pendahuluan
Dalam upaya untuk membuat organisasi publik lebih efisien, pemerintah di seluruh dunia
menggunakan 'keras' target kinerja untuk mengevaluasi kualitas pelayanan. Contoh termasuk
nilai tes siswa untuk sektor pendidikan di AS, Inggris dan Chili (lihat survei oleh Figlio dan
Loeb, 2011) dan rumah sakit waktu tunggu dalam sistem perawatan kesehatan masyarakat
Inggris (Besley, Bevan dan Buchardi, 2008; Propper et al , 2008). Akuntabilitas berdasarkan
ukuran kinerja keras atau tujuan memiliki manfaat yang transparan tetapi kelemahan potensial
adalah bahwa skema tersebut dapat mengakibatkan perilaku game dalam pengaturan di mana
insentif fokus hanya pada satu dimensi hasil.
Evaluasi kinerja subyektif, di sisi lain, mengulurkan janji 'mengukur apa yang penting'
jika evaluator dapat menggabungkan kedua informasi keras dan lunak untuk mengukur keluar-
datang. Namun, sistem di mana evaluator diperbolehkan untuk melakukan penilaian sendiri,
daripada mengikuti aturan keputusan formal, menimbulkan satu set baru kekhawatiran. Sebagai
contoh, hasil dari literatur teoritis menekankan 'kegiatan pengaruh' dan 'pilih kasih' (Milgrom dan
Roberts, 1988; Prendergast dan Topel 1996) yang membuat 'fana' ukuran subyektif (Dixit, 2002).
Bukti empiris pada efektivitas evaluasi subyektif tetap tipis. Sebagaimana dicatat oleh
Prendergast (1999, p.33), literatur ekonomi sebagian besar berfokus pada "pekerja dengan output
mudah diamati [yang] sebagian kecil dari populasi."
Makalah ini berusaha untuk mengisi kesenjangan ini dengan mengevaluasi secara empiris
rezim evaluasi kinerja subyektif untuk sekolah. Pengaturan adalah publik (negara) sistem
pendidikan bahasa Inggris, di mana inspektur independen kunjungan, monitor dan laporan
tentang kualitas sekolah. Selain itu, sekolah dinilai 'Gagal' dapat dikenakan sanksi, seperti
inspeksi lebih sering dan intensif. Sebagaimana dijelaskan secara rinci di bawah, inspektur
menggabungkan metrik keras, seperti skor tes, dengan yang lebih lembut, seperti pengamatan
pengajaran di kelas, dalam rangka untuk sampai pada penilaian mereka tentang kualitas sekolah.
Hampir tidak ada bukti empiris mengenai apakah suatu sistem untuk sektor pendidikan bekerja
dalam prakteknya.
Saya memberikan bukti tentang efektivitas rezim ini sepanjang dua dimensi berikut.
Pertama, apakah peringkat inspektur memberikan informasi tambahan pada kualitas sekolah, atas
dan di atas yang sudah tersedia di ruang publik? Ini 'uji validitas' diimplementasikan sebagai
berikut: Saya bertanya apakah peringkat inspeksi berkorelasi dengan ukuran kualitas sekolah
yang mendasari - dibangun dari laporan survei mahasiswa remaja praktek guru serta kepuasan
orangtua - tergantung pada standar karakteristik sekolah yang dapat diamati seperti peringkat
nilai ujian dan proporsi siswa yang layak untuk makan siang gratis.
Kedua, saya memeriksa apakah rating inspeksi gagal mengarah ke keuntungan berikutnya
dalam skor tes siswa. Mengidentifikasi pengaruh rating gagal pada nilai tes terkendala oleh jenis
masalah pembalikan rata-rata dihadapi dalam literatur tentang evaluasi program pasar tenaga
kerja (lihat Ashenfelter, 1978; Heckman, Lalonde dan Smith, 1999). Hal ini karena tugas untuk
pengobatan, gagal, setidaknya sebagian didasarkan pada realisasi masa lalu dari variabel hasil,
skor tes. Ancaman terhadap identifikasi adalah bahwa kinerja yang buruk sebelum pemeriksaan
hanya karena nasib buruk dan bahwa nilai tes di sekolah gagal akan meningkat bahkan tanpa
adanya inspeksi gagal. Setiap strategi yang kredibel harus mengatasi kekhawatiran tersebut.
Gambar 1 menggambarkan masalah dalam pengaturan saat ini. Antara tahun 2000 dan 2005, tes
kinerja skor pada tes usia 11 Key Stage 2 matematika menurun di sekolah gagal pada tahun 2006
relatif terhadap sekolah dinilai memuaskan atau lebih baik di tahun yang sama inspeksi. Ada
sebuah pickup dramatis dalam kinerja di sekolah gagal baik di tahun inspeksi dan selanjutnya.
Pertanyaannya kemudian adalah sejauh mana peningkatan kinerja pada gagal sekolah karena
pemeriksaan gagal itu sendiri.
<Gambar. 1 di sini>
Penelitian ini memanfaatkan fitur desain sistem pengujian Inggris untuk menilai efek
kausal dari inspeksi gagal. Sebagaimana dijelaskan secara rinci di bawah, tes untuk Tahun 6
(umur 11) siswa di Inggris yang diberikan pada minggu kedua bulan Mei setiap tahun. Tes ini
ditandai eksternal, dan hasil yang dirilis ke sekolah dan orang tua pada pertengahan Juli. Jendela
singkat antara Mei dan Juli memungkinkan saya untuk mengatasi masalah pengembalian rata-
rata: sekolah gagal pada bulan Juni yang gagal setelah tes di Mei tapi sebelum inspektur
mengetahui hasil tes. Dengan membandingkan sekolah gagal di awal tahun akademik -
September, katakanlah - dengan sekolah gagal di Juni saya dapat mengisolasi pengembalian rata-
rata dari pengaruh pemeriksaan gagal.
Isu tambahan diperiksa dalam penelitian ini adalah apakah ada pengaruh positif
diperkirakan inspeksi gagal pada hasil tes dapat dijelaskan oleh tanggapan strategis atau
disfungsional oleh guru. Sebuah literatur yang berkembang telah sekarang mendirikan
pentingnya empiris dari fenomena tersebut dalam konteks sekolah. Pesan keseluruhan dari tubuh
ini bukti adalah bahwa ketika insentif sekolah ini terkait erat dengan menguji skor guru sering
akan mengadopsi strategi yang artifisial meningkatkan tes mengukur kinerja sekolah skor. Saya
menguji sampai sejauh mana perilaku tersebut dapat dideteksi dalam konteks saat ini.
Temuan dari penelitian ini adalah sebagai berikut. Pada apakah peringkat inspeksi
berkorelasi dengan siswa (dan orang tua) laporan praktek sekolah, bukti-bukti menunjukkan
bahwa peringkat inspeksi sangat terkait dengan langkah-langkah survei kualitas sekolah.
Misalnya, hubungan antara peringkat inspeksi dan laporan siswa survei praktek guru secara
ekonomis berarti dan signifikan secara statistik, bahkan setelah pengkondisian pada rank test
sekolah, proporsi siswa yang layak untuk makan siang gratis dan sekolah lainnya dan
karakteristik siswa. Hasil ini menunjukkan bahwa siswa yang terdaftar di sekolah dengan
penilaian pemeriksaan yang lebih baik mengalami suatu lingkungan di mana, menurut laporan
diri siswa, guru praktek lebih unggul. Temuan serupa berlaku untuk ukuran lain kualitas sekolah
dibangun dari mahasiswa dan tanggapan orangtua survei, termasuk kepuasan orangtua. Hasil ini
menunjukkan bahwa peringkat pemeriksaan yang informatif tentang pandangan 'orang dalam'
dari sekolah, tergantung pada ukuran tradisional atribut sekolah.
Beralih ke efek rating gagal pada hasil tes, hasil menggunakan mahasiswa tingkat data
dari panel semua sekolah gagal di Inggris antara tahun 2006 dan 2009 menunjukkan bahwa siswa
di sekolah gagal awal mendapatkan 0,12 dari standar deviasi pada tes matematika nasional
standar relatif terhadap siswa yang terdaftar di sekolah gagal akhir skor. Efek pengobatan untuk
bahasa Inggris adalah keuntungan dari 0,08 dari standar deviasi. Hasil ini kuat untuk metode
yang berbeda dari estimasi: perbandingan sederhana pasca-hasil pengobatan untuk kontrol dan
kelompok perlakuan serta perbedaan-dalam-perbedaan model menghasilkan hasil yang sangat
mirip.
Saya tidak menemukan bukti yang menunjukkan bahwa sekolah mampu mengembang
kinerja gaming test oleh sistem. Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak
termasuk kemampuan siswa rendah dari kolam uji-taking. Kedua, bukti tidak mendukung
gagasan bahwa guru sasaran siswa pada margin mencapai tingkat kemahiran offcial ('Level 4'
pencapaian pada tes 2 Key Stage) dengan mengorbankan siswa jauh di atas atau di bawah
ambang batas ini. Ketiga, walaupun kenaikan tes memudar sedikit dari waktu ke waktu, ada
bukti yang menunjukkan bahwa untuk beberapa keuntungan siswa terakhir ke jangka menengah,
bahkan setelah mereka meninggalkan sekolah gagal. Hal ini menunjukkan bahwa guru
menanamkan pembelajaran nyata dan bukan hanya menguji-mengambil keterampilan dalam
menanggapi rating gagal.
Mengingat bukti-bukti sebelumnya tentang perilaku strategis hasil ini mengungkapkan.
Dalam pengaturan bahasa Inggris taruhannya - tentu untuk kepala sekolah - yang berpotensi
sangat tinggi. Kenyataan bahwa aku tidak mendapati bukti jenis perilaku strategis ditemui di
banyak konteks serupa lainnya menunjukkan bahwa dengan menundukkan sekolah untuk
menutup pengawasan, inspektur mungkin memainkan peran dalam membatasi kegiatan distortif
tersebut.
Efek keseluruhan heterogenitas masker substansial dalam efek pengobatan. Keuntungan
terbesar adalah bagi siswa mencetak rendah pada (usia tujuh) Tahap Kunci tes sebelum 1. Dalam
kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa mencapai lebih tinggi
memperoleh yang terbaik. Temuan ini konsisten dengan pandangan bahwa anak-anak dari orang
tua berpenghasilan rendah paling diuntungkan dari inspeksi. Jika orang tua setidaknya dapat
menilai kualitas pengajaran yang diberikan oleh sekolah maka anak-anak mereka dapat
menerima perhatian setidaknya dari guru. Setelah inspeksi gagal, guru dapat mengisi kekosongan
ini. Hasil penelitian menunjukkan bahwa untuk matematika, siswa di kuartil bawah keuntungan
distribusi kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan efek
diperkirakan terus meningkat dari 0,1 untuk quantiles terendah hingga 0,3 untuk quantiles
tertinggi. Untuk bahasa Inggris, perkiraan untuk kisaran antara subkelompok 0,08 dan 0,18 dari
standar deviasi.
Kontribusi utama dari penelitian ini adalah untuk menawarkan evaluasi empiris
efektivitas inspeksi sekolah. Meskipun negara-negara dengan rezim pemeriksaan yang
komprehensif sekolah masih jarang, ada beberapa indikasi bahwa minat mengadopsi skema
tersebut tumbuh. Mengingat bahwa rezim inspeksi sistematis telah terjadi di Inggris sejak awal
1990-an, tampaknya agak mengejutkan bahwa belum ada evaluasi kuantitatif dari efektivitas.
Selain literatur disebutkan sebelumnya pada evaluasi kinerja subjektif, penelitian ini juga
terkait dengan literatur kecil menyelidiki perilaku birokrasi. Misalnya, Heckman, Smith dan
Taber (1996) menunjukkan bahwa dalam konteks program pelatihan kerja, kasus pekerja, yang
diizinkan untuk menggunakan penilaian mereka sendiri dalam mengalokasikan pelatihan,
cenderung memanjakan preferensi mereka sendiri dengan mendaftar yang paling diuntungkan
dan paling dipekerjakan pelamar ke dalam program.
Akhirnya, tulisan ini juga memberikan kontribusi untuk literatur tumbuh pada mekanisme
untuk meningkatkan pelayanan publik, khususnya bagi masyarakat miskin. Sejumlah contoh ada
dari mengembangkan pengaturan negara, termasuk Olken (2007).
Sisa dari makalah ini ditata sebagai berikut. Bagian 2 menjelaskan konteks untuk studi ini
dan latar belakang teoritis yang relevan. Bagian 3 melaporkan temuan pada validitas peringkat
inspeksi. Bagian 4 menjabarkan strategi empiris yang digunakan untuk mengevaluasi efek dari
inspeksi gagal pada nilai tes siswa. Bagian ini juga menjelaskan metode empiris digunakan untuk
menguji perilaku strategis oleh guru dalam menanggapi Peringkat gagal. Bagian 5 laporan hasil
dan bagian 6 menyimpulkan.

2. Kelembagaan Konteks dan Latar Belakang Teoritis
2.1 Kelembagaan Konteks
Meskipun tidak ada bebas masuk atau keluar dari sekolah, sistem pendidikan Inggris
telah tetap mengadopsi beberapa pasar seperti elemen penting. Secara khusus, ada unsur pilihan
sekolah dan anggaran sekolah terkait dengan tingkat partisipasi. Setiap sekolah memiliki dewan
sendiri yang mengatur, yang terdiri dari gubernur orangtua dan perwakilan dari otoritas setempat
serta masyarakat setempat. Sekolah mengelola anggaran mereka sendiri dan dewan sekolah yang
mengatur bertanggung jawab untuk mempekerjakan kepala sekolah serta penilaian dan
menetapkan gajinya secara tahunan. Ada kurikulum nasional di tempat dan pengujian siswa
terjadi pada usia 7, 11, 14, 16 dan 18. Nilai ujian diterbitkan dalam bentuk tabel liga sekolah.
Sejak awal 1990-an semua English publik (negara) sekolah telah diperiksa oleh Kantor
Standar dalam Pendidikan, atau Ofsted, lembaga pemerintah independen. Sebagaimana dicatat
oleh Johnson (2004) Ofsted memiliki tiga fungsi utama: (i) menawarkan umpan balik dan saran
kepada kepala sekolah dan guru, (ii) memberikan informasi kepada orang tua dan 'calon' orang
tua murid untuk membantu proses pengambilan keputusan mereka, dan (iii) mengidentifikasi
sekolah yang menderita 'kelemahan serius'.
Rezim pemeriksaan telah berkembang sejak awal pertama dan untuk sekolah dasar, ada
tiga siklus inspeksi penuh sejak tahun 1995, setiap siklus yang berlangsung antara empat dan
enam tahun. Sekolah biasanya diperiksa sekali dalam setiap siklus. Meskipun kategori grading
dan aturan pengungkapan publik sebagian besar tetap tidak berubah selama periode ini, kerangka
inspeksi, atau seperangkat aturan yang digunakan untuk sekolah-sekolah kelas, telah berkembang
dari waktu ke waktu. Yang paling penting untuk penelitian ini, sampai dengan Juli 2006 sekolah
telah berminggu-minggu, kadang-kadang berbulan-bulan, pemberitahuan dari tanggal yang tepat
dari pemeriksaan. Dari September 2006 periode pemberitahuan secara drastis dipotong,
maksimal tiga hari dan minimal nol pemberitahuan, di mana inspektur kasus tiba di sekolah
tanpa pemberitahuan.
Latihan Peringkat Ofsted dapat dipandang sebagai suatu proses dua tahap. Pada tahap
pertama, inspektur membentuk sebelumnya tentang sekolah 'keras' dasar oh data ', yaitu nilai tes,
dikombinasikan dengan karakteristik latar belakang yang digunakan untuk mencocokkan sekolah
dengan peer group-nya.
Tahap kedua melibatkan kunjungan ke sekolah, biasanya dengan dua atau lebih inspektur
berlangsung satu atau dua hari. Selama kunjungan ini inspektur mengumpulkan bukti kualitatif
pada kinerja dan praktek di sekolah. Hal ini dapat dilihat sebagai upaya untuk mengungkap
heterogenitas teramati, yang dapat membantu menjelaskan mengapa sekolah kurang atau lebih -
melakukan relatif terhadap peer group-nya sekolah. Pedoman untuk inspektur menetapkan
bahwa 'Setidaknya dua pertiga dari waktu yang diajarkan di sekolah harus digunakan untuk
pengamatan langsung belajar dan mengajar, pemeriksaan murid, penilaian kerja dan catatan, dan
diskusi dengan murid' (Ofsted, 2003, pasal 4 ). Inspektur menghabiskan sebagian besar waktu
mereka di sekolah pada pengamatan pelajaran, sehingga sebagian besar guru di sebuah sekolah
dasar yang diamati, dan dinilai, setidaknya sekali. Peringkat individu guru tidak diungkapkan ke
sekolah, meskipun skor agregat. Bukti yang dikumpulkan oleh inspektur selama kunjungan
mereka serta data uji kinerja membentuk dasar bukti untuk laporan masing-masing sekolah, yang
dirilis segera setelah pemeriksaan. Laporan inspeksi masing-masing sekolah dapat didownload
dari internet.
Unsur sanksi rezim berasal dari kekuatan hukum otoritas pendidikan lokal untuk
menunjuk dewan sekolah baru yang mengatur jika sekolah tersebut dianggap gagal oleh Ofsted.
Pada gilirannya, dewan pemerintahan dapat menghapus kepala sekolah. Gagal sekolah juga
dikenakan untuk mengulang inspeksi dan pengawasan yang lebih besar. Tidak ada hadiah
langsung untuk baik atau luar biasa melaporkan kelas.
Perlu dicatat bahwa pemeriksaan sistem seperti, Inggris satu meskipun tanpa unsur
hukuman nya, telah berada di tempat di Selandia Baru dan Belanda untuk beberapa waktu.
Swedia juga baru-baru mengadopsi inspeksi sekolah. Grubb (2000) mencatat kantong kecil
eksperimen dengan sistem seperti di Amerika Serikat.

2.2 Latar Belakang Teoritis
[Untuk melengkapi]

3. Bukti pada Validitas Ratings Inspeksi
Bagian ini mengkaji apakah peringkat inspeksi menyampaikan informasi tentang kualitas
sekolah di luar itu yang sudah ditangkap oleh, misalnya, skor tes peringkat. Pertanyaan penting
adalah apakah inspektur mengunjungi sekolah mampu mengumpulkan dan meringkas informasi
tentang kualitas sekolah dasar yang belum tersedia di ruang publik.
Dalam analisis di bawah ukuran kualitas sekolah dasar dibangun dari siswa (umur 14)
tanggapan survei terhadap pertanyaan tentang perilaku guru dan praktek. Data ini berasal dari
Survei Longitudinal Orang Muda di Inggris (LSYPE), sebuah survei utama didukung oleh
Departemen Pendidikan. (Lampiran 1 memberikan rincian survei dan hasil lebih lanjut untuk
pertanyaan survei yang berkaitan dengan disiplin sekolah serta kepuasan orangtua) Survei
meminta enam pertanyaan berikut tentang bagaimana guru kemungkinan adalah untuk:
mengambil tindakan ketika seorang siswa melanggar aturan, membuat siswa bekerja untuk
kapasitas penuh mereka, menjaga ketertiban di kelas; PR set , periksa bahwa setiap pekerjaan
rumah yang diatur dilakukan, dan pekerjaan mark siswa.
Sebuah skor mahasiswa tingkat komposit dihitung dengan mengambil rata-rata dari
tanggapan terhadap enam pertanyaan (lihat Lampiran 1 untuk informasi lebih lanjut). Ini berarti
siswa-tingkat tersebut kemudian diubah menjadi z-skor dengan normalisasi mereka berarti satu
deviasi nol dan standar. Uji validitas dilakukan dengan kemunduran komposit z-skor, q, pada
peringkat pemeriksaan serta sekolah lainnya dan karakteristik keluarga responden background:
q
js
= a.Rating
s
+ bX
js
+ u
ijs

j menunjukkan responden survei individu (unit observasi) di sekolah s. X
JS
menangkap sekolah
dan siswa-tingkat variabel. Sekolah-variabel tingkat termasuk schools nasional rank test
persentil dan proporsi siswa yang layak untuk makan siang gratis. 'Penilaian' adalah Peringkat
inspeksi sekolah.
Masalah kunci di sini adalah apakah peringkat inspeksi berkorelasi dengan ukuran yang
mendasari kualitas sekolah tidak diamati oleh inspektur, tergantung pada karakteristik sekolah
yang diamati seperti tes peringkat, proporsi siswa yang menerima makan siang gratis, apakah
sekolah itu sekuler atau agama, seperti serta karakteristik survei latar belakang responden. Para
peringkat inspeksi kemudian dikatakan valid jika koefisien pada variabel Peringkat inspeksi,
sebuah, tetap statistik signigicant dan ekonomis bermakna dalam regresi 'panjang' (1). Perhatikan
bahwa parameter ini hanya menangkap hubungan antara rating inspeksi dan ukuran 'kualitas'
(praktek guru), q, ia tidak memperkirakan efek kausal.
Salah satu cara untuk melihat tes ini adalah sebagai berikut. 'Insider' pandangan sekolah
dari saham saat siswa (dan orang tua mereka) berpotensi memberikan informasi yang berguna
kepada orang tua yang terlibat dalam memilih di antara sekolah-sekolah. Seperti Heckman telah
dicatat dari sekolah umum di Amerika Serikat:
"Salah satu sumber informasi yang berharga - orang tua dan persepsi siswa
terhadap kualitas guru dan sekolah - jarang digunakan untuk menghukum
pengajaran yang buruk" (Heckman, 2000, hal 24.).
Umpan balik informasi tersebut dari konsumen biasanya tidak diamati di sektor publik.
Namun, jika peringkat pemeriksaan dapat digunakan untuk meramalkan persepsi mahasiswa
kualitas pengajaran maka orangtua saat ini terlibat dalam sekolah memilih dapat menempatkan
berat badan pada peringkat ketika membuat keputusan mereka.

Hasil
Meskipun fokus utama dari analisis di sini adalah hubungan antara langkah-langkah
survey sekolah kualitas dan peringkat pemeriksaan, hal ini berguna untuk pertama menyelidiki
hubungan antara survei z-skor dan rank test sekolah. Hal ini kemudian akan memberikan analis
(atau orangtua) patokan yang digunakan untuk menilai hubungan antara survei z-skor dan
peringkat inspeksi. Kolom 1 dari Tabel 1 menunjukkan bahwa ada hubungan yang kuat dan
signifikan secara statistik antara praktek guru seperti yang dilaporkan oleh siswa dan peringkat
uji sekolah: kenaikan dari 50 peringkat persentil nasional berkaitan dengan 0,32 (50 x 0,0064)
dari peningkatan standar deviasi di guru praktek skor komposit.
Sekarang kita beralih ke masalah utama kepentingan, kolom 3 Panel A menunjukkan
hubungan tanpa syarat antara praktek guru z-skor dan rating inspeksi setelah survei itu diberikan.
Hasilnya menunjukkan bahwa setiap penurunan kinerja unit pada rating pemeriksaan dikaitkan
dengan 0,22 dari penurunan standar deviasi dalam praktek guru z-score. Dengan demikian,
kesenjangan dalam praktek guru z-skor antara Istimewa (Grade 1) dan Fail a (Kelas 4) sekolah
adalah sekitar 0,7 dari standar deviasi. Jika kita mengambil hasil untuk peringkat uji (kolom 1)
sebagai patokan maka ini adalah jelas efek yang besar.
Mengontrol untuk peringkat uji dan proporsi siswa yang menerima makanan sekolah
gratis dalam kolom 4 mengarah pada penurunan 40% dalam pergaulan antara Peringkat inspeksi
dan guru
praktek z-skor, tapi secara relatif, perkiraan tetap besar, dan sangat signiffcant. (Juga
termasuk sebagai kontrol pada kolom 4 adalah ukuran sekolah dan jenis sekolah serta efek
otoritas pendidikan lokal tetap.) Ada dua kritik potensial untuk latihan ini. Pertama, mungkin ada
kekhawatiran bahwa siswa dari latar belakang sosial ekonomi yang berbeda menanggapi
pertanyaan-pertanyaan survei dengan cara yang berbeda sistematis, bahkan jika praktek guru
yang mendasari adalah sama. Misalnya, siswa dari latar belakang miskin atau mereka nilai
rendah mencetak gol pada tes sebelumnya mungkin memiliki lebih opini negatif atau positif
tentang guru dari siswa berkinerja lebih kaya atau lebih baik. Ada maka kemungkinan bahwa
hubungan antara peringkat inspeksi dan survei z-skor adalah artefak semacam ini bias dalam
menanggapi pertanyaan-pertanyaan survei. Kolom 5 meliputi kontrol rinci tentang latar belakang
studentsfamily dan skor tes sebelumnya. Hal ini menyebabkan penurunan kecil dalam ukuran
absolut dari koefisien pada peringkat inspeksi, yang tetap statistik signifikan pada tingkat 1
persen.
Sebuah kritik potensial kedua adalah bahwa respon survei siswa dapat dipengaruhi oleh
peringkat inspeksi masa lalu. Jika peringkat pemeriksaan sebuah sekolah berkorelasi dari waktu
ke waktu maka efek dari peringkat inspeksi setelah wawancara survei ditunjukkan pada Tabel 1
hanya dapat menangkap efek inspeksi masa lalu pada pandangan responden. Dalam rangka untuk
menyelidiki kemungkinan bahwa mekanisme ini adalah mendorong hasil, kolom 6 termasuk
kontrol tambahan untuk peringkat pemeriksaan sebelum tahun wawancara siswa, 2003/04. Hasil
menunjukkan bahwa efek termasuk dummies untuk peringkat pemeriksaan terbaru sebelum
wawancara hanya memiliki efek kecil pada efek perkiraan. Hasil dalam kolom 6 dengan set
lengkap kontrol menunjukkan bahwa peringkat inspeksi buruk terkait dengan kualitas sekolah
menurun tajam yang diukur dengan laporan mahasiswa praktek guru. Kekuatan gradien ini dapat
diukur dengan membandingkan penurunan kualitas yang berhubungan dengan penurunan
peringkat pengujian: hasil menunjukkan bahwa 50 titik penurunan persentil dalam peringkat tes
sekolah dikaitkan dengan penurunan 0,15 (0,0029 x 50) dari satu standar penyimpangan dalam
praktik guru z-score. Bandingkan ini dengan penurunan unit satu di Peringkat pemeriksaan: ini
dikaitkan dengan penurunan 0,10 dari satu standar deviasi dalam praktek guru z-score.
Akhirnya, dengan memasukkan dummies inspeksi, kolom 7 menyelidiki apakah asumsi
linearitas tersirat dalam model-model sebelumnya dibenarkan. Hasil dalam kolom 7
menunjukkan adanya hubungan antara praktek cekung guru dan peringkat inspeksi: kesenjangan
yang terbesar ketika kita pindah dari sekolah kelas 1 (kategori dihilangkan) ke kelas 2, itu adalah
terkecil antara kelas 3 dan kelas 4 (Gagal) sekolah . Hal ini patut dicatat dalam bahwa hal itu
menunjukkan bahwa pada ukuran ini setidaknya, ada sejumlah besar sekolah (kelas 3) yang tidak
jauh berbeda dari sekolah Fail langsung.
Lampiran 1 mengulangi analisis di atas untuk mahasiswa tingkat berarti z-skor untuk tiga
pertanyaan sekolah murid-pline (berkaitan dengan gangguan kelas dan perilaku dan disiplin
keseluruhan di sekolah) dan lima pertanyaan kepuasan orangtua (yang berkaitan dengan guru
menunjukkan minat pada anak , disiplin sekolah, umpan balik dari sekolah dan kepuasan secara
keseluruhan dalam kemajuan sekolah childs). Hasil untuk hasil ini sangat mirip dengan yang
dilaporkan untuk hasil guru praktek pada Tabel 1: hubungan antara peringkat inspeksi dan siswa-
dan orangtua-melaporkan kualitas sekolah (disiplin) hasil yang kuat.
Singkatnya, analisis ini menunjukkan bahwa peringkat inspeksi dapat membantu
mendeteksi praktek guru yang baik dan miskin (atau kepuasan orangtua yang tinggi dan rendah
seperti yang dilaporkan dalam Lampiran 1) antara sekolah dengan
peringkat pengujian yang sama dan komposisi sosial ekonomi siswa. Hasil di atas
memberikan gambaran yang sangat konsisten di semua siswa dan orangtua langkah-langkah:
peringkat pemeriksaan memang menyampaikan informasi tentang kualitas sekolah atas dan di
atas yang sudah terkandung dalam informasi publik yang tersedia seperti skor tes, jenis sekolah,
proporsi siswa memenuhi syarat untuk makan siang gratis, dll Selain itu, hasil regresi yang
terpisah (tidak direproduksi di sini) untuk masing-masing item yang membentuk skor komposit
juga menunjukkan kesimpulan yang sama. Sebagai contoh, masing-masing dari enam item yang
membentuk guru praktek menunjukkan nilai komposit bahwa hubungan dengan penilaian
pemeriksaan adalah negatif dan signifikan secara statistik. Yaitu, rating inspeksi yang lebih baik
dikaitkan dengan praktik guru yang lebih baik pada masing-masing enam langkah yang
mendasarinya. Ini berarti bahwa tergantung pada sekolah diamati dan karakteristik siswa, siswa
di sekolah nilai yang lebih tinggi mengalami suatu lingkungan di mana guru lebih mungkin
untuk: mengambil tindakan saat istirahat siswa aturan, membuat siswa bekerja untuk kapasitas
penuh mereka, menjaga ketertiban di kelas, PR set; memeriksa bahwa setiap pekerjaan rumah
yang diatur dilakukan, dan pekerjaan mark siswa.

4. Pengaruh dari Inspeksi Fail pada Skor Tes: empiris strategi
Pertanyaan utama dibahas di sini adalah: Apa efek dari inspeksi gagal pada skor
berikutnya siswa 'test? Sebuah analisis menggunakan sebelum dan sesudah-data yang gagal skor
tes untuk panel sekolah sangat mungkin mengacaukan efek dari rating gagal dengan reverting
berarti perilaku skor tes. Misalnya, jika inspektur tidak sepenuhnya mampu menjelaskan
guncangan negatif istimewa terkait dengan kualitas sekolah yang sebenarnya, maka hasil skor tes
miskin satu atau dua tahun sebelum pemeriksaan dapat menyebabkan gagal. Perhatian adalah
bahwa setiap kenaikan nilai tes setelah inspeksi sebenarnya akan terjadi bahkan dalam adanya
Peringkat gagal.
Penelitian ini memanfaatkan fitur desain sistem pengujian Bahasa Inggris untuk
mengatasi masalah tersebut. Tes usia-11 'Kunci Tahap 2' - diberikan di tingkat nasional dan
papan sentral pada siswa dan penilaian sekolah - berlangsung selama lima hari pada minggu
kedua bulan Mei setiap tahun. Hasil dari uji tersebut kemudian dirilis pada pertengahan Juli.
Jendela singkat antara Mei dan Juli memungkinkan saya untuk mengatasi masalah pengembalian
rata-rata: sekolah gagal pada bulan Juni yang gagal setelah tes di Mei tapi sebelum inspektur
mengetahui hasil tes. Jadi Mei menguji hasil bagi sekolah-sekolah tidak terpengaruh oleh gagal
berikutnya, tapi juga tidak inspektur memilih mereka untuk kegagalan atas dasar hasil ini. (Lihat
Gambar 2 untuk garis waktu contoh untuk tahun 2005/06.)
<Gambar 2 di sini>
Wawasan ini memungkinkan saya untuk mengidentifikasi perkiraan kausal kredibel dari
efek jangka pendek dari inspeksi gagal. Secara khusus, dan mengambil tahun 2005/06 sebagai
contoh lagi, pertanyaan dibenahi adalah: untuk sekolah gagal pada bulan September 2005, apa
efek dari pemeriksaan gagal pada Mei 2006 nilai tes?
Evaluasi dilakukan dengan membandingkan hasil untuk sekolah diperiksa di awal tahun
ajaran, September - kelompok perlakuan - dengan sekolah diperiksa pada bulan Juni, kelompok
kontrol. Sekolah gagal pada bulan September telah hampir satu tahun akademik keseluruhan
untuk merespon pengobatan gagal. Identifikasi masalah, bahwa hasil kontrafaktual bagi sekolah
yang gagal pada bulan September tidak diamati, diselesaikan melalui perbandingan dengan Juni
gagal sekolah. Rincian perbandingan ini dijelaskan di bawah ini.
Sebuah pertanyaan kunci adalah mengapa beberapa sekolah diperiksa awal tahun dari
yang lain. Analisis deskriptif pada Tabel 1 membantu menjelaskan pertanyaan ini.

Deskriptif Statistik
Tabel 2 menunjukkan karakteristik berarti untuk sekolah diperiksa dan gagal dalam
empat tahun 2005/06 sampai 2008/09. Untuk setiap tahun dua kolom pertama menunjukkan
sarana untuk sekolah gagal di awal tahun akademik (September hingga November) dan mereka
gagal di akhir tahun (dari pertengahan Mei, setelah tes Key Stage 2, sampai pertengahan Juli,
sebelum rilis hasil skor tes). Kategori mantan sekolah adalah 'perlakuan' kelompok dan yang
terakhir 'kontrol' kelompok. Baris pertama hanya menunjukkan rata-rata bulan pemeriksaan.
Mengingat aturan seleksi untuk analisis, ini hanyalah Juni (antara 6.1 dan 6.2) dan Oktober
(antara 10.1 dan 10.2) untuk kontrol dan kelompok perlakuan.
Baris kedua, yang menunjukkan tahun pemeriksaan sebelumnya, yang mengungkapkan,
dalam hal ini menawarkan penjelasan mengapa beberapa sekolah mungkin diperiksa di awal
tahun dan lain-lain di kemudian hari. Kolom gagal 2005/06, yang khas dari semua empat tahun
gagal, menunjukkan bahwa tahun rata-rata inspeksi untuk sekolah diperiksa terlambat adalah
2000,6, karena sekolah diperiksa awal itu adalah 2000.1. Hal ini menunjukkan bahwa sekolah
diperiksa sedikit lebih awal di babak inspeksi sebelumnya juga diperiksa sedikit lebih awal pada
tahun 2005/06. Lampiran Tabel A2 menunjukkan bahwa secara umum inspektur muncul untuk
mengikuti aturan mekanik berkaitan dengan waktu inspeksi - sekolah yang diperiksa di awal
babak pemeriksaan pertama pada pertengahan 1990-an yang diperiksa di awal putaran
pemeriksaan berikutnya. Tabel 2 menunjukkan bahwa untuk gagal sekolah, dalam tahun tertentu,
bulan pemeriksaan tampaknya ditentukan oleh waktu pemeriksaan sebelumnya.
Baris ketiga dan keempat melaporkan proporsi siswa yang menerima makanan sekolah
gratis (makan siang) dan proporsi siswa yang British putih pada perlakuan dan kontrol sekolah,
masing-masing. Di seberang masing-masing empat tahun pemeriksaan perbedaan berarti antara
kedua kelompok tampak kecil dan secara statistik tidak signifikan. Demikian pula, tidak ada
perbedaan statistik signiffcant antara sekolah diperiksa awal dan akhir dalam rating pemeriksaan
sebelumnya, kecuali untuk tahun 2008/09.
Akhirnya, nilai ujian nasional standar untuk kelompok dari 11-tahun pada tahun sebelum
pemeriksaan dilaporkan dalam baris enam dan tujuh. Sekali lagi, ini menunjukkan tidak ada
bukti statistic perbedaan yang signifikan antara kedua kelompok. Perlu dicatat bahwa ini set
sekolah gagal tampil antara 0,4 dan 0,5 dari satu standar deviasi di bawah rata-rata nasional.
Singkatnya, bukti dalam Tabel 2 bahwa ada sedikit perbedaan antara sekolah kontrol dan
perlakuan pada karakteristik diamati dikombinasikan dengan fakta bahwa waktu ditentukan oleh
aturan mekanik menunjukkan bahwa ada perbedaan mungkin tidak teramati antara sekolah
kontrol dan perlakuan. Jadi itu akan muncul bahwa ketika membandingkan sekolah gagal awal
dan akhir dalam setahun, pengobatan sebagus acak.

OLS dan Perbedaan-in-Perbedaan Model
Untuk memudahkan penjelasan, saya akan mempertimbangkan kasus sekolah gagal
dalam tahun 2005/06 di bulan September dan Juni. Analisis meluas ke sekolah-sekolah yang
gagal di bagian awal tahun (September hingga November) dibandingkan dengan mereka gagal di
akhir tahun (pertengahan Mei hingga pertengahan Juli) di masing-masing tahun pemeriksaan
empat dianalisis. Pertama, mendefinisikan dummy pengobatan, D
s
= 1 jika sekolah s gagal pada
bulan September 2005 dan D
s
= 0 jika sekolah tersebut gagal di Juni 2006. Untuk mahasiswa i
pada masing-masing dua kelompok sekolah dua hasil potensial untuk skor 2.006 tes Mei standar
diberikan sebagai berikut:
Y
0
is,06
= o + u
is
,
y
1
is,06
= o + o
i
+ u
is
mana Y
0
is,06
adalah hasilnya jika sekolah tersebut tidak gagal pada bulan September 2005 dan
y
1
is,06
adalah hasilnya jika sekolah tersebut gagal pada bulan September 2005. Untuk siswa
sekolah menghadiri gagal pada bulan September 2005 hasil kontrafaktual, Y
0
is,06
, tidak diamati.
o
i
adalah gain siswa-spesifik dari pengobatan. Peran variabel pengkondisian dalam analisis ini
dibahas dalam bagian 4.1 di bawah ini. Realisasi hasil kemudian dapat dinyatakan sebagai
berikut:
y
is,06
= (1 - D
s
)y
0
is,06
+ D
s
y
1
is,06

= o + o
i
D
s
+ u
is
.
Mengingat bukti pada tugas sampai September dibandingkan inspeksi Juni disajikan dalam sub-
bagian sebelumnya, kita dipercaya bisa membantah bahwa pengobatan Status D
s
yang
berkorelasi dengan baik u
is
sisa dan keuntungan murid-spesifik o
i
. Dengan demikian,
perbandingan sarana untuk hasil pengobatan dan kontrol menghasilkan parameter bunga, efek
pengobatan rata-rata pada (ATT) diobati, E(y
1
is,06
- y
0
is,06
, D
s
= 1) = E(o
i
, D
s
= 1). Ini efek dari
rating inspeksi gagal untuk hakim pengawas sekolah yang akan gagal.
Di bawah ini, hasilnya juga disajikan dengan menggunakan perbedaan-dalam-perbedaan
(DID) model. Bukti pada Tabel 2 menunjukkan bahwa meskipun tidak ada perbedaan signifikan
secara statistik dalam tingkat hasil skor tes sebelumnya dan karakteristik sekolah lainnya di
seluruh kelompok kontrol dan perlakuan, perbedaan kecil tetap. Perbedaan-perbedaan kecil dapat
menyebabkan perkiraan bias dari perbandingan sederhana pasca-hasil pengobatan, terutama jika
keuntungan dari pengobatan juga kecil. Pendekatan DID kemudian dapat dilihat sebagai cek
ketahanan. Hal ini dilaksanakan sebagai berikut. Melanjutkan contoh sekolah yang gagal pada
tahun 2005/06, data diambil dari dua periode untuk DID analisis, bentuk 2004/05 ('pra' tahun)
dan 2005/06 ('post' tahun). Dalam skor Model DID menyadari tes ditentukan sebagai berikut:
y
ist
= + post
06
+ o
i
D
st
+
s
+ u
ist

dimana t = 2005 atau 2006, post
06
merupakan indikator dummy, dinyalakan saat t = 2006; Dst
sekarang waktu-bervariasi boneka pengobatan, diaktifkan pada tahun 2006 untuk sekolah
diperiksa pada bulan September (yaitu interaksi antara post
06
dan boneka menunjukkan awal
inspeksi, D
s
); dan
s
adalah efek sekolah tetap. o
i
adalah gain siswa-spesifik dari pengobatan.
Asumsi DID, yang mewujudkan asumsi tren umum di perlakuan dan kelompok kontrol, adalah
bahwa tergantung pada efek sekolah tetap (
s
) dan tahun (post
06
) pengobatan D
st
dummy
berkorelasi dengan sisa, yaitu E(u
is
t ,
s
, post
06
, D
st
) = 0. Versi regresi perkiraan Model DID E(o
i

, D
s
= 1), yang merupakan ATT.
Pada dasarnya, efek dari inspeksi gagal yang ditemukan dengan membandingkan
perubahan dalam skor antara Mei 2005 dan Mei 2006 tes untuk sekolah diperiksa di awal tahun
akademik (September-tember 2005) dibandingkan dengan mereka diperiksa di akhir tahun (Juni
2006). Asumsi utama adalah bahwa setiap rebound dalam skor tes yang akan terjadi tanpa
adanya inspeksi gagal untuk September gagal sekolah ditangkap oleh perubahan diamati untuk
Juni gagal sekolah (diwakili oleh koefisien pada boneka post
06
dalam model regresi (3)).
Perbedaan kinerja antara dua kelompok sekolah menghasilkan efek pengobatan. Satu sebelum
akan bahwa beberapa dari penurunan nilai tes diamati pada tahun 2004/05 adalah sementara,
sehingga kita akan mengharapkan beberapa pengembalian rata-rata nilai tes. Dalam hal ini
strategi sekolah efek sederhana tetap akan melebih-lebihkan efek dari inspeksi gagal. Dalam
setup DID kita harapkan koefisien positif pada dummy post
06
dan karenanya efek diperkirakan
lebih rendah dari pengobatan bila dibandingkan dengan efek yang tersirat oleh pendekatan efek
sederhana tetap.

4.1 Pengujian untuk Perilaku Strategis
Sebuah bukti-bukti telah menunjukkan bahwa ketika sekolah menghadapi insentif yang
kuat untuk melakukan pada hasil tes mereka mungkin mencoba untuk permainan sistem. Bukti
dari jenis berikut respon strategis telah didokumentasikan. Pertama, studi menunjukkan bahwa di
bawah pengujian berbasis guru akuntabilitas sistem dapat menghapus kemampuan siswa rendah
dari kolam pengujian, misalnya dengan menangguhkan mereka selama periode pengujian atau
reklasifikasi mereka sebagai kebutuhan khusus (Yakub 2005, Figlio 2006, Figlio dan Getzler
2006, Cullen dan reback 2006). Kedua, guru bisa 'mengajar untuk menguji,' sehingga kenaikan
nilai tes taruhannya rendah signifikan lebih rendah dibandingkan direkam untuk tes taruhan
tinggi [ref???]. Ketiga, ketika sekolah yang dinilai berdasarkan jumlah siswa mencapai tingkat
kemahiran yang diberikan telah menunjukkan bahwa guru menargetkan siswa dekat dengan
ambang batas kemampuan (lihat, misalnya, Burgess et al 2005, reback 2008 dan Neal dan
Schanzenbach 2010). Keempat, mungkin ada kecurangan langsung oleh guru (Jacob dan Levitt
2003).
Dalam analisis di bawah ini, saya menguji kehadiran tiga pertama jenis respon strategis.
Pertama, saya meneliti sejauh mana keuntungan dalam nilai tes setelah gagal Peringkat dicatat
untuk secara selektif menghilangkan kemampuan siswa rendah. Ini melibatkan memeriksa
apakah efek diperkirakan pengobatan di OLS dan regresi DID (Dalam persamaan (2) dan (3) di
atas) perubahan dengan masuknya karakteristik siswa seperti skor tes sebelumnya, pendidikan
kebutuhan khusus status, status makan siang gratis dan latar belakang etnis. Sebagai contoh,
anggaplah bahwa dalam rangka meningkatkan kinerja pengujian gagal sekolah merespon dengan
menghapus kemampuan siswa rendah dari kolam uji. Hal ini berpotensi akan menghasilkan
perbaikan besar dalam baku nilai ujian untuk sekolah diperlakukan relatif terhadap sekolah-
sekolah kontrol. Namun, pengkondisian pada skor tes sebelum kemudian akan mengungkapkan
bahwa keuntungan yang jauh lebih kecil atau tidak ada. Tes ini memungkinkan saya untuk secara
langsung mengukur dampak dari perilaku game pada hasil tes. [Kedua, - menengah-efek jangka -
apakah guru mendorong pembelajaran yang nyata dalam menanggapi rating gagal, atau hanya
jangka pendek ujian keterampilan?]
Ketiga, saya menganalisis konsekuensi distribusi dari inspeksi gagal. Secara khusus, saya
menyelidiki apakah ada bukti bahwa guru menargetkan siswa pada margin mencapai target
pemerintah kunci untuk Tahun 6 (umur 11) siswa. Di atas disebutkan bahwa persentase siswa
mencapai kemahiran 'Level 4' pada tes usia 11 Key Stage 2 merupakan ukuran kunci kinerja
yang digunakan oleh pemerintah. Itu juga merupakan sekolah judul mengukur kinerja dan
karenanya umumnya digunakan untuk sekolah peringkat. Kami kemudian mungkin
mengharapkan guru dan sekolah untuk menargetkan sumber daya terhadap siswa pada margin
mencapai batas ini, sehingga merugikan siswa jauh di bawah dan jauh di atas tingkat kritis.
Sejumlah strategi yang diadopsi untuk mengeksplorasi masalah ini. Dalam pendekatan
pertama saya menguji apakah keuntungan dalam nilai tes siswa berbeda-beda berdasarkan
kemampuan sebelumnya. Sebelum kemampuan memprediksi kemungkinan seorang mahasiswa
mencapai ambang batas kinerja. Bukti sebelumnya telah menunjukkan bahwa guru dapat
mengabaikan siswa di bagian bawah distribusi kemampuan dalam menanggapi sebelum
pengenalan batas kinerja (lihat Neal dan Schanzenbach, 2010).
Dalam pengaturan saat ini, harapan resmi bagi siswa untuk mencapai 'Tingkat 4' pada tes
tahun-6 Key Stage 2. Tabel 3 menunjukkan distribusi Tahun 6 siswa mencapai target ini untuk
matematika dan Bahasa Inggris di sekolah gagal, pada tahun sebelumnya gagal, dengan kuartil
kemampuan sebelumnya. Kemampuan Sebelum diukur pada usia tujuh nilai tes. Seperti yang
harus diharapkan, Tabel 3 menunjukkan bahwa kemampuan pada usia tujuh adalah prediktor
kuat apakah siswa mencapai target resmi: proporsi melakukannya naik dari antara seperempat
dan yang ketiga untuk bagian bawah kuartil hampir 100 persen di atas kuartil kemampuan
sebelumnya. Seperti baris terakhir dari Tabel 3 menunjukkan, pada tahun sebelum pemeriksaan
gagal rata-rata jumlah siswa yang mencapai Level 4 threshold adalah 67 dan 72 persen untuk
matematika dan bahasa Inggris, masing-masing. Salah satu implikasi dari bukti yang disajikan
dalam Tabel 2 adalah bahwa siswa dalam kuartil terendah kemampuan adalah yang paling
mungkin untuk mencapai ambang resmi, sehingga guru dapat menggantikan usaha jauh dari
mereka terhadap siswa di kuartil kedua. Analisis bawah menguji prediksi ini.
Pendekatan kedua untuk menganalisis apakah guru selektif target usaha terhadap siswa
pada margin mencapai ambang mandat adalah untuk menyelidiki efek distribusional dari rating
gagal dalam kuartil kemampuan sebelumnya. Sebagai contoh, jika guru atau siswa set track
dalam atau di antara ruang kelas dengan kemampuan, maka mereka dapat menargetkan siswa
dalam kelompok-kelompok marjinal kemampuan.
Gambar 3 menggambarkan ide ini. Misalkan nilai tes pada tahun sebelum inspeksi gagal
didistribusikan seperti dalam contoh bergaya. Angka tersebut menunjukkan distribusi dari nilai
ujian untuk masing-masing dari empat kuartil kemampuan sebelumnya, serta proporsi siswa
yang lulus ambang batas kemampuan resmi, 'T0'. Sebagai ilustrasi, misalkan 20 persen dari
siswa dari kemampuan kuartil bawah mencapai; 50, 75 dan 90 persen melakukannya di kuartil
kedua, ketiga dan atas, masing-masing. Setelah inspeksi gagal insentif untuk memaksimalkan
siswa lulus melewati ambang pintu mungkin lebih kuat daripada sebelum Peringkat gagal. Jika
sekolah mampu permainan sistem (misalnya, jika inspektur tidak dapat mendeteksi perilaku
strategis seperti) maka mereka dapat menargetkan siswa pada margin mencapai tingkat
kemahiran. Misalkan bahwa distribusi skor tes potensi serupa pada tahun pemeriksaan seperti di
tahun sebelumnya, sehingga 2 Gambar juga menggambarkan nilai tes potensi siswa pada tahun
pemeriksaan. Kemudian jika guru mampu mendeteksi mahasiswa marjinal, mereka dapat
mengalokasikan upaya yang lebih besar terhadap siswa yang terletak pada batas dari daerah yang
diarsir pada masing-masing empat grafik pada Gambar 1.
Analisis bawah tes untuk perilaku guru tersebut dengan memeriksa efek dari perawatan di
quantiles tertentu dari distribusi skor tes. Dengan demikian, efek pengobatan kuantil
diperkirakan untuk menetapkan apakah atau tidak keuntungan terbesar adalah sekitar batas
ambang kinerja, seperti yang diperkirakan oleh teori sederhana.

5. Hasil
5.1 Dasar Hasil
Tabel 4 menunjukkan hasil dengan dampak dari inspeksi gagal pada matematika dan nilai
tes bahasa Inggris untuk sekolah gagal dalam salah satu dari empat tahun akademik 2006 sampai
2009. Panel melaporkan hasil dari model OLS dan panel laporan hasil dari model perbedaan-in-
perbedaan atas bawah. Untuk memudahkan presentasi, empat tahun inspeksi dikumpulkan
bersama-sama. Model OLS diperkirakan adalah sebagai berikut:

Pooling selama empat tahun dibenarkan karena, pertama, waktu inspeksi secara
sewenang-wenang ditentukan dan, kedua, selama empat tahun sekolah diperiksa dan dinilai
secara konsisten. Bukti yang disajikan pada Tabel 2 menunjukkan bahwa sekolah memang
sebanding di tahun-tahun yang berbeda. Sebagai cek ketahanan, hasil dari analisis regresi yang
dilakukan untuk setiap tahun secara terpisah juga dilaporkan (dalam Tabel Lampiran A2 dan
A3). Seperti yang akan terlihat, menunjukkan bahwa hasil ini untuk sampel dikumpulkan selama
bertahun-tahun dan individu menghasilkan gambaran yang konsisten tentang efek dari inspeksi
gagal.
Beralih pertama untuk nilai tes matematika, 'Fail awal' baris di Panel A dari Tabel 4
sesuai dengan perkiraan efek pengobatan? dalam persamaan (4). Kolom (1) melaporkan 'mentah'
efek yang gagal inspeksi, yaitu tanpa kontrol. Hasil dalam kolom (1) menunjukkan bahwa efek
dari peringkat gagal adalah untuk meningkatkan nilai tes standar dengan 0,11 dari standar
deviasi. Efek ini secara statistik signifikan pada tingkat konvensional (kesalahan standar yang
berkerumun di tingkat sekolah).
Sebagaimana dijelaskan dalam bagian 4.1 di atas, efek diperkirakan dalam kolom (1)
mungkin sebagian mencerminkan perilaku menyimpang oleh guru. Jika sekolah menanggapi
pemeriksaan gagal strategis, misalnya,
dengan tidak termasuk kemampuan siswa rendah dari tes melalui suspensi, maka kita
harus melihat keuntungan relatif besar dalam kolom (1) mengurangi kemampuan kontrol sekali
sebelum diperkenalkan dalam analisis regresi. Untuk mengatasi masalah tersebut, kolom (2) dan
(3) memperkenalkan siswa-tingkat kontrol. Hasil regresi dilaporkan dalam kolom (2) meliputi
karakteristik siswa sebagai berikut: gender; kelayakan untuk makan siang gratis, kebutuhan
pendidikan khusus, bulan lahir, apakah bahasa pertama adalah bahasa Inggris, latar belakang
etnis, dan informasi sensus pada indeks lingkungan rumah kekurangan. Model dalam kolom (3)
juga mencakup skor usia tujuh (Key Stage 1) tes. Dummies untuk kovariat hilang juga
disertakan.
Kenaikan R-squared statistik seperti yang kita bergerak dari kolom (1) ke (2) dan
kemudian (3) jelas menunjukkan bahwa karakteristik latar belakang siswa dan skor tes awal
adalah prediktor kuat siswa 'test hasil. Namun, penambahan kontrol ini tampaknya memiliki
sedikit efek pada efek estimasi nilai gagal. Secara keseluruhan, bukti dalam Panel A untuk
matematika menunjukkan bahwa (i) efek dari inspeksi gagal adalah untuk meningkatkan nilai tes
dan (ii) kenaikan ini tampaknya tidak didorong oleh sekolah selektif termasuk (dengan
kemampuan, misalnya) mahasiswa dari tes.
Beralih ke perbedaan-in-perbedaan perkiraan untuk matematika dilaporkan dalam Panel
B, fitur bagus dari pendekatan ini adalah bahwa hal itu memberikan bukti langsung tentang
pentingnya pengembalian rata-rata. Untuk analisis DID 'pra' tahun sesuai dengan menguji skor
sebelum tahun pemeriksaan (skor tes yaitu dari ujian 2004/05 untuk sekolah gagal pada tahun
2005/06, 2005/06 tes untuk sekolah yang gagal pada tahun 2006/07, dll .) sedangkan 'posting'
tahun sesuai untuk menguji nilai dari tahun pemeriksaan. Perkiraan perubahan karena rata-rata
disediakan oleh perbedaan antara nilai tes pada tahun pra-inspeksi dan nilai ujian pada tahun
pemeriksaan untuk sekolah gagal di akhir tahun akademik (yaitu kelompok kontrol). Perkiraan
ini ditunjukkan dalam baris berlabel 'posting'.
Sementara itu, perkiraan DID pengaruh inspeksi gagal diidentifikasi dari keuntungan
tambahan dalam nilai tes antara dua periode untuk sekolah gagal di awal tahun ajaran (kelompok
perlakuan). Perkiraan ini disediakan di baris pertama dari Panel B, berlabel 'pasca x awal Gagal'
yang sesuai dengan D
st
boneka pengobatan dalam persamaan (3).
Hasil DID persis sejalan dengan hasil OLS: Kolom (3) dari Panel B menunjukkan bahwa
siswa di sekolah-sekolah keuntungan awal gagal oleh 0,12 dari standar deviasi relatif terhadap
siswa yang terdaftar di sekolah gagal akhir. Selain itu, membandingkan hasil dengan dan tanpa
mahasiswa tingkat kontrol - Kolom (1) versus kolom (2) dan (3) - menunjukkan bahwa ada
sedikit perubahan dalam efek diperkirakan. Hasil ini mendukung anggapan bahwa inspeksi gagal
meningkatkan nilai tes siswa dan, lebih lanjut, bahwa keuntungan tidak mungkin
dipertanggungjawabkan oleh jenis perilaku strategis yang diuraikan di atas.
Adapun bukti pengembalian rata-rata, hasil di baris kedua acara B Panel bahwa hanya
ada berarti reversi ringan untuk matematika. Dengan set lengkap kontrol, koefisien pada dummy
'posting' adalah 0,03 dari deviasi standar dan tidak signifikan secara statistik pada tingkat
konvensional. Hal ini menunjukkan bahwa dengan tidak adanya rating dari inspektur gagal, kita
harus mengharapkan sangat kecil atau bahkan nol keuntungan dalam nilai tes dari tingkat rendah
pada tahun dasar dilaporkan dalam statistik deskriptif pada Tabel 2.
Kolom (4) sampai (6) hasil laporan untuk nilai tes bahasa Inggris. The OLS Hasil dalam
kolom (6), Panel A menunjukkan bahwa efek dari inspeksi gagal adalah untuk meningkatkan
nilai tes standar sebesar 0,08 dari standar deviasi. The DID perkiraan di titik Panel B dengan
keuntungan sekitar 0,07 dari standar deviasi. Perkiraan ini secara statistik signifikan.
Sejalan dengan hasil untuk matematika, hasil untuk bahasa Inggris tidak memberikan
bukti perilaku game: meskipun daya prediksi dari kontrol besar, seperti yang ditunjukkan oleh
kenaikan R-squared statistik, ada sedikit perubahan dalam perkiraan ketika kita berpindah dari
kolom (4), tidak ada kontrol, pada kolom (6), set lengkap kontrol.
Akhirnya, bukti pengembalian rata-rata nilai ujian bahasa Inggris yang disajikan di baris
kedua dari Panel B dicatat. Kali ini ada bukti kuat dari re-terikat dalam nilai tes dari tingkat
rendah pada tahun dasar. Para koefisien pada dummy 'posting' sekarang 0,08 dari standar deviasi,
menunjukkan rebound substansial dalam nilai ujian bahkan tanpa adanya inspeksi gagal. Seperti
yang terlihat di bawah ini, ini kembali terikat pada kenyataannya sesuai dengan saus 'pra-
program diamati pada tahun sebelum pemeriksaan.

Uji pemalsuan dan 'Pra-Program Dip'
Tabel 5 menyajikan analisis dari latihan pemalsuan. Hal ini membuat penggunaan fakta
bahwa data yang tersedia di kedua tahun sebelum dan dua tahun sebelum perawatan dalam
rangka untuk melakukan studi plasebo. Pertanyaan dibenahi adalah: ketika kita membandingkan
perlakuan dan kelompok kontrol pada tahun sebelum pengobatan, kita bisa mendeteksi efek
pengobatan ketika tidak ada?
Tabel 5 kolam data selama empat tahun pemeriksaan. Para OLS memperkirakan dalam
Panel A membandingkan hasil skor tes dalam tahun sebelum pemeriksaan bagi siswa di sekolah
gagal awal dan akhir. Berfokus pada kolom (3) dan (6) dengan set lengkap kontrol, ini
menunjukkan bahwa efek perkiraan pengobatan plasebo kecil, secara statistik tidak signifikan
dan mendekati nol untuk matematika dan bahasa Inggris. Perkiraan DID di Panel B, yang
membandingkan perubahan nilai tes satu dan dua tahun sebelum pemeriksaan untuk sekolah
gagal awal dan akhir, juga menunjukkan tidak ada bukti efek plasebo, mendukung asumsi tren
umum yang mendasari strategi DID.
Tabel Lampiran A4 dan A5 menyajikan hasil pemeriksaan selama bertahun-tahun
individu. Hasil dalam dua tabel mengkonfirmasi temuan bahwa pengobatan plasebo tidak
menghasilkan pengaruh yang terlihat. Sebagai contoh, hasil OLS dalam kolom berlabel (3)
dalam Panel A, Tabel A4 menunjukkan bahwa efek perkiraan pengobatan plasebo kecil, secara
statistik tidak signifikan dan mendekati nol rata-rata di seluruh empat tahun untuk matematika
dan bahasa Inggris.
Ada satu fitur yang tersisa dari hasil pada Tabel 5 yang layak disebutkan. Ini adalah bukti
dip preprogran dalam nilai tes, disajikan dalam baris berlabel 'pos' di Panel B. Hasil dalam kolom
(3) untuk menunjukkan bahwa bahasa Inggris terjadi penurunan besar, statistik signifficant
dalam nilai tes pada tahun sebelumnya dengan rating gagal yang tidak dapat dijelaskan oleh
karakteristik siswa atau nilai ujian mereka sebelumnya. Efek ini, -0.08 dari deviasi standar,
adalah sama dengan re-terikat dilaporkan dalam sel yang sesuai dari Tabel 3.

5.2 Efek Pengobatan heterogen
Pada bagian ini saya mengeksplorasi konsekuensi distribusi dari inspeksi gagal. Analisis
di bawah ini pertama kali menentukan apakah efek pengobatan bervariasi dengan kemampuan
sebelumnya. Diskusi kemudian berubah menjadi efek pengobatan kuantil, diikuti oleh beberapa
analisis subkelompok lanjut. Bagian akhir menawarkan ringkasan dan diskusi hasil dari analisis
efek heterogen.

Efek oleh Kemampuan Sebelum
Sebagaimana dibahas dalam bagian 4.1 di atas, variasi dalam efek pengobatan dengan
kemampuan sebelum dapat memberikan bukti perilaku guru distorsi. Namun, untuk menilai
apakah guru strategis mengalokasikan upaya di kalangan siswa sehingga jumlah siswa yang lulus
ambang batas kinerja dimaksimalkan, penting untuk terlebih dahulu mempertimbangkan siapa
yang mungkin menjadi 'marjinal' siswa. Ingat bahwa harapan resmi bagi siswa untuk mencapai
ambang batas kinerja 'Level 4' pada tes 2 Key Stage (biasanya diambil pada usia 11). Seperti
disebutkan sebelumnya guru dapat menggantikan usaha jauh dari kemampuan siswa terendah
jika ada sedikit kesempatan para siswa melewati ambang ini.
Dalam rangka untuk menguji prediksi bahwa kemampuan siswa rendah terkena dampak
ketika insentif untuk mencapai ambang kinerja diperkuat (setelah inspeksi gagal), saya uji
apakah efek pengobatan bervariasi dengan kemampuan sebelumnya. Model berikut
menggabungkan interaksi antara boneka pengobatan dan kemampuan sebelumnya diperkirakan:
(rumus (5))
di mana pengobatan D
s
dummy dihidupkan untuk sekolah diperiksa di awal tahun akademik dan
Rank
is
adalah peringkat persentil pada kemampuan sebelumnya untuk mahasiswa saya yang
diukur dengan kinerja siswa pada Key Stage 1 (usia tujuh) tes. kemudian memperkirakan
bagaimana efek pengobatan bervariasi dengan kemampuan sebelumnya. Efek pengobatan
mungkin sebenarnya bervariasi non-linear dengan kemampuan sebelumnya. Ini akan terjadi jika,
misalnya, guru siswa sasaran di tengah distribusi skor tes sebelum dan mahasiswa mengabaikan
di bagian atas dan bawah. Dalam rangka untuk memungkinkan untuk seperti non-linear interaksi
regresi berikut juga diperkirakan:
(rumus (6))
dimana Q
isk
variabel dummy diaktifkan untuk mahasiswa saya jika rank nya pada nilai tes
sebelumnya terletak pada k kuartil. Dengan demikian, k memperkirakan efek pengobatan bagi
siswa berbaring di k kuartil dalam distribusi kemampuan sebelumnya, relatif terhadap kategori
dihilangkan, kuartil bawah.
Tabel 5, kolom (1) dan (3), menyajikan perkiraan dari interaksi (o) Utama dan () efek
untuk matematika dan bahasa Inggris, masing-masing, untuk model interaksi linear (5). Dalam
setiap kolom, 'Fail awal' baris sesuai dengan perkiraan o dan 'awal Gagal x kemampuan sebelum
rank persentil sesuai dengan perkiraan . Hasil untuk kedua matematika dan bahasa Inggris
dalam kolom (1) dan (3) menunjukkan bahwa ada hubungan terbalik yang kuat antara
kemampuan sebelum dan keuntungan dari pengobatan. Siswa dari ujung terendah dari
keuntungan distribusi kemampuan sebelum 0,19 dan 0,14 dari deviasi standar untuk matematika
dan bahasa Inggris, masing-masing. Istilah interaksi di baris kedua kolom (1) dan (3)
menunjukkan bahwa bagi siswa di akhir atas keuntungan kemampuan distribusi yang mendekati
nol.
Perkiraan untuk model interaksi nonlinier, persamaan (6), dilaporkan dalam kolom (2)
dan (4). Memungkinkan untuk non-linearities meninggalkan kesimpulan di atas tidak berubah:
keuntungan terbesar yang diposting bagi siswa dari kuartil bawah (kategori dihilangkan), siswa
di tengah-tengah distribusi kemampuan sebelumnya juga mengalami kenaikan substansial,
meskipun tidak besar seperti yang untuk rendah kemampuan siswa. Pada 0,05 dan 0,025 dari
deviasi standar untuk matematika dan bahasa Inggris, masing-masing, keuntungan bagi siswa di
kuartil atas tampaknya positif, meskipun jauh lebih kecil daripada mereka pada tingkat
kemampuan yang lebih rendah.
Salah satu penjelasan yang mungkin menjelaskan keuntungan relatif kecil diamati bagi
siswa kemampuan tinggi adalah bahwa nilai ujian mereka pada atau dekat dengan langit-langit
dari 100 persen pencapaian. Namun, perlu dicatat bahwa bahkan bagi siswa dalam kuartil
kemampuan tertinggi, rata-rata nilai tes pada tahun sebelum pengobatan adalah beberapa cara di
bawah angka 100 persen (76 persen dan 68 persen untuk matematika dan bahasa Inggris,
masing-masing). Hipotesis ini dieksplorasi lebih lanjut (dan ditolak) dalam analisis efek
pengobatan kuantil bawah.
Singkatnya, hasil yang disajikan dalam Tabel 5 menunjukkan bahwa kemampuan siswa
rendah meraup keuntungan nilai ujian yang relatif besar dari inspeksi gagal. Hal ini berbeda
dengan temuan dari beberapa helai literatur akuntabilitas uji berbasis yang menunjukkan bahwa
kemampuan siswa rendah mungkin menderita di bawah rezim tersebut. Satu penjelasan untuk
temuan yang dilaporkan di sini mungkin terletak pada peran yang dimainkan oleh inspektur.
Saya membicarakan hal ini secara panjang lebar di bawah ini.

Kuantil Pengobatan Efek
Kemampuan siswa rendah pada kerugian relatif dalam rezim akuntabilitas berdasarkan
per-kinerja ambang batas jika guru hanya memiliki informasi mengenai kemungkinan seorang
mahasiswa kliring rintangan ini adalah kemampuan sebelumnya, seperti pada Tabel 2. Dalam hal
ini jumlah siswa mencapai standar yang diperlukan juga dapat dimaksimalkan dengan
menggantikan upaya guru jauh dari orang-orang paling tidak mungkin untuk mencapai standar
diamanatkan - rata-rata siswa di bawah kemampuan kuartil - terhadap orang-orang siswa yang
paling mungkin untuk mencapai ambang batas sebagai hasil fokus guru besar (siswa di kuartil
kedua, katakan).
Kesimpulan ini - yang kontras dengan temuan yang dilaporkan dalam Tabel 5 -
didasarkan pada asumsi bahwa guru harus menargetkan rata-rata siswa dalam setiap kuartil
kemampuan sebelumnya, katakan, dan bahwa mereka tidak dapat mengidentifikasi siswa
marjinal dalam kuartil tertentu. Hasilnya, dalam hal melewati ambang diamanatkan, dari
investasi usaha yang lebih besar pada rata-rata siswa dalam kategori kemampuan rendah sebelum
mungkin memang rendah. Namun, jika para guru berhasil dapat mengidentifikasi siswa marjinal,
misalnya, kuartil bawah distribusi kemampuan sebelumnya, maka kembali ke usaha guru ekstra
mungkin substansial. Intuisi untuk baris ini penalaran yang dibahas dalam bagian 4.1 dan
diilustrasikan oleh Gambar 2.
Salah satu cara untuk mendeteksi perilaku guru tersebut adalah dengan memeriksa efek
dari perawatan di quantiles tertentu dari distribusi skor tes. Secara khusus, argumen di atas
menunjukkan bahwa kita harus memeriksa kedua efek penuh sampel pengobatan kuantil serta
efek pengobatan kuantil dalam subkelompok kemampuan sebelumnya. Mencari efek heterogen
dalam perjanjian kemampuan subkelompok sebelumnya dengan gagasan bahwa guru dapat
menetapkan (track) siswa dalam (kalangan) kelas dengan kemampuan. Mereka kemudian dapat
menargetkan upaya terhadap siswa dalam sub-kelompok marjinal.
Dalam analisis di bawah ini, saya meneliti bagaimana distribusi bersyarat dari nilai tes
dipengaruhi oleh perawatan di kuantil masing-masing t e[0,1] dengan memperkirakan model
bentuk berikut:
Qt(y
is
, .) = ot + otD
s
+ X
is
|
1
t+ W
s
|
2
t,
di mana Qt(. , .) adalah 7
th
fungsi kuantil bersyarat dan ot merupakan efek pengobatan kuantil
(QTE) di kuantil t. Gambar 3 plot ot serta terkait 95 persen confidence interval, untuk sampel
penuh sekolah gagal. Angka 4 dan 5 plot QTE dalam setiap kuartil kemampuan sebelumnya,
untuk matematika dan bahasa Inggris, masing-masing.
Panel A dari Gambar 3 menunjukkan bahwa efek dari inspeksi gagal adalah untuk
meningkatkan nilai tes standar nasional oleh antara 0,08 dan 0,13 dari deviasi standar untuk
semua quantiles.
Apakah ada bukti yang menunjukkan bahwa guru bertindak strategis untuk meningkatkan
kinerja 'marjinal' siswa? Ingat dari Tabel 2 bahwa 67 persen dari siswa mencapai target ini pada
gagal sekolah di tahun sebelum pemeriksaan. Dengan demikian, jika guru secara strategis
menargetkan mahasiswa marjinal kita akan mengharapkan efek pengobatan mencapai puncak
pada sekitar 0,33 kuantil. Hal ini tidak terjadi, bahkan efek pengobatan yang relatif stabil di
sebagian besar distribusi skor tes. Ada beberapa bukti dalam Gambar 3, Panel A bahwa siswa
pada tingkat kemampuan tertinggi mendapatkan kurang. Namun demikian, keuntungan bahkan
di sini substansial dan menurun hanya sedikit di bawah 0,1 dari standar deviasi. Dengan
demikian, pada bukti ini ada sedikit yang menunjukkan bahwa guru bertindak strategis untuk
meningkatkan kinerja siswa pada margin mencapai target resmi pemerintah.
Sebuah poin tambahan untuk dicatat di sini adalah bahwa pola efek pengobatan di
seluruh quantiles dilaporkan dalam Gambar 3, Panel A sangat menolak gagasan bahwa langit-
langit efek gigitan. Jika ini terjadi maka siswa skor tinggi tidak akan memposting keuntungan
dari pengobatan. Bahkan angka menunjukkan bahwa bahkan pada quantiles tinggi, efek
pengobatan tetap besar.
Panel B dari Gambar 3 menunjukkan hasil untuk nilai tes bahasa Inggris. Seperti kasus
matematika, tidak ada bukti kuat yang menunjukkan bahwa guru menargetkan 'marjinal' siswa.
Namun, untuk bahasa Inggris ada bukti kuat dari keuntungan yang lebih rendah bagi siswa di
quantiles tinggi: sekitar 0,05 dari deviasi standar untuk kuantil 0,9, efek ini adalah setengah
untuk quantiles bawah 0,7.
Aku berbalik sekarang untuk analisis QTE dalam setiap kuartil kemampuan sebelumnya,
dilaporkan dalam Angka 4 dan 5. Ini mengungkapkan. Pertama, hasil OLS dilaporkan dalam
setiap panel dari dua tokoh mengkonfirmasi hasil pada Tabel 5: efek terbesar adalah untuk siswa
dalam kuartil bawah distribusi kemampuan sebelumnya, dan efek terkecil adalah untuk orang-
orang di kuartil atas. Kedua, dan yang lebih penting, dalam kuartil ada bukti banyak
heterogenitas, terutama bagi siswa dalam satu kuartil. Bagi siswa di kuartil bawah kemampuan
sebelumnya, efek pengobatan untuk matematika meningkat terus dari sekitar 0,1 dari deviasi
standar untuk quantiles terendah untuk hanya di bawah 0,3 untuk quantiles tertinggi (Gambar 4,
Panel A). Untuk bahasa Inggris, Panel A dari Gambar 5 menunjukkan bahwa efek pengobatan
adalah sekitar 0,1 dari deviasi standar bagi siswa di bawah rata-rata distribusi skor tes dan dekat
dengan 0,2 bagi siswa pada atau di atas median.
Satu penjelasan untuk pola hasil yang dilaporkan dalam Panel A dari Gambar 4 dan 5
adalah bahwa guru menargetkan siswa pada margin mencapai Level 4 ambang batas kinerja.
Namun, Bukti dari tiga panel yang tersisa (kemampuan sebelum kuartil 2, 3 dan 4) di setiap
Angka 4 dan 5 tidak mendukung pandangan ini. Misalnya, untuk subkelompok kemampuan
kedua kuartil sebelum bukti pada Tabel 2 menunjukkan keuntungan tes harus mencapai
puncaknya sekitar 0,4 kuantil untuk matematika dan bahasa Inggris. Panel B dari Gambar 4
menunjukkan beberapa dukungan untuk ini, tetapi hasil bahasa Inggris di Panel B, Gambar 5
tidak menunjukkan bukti perilaku tersebut. Demikian pula, bagi siswa dalam kemampuan
sebelum ketiga kuartil statistik deskriptif pada Tabel 2 menunjukkan bahwa jika guru berperilaku
strategis kemudian menguji keuntungan kinerja harus mencapai puncaknya sekitar 0,1 kuantil
atau 0,2 untuk matematika dan bahasa Inggris dan penurunan sesudahnya. Bukti di C Panel di
setiap Angka 4 dan 5 menunjukkan tidak ada pola seperti itu.
Pada keseimbangan, hasil dari efek sampel pengobatan penuh kuantil serta efek
pengobatan kuantil dalam subkelompok kemampuan sebelum cenderung menolak pandangan
bahwa guru sasaran siswa pada margin mencapai batas 'Level 4' pejabat. Apa yang mungkin
kemudian menjelaskan kenaikan kuat dalam keuntungan dari pengobatan di quantiles bagi siswa
dalam kuartil terendah kemampuan sebelum (panel A di setiap Gambar 4 dan 5)? Pembahasan
pertanyaan ini ditunda sampai setelah analisis subkelompok berikut heterogenitas pengobatan.

Selanjutnya subkelompok Analisis
Tabel 6 melaporkan hasil dari regresi terpisah untuk subkelompok ditentukan oleh status
makan siang gratis dan apakah Bahasa Inggris adalah bahasa pertama yang digunakan di rumah.
Hasil berdasarkan status makan siang gratis menunjukkan keuntungan sedikit lebih tinggi dalam
matematika bagi siswa makan siang gratis, tetapi keuntungan yang lebih kecil untuk kelompok
relatif tidak ada - siswa makan siang gratis dalam bahasa Inggris. Namun, ada perbedaan besar
dalam keuntungan bagi siswa sesuai dengan apakah atau tidak bahasa pertama mereka adalah
bahasa Inggris. Untuk matematika, siswa yang bahasa pertamanya bukan bahasa Inggris dari
rekor keuntungan 0,19 dari deviasi standar, dibandingkan dengan 0,12 standar deviasi bagi
mereka yang bahasa pertamanya adalah bahasa Inggris. Demikian pula, keuntungan pada tes
bahasa Inggris 0,12 dari sd (meskipun hanya sedikit signifikan) untuk kelompok pertama
mahasiswa dan 0,08 dari sd untuk kelompok kedua.

Diskusi Hasil Pengobatan Efek heterogen
Analisis di atas menunjukkan kenaikan kuat pada usia 11 (Key Stage 2) tes bagi siswa
digolongkan sebagai kemampuan yang rendah pada tes (usia tujuh) sebelumnya. Atas dasar bukti
yang disajikan di atas, dua penjelasan potensi temuan ini dapat ditolak. Pertama, keuntungan ini
untuk siswa kemampuan rendah tidak muncul untuk menjadi hasil dari guru strategis
mengalokasikan upaya di kalangan siswa: hanya ada dukungan yang lemah untuk hipotesis
bahwa guru sasaran siswa pada margin mencapai ambang kinerja resmi. Kedua, hal itu juga
tampaknya tidak mungkin bahwa langit-langit efek bagi siswa kemampuan tinggi menjelaskan
hasil ini. Jadi apa yang kemudian menjelaskan keuntungan bagi siswa kemampuan rendah
dilaporkan dalam Tabel 5 dan bentuk efek pengobatan kuantil di Panel A Gambar, 4 dan Panel
A, Gambar 5?
Salah satu penjelasan yang sesuai dengan fakta adalah argumen bahwa mungkin ada
banyak heterogenitas dalam sekolah yang sama dan bahkan kelas yang sama dalam sejauh mana
orang tua mampu menahan guru ke account. Orangtua dari anak-anak nilai rendah pada tes tujuh
usia cenderung lebih miskin daripada rata-rata dan kurang mampu menilai kemajuan anak
mereka dan kualitas pengajaran yang diberikan oleh sekolah. Guru sehingga dapat mengerahkan
tingkat yang lebih rendah dari upaya bagi siswa yang orang tuanya kurang vokal tentang mutu
pengajaran. Setelah inspeksi gagal dan pengawasan peningkatan selanjutnya dari sekolah, guru
meningkatkan usaha. Kenaikan dalam upaya mungkin terbesar dimana sebelumnya ada kendur
terbesar. Dengan demikian kemampuan siswa rendah, yang orang tuanya menghadapi biaya
tertinggi dalam hal menilai kualitas pengajaran, dapat memperoleh yang terbaik dari inspeksi
gagal. Hal ini kemudian akan membantu menjelaskan kenaikan kuat untuk kemampuan siswa
rendah, seperti yang dilaporkan dalam Tabel 5.
Selain itu, jika siswa dalam kelompok kemampuan rendah sebelum memang mendapat
perhatian yang lebih besar dari guru setelah inspeksi gagal, harapan mungkin bahwa dalam
kelompok ini, siswa dengan kemampuan bawaan yang lebih tinggi manfaat yang paling. Hal ini
akan selaras dengan asumsi biasa bahwa investasi dan kemampuan siswa saling melengkapi
dalam fungsi skor tes produksi. Hal ini persis sejalan dengan hasil Panel A Gambar, 4 dan Panel
A, Gambar 5, yang menunjukkan efek pengobatan meningkat di seluruh quantiles bagi siswa
dalam kuartil terendah kemampuan sebelumnya.
Penafsiran atas hasil ini juga didukung oleh analisis subkelompok Tabel 6, yang
menunjukkan bahwa anak-anak miskin dari, kelompok minoritas cenderung untuk mendapatkan
relatif lebih dari gagal inspeksi. Anak-anak dari keluarga di mana bahasa Inggris bukan bahasa
pertama di rumah kemungkinan besar memiliki orang tua yang kurang mampu untuk
menginterogasi para guru dan meminta pertanggungjawaban mereka. Hasil pada Tabel 6
meningkatkan kesimpulan bahwa itu adalah anak-anak dari hal-keluarga yang dibantu sebagian
oleh pemeriksaan gagal.

5.3 Bukti Jangka Menengah Efek
Hasil yang dilaporkan dalam bagian sebelumnya menunjukkan bahwa 6 Tahun siswa,
yang berada di tahun terakhir sekolah dasar, manfaat dari pemeriksaan gagal dalam hal nilai
ujian yang lebih tinggi. Satu pertanyaan adalah apakah keuntungan yang berkelanjutan setelah
pindah ke sekolah menengah. Analisis ini memberikan penilaian langsung dari apakah
keuntungan nilai awal tes di sekolah dasar adalah karena 'pengajaran tes' daripada hasil
penguasaan lebih besar atau pemahaman yang lebih dalam dari bahan yang diperiksa. Dalam
kasus yang pertama, setiap keuntungan akan diharapkan untuk mengusir cepat. Perhatikan bahwa
fadeOut seperti keuntungan awal sebenarnya umum dalam pengaturan di mana pendidik bahkan
tidak berada di bawah tekanan untuk artifisial mendistorsi kinerja siswa diukur (lihat misalnya
Currie dan Thomas, 1995). Dengan demikian, memudar dari keuntungan skor tes tidak
menunjukkan distorsi necesssarily respon pada bagian dari guru. Di sisi lain, jika beberapa
keuntungan skor tes awal bertahan untuk jangka menengah maka ini akan menunjukkan bahwa
keuntungan awal dari pengobatan gagal yang 'nyata'.
[Hasil dilaporkan dalam Tabel 7 - harus ditulis. Utama poin:
- Hasil: skor standar nasional pada usia 14 penilaian guru matematika dan bahasa Inggris
pencapaian (gabungan). Yaitu Tiga tahun setelah meninggalkan sekolah dasar gagal.
- Hasil yang tersedia untuk siswa di sekolah dasar gagal pada tahun 2006 (usia 14 tes yang
diambil pada tahun 2009) dan 2007 (umur 14 tes yang diambil pada tahun 2010).
- Hasil pada Tabel 8: perkiraan yang bising, namun menunjukkan bahwa rata-rata efek
pengobatan tiga tahun setelah meninggalkan sekolah gagal primer adalah keuntungan
dalam skor tes dari 0,05 dari deviasi standar (sedikit signifikan, kolom (1)).
- Pengaruh yang terbesar untuk rendah (sebelumnya) kemampuan siswa: 0,07 dari standar
deviasi (signifikan pada tingkat konvensional, kolom (3))].

6. Kesimpulan
[Untuk dapat ditulis]
- Validitas analisis: peringkat inspeksi sangat terkait dengan langkah-langkah yang
mendasari
kualitas sekolah tidak diamati oleh inspektur, bahkan setelah pengkondisian pada
karakteristik sekolah tradisional (seperti rank test dan proporsi siswa memenuhi syarat
untuk makan siang gratis).
- Hal ini menunjukkan bahwa inspektur nilai tambah dalam hal mengungkap beberapa
heterogenitas teramati dalam kualitas sekolah.
- Pengaruh inspeksi gagal: Tahun 6 (umur 11) siswa di sekolah yang gagal awal
mendapatkan 0,12 dari deviasi standar nasional tes matematika skor relatif terhadap siswa
yang terdaftar di sekolah gagal akhir standar. Efek pengobatan untuk bahasa Inggris
adalah keuntungan dari 0,08 dari standar deviasi.
- Hasil ini kuat untuk metode yang berbeda dari estimasi: perbandingan sederhana pasca-
hasil pengobatan untuk kontrol dan kelompok perlakuan serta perbedaan-in-perbedaan
model memberikan hasil yang sangat mirip.
- Efek keseluruhan heterogenitas masker substansial dalam efek pengobatan. Keuntungan
terbesar adalah bagi siswa mencetak rendah pada (usia tujuh) Tahap Kunci tes sebelum 1.
Dalam kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa mencapai
lebih tinggi mendapatkan sebagian besar: siswa di kuartil bawah keuntungan distribusi
kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan efek diperkirakan
terus meningkat dari 0,1 untuk quantiles terendah hingga 0,3 untuk quantiles tertinggi.
Untuk bahasa Inggris, perkiraan untuk kisaran antara subkelompok 0,08 dan 0,18 dari
standar deviasi.
- (Ini adalah efek yang sangat besar Bandingkan dengan efek kualitas guru, Rivkin et al,
2005;. Menghadiri sekolah dengan tingkat pencapaian yang lebih tinggi, Hastings et al,
2009;. Atau sekolah charter, Abdulkadiroglu et al, 2011)
- Temuan ini konsisten dengan pandangan bahwa anak-anak dari orang tua berpenghasilan
rendah paling diuntungkan dari inspeksi.
- Saya tidak menemukan bukti yang menunjukkan bahwa sekolah mampu inate uji kinerja
gaming dengan sistem.
- Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak termasuk
kemampuan siswa rendah dari kolam uji-taking.
- Kedua, bukti tidak mendukung gagasan bahwa guru sasaran siswa pada margin
mencapai tingkat kemahiran offcial ('Level 4' pencapaian pada tes 2 Key Stage)
dengan mengorbankan siswa jauh di atas atau di bawah ambang batas ini.
- Ketiga, walaupun kenaikan tes memudar sedikit dari waktu ke waktu, ada bukti yang
menunjukkan bahwa untuk beberapa keuntungan siswa terakhir ke jangka menengah,
bahkan setelah mereka meninggalkan sekolah gagal. Hal ini menunjukkan bahwa
guru menanamkan pembelajaran nyata dan bukan hanya menguji-mengambil
keterampilan dalam menanggapi rating gagal.
- Kenyataan bahwa aku tidak mendapati bukti jenis perilaku strategis ditemui di banyak
konteks serupa lainnya menunjukkan bahwa dengan menundukkan sekolah untuk
menutup pengawasan, inspektur mungkin memainkan peran dalam membatasi kegiatan
distortif tersebut.
- Berbeda dengan temuan Heckman, Smith dan Taber (1996), yang menemukan bukti
bahwa birokrat tampaknya memanjakan mereka sendiri ('liberal') preferensi, saya
menemukan bahwa inspektur muncul untuk melakukan pekerjaan yang masuk akal.
- Salah satu alasan untuk perbedaan mungkin bahwa tidak seperti dalam pengaturan et
al Heckman, dalam kasus ini tindakan inspektur terbuka untuk pengawasan umum
sebagai laporan inspeksi berada di ranah publik. Hal ini dapat membantu memastikan
bahwa keputusan birokrasi adalah sebuah kualitas yang cukup tinggi untuk melewati
'ujian pengawasan publik'.