Anda di halaman 1dari 47

PENILAIAN DAN KELAS BELAJAR

Oleh Black, Paul, Wiliam, Dylan, Penilaian Pendidikan: Prinsip, Kebijakan & Praktek
Mar1998, Vol. 5, Edisi 1

ABSTRAK
Artikel ini adalah review literatur tentang kelas penilaian formatif. Beberapa studi menunjukkan
bukti kuat bahwa inovasi yang dirancang untuk memperkuat umpan balik sering bahwa siswa
menerima sekitar hasil belajar keuntungan belajar substansial mereka. Persepsi siswa dan
peran mereka dalam penilaian diri dianggap bersama analisis 'strategi yang digunakan oleh
guru dan strategi formatif tergabung dalam pendekatan sistemik seperti penguasaan
pembelajaran. Ada berikut analisis yang lebih rinci dan teoritis dari sifat umpan balik, yang
menyediakan dasar untuk diskusi tentang pengembangan model teoritis untuk penilaian
formatif dan prospek untuk perbaikan praktek.
Pengantar
Salah satu fitur yang luar biasa dari studi penilaian dalam beberapa tahun terakhir telah
menjadi pergeseran fokus perhatian, terhadap kepentingan yang lebih besar dalam interaksi
antara penilaian dan pembelajaran di kelas dan jauh dari konsentrasi pada sifat dari bentuk
dibatasi uji yang hanya lemah terkait dengan pengalaman belajar dari "siswa. Pergeseran ini
telah ditambah dengan berbagai ekspresi harapan bahwa perbaikan dalam penilaian kelas
akan membuat kontribusi yang kuat untuk perbaikan pembelajaran. Jadi salah satu tujuan
utama dari kajian ini adalah untuk survei bukti yang mungkin menunjukkan apakah atau tidak
harapan tersebut dibenarkan. Tujuan kedua adalah untuk melihat apakah isu-isu teoritis dan
praktis terkait dengan penilaian untuk pembelajaran dapat diterangi oleh sintesis wawasan
yang timbul antara studi beragam yang telah dilaporkan.
Tujuan dari Pendahuluan ini adalah untuk memperjelas beberapa terminologi kunci yang kita
gunakan, membahas beberapa ulasan sebelumnya yang menentukan dasar dari yang
penelitian kami berangkat, membahas beberapa aspek dari metode yang digunakan dalam
pekerjaan kami, dan akhirnya untuk memperkenalkan struktur dan pemikiran untuk bagian
berikutnya.
Fokus utama kami adalah bukti tentang penilaian formatif oleh guru di sekolah atau perguruan
tinggi kelas mereka. Seperti yang akan dijelaskan di bawah, batas untuk laporan penelitian
dan ulasan yang telah disertakan telah longgar daripada ditarik erat. Alasan utama untuk ini
adalah bahwa penilaian formatif istilah tidak memiliki arti ketat didefinisikan dan diterima
secara luas. Dalam ulasan ini, itu harus diartikan sebagai meliputi semua kegiatan yang
dilakukan oleh guru, dan / atau oleh siswa mereka, yang memberikan informasi yang akan
digunakan sebagai umpan balik untuk memodifikasi kegiatan belajar mengajar di mana
mereka terlibat.
Dua artikel review substansial, satu per Natriello (1987) dan yang lainnya oleh Crooks (1988)
di bidang ini sama berfungsi sebagai acuan dasar untuk ulasan ini. Oleh karena itu, dengan
beberapa pengecualian, semua artikel dibahas di sini diterbitkan selama atau setelah 1988.
pencarian literatur dilakukan dengan beberapa cara. Salah satunya adalah melalui pencarian
kutipan dari artikel oleh Natriello dan Crooks, diikuti oleh pencarian serupa di kemudian dan
relevan ulasan isu komponen yang diterbitkan oleh salah satu dari kami (Black, 1993b), dan
oleh Bangert-tenggelam dan Kuliks (Kulik et al ., 1990; Bangert-tenggelam et al, 1991a, b)..
Pendekatan kedua adalah untuk mencari dengan kunci-kata dalam ERIC data dasar; ini
adalah pendekatan yang tidak efisien karena kurangnya istilah yang digunakan dengan cara
yang seragam yang mendefinisikan bidang kita menarik. Pendekatan ketiga adalah bola salju
'pendekatan `menindaklanjuti daftar referensi dari artikel ditemukan. Akhirnya, untuk 76 jurnal
yang paling mungkin, isi semua masalah yang dipindai, dari tahun 1988 sampai sekarang di

beberapa kasus, dari tahun 1992 untuk orang lain karena pekerjaan sudah dilakukan untuk
1993 review oleh Black (lihat Lampiran untuk daftar jurnal scan).
Ulasan Natriello ditutupi bidang yang lebih luas daripada kita sendiri. Makalah ini membentang
berbagai tujuan penilaian, yang ia dikategorikan sebagai sertifikasi, seleksi, arah dan motivasi.
Hanya dua terakhir ini dibahas di sini. Penjahat menggunakan istilah `evaluasi kelas 'dengan
arti yang sama seperti yang kita usulkan untuk` penilaian formatif'. Kedua artikel memberi
daftar referensi yang berisi 91 dan 241 item masing-masing, tetapi hanya 9 item muncul dalam
kedua daftar. Hal ini menggambarkan kesulitan kembar dan terkait mendefinisikan lapangan
dan mencari literatur.
Masalah menyusun kerangka kerja untuk tinjauan juga diilustrasikan oleh perbedaan antara
Natriello dan artikel Crooks. Natriello ulasan isu dalam kerangka yang disediakan oleh model
siklus penilaian, yang dimulai dari tujuan, kemudian bergerak ke pengaturan tugas, kriteria dan
standar, kemudian melalui penilaian kinerja dan memberikan umpan balik dan hasil. Dia
kemudian membahas penelitian tentang dampak dari proses evaluasi ini pada siswa. Mungkin
titik paling signifikan, bagaimanapun, adalah bahwa dalam pandangannya, sebagian besar
penelitian menjadi efek dari proses evaluasi tidak relevan karena perbedaan kunci
digabungkan (misalnya dengan tidak mengendalikan kualitas serta kuantitas umpan balik) .
Dia menyimpulkan dengan menyarankan bagaimana kelemahan dalam penelitian yang adadasar mungkin dibahas dalam penelitian masa depan.
Kertas penjahat 'memiliki fokus sempit - dampak praktek evaluasi siswa-dan membagi bidang
menjadi tiga bidang utama - dampak praktek pengujian kelas normal, dampak dari berbagai
praktek pembelajaran lain yang menanggung evaluasi, dan akhirnya aspek motivasi yang
berhubungan dengan evaluasi kelas. Dia menyimpulkan bahwa fungsi sumatif evaluasi gradasi - telah terlalu dominan dan lebih menekankan harus diberikan kepada potensi
penilaian kelas untuk membantu belajar. Umpan balik kepada siswa harus fokus pada tugas,
harus diberikan secara teratur dan sementara masih relevan, dan harus spesifik untuk tugas
itu. Namun, dalam Crooks 'melihat' yang paling penting dari semua pesan yang muncul dari
ulasan ini '(hal. 470) adalah bahwa penilaian harus menekankan keterampilan, pengetahuan
dan sikap dianggap paling penting, namun sulit masalah teknis yang ini mungkin
menyebabkan.
Seperti review Natriello ini, penelitian yang dikutip oleh Crooks mencakup berbagai gaya dan
konteks, dari studi-kurikulum terkait yang melibatkan kerja di kelas normal dengan guru siswa
sendiri, untuk eksperimen dalam pengaturan laboratorium oleh para peneliti. Relevansi
pekerjaan yang tidak dilakukan di dalam kelas normal dengan guru bisa disebut dalam
pertanyaan (Lundeberg & Fox, 1991), tetapi jika semua pekerjaan tersebut dikeluarkan, tidak
hanya akan lapangan akan lebih jarang penduduknya, tetapi juga akan menghadap banyak
petunjuk penting dan petunjuk menuju tujuan yang sulit mencapai pemahaman memadai
kompleks dan lengkap penilaian formatif. Dengan demikian ulasan ini, seperti itu dari Natriello
dan lebih terutama yang dari Crooks, eklektik. Karena itu, keputusan tentang apa yang harus
disertakan telah agak sewenang-wenang, sehingga kita sekarang memiliki beberapa
pemahaman simpatik kurangnya tumpang tindih antara sumber literatur yang digunakan
dalam dua ulasan sebelumnya.
Proses yang dijelaskan di atas menghasilkan total 681 publikasi yang muncul terkait, pada
pandangan pertama, untuk review. Rincian bibliografi bagi mereka yang diidentifikasi dengan
cara elektronik yang diimpor (dalam banyak kasus, termasuk abstrak) ke dalam database
bibliografi, dan lain-lain dimasukkan secara manual. Review awal, dalam beberapa kasus
berdasarkan pada abstrak saja, dan dalam beberapa kasus yang melibatkan membaca
publikasi penuh, mengidentifikasi jumlah awal sekitar 250 publikasi ini sebagai cukup penting
untuk meminta membaca secara penuh. Setiap publikasi ini kemudian dikodekan dengan label
yang berkaitan dengan fokus - total 47 label yang berbeda yang digunakan, dengan rata-rata

2,4 label per referensi. Untuk setiap publikasi berlabel, abstrak yang ada ditinjau dan, dalam
beberapa kasus dimodifikasi untuk menyoroti aspek publikasi yang relevan untuk review ini,
dan abstrak ditulis di mana tidak ada dalam database. Berdasarkan pembacaan awal makalah
yang relevan, struktur tujuh bagian utama diadopsi.
Penulisan untuk setiap bagian dilakukan dengan terlebih dahulu mengalokasikan masingmasing label untuk bagian. Semua kecuali satu dari label dialokasikan ke bagian yang unik
(satu dialokasikan untuk dua bagian). Abstrak publikasi yang relevan dengan setiap bagian
kemudian dicetak bersama-sama dan setiap bagian dialokasikan ke salah satu penulis
sehingga draft awal bisa disiapkan, yang kemudian direvisi bersama-sama. Tujuh bagian yang
muncul dari proses ini dapat dijelaskan secara singkat sebagai berikut.
Pendekatan pada bagian Contoh bukti yang pragmatis, dalam akun diberikan pertama dari
berbagai potongan yang dipilih penelitian tentang efektivitas penilaian formatif, dan kemudian
ini dibahas dalam rangka untuk mengidentifikasi satu set pertimbangan yang harus ditanggung
diingat dalam berhasil - lebih analitik - bagian. Bagian berikutnya Pengkajian oleh guru
menambah latar belakang empiris dengan menghadirkan penjelasan singkat bukti tentang
keadaan saat praktek penilaian formatif antara guru.
Ada mengikuti akun lebih terstruktur lapangan. Dua bagian berikutnya menangani masingmasing dengan perspektif siswa dan peran guru. Sementara pada bagian Strategi dan taktik
untuk guru berfokus pada taktik dan strategi pada umumnya, bagian berikutnya pada Sistem
berikut dengan membahas beberapa sistem spesifik dan komprehensif untuk pengajaran di
mana penilaian formatif memainkan peranan penting. Bagian pada Feedback lebih reflektif
dan teoritis, menyajikan akun, didasarkan pada bukti, dari sifat umpan balik, konsep yang
merupakan pusat untuk penilaian formatif. Ini mempersiapkan tanah untuk bagian akhir, pada
Prospek untuk teori dan praktek penilaian formatif, di mana kita mencoba melakukan sintesis
beberapa isu utama dalam konteks upaya untuk meninjau landasan teori, prospek penelitian
dan kebutuhan, dan implikasi untuk praktek dan kebijakan dari studi penilaian formatif.
Contoh di Bukti
Kelas Pengalaman
Pada bagian ini kami menyajikan akun singkat potongan penelitian yang, antara dan di antara
mereka, menggambarkan beberapa isu utama yang terlibat dalam penelitian yang bertujuan
untuk mengamankan bukti tentang efek penilaian formatif.
Yang pertama adalah proyek di mana 25 guru Portugis matematika dilatih dalam metode
penilaian diri pada kursus paruh waktu 20 minggu, metode yang mereka dimasukkan ke dalam
praktek karena kursus berkembang dengan 246 siswa dari usia 8 dan 9 dan dengan 108 siswa
yang lebih tua dengan usia antara 10 dan 14 (Fontana & Fernandes, 1994). Para siswa dari
lebih 20 guru Portugis yang mengambil kursus lain di bidang pendidikan pada saat itu
menjabat sebagai kelompok kontrol. Kedua kelompok eksperimen dan kontrol diberi tes
sebelum dan sesudah prestasi matematika, dan kedua menghabiskan waktu yang sama di
kelas matematika. Kedua kelompok menunjukkan hasil yang signifikan selama periode
tersebut, namun kelompok eksperimen yang mendapatkan rata-rata adalah sekitar dua kali
lipat dari kelompok kontrol untuk siswa 8 dan 9 tahun - perbedaan jelas signifikan. Efek yang
sama diperoleh bagi siswa yang lebih tua, tetapi dengan hasil yang kurang jelas statistik
karena pre-test, karena terlalu mudah, tidak bisa mengidentifikasi perbedaan awal mungkin
antara kedua kelompok. Fokus dari pekerjaan penilaian pada teratur - terutama setiap hari self-assessment oleh siswa. Ini melibatkan mengajar mereka untuk memahami baik tujuan
pembelajaran dan kriteria penilaian, memberi mereka kesempatan untuk memilih belajar tugas
dan menggunakan tugas yang memberi mereka ruang lingkup untuk menilai hasil belajar
mereka sendiri.

Penelitian ini memiliki validitas ekologi, dan memberi ketat dibangun bukti keuntungan belajar.
Para penulis menunjukkan bahwa banyak pekerjaan yang diperlukan untuk mencari hasil
jangka panjang dan untuk mengeksplorasi efektivitas relatif antara beberapa teknik yang
digunakan dalam konser. Namun, pekerjaan ini juga menggambarkan bahwa inisiatif dapat
melibatkan jauh lebih dari hanya menambahkan beberapa latihan penilaian untuk mengajar
yang ada - dalam hal ini dua elemen yang beredar adalah fokus pada penilaian diri dan
pelaksanaan penilaian ini dalam konteks konstruktivis sebuah kelas. Di satu sisi dapat
dikatakan bahwa satu atau lain dari fitur ini, atau kombinasi dari keduanya, bertanggung jawab
untuk keuntungan, di sisi lain dapat dikatakan bahwa tidak mungkin untuk memperkenalkan
penilaian formatif tanpa beberapa perubahan radikal dalam pedagogi kelas karena, dari
sifatnya, merupakan komponen penting dari proses pedagogik.
Contoh kedua dilaporkan oleh Whiting et al. (1995), penulis pertama menjadi guru dan copenulis universitas dan distrik sekolah staf. Account adalah review dari pengalaman dan
catatan guru, dengan sekitar 7000 siswa selama periode setara dengan 18 tahun,
menggunakan penguasaan pembelajaran dengan kelas nya. Ini pengujian terlibat reguler dan
umpan balik kepada siswa, dengan syarat bahwa mereka baik mencapai skor tes yang tinggi
- setidaknya 90% - sebelum mereka diizinkan untuk melanjutkan ke tugas berikutnya, atau,
jika skor lebih rendah, mereka mempelajari topik lebih lanjut sampai mereka bisa memenuhi
kriteria penguasaan. Skor tes akhir Whiting dan titik rata-rata kelas dari murid-muridnya secara
konsisten tinggi, dan lebih tinggi daripada siswa di kursus yang sama tidak diajarkan oleh dia.
`Gaya belajar siswa Me 'yang berubah sebagai hasil dari metode pengajaran, sehingga waktu
yang dibutuhkan untuk unit berturut menurun dan angka harus merebut kembali tes menurun.
Selain itu, tes sikap mereka terhadap sekolah dan terhadap pembelajaran menunjukkan
perubahan positif.
Seperti penelitian sebelumnya, pekerjaan ini memiliki validitas ekologi - itu adalah laporan
pekerjaan di kelas nyata tentang apa yang telah menjadi metode yang biasa digunakan oleh
guru selama bertahun-tahun. Keuntungan dilaporkan adalah substansial; meskipun
perbandingan dengan kontrol tidak didokumentasikan secara rinci, dilaporkan bahwa guru
mengalami kesulitan menjelaskan tingkat keberhasilan yang tinggi kepada rekan-rekan. Hal
ini mengakui bahwa keberhasilan bisa disebabkan keunggulan pribadi guru, meskipun ia
percaya bahwa pendekatan ini telah membuatnya menjadi guru yang lebih baik. Secara
khusus ia telah datang untuk percaya bahwa semua murid bisa berhasil, keyakinan yang ia
anggap sebagai bagian penting dari pendekatan. `Me Hasil menunjukkan dua ciri-ciri dan
terkait - yang pertama adalah bahwa perubahan mengajar melibatkan rezim yang sama sekali
baru belajar bagi siswa, bukan hanya penambahan beberapa tes, makhluk kedua yang justru
karena ini, itu tidak mudah mengatakan sampai sejauh mana efektivitas tergantung khusus
pada kualitas dan komunikasi umpan balik penilaian. Ini berbeda dari contoh pertama dalam
timbul dari gerakan tertentu yang bertujuan perubahan radikal dalam penyediaan
pembelajaran, dan dalam hal itu didasarkan pada asumsi yang berbeda tentang sifat
pembelajaran.
Contoh ketiga juga memiliki asal-usulnya dalam gagasan penguasaan pembelajaran, tetapi
berangkat dari ortodoksi di bahwa penulis dimulai dari keyakinan bahwa itu adalah pengujian
sering yang penyebab utama prestasi belajar yang dilaporkan untuk pendekatan ini. Proyek
ini adalah percobaan dalam matematika mengajar (Martinez & Martinez, 1992), di mana 120
mahasiswa Amerika di kursus aljabar pengantar ditempatkan di salah satu dari empat
kelompok di 2 X 2 desain eksperimen untuk kursus 18 minggu yang meliputi tujuh bab dari
teks. Dua kelompok diberi satu tes per bab, dua lainnya diberi tiga tes per bab. Dua kelompok
diajarkan oleh sangat berpengalaman dan sangat dinilai guru, dua lainnya oleh seorang guru
yang relatif tidak berpengalaman dengan penilaian rata-rata. Hasil post-test menunjukkan
keuntungan yang signifikan bagi mereka lebih sering diuji, tetapi keuntungan itu jauh lebih kecil
untuk guru berpengalaman daripada pendatang baru. Perbandingan skor akhir dengan
kelompok yang lebih besar dari siswa dalam kursus yang sama tetapi tidak dalam percobaan

menunjukkan bahwa guru yang berpengalaman memang luar biasa, sehingga penulis bisa
menyimpulkan bahwa pengujian lebih sering memang efektif, tetapi banyak dari "the gain bisa
diamankan oleh seorang guru yang luar biasa dengan kurang sering pengujian.
Dengan perbandingan dengan studi pertama di atas, yang satu ini memiliki ukuran statistik
yang sama dan analisis, tetapi sifat dari dua rezim yang dibandingkan sangat berbeda.
Memang, salah satu bisa mempertanyakan apakah pengujian sering benar-benar merupakan
penilaian formatif - diskusi tentang pertanyaan yang harus fokus pada kualitas interaksi gurusiswa dan apakah hasil tes merupakan umpan balik dalam arti yang mengarah ke tindakan
korektif yang diambil untuk menutup kesenjangan dalam kinerja (Ramaprasad, 1983). Ada
kemungkinan bahwa keunggulan guru yang berpengalaman mungkin telah di / nya
keahliannya dalam aspek ini, sehingga membuat pengujian lebih efektif formatif di kedua
frekuensi.
Misalnya nomor empat dilakukan dengan anak-anak 5 tahun yang diajarkan di TK (Bergan et
al., 1991). Motivasi yang mendasari adalah keyakinan bahwa perhatian dekat dengan akuisisi
awal keterampilan dasar sangat penting. Melibatkan 838 anak-anak diambil terutama dari latar
belakang rumah yang kurang beruntung di enam wilayah yang berbeda di Amerika Serikat.
Para guru dari kelompok eksperimen dilatih untuk melaksanakan pengukuran dan
perencanaan sistem yang diperlukan masukan penilaian awal untuk menginformasikan
mengajar di tingkat murid individu, konsultasi tentang kemajuan setelah dua minggu, penilaian
baru untuk memberikan review diagnostik lebih lanjut dan keputusan baru tentang siswa 'perlu
setelah empat minggu, dengan seluruh kursus berlangsung delapan minggu. Para guru
digunakan terutama pengamatan keterampilan untuk menilai kemajuan, dan bekerja dengan
kegiatan open-gaya yang memungkinkan mereka untuk membedakan tugas dalam setiap
kegiatan agar sesuai dengan kebutuhan individu anak. Ada penekanan dalam pelatihan
mereka pada model kriteria-referenced dari pengembangan pemahaman disusun atas dasar
hasil karya sebelumnya, dan penilaian diagnostik yang dirancang untuk membantu
menemukan setiap anak pada suatu titik pada skala ini. Tes hasil dibandingkan dengan tes
awal dari keterampilan yang sama. Analisis data menggunakan model persamaan struktural
menunjukkan bahwa langkah-langkah pre-test adalah penentu kuat dari semua hasil, tetapi
kelompok eksperimen mencapai skor signifikan lebih tinggi pada tes membaca, matematika
dan ilmu pengetahuan dibandingkan kelompok kontrol. Tes kriteria yang digunakan, yang
tradisional pilihan ganda, tidak disesuaikan agar cocok dengan gaya yang berpusat pada anak
terbuka kerja kelompok eksperimen ini. Selanjutnya, dari kelompok kontrol, rata-rata 1 anak di
3.7 disebut sebagai memiliki kebutuhan belajar khusus dan 1 di 5 ditempatkan di pendidikan
khusus; angka yang sesuai untuk kelompok eksperimen yang saya di 17 gersang 1 di 71.
Para peneliti menyimpulkan bahwa kapasitas anak-anak di bawah-dikembangkan dalam
mengajar konvensional sehingga banyak yang `meletakkan 'tidak perlu dan memiliki masa
depan mereka berprasangka. Salah satu fitur keberhasilan percobaan ini adalah bahwa guru
telah ditingkatkan keyakinan dalam kekuatan mereka untuk membuat keputusan rujukan bijak.
Contoh ini menggambarkan lagi embedding rutin penilaian formatif ketat dalam suatu program
inovatif. Apa yang lebih penting di sini adalah dasar, dalam program itu, dari model
pengembangan kinerja terkait dengan skema berdasarkan kriteria penilaian diagnostik.
Dalam contoh nomor lima (Butler, 1988), karya itu didasarkan lebih sempit dalam teori
psikologi eksplisit, dalam hal ini tentang hubungan antara motivasi intrinsik dan jenis evaluasi
bahwa siswa telah diajarkan untuk diharapkan. Percobaan ini melibatkan 48 siswa Israel 11
tahun dipilih dari 12 kelas di 4 sekolah, setengah dari mereka yang dipilih berada di kuartil atas
kelas mereka pada tes matematika dan bahasa, setengah lainnya berada di kuartil bawah.
Para siswa diberi dua jenis tugas berpasangan, tidak kurikulum terkait, satu dari setiap
pengujian pasangan berpikir konvergen, divergen yang lain. Mereka diberi tugas tertulis yang
harus ditangani secara individual di bawah pengawasan, dengan pengenalan dan penjelasan
lisan. Tiga sesi diadakan, dengan pasangan yang sama dari tugas yang digunakan dalam

pertama dan ketiga. Setiap siswa menerima satu dari tiga jenis umpan balik yang ditulis
dengan pekerjaan kembali, baik pada pekerjaan sesi pertama sebelum kedua, dan pada
pekerjaan sesi kedua sebelum ketiga. Sesi kedua dan ketiga, termasuk semua penerimaan
dan refleksi pada umpan balik, terjadi pada hari yang sama. Untuk umpan balik, sepertiga dari
kelompok diberi komentar terdiri individual pada pertandingan, atau tidak, dari pekerjaan
mereka dengan kriteria yang telah menjelaskan kepada semua terlebih dahulu. Kelompok
kedua hanya diberi nilai, berasal dari nilai pada pekerjaan sesi sebelumnya itu. Kelompok
ketiga diberi baik nilai dan komentar. Skor pada kerja yang dilakukan di masing-masing tiga
sesi menjabat sebagai ukuran hasil. Untuk `komentar hanya 'kelompok skor meningkat sekitar
sepertiga antara sesi pertama dan kedua, untuk kedua jenis tugas, dan tetap pada tingkat ini
lebih tinggi untuk sesi ketiga. The `komentar dengan kelas 'kelompok menunjukkan penurunan
yang signifikan dalam skor di tiga sesi, terutama pada tugas konvergen, sementara` kelas
hanya' kelompok menurun pada kedua tugas antara sesi pertama dan terakhir, tetapi
menunjukkan keuntungan pada sesi kedua , dalam tugas konvergen, yang tidak kemudian
dipertahankan. Tes minat murid juga menunjukkan pola yang sama: Namun, satu-satunya
perbedaan yang signifikan antara tinggi dan kelompok mencapai rendah adalah bahwa bunga
dirusak untuk berprestasi rendah dengan salah satu rezim yang melibatkan umpan balik dari
nilai, sedangkan berprestasi tinggi di semua tiga kelompok umpan balik mempertahankan
tingkat bunga yang tinggi.
Hasil dibahas oleh penulis dalam hal teori evaluasi kognitif. Sebuah fitur yang signifikan di sini
adalah bahwa bahkan jika komentar umpan balik secara operasional membantu untuk
pekerjaan siswa, efeknya dapat dirusak oleh efek motivasi negatif dari umpan balik normatif,
yaitu dengan memberikan nilai. Hasil ini konsisten dengan literatur yang menunjukkan bahwa
evaluasi tugas-melibatkan lebih efektif daripada evaluasi ego-melibatkan, sampai-sampai
bahkan memberi pujian dapat memiliki efek negatif dengan berprestasi rendah. Mereka juga
mendukung pandangan bahwa pra-pendudukan dengan kelas pencapaian dapat menurunkan
kualitas kinerja tugas, khususnya pada tugas-tugas yang berbeda.
Penelitian ini membawa dua pesan penting untuk tinjauan umum ini. Yang pertama adalah
bahwa, sementara percobaan tidak memiliki validitas ekologi karena itu bukan bagian dari atau
yang berhubungan dengan pekerjaan kurikulum normal dan tidak dilakukan oleh guru biasa
siswa, hal itu tetap mungkin menggambarkan beberapa pelajaran penting tentang cara di
mana umpan balik evaluasi formatif mungkin dibuat lebih atau kurang efektif dalam bekerja
kelas normal. Pelajaran kedua adalah kemungkinan bahwa, dalam pekerjaan kelas normal,
efektivitas umpan balik formatif akan tergantung pada beberapa fitur rinci dari kualitas, dan
bukan pada ada atau tidaknya belaka. Sebuah pesan ketiga adalah bahwa perhatian harus
diberikan kepada efek diferensial antara rendah dan tinggi berprestasi, dari semua jenis
umpan balik.
Contoh keenam adalah dalam beberapa cara yang mirip dengan kelima. Dalam karya ini
(Schunk, 1996), 44 siswa dalam satu USA SD, ke-9 atau 10 tahun, bekerja selama tujuh hari
tujuh paket bahan pembelajaran pecahan di bawah instruksi dari mahasiswa pascasarjana.
Siswa bekerja dalam empat kelompok terpisah dikenakan perlakuan yang berbeda - untuk dua
kelompok instruktur stres tujuan pembelajaran (belajar bagaimana memecahkan masalah)
sementara untuk dua lainnya mereka menekankan tujuan kinerja (hanya menyelesaikannya).
Untuk setiap set tujuan, satu kelompok harus mengevaluasi kemampuan pemecahan masalah
mereka pada akhir setiap sesi pertama, sedangkan yang lain diminta bukan untuk
menyelesaikan kuesioner sikap tentang pekerjaan. Ukuran hasil dari keterampilan, motivasi
dan self-efficacy menunjukkan bahwa kelompok diberikan tujuan kinerja tanpa evaluasi diri
keluar lebih rendah dari tiga lainnya pada semua tindakan. Interpretasi hasil ini menyarankan
bahwa efek dari evaluasi diri sering telah keluar-beratnya efek diferensial dari dua jenis tujuan.
Hal ini dikonfirmasi dalam studi kedua di mana semua siswa melakukan evaluasi diri, tapi
hanya pada satu kesempatan mendekati akhir daripada setelah semua enam sesi pertama.
Ada dua kelompok yang berbeda hanya dalam jenis tujuan yang menekankan-Tujuannya

adalah untuk memungkinkan efek tujuan untuk menunjukkan tanpa efek luar biasa yang
mungkin dari evaluasi diri sering. Seperti yang diharapkan, orientasi tujuan pembelajaran
menyebabkan motivasi dan prestasi yang lebih tinggi daripada hasil tujuan kinerja.
Pekerjaan dalam penelitian ini kurikulum terkait, dan petunjuk yang diberikan di keempat
`perlakuan 'yang dari jenis yang mungkin telah diberikan oleh guru yang berbeda, meskipun
frekuensi tinggi dari sesi evaluasi diri akan sangat tidak biasa. Dengan demikian, penelitian ini
lebih dekat dengan validitas ekologi tetapi tetap percobaan dibikin luar kondisi kelas normal.
Ini saham dengan sebelumnya (kelima) mempelajari fokus pada orientasi tujuan, tetapi
menunjukkan bahwa fitur ini berinteraksi dengan umpan balik evaluatif, baik di dalam dua jenis
tugas, dan apakah atau tidak umpan balik ini berasal dari sumber eksternal atau dari evaluasi
diri .
Contoh ketujuh yang terlibat bekerja untuk mengembangkan kurikulum berbasis sains sekolah
menengah berbasis inquiry (Frederiksen & White, 1997). Kursus mengajar difokuskan pada
pendekatan inquiry praktis untuk belajar tentang gaya dan gerak, dan pekerjaan yang terlibat
12 kelas dari 30 siswa setiap di dua sekolah. Setiap kelas diajarkan untuk rencana kurikulum
hati-hati dibangun di mana urutan isu berdasarkan konseptual telah dieksplorasi melalui
eksperimen dan simulasi komputer, menggunakan model siklus penyelidikan yang dibuat
eksplisit kepada siswa. Semua pekerjaan dilakukan dalam kelompok sebaya. Setiap kelas
dibagi menjadi dua bagian: kelompok kontrol digunakan beberapa periode waktu untuk diskusi
umum modul, sementara kelompok eksperimen menghabiskan waktu yang sama pada
diskusi, terstruktur untuk mempromosikan penilaian reflektif, dengan kedua penilaian sejawat
dari presentasi untuk kelas dan penilaian diri. Karya eksperimental ini disusun sekitar
penggunaan siswa alat penyelidikan sistematis dan beralasan, dan konteks sosial menulis dan
mode komunikasi lainnya. Semua siswa diberi tes kemampuan dasar yang sama sejak awal.
Ukuran hasil yang dari tiga jenis: satu nilai rata-rata pada proyek-proyek di seluruh kursus,
satu skor pada dua proyek dipilih yang setiap siswa dilakukan secara mandiri, dan satu skor
pada tes fisika konseptual. Pada skor proyek rata-rata, kelompok eksperimen menunjukkan
kenaikan yang signifikan secara keseluruhan; Namun, ketika siswa dibagi menjadi tiga
kelompok sesuai dengan nilai rendah, sedang atau tinggi pada awal tes keterampilan dasar,
kelompok skor rendah menunjukkan superioritas suatu, atas rekan-rekan kelompok kontrol
mereka, lebih dari tiga standar deviasi, kelompok menengah hanya lebih dari dua, dan
kelompok yang tinggi lebih dari satu. Sebuah pola yang sama, superioritas dari kelompok
eksperimen yang lebih ditandai untuk siswa skor rendah pada tes keterampilan dasar, juga
ditemukan dua hasil lainnya. Di antara siswa dalam kelompok eksperimen, mereka yang
menunjukkan pemahaman terbaik dari proses penilaian mencapai nilai tertinggi.
Proyek ilmu ini sekali lagi menunjukkan versi penilaian formatif yang merupakan komponen
intrinsik dari inovasi yang lebih menyeluruh-akan mengubah pengajaran dan pembelajaran.
Sementara perbedaan eksperimen-kontrol di sini berbaring hanya dalam pengembangan
`penilaian reflektif 'di antara siswa, pekerjaan ini tertanam dalam lingkungan di mana penilaian
tersebut adalah komponen intrinsik. Dua fitur khas lain dari penelitian ini adalah pertama,
penggunaan ukuran hasil dari berbagai jenis, tetapi semua langsung mencerminkan tujuan
pengajaran, dan yang kedua keuntungan diferensial antara siswa yang akan diberi label
`kemampuan rendah 'dan` kemampuan tinggi' masing-masing.
Contoh kedelapan dan terakhir adalah berbeda dari yang lain, dalam hal ini adalah metaanalisis dari 21 studi yang berbeda, anak-anak mulai dari pra-sekolah sampai kelas 1: 2, yang
di antara mereka menghasilkan 96 efek ukuran yang berbeda (Fuchs & Fuchs, 1986). Fokus
utama adalah pada pekerjaan untuk anak-anak dengan cacat ringan, dan pada penggunaan
umpan balik untuk dan oleh guru. Penelitian itu hati-hati dipilih-segala-yang terlibat antara
kelompok eksperimen dan kontrol, dan semua kegiatan penilaian yang terlibat dengan
frekuensi antara 2 dan 5 kali per minggu. Efek ukuran rata-rata yang diperoleh adalah 0,70.
Beberapa studi juga termasuk anak-anak tanpa cacat: ini memberikan efek ukuran rata-rata

0,63 lebih dari 22 set hasil (tidak berbeda secara signifikan dari rata-rata 0,73 untuk kelompok
cacat). Para penulis mencatat bahwa sekitar setengah dari studi guru bekerja untuk
menetapkan aturan tentang ulasan dari data dan tindakan untuk mengikuti, sedangkan di lain
tindakan yang tersisa untuk penilaian guru. Mantan menghasilkan efek ukuran rata-rata 0,92
dibandingkan dengan 0,42 untuk yang kedua. Demikian pula, mereka studi di mana guru
melakukan untuk menghasilkan grafik kemajuan anak individu sebagai panduan dan stimulus
untuk bertindak melaporkan keuntungan rata-rata yang lebih besar daripada yang mana hal
ini tidak dilakukan (berarti efek ukuran 0.70 dibandingkan dengan 0,26).
Tiga fitur dari contoh terakhir ini adalah kepentingan tertentu di sini. Yang pertama adalah
bahwa penulis membandingkan keberhasilan mencolok dari pendekatan formatif dengan hasil
yang tidak memuaskan dari program yang telah berusaha untuk bekerja dari resep priori untuk
program pembelajaran individual untuk anak-anak, berdasarkan teori-teori belajar tertentu dan
diagnostik pra-tes. Program-program tersebut diwujudkan pendekatan deduktif kontras
dengan pendekatan induktif dari program umpan balik formatif. Fitur kedua adalah bahwa
keuntungan pembelajaran utama dari karya formatif hanya dicapai ketika guru dibatasi untuk
menggunakan data dengan cara yang sistematis yang baru bagi mereka. Fitur ketiga adalah
bahwa akumulasi seperti bukti seharusnya memberikan beberapa dorongan umum untuk
pengembangan penilaian formatif - belum makalah ini tampaknya telah diabaikan dalam
sebagian besar literatur kemudian.
Beberapa Masalah Umum
Studi yang dipilih sejauh semua didasarkan pada perbandingan kuantitatif keuntungan belajar,
enam dari mereka, dan orang-orang Ulasan di kedelapan, yang ketat dalam menggunakan
pra dan pasca - tes dan perbandingan eksperimental dengan kelompok kontrol. Kami tidak
menyiratkan bahwa informasi yang berguna dan wawasan tentang topik tidak dapat diperoleh
dengan bekerja di paradigma lain.
Seperti disebutkan dalam Pendahuluan, validitas ekologi studi jelas penting dalam
menentukan penerapan hasil kerja kelas normal. Namun, kami akan menganggap bahwa,
mengingat hati-hati ini, pelajaran berguna yang dapat dipelajari dari penelitian yang terletak di
berbagai titik antara `'kelas normal dan kondisi khusus yang dibentuk oleh para peneliti. Dalam
hal ini semua studi menunjukkan beberapa derajat gerakan menjauh dari `normal 'kelas. Studi
(oleh Whiting et al., 1995) yang paling jelas salah satu ajaran normal dalam kelas sehari-hari
adalah, mau tidak mau, salah satu yang perbandingan kuantitatif dengan kontrol ketat setara
itu tidak mungkin. Lebih umum, hati-hati harus dilakukan untuk setiap studi di mana mereka
mengajar kelompok eksperimen tidak guru sama dengan yang untuk setiap kelompok kontrol.
Mengingat pemesanan ini, bagaimanapun, adalah mungkin untuk meringkas beberapa fitur
umum yang menggambarkan contoh-contoh ini dan yang akan berfungsi sebagai kerangka
kerja untuk bagian akhir artikel ini.
Sulit untuk melihat bagaimana setiap inovasi dalam penilaian formatif dapat diperlakukan
sebagai perubahan marjinal dalam pekerjaan kelas. Semua pekerjaan tersebut melibatkan
beberapa derajat umpan balik antara mereka diajarkan dan guru, dan ini mensyaratkan dalam
kualitas interaksi mereka yang berada di jantung pedagogi. Sifat interaksi ini antara guru dan
siswa, dan siswa dengan satu sama lain, akan menjadi penentu utama untuk hasil perubahan,
tetapi sulit untuk mendapatkan data tentang kualitas ini dari banyak laporan yang diterbitkan.
Contoh yang menunjukkan bagian dari berbagai cara di mana ditingkatkan kerja formatif dapat
tertanam dalam mode baru pedagogi. Secara khusus, itu bisa menjadi fitur yang menonjol dan
eksplisit dari suatu inovasi, atau tambahan untuk beberapa gerakan skala yang berbeda dan
lebih besar - seperti penguasaan pembelajaran. Dalam kedua kasus itu mungkin sulit untuk
memisahkan kontribusi tertentu dari umpan balik formatif untuk setiap keuntungan
pembelajaran. Masalah evaluasi lain yang muncul di sini adalah bahwa hampir semua inovasi

terikat untuk mengejar inovasi dalam ujung serta sarana, sehingga permintaan untuk
perbandingan kuantitatif ambigu efektivitas pernah bisa sepenuhnya puas.
Mendasari berbagai pendekatan asumsi tentang psikologi belajar. Ini dapat eksplisit dan
mendasar, seperti di dasar konstruktivis pertama dan terakhir dari contoh, atau dalam
pendekatan diagnostik Bergan dkk. (1991) atau implisit dan pragmatis, seperti dalam
pendekatan pembelajaran penguasaan.
Untuk penilaian formatif menjadi informasi umpan balik harus digunakan-yang berarti bahwa
aspek penting dari pendekatan apapun akan perawatan diferensial yang tergabung dalam
menanggapi umpan balik. Di sini sekali lagi asumsi tentang belajar, dan tentang struktur dan
sifat tugas belajar yang akan memberikan tantangan terbaik untuk meningkatkan
pembelajaran, akan signifikan. Varietas yang berbeda dan prioritas di seluruh asumsi ini
membuat kemungkinan berbagai eksperimen yang melibatkan penilaian formatif.
Peran siswa dalam penilaian merupakan aspek penting, disembunyikan karena hanya diambil
untuk diberikan di beberapa laporan, tapi eksplisit pada orang lain, terutama di mana diri dan
peer penilaian oleh dan antara mahasiswa adalah fitur penting (dengan beberapa alasan
bahwa itu adalah tak terhindarkan Fitur-lihat Sadler, 1989).
Efektivitas kerja formatif tidak hanya tergantung pada isi umpan balik dan kesempatan belajar
yang terkait, tetapi juga pada konteks yang lebih luas dari asumsi tentang motivasi dan selfpersepsi siswa di mana itu terjadi. Secara khusus, umpan balik yang diarahkan untuk
kebutuhan obyektif mengungkapkan, dengan asumsi bahwa setiap siswa dapat dan akan
berhasil, memiliki efek yang sangat berbeda dari bahwa umpan balik yang subjektif dalam
menyebutkan perbandingan dengan rekan-rekan, dengan asumsi - meskipun covert-- bahwa
beberapa siswa yang tidak mampu yang lain sehingga tidak dapat mengharapkan sukses
penuh.
Namun, fitur yang konsisten di berbagai contoh-contoh ini adalah bahwa mereka semua
menunjukkan bahwa perhatian terhadap penilaian formatif dapat menyebabkan keuntungan
belajar yang signifikan. Meskipun tidak ada jaminan bahwa ia akan melakukannya terlepas
dari konteks dan pendekatan tertentu diadopsi, kami belum menemukan laporan apapun dari
efek negatif berikut pada peningkatan praktek formatif. Dalam hal ini, satu pesan umum dari
tinjauan Crooks telah lebih didukung.
Salah satu contoh, studi TK dari Bergan dkk. (1991) membawa keluar secara dramatis
pentingnya yang mungkin melekat pada pencapaian keuntungan tersebut. Inovasi ini
khususnya telah mengubah peluang kehidupan banyak anak. Realitas yang tajam ini mungkin
tidak terlihat sepenting itu benar-benar adalah ketika hasilnya disajikan datar dalam hal ukuran
efek (katakanlah) 0,4 standar deviasi.
Untuk mengumpulkan lebih dari karya yang diterbitkan, perlu untuk mengubah gigi dan
menjauh dari deskripsi holistik contoh dipilih untuk bentuk yang lebih analitik presentasi. Ini
akan dilakukan dalam lima bagian berikutnya.
Penilaian oleh Guru
Praktek saat ini
Praktek guru dalam penilaian formatif ditinjau dalam artikel oleh Crooks (1988) dan Black
(1993b). Beberapa fitur umum muncul dari survei ini. Gambaran keseluruhan adalah salah
satu praktik yang lemah. Kelemahan utama adalah:

Praktek evaluasi kelas umum mendorong pembelajaran yang dangkal dan hafalan,
berkonsentrasi pada mengingat rincian terisolasi, biasanya item pengetahuan yang siswa
segera melupakan.
Guru umumnya tidak meninjau pertanyaan penilaian yang mereka gunakan dan tidak
mendiskusikannya kritis dengan teman sebaya, sehingga ada sedikit refleksi pada apa yang
sedang dinilai.
Fungsi grading terlalu ditekankan dan fungsi pembelajaran di bawah-ditekankan.
Ada kecenderungan untuk menggunakan normatif daripada pendekatan kriteria, yang
menekankan persaingan antara murid dan bukan perbaikan pribadi masing-masing. Bukti
adalah bahwa dengan praktek-praktek seperti efek umpan balik adalah untuk mengajarkan
murid lemah bahwa mereka tidak memiliki kemampuan, sehingga mereka de-termotivasi dan
kehilangan kepercayaan dalam kapasitas mereka sendiri untuk belajar.
Penelitian yang lebih baru telah mengkonfirmasi gambaran umum ini. Guru tampaknya tidak
menyadari pekerjaan penilaian rekan dan tidak percaya atau menggunakan hasil penilaian
mereka (Cizek et al, 1995;.. Balai et al, 1997). Baik dalam mempertanyakan dan ditulis kerja,
penilaian guru berfokus pada tingkat rendah tujuan, terutama mengingat. Ada sedikit fokus
pada hasil seperti spekulasi dan refleksi kritis (Stiggins et al, 1989;. Schilling et al, 1990;. Pijl,
1992; Bol & Strage, 1996;. Senk et al, 1997), dan siswa fokus pada mendapatkan melalui
tugas dan menolak upaya untuk terlibat dalam kegiatan berisiko kognitif (Duschl & Gitomer,
1997). Meskipun guru dapat memprediksi kinerja murid mereka pada tes eksternal - meskipun
tes mencerminkan tingkat rendah bertujuan - penilaian mereka sendiri tidak memberitahu
mereka apa yang mereka perlu tahu tentang siswa mereka belajar (Lorsbach et al, 1992;.
Rudman, 1987).
Ulasan praktek sekolah dasar di Inggris dan di Yunani telah melaporkan bahwa guru catatan
cenderung menekankan kuantitas karya siswa daripada kualitas, dan bahwa sementara tugastugas sering dibingkai dalam hal kognitif, penilaian yang dalam hal afektif, dengan penekanan
pada fungsi sosial dan manajerial (Bennett et al, 1992;.. Pollard et al, 1994; Mavromattis,
1996). Ada beberapa komentar mencolok oleh mereka yang telah meneliti masalah ini - satu
laporan tentang praktek ilmu melihat formatif dan penilaian diagnostik sebagai `yang serius
membutuhkan pembangunan '(.. Russell et al, 1995, p 489), yang lain menutup dengan
Pertanyaan bingung Mengapa tingkat dan sifat dari penilaian formatif dalam ilmu sehingga
miskin? ' (Daws & Singh, 1996, hal. 99), sementara survei guru di Provinsi Quebec, Kanada,
melaporkan bahwa untuk penilaian formatif `Memang mereka membayar layanan bibir untuk
itu tetapi mempertimbangkan bahwa praktek adalah realistis dalam konteks pendidikan hadir
'( dikutip Dassa et al., 1993, hal. 116). Kesimpulan dari survei tentang praktek di sekolah dasar
Belgia adalah bahwa kriteria yang digunakan oleh guru `hampir tidak valid dengan standar
eksternal '(Grisay, 1991, hal. 104). Sebuah studi yang digunakan wawancara dan
menghasilkan gambar yang lebih kaya dari persepsi guru US menyimpulkan sebagai berikut:
Sebagian besar guru dalam penelitian ini tertangkap dalam konflik antara sistem kepercayaan,
dan struktur kelembagaan, agenda, dan nilai-nilai. Titik gesekan antara konflik ini adalah
penilaian, yang dikaitkan dengan perasaan yang sangat kuat kewalahan, dan ketidakamanan,
rasa bersalah, frustrasi, dan kemarahan. Guru-guru ini menyatakan kesulitan dalam melacak
dan memiliki bahasa untuk berbicara tentang perkembangan melek anak. Mereka juga
menggambarkan tekanan dari pengujian akuntabilitas eksternal. Mereka berbeda dalam
strategi penilaian mereka dan dalam bahasa yang mereka digunakan untuk menggambarkan
pengembangan literasi siswa. Mereka yang bekerja dalam situasi yang sangat mengendalikan
yang cenderung menggunakan menyalahkan bahasa dan cenderung untuk memberikan,
penilaian deskriptif negatif global dalam bahasa impersonal. Penilaian mereka kemungkinan
besar akan didasarkan pada, pengertian linear sederhana melek. Semakin sedikit

mengendalikan situasi yang kurang ini mungkin terjadi. Studi ini menunjukkan bahwa
penilaian, seperti yang terjadi di sekolah-sekolah, jauh dari masalah hanya teknis. Sebaliknya,
itu adalah sangat sosial dan pribadi. (Johnston et al., 1995, p. 359)
Kutipan terakhir ini juga menarik perhatian dominasi pengujian surnmative eksternal. Efek sini
berjalan dalam, menyaksikan bukti di Inggris bahwa ketika guru diminta untuk melakukan
penilaian mereka sendiri, mereka meniru tes eksternal (Bennett et al., 1992), dan tampaknya
mampu berpikir hanya dalam hal tes sumatif sering dengan tidak ada tindakan umpan balik
(Ratcliffe, 1992; Harlen & Malcolm, 1996). Efek yang sama ditemui di reformasi penilaian di
Queensland (Butler & Beasley, 1987). Sebuah ketegangan yang berbeda antara penilaian
formatif dan sumatif muncul ketika guru bertanggung jawab untuk kedua fungsi: ada
perdebatan antara mereka yang menarik perhatian pada kesulitan menggabungkan dua peran
(Simpson, 1990; Scott, 1991; Harlen et al, 1992). dan mereka yang berpendapat bahwa hal
itu dapat dilakukan dan memang harus dilakukan untuk menghindari dominasi pengujian
sumatif eksternal (Hitam, 1993a; William & Black, 1996). Persyaratan di Skotlandia, bahwa
guru menggunakan tes eksternal ketika mereka berpikir murid mereka siap, dan terutama
untuk tujuan moderasi (yaitu memeriksa konsistensi standar antara sekolah), tampaknya tidak
telah diselesaikan ketegangan ini (Harlen et al., 1995) .
Penilaian, Pedagogi dan Inovasi
Mengingat masalah ini, tidak mengherankan bahwa ketika kebijakan penilaian nasional atau
lokal berubah, guru menjadi bingung. Beberapa laporan yang dikutip di atas memberikan bukti
ini. Implementasi tambal sulam dilaporkan untuk reformasi penilaian guru di Perancis
(Broadfoot et al., 1996) dan dalam bahasa Perancis Kanada (Dassa, 1990), sementara di
Inggris perubahan tersebut telah menghasilkan keragaman praktek, beberapa di antaranya
mungkin counter produktif dan bertentangan dengan tujuan menyatakan perubahan yang
memicu mereka (McCallum et al, 1993;.. Gipps et al, 1997). Di mana perubahan telah
diperkenalkan dengan pelatihan substansial atau sebagai bagian intrinsik dari sebuah proyek
di mana guru telah terlibat erat, laju perubahan lambat karena sangat sulit bagi guru untuk
mengubah praktik yang tertanam erat dalam keseluruhan pola mereka pedagogi (Torrie, 1989;
Shepard et al, 1994, 1996;. Shepard, 1995) dan. banyak kekurangan kerangka penafsiran
yang mereka butuhkan untuk mengkoordinasikan banyak bit yang terpisah dari informasi
penilaian dalam terang tujuan pembelajaran yang luas (Bachor & Anderson, 1994). Memang,
beberapa pekerjaan seperti gagal untuk menghasilkan efeknya. Sebuah proyek dengan guru
dalam seni kreatif, yang mencoba untuk melatih mereka untuk berkomunikasi dengan siswa
untuk menghargai pandangan siswa tentang pekerjaan mereka sendiri, menemukan bahwa
meskipun pelatihan, banyak guru menempel agenda mereka sendiri dan gagal untuk
menanggapi isyarat atau petunjuk dari siswa yang bisa kembali berorientasi bahwa agenda
(Radnor, 1994).
Isu yang muncul di sini, seperti yang terjadi di bagian atas pengalaman Kelas, adalah link
dekat praktek penilaian formatif baik dengan komponen lain dari pedagogi guru sendiri, dan
dengan konsepsi guru dari perannya. Dalam sebuah proyek yang bertujuan untuk
meningkatkan kekuatan guru sains untuk mengamati siswa mereka di tempat kerja, guru tidak
bisa menemukan waktu untuk mengamati karena mereka tidak siap untuk mengubah praktik
kelas untuk memberikan siswa tanggung jawab lebih bebas dan memberikan diri mereka
kurang kontrol erat menuntut . Para penulis menafsirkan ini sebagai keengganan untuk
memecahkan simbiosis yang ada saling ketergantungan antara guru dan siswa (Cavendish et
al., 1990). Dalam penelitian dengan guru pendidikan khusus, Allinder (1995) menemukan
bahwa guru dengan keyakinan yang kuat dalam keberhasilan pribadi dan mengajar mereka
tinggi membuat lebih baik menggunakan penilaian formatif dari rekan-rekan mereka kurang
percaya diri.

Kami belum mencoba di sini untuk memberikan review yang komprehensif dari literatur
tentang praktek penilaian guru. Tujuannya telah menyoroti beberapa poin kunci yang relevan
dengan tujuan utama dari tinjauan ini. Ketiga fitur yang luar biasa adalah:
bahwa penilaian formatif tidak dipahami dengan baik oleh guru dan lemah dalam praktek;
bahwa konteks persyaratan nasional atau lokal untuk sertifikasi dan akuntabilitas akan
memberikan pengaruh yang kuat pada praktek; dan
yang pelaksanaannya panggilan untuk perubahan agak dalam baik dalam persepsi guru dari
peran mereka sendiri dalam hubungannya dengan siswa dan dalam praktek kelas mereka.
Fitur-fitur ini memiliki implikasi untuk penelitian ke daerah ini. Penelitian yang hanya
menginterogasi praktek yang ada mungkin dapat melakukan sedikit lebih dari mengkonfirmasi
temuan agak mengecewakan dilaporkan di atas. Untuk menjadi produktif karena itu, penelitian
harus dikaitkan dengan program intervensi. Jika intervensi tersebut adalah untuk mencari
implementasi dengan dan melalui guru di kelas mereka yang normal, itu akan mengubah peran
dan cara mengajar mereka; maka inisiatif formatif akan menjadi bagian dari pola yang lebih
besar dari perubahan dan evaluasi harus dilihat dalam konteks yang lebih besar. Potongan
difokuskan lebih dekat dari penelitian mungkin akan lebih menarik sebagai cara untuk
mengeksplorasi isu-isu yang berbeda yang terlibat, tapi mungkin harus menggunakan peneliti
diimpor karena guru tidak dapat diharapkan cepat untuk meninggalkan peran kebiasaan dan
metode untuk percobaan terbatas. Jadi setidaknya beberapa penelitian yang diperlukan pasti
akan kekurangan validitas ekologi.
Mahasiswa dan Penilaian Formatif
Inti dari kegiatan penilaian formatif terletak pada urutan dua tindakan. Yang pertama adalah
persepsi oleh pelajar dari kesenjangan antara tujuan yang diinginkan dan keadaan sekarang
nya (pengetahuan, dan / atau pemahaman, dan / atau keterampilan). Yang kedua adalah
tindakan yang dilakukan oleh pelajar untuk menutup kesenjangan bahwa untuk mencapai
tujuan yang diinginkan (Ramaprasad, 1983; Sadler, 1989). Untuk aksi pertama, tanggung
jawab utama untuk menghasilkan informasi yang mungkin terletak dengan siswa dalam
penilaian diri, atau dengan orang lain, terutama guru, yang discerns dan menafsirkan
kesenjangan dan mengkomunikasikan pesan tentang hal itu kepada siswa. Apapun prosedur
dimana pesan ketetapan yang dihasilkan, dalam kaitannya dengan tindakan yang dilakukan
oleh pelajar itu akan menjadi kesalahan untuk menganggap siswa sebagai penerima pasif dari
panggilan untuk bertindak. Ada link yang kompleks antara cara di mana pesan diterima, cara
di mana persepsi yang memotivasi pilihan antara program yang berbeda dari tindakan, dan
kegiatan belajar yang mungkin atau mungkin tidak mengikuti.
Untuk keperluan ulasan ini, keterlibatan siswa dalam penilaian formatif akan dipertimbangkan
oleh divisi menjadi dua topik yang luas, sebagai berikut:
(1) Yang pertama akan fokus pada faktor-faktor tersebut yang mempengaruhi penerimaan
pesan dan keputusan pribadi tentang bagaimana menanggapi hal itu. Kekhawatiran akan
dengan efek dari keyakinan tentang tujuan pembelajaran, mengenai kapasitas seseorang
untuk merespon, tentang risiko yang terlibat dalam merespon dalam berbagai cara, dan
tentang apa pekerjaan pembelajaran harus seperti: semua ini mempengaruhi motivasi untuk
mengambil tindakan, pemilihan garis tindakan dan sifat komitmen seseorang untuk itu.
(2) kedua akan fokus pada cara-cara yang berbeda di mana tindakan positif dapat diambil dan
rezim dan konteks bekerja di mana tindakan yang mungkin dilakukan. Fokus di sini akan di
metode penelitian, kemampuan belajar, bekerja sama dengan rekan-rekan, dan kemungkinan
sebaya dan penilaian diri.

Jelas ada interaksi yang kuat antara kedua daerah. Secara khusus, jika diri dan peerassessment dipromosikan di kelas, ini mempengaruhi generasi awal pesan tentang
kesenjangan serta cara di mana pelajar dapat bekerja untuk menutupnya. Namun, set overmelengkung dari keyakinan yang harus dipertimbangkan dalam fokus beruang pertama pada
persepsi dan respon terhadap pesan umpan balik, meskipun dengan cara yang berbeda,
apakah mereka dihasilkan oleh diri atau oleh orang lain. Dalam studi yang dilaporkan dalam
topik pertama, kedua sumber umpan balik telah dipertimbangkan.
Penerimaan dan Respon
Dalam analisisnya tentang penilaian formatif oleh guru di Perancis, Perrenoud komentar
bahwa:
Sejumlah murid tidak bercita-cita untuk belajar sebanyak mungkin, tetapi konten untuk
'mendapatkan oleh', untuk melewati periode, hari atau tahun tanpa bencana besar, memiliki
membuat waktu untuk kegiatan lain selain pekerjaan sekolah [. ..] Penilaian formatif selalu
mengandaikan pergeseran titik keseimbangan ini terhadap pekerjaan sekolah lagi, sikap yang
lebih serius untuk belajar [...] Setiap guru yang ingin berlatih penilaian formatif harus
merekonstruksi kontrak mengajar sehingga dapat menangkal kebiasaan diakuisisi oleh muridmuridnya. Selain itu, beberapa anak-anak dan remaja dengan siapa ia berurusan dipenjara di
identitas seorang murid yang buruk dan lawan. (Perrenoud, 1991, hal. 92 (huruf miring
penulis))
Pandangan yang agak pesimis ini didukung, tetapi dimodifikasi, dengan ditemukannya Swain
1991) bahwa beberapa siswa sekunder bekerja pada guru dinilai proyek ilmu pengetahuan di
Inggris akan menanggapi kesulitan yang serius dengan bekerja pada aspek anak perusahaan
dari tugas, sehingga menghindari masalah utama, dan akan 'tak pernah puas' dalam
pencarian mereka untuk isyarat untuk 'jawaban yang benar' dari guru. Gejala ini tidak aman
disertai dengan sering bergerak untuk mengamankan diri dari guru. Demikian pula, Blumenfeld
melaporkan (1992) bahwa beberapa siswa AS akan mencoba untuk menghindari risiko yang
terlibat dalam menangani tugas yang menantang.
Jadi sementara keengganan untuk ditarik ke dalam keterlibatan yang lebih serius dengan
pekerjaan belajar mungkin timbul dari keinginan hanya untuk meminimalkan usaha, bisa ada
pengaruh lain. Satu masalah mungkin takut - komitmen pribadi tambahan yang diperlukan
dapat membawa dengan itu suatu hukuman ditingkatkan untuk kegagalan dalam hal
seseorang harga diri. Masalah lain mungkin bahwa siswa dapat gagal untuk mengenali umpan
balik formatif sebagai sinyal membantu dan panduan (Tunstall & Gipps, 1996a). Purdie &
Hattie (1996) studi banding dari tanggapan siswa Jepang dan Australia, yang bertujuan untuk
mengeksplorasi diri mereka - strategi regulasi, menunjukkan bahwa respon dapat ditentukan
secara kultural. Banyak penelitian melaporkan bahwa keuntungan belajar yang positif dijamin
dengan umpan balik formatif berhubungan dengan sikap yang lebih positif untuk pembelajaran
- terutama di rezim penguasaan pembelajaran dimana penggunaan yang akan dibuat dari
umpan balik yang jelas direncanakan (Kulik et al, 1990;. Whiting et al. , 1995), tetapi ada juga
bisa negatif mempengaruhi dan pengertian tentang sikap dan motivasi harus dieksplorasi
secara lebih rinci jika asal efek tersebut harus dipahami.
Dalam review dan analisis yang disampaikan oleh Blumenfeld (1992), ia menunjukkan bukti
bahwa siswa dapat enggan untuk mencari bantuan, dan tidak selalu senang menerima
bantuan tambahan karena ditafsirkan sebagai bukti kemampuan mereka rendah. Demikian
pula, dalam penelitian eksperimental mereka dari efek berbagai bentuk bimbingan dengan 3
dan kelas 6 memecahkan masalah matematika, Newman & Schwager (1995) menemukan
bahwa, sementara pendekatan yang berbeda bisa membuat perbedaan, frekuensi permintaan
bantuan dari semua siswa mengejutkan rendah dan mereka menyimpulkan bahwa ada
kebutuhan untuk mendorong lebih banyak mencari bantuan di kelas biasa. Fitur utama dari

studi khusus ini adalah bahwa perbedaan antara dua bentuk bimbingan umpan balik yang
diberikan adalah satu tampaknya sempit. Satu kelompok diberitahu bahwa tujuan dari
pekerjaan yang belajar ('ini akan membantu Anda untuk belajar hal-hal baru ...') dengan
penekanan pada pentingnya memahami bagaimana untuk mengatasi masalah dari jenis yang
disajikan, sementara untuk yang lain tujuan stres adalah kinerja mereka sendiri ('Bagaimana
Anda lakukan membantu kita untuk mengetahui seberapa pintar Anda dan apa jenis kelas
Anda akan mendapatkan ...') dengan sesuai penekanan pada menyelesaikan masalah
sebanyak mungkin. Terlepas dari perbedaan ini, semua menerima pendidikan yang sama,
termasuk umpan balik, dalam hal pekerjaan dan semua didorong untuk mencari bantuan
setiap kali mereka merasa perlu. Para siswa tujuan kinerja lebih cenderung menunjukkan pola
pertanyaan maladaptif dan memecahkan masalah yang lebih sedikit, terutama ketika mereka
awalnya diklasifikasikan sebagai berprestasi rendah dibandingkan di dua kelompok.
Tujuan Orientasi
Ini efek dari orientasi tujuan pembelajaran telah diteliti secara luas. Studi tentang Ames &
Archer (1988) hanya melibatkan penyelidikan tujuan bahwa siswa sudah digelar. Mereka
menemukan bahwa sampel mereka dari 176 siswa mulai lebih nilai 8 sampai 11 dapat dibagi
menjadi dua kelompok - mereka dengan orientasi penguasaan dan orang-orang dengan
orientasi kinerja. Mantan berbicara tentang pentingnya belajar, percaya pada nilai upaya untuk
mencapai penguasaan, dan memiliki sikap yang umumnya positif untuk belajar. The
disebabkan kegagalan kedua kurangnya kemampuan, lebih berbicara dari segi kemampuan
relatif mereka, belajar dengan relatif sedikit usaha jika mampu, dan terfokus pada pentingnya
keluar-melakukan orang lain. Perbedaan serupa dilakukan dalam studi intervensi oleh Butler
(1988) sudah dijelaskan pada bagian pengalaman Kelas atas di mana istilah 'ego-melibatkan
umpan balik' dan 'tugas-melibatkan umpan balik' yang digunakan. Hasil mengejutkan dari studi
ini, bahwa pemberian nilai bisa merusak bantuan positif yang diberikan oleh komentar tugas,
menggambarkan sensitivitas isu yang diangkat di sini. Dalam sebuah penelitian kemudian,
Butler & Neuman (1995) menunjukkan bahwa mereka dalam mode tugas lebih mungkin untuk
mencari bantuan dan untuk menjelaskan bantuan-menghindari dalam hal mencari
penguasaan independen, sementara orang-orang di mode ego meminta bantuan kurang dan
menjelaskan menghindari mereka di hal masking ketidakmampuan mereka. Dua ulasan umum
bidang ini baik stres bahwa umpan balik yang menarik perhatian dari tugas dan terhadap harga
diri dapat memiliki efek negatif pada sikap dan kinerja (Cameron & Pierce, 1994; Kluger &
DeNisi, 1996). Hal ini bahkan kasus yang memberikan pujian dapat memiliki efek buruk,
terutama jika tidak terkait dengan umpan balik yang obyektif tentang pekerjaan. Lepper &
Hodell (1989) berpendapat bahwa sistem reward dapat merusak baik minat dan motivasi,
sementara sebuah studi rinci oleh Pryor & Torrance (1996) menunjukkan bagaimana seorang
guru dapat berkonsentrasi pada perawatan pelindung untuk anak dengan mengorbankan
membantu anak untuk belajar.
Beberapa studi oleh Schunk (Schunk, 1996) telah mengembangkan tema yang sama ini. Ini
telah dibawa keluar dalam satu dijelaskan pada bagian pengalaman Kelas. Dalam dua studi,
satu di belajar membaca dengan siswa kelas 5 remedial (Schunk & Rice, 1991), yang lain
menulis instruksi dengan arus utama 5-kelas. (Schunk & Swartz, 1993a), kedua menunjukkan
bahwa hasil yang lebih baik dijamin dengan memberikan gol proses daripada tujuan produk,
dan keduanya menunjukkan bahwa di mana umpan balik pada tujuan proses itu dilengkapi
untuk menyertakan informasi tentang kemajuan siswa ke arah tujuan keseluruhan dari belajar,
kinerja pembelajaran baik siswa dan keyakinan mereka tentang kemampuan kinerja mereka
sendiri (self-efficacy), berada di level tertinggi. Pola-pola hubungan antara prestasi, konsep
diri, dan rezim studi dan umpan balik yang dialami oleh siswa telah menjadi subyek dari
analisis rinci, menggunakan hasil dari 12 program biologi SMA, oleh Thomas et al. (1993).
Pola kompleks link muncul, tetapi pentingnya konsep diri jelas, dan juga tampak bahwa
pemberian tugas yang menantang dan umpan balik yang luas menyebabkan keterlibatan
siswa lebih besar dan prestasi yang lebih tinggi.

Self-Persepsi
Dalam review yang lebih umum dari literatur di bidang ini, Ames (1992) mulai dari bukti tentang
keuntungan yang 'penguasaan' (yaitu-tugas yang berhubungan) tujuan dapat mengamankan
dan ulasan fitur yang menonjol dari lingkungan belajar yang dapat membantu untuk
mengamankan keunggulan ini. Dia menyimpulkan bahwa evaluasi kepada siswa harus fokus
pada perbaikan individu dan penguasaan, tapi sebelum ini tugas yang diusulkan harus
membantu siswa untuk menetapkan tujuan diri direferensikan mereka sendiri dengan
menawarkan tantangan yang berarti, menarik dan cukup menuntut. Dia juga
merekomendasikan bahwa umpan balik harus pribadi, harus dikaitkan dengan peluang untuk
perbaikan, dan harus mendorong pandangan bahwa kesalahan adalah bagian dari
pembelajaran. The persepsi diri siswa adalah yang paling penting di sini, dan ini akan sangat
dipengaruhi oleh 'keyakinan tentang kepentingan relatif dari' guru upaya 'sebagai terhadap
kemampuan' dalam pandangan mereka belajar. Secara khusus, adalah penting bahwa
motivasi dipandang melibatkan perubahan dalam keyakinan kualitatif siswa tentang diri
mereka sendiri, yang pengaturan tujuan dan gaya umpan balik harus baik dirancang untuk
mengamankan. Penggunaan imbalan ekstrinsik dapat menjadi kontra-produktif jika mereka
memusatkan perhatian pada kemampuan 'bukan pada keyakinan bahwa upaya seseorang
dapat menghasilkan kesuksesan. Tentu saja, kepercayaan rekan-rekan dan orang tua juga
dapat mempengaruhi cara di mana-konsep diri siswa dikembangkan, seperti yang ditunjukkan
dalam analisis Blumenfeld (1992), yang menarik kesimpulan umum mirip dengan Ames.
Ada bukti dari banyak studi bahwa keyakinan peserta didik tentang kapasitas mereka sendiri
sebagai pembelajar dapat mempengaruhi prestasi mereka. Contoh yang dapat ditambahkan
untuk mereka yang sudah dikutip di atas adalah dari Lan et al. (1994), Craven et al. (1991),
Fernandes & Fontana (1996), Raja (1994) dan Butler & Winne (1995). Studi tentang
Fernandes & Fontana menunjukkan bahwa prestasi dalam eksperimen di Portugal dijelaskan
pada bagian pengalaman Kelas yang terkait dengan peningkatan rasa siswa kontrol mereka
sendiri atas pembelajaran mereka, dan bekerja Raja juga fokus pada locus of control sebagai
prediktor kinerja. Grolnick & Ryan (1987) menunjukkan bahwa gaya belajar mandiri diproduksi
belajar yang lebih baik konseptual, efek yang mereka dikaitkan dengan peningkatan otonomi
dan internal locus of control. Isu-isu ini dianalisis dalam makalah teoritis oleh Deci & Ryan
(1994) yang dibahas lebih lanjut pada bagian proses Meta-tugas.
Studi oleh Skaalvik (1990), Siero & van Oudenhoven (1995) dan Vispoel & Austin (1995)
semua menunjukkan bahwa alasan siswa berikan untuk hasil belajar mereka berbeda antara
berprestasi rendah, yang atribut kegagalan untuk kemampuan rendah, dan berprestasi tinggi
yang cenderung atribut keberhasilan untuk usaha. Vispoel & Austin mendesak bahwa guru
harus membantu siswa untuk mengatasi atribusi kemampuan, dan harus mendorong mereka
untuk menganggap kemampuan sebagai kumpulan keterampilan yang mereka dapat
menguasai dari waktu ke waktu.
Kerja Craven dalam matematika dan membaca dengan siswa di kelas 3-6 (Craven et al.,
1991), menunjukkan bahwa konsep diri siswa dapat ditingkatkan dengan umpan balik yang
dirancang untuk tujuan ini dan bahwa sementara mereka yang konsep diri awalnya rendah
menunjukkan keuntungan besar, orang-orang dengan konsep diri awalnya tinggi tidak
menunjukkan keuntungan. Selain itu, atribusi siswa sukses dalam pekerjaan untuk usaha
meningkat sementara atribusi kemampuan tidak. Namun, dalam intervensi singkat ini, hasil
yang diperoleh oleh peneliti tidak dapat direplikasi oleh guru dan tidak ada perbedaan yang
signifikan dalam pencapaian antara eksperimen dan kelompok kontrol. Sebuah perspektif
akhir dan selanjutnya ditambahkan oleh review dari Butler & Winne (1995), yang, di samping
meliputi bukti bahwa banyak faktor yang disebutkan di atas dapat memiliki terhadap prestasi
belajar, juga menarik perhatian pada pentingnya keyakinan peserta didik tentang pentingnya
upaya, tentang jumlah usaha yang belajar sukses dapat menuntut, tentang sifat pembelajaran,

dan tentang - dewasa - harapan bahwa semua pembelajaran harus mengarah jawaban
sederhana dan jelas untuk semua pertanyaan yang bisa dinaikkan.
Secara keseluruhan, bagian ulasan ini telah selektif dan tidak mengklaim untuk menutupi
banyak aspek yang mungkin tersirat dalam sikap dan motivasi istilah. Fokus tertentu dalam
karya Ulasan di sini adalah untuk menarik perhatian pentingnya berbagai fitur-konsep diri
pribadi, diri atribusi, self-efficacy, dan asumsi tentang sifat pembelajaran. Ada jelas tumpang
tindih kompleks dan interaksi antara fitur ini; Geisler-Brenstein & Schmeck (1995) dalam
analisis yang komprehensif dari bukti ini antar-hubungan, telah merumuskan sebuah
`Inventarisasi Proses Belajar 'dalam rangka untuk mempromosikan apa yang mereka sebut`
perspektif multi-faceted perbedaan individu dalam belajar Non'.
Pentingnya fitur ini muncul dari gabungan dari dua jenis hasil penelitian yang dirangkum di
atas. Salah satunya adalah bahwa `fitur pribadi 'yang disebut di atas dapat memiliki efek
penting pada pembelajaran siswa. Yang lain adalah bahwa cara di mana informasi formatif
disampaikan kepada mahasiswa, dan konteks budaya dan keyakinan tentang kemampuan
dan usaha di mana umpan balik ditafsirkan oleh penerima individu kelas, dapat mempengaruhi
fitur pribadi baik atau buruk. Pesan berharap adalah bahwa inovasi yang telah membayar
perhatian ke fitur-fitur ini telah menghasilkan keuntungan belajar yang signifikan bila
dibandingkan dengan norma-norma yang ada praktek kelas.
Penilaian oleh Mahasiswa
Fokus bagian ini adalah untuk membahas salah satu aspek dari kegiatan pembelajaran yang
dapat mengikuti dari penerimaan siswa dan pemahaman tentang kebutuhan untuk menutup
kesenjangan antara prestasi hadir dan tujuan yang diinginkan. Dalam penilaian formatif, setiap
guru memiliki pilihan antara dua pilihan. Yang pertama adalah untuk bertujuan untuk
mengembangkan kapasitas siswa untuk mengenali dan menilai setiap celah dan biarkan siswa
tanggung jawab untuk perencanaan dan melaksanakan setiap tindakan perbaikan yang
mungkin diperlukan. Opsi pertama ini berarti perkembangan dalam siswa dari kapasitas untuk
menilai diri mereka sendiri, dan mungkin untuk berkolaborasi dalam menilai satu sama lain.
Pilihan kedua adalah bagi guru untuk mengambil tanggung jawab sendiri untuk menghasilkan
informasi stimulus dan mengarahkan aktivitas yang berikut. Yang pertama dari dua ini akan
menjadi subjek bagian ini, sementara yang kedua akan dibahas dalam bagian berjudul Strategi
dan taktik untuk guru dan Sistem di bawah ini. Dua pilihan tumpang tindih dalam bahwa adalah
mungkin untuk menggabungkan dua pendekatan: batas antara bagian ini dan bagian tentang
Strategi dan taktik untuk guru karena itu akan sewenang-wenang, seperti batas antara bagian
ini dan bagian dari pengalaman Kelas.
Fokus pada penilaian diri oleh siswa tidak praktek umum, bahkan di antara orang-orang guru
yang mengambil penilaian serius. Daws & Singh (1996) menemukan bahwa hanya sekitar
sepertiga dari guru sains Inggris yang mereka sampel terlibat murid langsung dalam penilaian
mereka sendiri dengan cara apapun, dan kedua Parkin & Richards (dalam Fairbrother et al.,
1994, hlm. 15-28 ) dan rekening inisiatif Norwegian Jernquist (dilaporkan dalam Black & Atkin,
1996, hlm. 92-119) menggambarkan pengenalan penilaian diri, masing-masing dalam ilmu
sekolah menengah di Inggris dan matematika sekunder di Norwegia, sebagai inovasi. Dalam
literatur umum pada penilaian kelas, topik yang sering diabaikan - misalnya, koleksi sebaliknya
komprehensif oleh Phye (1997) tidak berisi potongan yang berfokus secara eksplisit pada diri
dan peer-assessment.
Motif memperkenalkan praktek ini beragam. Parkin & Richards dimulai karena
ketidakmungkinan praktis menilai tingkat kebutuhan masing-masing individu dalam kelas
sekitar 30 siswa yang terlibat dalam pekerjaan laboratorium praktis - jika mereka bisa
melakukannya sendiri guru bisa menyebarkan / usaha nya lebih efisien. Dalam ulasannya dari
literatur tentang evaluasi diri siswa dalam kursus pelatihan profesional dalam ilmu kesehatan,

Arthur (1995) melaporkan bahwa keterampilan yang diperlukan tidak sengaja diajarkan di
kebanyakan program, tetapi juga dijelaskan penelitian baru untuk mengembangkan
keterampilan ini dalam pendidikan keperawatan. Motif yang diberikan di sini adalah bahwa
masa depan profesional akan membutuhkan semua keterampilan yang diperlukan untuk
belajar seumur hidup, dan evaluasi diri harus menjadi salah satu dari ini.
Norwegia inisiatif mulai dari motif yang lebih mendasar, yang melihat diri dan peer-assessment
sebagai bagian intrinsik dari setiap program yang bertujuan untuk membantu siswa untuk
mengambil tanggung jawab lebih untuk pembelajaran mereka sendiri. Sebuah pandangan
yang berbeda pada aspek ini disediakan dalam studi oleh James dialog tercatat antara guru
dan siswa (1990). Studi ini menunjukkan bahwa dalam dialog tersebut, kekuasaan guru
dengan mudah menguasai kontribusi siswa, yang terakhir terlalu sederhana tentatif. Efeknya
adalah bahwa penyelidikan alasan untuk kesulitan siswa tidak dikejar. Beberapa penelitian
yang dibahas pada bagian pengalaman Kelas atas percobaan terlibat mana pekerjaan pada
tujuan dikejar baik dengan dan tanpa pelatihan evaluasi diri; contoh adalah penelitian oleh
Schunk (1996) yang menunjukkan bahwa, jika dikombinasikan dengan tujuan kinerja, praktek
evaluasi diri ditingkatkan ketekunan, self-efficacy dan prestasi.
Beberapa penulis telah mengambil argumen lebih lanjut dengan mengembangkan refleksi
teoritis tentang bagaimana siswa bisa mengubah pemahaman mereka. Asumsi di sini adalah
mereka tidak bisa melakukannya kecuali mereka pertama kali dapat memahami tujuan yang
mereka gagal untuk mencapai, mengembangkan sekaligus gambaran di mana mereka dapat
menemukan posisi mereka sendiri dalam kaitannya dengan tujuan tersebut, dan kemudian
lanjutkan untuk mengejar dan internalisasi belajar yang mengubah pemahaman mereka
(Sadler, 1989). Dalam pandangan ini, penilaian diri adalah sine qua non untuk pembelajaran
yang efektif. Sikap teoritis ini akan ditelusuri lebih lanjut pada akhir bagian ini dan di bagian
yang berjudul Prospek untuk teori dan praktek penilaian formatif.
Studi dari Self-assessment
Studi penelitian dari diri dan peer-assessment secara luas dapat dibagi menjadi dua kategori
- yang melibatkan pekerjaan eksperimental menghasilkan data kuantitatif pada prestasi dan
orang-orang yang bukti-bukti kualitatif. Ini sekarang akan dibahas pada gilirannya. Dua contoh
kuantitatif telah dijelaskan secara rinci pada bagian pengalaman Kelas (Fontana & Fernandes,
1994; Frederiksen & White, 1997). Kedua hal ini memiliki kesamaan penekanan pada
kebutuhan bagi siswa untuk memahami tujuan pembelajaran, untuk memahami kriteria
penilaian, dan memiliki kesempatan untuk merefleksikan pekerjaan mereka. Evaluasi rekan
berperan hanya dalam studi Frederiksen & White.
Dua penelitian telah bekerja dengan anak-anak yang mengalami kesulitan belajar. Pada
bagian pertama ini (McCurdy & Shapiro, 1992), tingkat membaca lisan siswa sekolah dasar
ditingkatkan dengan memberi mereka verbal dan visual yang umpan balik kinerja, baik oleh
guru saja, atau melalui peer-monitoring, atau pemantauan diri. Keuntungan terbesar, diukur
dengan perbandingan skor sebelum dan sesudah tes selama periode program dari sembilan
minggu, dicapai oleh kelompok pemantauan diri, sementara tiga melakukan lebih baik
daripada kelompok kontrol yang tidak memiliki umpan balik formatif. Kedua atas dasar
penerimaan untuk para guru yang terlibat dan pada keandalan penilaian mereka sendiri
pekerjaan mereka, metode sebaya dan pemantauan diri yang disukai dan salah satu manfaat
dari kedua adalah bahwa mereka mengurangi jumlah waktu bahwa guru pendidikan khusus
harus menghabiskan pengukuran di kelas mereka. Dalam penelitian kedua (Sawyer et al.,
1992) fokus pada keterampilan komposisi penulisan 4 dan siswa kelas 5. Di sini, sebuah
kelompok yang diajarkan strategi self regulated dengan perhatian eksplisit untuk tujuan
melakukan lebih baik daripada kelompok serupa tanpa penekanan tujuan dan kelompok tanpa
instruksi pemantauan diri. Kelompok pertama yang lebih baik secara keseluruhan pada
generalisasi dari keterampilan menulis diajarkan, tetapi semua kelompok dengan umpan balik

melakukan yang lebih baik, setelah percobaan tertentu adalah lebih, dari siswa
ketidakmampuan belajar lainnya tanpa pengalaman umpan balik tersebut.
Dalam penelitian untuk menyelidiki cara yang paling efektif untuk menggunakan program
pemecahan masalah software (Delclos & Harrington, 1991), dua kelompok 5 dan kelas 6 siswa
berdua pelatihan diberikan dalam penggunaan pro-aktif mereka dari program, tetapi salah satu
dari mereka juga harus mengambil bagian dalam latihan pemantauan, dijelaskan oleh penulis
sebagai meta-kognitif pelatihan. Ada juga kelompok kontrol cocok yang digunakan program
tanpa pelatihan. Latihan pemantauan disediakan oleh buklet pertanyaan dengan mana siswa
dipantau hasil mereka pada set praktek latihan pemecahan masalah yang dipilih dari
perangkat lunak. Kedua kelompok dilatih mencapai sukses yang lebih besar dengan program
daripada kelompok kontrol, tetapi mereka dengan pelatihan pemantauan juga secara
signifikan lebih baik daripada mereka yang tidak. Mereka lebih sukses dengan masalah yang
lebih kompleks, mereka berhasil lebih cepat, dan secara keseluruhan mereka terlihat akan
menggunakan strategi yang lebih efektif. Mereka tampaknya untuk berbuat lebih baik, bukan
karena mereka bisa menggunakan strategi tertentu secara lebih efektif, tetapi karena mereka
mulai dengan merenungkan masalah dan mempertimbangkan kemungkinan menggunakan
strategi yang berbeda sebelum melanjutkan - hasil yang tampaknya untuk menghubungkan
dengan meta-kognitif penekanan mendasari pelatihan pemantauan diri.
Fokus pada pembelajaran mandiri terlihat, di review oleh Thomas (1993), menjadi bersamaan
diperlukan untuk bergerak untuk mengembangkan kerja praktek, kemampuan belajar, dan
tanggung jawab untuk belajar antara siswa. Ia membedakan fitur saja yang mencegah belajar
mandiri, seperti tes ulasan handout, dari orang-orang yang mendorong itu, termasuk umpan
balik kinerja yang luas, dan bukti Ulasan yang menetapkan bahwa kegiatan tersebut dapat
meningkatkan prestasi belajar siswa. Dalam review praktek menulis, Zimmerman & Risemberg
(1997) membahas berbagai bentuk praktek pengaturan diri yang digunakan oleh beberapa
penulis terkenal dan terkait ini untuk penelitian bukti efektivitas mendukung siswa dengan
mendorong pemantauan diri (Schunk & Swartz, 1993b; Zimmerman & Bamdura, 1994). Satu
set terkait erat studi oleh Raja (1994) pada strategi pertanyaan siswa akan ditinjau pada bagian
Pertanyaan bawah.
Evaluasi diri merupakan aspek intrinsik dari refleksi atas pembelajaran sendiri seseorang.
Beberapa penelitian kualitatif melaporkan inovasi dirancang untuk mendorong refleksi diri
tersebut. Dalam ilmu pendidikan, Baird et al. (1991) melaporkan pada pekerjaan dengan 27
guru dan 350 siswa di mana guru yang membantu untuk mengetahui lebih banyak tentang
siswa mereka dan belajar lebih banyak tentang bagaimana mereka dapat mengubah gaya
kerja kelas dengan strategi berdasarkan meta-kognisi dan konstruktivisme. Baik guru dan
siswa yang terlibat harus menganalisis apa yang terjadi dalam sepotong karya pembelajaran,
dan masing-masing pihak harus mengajukan tiga perubahan yang akan diberlakukan.
Kemudian, siswa harus mengevaluasi apakah perubahan ini telah terjadi. Bukti, berdasarkan
laporan diri oleh mereka yang terlibat, adalah bahwa implementasi sukses telah dicapai.
Maqsud & Pillai (1991) dilatih kelas siswa SMA diri-skor tes mereka dan menemukan bahwa
keuntungan nilai mereka secara signifikan lebih tinggi daripada kelas kelompok kontrol:
mereka dikaitkan ini dengan menurunkan ketidakpercayaan yang normal siswa mereka ' dari
dan antagonisme terhadap umpan balik ditandai. Sukses serupa yang diraih oleh Merret &
Merret (1992) dalam percobaan yang bertujuan untuk membantu siswa untuk menyadari,
melalui umpan balik dari penilaian diri mereka, kurangnya korespondensi antara persepsi diri
mereka dari pekerjaan mereka dan penilaian orang lain; kualitas dan kedalaman diri penilaian
siswa yang ditingkatkan sebagai percobaan berlangsung. Pekerjaan serupa dilaporkan oleh
Griffiths & Davies (1993), Powell & Makin (1994) dan Meyer & Woodruff (1997).
Sebuah inovasi skala yang lebih besar sepenuhnya dijelaskan dalam sebuah buku oleh Ross
et al. (1993). Tujuannya adalah untuk mengubah penilaian prestasi dalam seni visual dengan
membawa siswa ke dalam proses penilaian sebagai praktisi reflektif, terutama melalui

pengembangan `penilaian percakapan 'di mana siswa didorong untuk merefleksikan


pekerjaan mereka dan untuk mengartikulasikan refleksi mereka. Penulis antusias dalam
rekening mereka dari keberhasilan pekerjaan mereka, dan percaya bahwa siswa yang terlibat
menunjukkan bahwa mereka `mampu tanggapan yang kaya dan canggih untuk dan
pemahaman dari pekerjaan mereka sendiri ... bekerja sama dengan mitra percakapan mereka
'(p . 161). Mereka menyimpulkan bahwa pendekatan membuka peluang baru dalam estetika
mengetahui dan penilaian, tetapi itu juga diperlukan bahwa guru meninggalkan praktek
penilaian tradisional. Namun, bukti-bukti dari `sukses 'dari pekerjaan ini adalah untuk
ditemukan hanya dalam rekening, digambarkan dengan kutipan, kualitas siswa penilaian
estetika. Demikian laporan kualitatif diberi sebuah inisiatif untuk menyerahkan semua
tanggung jawab untuk penilaian dari program sarjana tahun pertama untuk penilaian diri siswa
(Edwards & Sutton, 1991), dan dari hasil proyek untuk melatih 2, 3, dan siswa kelas 4 untuk
merekam mereka atau menonaktifkan tugas negara kerja secara berkala (Wheldall &
Pangagopolou-Steamatelatou, 1992). Dalam kedua kasus, inisiatif menghasilkan perubahan
signifikan dalam komitmen siswa untuk pekerjaan mereka dan ada juga beberapa bukti tidak
langsung di kedua peningkatan prestasi belajar mereka.
Penilaian sejawat
Beberapa akun diuraikan dalam bagian ini melibatkan baik penilaian diri dan peer-assessment,
Peer-penilaian seperti itu termasuk dalam beberapa rekening pengembangan kerjasama
kelompok sebagai bagian dari kegiatan pembelajaran di kelas. Dalam sebuah studi
eksperimental oleh Koch & Shulamith (1991), mahasiswa diajarkan untuk menghasilkan
pertanyaan-pertanyaan mereka sendiri tentang topik dalam fisika, dan mencapai keuntungan
belajar yang lebih baik daripada mereka yang menggunakan pertanyaan hanya guru; di antara
mereka menghasilkan pertanyaan mereka sendiri, beberapa umpan balik rekan juga
digunakan untuk menjawab dan mendiskusikan upaya mereka, dan kelompok ini menunjukkan
keuntungan belajar yang lebih besar daripada yang lain. Higgins et al. (1994) juga digunakan
kerja kolaboratif, dalam pekerjaan mereka dengan 1 dan kelas 2 sekolah-anak
mengembangkan keterampilan penilaian dalam pekerjaan proyek terpadu mereka. Anak-anak
yang dihasilkan kriteria mereka sendiri, dan kualitas ini naik selama penelitian. Kesepakatan
yang baik dengan penilaian guru dicapai, dengan anak-anak cenderung kurang menilai.
Namun, kelompok-kelompok yang tidak akurat dalam penilaian mereka dari kelompok lain.
Reliabilitas diri dan rekan-penilaian juga diselidiki, dalam pekerjaan dengan siswa biologi
perguruan tinggi, oleh Stefani (1994). Dia menemukan korelasi dengan penilaian guru dari
0,71 untuk penilaian diri dan 0,89 untuk rekan-penilaian. Semua siswa mengatakan bahwa diri
dan rekan-penilaian kerja membuat mereka berpikir lebih, dan 85% mengatakan bahwa itu
membuat mereka belajar lebih banyak. Hughes & Besar (1993) juga meneliti peer-penilaian
mahasiswa tahun terakhir di farmakologi dan menemukan koefisien korelasi 0,83 antara
peringkat rata-rata rekan-rekan dan orang-orang dari kelompok staf.
Hal ini sering sulit untuk menguraikan aktivitas peer-assessment dari kegiatan baru lainnya
dalam pekerjaan semacam ini, dan tidak mungkin pada umumnya untuk menganggap setiap
dilaporkan keuntungan untuk komponen penilaian. Ulasan umum yang diberikan oleh Slavin
(1991) dan oleh Webb (1995). Kedua dari ini tidak fokus pada praktek penilaian dalam kerja
kelompok dan menekankan pentingnya pelatihan dalam proses kelompok dan dari pengaturan
tujuan yang jelas dan kriteria prestasi yang jelas. Dalam kelompok-kelompok tersebut, pilihan
yang jelas harus dibuat, dan berbagi dalam kelompok, antara tujuan kinerja terbaik dari
kelompok sebagai sebuah kelompok, dan tujuan untuk meningkatkan kinerja individu melalui
kolaborasi kelompok. Pertanyaan tentang komposisi kelompok optimal adalah kompleks satu;
di mana tujuan kelompok memiliki prioritas, maka untuk tugas-tugas yang didefinisikan dengan
baik, mapan berprestasi tinggi adalah yang paling produktif, tetapi untuk tugas-tugas yang
lebih terbuka berbagai jenis siswa adalah keuntungan. Dimana kinerja individu memiliki
prioritas, maka berprestasi tinggi sedikit dipengaruhi oleh campuran, tetapi berprestasi rendah
mendapatkan keuntungan lebih dari kelompok campuran asalkan pelatihan kelompok

menekankan metode untuk menarik keluar, bukan luar biasa, kontribusi mereka. Kebutuhan
untuk perawatan seperti ditekankan dalam sebuah studi dari diskusi kelompok dalam
pendidikan ilmu pengetahuan dengan Solomon (1991).
Link ke Teori Belajar
Argumen yang diberikan oleh Zessoules & Gardner (1991) menunjukkan bagaimana
perubahan penilaian dari jenis yang dijelaskan di atas mungkin diharapkan untuk
meningkatkan belajar jika mereka membantu siswa untuk mengembangkan kebiasaan reflektif
pikiran. Mereka lebih lanjut menyatakan bahwa pembangunan tersebut harus menjadi
komponen penting dalam program untuk pelaksanaan penilaian otentik dalam praktek kelas.
Penilaian harus dilihat sebagai momen pembelajaran, dan siswa harus aktif dalam penilaian
mereka sendiri dan membayangkan belajar mereka sendiri dalam terang pemahaman tentang
apa artinya untuk mendapatkan yang lebih baik.
Singkatnya, dapat dilihat bahwa berbagai pendekatan untuk mengembangkan selfassessment oleh murid menjanjikan keberhasilan. Namun, interpretasi mereka dalam
kaitannya dengan teori-teori yang lebih umum pembelajaran menimbulkan masalah
mendasar, seperti yang digambarkan oleh analisis Tittle (1994). Diskusi lengkap dari ini dan
bekerja sama akan ditangguhkan sampai bagian terakhir dari artikel ini. Beberapa poin dapat
diperkenalkan di sini. Dalam review penelitian Eropa di bidang ini, Elshout-Mohr (1994)
menunjukkan bahwa kedua siswa sering tidak mau menyerah kesalahpahaman - mereka perlu
diyakinkan melalui diskusi yang mempromosikan refleksi mereka sendiri di mereka berpikirdan juga bahwa jika mahasiswa tidak dapat merencanakan dan melaksanakan pekerjaan
sistematis pembelajaran remedial untuk dirinya sendiri, ia tidak akan dapat memanfaatkan
umpan balik formatif baik. Kedua ini menunjukkan bahwa penilaian diri adalah penting.
Demikian pula, Hattie dkk. (1996) berpendapat bahwa pengajaran langsung dari kemampuan
belajar untuk siswa tanpa memperhatikan reflektif, meta-kognitif, pengembangan mungkin ada
gunanya. Salah satu alasan untuk kebutuhan untuk mencari perubahan radikal adalah bahwa
siswa membawa ke model kerja mereka belajar yang mungkin menjadi kendala untuk belajar
mereka sendiri. Bahwa siswa memiliki model seperti yang untuk tingkat budaya ditentukan
diilustrasikan oleh perbandingan pendekatan untuk belajar siswa Australia dan Jepang (Purdie
& Hattie, 1996), sementara temuan bahwa siswa yang paling mampu di kedua negara yang
lebih mirip dari rekan-rekan mereka di setelah mengembangkan kebiasaan efektif yang sama
pembelajaran menunjukkan bahwa tradisi menghambat tersebut dapat diatasi.
Tugas mengembangkan kemampuan self-assessment siswa dapat didekati sebagai tugas
menyediakan mereka dengan model yang tepat dari cara kerja. Dengan cara yang sederhana,
Carroll (1994) mencoba untuk melakukan hal ini dengan memberikan contoh bekerja masalah
aljabar untuk siswa mereka untuk belajar, menggantikan beberapa pekerjaan pada
pemecahan masalah untuk diri mereka sendiri yang mereka biasanya akan melakukan.
Pencapaian siswa ini ditingkatkan dengan metode ini, dan berprestasi rendah menunjukkan
perbaikan yang sangat baik. Penulis mengusulkan bahwa bagi banyak siswa, tugas
menangani masalah baru di daerah baru kerja tidak mungkin berguna karena overload kognitif.
Studi contoh bekerja memberikan situasi belajar yang kurang dimuat di mana refleksi pada
proses yang digunakan dapat dikembangkan. Lebih umum, diskusi Bonniol (1991) mengarah
pada kesimpulan bahwa guru harus memberikan model pemecahan masalah bagi siswa, dan
kebutuhan juga untuk dapat memahami model di kepala pelajar sehingga ia / dia bisa
membantu pelajar untuk menertibkan ke dalam nya `meta-kognitif kabut '. Kesulitan di sini
adalah bahwa banyak guru tidak memiliki model yang baik dari pemecahan masalah dan
penalaran yang efektif untuk mengirimkan, dan karena itu kurang baik kerangka teoritis di
mana untuk menafsirkan bukti yang diberikan oleh siswa dan model yang mengarahkan
mereka di pengembangan kriteria penilaian diri mereka sendiri.
Strategi dan Taktik untuk Guru

Ikhtisar
Berbagai aspek kerja guru dalam penilaian formatif dapat diatur dalam kaitannya dengan
urutan temporal keputusan dan tindakan yang mensyaratkan. Pendekatan ini akan digunakan
di sini sebagai kerangka kerja untuk menggambarkan pekerjaan dilaporkan dalam literatur.
Dengan demikian, sub-bagian di bawah ini akan berurusan pada gilirannya dengan pilihan
tugas, dengan wacana kelas, dengan beberapa aspek penggunaan pertanyaan, dengan tes
dan kemudian dengan umpan balik dari tes. Sebuah bagian penutup kemudian akan melihat
strategi secara keseluruhan, termasuk pekerjaan yang terlihat lebih mendalam pada asumsi
dan alasan-alasan yang mungkin mendasari artikulasi taktik.
Pilihan Tugas
Hal ini jelas bahwa penilaian formatif yang memandu peserta didik menuju tujuan
pembelajaran dihargai hanya dapat dihasilkan dengan tugas-tugas yang keduanya bekerja
untuk tujuan-tujuan tersebut dan yang terbuka dalam struktur mereka untuk generasi dan
menampilkan bukti yang relevan, baik dari siswa untuk guru dan siswa itu sendiri . Dalam
penelitian kualitatif rinci karakteristik kelas dua guru ilmu tinggi-sekolah luar biasa sukses,
Garnett & Tobin (1989) menyimpulkan bahwa kunci keberhasilan mereka adalah cara mereka
mampu untuk memantau pemahaman. Sebuah fitur umum adalah keragaman kegiatandengan kelas penekanan pada sering bertanya di mana 60% dari pertanyaan yang ditanyakan
oleh siswa. Dalam review yang lebih umum dari lingkungan kelas, Ames (1992) memilih tiga
fitur utama yang mencirikan sukses `penguasaan '(sebagai lawan` performance'-lihat bagian
pada orientasi Goal atas) ruang kelas. Yang pertama adalah sifat dari tugas yang ditetapkan,
yang harus baru dan bervariasi bunga, menawarkan tantangan yang wajar, membantu siswa
mengembangkan tujuan diri direferensikan jangka pendek, fokus pada aspek bermakna
pembelajaran dan mendukung pengembangan dan penggunaan yang efektif strategi
pembelajaran. Blumenfeld (1992) membahas beberapa isu-isu ini, menunjukkan bahwa
gagasan seperti `menantang 'dan` bermakna' yang bermasalah. Sebuah tugas di mana
tantangannya pergi terlalu jauh dapat menyebabkan penghindaran mahasiswa risiko yang
terlibat, dan bagi siswa yang jauh di belakang sulit untuk mendorong usaha mereka tanpa
pada saat yang sama membuat mereka menyadari betapa jauh di belakang mereka. Demikian
pula, tugas dapat bermakna untuk berbagai alasan dan penting untuk menekankan mereka
makna yang mungkin menjadi produktif untuk pembelajaran.
Dalam tinjauan sebelumnya tentang ajaran ilmu pengetahuan, Dumas-Carre & Larcher (1987)
yang lebih ambisius. Mereka menekankan perlunya menggeser pedagogi saat untuk
memberikan lebih banyak penekanan pada aspek prosedural pengetahuan dan kurang untuk
aspek deklaratif. Mereka diuraikan skema untuk analisis komparatif tugas yang dapat
digunakan oleh guru untuk menghasilkan analisis deskriptif tugas mereka gunakan. Skema ini
tugas dibedakan yang (a) disajikan situasi tertentu identik dengan salah satu yang diteliti, atau
(b) disajikan khas 'masalah' tapi tidak satu identik dengan salah satu yang diteliti,
membutuhkan identifikasi algoritma yang sesuai dan penggunaannya, daripada yang
sebenarnya replikasi prosedur sebelumnya seperti pada (a), dan (c) masalah cukup baru yang
memerlukan penalaran baru dan pembangunan pendekatan baru, menyebarkan pengetahuan
didirikan dengan cara yang baru. Siswa akan membutuhkan pelatihan khusus dan eksplisit
untuk menangani tugas-tugas dari jenis (c). Mereka merekomendasikan bahwa semua tiga
jenis tugas yang diperlukan, tetapi bahwa guru saat ini tidak berencana atau menganalisis
tugas-tugas yang mereka ditetapkan oleh skema jenis ini. Kejelian tersebut merupakan syarat
penting untuk merencanakan penggabungan penilaian formatif, baik untuk penyediaan umpan
balik dan untuk merencanakan bagaimana menanggapi hal itu.
Ceramah

Bahwa kualitas wacana antara guru dan siswa dapat dianalisis di beberapa tingkat yang
berbeda terlihat dari tulisan lengkap mengenai interaksi kelas dan analisis wacana. Dalam
review mempertanyakan di ruang kelas, Carlsen (1991) kontras pendekatan proses-produk
dengan paradigma sosial-linguistik, dan berpendapat bahwa inkonsistensi hasil penelitian
tentang tingkat kognitif pertanyaan mungkin karena mengabaikan fakta bahwa arti pertanyaan
tidak dapat disimpulkan dari permukaan fitur saja. Karena kedua ia dan Filer (1995)
berpendapat, makna di balik wacana saja juga tergantung pada konteks, tentang cara-cara di
mana pertanyaan di kelas tertentu telah datang untuk menandakan pola hubungan antara
mereka yang terlibat yang telah dibangun dari waktu ke waktu. Pryor & Torrance (1996)
memberikan contoh bagaimana pola kebiasaan bisa membantu untuk belajar. Newmann
(1992) membuat permohonan, atas dasar yang sama, untuk penilaian dalam studi sosial untuk
fokus pada wacana, yang didefinisikan oleh dia sebagai bahasa yang dihasilkan oleh siswa
dengan tujuan memberikan narasi, argumentasi, penjelasan atau analisis. Permohonan ini
didasarkan pada argumen bahwa metode saat ini, di mana siswa dibatasi untuk menggunakan
bahasa lain, melemahkan penggunaan konstruktif dari wacana dan meremehkan
pengetahuan sosial. Sebuah contoh yang mencolok dari efek seperti dilaporkan dalam
makalah oleh Filer (1993). Dalam nada yang sama, Quicke & Musim Dingin (1994) sukses
laporan dalam pekerjaan dengan siswa mencapai rendah di Tahun 8, di mana mereka
bertujuan untuk mengembangkan kerangka kerja sosial untuk dialog tentang belajar. Karya
Ross et al. (1993) dalam penilaian estetika dalam seni dapat dilihat sebagai respon terhadap
permohonan ini, dan kesulitan yang dilaporkan oleh Radnor (1994) adalah bukti dari tidak
memadainya mendirikan praktek.
Kertas Radnor yang menggunakan frase `kualitatif penilaian formatif dalam judulnya, dan ini
dapat membantu untuk menjelaskan mengapa bukti kuantitatif untuk efek belajar variasi
wacana sulit untuk menemukan. Pengecualian adalah penelitian oleh Clarke (1988) pada
dialog kelas di kelas sains. Ia menganalisis wacana tiga guru di empat ruang kelas, grading
kualitas wacana dengan penjumlahan atas empat kriteria. Ini termasuk jumlah tema
diinterpretasi, jumlah lintas korelasi (indikator koherensi) dan proporsi tema eksplisit terkait
dengan isi pelajaran. Variabel wacana ini disertakan dengan tiga langkah-langkah lain, dari
bakat skolastik, locus of control dan tingkat Piaget masing-masing, sebagai variabel bebas,
dan prestasi post-test sebagai variabel dependen. Dengan kelas sebagai unit analisis, variabel
wacana menyumbang 63% dari varians, dengan tiga orang lainnya akuntansi masing-masing
untuk di bawah 4%, 22% dan 14%.
Johnson & Johnson (1990) menyajikan meta-analisis menunjukkan bahwa wacana kolaboratif
dapat menghasilkan keuntungan yang signifikan dalam belajar. Rodrigues & Bell (1995),
Cosgrove & Schaverien (1996) dan Duschl & Gitomer (1997) semua pekerjaan laporan
dengan guru sains untuk mempromosikan wacana tersebut. Perhatian dalam semua tiga
kasus adalah untuk membantu siswa untuk bergerak, dalam pembicaraan tentang pekerjaan
mereka, dari fokus dalam hal berdasarkan sehari-hari dan konten menuju diskusi lebih dalam
pembelajaran konseptual. Roth & Roychoudhury (1994) merekomendasikan penggunaan peta
konsep sebagai bantuan dalam diskusi tersebut; peta tersebut, ditarik oleh siswa, berfungsi
untuk memberikan poin yang berguna acuan dalam menjelaskan poin dalam pembahasan dan
memungkinkan guru untuk terlibat dalam `penilaian dinamis '.
Pertanyaan
Beberapa aspek yang relevan dari interogasi oleh guru telah diperkenalkan di atas. Kualitas
pertanyaan kelas adalah masalah keprihatinan, seperti yang diungkapkan dalam karya
Stiggins dkk. (1989) yang mempelajari 36 guru lebih berbagai mata pelajaran dan lebih nilai
2-12, dengan pengamatan pekerjaan kelas, studi dokumentasi mereka, dan wawancara. Di
semua tingkat interogasi didominasi oleh pertanyaan recall, dan sementara mereka dilatih
untuk mengajarkan keterampilan berpikir tingkat tinggi mengajukan pertanyaan yang lebih
relevan, mereka menggunakan pertanyaan tingkat tinggi masih jarang. Contoh hasil

keseluruhan adalah bahwa di kelas sains, 65% dari pertanyaan yang untuk mengingat, dengan
hanya 17% pada penalaran inferensial dan deduktif. Pola kerja ditulis sama dengan yang
untuk pekerjaan oral. Bromme & Steinberg (1994) mempelajari strategi kelas guru pemula
dalam matematika dan menemukan bahwa mereka cenderung memperlakukan 'pertanyaan
sebagai dari peserta didik, sedangkan tanggapan dari guru ahli cenderung diarahkan lebih ke
`siswa kolektif' siswa.
Beberapa penulis melaporkan pekerjaan difokuskan pada generasi pertanyaan oleh siswa,
dan seperti yang ditunjukkan di bagian atas diri-penilaian di atas, ini dapat dilihat sebagai
perpanjangan bekerja pada penilaian diri siswa. Dengan mahasiswa, Raja (1990,1992a, b;
1994) menemukan pelatihan yang yang mendorong siswa untuk menghasilkan pertanyaan
pemikiran tertentu dan kemudian berusaha untuk menjawab mereka lebih efektif daripada
pelatihan dalam teknik studi lain, yang ia menafsirkan dalam hal strategi yang mendasari
pelatihan yang bertujuan untuk mengembangkan peserta didik otonomi dan kontrol peserta
didik atas pekerjaan mereka sendiri. Hasil yang sama, yang juga menunjukkan bahwa
pertanyaan siswa sendiri hasil yang lebih baik daripada pertanyaan tambahan dari guru,
dilaporkan untuk mahasiswa Israel oleh Koch & Shulamith (1991). Dalam pekerjaan dengan
siswa sekolah kelas 5, pendekatan yang sama digunakan dalam pelatihan siswa dengan
pemecahan masalah pada komputer diberikan tugas (Raja, 1991). Dengan sampel 46 siswa,
satu kelompok tidak diberi instruksi tambahan, lain dilatih untuk bertanya dan menjawab
pertanyaan dengan mitra siswa, sementara kelompok ketiga juga dilatih dalam
mempertanyakan satu sama lain berpasangan tetapi diarahkan untuk menggunakan
pertanyaan strategis untuk bimbingan dalam kognitif dan aktivitas meta-kognitif. Pelatihan
terakhir difokuskan pada penggunaan, pertanyaan generik 'seperti `Bagaimana X dan Y
sama?' dan `Apa yang akan terjadi jika ..?." Hasilnya diukur dengan post-test dari masalah
tertulis dan tugas komputer baru. Kelompok dilatih untuk mengajukan pertanyaan strategis
yang lain keluar-melakukan orang lain. Foos dkk. (1994) telah melaporkan keberhasilan
serupa di ukuran hasil ketika siswa dilatih untuk mempersiapkan ujian dengan beberapa
teknik, yang paling sukses menjadi generasi pertanyaan studi mereka sendiri diikuti oleh
upaya untuk menjawab mereka. Pekerjaan ini, dan bekerja sama dalam kelas sains sekolah
(King & Rosenshine, 1993) dapat dilihat sebagai bagian dari strategi yang lebih besar untuk
mempromosikan penyelidikan berbasis berpikir kritis (Raja, 1995).
Pekerjaan tersebut memiliki dua elemen utama. Salah satunya adalah promosi berpikir tingkat
tinggi dan self-regulation studi mereka dengan siswa melalui generasi pertanyaan, yang lain
adalah untuk melakukan perkembangan ini melalui interaksi rekan. Sebuah review yang
komprehensif tentang jenis ini oleh Rosenshine dan rekan (1996) menyajikan meta-analisis
studi yang dipilih. Efek yang sangat positif, tetapi ukuran efek tergantung pada apakah ukuran
hasil adalah tes standar, atau tes pemahaman yang dikembangkan oleh eksperimen. Yang
terakhir memberikan efek yang lebih besar, dengan cara 1,00 untuk 5 studi dengan timbal
balik pertanyaan rekan dan 0.88 untuk 11 orang lain tanpa fitur ini (perbedaan antara tidak
signifikan). Kesimpulannya adalah bahwa tidak ada bukti bahwa rekan interaksi lebih unggul
instruksi langsung dalam generasi pertanyaan. Hal ini menunjukkan bahwa alasan teoritis
untuk pengolahan aktif siswa tidak memberikan panduan spesifik tentang pilihan metode, dan
review membahas berbagai pendekatan yang diadopsi dalam beberapa detail.
Sebuah penggunaan yang agak berbeda dari pertanyaan ini adalah untuk menggali dan
mengembangkan pengetahuan siswa sebelumnya. Sebuah penelitian jenis ini (Pressley et al.,
1992) menetapkan bahwa memerlukan pelajar untuk menulis jawaban dengan penjelasan
untuk mengeksplorasi pengetahuan mereka tentang pekerjaan baru tidak meningkatkan
pembelajaran, dan bahwa ini mungkin karena membantu pelajar untuk berhubungan baru
yang lama dan untuk menghindari penilaian dangkal tentang konten baru.
Kategori lain dari pertanyaan adalah penggunaan pertanyaan tambahan dengan teks. Ada
sedikit untuk menambah sini untuk studi ditinjau oleh Crooks. Sebuah studi oleh Holliday &

Benson (1991) dengan kelas biologi SMA menunjukkan bahwa ketika guru diperlukan bekerja
pada pertanyaan dari jenis yang akan digunakan dalam pengujian dan menekankan
pentingnya mereka, kinerja ditingkatkan. Studi lain dengan menggunakan pertanyaan
tambahan pemahaman bertujuan untuk meningkatkan konsep belajar dengan pelajaran sains
di mana urutan animasi komputer yang digunakan (Holliday & McGuire, 1992). Siswa kelas
delapan ditugaskan untuk kelompok kontrol atau salah satu dari empat kelompok perlakuan.
Hasil menegaskan bahwa pertanyaan yang digunakan tidak berhasil dalam tujuan mereka
memfokuskan perhatian siswa pada konsep yang terlibat, dan bahwa di mana mereka
digunakan untuk hanya pertama 8 dari 12 urutan digunakan, mereka memproduksi efek pada
cara di mana orang-orang yang tersisa adalah dipelajari. Para penulis menyusun pertanyaan
untuk melayani tujuan umum perancah aktivitas meta-kognitif siswa. Namun, pekerjaan
tersebut harus dinilai dalam terang hasil dikutip dalam bagian pada Pilihan tugas di atas (dan
Otero & Campanario, 1990; Carroll, 1994) yang menunjukkan bahwa mungkin membantu
untuk menggunakan beberapa waktu belajar siswa pada tugas-tugas penting lainnya di tempat
waktu yang dihabiskan menangani pertanyaan.
Penggunaan Tes
Satu studi memberikan bukti bahwa sering pengujian dapat menyebabkan peningkatan
pembelajaran telah dikutip di bagian pengalaman Kelas atas (Martinez & Martinez, 1992).
Bangert-tenggelam, dkk. (1991b) Ulasan bukti efek pengujian kelas sering. Meta-analisis
mereka dari 40 studi yang relevan menunjukkan bahwa kinerja ditingkatkan dengan sering
pengujian dan peningkatan dengan peningkatan frekuensi hingga tingkat tertentu, tapi itu di
luar itu (di suatu tempat di luar 1 dan 2 tes per minggu) bisa menurun lagi. Bukti juga
menunjukkan bahwa beberapa tes singkat lebih efektif daripada yang lebih sedikit lagi. Bukti
serupa dikutip Dempster (1991,1992, lihat bagian pada proses motivasi Tugas, di bawah).
Dalam penyelidikan kemudian dengan mahasiswa psikologi, Iverson dkk. (1994) menemukan
bahwa penambahan sering tes tidak ditingkatkan mutunya tidak menghasilkan perbaikan yang
signifikan dalam kinerja, meskipun siswa dalam percobaan mengatakan bahwa mereka ingin
memiliki tes tersebut di program lain juga. Hasil serupa negatif dilaporkan oleh Strawitz (1989),
tetapi bertentangan dengan, efek positif ditemukan oleh Schloss dkk. (1990) bekerja dengan
mahasiswa pascasarjana di pelatihan guru untuk pendidikan khusus. Ketika diberi kuis formatif
singkat setelah setiap siswa kuliah dilakukan secara signifikan lebih baik daripada yang
mereka lakukan ketika tidak ada kuis diberikan pada tiga langkah pasca-tes item akrab, pascates item asing dan survei kepuasan dengan instruksi.
Dalam beberapa bidang studi, guru enggan menggunakan tes karena takut menghambat
kreativitas. Gilbert (1996) berusaha untuk mengatasi masalah ini dengan guru sekolah dasar
dalam penilaian seni. Proyek ini bekerja dengan baik guru yang berpengalaman dan trainee
untuk mengembangkan kerangka kerja dan bahasa untuk menilai seni, dan dari ini kelompok
mampu merumuskan panduan tentang umpan balik yang sesuai untuk anak-anak sesuai
dengan klasifikasi dalam rangka yang pekerjaan mereka itu dinilai sesuai. Perkembangan
metode penilaian baru yang sesuai dengan mata pelajaran tertentu juga dijelaskan oleh
Adelman et al. (1990) untuk seni visual dan kinerja dengan siswa sekunder tua dan oleh
Harnett (1993) untuk sejarah di sekolah dasar.
Tujuan dan struktur dari tes yang digunakan tidak dijelaskan dalam kebanyakan studi.
Penjahat berspekulasi bahwa tujuan tingkat rendah mungkin mendapat manfaat dari tes yang
lebih sering, tapi itu tujuan tingkat yang lebih tinggi akan mendapat manfaat dari frekuensi
yang lebih rendah. Khalaf & Hanna (1992) melakukan review lebih mencari dan tidak setuju
dengan Crooks tentang hal ini. Mereka dipilih 20 studi, yang 18 memberi efek positif. Mereka
menunjukkan bahwa sifat tes kriteria bisa mendistorsi hasil. Dalam setiap studi tersebut, tes
kriteria mungkin lebih penting untuk kelompok kontrol dibandingkan dengan kelompok
perlakuan. Di sisi lain, jika tes sumatif akhir yang mengandung pertanyaan yang sama dengan

yang di tes kelas, mungkin ada distorsi dalam arah sebaliknya. Mereka menyimpulkan bahwa
hanya empat dari studi mereka Ulasan bebas dari jenis cacat. Hasil minyak 'ini semua positif
dengan ukuran efek rata-rata 0,37, tapi mereka semua dengan mahasiswa. Setelah tinjauan
kritis mereka, para penulis ini menggambarkan hasil penyelidikan dengan 2.000 siswa di 93,
kelas 10, kelas di Arab Saudi. Kelas kontrol diberi kuis bulanan normal, sementara yang lain
diberi kuis dua bulanan. Kriteria yang ditetapkan oleh tes penyidik yang belum pernah melihat
salah satu kuis dibangun dan digunakan oleh guru, dan termasuk tes pada akhir kursus dan
tes tertunda tiga bulan kemudian. Pengobatan dan pengendalian kelas didirikan di pasang
memiliki guru yang sama untuk dua anggota masing-masing pasangan. Ada perbedaan yang
signifikan antara kedua kelompok pada kedua kesempatan tes, dengan efek ukuran sekitar
0,3 mendukung kelompok lebih sering diuji. Efeknya jauh lebih besar untuk berprestasi tinggi
daripada media dan berprestasi rendah. Namun, tes yang digunakan yang terdiri hanya dari
item pilihan benar-salah atau beberapa, sehingga pembelajaran di masalah adalah relatif
dangkal di alam. Perawatan yang diambil dengan percobaan ini menunjukkan bagaimana
penelitian tidak dapat diterima sebagai relevan tanpa pengawasan yang cermat dari desain
eksperimen, dan kualitas pertanyaan yang digunakan untuk kedua pengobatan dan tes
kriteria.
Balik reservasi ini terletak masalah yang lebih besar dari apakah atau tidak pengujian adalah
melayani fungsi penilaian formatif. Ini tidak dapat dijelaskan tanpa studi tentang bagaimana
hasil tes diinterpretasikan oleh siswa. Jika tes tidak digunakan untuk memberikan umpan balik
tentang pembelajaran, dan jika mereka tidak lebih dari indikator dari highstakes akhir tes
sumatif, atau jika mereka adalah komponen dari skema penilaian berkelanjutan sehingga
mereka semua menanggung implikasi berisiko tinggi, maka Situasi dapat berjumlah tidak lebih
dari sering pengujian sumatif. Tan (1992) menggambarkan situasi di lapangan bagi
mahasiswa kedokteran tahun pertama di mana ia mengumpulkan bukti bahwa sering tes
sumatif yang memiliki pengaruh negatif yang besar pada pembelajaran mereka. Tes yang
disebut hanya untuk keterampilan tingkat rendah dan telah demikian membentuk `kurikulum
tersembunyi 'yang menghambat tingkat tinggi pembangunan konseptual dan yang berarti
bahwa siswa tidak diajarkan untuk menerapkan teori ke praktek. Kekhawatiran yang sama
tentang tingkat kognitif pengujian pekerjaan diungkapkan oleh Balai dkk. (1995, dibahas lebih
lanjut dalam bagian berjudul Harapan dan pengaturan sosial, di bawah).
Kualitas Feedback
Kedua sub-bagian sebelumnya mengarah ke titik hampir jelas bahwa kualitas umpan balik
yang diberikan adalah fitur kunci dalam setiap prosedur untuk penilaian formatif. Efek
instruksional umpan balik dari tes telah diperiksa oleh Bangert-tenggelam dkk. (1991a)
menggunakan meta-analisis dari 58 percobaan yang diambil dari 40 laporan. Efek umpan balik
dikurangi jika siswa memiliki akses ke jawaban sebelum umpan balik disampaikan. Ketika efek
ini telah diizinkan untuk, itu maka kualitas umpan balik yang pengaruh terbesar pada kinerja.
Instruksi diprogram dan item penilaian penyelesaian sederhana dikaitkan dengan efek terkecil.
Umpan balik yang paling efektif ketika dirancang untuk merangsang koreksi kesalahan melalui
pendekatan bijaksana kepada mereka dalam kaitannya dengan pembelajaran asli relevan
dengan tugas.
Umpan balik yang diberikan oleh 'ditulis tanggapan siswa guru pekerjaan rumah dipelajari
dalam percobaan dengan lebih dari 500 siswa Venezuela yang melibatkan 18 guru
matematika di tiga sekolah (Elawar & Como, 1985). Mereka melatih guru untuk memberikan
umpan balik tertulis yang berkonsentrasi pada kesalahan spesifik dan strategi yang buruk,
dengan saran tentang bagaimana meningkatkan, keseluruhan yang dipandu oleh fokus pada
pembelajaran mendalam daripada dangkal. Sebuah kelompok kontrol mengikuti praktek
normal menandai pekerjaan rumah tanpa komentar. Untuk memeriksa apakah efek dari
pelatihan umpan balik pada pengajaran mereka dapat menjelaskan hasil apapun, kelompok
ketiga dari guru terlatih ditandai setengah dari kelas mereka dengan umpan balik penuh dan

setengah lainnya dengan tanda saja. Semua diberi pre-test dan salah satu dari tiga bentuk
paralel post-test. Analisis varians dari hasil penelitian menunjukkan efek yang besar terkait
dengan pengobatan umpan balik, yang menyumbang 24% dari varians dalam pencapaian
akhir (dengan yang lain 24% terkait dengan prestasi sebelumnya). Pengobatan juga
mengurangi keunggulan awal anak laki-laki lebih anak perempuan dan memiliki dampak positif
besar pada sikap terhadap matematika.
Dalam lingkup yang sangat berbeda dari belajar, Tenenbaum & Goldring (1989) dilakukan
meta-analisis dengan 16 studi tentang efek dari 'ditingkatkan instruksi', yang melibatkan
penekanan pada isyarat, partisipasi, penguatan, umpan balik dan koreksi, pada keterampilan
motorik belajar di pelajaran fisik. Paparan bentuk-bentuk peningkatan diproduksi keuntungan
dengan ukuran efek rata-rata 0,66, dan mereka juga ditingkatkan waktu siswa pada tugas.
Keterkaitan umpan balik kepada asumsi tentang sifat belajar siswa yang dirancang untuk
mendorong telah diambil lebih lanjut dalam pekerjaan pada penilaian-kurikulum berbasis oleh
Fuchs et al. (1991). Percobaan mereka dengan siswa matematika menjelajahi kemungkinan
pengayaan skema penilaian yang sistematis pengembangan siswa dengan mendirikan
sebuah 'sistem pakar' yang guru bisa berkonsultasi untuk memandu perencanaan
pembelajaran mereka dalam kaitannya dengan hasil penilaian siswa. Percobaan
menggunakan tiga kelompok guru, orang yang tidak menggunakan penilaian yang sistematis,
kelompok kedua yang digunakan penilaian tersebut, dan yang ketiga yang menggunakan
penilaian yang sama bersama-sama dengan sistem pakar. Kedua kelompok kedua dan ketiga
direvisi program pengajaran mereka lebih sering daripada yang pertama. Namun, hanya
kelompok ketiga yang dihasilkan prestasi siswa yang lebih baik daripada yang pertama, dan
sementara guru di kelompok kedua menanggapi umpan balik dengan menggunakan masalah
yang berbeda tanpa mengubah strategi pengajaran, orang-orang di ketiga Ulasan keduanya.
Kesimpulan yang dicapai adalah bahwa guru perlu lebih dari penilaian yang baik instrumenmereka juga membutuhkan bantuan untuk mengembangkan metode untuk menafsirkan dan
menanggapi hasil dengan cara formatif. Salah satu syarat untuk pendekatan semacam ini
model suara siswa kemajuan dalam pembelajaran materi pelajaran, sehingga kriteria yang
memandu strategi formatif dapat disesuaikan dengan siswa lintasan dalam belajar; kebutuhan
ini, gersang beberapa bukti bantalan pada cara-cara untuk memenuhi kebutuhan itu, telah
dipelajari untuk kedua matematika sekolah dan sains sekolah (Hitam, 1993a, hlm 58-61;.
Masters & Evans, 1986; Brown & Denvir, 1987). Untuk data tersebut, urutan kriteria harus
menyesuaikan diri dengan data normatif untuk menunjukkan harapan yang masuk akal untuk
siswa pada usia yang berbeda. Ini telah berusaha dengan data untuk ejaan, membaca dan
matematika oleh Fuchs et al. (1993), yang menganggap baik kebutuhan praktis dan implikasi
dari data tersebut untuk studi perkembangan kemajuan akademik.
Sebuah diskusi yang lebih komprehensif dari umpan balik akan ditawarkan di bagian bawah
dikhususkan untuk topik ini.
Perumusan Strategi
Sub-bagian di atas dapat dianggap sebagai perawatan dari berbagai komponen dari kit dari
bagian-bagian yang dapat dirakit untuk menyusun strategi lengkap. Studi penelitian dijelaskan
dapat dinilai berharga, karena mereka mengeksplorasi situasi yang kompleks dengan
memperlakukan satu variabel pada suatu waktu, atau sebagai cacat karena salah satu taktik
akan berbeda-beda efeknya dengan konteks holistik di mana ia beroperasi. Hal ini juga muncul
bahwa setidaknya beberapa dari rekening yang tidak lengkap dalam bahwa kualitas prosedur
atau instrumen yang membangkitkan umpan balik, dan asumsi yang menginformasikan
interpretasi umpan balik itu, tidak dapat dinilai. Pada saat yang sama jelas bahwa asumsi
mendasar tentang belajar di mana prosedur, instrumen dan interpretasi didasarkan semuanya
penting.

Beberapa penulis telah menulis tentang gambaran strategis yang lebih besar, dan referensi
telah dibuat untuk beberapa argumen mereka. Analisis Thomas et al. (1993) menonjol karena
mereka telah berusaha studi kuantitatif untuk mencakup banyak variabel yang terlibat. Mereka
diterapkan pemodelan linear hirarkis data yang dikumpulkan dari 12 program biologi SMA,
berfokus pada fitur dari program yang ditempatkan tuntutan pada dan memberi dukungan
kepada siswa. Pada tingkat siswa, hasil penelitian menunjukkan hubungan positif antara
prestasi dan kedua konsep diri mereka dari kemampuan akademik dan kegiatan penelitian
mereka; dua terakhir juga terkait dengan satu sama lain. Keterlibatan siswa dalam pekerjaan
penelitian aktif positif terkait dengan penyediaan kegiatan menantang dan dengan umpan balik
yang luas pada pekerjaan mereka dalam kursus. Umpan balik seperti juga terkait langsung
dengan prestasi tinggi. Di antara hubungan lain yang menggoda keluar adalah temuan bahwa
dukungan instruktur yang mengurangi tuntutan saja memperkuat hubungan antara konsep diri
dan prestasi. Karya ini merupakan upaya ambisius, tetapi, hampir kebutuhan, hanya informasi
yang sangat umum disediakan tentang kualitas yang mendasari pekerjaan yang sedang
dipelajari.
Weston et al. (1995) berpendapat bahwa jika literatur tentang penilaian formatif adalah untuk
menginformasikan desain instruksional, maka bahasa yang umum diperlukan. Mereka
mengidentifikasi empat komponen - yang berpartisipasi, apa peran dapat diambil, teknik apa
yang dapat digunakan dan dalam situasi apa ini bisa terjadi, dan berpendapat bahwa desain
instruksional harus didasarkan pada keputusan eksplisit tentang empat ini, yang akan diambil
dalam terang tujuan instruksi. Model ini digunakan untuk menganalisis 11 tes instruksional dan
mengungkapkan bahwa ada banyak asumsi tentang empat isu-isu ini yang tertanam dalam
bahasa tentang evaluasi formatif.
Kedua Ames dan Nichols mencoba lebih ambisius analisis rinci. Untuk Ames (1992),
perbedaan antara kinerja dan penguasaan perspektif adalah titik awal, tapi dia kemudian
menguraikan tiga ciri utama, tugas yaitu bermakna, promosi kemandirian peserta didik dengan
memberikan kewenangan untuk pengambilan keputusan mereka sendiri, dan evaluasi yang
berfokus pada perbaikan individu dan penguasaan. Pentingnya mengubah asumsi bahwa guru
membuat tentang pembelajaran diakui dalam ulasan ini. Analisis beruang banyak kesamaan
dengan yang Zessoules & Gardner (1991). Account dari proyek untuk memprovokasi dan guru
dukungan dalam membuat perubahan jenis ini (Torrie, 1989) memunculkan banyak kesulitan
yang guru yang dihadapi, baik dalam membuat penilaian mereka yang berkaitan dengan
kriteria pembelajaran, dan dalam mengubah pengajaran dan umpan balik mereka untuk
melepaskan diri dari asumsi norma-direferensikan dalam mendukung pembelajaran siswa.
(1994) analisis Nichols masuk lebih dalam berkonsentrasi pada apa yang ia sebut kognitif
penilaian diagnostik. Hal ini menunjukkan bahwa psikometri klasik telah diarahkan pada
penggunaan penilaian untuk memandu seleksi, dan hubungan baru dengan ilmu kognitif
diperlukan jika akan digunakan untuk memandu belajar. Tes harus dirancang dalam terang
model struktur pengetahuan khusus untuk membantu menentukan kemajuan peserta didik
dalam memperoleh struktur tersebut, sehingga interpretasi umpan balik dapat melayani tujuan
membuat kesimpulan tentang mekanisme kognitif siswa. Hal ini jelas bahwa banyak jenis
tradisional tes tidak memadai untuk tujuan ini karena mereka tidak mengungkapkan metode
yang digunakan oleh mereka diuji. Lorsbach dkk. (1992) dieksplorasi faktor yang
mempengaruhi validitas tugas penilaian ketika dinilai dari perspektif konstruktivis dan
menekankan bahwa ancaman utama bagi validitas adalah sejauh mana siswa dapat
membangun makna dari tugas dimaksud oleh mereka yang mengatur mereka. Baik dalam
akun mereka dan bahwa dari Torrance & Pryor (1995) analisis digambarkan oleh catatan rinci
dari pekerjaan satu atau dua guru. Namun, penulis terakhir, mengembangkan argumen di
Torrance (1993), memberikan lebih luas diskusi teoritis, kontras dua pendekatan formatif
penilaian - satu behavioris, menekankan pengukuran terhadap tujuan, dan konstruktivis satu
sosial mengintegrasikan penilaian ke belajar. Demikian pula, untuk penilaian bahasa,
Shohamy (1995) berpendapat bahwa kompleksitas bahasa panggilan untuk disiplin khusus

untuk penilaian bahasa, didasarkan pada perspektif teoritis yang jelas tentang apa yang
dimaksud dengan 'tahu bahasa'.
Dengan demikian pemilihan tugas, dan jenis umpan balik yang tugas mungkin menghasilkan,
memerlukan teori kognitif yang dapat menginformasikan hubungan antara pemahaman
peserta didik dan interaksi mereka dengan tugas-tugas penilaian, dalam terang yang kegiatan
penilaian dapat dirancang dan diinterpretasikan. Pendekatan seperti tentu saja akan
berinteraksi kuat dengan pedagogi diadopsi, dan mungkin harus marah apriori posisi teoritis
dengan kesiapan untuk beradaptasi dan berkembang dengan pendekatan induktif sebagai
umpan balik formatif menantang alasan pekerjaan (Fuchs & Fuchs, 1986) . Kesimpulan dari
analisis ini adalah bahwa usaha yang sangat besar, yang melibatkan kolaborasi antara
psychometricians, ilmuwan kognitif dan ahli subjek diperlukan.
Semua diskusi ini menunjukkan kebutuhan untuk sangat jauh perubahan jika evaluasi formatif
adalah untuk mewujudkan potensinya. Beberapa perubahan besar-besaran di pedagogi telah
berusaha untuk memenuhi target tersebut, dan dibedakan dari apa yang telah dibahas dalam.
Bagian ini dengan pendekatan yang komprehensif dan strategis mereka. Ini akan menjadi
subjek dari bagian berikutnya.
Sistem
Strategi umum
Penilaian umpan balik yang baik adalah baik secara eksplisit disebutkan atau sangat tersirat
dalam laporan dari berbagai studi dan inisiatif di mana umpan balik tersebut adalah salah satu
komponen dari strategi yang lebih luas. Jadi, misalnya, dalam meringkas sebuah penelitian
efektivitas sekolah Mortimore et al. (1988) menunjukkan bahwa umpan balik dan baik
pencatatan merupakan aspek kunci dari efektivitas. Dalam inisiatif di Inggris untuk
mengembangkan 'Record of Achievement' holistik untuk mencakup semua aspek pekerjaan
siswa dan kontribusi dalam sekolah, siswa harus terlibat dalam negosiasi catatan disepakati.
Jadi self-assessment dilaporkan menjadi fitur penting, tetapi telah tergabung dalam berbagai
cara dan kadang-kadang dangkal (Broadfoot, 1992; Broadfoot et al, 1990.). Ditingkatkan
memperhatikan diagnosis dan remediasi adalah fitur dari banyak skema lain, untuk pemulihan
membaca contoh dan Sukses Slavin untuk Semua skema (Slavin dkk., 1992, 1996).
Penilaian dan umpan balik juga merupakan fitur penting dari program pembelajaran
penguasaan, dibahas lebih rinci di bawah, namun dengan banyak (jika tidak semua) dari
sistem pengajaran, bahkan mengidentifikasi sifat yang tepat dari umpan balik formatif
digunakan, apalagi kontribusinya terhadap global perbaikan dalam pencapaian yang
dihasilkan, sulit. Untuk alasan ini, sistem ini ditinjau hanya sebentar dalam apa yang berikut.
Studi Penguasaan Belajar
Ketuntasan belajar berasal sebagai implementasi praktis dari teori-teori belajar dari John B.
Carroll. Ia mengusulkan bahwa keberhasilan dalam belajar adalah fungsi semata-mata dari
rasio waktu benar-benar menghabiskan belajar dengan waktu yang dibutuhkan untuk belajardengan kata lain, setiap siswa bisa belajar apa pun jika mereka belajar cukup lama. Waktu
yang dihabiskan belajar tergantung baik pada waktu yang diizinkan untuk belajar dan
ketekunan pembelajar sementara waktu yang dibutuhkan untuk belajar tergantung pada bakat
pelajar, kualitas pengajaran, dan kemampuan peserta didik untuk memahami ajaran ini (lihat
Block. & Bums, 1976 , p. 6). Dua pendekatan utama untuk penguasaan pembelajaran yang
dikembangkan pada tahun 1960. Satu, yang dikembangkan oleh Benjamin Bloom,
menggunakan berbasis kelompok pendekatan pengajaran guru-tanggung, disebut Learning
untuk Penguasaan (LFM) dan yang lain adalah individu berbasis, Personalized Sistem-siswa
yang serba Keller dari Instruksi (PSI). Sebagian besar penelitian yang dilakukan dalam

penguasaan pembelajaran telah berpusat pada Bloom, bukan Model Keller, dan yang telah
dilakukan pada PSI sebagian besar terbatas untuk melanjutkan dan pendidikan tinggi.
Konsekuensi utama dari model LFM Bloom adalah bahwa mahasiswa yang berbeda bakat
akan berbeda dalam prestasi mereka kecuali mereka yang kurang bakat yang diberikan baik
kesempatan yang lebih besar untuk belajar atau mengajar kualitas yang lebih baik. Untuk
sebagian besar pendukung penguasaan pembelajaran, hal ini tidak akan dicapai dengan
menargetkan mengajar sumber daya untuk siswa dari bakat yang lebih rendah, tetapi dengan
meningkatkan kualitas pengajaran untuk semua siswa, asumsi yang mendasari adalah bahwa
siswa dengan bakat yang lebih tinggi lebih mampu memahami instruksi lengkap atau miskin
(Milkent & Roth, 1989).
Elemen-elemen kunci dalam strategi ini, menurut McNeil (1969) adalah:
Pelajar harus memahami sifat dari tugas yang harus dipelajari dan prosedur yang harus diikuti
dalam belajar itu.
Tujuan instruksional khusus yang berhubungan dengan tugas belajar harus dirumuskan.
Hal ini berguna untuk memecah kursus atau subjek menjadi unit-unit kecil belajar dan untuk
menguji pada akhir setiap unit.
Guru harus memberikan umpan balik tentang kesalahan tertentu setiap pelajar dan kesulitan
setelah setiap tes.
Guru harus menemukan cara untuk mengubah waktu beberapa siswa telah tersedia untuk
belajar.
Mungkin menguntungkan untuk memberikan kesempatan belajar alternatif.
Upaya mahasiswa meningkat ketika kelompok-kelompok kecil dari dua atau tiga siswa
bertemu secara teratur selama satu jam untuk meninjau hasil tes mereka dan untuk membantu
satu sama lain mengatasi kesulitan diidentifikasi dengan cara tes.
Oleh karena itu, meskipun prinsip-prinsip penguasaan pembelajaran mencakup semua aspek
belajar dan mengajar, penilaian formatif efektif adalah komponen kunci dari efektif belajar
penguasaan. Tiga ulasan utama dari penelitian efektivitas pembelajaran penguasaan
menggunakan teknik 'meta-analisis' untuk menggabungkan hasil dari berbagai studi yang
berbeda. Review Block & Bums (1976) meliputi pekerjaan yang dilakukan pada paruh pertama
tahun 1970-an sementara Guskey & Gates (1986) dan Kulik et al. (1990) mencakup dekade
berikutnya.
Di antara mereka, ulasan Block & Luka bakar (1976) dan Guskey & Gates (1986) memberikan
83 langkah (dari 35 studi) dari pengaruh penguasaan belajar terhadap prestasi umum, semua
menggunakan 'Belajar Untuk Penguasaan' pendekatan (LFM). Mereka menemukan ukuran
rata-rata efek 0,82, yang setara dengan meningkatkan pencapaian 'rata-rata' mahasiswa itu
dari 20%, dan salah satu efek rata terbesar yang pernah dilaporkan untuk strategi mengajar
(Kulik & Kulik, 1989) . Ketika usia siswa yang terlibat diperiksa, tampak seolah-olah
penguasaan pembelajaran kurang efektif bagi siswa yang lebih tua. Namun tidak jelas apakah
ini karena siswa yang lebih tua lebih 'diatur dalam cara mereka' dan karena itu memiliki lebih
banyak kesulitan dalam mengubah cara mereka bekerja dengan yang dibutuhkan untuk
penguasaan pembelajaran, atau karena penguasaan pembelajaran disesuaikan lebih mudah
dalam kurikulum sekolah dasar dan pedagogi.

Ulasan ini juga mempertimbangkan apakah penguasaan pembelajaran lebih efektif dalam
beberapa mata pelajaran dari yang lain. Block & Luka bakar (1976) menemukan bahwa hasil
ilmu pengetahuan (dan menurut beberapa penulis, sosiologi) yang lebih konsisten, tetapi lebih
rendah dari untuk mata pelajaran lainnya, sementara hasil untuk matematika, rata-rata, lebih
tinggi, tetapi jauh kurang konsisten. Namun, sementara Guskey & Gates (1986) juga
menemukan efek ukuran rendah untuk ilmu pengetahuan, ini adalah sebanding dengan efek
ukuran untuk matematika, dan keduanya jauh lebih rendah daripada yang ditemukan untuk
seni bahasa dan ilmu sosial. Dengan demikian tidak ada konsensus yang jelas muncul dari
penelitian tentang efektivitas relatif dari program pembelajaran penguasaan dalam mata
pelajaran yang berbeda.
1990 review oleh Kulik et al. memandang 108 studi yang dinilai memenuhi kriteria mereka
untuk dimasukkan dalam meta-analisis. Dari jumlah tersebut, 91 dilakukan dengan siswa lebih
dari 18 tahun, 72 menggunakan pendekatan PSI Keller dan 19 menggunakan pendekatan
LFM Bloom. 17 studi berbasis sekolah semua digunakan LFM, meskipun ini juga miring
terhadap siswa yang lebih tua - hanya dua dari studi yang terdapat hasil apapun dari siswa
muda dari 11 tahun. Efek ukuran ditemukan lebih kecil dari yang ditemukan oleh Block & Bums
dan Guskey & Gates-tidak mengherankan mengingat representasi yang lebih besar dari studi
dengan siswa yang lebih tua. Namun, Kulik et al. juga menemukan bahwa pendekatan PSI
sendiri mondar-mandir cenderung memiliki efek ukuran yang lebih kecil dibandingkan dengan
pendekatan LFM guru serba, dan tampaknya juga mengurangi tingkat penyelesaian dalam
kursus perguruan tinggi. Tiga ulasan juga menemukan bahwa program penguasaanpembelajaran yang lebih efektif bagi siswa rendah mencapai, sehingga cenderung (sebagai
awalnya ditujukan) untuk mengurangi berbagai prestasi dalam kelompok, meskipun orang lain,
seperti Livingstone & Gentile (1996), telah menemukan tidak ada bukti untuk mendukung
'penurunan variabilitas hipotesis'.
Sejajar dengan masalah apakah penguasaan pembelajaran lebih efektif bagi siswa yang lebih
rendah-mencapai adalah bahwa apakah itu sama efektif untuk semua guru. Martinez &
Martinez (1992) melihat efek dari pengujian diulang dalam kursus sarjana matematika
remedial dan menemukan bahwa sering 'penguasaan' pengujian efektif dalam meningkatkan
prestasi, tapi itu lebih efektif bagi guru yang kurang berpengalaman. Berdasarkan metaanalisis dari 40 studi, Bangert & tenggelam dkk. (1991b) memperkirakan bahwa pengujian
sekali setiap tiga minggu menunjukkan-efek ukuran 0,5 lebih tidak ada pengujian, meningkat
menjadi sekitar 0,6 untuk tes mingguan dan 0,75 untuk tes dua kali seminggu.
Lainnya, terutama Robert Slavin, telah mempertanyakan apakah penguasaan pembelajaran
efektif sama sekali. Dalam ulasannya sendiri penelitian tentang penguasaan pembelajaran, ia
mengkritik meta-analisis sebagai terlalu kasar, karena cara yang dihasilkan dari semua studi
penelitian yang memenuhi kriteria inklusi yang rata-rata. Pendekatan sendiri adalah dengan
menggunakan 'terbaik-bukti' sintesis (Slavin, 1987), melampirkan lebih (tentu subjektif) berat
untuk studi yang dirancang dengan baik dan dilakukan. Meskipun banyak dari temuan setuju
dengan meta-analisis ulasan yang dijelaskan di atas, ia menunjukkan bahwa hampir semua
efek ukuran besar telah ditemukan pada tes guru-siap, daripada standar, dan memang, efek
ukuran untuk penguasaan pembelajaran diukur oleh tes standar yang mendekati nol. Hal ini
menunjukkan bahwa efektivitas pembelajaran penguasaan mungkin bergantung pada
'kurikulum-embeddedness' dari ukuran hasil. Hal ini didukung oleh Kulik et al. (1990)
menemukan bahwa efek ukuran untuk penguasaan belajar yang diukur dengan tes formatif
(biasanya sekitar 1,17) lebih besar dari tes sumatif untuk (sekitar 0,6).
Slavin (1987) berpendapat bahwa ini adalah karena, di mana penguasaan penelitian hasil
diukur dengan menggunakan tes guru-diproduksi belajar, para guru fokus sempit pada konten
yang akan diuji. Dengan kata lain, efek yang dihasilkan (baik sadar atau tidak sadar) dengan
'mengajar untuk menguji'. Oleh karena itu inti dari perselisihan ini adalah ukuran dari
'penguasaan' dari domain - harus itu tes guru-diproduksi atau tes standar?

Relevansi Mastery Learning


Satu-satunya pesan yang jelas muncul dari penguasaan literatur belajar adalah bahwa
pembelajaran penguasaan tampaknya efektif dalam meningkatkan nilai siswa pada tes gurudiproduksi, lebih efektif dalam program guru serba daripada di program sendiri mondarmandir, dan lebih efektif untuk muda siswa.
Namun, sementara menetapkan bahwa dalam keadaan tertentu, penguasaan pembelajaran
efektif dalam meningkatkan prestasi, literatur memberikan sangat sedikit bukti untuk yang
aspek program pembelajaran penguasaan efektif. Sebagai contoh, sementara sebagian besar
penelitian berkonsentrasi pada efek penguasaan belajar pada siswa, penjelasan dari efek bisa
yang mempersiapkan mengajar untuk penguasaan memberikan pengembangan profesional
bagi guru (Whiting et al., 1995).
Memang, salah satu kritik disuarakan oleh pengulas dikutip di atas adalah bahwa terlalu sering
tidak mungkin untuk membangun dari laporan penelitian yang menampilkan pembelajaran
penguasaan dilaksanakan dalam penelitian yang dilaporkan, apalagi yang efektif (Guskey &
Pigott, 1988) . Setidaknya ada lima aspek yang khas penguasaan program pembelajaran
`'yang relevan dengan tujuan dari tinjauan ini:
bahwa siswa diberikan umpan balik;
bahwa siswa diberikan umpan balik tentang prestasi mereka saat ini terhadap beberapa
tingkat yang diharapkan dari pencapaian (yaitu 'tingkat `penguasaan);
bahwa umpan balik tersebut diberikan dengan cepat;
bahwa umpan balik tersebut (atau setidaknya dimaksudkan untuk menjadi) diagnostik;
bahwa siswa diberi kesempatan untuk berdiskusi dengan rekan-rekan mereka bagaimana
untuk memperbaiki setiap kelemahan.
Namun, tidak jelas bahwa semua ini diperlukan untuk mencapai keuntungan diklaim untuk
belajar penguasaan. Misalnya, Kulik & Kulik (1987) berpendapat bahwa pengujian
penguasaan adalah komponen penting dalam keberhasilan pembelajaran penguasaan, dan
bahwa kelalaian yang menyebabkan penurunan substansial dalam efektivitas program ini. Di
sisi lain, program tanpa formal `penguasaan 'pengujian, tetapi dengan banyak fitur lain dari`
penguasaan' program dapat menunjukkan efek yang signifikan.
Sebagai contoh, dalam sebuah studi oleh Brown et al. (1996) sekelompok siswa kelas dua
rendah mencapai diberi tahun `strategi transaksional instruksi '(TSI), di mana guru
menjelaskan dan strategi model, memberi pelatihan tambahan yang diperlukan, dan
mendorong siswa untuk menjelaskan satu sama lain bagaimana mereka menggunakan
strategi. Pada akhir tahun, kelompok ini mengungguli dengan selisih yang cukup kelompok
serupa yang diajarkan oleh guru sangat dihormati menggunakan metode yang lebih tradisional
(ukuran efek yang tepat tidak diberikan, tetapi mereka berkisar antara 1 dan 2 standar deviasi).
Penilaian Driven Model
Account telah diberikan pada bagian pengalaman Kelas dari pengenalan sistem yang lengkap
perencanaan dan pengukuran untuk anak-anak TK, di mana inovasi grosir tampaknya memiliki
penilaian formatif sebagai komponen utama, sehingga tampaknya berlaku untuk atribut
keberhasilan dilaporkan bahwa komponen (Bergan et al., 1991). Pendekatan grosir lain adalah
dengan mereformasi wacana melalui penerapan konsep scaffolding (Day & Cordon, 1993;
Hogan & Pressley, 1997). Beda lagi adalah pendekatan mana masalah yang bekerja pada

hasil ketetapan ditangani dengan membangun bekerja pada modul tertentu atau topik
sedemikian rupa bahwa ide dasar telah ditutupi oleh sekitar dua-pertiga dari jalan melalui
kursus; Bukti penilaian ditinjau pada tahap ini, sehingga dalam waktu dibedakan pekerjaan
yang tersisa dapat melanjutkan sesuai dengan kebutuhan siswa yang berbeda (Black &
Dockrell, 1984; Dwight, 1988).
Dua sistem didefinisikan lebih longgar adalah mereka digambarkan sebagai `-kurikulum
berbasis penilaian 'dan mereka digambarkan sebagai portofolio`' sistem.
-Kurikulum berbasis penilaian (CBA) merupakan pengembangan yang diperluas di akhir 1980an. Fokus dari banyak penelitian telah di pendidikan tahun-tahun awal dan identifikasi siswa
dengan kebutuhan pendidikan khusus, namun metode-metode dan prinsip-prinsip dapat
diterapkan tepat di seberang spektrum pendidikan. Ulasan berguna literatur yang dapat
ditemukan dalam koleksi diedit oleh Kramer (1993), dan satu artikel di koleksi yang (Shinn &
Baik 111, 1993) menetapkan fitur utama dari CBA sebagai berikut:
Latihan penilaian harus setia mencerminkan tujuan pembelajaran utama dan harus dirancang
untuk membangkitkan bukti tentang kebutuhan belajar.
Tujuan utama untuk penilaian adalah tujuan formatif.
Validitas adalah yang terpenting - dipandang sebagai memastikan bahwa keputusan
instruksional diambil atas dasar bukti penilaian dibenarkan.
Fokus perhatian adalah pembelajar individu dan tindakan perbaikan selaras secara individual.
Informasi dari penilaian harus berfungsi untuk mencari pencapaian individu dalam kaitannya
dengan kriteria untuk belajar, tetapi bahwa lokasi ini juga harus diinformasikan oleh data yang
norma tentang kemajuan orang lain bekerja dengan kurikulum yang sama. Penilaian harus
sering sehingga lintasan belajar dari waktu ke waktu dapat ditelusuri: gradien keberhasilan
belajar adalah indikator kunci - untuk mengikuti kemajuan masing-masing murid pada
umumnya, dan untuk menunjukkan kasus kebutuhan khusus.
Shinn tidak membuat perbedaan yang tajam antara CBA dan konsep terkait pengukuranKurikulum berbasis (CBM), tetapi yang lain bersikeras perbedaan ini (Salvia & Hughes, 1990;
Salvia & Ysseldyke, 1991; Deno, 1993; Tindal, 1993). Deno, misalnya, melihat CBM sebagai
sub-set CBA berkaitan dengan langkah-langkah khusus dan prosedur difokuskan pada
keterampilan dasar untuk pekerjaan diagnostik guru pendidikan khusus, dan juga
menganggap judul ini istilah `Pengukuran 'sebagai mencerminkan pentingnya dalam strategi
berkaitan langkah-langkah untuk skala kuantitatif didirikan. Ada juga beberapa
ketidaksepakatan mengenai apakah atau tidak CBA dapat digambarkan sebagai perilaku
pendekatan `'.
Sebuah presisi lanjut dianggap penting oleh dua penulis adalah untuk membedakan CBA dari
penguasaan belajar (Deno, 1993; Fuchs, 1993). Mereka melihat ketuntasan belajar sebagai
mengharuskan peserta didik mengikuti urutan keterampilan tertentu langkah demi langkah,
yang kendala-kendala yang belajar untuk mengikuti jalan tertentu, sedangkan CBA jauh lebih
luas dan longgar sehingga memungkinkan bagi peserta didik untuk mengikuti berbagai rute
untuk belajar, dengan kurang penekanan memperlakukan keterampilan diskrit dalam isolasi.
Bukti penelitian tentang CBM ditinjau oleh Fuchs (1993). Baginya, pengaturan tujuan
pembelajaran eksplisit adalah ciri khas dari CBM. Bukti penelitian adalah bahwa siswa
mencapai tingkat yang lebih tinggi dari pencapaian jika tujuan pembelajaran yang ambisius
untuk mereka. Percobaan juga telah dibandingkan mereka yang bekerja untuk tujuan statis,
ditetapkan pada awal dan tidak kemudian diubah, dengan mereka yang bekerja untuk tujuan

yang dinamis, yang diubah, biasanya up-dinilai dengan perubahan yang sesuai dalam
instruksi, dalam terang kemajuan diukur. Pendekatan dinamis mengarah ke prestasi yang
lebih baik.
Deskripsi oleh Shinn dari apa yang disebutnya paradigma CBA membuat jelas bahwa ini
adalah pendekatan penilaian formatif, dan bahwa banyak dari fitur-fiturnya akan menjadi
penting dalam penggabungan penilaian formatif menjadi program pembelajaran. Apa mungkin
khas adalah desakan pada desain uji tajam terfokus, dan pada penggunaan sering tes untuk
memberikan grafik kinerja terhadap waktu sebagai instrumen diagnostik kunci.
Portofolio
Gerakan portofolio lebih erat terkait dengan upaya untuk mengubah dampak berisiko tinggi,
sering standar, pengujian belajar sekolah. Ada literatur yang terkait dengan gerakan portofolio
di Amerika Serikat. Banyak yang ditinjau, oleh Collins (1992), dalam koleksi diedit dari Belanoff
& Dickson (1991) dan-untuk penilaian tulisan - oleh Calfee & Perfumo (1996a), sementara
Pengadilan & McInerney (1993), menetapkan beberapa isu dalam pendidikan tinggi. Mills
(1996) memberikan penjelasan tentang asal-usul inovasi, menjelaskan pekerjaan sebagai
upaya di Vermont untuk memenuhi tuntutan akuntabilitas sementara menghindari tekanan dari
tes standar.
Portofolio adalah kumpulan karya siswa, biasanya dibangun oleh seleksi dari corpus lebih
besar dan sering disajikan dengan sepotong reflektif yang ditulis oleh siswa untuk
membenarkan seleksi. Keterlibatan mahasiswa dalam meninjau dan memilih dipandang
sebagai pusat - sebagai Mills mengatakan `Menemukan cara untuk mempromosikan jenis
refleksi pada skala luas telah berada di jantung dari penilaian Vermont dari awal '(Mills, 1996,
p . 192) dan, berbicara tentang respon siswa `Apa yang mencolok adalah kemampuan mereka
untuk merefleksikan pekerjaan mereka sendiri dalam kaitannya dengan serangkaian standar
diinternalisasi -. standar yang mereka berbagi dengan banyak orang lain '(Mills, 1996, p 194
). Demikian pula, menulis tentang berbeda, nasional, proyek, Daro (1996) melaporkan pada
antusiasme para inovator ', baik untuk kekuatan portofolio untuk memusatkan perhatian siswa
pada upaya pembelajaran mereka sendiri dan prestasi, dan bukti bahwa guru percaya
perubahan pekerjaan cara-cara di mana mereka mengajar dan meningkatkan harapan mereka
untuk siswa mereka. Calfee & Freedman (1996) melihat portofolio sebagai menawarkan
teknologi untuk membantu slogan `berpusat pada siswa belajar 'untuk menjadi kenyataan.
Lainnya (Herman et al., 1996) menekankan bahwa itu adalah berharga bagi siswa untuk
memahami kriteria penilaian untuk diri mereka sendiri, sementara Yancey (1996), dalam
analisis yang lebih halus dari konsep refleksi sebagai pembelajaran, menunjukkan bahwa
praktek membantu siswa untuk merefleksikan pekerjaan mereka telah membuat guru lebih
reflektif untuk diri mereka sendiri.
Namun, ada sedikit dengan cara bukti penelitian, yang melampaui laporan dari guru, untuk
membangun keunggulan pembelajaran. Perhatian telah difokuskan lebih pada keandalan
scoring guru portofolio karena motif untuk membuat mereka memenuhi keprihatinan untuk
akuntabilitas, dan untuk melayani tujuan sumatif serta formatif tersebut. Dalam hal ini,
ketegangan antara tujuan bermain keluar baik dalam pemilihan dan dalam scoring tugas
(Benoit & Yang, 1996). Daro (1996) menjelaskan pendekatan scoring berdasarkan
pendekatan multi-dimensi, dengan kriteria yang masing-masing dimensi mencerminkan aspek
pembelajaran yang dapat dipahami oleh siswa dan yang mencerminkan aspek penting dari
pembelajaran. Namun, ia mengidentifikasi masalah sehingga `Tapi itu tidak harus mengikuti
bahwa hal itu akan praktis untuk membawa standar nasional ke dalam fokus siswa diri menilai
dan guru mereka (Davo, 1996, hal. 241).
Calfee & Perfumo (1996b) laporan penelitian dengan guru dalam pengalaman mereka
menggunakan portofolio. Hasil penelitian menunjukkan kesenjangan mengganggu antara

retorika umum dan praktek yang sebenarnya, karena mereka menunjukkan bahwa banyak
guru yang membayar sedikit perhatian untuk standar eksternal dan memproduksi sedikit bukti
dari setiap keterlibatan siswa dalam memahami mengapa mereka melakukan pekerjaan ini.
Kesimpulan mereka adalah bahwa nasib masa depan gerakan tergantung pada
keseimbangan, baik antara tiga kemungkinan negatif - anarki, hilangnya, atau menjadi terlalu
standar - atau kemungkinan positif untuk mempromosikan sebuah revolusi besar dalam
belajar.
Slater et al. (1997) menggambarkan sebuah eksperimen di kursus aljabar pengantar untuk
mahasiswa yang tidak menghasilkan perbedaan yang signifikan dalam pencapaian antara
kelompok yang terlibat dalam produksi portofolio dan kelompok kontrol. Namun, tes prestasi
adalah tes pilihan ganda 24-item, yang mungkin tidak mencerminkan beberapa keuntungan
dari pendekatan portofolio, dan pada saat yang sama guru melaporkan bahwa kelompok
portofolio akhirnya mengajukan pertanyaan tentang aplikasi dunia nyata dan telah
menyebabkan membahas fenomena yang lebih kompleks dan menarik daripada kelompok
kontrol. Dalam bab 3 buku mereka, Pengadilan & McInerney (1993) juga melaporkan upaya
untuk mengevaluasi kursus menulis dengan mahasiswa yang juga tampaknya menunjukkan
hanya keuntungan kecil, tapi menunjukkan bahwa mereka menilai kualitas tulisan holistik yang
penilaian dan pembelajaran sebelumnya pengalaman siswa mereka telah diabaikan.
Pemeriksaan sumatif Model
Skema Graded Assessment di Inggris yang ketentuan komprehensif yang dirancang untuk
menggantikan pemeriksaan terminal untuk sertifikat publik dengan serangkaian penilaian
dinilai, dilakukan di sekolah-sekolah tapi dimoderatori (yaitu diperiksa untuk konsistensi
standar antara sekolah) oleh otoritas memeriksa. Dalam bahwa mereka menggantikan
pemeriksaan terminal dengan tes sering dalam masing-masing sekolah, dan meningkatkan
pentingnya komponen kursus yang dinilai sebagai kontributor untuk hasil sumatif, mereka
mempengaruhi cara di mana penilaian dioperasikan di dalam sekolah dan memberikan
skenario khas untuk bekerja keluar ketegangan formatif-sumatif. Sementara rekening umum
skema ini telah dipublikasikan (Pennycuick & Murphy, 1986; Lock & Ferriman, 1988; Swain,
1988, 1989; Ferriman & Lock, 1989; Iredale, 1990; Lock & Wheatley, 1990) ada tidak muncul
untuk menjadi setiap penelitian yang dipublikasikan yang bisa mengidentifikasi perkembangan
tertentu dari fungsi formatif dalam skema ini. Sebuah skema yang sama dalam ilmu, di bahwa
fungsi sumatif itu terkait dengan sering penilaian selama masa diperpanjang dalam pekerjaan
kelas, telah dijelaskan oleh Ratcliffe (1992). Dalam semua account tersebut, salah satu
masalah yang menonjol adalah kesulitan yang guru dan pengembang bertemu dalam
mencoba untuk membangun pendekatan kriteria-referenced untuk penilaian. Dalam beberapa
skema seperti itu, fitur penting telah penyediaan bank sentral dari pertanyaan penilaian dari
mana guru dapat menarik sesuai dengan kebutuhan khusus mereka - tetapi ini umumnya telah
dirancang dengan kebutuhan sumatif dalam pikiran. Di Kanada, Dassa dkk. (1993)
menjelaskan pengaturan dari bank item diagnostik diselenggarakan dalam skema tiga
dimensi: konteks diagnostik, konten nosional dan kemampuan kognitif, barang yang berasal
dari studi tentang kesalahan umum sehingga mereka bisa memberikan dasar untuk diagnosis
kausal . `Me Tujuan keseluruhan adalah untuk membantu guru memberikan umpan balik
pribadi formatif dalam keterbatasan ruang kelas normal. Uji coba di lima kelas menunjukkan
bahwa dibandingkan dengan satu set kontrol lima ruang kelas yang lebih, mereka
menggunakan bank item memiliki keuntungan unggul, berarti ukuran efek yang 0,7.
Masalah mengembangkan penilaian kriteria-referenced dilanda reformasi radikal jauh lebih di
Queensland (Withers, 1987; Butler, 1995). Negara bagian Australia ini dihapuskan
pemeriksaan eksternal untuk sekolah menengah pada tahun 1971, tetapi kemudian
mengalami masalah dalam kualitas dan norma-referensi dari penilaian berbasis sekolah.
Artikel Butler 's menceritakan perkembangan pendekatan kriteria-referenced, dengan guru
harus mempelajari keterampilan dan negara harus mengembangkan sistem untuk

memastikan komparabilitas interpretasi standar kriteria. Penekanan lebih besar pada penilaian
tersebar lebih dari dua tahun dalam pekerjaan kelas, pada umpan balik kepada siswa tentang
hasil penilaian berturut-turut, dan pada produksi portofolio siswa sebagai bukti untuk prosedur
moderasi, telah diperlukan dalam perkembangan ini. Namun, dampak dari pada peran formatif
penilaian masih harus diteliti.
Sistem yang dijelaskan dalam kategori ini harus memang memiliki implikasi untuk penilaian
formatif dan bisa mendekati masalah hubungan formatif-sumatif dari arah yang berbeda dari
kebanyakan studi lainnya, di mana tekanan berisiko tinggi yang baik diabaikan, atau diterima
di prestasi yang pada langkah-langkah yang ada digunakan (dilematis) sebagai kriteria
keberhasilan. Namun, ada ada sedikit bukti bahwa hubungan formatif-sumatif telah dipikirkan
dalam desain mereka, dan bukti substansial sedikit tentang bagaimana ia telah bekerja dalam
praktek (tapi lihat Rowe & Hill, 1996 dan bagian yang berjudul Apakah implikasi bagi
kebijakan? Bawah ).
Umpan Balik
Dua konsep penilaian formatif dan umpan balik tumpang tindih kuat. Umpan balik istilah telah
sering terjadi di akun sejauh ini, dan bagian pada kualitas umpan balik secara eksplisit peduli
dengan fungsi umpan balik. Namun, bagian yang memiliki fokus yang terbatas, dan
penggunaan umumnya telah beragam dan tidak tunduk pada konsistensi yang ketat. Karena
sentralitas dalam penilaian formatif, penting untuk mengeksplorasi dan memperjelas konsep.
Ini akan dilakukan di bagian ini sebagai prolog yang diperlukan untuk review lebih lengkap dari
penilaian formatif di bagian akhir berikutnya.
Sifat Feedback
Awalnya, umpan balik digunakan untuk menggambarkan pengaturan di sirkuit listrik dan
elektronik dimana informasi tentang tingkat sebuah `keluaran 'sinyal (khusus kesenjangan
antara tingkat sebenarnya dari sinyal output dan beberapa didefinisikan referensi`' tingkat)
diumpankan kembali ke dalam satu input sistem. Di mana efek ini adalah untuk mengurangi
kesenjangan, itu disebut umpan balik negatif, dan di mana efek umpan balik ini adalah untuk
meningkatkan kesenjangan, itu disebut `umpan balik positif '.
Dalam menerapkan model ini ke ilmu perilaku, kita dapat mengidentifikasi empat elemen yang
membentuk sistem umpan balik:
Data pada tingkat yang sebenarnya dari beberapa atribut yang dapat diukur;
Data pada tingkat referensi atribut itu;
mekanisme untuk membandingkan dua tingkat, dan menghasilkan informasi tentang
kesenjangan antara dua tingkat;
mekanisme dimana informasi tersebut dapat digunakan untuk mengubah kesenjangan.
Untuk Kluger & DeNisi (1996) hanya yang pertama ini diperlukan untuk umpan balik untuk
ada. Mereka mendefinisikan `umpan balik intervensi 'sebagai` tindakan yang diambil oleh agen
eksternal untuk memberikan informasi mengenai beberapa aspek kinerja seseorang tugas',
meskipun perlu dicatat bahwa persyaratan untuk agen eksternal tidak termasuk selfregulation. Sebaliknya, Ramaprasad (1983) mendefinisikan tanggapan sebagai berikut:
Umpan balik informasi tentang kesenjangan antara tingkat aktual dan tingkat referensi dari
parameter sistem yang digunakan untuk mengubah kesenjangan dalam beberapa cara (p. 4).

dan secara khusus mensyaratkan bahwa untuk umpan balik ada, informasi tentang
kesenjangan harus digunakan untuk mengubah kesenjangan. Jika informasi tidak benar-benar
digunakan dalam mengubah kesenjangan, maka tidak ada tanggapan.
Untuk keperluan ulasan ini, kami telah mengambil pandangan yang luas tentang apa yang
merupakan umpan balik, daripada mengeluarkan bukti penting.
Salah satu ulasan yang paling penting dari efektivitas umpan balik dilakukan oleh Kluger &
DeNisi (1996). Mereka meninjau lebih dari 3000 laporan efek umpan balik pada kinerja (2500
kertas dan 500 laporan teknis). Setelah tidak termasuk yang tanpa kontrol yang memadai,
mereka di mana intervensi umpan balik yang bingung dengan efek lainnya, di mana kurang
dari 10 peserta termasuk dalam studi, di mana kinerja hanya dibahas daripada diukur, dan
detail-detail di mana tidak cukup diberi untuk memperkirakan ukuran efek, mereka yang tersisa
dengan 131 laporan, menghasilkan 607 efek ukuran, dan melibatkan 12.652 peserta.
Mereka menemukan efek ukuran rata-rata 0,4 (setara dengan meningkatkan pencapaian ratarata siswa untuk persentil ke-65), tetapi standar deviasi dari ukuran efek hampir 1, dan sekitar
dua dari setiap lima efek negatif. Fakta bahwa begitu banyak laporan penelitian menemukan
bahwa umpan balik dapat memiliki efek negatif pada kinerja menunjukkan bahwa ini bukan
hanya artefak dari desain miskin, atau tidak dapat diandalkan dalam langkah-langkah, tapi
nyata, efek substantif.
Untuk menjelaskan variabilitas dalam efek ukuran dilaporkan, mereka diperiksa kemungkinan
`moderator 'dari efektivitas intervensi umpan balik - yang faktor yang mempengaruhi, baik
negatif maupun positif, pada efektivitas umpan balik.
Mereka mulai dengan mencatat bahwa disajikan dengan `gap 'antara tingkat aktual dan
referensi dari beberapa atribut (apa Kluger & DeNisi 1996, istilah` tanggapan-standar
perbedaan'), ada empat kelas yang luas dari tindakan.
Yang pertama adalah untuk mencoba untuk mencapai standar atau tingkat referensi, yang
merupakan respon khas ketika tujuan yang jelas, di mana individu memiliki komitmen yang
tinggi untuk mencapai tujuan dan di mana keyakinan individu dalam keberhasilan akhirnya
tinggi. Tipe kedua adalah respon untuk meninggalkan standar sepenuhnya, yang sangat
umum di mana keyakinan individu dalam keberhasilan akhirnya rendah (yang mengarah ke
'ketidakberdayaan yang dipelajari' - Dweck, 1986). Sepertiga, dan kurang ekstrim, respon
adalah mengubah standar, daripada meninggalkannya sama sekali. Individu dapat
menurunkan standar, terutama kemungkinan di mana mereka tidak dapat atau tidak ingin
meninggalkannya, dan sebaliknya, mungkin, jika berhasil, memilih untuk meningkatkan
standar. Tanggapan keempat celah umpan balik-standar hanya untuk menyangkal itu ada.
Kluger & DeNisi (1996) menemukan dukungan empiris untuk masing-masing kategori respon,
dan mengembangkan model teoritis yang menyumbang proporsi yang signifikan dari
variabilitas dalam efek ukuran ditemukan dalam literatur. Mereka mengidentifikasi tiga tingkat
proses terkait yang terlibat dalam regulasi kinerja tugas: proses meta-tugas, yang melibatkan
diri; proses tugas-motivasi, yang melibatkan tugas fokus; dan tugas proses yang melibatkan
rincian tugas fokus belajar.
Proses meta-tugas
Dalam mengusulkan tipologi umpan balik guru, berdasarkan penelitian kelas, Tunstall & Gipps
(1996b) diatur berbagai jenis mereka di spektrum, mulai dari orang-orang yang mengarahkan
perhatian pada tugas dan metode pembelajaran, bagi mereka yang perhatian langsung ke diri
yang dalam bentuk ekstrim oleh stres hanya pada imbalan dan hukuman. Para penulis ini tidak
belajar efek pada pembelajaran, namun studi tersebut oleh orang lain (misalnya Siero & van

Oudenhoven, 1995) menunjukkan bahwa intervensi umpan balik yang isyarat individu untuk
mengarahkan perhatian pada diri daripada tugas tampaknya cenderung memiliki efek negatif
pada kinerja . Jadi memuji, seperti isyarat lain yang menarik perhatian harga diri dan jauh dari
tugas, umumnya memiliki efek negatif (dan berjalan beberapa cara untuk menjelaskan
mengapa beberapa studi, seperti Good & Grouws (1975), menemukan bahwa guru yang
paling efektif sebenarnya memuji kurang dari rata-rata).
Hal ini mungkin menjelaskan hasil yang diperoleh oleh Boulet dkk. (1990). Sekelompok 80
siswa Kanada di tahun ketiga mereka dari sekolah menengah secara acak ditugaskan untuk
salah satu dari tiga kelompok untuk kursus pada penulisan skala besar di musik (tidak ada
perbedaan antara kelompok dalam hal bakat musik, keberhasilan akademik sebelumnya atau
kemampuan untuk belajar). Selama instruksi mereka, kelompok eksperimen pertama (GE1)
diberi umpan balik pada pre-test dalam bentuk pujian ditulis, daftar kelemahan dan rencana
kerja untuk instruksi lebih lanjut, sedangkan kelompok eksperimen kedua (GE2) diberi umpan
balik lisan, menceritakan tentang kesalahan mereka dan diberi kesempatan untuk
memperbaikinya. Pada post-test, kelompok eksperimen kedua telah mendapatkan lebih dari
baik kelompok eksperimen pertama atau kelompok kontrol (yang tidak berbeda nyata). Salah
satu interpretasi dari hasil ini adalah bahwa pemberian oral umpan balik lebih efektif daripada
pengiriman tertulis dari umpan balik. Namun, tampaknya lebih masuk akal bahwa pesan
ucapan selamat yang diawali umpan balik tertulis cued siswa menjadi fokus pada proses metatugas, bukan pada tugas-tugas sendiri.
Bukti lebih lanjut dari efek negatif dari isyarat murid untuk fokus pada diri daripada tugas
berasal dari sebuah studi yang dilakukan oleh Butler (1987) di mana ia meneliti efek dari empat
jenis umpan balik (komentar, nilai, pujian, tidak ada umpan balik) pada kinerja 200 kelas 5 dan
6 siswa Israel dalam tugas-tugas berpikir divergen. Meskipun empat kelompok yang cocok
pada skor pre-test, siswa diberi komentar mencetak satu standar deviasi lebih tinggi daripada
kelompok lain pada post-test (tidak ada perbedaan yang signifikan antara tiga kelompok
lainnya). Selanjutnya, kuesioner yang diberikan kepada siswa pada akhir sesi menunjukkan
bahwa siswa diberikan nilai dan pujian mencetak jauh lebih tinggi dari 'komentar' atau 'tidak
ada umpan balik' kelompok atas tindakan ego-keterlibatan sedangkan komentar yang
diberikan mencetak lebih tinggi dari tiga kelompok lainnya pada langkah-langkah tugasketerlibatan. Menariknya, yang diberikan pujian memiliki persepsi keberhasilan tertinggi,
meskipun mereka telah secara signifikan kurang berhasil dibandingkan kelompok 'komentar'.
Hal ini konsisten dengan temuan Cameron & Pierce (199,4), yang menemukan bahwa
sementara pujian verbal dan umpan balik mendukung dapat meningkatkan minat siswa dalam
dan sikap terhadap tugas, umpan balik seperti memiliki sedikit, jika ada, efek pada kinerja.
Ide-ide ini mirip dengan kerangka yang diusulkan oleh Deci & Ryan (1994), yang
mengidentifikasi empat jenis pengaturan perilaku: eksternal, introjected, diidentifikasi dan
terpadu. Peraturan eksternal 'menggambarkan perilaku yang diatur oleh kontinjensi terangterangan eksternal untuk individu', (hal. 6), sementara peraturan introjected 'mengacu pada
perilaku yang dimotivasi oleh prods internal dan tekanan seperti harga diri yang relevan
kontinjensi' (hal. 6). Diidentifikasi peraturan 'hasil ketika sebuah perilaku atau peraturan yang
diadopsi oleh diri sebagai pribadi yang penting atau berharga' (hal. 6), meskipun motivasi
adalah ekstrinsik, sedangkan hasil regulasi terpadu 'dari integrasi nilai-nilai dan peraturan
diidentifikasi dalam arti seseorang koheren diri '(hal. 6). Keempat jenis peraturan sehingga
dapat dianggap sebagai hasil dari persimpangan lokus dari sistem nilai dengan motivasi,
seperti yang ditunjukkan pada Gambar. 1.
Dalam kerangka ini, dapat dilihat bahwa baik motivasi internal dan eksternal dapat efektif,
tetapi hanya bila dikaitkan dengan internal, sebagai lawan eksternal, dihargai tujuan. Strategi
untuk mempromosikan motivasi intrinsik dibahas oleh Lepper & Hodell (1989).

Terkait dengan temuan ini adalah tubuh besar bekerja pada cara siswa atribut alasan untuk
keberhasilan dan kegagalan, dan khususnya karya Dweck dan rekan-rekannya (lihat Dweck,
1986 untuk ringkasan). Variabel penting tampaknya:
personalisasi (apakah faktor internal atau eksternal);
permanen (apakah faktor stabil atau tidak stabil);
spesifisitas (apakah faktor yang spesifik dan terisolasi atau apakah mereka bersifat global,
digeneralisasikan dan dipindahtangankan).
Pesan yang jelas dari penelitian tentang teori atribusi (lihat misalnya Vispoel & Austin, 1995)
adalah bahwa guru harus bertujuan untuk menanamkan pada siswa mereka gagasan bahwa
sukses adalah karena internal tidak stabil, faktor-faktor tertentu seperti usaha, bukan pada
stabil faktor umum seperti kemampuan (internal) atau apakah seseorang positif dianggap oleh
guru (eksternal).
Tugas Motivasi Proses
Berbeda dengan orang-orang intervensi yang isyarat memperhatikan proses meta-tugas,
intervensi umpan balik yang mengarahkan perhatian terhadap tugas itu sendiri umumnya jauh
lebih sukses. Bangert-tenggelam dkk. (1991a) digunakan meta-analisis untuk menyingkat
temuan 40 studi menjadi efek umpan balik dalam apa yang mereka sebut 'test-seperti'
peristiwa (misalnya pertanyaan evaluasi bahan pembelajaran diprogram, review tes pada akhir
blok pengajaran, dll .). Studi ini telah dibahas dalam bagian pada kualitas umpan balik. Seperti
yang ditunjukkan di sana, ditemukan bahwa memberikan umpan balik dalam bentuk jawaban
atas pertanyaan tinjauan adalah efektif hanya ketika siswa tidak bisa 'melihat ke depan' untuk
jawaban sebelum mereka telah berusaha dengan pertanyaan sendiri apa Bangert-tenggelam
dkk. (1991a), yang disebut 'mengendalikan ketersediaan pra-search'). Selanjutnya, umpan
balik lebih efektif ketika umpan balik memberikan rincian dari jawaban yang benar, bukan
hanya menunjukkan apakah jawaban siswa benar atau salah (lihat juga Elshout-Mohr, 1994).
Mengendalikan dua faktor ini dihilangkan hampir semua ukuran negatif efek yang Bangerttenggelam dkk. (1991a) menemukan, menghasilkan efek ukuran rata-rata di 30 studi dari 0,58.
Mereka juga menemukan bahwa penggunaan pra-tes menurunkan efek ukuran, mungkin
dengan memberikan peserta didik berlatih di, atau dengan bertindak penyelenggara muka
sebagai primitif untuk, materi yang akan dibahas. Mereka menyimpulkan bahwa fitur kunci
dalam penggunaan efektif umpan balik adalah bahwa hal itu harus mendorong 'kesadaran'
dalam menanggapi siswa untuk umpan balik. Ulasan serupa oleh Dempster (1991,1992)
mengkonfirmasi temuan ini, tetapi juga menunjukkan bahwa penting untuk interval antara tes
berturut-turut meningkat, dengan tes pertama terjadi tak lama setelah instruksi yang relevan,
tetapi bahwa efektivitas tes berturut-turut berkurang jika siswa tidak merasa sukses pada tes
pertama. Temuan penting lain dalam pekerjaan Dempster adalah bahwa tes mempromosikan
belajar serta sampel itu, sehingga bertentangan dengan analogi yang sering dikutip bahwa
'berat babi tidak menggemukkan itu.
Juga dibahas pada bagian Kualitas umpan balik adalah Elawar & Como (1985) studi dari 18
guru sekolah dasar, di mana ia menemukan bahwa perbedaan karena diberi komentar khusus
tentang kesalahan dan saran untuk strategi, dibandingkan dengan yang diberikan hanya tanda
, yang sama besar seperti perbedaan prestasi karena pencapaian sebelumnya - sebuah
temuan yang signifikan mengingat peran baik-dibuktikan dari pencapaian sebelumnya dalam
menentukan kesuksesan masa depan.
Proses tugas Belajar

Apa yang mengejutkan dari meninjau literatur adalah bagaimana sedikit perhatian telah
dibayarkan kepada karakteristik tugas dalam melihat efektivitas umpan balik. Kualitas
intervensi umpan balik, dan khususnya, bagaimana kaitannya dengan tugas di tangan, sangat
penting.
Umpan balik tampaknya kurang berhasil dalam 'berat-cued' situasi seperti yang ditemukan
dalam instruksi berbasis komputer dan diprogram belajar urutan, dan relatif lebih berhasil
dalam situasi yang membutuhkan 'tingkat tinggi' berpikir seperti tes terstruktur dan
pemahaman latihan Bangert-tenggelam et al., 1991b) atau pemetaan konsep (Bernard &
Naidu, 1992). Mengapa ini mungkin jadi tidak jelas, tapi satu petunjuk datang dari sebuah
penelitian yang dilakukan oleh Simmons & Cope (1993). Dalam penelitian ini, pasang anakanak, usia 9-11, dengan sedikit atau tanpa pengalaman pemrograman Logo, menunjukkan
tingkat yang lebih tinggi dari respon (yang diukur dengan taksonomi SOLO) ketika bekerja di
sudut dan rotasi masalah di atas kertas daripada ketika bekerja di sebuah Logo lingkungan,
yang penulis dikaitkan dengan kecenderungan dari umpan balik langsung diberikan dalam
lingkungan Logo untuk mendorong tambahan atau 'percobaan dan perbaikan' strategi.
Hari & Cordon (1993) studi dua kelas kelas 3 menemukan bahwa siswa diberi 'respon
scaffolded `- diberikan sebanyak atau sedikit bantuan yang mereka butuhkan - out-dilakukan
para siswa diberikan solusi lengkap segera setelah mereka terjebak , dan lebih mampu
menerapkan pengetahuan mereka untuk serupa, atau hanya sedikit terkait, tugas. Hasil yang
sama dilaporkan oleh Declos & Harrington (1991) untuk siswa yang telah menggunakan buku
dari pertanyaan tambahan untuk memantau kemajuan mereka dalam menangani masalah
praktek. Meningkatkan kemampuan siswa dalam meminta dan memberi bantuan juga memiliki
efek positif langsung pada prestasi (Bland & Harris, 1990; Ross, 1995).
Namun, jenis bantuan yang penting juga. Beberapa peneliti telah menemukan bahwa
penjelasan berulang teknik yang sebelumnya telah menyebabkan kegagalan kurang efektif
daripada menggunakan strategi alternatif (Fuchs et al., 1991), meskipun Mory (1992)
menunjukkan bahwa hasil tidak meyakinkan tentang hal ini. Ada juga bukti bahwa kualitas
dialog dalam intervensi umpan balik penting (Graesser et al., 1995) dan dapat, pada
kenyataannya, lebih penting daripada kemampuan sebelumnya dan faktor kepribadian
gabungan (Clarke, 1988).
Selanjutnya, sambil memfokuskan pada tujuan proses mengarah ke pencapaian keuntungan
yang lebih besar dari fokus pada tujuan produk, umpan balik yang berkaitan dengan kemajuan
tampaknya lebih efektif daripada umpan balik pada tingkat absolut kinerja (Schunk & Rice,
1991; Schunk & Swartz, 1993a).
Dalam semua ini, mudah untuk mendapatkan kesan bahwa penilaian formatif adalah proses
statis mengukur jumlah pengetahuan saat ini dimiliki oleh individu, dan makan ini kembali ke
individu dalam beberapa cara. Namun, sebagai meta-analisis dari Fuchs & Fuchs (1986)
menunjukkan, efektivitas sangat tergantung pada analisis sistematis dan penggunaan umpan
balik oleh guru. Selanjutnya, akun dengan Lidz (1995) dari sejarah dan sastra penilaian
dinamis (dan khususnya karya Vygotsky dan Feuerstein) membuat jelas bahwa penilaian
formatif adalah sebanyak peduli dengan prediksi (yaitu apa yang seseorang dapat belajar)
seperti dengan apa yang mereka miliki sudah belajar, dan hanya dalam interaksi dengan
pembelajar (learning dan) yang berguna penilaian dapat dibuat.
Prospek untuk Teori dan Praktek Penilaian Formatif
Tidak ada Meta-analisis
Mungkin terlihat diinginkan, dan memang mungkin diantisipasi sebagai konvensional, untuk
review jenis ini untuk mencoba meta-analisis dari studi kuantitatif yang telah dilaporkan. Fakta
bahwa ini hampir tidak tampak mungkin meminta refleksi pada bidang penelitian. Beberapa

penelitian yang didasarkan pada meta-analisis telah menyediakan materi yang berguna untuk
ulasan ini. Namun, ini telah difokuskan pada aspek yang agak sempit kerja formatif, misalnya
frekuensi pertanyaan. Nilai generalisasi mereka juga dipertanyakan karena aspek kunci dari
berbagai penelitian bahwa mereka mensintesis, misalnya kualitas pertanyaan yang disediakan
pada frekuensi yang berbeda, diabaikan karena sebagian besar peneliti tidak memberikan
bukti tentang aspek-aspek ini.
Individu studi kuantitatif yang melihat penilaian formatif secara keseluruhan memang ada, dan
beberapa telah dibahas di atas, meskipun jumlah dengan ketelitian kuantitatif yang memadai
dan sebanding akan menjadi urutan 20 paling banyak. Namun, sementara ini ketat dalam
kerangka kerja dan tujuan mereka sendiri, dan sementara mereka menunjukkan beberapa
koherensi dan penguatan dalam kaitannya dengan keuntungan belajar yang terkait dengan
inisiatif penilaian kelas, perbedaan yang mendasari antara studi yang sedemikian rupa
sehingga setiap merger dari hasil mereka akan memiliki sedikit makna.
Pada satu tingkat, perbedaan ini jelas pada pemeriksaan kasual, karena masing-masing studi
terkait dengan pedagogi tertentu, dengan asumsi yang menyertainya tentang pembelajaran:
satu yang dalam banyak kasus telah dibangun sebagai unsur utama dari inovasi yang diteliti.
Namun ada perbedaan yang lebih dalam: bahkan di mana studi penelitian tampak serupa
dalam prosedur yang terlibat, mereka berbeda dalam sifat data yang mungkin telah
dikumpulkan - atau diabaikan. Fakta bahwa fitur menentukan penting sering tidak diberi
perhatian adalah salah satu tanda dari konseptualisasi yang tidak memadai dari isu yang
terlibat, menunjukkan kebutuhan untuk membangun teori lebih lanjut. Dari bukti-bukti yang
disajikan dalam ulasan ini, jelas bahwa banyak bangunan teori masih perlu terjadi di wilayah
penilaian formatif, dan kami akan memberikan saran di bawah ini tentang dasar untuk
pengembangan ini.
Masalah yang mendasar, yang kita telah mencatat di kertas sebelumnya (Wiliam & Black,
1996), adalah bahwa 'penilaian formatif' istilah tidak umum dalam literatur penilaian. Makna
seperti yang kita telah melekat istilah di sini juga diwakili untuk orang lain dengan istilah-istilah
seperti 'evaluasi kelas', 'penilaian berbasis kurikulum', 'umpan balik', 'evaluasi formatif' dan
sebagainya.
Mengambil lanjut argumen pada bagian umpan balik, kami mengusulkan, demi
kesederhanaan, bahwa umpan balik istilah digunakan dalam arti setidaknya yang membatasi,
untuk mengacu pada setiap informasi yang diberikan kepada pemain dari setiap tindakan
tentang kinerja itu. Kebutuhan ini tidak selalu berasal dari sumber eksternal (seperti, misalnya,
akan diperlukan oleh Kluger & DeNisi, 1996), juga perlu ada tentu ada beberapa standar
referensi terhadap yang kinerja diukur, apalagi beberapa metode membandingkan dua.
Kinerja aktual dapat dievaluasi baik dalam hal sendiri, atau dengan membandingkannya
dengan standar referensi. Perbandingan baik dapat dalam hal kesetaraan (yaitu ini adalah
sama atau berbeda?), Sebagai jarak (seberapa jauh dari - atau memang luar - standar itu?)
Atau sebagai diagnosis (apa yang harus saya lakukan untuk sampai ke sana?). Mengadopsi
definisi (meskipun tidak istilah) yang diusulkan oleh Sadler (1989), kita akan berpendapat
bahwa umpan balik dalam penilaian setiap melayani fungsi formatif hanya dalam kasus yang
terakhir. Dengan kata lain, penilaian formatif adalah hanya ketika perbandingan tingkat aktual
dan referensi menghasilkan informasi yang kemudian digunakan untuk mengubah
kesenjangan. Seperti komentar Sadler, 'Jika informasi tersebut hanya dicatat, diteruskan ke
pihak ketiga yang tidak memiliki baik pengetahuan atau kekuatan untuk mengubah hasilnya,
atau terlalu dalam kode (misalnya, sebagai kelas ringkasan yang diberikan oleh guru) untuk
memimpin untuk tindakan yang tepat, kontrol loop tidak bisa ditutup '(Sadler, 1989, hal. 121).
Dalam kasus seperti itu, sedangkan penilaian mungkin formatif dalam tujuan, itu tidak akan
formatif dalam fungsi dan dalam pandangan kami ini menunjukkan dasar untuk membedakan
fungsi formatif dan sumatif dari penilaian.

Gipps (1994, Bab 9) menarik perhatian pergeseran paradigma dari budaya pengujian untuk
budaya penilaian, terkait dengan pergeseran dari psikometri untuk penilaian pembelajaran.
Demikian pula, Shinn & Baik III (1993) berpendapat bahwa perlu ada sebuah 'pergeseran
paradigma' dalam penilaian, dari apa yang mereka sebut paradigma penilaian saat ini (dan
apa yang kita telah di sini disebut fungsi sumatif dari penilaian) untuk apa yang mereka sebut
'masalah Paradigma -solving '(secara luas setara dengan apa yang kita di sini memanggil
fungsi formatif penilaian). Mereka menggambarkan perbedaan dengan perbedaan dalam cara
bahwa pertanyaan yang diajukan dalam dua paradigma bersama berbagai dimensi (lihat Tabel
1 - dari Shinn & Hubbard, 1992). Fungsi sumatif penilaian prihatin dengan konsistensi
keputusan di (relatif) kelompok besar siswa, sehingga over-naik penting adalah bahwa makna
dibagi oleh pengguna yang berbeda dari hasil penilaian. Sebuah masalah tertentu untuk
konstruktor dari penilaian sumatif adalah bahwa persis siapa yang akan memanfaatkan hasil
penilaian kemungkinan akan belum ditentukan. Sebaliknya, fungsi formatif penilaian
memprioritaskan konsekuensi yang diinginkan baik untuk (relatif) kelompok kecil siswa (seperti
kelompok mengajar) atau untuk individu tertentu.
Kurangnya kejelasan tentang formatif / sumatif perbedaan lebih atau kurang jelas dalam
banyak literatur. Contoh dapat ditemukan dalam berkembang dari artikel dan buku, terutama
di Amerika Serikat, tentang penilaian kinerja, penilaian otentik, penilaian portofolio dan
sebagainya, di mana inovasi dijelaskan, kadang-kadang dengan bukti yang disajikan sebagai
evaluasi, dengan fokus hanya pada keandalan penilaian guru dan kelayakan pekerjaan kelas
yang terlibat. Apa yang sering hilang adalah indikasi yang jelas apakah inovasi ini
dimaksudkan untuk melayani tujuan jangka pendek dari peningkatan pembelajaran, atau
tujuan jangka panjang memberikan bentuk yang lebih valid dari penilaian sumatif, atau
keduanya.
Teoritis Dasar
Semua itu bisa diatur di sini adalah beberapa 'catatan terhadap teori penilaian formatif', yang
ditawarkan sebagian karena mereka mungkin menjadi bantuan membantu untuk refleksi pada
pekerjaan yang disurvei dan sebagian karena mereka dapat membantu dalam melihat ke
depan untuk implikasi dari pekerjaan ini.
Dua kontribusi kunci, yang referensi telah dibuat, adalah mereka dari Sadler (1989) dan Tittle
(1994). Sadler dibangun di atas gagasan Ramaprasad tentang kesenjangan antara negara
diungkapkan oleh umpan balik dan keadaan yang diinginkan, menekankan tindakan yang
akan menghambat jika kesenjangan ini dipandang sebagai impracticably lebar. Dia lebih jauh
berpendapat bahwa pada akhirnya, tindakan untuk menutup gap yang harus diambil oleh
mahasiswa - mahasiswa yang secara otomatis mengikuti resep diagnostik guru tanpa
pemahaman tujuan atau orientasi tidak akan belajar. Dengan demikian penilaian diri oleh
siswa bukanlah pilihan yang menarik atau mewah; itu harus dilihat sebagai penting. Mengingat
ini, orientasi oleh seorang mahasiswa dari pekerjaan nya hanya dapat menjadi produktif jika
siswa yang datang untuk berbagi visi guru dari materi pelajaran. Beberapa (misalnya
Klenowski, 1995) berpendapat bahwa ini bisa dilakukan dengan tujuan mengklarifikasi, tetapi
yang lain (misalnya Claxton, 1995; Wiliam, 1994) berpendapat bahwa definisi ini harus tetap
implisit jika mereka tidak mendistorsi belajar.
Sebuah perkembangan teori ini tampaknya panggilan untuk link ke teori-teori belajar yang
kompatibel dan teori-teori dari meta-kognisi dan locus of control dari peserta didik.
(1994) kerangka judul menekankan tiga dimensi. Pertama, epistemologi dan teori yang terlibat,
dapat berhubungan baik dengan jabatan dalam kaitannya dengan pembelajaran pada
umumnya, dan untuk epistemologi tertentu yang relevan dengan materi pelajaran yang
bersangkutan. Sifat epistemologi, dan jadi meta-kognisi yang terlibat, di (katakanlah) apresiasi
estetika puisi akan sangat berbeda dari yang untuk (katakanlah) fisika, dan karenanya banyak

fitur dari penilaian formatif akan berbeda antara kedua bidang pembelajaran . Dimensi kedua
adalah lebih jelas salah satu karakteristik penilaian; dapat berkomentar di sini bahwa dalam
beberapa studi yang dilaporkan di sini, sedikit yang dikatakan tentang detail dari ini, atau
tentang efek khas dari subjek tertentu materi yang terlibat.
Dimensi ketiga judul ini membawa penerjemah dan pengguna, dan dia sangat menekankan
pentingnya ini. Sehubungan dengan siswa, penekanan ini diperkuat dan dikembangkan oleh
argumen Sadler, tapi keyakinan guru, tentang materi pelajaran, tentang belajar, dan tentang
siswa dan kelas, juga harus komponen penting dalam model apapun, jika hanya karena itu
adalah atas dasar ini bahwa penilaian dari `kesenjangan Sadler 'harus dirumuskan. Tittle juga
membuat poin penting bahwa sementara konsepsi modem teori validitas (misalnya Messick,
1989) menekankan sifat muatan nilai dari proses penilaian, sifat sebenarnya dari nilai-nilai
yang dikecualikan, menciptakan kesan bahwa satu (mungkin cukup koheren) set nilai-nilai ini
sama baiknya dengan yang lain. Dengan demikian konsepsi saat ini berlaku tidak memberikan
panduan untuk apa `seharusnya 'yang akan terjadi, hanya kerangka teoritis untuk
mendiskusikan apa yang sedang terjadi.
Penekanan pada aspek etika dan moral penilaian adalah fitur dari perspektif digariskan oleh
Aikenhead (1997). Dia mengacu pada karya Habermas (1971, p. 308) dan Ryan (1988)
mengusulkan bahwa pertimbangan penilaian dapat jatuh dalam tiga paradigma yang biasa
ditemui dalam ilmu sosial. Satu, empiris-analitis, jelas link ke penekanan psikometri dalam
pengujian standar. Kedua, paradigma interpretatif, harus diadopsi dalam penilaian formatif,
dan link ini membawa keluar pentingnya memahami respon pembelajar dalam kaitannya
dengan harapan bahwa pelajar dan asumsi tentang proses kelas, bersama-sama dengan
interpretasi nya permintaan tugas dan kriteria untuk sukses. Dalam ketiga, paradigma kritisteori, orang akan mencari kritik dari tujuan yang lebih luas yang dikejar, terutama
pemberdayaan pelajar, dan pilihan antara baik memilih elit atau mencapai keunggulan untuk
semua. Paradigma ini juga menyerukan ke dalam bermain perlunya kritik dari tujuan
pembelajaran (dan kriteria penilaian di mana mereka dioperasionalkan) yang harus meminta
yang kepentingannya tujuan ini dirancang untuk melayani.
Kekhawatiran yang sama memotivasi kerangka teoritis yang diusulkan oleh Davis (1997)
sebagai hasil dari studi rinci tentang perubahan (selama dua tahun) dari praktek guru
matematika sekolah menengah tunggal dalam cara dia bereaksi terhadap respon siswa
pertanyaan nya. Awalnya, reaksi guru cenderung berfokus pada sejauh mana respon siswa
diberikan dengan harapan guru (apa istilah Davis `evaluatif 'mendengarkan). Setelah refleksi
berkelanjutan dan diskusi dengan peneliti selama beberapa bulan, reaksi guru ditempatkan
meningkatnya penekanan pada `pencarian informasi 'yang bertentangan dengan` responseeking' yang ditandai pelajaran sebelumnya (`interpretatif 'mendengarkan). Menjelang akhir
periode dua tahun, terjadi pergeseran lebih lanjut dalam praktek guru, dengan langkah ditandai
jauh dari struktur pelajaran yang jelas dan hasil belajar pra-ditentukan, dan menuju eksplorasi
situasi matematika berpotensi kaya, di mana guru adalah co-peserta. Terutama, di tahap
ketiga ini, pandangan guru sendiri materi pelajaran yang diajarkan `'dikembangkan dan diubah
bersama dengan siswa (` hermeneutik' mendengarkan). Hal ini jelas karena itu komitmen
untuk penggunaan penilaian formatif tentu memerlukan pindah dari pengertian kesatuan
intelijen (Wolf et al., 1991).
Harapan dan Pengaturan Sosial
Dua analisis terakhir ini membawa fitur yang dalam pandangan kami telah absen dari banyak
penelitian kami review. Ini adalah bahwa semua proses penilaian yang, di hati, proses sosial,
yang terjadi dalam pengaturan sosial, yang dilakukan oleh, dan untuk aktor sosial. Guy
Brousseau (1984) telah menggunakan istilah `kontrak didactical 'untuk menggambarkan
jaringan (sebagian besar implisit) harapan dan perjanjian yang berkembang antara siswa dan
guru. Sebuah fitur khusus dari kontrak tersebut adalah bahwa mereka melayani untuk

membatasi sah 'aktivitas' oleh guru. Misalnya, di ruang kelas di mana pertanyaan guru selalu
dibatasi untuk `rendah-order 'keterampilan, seperti produksi prosedur yang benar, siswa
mungkin melihat pertanyaan tentang` pemahaman' atau `aplikasi 'tidak adil, tidak sah atau
bahkan berarti (Schoenfeld, 1985).
Sebagai (1994) pendekatan Tittle menekankan, para `membuka bergerak 'dari guru dan siswa
dalam negosiasi kontrak kelas tersebut akan ditentukan oleh epistemologis mereka, psikologis
dan keyakinan pedagogis. Misalnya, ketika seorang guru mempertanyakan mahasiswa,
keyakinan guru akan mempengaruhi kedua pertanyaan yang diajukan dan cara yang jawaban
diinterpretasikan. Prinsip penting di sini adalah perbedaan antara `fit 'dan` match' (Von
Glasersfeld, 1987, hal. 13). Sebagai contoh, seorang guru dapat menetapkan masalah siswa
dalam sistem persamaan sederhana pemecahan. Jika siswa menjawab semua pertanyaan
dengan benar, guru mungkin menyimpulkan bahwa siswa telah `mengerti 'topik, yaitu mereka
menganggap bahwa siswa pemahaman cocok mereka. Namun, hal ini sering tidak terjadi.
Sebagai contoh, ketika diminta untuk memecahkan dua persamaan berikut
3a = 24
a + b = 16
banyak siswa percaya bahwa tidak mungkin, mengatakan hal-hal seperti 'Aku terus
mendapatkan b adalah 8, tetapi tidak bisa karena adalah 8'. Hal ini karena pada contoh ditemui
di sebagian besar buku pelajaran, setiap huruf singkatan nomor yang berbeda. Siswa karena
itu pemahaman tidak cocok tetapi hanya `fit 'dengan guru. Hubungan antara fit dan
pertandingan sangat bergantung pada kekayaan pertanyaan yang digunakan oleh guru, dan
ini, pada gilirannya akan tergantung pada pengetahuan guru subjek, teori mereka belajar, dan
pengalaman mereka peserta didik.
Sebuah studi dari tujuh berpengalaman guru SD diperiksa kriteria implisit bahwa guru
digunakan untuk menentukan apakah siswa memiliki `mengerti 'sesuatu (Reynolds et al.,
1995). Setelah mempelajari dan membahas ekstrak video dan transkrip pelajaran, tujuh
`indikator pemahaman 'muncul yang disepakati oleh semua tujuh guru, meskipun mereka
dianggap bukan sebagai check-list statis, melainkan sebagai rangkaian petunjuk potensial
dengan tingkat pemahaman siswa:
(1) perubahan dalam sikap: siswa yang telah dipahami adalah `bermata cerah 'sementara
mereka yang tidak muncul tanggung-tanggung;
(2) perluasan konsep: siswa yang telah memahami sesuatu sering mengambil ide lebih lanjut
atas inisiatif sendiri;
(3) membuat modifikasi pola: siswa yang memahami, secara spontan mulai membuat
modifikasi sendiri, sementara mereka yang tidak mengerti meniru atau mengikuti aturan;
(4) menggunakan proses dalam konteks yang berbeda: siswa yang telah memahami ide
tertentu sering mulai melihat pola yang sama di tempat lain;
(5) menggunakan cara pintas: hanya siswa yang yakin akan `gambaran besar 'bisa pintas
prosedur sehingga memikirkan atau menggunakan short-cut diambil sebagai bukti
pemahaman;
(6) kemampuan untuk menjelaskan: siswa yang telah memahami sesuatu biasanya mampu
menjelaskannya;

(7) kemampuan untuk memusatkan perhatian: ketekunan pada tugas diambil sebagai tanda
pemahaman.
Mungkin beberapa guru puas dengan `cocok 'daripada' pertandingan 'karena mereka tidak
menyadari kemungkinan konsepsi siswa yang berbeda dari mereka sendiri. Namun,
tampaknya mungkin bahwa kebanyakan guru menyadari manfaat dari gaya interogasi lebih
kaya, tetapi menemukan bahwa pendekatan tersebut sulit untuk menerapkan dalam `ruang
kelas nyata '(Dassa, 1990). Dalam hal ini, perangkat lunak komputer yang memungkinkan
guru untuk memberikan umpan balik formatif dan diagnostik mungkin memiliki peran untuk
bermain (Dassa et al, 1993;. Wiliam, 1997), meskipun ada sedikit bukti sejauh ini tentang
manfaat sebenarnya dari perangkat lunak tersebut.
Pada gilirannya, tanggapan siswa untuk pertanyaan akan tergantung pada sejumlah faktor.
Apakah siswa percaya kemampuan untuk menjadi tambahan atau tetap akan memiliki
pengaruh yang kuat pada bagaimana siswa melihat pertanyaan-sebagai kesempatan untuk
belajar atau sebagai ancaman bagi harga diri (Dweck, 1986). Bahkan di mana siswa memiliki
`belajar 'sebagai lawan kinerja`' orientasi, keyakinan siswa tentang apa yang dianggap
sebagai `karya akademis '(Doyle, 1988) akan memiliki dampak yang mendalam pada`
perhatian' dengan mana siswa yang merespon. Studi tentang dua guru sekolah menengah
dengan Lorsbach dkk. (1992) yang dikutip di bagian awal pada praktek sekarang menemukan
bahwa ancaman besar bagi validitas penafsiran tes-hasil adalah sejauh mana siswa dapat
membangun makna untuk tugas-tugas mereka ditetapkan, dan sejauh mana guru dapat
membangun makna untuk tanggapan siswa. Mereka juga menemukan bahwa guru digunakan
hasil penilaian seolah-olah mereka memberi informasi tentang apa yang siswa tahu,
sedangkan, pada kenyataannya, mereka indikator yang lebih baik dari motivasi dan
penyelesaian tugas.
Lebih khusus, konteks yang sebenarnya dari penilaian juga dapat mempengaruhi apa yang
siswa percaya diperlukan. Contohnya adalah studi dari kelas 5 kelas geometri (Hall et al.,
1995) di mana kinerja dinilai dalam dua cara-melalui tes pilihan ganda dan dengan tugas di
mana siswa harus merancang HyperCard geometri tutorial. Dalam beberapa tes pilihan, siswa
difokuskan pada nilai diberikan, sementara dalam tugas tutorial, siswa terlibat dalam lebih
presentasi dan diskusi kualitatif pekerjaan mereka. Mungkin yang paling signifikan, diskusi di
antara siswa dari tutorial yang berbeda fokus lebih langsung pada materi pelajaran (yaitu
geometri) dari melakukan (intens) perbandingan nilai dari beberapa tes pilihan.
Tindakan guru dan siswa juga `enframed '(Mitchell, 1991) dengan struktur sekolah dan
masyarakat dan biasanya pengetahuan terkait erat dengan situasi di mana ia belajar (Boaler,
1997). Ruang di sekolah yang ditunjuk untuk kegiatan tertentu, dan mengingat pentingnya
melekat pada `ketertiban 'di sebagian besar ruang kelas, guru tindakan yang sering peduli
dengan membangun rutinitas, ketertiban dan kepuasan mahasiswa seperti mereka dengan
mengembangkan kemampuan siswa (Torrance & Pryor, 1995; Pryor & Torrance, 1996).
Sebuah review oleh Rismark (1996) menunjukkan bahwa siswa sering terpinggirkan dan
pekerjaan mereka undervalued jika mereka menggunakan kerangka acuan dari pengalaman
pribadi mereka di luar sekolah dan Filer (1993) menemukan bahwa anak-anak tulisan tangan
dan ejaan dalam bahasa Inggris kelas sekolah dasar belajar yang dibatasi oleh guru untuk
mengembangkan keterampilan ini dalam konteks standar, sehingga pengalaman pribadi
mereka sendiri yang `diblokir '. Dengan cara ini, formal, konon `tujuan 'penilaian yang dibuat
oleh guru mungkin sedikit lebih dari hasil sedimentasi berturut sebelumnya` informal penilaiandalam kasus ekstrim ramalan pelabelan guru siswa (Filer, 1995) .
Dalam mencoba untuk mendamaikan efek ini struktur dan lembaga, pengertian Bourdieu dari
habitus (Bourdieu, 1985) mungkin sangat bermanfaat. Pendekatan tradisional untuk analisis
sosiologis telah menggunakan kategori kasar seperti jenis kelamin, ras, dan kelas sosial untuk
`menjelaskan 'perbedaan, misalnya, hasil, sehingga cenderung memperlakukan semua orang-

orang dalam kategori sebagai homogen. Bourdieu menggunakan gagasan habitus untuk
menggambarkan orientasi, pengalaman dan posisi diadopsi oleh aktor sosial, khususnya
dalam rangka untuk menjelaskan perbedaan antara individu dalam kategori yang sama.
Gagasan tersebut tampaknya sangat cocok untuk menggambarkan ruang kelas, mengingat
fakta bahwa pengalaman siswa di kelas yang sama bisa begitu berbeda (Dart & Clarke, 1989).
Penelitian - prospek dan kebutuhan
Diskusi di atas memiliki implikasi yang jelas untuk desain investigasi penelitian. Ini menarik
perhatian pada berbagai fitur penting yang akan menggabungkan untuk menentukan dampak
dari rezim kelas apapun. Dalam terang spesifikasi seperti itu, jelas bahwa sebagian besar studi
dalam literatur belum hadir untuk beberapa aspek penting dari situasi yang diteliti. Sebuah
daftar lengkap dari aspek-aspek penting dan relevan akan meliputi:
asumsi tentang belajar yang mendasari kurikulum dan pedagogi;
alasan yang mendasari komposisi dan presentasi karya pembelajaran;
sifat yang tepat dari berbagai jenis bukti penilaian diungkapkan oleh tanggapan peserta didik;
kerangka interpretatif yang digunakan oleh guru dan peserta didik dalam menanggapi bukti
ini;
pekerjaan pembelajaran yang digunakan dalam bertindak pada interpretasi sehingga
diperoleh;
divisi tanggung jawab antara peserta didik dan guru dalam proses ini;
persepsi dan kepercayaan yang dianut oleh peserta didik tentang diri mereka sebagai pelajar
tentang pekerjaan belajar mereka sendiri, dan tentang tujuan dan metode untuk studi mereka;
persepsi dan keyakinan guru tentang belajar, tentang `kemampuan dan prospek siswa
mereka, dan tentang peran mereka sebagai penilai;
sifat pengaturan sosial di dalam kelas, seperti yang dibuat oleh anggota belajar dan mengajar
dan dengan kendala sistem sekolah yang lebih luas karena mereka memahami dan
mengevaluasi mereka;
masalah yang berhubungan dengan ras, kelas dan jenis kelamin, yang tampaknya telah
mendapat sedikit perhatian dalam studi penelitian dari penilaian formatif;
sejauh mana konteks studi apapun buatan dan kemungkinan efek fitur ini pada generalisability
hasil.
Untuk membuat laporan yang memadai dari semua ini, apalagi mengendalikan mereka dalam
desain kuantitatif klasik, tampaknya sangat sulit. Ini tidak berarti bahwa langkah-langkah yang
dapat diandalkan hasil, baik belajar dan sikap terhadap mata pelajaran yang dipelajari, tidak
harus dicari - meskipun salah satu masalah jelas dalam banyak studi tampaknya bahwa
meskipun mereka melayani tujuan belajar bahwa metode yang didirikan mengabaikan atau
mengecilkan, mereka harus membenarkan diri mereka sendiri dalam kaitannya dengan tes
yang disesuaikan dengan metode yang ditetapkan saja. Jelas ada kebutuhan untuk kombinasi
tindakan tersebut dengan studi kualitatif lebih kaya dari proses dan interaksi dalam kelas. Jika,
karena kami percaya, ada kebutuhan untuk berkembang pendekatan baru secepat mungkin,
studi tersebut mungkin juga fokus pada masalah perubahan dan disorientations petugas.

Perhatian khusus harus diberikan kepada dua masalah tertentu. Yang pertama adalah bukti
dalam banyak penelitian yang penekanan baru pada penilaian formatif adalah manfaat khusus
kepada peserta didik yang kurang beruntung dan rendah mencapai - bukti yang tidak didukung
dalam hasil penelitian lain. Kontradiksi jelas di sini mungkin muncul karena ada beberapa fitur
penting dari ruang kelas yang belum dicatat dan dipahami. Jika benar bahwa rentang prestasi
sekolah mungkin dipersempit oleh peningkatan pencapaian mereka sampai sekarang
dianggap sebagai pelajar yang lambat, maka ada alasan sosial dan pendidikan yang sangat
kuat untuk memberikan prioritas tinggi untuk penelitian dan pengembangan sensitif untuk
melihat bagaimana memahami dan mengatasi isu yang terlibat.
Masalah kedua, atau kopling masalah, berkaitan dengan kebingungan mungkin dan
ketegangan, baik bagi guru dan peserta didik, antara tujuan formatif dan sumatif yang
pekerjaan mereka mungkin harus melayani. Tidak dapat dipungkiri bahwa semua akan terlibat,
salah satu cara atau yang lain, dalam bekerja untuk kedua tujuan, dan jika keseimbangan
optimal tidak dicari, pekerjaan formatif akan selalu aman karena ancaman dominasi
diperbaharui dengan sumatif yang
Apakah ada Implikasi Kebijakan?
Tabel I dapat dibaca di samping bagian tentang Strategi dan taktik untuk guru membantu untuk
menentukan unsur-unsur penting dari setiap strategi untuk meningkatkan pembelajaran
melalui implementasi menyeluruh dari penilaian formatif. Elemen-elemen ini akan menjadi
pengaturan tujuan yang jelas, pilihan, framing dan artikulasi tugas pembelajaran yang tepat,
penyebaran ini dengan pedagogi yang tepat untuk membangkitkan umpan balik, mencatat
argumen pada bagian Siswa dan penilaian formatif, dan interpretasi yang tepat dan
penggunaan umpan balik yang memandu lintasan belajar siswa. Dalam dan berjalan melalui
rencana tersebut harus menjadi komitmen untuk melibatkan siswa dalam proses diri dan
rekan-penilaian sebagai ditekankan di bagian atas, didukung oleh pendekatan konstruktivis
untuk belajar.
Ada jelas banyak cara yang berbeda di mana pedoman tersebut dapat dimasukkan ke dalam
praktek kelas, dan sementara berbagai eksperimen dan skema dijelaskan seluruh ulasan ini,
dan strategi tertentu dieksplorasi pada bagian Sistem, memberikan contoh yang berguna, jelas
ada tidak ada kerajaan tunggal jalan. Secara khusus, hati-hati membaca bagian awal pada
penerimaan dan respon, orientasi Goal dan Self-persepsi tentang respon siswa terhadap
umpan balik, dan bagian dari bagian atas Kualitas umpan balik, Feedback dan Harapan dan
pengaturan sosial, harus menunjukkan bahwa dalam membingkai umpan balik yang mereka
berikan kepada guru siswa harus diingat beberapa pertimbangan penting dan halus yang tidak
dikenal atau dipahami.
Untuk kebijakan publik terhadap sekolah, kasus yang akan dibuat di sini adalah pertama
bahwa keuntungan belajar yang signifikan terletak dalam genggaman kita. Penelitian yang
dilaporkan di sini menunjukkan secara meyakinkan bahwa penilaian formatif tidak
meningkatkan pembelajaran. Keuntungan dalam prestasi tampaknya cukup besar, dan seperti
disebutkan sebelumnya, di antara yang terbesar yang pernah dilaporkan untuk intervensi
pendidikan. Sebagai gambaran betapa besar keuntungan ini, efek ukuran dari 0,7, jika itu bisa
dicapai pada skala nasional, akan setara dengan menaikkan nilai pencapaian matematika
rata-rata 'negara' seperti Inggris, Selandia Baru atau Inggris negara ke dalam `lima 'setelah
negara-negara pinggiran Pasifik Singapura, Korea, Jepang dan Hong Kong (Beaton et al.,
1996).
Jika poin pertama ini diterima, maka langkah kedua adalah untuk guru-guru di sekolah untuk
terprovokasi dan didukung dalam mencoba untuk membangun praktik baru dalam penilaian
formatif, ada yang bukti ekstensif menunjukkan bahwa tingkat ini praktek dalam aspek ini
mengajar rendah (Black, 1993b;. McCallum et al, 1993), dan bahwa tingkat sumber daya yang

ditujukan untuk dukungan, setidaknya di Inggris sejak 1988, telah hampir diabaikan
(Daugherty, 1995).
Tidak ada keraguan bahwa, sementara membangun teori yang koheren, deskripsi yang
memadai, dan panduan tegas didasarkan untuk berlatih, untuk penilaian formatif adalah usaha
yang tangguh, ada cukup bukti di tempat untuk memberikan bimbingan membantu untuk
tindakan praktis (untuk account dari negara utama sistem penilaian -lebar yang
menggabungkan fungsi formatif dan sumatif dari penilaian, lihat, misalnya, Rowe & Hill, 1996).
Selanjutnya, meskipun adanya beberapa hasil marginal dan bahkan negatif, kisaran kondisi
dan konteks di mana penelitian telah menunjukkan bahwa keuntungan dapat dicapai harus
menunjukkan bahwa prinsip-prinsip yang mendasari pencapaian perbaikan substansial dalam
belajar yang kuat. Keuntungan yang signifikan dapat dicapai dengan banyak rute yang
berbeda, dan inisiatif di sini tidak mungkin untuk gagal melalui pengabaian fitur lembut dan
halus.
Poin terakhir ini sangat penting karena ada tidak muncul, dari tinjauan sekarang ini, salah satu
model yang optimum yang kebijakan seperti itu mungkin didasarkan. Apa yang muncul adalah
seperangkat prinsip, dengan peringatan umum bahwa perubahan dalam praktek kelas yang
dibutuhkan adalah pusat daripada marjinal, dan telah dimasukkan oleh setiap guru dalam
praktek nya dengan cara sendiri (Broadfoot et al., 1996). Artinya, reformasi dalam dimensi ini
pasti akan memakan waktu yang lama, dan perlu terus dukungan dari kedua praktisi dan
peneliti.
Ucapan Terima Kasih
Penyusunan ulasan ini dimungkinkan oleh pemberian hibah dari Nuffield Foundation, yang
dukungan kami mengucapkan terima kasih. Kami juga ingin mengucapkan terima kasih
kepada anggota Kebijakan Penilaian Inggris Asosiasi Penelitian Pendidikan Kelompok Tugas
yang menugaskan pekerjaan, memberi komentar yang bermanfaat tentang draft awal, dan
membuat saran untuk referensi tambahan untuk dimasukkan. Meskipun dukungan tersebut,
ulasan ini terikat untuk mengandung kesalahan, kelalaian dan kekeliruan, yang, tentu saja,
seluruh tanggung jawab penulis.

Anda mungkin juga menyukai