Anda di halaman 1dari 28

Ulasan penelitian Penggunaan rubrik penilaian: Keandalan, validitas

dan konsekuensi pendidikan
Anders Jonsson *, Gunilla Svingby
Sekolah Pendidikan Guru, Malmo University, SE-205 06 Malmo, Swedia
Diterima 3 Agustus 2006; menerima dalam bentuk revisi 3 Mei 2007; diterima 4 Mei 2007
Abstrak
Beberapa manfaat menggunakan rubrik skor dalam penilaian kinerja telah diusulkan, seperti peningkatan konsistensi mencetak
gol, kemungkinan untuk memfasilitasi penilaian yang valid dari kompetensi yang kompleks, dan promosi pembelajaran. Makalah
ini meneliti apakah bukti untuk klaim ini dapat ditemukan dalam literatur penelitian. Beberapa database digeledah untuk
penelitian empiris pada rubrik, sehingga total 75 studi yang relevan untuk ulasan ini. Kesimpulan adalah bahwa: (1) skor
terpercaya dari penilaian kinerja dapat ditingkatkan dengan penggunaan rubrik, terutama jika mereka analitik, topik khusus, dan
dilengkapi dengan eksemplar dan / atau pelatihan penilai; (2) rubrik tidak memfasilitasi penilaian yang valid dari penilaian
kinerja per se. Namun, penilaian yang valid dapat difasilitasi dengan menggunakan kerangka yang lebih komprehensif validitas
saat memvalidasi rubrik; (3) rubrik tampaknya memiliki potensi mempromosikan pembelajaran dan / atau meningkatkan
instruksi. Alasan utama untuk potensi ini terletak pada kenyataan bahwa rubrik membuat harapan dan kriteria eksplisit, yang juga
memfasilitasi umpan balik dan penilaian diri. © 2007 Elsevier Ltd All rights reserved.
Kata kunci: penilaian Alternatif; Penilaian kinerja; Mencetak rubrik; Keandalan;validitas
Isi
1. Pendahuluan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 131 2. Prosedur dan
data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 3. Hasil. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3.1.
Keandalan mencetak gol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.1.1. Kehandalan intra-penilai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.1.2. Reliabilitas antar penilai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.1.3. Apakah penggunaan rubrik meningkatkan konsistensi mencetak gol? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.2.
Penghakiman berlaku dari penilaian kinerja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 3.2.1.
Dapat rubrik memfasilitasi penilaian yang valid dari penilaian kinerja? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 3.3. Promosi
belajar siswa dan / atau kualitas pengajaran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.3.1. Diri dan rekan
penilaian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.3.2. Perbaikan mahasiswa
dan pengguna persepsi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.3.3. Apakah penggunaan rubrik
mempromosikan belajar dan / atau meningkatkan instruksi? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
* Penulis Sesuai.
Alamat E-mail: anders.jonsson@lut.mah.se (A. Jonsson).
1747-938X / $ - melihat hal depan © 2007 Elsevier Ltd All rights reserved. doi: 10,1016 / j.edurev.2007.05.002
Tersedia online di www.sciencedirect.com
Penelitian Pendidikan 2 (2007) 130-144

A. Jonsson, G. Svingby / Penelitian Pendidikan 2 (2007) 130-144 131
4. diskusi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139 5. Kesimpulan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 141 Referensi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 141
1. Pendahuluan
Artikel ini studi yang berhubungan dengan masalah menilai kompetensi yang kompleks dengan cara yang
kredibel. Meskipun arti "kredibilitas" dapat bervariasi dalam situasi yang berbeda dan untuk tujuan penilaian yang
berbeda, penggunaan rubrik scoring semakin dilihat sebagai sarana untuk memecahkan masalah ini.
Hari ini penilaian dalam pendidikan tinggi akan melalui pergeseran dari pengujian tradisional pengetahuan
terhadap "penilaian untuk pembelajaran" (Dochy, Gijbels, & Segers, 2006). Budaya penilaian baru bertujuan menilai
tingkat tinggi proses dan kompetensi bukan pengetahuan faktual dan keterampilan kognitif tingkat yang lebih
rendah, yang telah menyebabkan minat yang kuat dalam berbagai jenis penilaian kinerja berpikir. Hal ini disebabkan
keyakinan bahwa tugas terbuka diperlukan dalam rangka untuk memperoleh berpikir tingkat tinggi siswa.
Penilaian kinerja dapat diposisikan di ujung kontinum yang mewakili keterbukaan memungkinkan respon siswa,
sebagai lawan penilaian pilihan ganda (Messick, 1996). Menurut Black (1998), penawaran penilaian kinerja dengan
"kegiatan yang dapat model langsung dari realitas" (hal. 87), dan beberapa penulis menulis tentang penilaian otentik
dan tugas yang berkaitan dengan "dunia nyata". Gagasan realitas bukanlah cara untuk melarikan diri dari kenyataan
bahwa semua pembelajaran adalah produk dari konteks yang terjadi, melainkan mencoba untuk lebih mencerminkan
kompleksitas dunia nyata dan memberikan data yang lebih valid tentang kompetensi siswa (Sayang- Hammond &
Snyder, 2000). Sebagai akibatnya, penilaian kinerja dirancang untuk menangkap aspek yang lebih sulit dipahami
belajar dengan membiarkan siswa memecahkan masalah realistis atau otentik.
Ketika memperkenalkan penilaian kinerja, masalah apakah pengamatan perilaku kompleks dapat dilakukan
dengan cara yang kredibel dan dapat dipercaya muncul. Masalah ini yang paling mendesak untuk penilaian berisiko
tinggi, dan lembaga menggunakan penilaian kinerja untuk keputusan-saham tinggi sehingga dihadapkan dengan
tantangan untuk menunjukkan bahwa bukti yang berasal dari penilaian ini adalah baik valid dan reliabel. Penilaian
kelas bertujuan untuk membantu belajar siswa kurang dipengaruhi oleh panggilan ini untuk tingkat kehandalan yang
tinggi tetapi penilaian masih perlu berlaku. Sejak tugas kinerja sering dinilai dengan bimbingan rubrik penilaian,
desain yang efektif, pemahaman, dan penggunaan yang kompeten dari rubrik yang penting, tidak peduli apakah
mereka digunakan untuk-saham yang tinggi atau kelas penilaian-meskipun fokus utama dari dua perspektif ini akan
berbeda.
Dari perspektif penilaian berisiko tinggi, Stemler (2004) berpendapat bahwa ada tiga pendekatan utama untuk
menentukan akurasi dan konsistensi mencetak gol. Ini adalah perkiraan konsensus, mengukur sejauh mana penanda
memberikan skor yang sama untuk kinerja yang sama; konsistensi memperkirakan, mengukur korelasi skor antara
penilai; estimasi pengukuran, pengukuran misalnya sejauh mana skor dapat dikaitkan dengan scoring umum
daripada komponen error.
Tampaknya lebih sulit untuk menyatakan apa yang harus diperlukan untuk penilaian dengan tujuan formatif, serta
untuk kombinasi dari penilaian formatif dan sumatif. Meskipun demikian, sebagian besar pendidik dan peneliti
tampaknya menerima bahwa penggunaan rubrik menambah kualitas penilaian. Misalnya, Perlman (2003)
berpendapat bahwa penilaian kinerja terdiri dari dua bagian: "tugas dan satu set kriteria penilaian atau rubrik
penilaian" (p 497.). Istilah "rubrik" Namun, digunakan dalam beberapa cara yang berbeda: "tidak mungkin ada kata
atau ungkapan yang lebih membingungkan daripada istilah 'rubrik'. Dalam literatur pendidikan dan kalangan praktisi
pengajaran dan pembelajaran, kata 'rubrik' dipahami umumnya berkonotasi alat penilaian sederhana yang
menggambarkan tingkat kinerja pada tugas tertentu dan digunakan untuk menilai hasil di berbagai konteks berbasis
kinerja dari TK sampai perguruan tinggi (K-16) pendidikan "(Hafner & Hafner, 2003, hal. 1509).

Rubrik mengatakan kedua instruktur dan siswa apa yang dianggap penting dan apa yang harus dicari ketika menilai (Arter & McTighe. 2003). Perlman. 2001. Busching. Definisi luas dari rubrik pendidikan menyatakan bahwa itu adalah alat scoring untuk wisatawan kualitatif otentik atau kompleks pekerjaan siswa. penilai membuat penilaian yang menyeluruh tentang kualitas kinerja. Ini termasuk kriteria untuk wisatawan dimensi penting dari kinerja. sementara dalam mencetak gol analitik. Dalam mencetak gol holistik. serta standar pencapaian untuk kriteria tersebut. Ini berlaku untuk kedua penilaian-saham yang tinggi dan penilaian untuk belajar. Dua kategori utama dari rubrik dapat dibedakan: holistik dan analitis. penilai memberikan skor untuk masing-masing . 1998.

konstruksi. tanpa mengorbankan kebutuhan untuk keandalan (Morrison & Ross. G. dan dalam beberapa database lain. atau contoh. dilengkapi dengan pencarian di Google Scholar dan berbagai daftar reference. tetapi juga sering disebutkan dalam studi pada penilaian sumatif. Selanjutnya. Efek potensial ini difokuskan dalam penelitian tentang formatif. untuk menggambarkan berbagai tingkat pencapaian. sebenarnya sampel kerja (Busching. bukti penelitian untuk mendukung mereka dibutuhkan. bila digunakan oleh siswa untuk menilai kinerja mereka sendiri. Wiggins. pemikiran. tugas. 1998). yang menggambarkan bahwa kata tertanam dalam kosakata guru dan pendidik guru. Svingby / Penelitian Pendidikan 2 (2007) 130-144 dimensi sedang dinilai dalam tugas. laporan penelitian dan disertasi. PsychINFO. Namun. Hanya studi eksplisit melaporkan penelitian . Tulisan ini bertujuan untuk menyelidiki apakah bukti dapat ditemukan dalam literatur penelitian tentang efek rubrik di-saham yang tinggi sumatif. Oleh karena ia berpendapat bahwa rubrik harus dilengkapi dengan "jangkar". yang tidak selalu terjadi ketika penggunaan rubrik berpendapat dalam perdebatan umum. yang dipandang oleh tubuh sastra yang menumpuk dalam dekade terakhir pada desain. adalah promosi pembelajaran. dan penggunaan rubrik sebagai alat untuk penilaian kinerja (Hafner & Hafner. Efek positif lain yang sering disebutkan adalah kemungkinan untuk memberikan penilaian yang valid dari penilaian kinerja yang tidak dapat dicapai dengan cara tes tertulis konvensional. Bisa rubrik memfasilitasi penilaian yang valid dari penilaian kinerja? 3. serta antara penilai yang berbeda. Dan meskipun manfaat yang disebutkan di atas rubrik mungkin tampak masuk akal. Apakah penggunaan rubrik meningkatkan keandalan mencetak gol? 2. tampaknya ada sedikit informasi dalam literatur tentang efektivitas rubrik. Perlman. dan rubrik bisa dengan cara ini mempromosikan pembelajaran siswa (Arter & McTighe. seperti ScienceDirect. 1998. 2001. Wiggins. Tidak ada batas waktu ditetapkan. Web of Science. Akademik Cari Elite / EBSCO. Perbedaan antara instruktur dan penilaian siswa mungkin sehingga baik dikaitkan dengan pemahaman siswa lebih rendah dari kriteria yang digunakan dan tidak kinerja seperti itu. diri. Rubrik diasumsikan untuk meningkatkan konsistensi mencetak gol di seluruh siswa. murah dan akurat. 1998. 2003. Pencarian rubrik / rubrik pendidikan / rubrik scoring memberi ribuan hits. karena mereka memiliki rasa yang kurang berkembang dari bagaimana menafsirkan kriteria. Efek penting lain dari penggunaan rubrik sering terdengar dalam debat umum. JSTOR dan Blackwell Synergy. dan pada konferensi pendidikan. makalah konferensi. Scoring analitis berguna di dalam kelas karena hasil dapat membantu guru dan siswa mengidentifikasi kekuatan siswa dan kebutuhan belajar. Wiggins. 1998). Orsmond dan Merry (1996) berpendapat bahwa siswa mungkin tidak menemukan kualitas dalam pekerjaan mereka bahkan jika mereka tahu apa yang harus dicari. bahkan lebih baik.132 A. Ada beberapa manfaat menggunakan rubrik dinyatakan dalam literatur. Apakah penggunaan rubrik mempromosikan belajar dan / atau meningkatkan instruksi? 2. Pencarian kemudian dipersempit hanya untuk menyertakan artikel peer-review di jurnal. penilaian. Kertas akan mencoba untuk menjawab pertanyaan-pertanyaan berikut: 1. dan penilaian sejawat. Jonsson. rubrik dapat diklasifikasikan sebagai tugas tertentu atau generik. Salah satu efek banyak dikutip penggunaan rubrik adalah konsistensi peningkatan penghakiman ketika menilai kinerja dan tugas-tugas otentik. Scoring holistik biasanya digunakan untuk penilaian skala besar karena diasumsikan mudah. Bahkan jika penggunaan rubrik adalah mendapatkan medan. utilitas mungkin dibatasi oleh kualitas rubrik penilaian yang digunakan untuk mengevaluasi kinerja siswa. Sepertinya rubrik menawarkan cara untuk memberikan validitas yang diinginkan dalam menilai kompetensi yang kompleks. 1998). Hal ini diasumsikan bahwa ketegasan kriteria dan standar yang mendasar dalam memberikan siswa dengan umpan balik kualitas. Rubrik tampaknya menjadi topik yang populer dalam literatur pendidikan. Jangkar dapat ditulis deskripsi atau. serta di formatif. Prosedur dan data Penelitian rubrik untuk menilai kinerja awalnya mencari online di Sumber Daya Pendidikan informal mation Pusat (ERIC). 2003).

Berbagai jurnal. di sisi lain. makalah pendapat tentang manfaat dari rubrik. Distribusi mengindikasikan bahwa rubrik adalah masalah penelitian cukup baru- baru ini. Hal ini mengurangi jumlah kertas dimasukkan ke 75. Dari jumlah total studi ditinjau. termasuk sejumlah besar artikel pada pengembangan rubrik. Hanya tujuh artikel yang diterbitkan sebelum tahun 1997.empiris di mana rubrik digunakan untuk penilaian kinerja dimasukkan. dan Penilaian Pendidikan lebih Menilai menulis. mayoritas diterbitkan selama dekade terakhir. Gagasan ini diperkuat oleh fakta bahwa studi ditemukan dalam 40 jurnal yang berbeda. Selain itu. dari Applied Pengukuran dalam Pendidikan. dan panduan tentang cara menggunakan rubrik . dan International Journal of Pendidikan Sains . narasi dari sekolah atau perguruan tinggi. dan hanya segelintir ini telah menerbitkan lebih dari satu studi pada subjek. penelitian yang berhubungan dengan jenis lain dari kriteria atau script untuk penilaian telah dikeluarkan.

skenario rekayasa. penilaian kinerja kompleks dipertanyakan atas nama kredibilitasnya. Konten. Svingby / Penelitian Pendidikan Ulasan 2 (2007) 130-144 133 Akademik obat-obatan. tapi ini hampir tidak diperoleh. Perlu dicatat. Gao.1. Paling sering adalah studi tentang penilaian guru dan kualitas mengajar yang kompleks. & Baxter. Dalam ulasan ini kami terutama menangani sumber pertama dari variasi. Idealnya.. dan siswa dan guru sikap terhadap menggunakan rubrik sebagai alat penilaian. di siswa kinerja (Black. dan bahwa variabilitas tugas-sampling telah terbukti menjadi ancaman serius bagi kehandalan dalam penilaian kinerja (Shavelson et al. Keandalan mencetak Kebanyakan penilaian memiliki konsekuensi bagi mereka yang dinilai (Black.banyak yang guru dan siswa guru . ukuran reliabilitas dan validitas. seperti perbedaan dalam pengalaman atau kurangnya setuju-upon rutinitas scoring. 1998) atau dalam sampling tugas (Shavelson. Sedangkan pengujian tradisional. praktek kelas. Jenis-jenis pertunjukan dipelajari mewakili berbagai macam kompetensi. dengan misalnya pertanyaan pilihan ganda.1. penilaian harus independen dari yang melakukan scoring dan hasil yang sama tidak peduli kapan dan di mana penilaian dilakukan. jenis rubrik yang digunakan. Ada beberapa faktor yang dapat mempengaruhi putusan dari penilai. & Hoekema. Howell. Seluruh jajaran dari K-12. 3. Selain alasan yang lebih jelas untuk perbedaan pendapat. Kami pertama kali akan memberikan gambaran tentang artikel Ulasan dan menganalisis mereka sesuai dengan pengukuran yang digunakan. yang dikenal sebagai reliabilitas antar penilai. telah melaporkan bahwa hal-hal seperti 'sikap mengenai siswa guru etnis. serta konten. Hampir setengah dari penelitian fokus pada mahasiswa dan profesional aktif . 2000). lebih sering dilaporkan dalam beberapa tahun terakhir. kita akan merangkum temuan bagaimana / jika penggunaan pembelajaran dan sikap efek rubrik siswa. Kehandalan intra-penilai . Variasi dalam penilaian penilai 'dapat terjadi baik di penilai. dan Sains Bio. 2000). Di antara mereka. Oleh karena itu penilaian harus kredibel dan dapat dipercaya.Jonsson. atau dalam konsistensi satu penilai tunggal. Hasil akan disajikan dalam kaitannya dengan masing-masing pertanyaan penelitian tiga. jenis rubrik yang digunakan. Tics characteris. dan dengan demikian harus dibuat dengan pertimbangan tertarik dan didasarkan pada beberapa jenis bukti (Wiggins. langkah-langkah dari dampak pada siswa belajar. juga dapat mempengaruhi peringkat siswa bekerja (Davidson. menulis esai. bagaimanapun. lebih dapat diandalkan penilaian dianggap (Moskal & Leydens. Kelompok besar lain terdiri dari studi yang tertarik dalam membuat penilaian guru lebih dapat diandalkan dengan rubrik. berfokus terutama pada keandalan pengukuran. dll Variasi bidang penelitian juga menunjukkan dirinya dalam fokus penelitian. 1998). serta aktor yang terlibat. mungkin menunjukkan minat yang tumbuh. disebut intra-rater kehandalan. telah dikembangkan untuk memenuhi tuntutan yang lebih ketat. perguruan tinggi. seperti berpikir kritis. studi menemukan bahwa mengalihkan perhatian mereka untuk diri dan penilaian sejawat. 3. bahwa sumber-sumber lain dari variabilitas mungkin memiliki dampak yang lebih besar pada keandalan. dan universitas untuk profesional aktif diwakili. bagaimanapun. Hasil 3. 1998). fokus. dan dua penilai mungkin datang ke kesimpulan yang berbeda tentang kinerja yang sama. Kedua. 1996).1. Mayoritas studi terutama tertarik dalam mengevaluasi rubrik sebagai bagian dari sistem penilaian. Ini mungkin disebabkan karena variasi dalam penilai (atau penilai ') penilaian.A. menunjukkan minat pendidikan yang besar di rubrik. Banyak dari studi ini fokus pada menilai manfaat keandalan rubrik tertentu.sementara anak-anak bungsu yang kurang terwakili.relevan terutama pengaturan pendidikan (misalnya SD. Sekitar seperlima dari studi ditinjau memiliki penilaian formatif dalam fokus. 1996). Studi ini. sekunder atau tersier pendidikan). juga bervariasi. Semakin konsisten skor lebih penilai yang berbeda dan kesempatan. bersama dengan studi tentang menulis dan melek. Artikel yang dipilih telah dianalisis menurut penelitian mereka dan karakteristik rubrik. Ada berbagai cara di mana variabilitas skor penilaian bisa datang. jenis dan fokus tugas kinerja. yaitu variasi dalam penghakiman. G.

tidak selalu bisa disajikan di sini. Masih hanya tujuh studi di ulasan ini telah dilaporkan pada keandalan intra-rater.70. umumnya 1 Beberapa penelitian di ini ulasan ini dihitung lebih dari satu perkiraan tetapi hanya melaporkannya pada tingkat agregat. . 235). Ini berarti bahwa jumlah yang tepat dari perkiraan jatuh dalam kisaran tertentu. Glasswell. atau melebihi batas tertentu. yang menurut Brown. dan Pendlebury (1997) "ancaman utama untuk keandalan adalah kurangnya konsistensi penanda individu" (hlm. Bull. Menurut Brown. Sebagian besar studi menyelidiki kehandalan intra-penilai menggunakan alpha Cronbach untuk memperkirakan konsistensi penilai '. dan Harland (2004). dan laporan majority1 pada nilai-nilai alpha di atas 0.

bagaimanapun. Sebaliknya. 2004).1. Ini berarti bahwa banyak perkiraan gagal mencapai kriteria 70% atau lebih. ini dapat menunjukkan bahwa kehandalan intra-penilai mungkin tidak sebenarnya menjadi perhatian utama ketika penilai didukung oleh rubrik.40. Estimasi konsistensi diukur terutama dengan cara koefisien korelasi yang berbeda. Sering menggunakan perjanjian konsensus mungkin dapat dikaitkan dengan fakta bahwa mereka relatif mudah untuk menghitung. Nilai kappa antara 0.63. Perlu diingat bahwa dalam sejumlah studi ini. Kategori ini merangkum jumlah total artikel yang melaporkan setiap keandalan pengukuran antar-penilai (misalnya perjanjian konsensus) tanpa menghitung setiap artikel dua kali. . Gasper. dengan mayoritas perkiraan jatuh di kisaran 55-75%.2. Kategori ini merangkum jumlah total artikel yang melaporkan reliabilitas antar penilai tanpa menghitung setiap artikel dua kali. Reliabilitas antar penilai Lebih dari setengah dari artikel dalam laporan review tentang reliabilitas antar penilai dalam beberapa bentuk. dan dalam beberapa artikel kappa Cohen digunakan untuk memperkirakan sejauh mana penilaian musyawarah mufakat bervariasi dari tingkat yang diharapkan secara kebetulan. manipulasi telah dibuat yang mungkin mendistorsi nilai-nilai dan dengan demikian rentang nilai harus ditafsirkan dengan hati-hati. G. jangkauan dan nilai-nilai khas dari beberapa indeks yang dilaporkan. Svingby / Penelitian Pendidikan 2 (2007) 130-144 Tabel 1 Ikhtisar studi melaporkan antar-penilai pengukuran keandalan Metode Nomor studi Konsensus perjanjian Persentase total kesepakatan 18 Persentase kesepakatan yang berdekatan 14 kappa Cohen 4 lainnya 7 Totala 27 Konsistensi memperkirakan korelasi 4 Pearson Cronbach alpha 8 rho Spearman 6 lainnya 9 Totala 24 Pengukuran memperkirakan teori generalisasi 15 Banyak-aspek Model Rasch 3 lainnya 1 Totala 19 Grand totalb 46 a Beberapa artikel melaporkan lebih dari satu metode. b Beberapa artikel melaporkan lebih dari satu antar-penilai pengukuran keandalan. niat belum menghasilkan nilai-nilai khas. Bawah dan pada Tabel 1. yang diperlukan jika perjanjian yang tepat adalah untuk dipertimbangkan terpercaya (Stemler.20-0. bahwa kesepakatan konsensus penilai sangat bergantung pada jumlah tingkat di rubrik. & Canaday. dan nilai yang dilaporkan bervariasi 0. Di sisi lain. persen perjanjian yang tepat atau berdekatan (dalam satu titik skor) antara penilai dilaporkan. Perlu dicatat. Perkiraan konsensus dengan persentase kesepakatan yang tepat bervariasi antara 4 dan 100% dalam ulasan ini.40 dan 0. Dengan tingkat yang lebih sedikit. dan banyak dari persentase digunakan perjanjian sebagai pengukuran. yang berarti tingkat yang baik konsistensi. misalnya kedua total kesepakatan dan berdekatan. misalnya kedua konsistensi dan pengukuran perkiraan. perjanjian dalam satu titik skor melebihi 90% di kebanyakan studi.134 A. Sebagai tren yang sama berlaku untuk studi menggunakan perkiraan lain juga. akan ada kesempatan lebih besar untuk kesepakatan. dianggap cukup. dengan hanya beberapa nilai di bawah 0. sementara banyak-aspek Model Rasch dan teori generalisasi adalah dua metode utama estimasi pengukuran. 2000). metode yang digunakan. 3.75 mewakili kesepakatan yang adil di luar kesempatan (Stoddart. dan bahwa metode memungkinkan untuk penggunaan data nominal. Sebagian besar. Abrams. Jonsson.

Di mana ditentukan.98.75.. Stemler. itu adalah sebagian besar korelasi Pearson atau Spearman. Ketika melaporkan pada konsistensi memperkirakan sebagian besar peneliti menggunakan beberapa jenis korelasi skor penilai '.55 dan 0. nilai di atas 0. Kisaran korelasi adalah 0. Dalam perkiraan konsistensi. namun dalam beberapa kasus juga Kendall W. dengan mayoritas antara 0. 2004. . tetapi dalam banyak artikel itu tidak ditentukan yang koefisien korelasi telah dihitung.70 dianggap dapat diterima (Brown et al.27-0.

dan beberapa temuan dalam ulasan ini mendukung fakta yang agak jelas bahwa ketika semua siswa melakukan tugas yang sama atau tes.80. Koefisien alpha berada di kisaran 0.15-0. keandalan adalah bukan dari yang sangat penting sama seperti dalam penilaian skala besar. Herman. dengan mudah dapat diubah jika mereka muncul menjadi salah. & Tracz (2003) untuk beberapa item dari "uji Fresno kompetensi" dalam kedokteran berbasis bukti. sebagian besar peneliti dalam ulasan ini menyimpulkan bahwa reliabilitas antar penilai dari rubrik mereka cukup. Hal ini juga berlaku untuk artikel menghadirkan konsistensi penilai sebagai koefisien korelasi. McKenna. membuat atas dasar penilaian.92. 2000a.80 sering dianggap sebagai diterima (Brown et al. Dari penelitian menggunakan perkiraan pengukuran untuk melaporkan reliabilitas antar penilai. Apakah penggunaan rubrik meningkatkan konsistensi mencetak gol? Hasil dari studi menyelidiki kehandalan intra-penilai menunjukkan bahwa rubrik tampaknya untuk membantu penilai dalam mencapai konsistensi internal yang tinggi ketika mencetak tugas kinerja. Svingby / Penelitian Pendidikan 2 (2007) 130-144 135 2004). tingkat yang lebih rendah dari keandalan dapat dianggap diterima. Penny.1. 2.96 dan 0. & Gordon. Johnson. 1996). Juga.98. Namun. 2003). & Behrens. & Youssefi. sebagai akibatnya. Penny. masing-masing. teori generalisasi telah digunakan hampir secara eksklusif. Contohnya adalah bahwa korelasi tinggi yang luar biasa dari skor penilai dilaporkan oleh Ramos.. Selain korelasi antara penilai. Tapi ketika siswa melakukan tugas yang berbeda. Johnson. 2001. dan. & Harris. 2003) dan skenario dalam pendidikan teknik (McMartin. Thompson. Marzano. Keputusan di kelas. sedangkan reliabilitas dapat dilihat sebagai prasyarat untuk validitas dalam penilaian skala besar. 2004. Penny. yang dapat digunakan untuk mendapatkan gambaran tentang bagaimana membuat rubrik untuk penilaian kinerja yang lebih handal: 1. Novak. namun. Studi berfokus pada aspek kehandalan relatif sedikit. Benchmark yang paling mungkin untuk meningkatkan kesepakatan.70. Oleh karena itu. & Gordon.3.70 dan 0. & Wolf. Di sisi lain. maka keandalan bisa diharapkan untuk menjadi relatif rendah (Brennan. ada beberapa faktor lain yang mempengaruhi reliabilitas antar penilai melaporkan juga. 1995). Nilai koefisien melebihi 0. Schafer. konsistensi juga dilaporkan dengan alpha Cronbach. 3. Beberapa telah menggunakan banyak-aspek Model Rasch dan dalam satu studi korelasi intraclass ANOVA berbasis telah digunakan. 1998). meskipun perkiraan umumnya terlalu rendah untuk pengujian tradisional. banyak gagal mencapai kriteria ini. sedangkan penilaian misalnya kinerja motor dalam pendidikan jasmani (Williams & Rink. Popp. penilaian kinerja tidak pengujian tradisional. Tentu saja. 2002. Salzman. keandalan kemungkinan besar akan tinggi. tetapi mereka harus dipilih dengan hati-hati karena skor sangat bergantung pada tolok ukur yang dipilih untuk menentukan rubrik (Dennis. ini belum tentu benar untuk penilaian kelas. masing-masing. penilaian yang memberikan hasil yang sangat handal untuk kelompok siswa mungkin gagal untuk menangkap kinerja seorang siswa. dibandingkan dengan mereka yang belajar reliabilitas antar penilai.50 dan 0. atau sebagai generalisasi dan ketergantungan koefisien. scoring Analytical sering lebih (Johnson. Mayoritas hasil yang dilaporkan pada konsensus penilai tidak melebihi kesepakatan 70%. Tugas-tugas seperti presentasi lisan juga menghasilkan nilai yang relatif rendah. Namun. dan prosedur scoring didefinisikan dengan baik.50-0.A. tetapi karena kebanyakan dari nilai yang dilaporkan adalah antara 0. sedangkan koefisien terendah adalah untuk menulis esai. di mana tidak ada jalan kembali (Black. 2002). Penny. di mana kebanyakan dari mereka adalah di bawah 0. 2000. & Gordon. Akibatnya. Johnson.80.06-0. Keteguhan dan generalisasi koefisien dari teori generalisasi berkisar 0. Jadi. Ryan. dan kemudian tidak bermanfaat bagi guru kelas (Gearhart. & Gordon. Sebuah rubrik yang memberikan gambaran mudah diinterpretasi pengetahuan siswa individu mungkin tidak memiliki kualitas teknis untuk penggunaan skala besar. sebagian besar perkiraan tidak mencapai kriteria ini. memilih topik mereka sendiri atau memproduksi barang-barang unik. 2000b). G. dengan sebagian besar nilai di atas 0. apa yang dianggap dapat diterima tergantung pada apakah penilaian ini untuk-saham yang tinggi atau kelas tujuan. 2000) laporan kehandalan agak lebih tinggi. tapi . setidaknya ketika penilaian relatif rendah berisiko. Jonsson.

2000b). 1998). Dellinger. & Powers. . 1998. Perjanjian ditingkatkan dengan pelatihan. sedangkan skala empat tingkat lebih sulit untuk digunakan (Williams & Rink. 2000a. 1999). 1996. 5.mungkin tidak begitu jika skor dimensi terpisah dirangkum dalam akhir (Waltman. Augmentation dari skala rating (misalnya bahwa penilai dapat memperluas jumlah tingkat menggunakan + atau . Persky. 2003). Johnson. Penny et al. 3. 1999.. Kahn. & Koency. & Michaels. Marzano. meskipun tidak kesepakatan konsensus (MyFord. skala dua tingkat (misalnya kompeten-tidak kinerja yang kompeten) dapat dipercaya mencetak dengan pelatihan yang minimal. Weigle. Denny. tetapi pelatihan mungkin tidak akan pernah benar-benar menghilangkan perbedaan (Stuhlmann. Daniel. rubrik Topik-spesifik cenderung menghasilkan skor lebih digeneralisasikan dan diandalkan dari rubrik generik (DeRemer. Untuk tingkat tinggi musyawarah mufakat. 2002). 4. Wilkins.tanda-tanda) tampaknya meningkatkan aspek-aspek tertentu dari reliabilitas antar penilai.

Jonsson. validitas dalam konteks ini menjawab pertanyaan "Apakah ukuran penilaian apa yang dimaksudkan untuk mengukur?" Jawaban atas pertanyaan ini. dan banyak dari mereka yang digunakan validitas isi dalam beberapa cara (lihat Tabel 2). dll. dinaikkan ke tingkat yang dapat diterima dengan memberikan pembatasan ketat untuk format penilaian. validitas dalam penelitian pendidikan sering dipandang sebagai melibatkan penilaian evaluatif. tetapi lebih sebagai interpretasi dari hasil (Borsboom et al. sedangkan aspek eksternal meneliti hubungan dari skor penilaian untuk langkah-langkah lain yang relevan untuk membangun yang dinilai. Oleh karena itu. struktural. 2004. Messick (1996) membedakan dua aspek validitas dalam hal ini. dan tidak terbatas hanya pada sampel tugas dinilai. substantif. 2002).2. Ada dua cara yang berbeda dalam memandang masalah validitas. Aspek isi Messick (1996) validitas konstruk menentukan relevansi konten dan keterwakilan pengetahuan dan keterampilan diungkapkan oleh penilaian. nilai dan evaluasi. Dia membedakan enam aspek validitas konstruk: konten. 1996). tampaknya aman untuk mengatakan bahwa mencetak gol dengan rubrik mungkin lebih dapat diandalkan dibandingkan mencetak tanpa satu. 3. tugas. Pendapat ahli yang nomor satu rute untuk mendapatkan bukti empiris untuk aspek validitas. dan karena itu tidak dilihat sebagai milik tes seperti itu.. Yang paling umum adalah tradisional kriteria. Tabel 2 Tinjauan studi melaporkan validitasrubrik Aspek validitya Jumlah studi Konten 10 generalisasi 3 Eksternal 15 Struktural 7 Substantif 1 Consequential 2 Totalb 25 a Diadaptasi dari Messick (1996). kesempatan. sepertiga melaporkan validitas. Messick (1996) berpendapat untuk teori yang lebih komprehensif dari validitas konstruk. Perspektif pertama adalah yang paling banyak digunakan dalam ilmu alam dan tes psikologi dan tidak ada artikel di ulasan ini ditemukan menggunakannya. Namun. 2004. Selanjutnya. Mellenbergh. Penghakiman berlaku dari penilaian kinerja dasarnya. seperti Gearhart et al. b Beberapa artikel melaporkan lebih dari satu aspek dan kategori ini merangkum jumlah total . Dua penilai adalah. tidak selalu yang sederhana.136 A. Batas antara aspek generalisasi dan aspek eksternal tampaknya agak tidak jelas dalam beberapa kasus. tetapi tidak harus diabaikan. Sebaliknya. Singkatnya. generalisasi. Perhatian untuk keterwakilan konten dalam penilaian adalah karena kebutuhan untuk hasil yang akan digeneralisasikan ke domain konstruk. Abedi. dan konsekuensial. Pertanyaannya kemudian. atau sebagai interpretasi skor tes (Borsboom. Svingby / Penelitian Pendidikan 2 (2007) 130-144 6. bahkan jika penting. atau jika kita kehilangan esensi suatu tempat dalam proses memberikan tingkat akurasi yang tinggi dalam mencetak gol. bagaimanapun. Mereka mungkin akan dibahas secara selektif. Messick . kehandalan bukan satu-satunya konsep penting yang harus diperhitungkan ketika merancang penilaian kinerja.. eksternal. (1995). dalam kondisi terkendali. Entah validitas dipandang sebagai milik tes. McMillan. sebagai rubrik dapat dilihat sebagai perangkat peraturan untuk mencetak gol. secara teori. membuat perbandingan skor siswa di seluruh tingkatan kelas. 2004. G. konten dan validitas konstruk. seperti ketika Baker (1994) membuat perbandingan penilaian nya dengan tes lainnya. Brown et al. 1997). Linn. di mana generalisasi yang aspectrefers untuk sejauh mana skor interpretasi menggeneralisasi seluruh kelompok. Rubrik dapat membantu peningkatan ini dalam konsistensi mencetak gol dengan menjadi analitik. topik khusus. & van Heerden. cukup untuk menghasilkan tingkat yang dapat diterima dari kesepakatan antar-penilai (Baker. dan dilengkapi dengan eksemplar dan / atau pelatihan penilai. apakah perubahan yang dibawa oleh pembatasan ini dapat diterima. mungkin bisa disebut sebagai menangani aspek generalisasi validitas konstruk. Dari artikel di ulasan ini. keandalan penilaian selalu dapat. 1995 . Konsep validitas juga harus dieksplorasi dalam kaitannya dengan bentuk yang lebih otentik dari penilaian. Marzano. & Niemi. Ada banyak aspek validitas diselidiki dan dilaporkan dalam literatur tentang penilaian.

.artikel yang melaporkan setiap aspek tanpa menghitung setiap artikel dua kali.

The last aspect of validity. Flowers and Hancock (2003) report that their interview protocol and scoring rubric for evaluating teacher performance has been adopted by over 85% of the public schools of North Carolina. 2002). (1995). All these factors threaten validity and might . For instance. 1994. both intended and unintended as well as short. and no other aspect of validity has been addressed. When considering social consequences of decisions about mastery/non- mastery on scores derived from the rubric. but also about thinking processes used during the assessment. Under the headings of “value implications” and “consequential validity” they examine evidence from raters' reflections of score usefulness in informing writing instruction as well as the stability and meaning of decisions of mastery based on different cut points. Therefore. 1995). 495). It could also mean that there is no alignment between objectives and assessment. Osana and Seymour (2004) designed a rubric according to empirically validated theory in argumentation and statistical reasoning. rather than processes. indicate that the new rubric has more instructional potential than the comparison rubric. Can rubrics facilitate valid judgment of performance assessments? Most reports claim to have some support for the validity of the rubric used. as suggested by raters' reflections. standards and the rubric (Denner et al.. both internal and external. several articles use correlations with other measures or instruments. The substantive aspect includes theoretical rationales for. while other dimensions. and empirical evidence was mainly collected through expert opinions. Baker et al. attention has to be paid to the level of these cognitive processes in the assessment (Van de Watering & van der Rijt. the rubric could serve not only as an assessment tool. Also. In the studies reviewed. are not.1. national survey items (Stoering & Lu.6. includes evidence of implications of score interpretation.A. Gearhart et al. 1996). the content aspect was a frequently investigated aspect of validity. G.and long-term consequences (Messick. where they try to validate a new rubric for narrative writing. 2003).2. post-course evaluations (Roblyer & Wiencke. Jonsson. In the beginning of this article.. Only two articles in this review reports explicitly on consequential aspects of validity and one of them is a study by Gearhart et al. such as an established rubric (Gearhart et al. It could mean that content knowledge is properly assessed. Value implications. and empirical evidence of. 497). As mentioned above. It is still relevant to ask what it means. Domain coverage is not only about traditional content. Svingby / Educational Research Review 2 (2007) 130–144 137 Reporting on external aspects of validity. 1998). the consequential aspect. Researchers have performed factor analysis to reveal the underlying structure or investigated the alignment of guidelines. and also the scores produced have been checked for correlation to other measures. Most report on modest correlations from . Only one study. A noteworthy exception is the relatively large amount of studies investigating student teachers.4 to . however. work samples or laboratory reports. 2006). The researchers are guided in this validation process by the work of Messick and use an established rubric for comparison. Another focus of external validity is the relevance and utility of the rubric for its intended purpose. saying that performance assessment consist of two parts: “a task and a set of scoring criteria or a scoring rubric” (p. Several rubrics have been validated for content validity by experts. the authors discuss the possibility that some individuals might be judged differently based on the two rubrics. but the scoring structure (like criteria and rubric) must also follow rationally from the domain structure. standards and rubrics. not only does the task have to be consistent with the theory of the construct in question. like thinking processes. (1995). According to Messick (1996).. but also as “a theoretical model of good thinking” (p. Perlman (2003) was cited. This is called the structural aspect of construct validity and has been addressed in some studies by means of factor analysis (Baker. when a rubric has been shown to have for instance content validity. 3. has used a more comprehensive framework for the validation process.. 2002) or tests of prior knowledge (Waltman et al. like essays. As an example. consistency in responses that reflect the thinking processes used by experts in the field. 1995) and by raters evaluating the alignment of guidelines. most rubrics focus on products. or that there are severe social consequences or bias.

so that there are positive educational consequences from using them.produce unfair results. then this would influence the aspect of consequential validity. be concluded that scoring with a rubric is probably more valid than scoring without? The answer in this case would have to be “no”. in the sense that students are disadvantaged in their opportunity to show what they have learned. On the issue of reliability it was concluded that. . in the same sense. There is. Just by providing a rubric there is no evidence for content representativeness. If rubrics in some way affect instruction. one certain aspect of validity that might benefit from the use of rubrics. Nor does it give any convergent or discriminant evidence to other measures. however. since a rubric is a regulatory device. scoring with a rubric is probably more reliable than scoring without. Could it. fidelity of scoring structure to the construct domain or generalizability.

evaluation time and students' understanding of criteria (see Table 3).. has been acknowledged by educational institutions. the persons in best position to evaluate if rubrics promote learning and/or improve instruction are the students and teachers actually using them.and peer assessment. 1999). 3. Svingby / Educational Research Review 2 (2007) 130–144 Table 3 Overview of studies reporting on promotion of student learning and/or the quality of teaching Data Number of studies Student improvement 10 Teachers' perceptions 9 Students' perceptions 8 Student use of criteria and self-assessment 8 Other 2 Totala 25 a Some articles report on more than one category of data and here the total number of articles reporting on each category is summarized. It is claimed that it is advantageous for students' learning to be involved in giving and receiving feedback (Dochy. Eight articles investigated the effect of rubrics on self. . 2003).3. Bailey. content. students or both. Promotion of student learning and/or the quality of teaching As is widely recognized. A central question that has to be further evaluated. and motivating forms of assessment. complex. In line with this assumption. & Kotkas. 2006). whereas on the other hand self-assessment tend to result in higher grades than teacher assessment (Topping.and peer assessment at large indicates on the one hand that students can be very accurate in grading their own work (Dochy et al. The meta-analyses mentioned above. Performance assessments are by definition open-ended.and peer assessment. no ted low technical quality regarding the quantitative research reviewed. & Sluijsmans. The quantitative analysis indicated that use of the rubric as a teaching strategy. Research on self. one-third report on some kind of educational consequences of rubric usage. Pihlajam aki. Jonsson. the majority being concerned with student improvement or/and perceptions of using rubrics by either teachers. 3. 1999. and the plethora of outcomes is not easily predicted. up till now mostly negative influence. and Fitzgerald (1999) report on a year long experiment with assessment rubrics as a teaching strategy with deaf children in the fifth and seven grades.and peer assessment using rubrics. The evaluation of student improvement was done using both quantitative and qualitative measures. Hence both students' and teachers' perceptions of educational consequences are presented alongside more solid research results in this review. Taken together. In this sense. Schunn.3. 2006. There are.and peer assessment The research literature on self. few scientific studies reporting on effects of self.and peer assessment is substantive.. it seems as if assessment of one's own performance is more difficult than assessing a peer's performance (Lindblom-Yl anne. Topping. 2003. however. The meta-analyses of Falchikov and Boud (1989) and of Falchikov and Goldfinch (2000) provide a comprehensive list of research on self. and a few articles also reported on the effect of rubrics on off-task behaviour.1. This. G. Segers. A few recent articles have investigated the variation in students' responses in relation to a scoring rubric using quantitative measures (eg Cho. Self. motivation and study situation at large. & Wilson. Sadler & Good.138 A. all of the reviewed articles argue that the use of rubrics has shown to be beneficial for students' learning. where significant improvement in the quality of students' compositions were made. Schirmer. Hafner & Hafner. story development and organization. 2006).and peer assessment. and has led to the demand for more authentic. assessment has a strong impact on the focus and attention of most students (Dochy et al. Of the 75 articles reviewed. The performance movement and the investment in rubrics are part of this. 2003). 2006). There is a strong conviction that the use of performance assessment in combination with rubrics will change students' efforts and learning in a positive way. without counting any article twice. let alone measured with high accuracy. significantly improved writing according to topic. is if the use of rubrics might enhance the accuracy of self.

A very high correlation between . The researchers compared teacher-assigned grades to grades awarded either by students to themselves or by their peers. Students in four middle school classrooms were trained to grade with the help of a scoring rubric. The study by Sadler and Good (2006) puts the presumed benefits of peer-grading to the test.

A major theme in the comments from both teachers and students.A. The way in which rubrics support learning and instruction is by making expectations and criteria explicit. The relative lack of research studies on the effects of learning and teaching does not.. & Newberry. but observes that the validity and reliability of peer-generated grades are a major concern. these studies indicate that rubrics might be valuable in supporting student self.91–. 3. They know why they are doing what they are doing. (2006) argue that peer reviewing of writing may be a way to create more writing opportunities in college and university settings. to make assignments and assessment meaningful to the students. in the wording by Frederiksen and Collins (1989). The authors conclude that both self. 2001. When supported by a rubric. it seems like the use of rubrics have the potential of promoting learning and/or improving instruction. Swanson. via transparency. and this is deemed positive by students and teachers alike (Bissell & Lemons. An important finding was that the students who scored their own tests using the rubric. Cho et al. 2004.. G.3. which also facilitates feedback and self-assessment. Rubrics indicate what is important and thereby give clarity and explicitness to the assessment. 2001). Smith & Hanna. Student improvement and users perceptions It is not possible to draw any conclusions about student improvement related to the use of rubrics from this material.and peer-grading may be used to save teachers' time on grading. however. Does the use of rubrics promote learning and/or improve instruction? To conclude. This is mainly due to the fact that the results are not pointing in any particular direction. 2006.. Shaw. 2001. Although few.. The perceptions of the users as to the benefits of using rubrics may therefore be seen as more interesting.94). other benefits of rubrics as perceived by the teachers are the encouragement of reflective practice (Beeth et al. and that rubrics can give teachers more insights to the effectiveness of their instructional practices (Waltman et al. 1999a). and in one study some negative effects (Andrade. mirror the great expectations and positive .3. and also that self-grading appears to result in increased student learning. 2006. and use them while self-assessing (Andrade. Mullen. the concrete nature of rubric criteria provides information for feedback as well as makes self-assessment easier (Schamber & Mahoney. is the perception of clarified expectations or.2. & Lesgold. 3. Luft. the students showed much agreement in their ranking of the presentations. 2006. Schirmer et al. whereas peer-grading does not. Their analysis suggests that the aggregated ratings of at least four peers are both highly reliable and as valid as instructor ratings.. 1998). Suthers. Discussion The distribution of the reviewed articles. Also. Besides transparency. Svingby / Educational Research Review 2 (2007) 130–144 139 students and their teacher was obtained (. 2001. A couple of studies report on activity and off-task behaviour. 2006. Schafer. 2002). transparency. making them their own. 2004). 1999). In the studies reporting on student improvement of some kind. Ben e. 1998). Schamber & Mahoney.3. One possible interpretation of this is that rubrics help. and a few working with the effects of using rubrics on students' learning and the quality of the teaching–learning situation. Piscitello. 1999b. Toth et al. 2006. improved dramatically. at least as perceived by the teachers and students using them. Morrell & Ackley. Some studies also show that students actually internalize the criteria. Sadler & Good. Hafner and Hafner (2003) used assessments of oral presentations to estimate the reliability of a rubric for self- and peer assessment purposes. or only in combination with other interventions (Toth. Jonsson. 1998). 2002). where students seem more involved in the task at hand (Piscitello.and peer assessment. 2006. 2003) while others have positive effects only in some areas (Green & Bowser. 4. only two show an overall improvement (Brown et al. 1999. Schamber & Mahoney. mirrors in a way the widespread interest in assessing performance in a credible way. with a majority tackling questions of reliability and validity.

Even if research articles have been presented on the topic for a decade. open-ended and as such prone to produce lower reliability. The studies reporting on rubric reliability. . reviewed in this article. indicating that the use of rubrics might not in itself be enough to produce sufficient reliability for summative assessments. Still. the research may still be described as rudimentary. reliability can be improved by adding restrictions to the assessment. however. generally present low reliability coefficients as compared to traditional psychometric requirements. Performance assessment is.narratives of the effect of rubrics on the quality of performance assessment.

1996). The question is addressed in a review on requirements for competence assessments (Baartman. etc. Kirschner. reflecting the qualities sought in new modes of assessment (Gielen. Instead a new. In this way. seem to be important factors influencing the results. Messick. and positive. do we still measure the full scope of what was intended to measure? In this view.. The evidence for student improvement due to the usage of rubrics is still scarce if we restrict ourselves to rigorous quantitative studies. Typically. This holistic. validity issues are not always straight forward. In addition to transparency there are a row of other possible benefits of the use of rubrics for performance assessment. reliability is not the “bottleneck” for quality performance assessments. Svingby / Educational Research Review 2 (2007) 130–144 Benchmarks can be used. Those actors are perhaps in best positions to evaluate the benefits or detriments of using rubrics. 2006). The studies reviewed do. they indicate that learning is promoted by the meta-cognitive processes involved in this type of assessments. authenticity and other similar concepts are in the same way demonstrated to be associated with Messick's (1996) framework. Since rubrics are a way of restricting the scoring of performance assessments. Alignment. where different methods of assessment are combined.and peer assessment are other positive experiences reported. as well as the performance tasks assessed. Jonsson. The question has been raised as to whether the transparency provided by rubrics could actually stifle creativity (Mabry. This is in line with the argument of some researchers that novel forms of assessment cannot be evaluated only on the basis of psychometric criteria. one or two aspects of validity have been addressed while the others are left unmentioned. set of criteria is needed. but by . however. As the type of content involved. the term construct validity refers to a unifying concept incorporating different aspects of validity. submitted for publication). and all should be addressed when validating assessments. 2003). the use of rubrics should in most cases improve reliability. 1999. Student understanding of criteria. generalization of the data is still not recommended. Dochy. G. as an example. the students themselves perceive that they do. This is done by suggesting that multimodal assessment programs should be developed for high-stakes competence assessments. feedback. not each individual assessment has to meet all criteria. Performance assessments target knowledge and skills which are often difficult to evaluate with the traditional pre. A few of these studies are long term and involve many students. broader approach has not been used by most articles. By using various examples or “anchors” it is also possible to show that there are many ways to approach the same task. which could be further aided by the use of rubrics. which makes expectations explicit. possibilities of self. To avoid this. shows that a major benefit of rubrics is that of bringing transparency to the assessment. All these aspects are seen as interrelated. it is not known whether an assessment deemed valid for correlating with external measurements actually requires the higher order thinking that was intended. The reviewed research on teachers' and students' perceptions of using rubrics. different scoring methods can be applied.and post-tests of educational research.140 A. (submitted for publication) offer a way to resolve the issue by meeting the demands of both psychometricians and the emerging “assessment culture”. Bastiaens. present positive results. Evaluations of teachers' and students' experiences and attitudes are on the contrary almost univocal. The researchers argue that transparency is related to both the structural as well as the consequential aspect of validity. However. or at least a widened. Rather. Knowing that learning is influenced by factors such as motivation (Birenbaum et al. The validity concept has traditionally been fragmented into different forms of validity. Wiggins (1998) emphasizes that rubrics should not restrict the format or the method. in order to get a more complete picture of the validity. Thus. the question is: If severe restrictions are made. transparency of assessments can be seen as a great contributor to learning.and peer assessment. Baartman et al. due to calls for high reliability. & Van der Vleuten. In line with the assumptions from research on self. but rather validity seems to be of more critical importance. In a more contemporary view of validity. raters can be trained. The question of reliability versus validity is actualized when the effects on student learning is studied. So even if it is not strictly demonstrated that students do learn better. for example criterion and content validity. & Dierick.

& Van der Vleuten (2006) presents a framework containing twelve quality criteria for competence assessment programs. “Reproducibility of decisions”. Bastiaens. consisting of “Fairness”. “Fitness for self-assessment”. The authors put forth what is called “The Wheel of Competency Assessment”. The hub is occupied by “Fitness for purpose”—the foun. with its ten criteria. is framed within an educational context. where the quality criteria are displayed in concentric circles. “Transparency” and “Acceptability”. “Cognitive complexity” and “Authenticity”. surrounded by “Comparability”.using a combination of methods the program as a whole can meet the quality criteria of both cultures. The wheel. represented by two criteria: “Educational consequences” and “Costs & Effi- . These basic criteria are seen as prerequisites for the outer layer. Kirschner. “Meaningfulness”. Baartman.dation of assessment development.

F. and (3) give positive educational consequences. Valid assess. 19–58). Darling-Hammond.. M. The wheel of competency assessment: Presenting quality criteria for competency assessment programmes.. Brennan. K. N.. In G... consequential validity is an aspect of validity that might need further attention.. M. 523–545. Verschaffel. F. 331–350. Student self-assessment in higher education: A meta-analysis. 93. Dochy. & Boud. 16. & Pendlebury. Since performance assessments are more or less open ended per definition.. (2000). The main reason for this potential lies in the fact that rubrics make expectations and criteria explicit. Furthermore. (2004). J. 111. It is thus argued that assessment quality criteria should emphasize dimensions like transparency and fitness for self-assessment to a greater extent than is done through the traditional reliability and validity criteria. & Snyder. Teaching and Teacher Education. PA. 395–430. J. peer and co-assessment in higher education: A review.). M. In relation to reliability issues. F. 5. Dori. DC: National Center for Education Statistics. Y.. A learning integrated assessment system.A. Journal of Educational Research. Segers. and complemented with exemplars and/or rater training. Student peer assessment in higher education: A meta- . G. Learning and the emerging new assessment culture. Technical issues in large-scale performance assessment (pp. Instructional psychology: Past. & Van der Vleuten. such as promoting learning and/or improve instruction. J. Authentic assessment of teaching in context. Ridgway. Busching. 1. Effects of ethnicity and violent content on rubric scores in writing samples. M. 89–96. TJ.. The concept of validity. CPM (2006). TJ.. Assessment in competence-based education: How can assessment quality be evaluated? Educational Research Review. Dochy. (1997). Educational Research Review. (2) facilitate valid judgment of performance assessments... Kirschner. Baartman. 61–67. Brown. (1999). Studies in Educational Evaluation. 59. 367–373. Dochy. in order to estimate the quality of performance assessments. E. Vosniadou (Eds. & Segers. M. Svingby / Educational Research Review 2 (2007) 130–144 141 ciency”. et al. Davidson. In relation to learning and instruction. it has been concluded that rubrics seem to have the potential of promoting learning and/or improve instruction. P. & Hoekema. Scoring rubrics in the classroom. present and future trends. Black. D. J. D. & Sluijsmans. GJ. P. Another conclusion is that rubrics do not facilitate valid judgment of performance assessments per se. (1989). Bull. PA. CPM (submitted for publication). Studies in Higher Education.ment could be facilitated by using a more comprehensive framework of validity when validating the rubric. LKJ.. Falchikov. L. Review of Educational Research.. References Arter. (1998). Borsboom. (2006). R.). 32. rubrics should be analytic. G. LKJ. Grading inquiry projects. J. Mellenbergh. 1061–1071. Falchikov. Generalizability of performance assessments. via the traditional psychometric criteria reliability and validity.. Birenbaum. Kirschner. (2006).. which also facilitates feedback and self-assessment. Assessing student learning in higher education. Howell. Gijbels. (1996). Boekaerts. (1998). Washington. & Goldfinch. Cascallar. Dochy. Oxford. 24. & van Heerden.. it is not always possible to restrict the assessment format to achieve high levels of reliability without sacrificing the validity. This could be achieved through a framework of quality criteria that acknowledges the importance of trustworthiness in assessment as well as supports a more comprehensive view on validity issues (including educational consequences). KW. With such a framework there is no need to take the detour. J. London: Routledge. topic-specific. N. Conclusions This paper aimed to review empirical research and illuminate the questions of how the use of rubrics can (1) enhance the reliability of scoring. D. M. (2000). J. New Directions for Teaching and Learning. Breuer. Phillips (Ed... & S. & McTighe. In L. instead of focusing on only one or two aspects of validity. F. (2000). Testing: Friend or foe? London: Falmer Press. Baartman. The use of self-. B. Thousand Oaks: Corwin Press Inc. 153–170. Bastiaens. Jonsson. Amsterdam: Elsevier. Psychological Review. D. Bastiaens. A first conclusion is that the reliable scoring of performance assessments can be enhanced by the use of rubrics. & Van der Vleuten. (2001).

Boston: Pearson Education Inc. Evaluating the consequential validity of new modes of assessment: The influence of assessment on learning. 673–679. JR. F. 287–322. & Dierick. Writing to the rubric: Lingering effects of traditional standardized testing on direct writing assessment. Educational Researcher. Gielen. Segers. (2003). Optimizing new modes of assessment: In search of qualities and standards. McMillan. F. A. In M. (1989).. S. Frederiksen. JH (2004). A systems approach to educational testing. 27–32.analysis comparing peer and teacher marks. Educational research: Fundamentals for the consumer.. 18.. L.). Phi Delta Kappan. & E. (1999). & Collins. 70. including pre-. Dochy. Cascallar (Eds. Mabry. 80. Dochy. Dordrecht: Kluwer Academic Publishers. Review of Educational Research. post-. and true assessment effects. S. .

The influence of using cognitive strategy instruction through writing rubrics on high school students' writing self-efficacy. BM. Jonsson. 89. Self and peer assessment in school and university: Reliability. & Wilson. 5. In M. Technical issues in large-scale performance assessment (pp.. 105–121.. Bissell. self-regulation. Brown. A comparison of consensus. 98.. (1996). Assessment & Evaluation in Higher Education. 29. Pearl. RW (2006). Linn. In G. In M. Dochy. Unpublished doctoral dissertation. Dimensionality and generalizability of domain-independent performance assessments. & E. 7.). 5.. The role of instructional rubrics and self-assessment in learning to write: A smorgasbord of findings. CP. & Baxter. 133–147. Stemler. 74. (1996). 1. Educational Research Review. Writing assessment: Raters' elaboration of the rating task. Glasswell. HG (1999a). C. Gao. The importance of marking criteria in the use of peer assessment.. (1996). Segers. K. LB (2002).. SA. Assessing Writing. GTL. Research & Evaluation.142 A. L. Shavelson. North Carolina. J. & Merry. and writing achievement. 71–81. J. G. Learning-based assessments of history understanding. Educational Psychologist.. San Francisco: Jossey-Bass. Duke. SM (1998). CD. PR. 7–29. Assessing Writing. On the content validity of performance assessments: Centrality of domain-specifications. & Hancock. Chi. Evaluating technology-based processes and products. Assessment in Education: .ment goal orientation. Beeth. EL (1994). Wiggins. An interview protocol and scoring rubric for evaluating teacher performance. J. D. CC (2003). (2001). & Harland. DC: National Center for Education Statistics. Yagnesak. S. Educative assessment. Boston: Kluwer Academic Publishers. Van de Watering. 66–72. G. (2003). Baker. 69–77. DR (2003). & Niemi. 891–901. D. learning processes and prior knowledge. Svingby / Educational Research Review 2 (2007) 130–144 Messick. Practical Assessment. consistency. & van der Rijt. S. Schunn. Validity of performance assessments. JA (2000). BL (2003). Optimizing new modes of assessment: In search of qualities and standards. SE (2004). USA: University of Oklahoma. A continuum for assessing science process knowledge in grades K-6. Phillips (Ed. Orsmond. Research & Evaluation. Morrison. In Paper Presented at the Annual Meeting of the American Educational Research Association. Comparing holistic and analytic scoring for performance assessment with many-facet rasch model. Accuracy in the scoring of writing: Studies of reliability and validity using a new zealand writing assessment system. P. E. and measurement approaches to estimating interrater reliability. RL.Practical Assessment. achieve. BioScience. Student self-assessment: At the intersection of metacognition and authentic assessment. & Harris. (1998). Dordrecht: Kluwer Academic Publishers.. & Leydens.). Electronic Journal of Science Education. Washington. G. 97–106. Andrade.. Dochy (Eds.. Journal of Educational Psychology.). Cho. 9. RJ. HG (1999b). 56. Scoring rubric development: Validity and reliability. Cascallar (Eds. (2006). Moskal. 197–205. PR (2006). X. DeRemer. GR. 239–250. (1995). Perlman. (2004). 379–388. validity and utility. EL. K. Validity and reliability of scaffolded peer assessment of writing from instructor and student perspectives. Teacher work sample assessment: An accountability method that moves beyond teacher testing to the impact of teacher performance on student learning. K. USA. G. perceptions of classroom goal structures. (2001). Alternatives in assessment of achievements. Journal of Educational Research. 21. Teachers' and students' perceptions of assessments: A review and a study into the ability and accuracy of estimating the difficulty levels of assessment items. In Paper Presented at the Annual Meeting of the American Educational Research Association. Journal of Applied Measurement. Denner. Flowers. & Ross. K. J. 2. Baker. New Directions for Teaching and Learning. Performance assessment: Designing appropriate performance tasks and scoring rubrics. References to papers in the review Andrade. Birenbaum & F. A new method for assessing critical thinking in the classroom. ME. AN. Pirro. & Lemons. & Kennedy. In Paper presented at the annual meeting of the American Association of Colleges for Teacher Education. Topping. 1–18). Abedi. ML (1998). F. Cross. Salzman. 9.

Herman. 161–168. The relation between score resolution methods and interrater reliability: An empirical study of an analytic scoring rubric. M. Toward the instructional utility of large-scale writing assessment: Validation of a new narrative rubric. Novak.. Self-. Penny. Journal of Library Administration. 7.. (2000). Green. (2001). Unpublished doctoral dissertation. Applied Measurement in Education. B. JR. USA: University of Tennessee. J. 13. J. JL. Policy and Practice. . 51–62. Lunsford.. Observations from the field: Sharing a literature review rubric. & Gordon. Quantitative analysis of the rubric as an assessment tool: An empirical study of student peer-group rating. T. B. & Wolf.. Johnson. 185–202. PM (2003).. SA (1995). 45. Rubrics: Design and use in science teacher education. (2006). & Bowser. 18. Active Learning in Higher Education. 25.Written Communication. Penny.. Luft. & Hafner. 229–249. Gearhart. RL. (1998). H. BE (2002). Score resolution and the interrater reliabilityof holistic scores in rating essays. International journal of science education. RL. JC. In Paper Presented at the Annual Meeting of the Association for the Education of Teachers in Science. Assessing Writing. 1509–1528. Inquiry and inscription as keys to authentic science instruction and assessment for preservice secondary science teachers. & Gordon. Pihlajamäki. 121–138. Principles. & Kotkas. peer. 10. Johnson. 207–242. Lindblom-Ylänne. J. 2. (2006). M. Hafner.and teacher-assessment of student essays. R. S.

RL. 68. Science Education. RK. PM. Schirmer. Concept maps as assessment in science inquiry learning—A report of methodology. Johnson. The impact of self. Waltman. 67–83. 10. JM.. Assessing literacy: Establishing common standards in portfolio assessment. Applied Measurement in Education. Unpublished master thesis. USA: Saint Xavier University.. Combining the national survey of student engagement with student portfolio assessment. & Koency. AM (2002). Using rubrics for assessment and evaluation in art. 269–287. 55. 86. Assessing and improving the quality of group critical thinking exhibited in the final projects of collaborative learning groups. Topics in Language Disorders. SM (1999). Operationalizing the rubric: The effect of benchmark selection on the assessed quality of writing. IEEE Transactions on Education. J. K. RL. JR (2004). 20. Daniel. Smith. Schamber. 264–286. Morrell. & Canaday. Dellinger. A. Sadler. Piscitello. (1996).. JT (2003). (2002). & Hanna. MD. Popp. E. R. Gasper. EE. & Tracz. Mullen.. (2000b).. Practicing what we teach: Assessing pre-service teachers' performance using scoring guides. A generalizability study of the effects of training on teachers' abilities to rate children's writing using a rubric. Johnson. S. Paratore. Ramos. Using a writing assessment rubric for writing development of children who are deaf. 111–120. & Youssefi. & Newberry. E. Toth. A. The effect of rating augmentation on inter-rater reliability: An empirical study of a holistic rubric. BR. American Journal of Distance Education. & Seymour. Effects of teacher knowledge of rubrics on student achievement in four content areas. & Ackley. Myford. & Wiencke. In Paper presented at the annual meeting of the American Educational Research Association. J.A. & Behrens. SM (2003). Schafer. Suthers. RJ (2002). Shaw. 15. E. Abrams. CSE Technical Report 488. & Fitzgerald. USA: University of Wisconsin. DD. Teacher Librarian. D. Applied Measurement in Education. G. (2000). & Mahoney. B. Svingby / Educational Research Review 2 (2007) 130–144 143 Marzano. T. KD. (1998). Journal of Experimental Education. Bené. Penny. Stuhlmann. 7. CM. MA (1998). Thompson. T. Journal of Reading Psychology. 269–278. Schafer. MS. BC (1999). Counselor Education and Supervision. 65. 473–498. SC (1999). (2006). J. Kahn. (2000). Using rubrics for documentation of clinical work supervision. Persky. 17. 16–19. Penny. M. Design and use of a rubric to assess and encourage interactive qualities in distance courses. 249–267. H. McMartin. N. & Gordon... Wilkins... B.. Journal of General Education. Los Angeles. G. 143–164. JM. Exceptional Children. SEO. 77–99. Demystifying the evaluation process for parents: Rubrics for marking student research projects... L. Using rating augmentation to expand the scale of an analytic rubric.. McKenna.. Educational Research and Evaluation. G. 16. Constructing scoring rubrics: Using “facets” to study design features of descriptive rating scales. 22. Stoddart. F. Roblyer. In Paper Presented at Annual Meeting of the American Educational Research Association. Educational Assessment. & Powers. J. In Paper presented at the annual meeting of the American Educational Research Association.and peer-grading on student learning. 37. (2004). WD. In Paper Presented at Annual Meeting of the Association for Institutional Research. Ryan. JF. J. HP. Investigating .. International Journal of Science Education. 11. (1999). 32. & Gordon. Alternative approaches to scoring: The effects of using different scoring methods on the validity of scores from a performance assessment. Bailey. J. 319–321. & Lu. PD. Stoering. Osana. 107–127. 383–397. (2001). 1221–1246. (2000a). Weigle. Validation of the fresno test of competence in evidence based medicine. A comparison of selected methods of scoring classroom assessments. JR (1995). K. C. 151–170. 326. British Medical Journal. YK (2003). Swanson. & Good. & Lesgold. 43. WR (2003). SL (2006). Denny. G. A.. Assessing Writing. Jonsson. Student improvement in middle school science. & Michaels. Scenario assignments as assessment tools for undergraduate engineering education. Unpublished master thesis.. Mapping to know: The effects of representational guidance and reflective assessment on scientific inquiry. 103–137. 14. R. Critical thinking in preservice teachers: A rubric for evaluating argumentation and statistical reasoning.. Johnson.. 1–31. ME (2001)..

Educational Measurement: Issues and Practice. JR (2001). J. E.. & Baker.. AE. and validity of a content assessment scoring rubric. Choinski. EL (1995). Boston.. (2003). (2006). CSE Technical Report 672. Aschbacher. B. Using classroom artifacts to measure instructional practice in middle school science: A two-state field test. Educational and Psychological Measurement.. Assessment with rubrics: An efficient and objective means of assessing student outcomes in an information resources class. & Rink. Developing indicators of classroom practice to monitor and support school reform. & Steinberg. MK (2006). Clare. References to papers in the review Abedi. . A latent-variable modeling approach to assessing interrater reliability. J. 701–715. H. topic generalizability. 22. Valdes. (2003). SM (2005).rater/prompt interactions in writing assessment: Quantitative and qualitative approaches. 563–576. Borko. 145–178. Teachers' assignments as indicators of instructional quality in elementary schools. The quality of local district assessments used in Nebraska's school-based teacher-led assessment and reporting system (STARS). Pascal. CSE Technical Report 513. Williams.. Assessing academic rigor in mathematics instruction: The development of the instructional quality assessment toolkit. 3. Teacher competency using observational scoring rubrics. & Wolf. CSE Technical Report 690. J. CSE Technical Report 545. Los Angeles. Portal: Libraries & the Academy.. 55. L. Journal of Teaching in Physical Education. M. M. Los Angeles. 6. PR (1999). 552–572. & Stecher. Brookhart... & Murphey. Mark. L. Los Angeles. Assessing Writing. R. 14–21. Los Angeles. 24.

H. & Thum.. (2002). Ruit. Ward.. KG. N.. University of Georgia. JJ (2004). Peterson. Unpublished doctoral dissertation. CF. Lignugaris/Kraft. J. 181–194. & Vari. Olson. R. Capps. Svingby / Educational Research Review 2 (2007) 130–144 Dunbar. Using the instructional quality assessment toolkit to investigate the quality of reading comprehension assignments and student work. Validity and internal consistency of two district-developed assessments of Title I students. Jonsson. YM (2004). MJ. 29. McAfee. S. B. .. R. RB. GL. M. A.. B. In Paper Presented at the Annual Meeting of the Southeastern Region Association for Teacher Educators. 478–488.. Schacter. Laveault. Evaluation and Program Planning. S. MK. 79–91. (2001). Lawrenz. JC. RL. Measuring inter-rater reliability of the sequenced performance inventory and reflective assessment of learning (SPIRAL). & McCotter. Assessing Writing.. USA: University of Illinois at Urbana-Champaign. C. Resnick. TG (1998). Research & Evaluation. Keiser. & McDaniel. A. C.. TJ (1996). CSE Technical Report 669. 5. Laprocina. Educational and Psychological Measurement. 78. 66. Goldberg. Los Angeles. Wolf. Clariana. Kyser. L. 7. & Slocum. Willeke. 115–128. Koul. & Michaels.. Flowers. (2003). 844–850.. 95–110.. Matsumura. 411–430. SS.. Early Childhood Research & Practice: An Internet Journal on the Development. AD. JA. Slater. Confirmatory factor analysis of scores on the clinical experience rubric. (1998).. B. J. Examining. & Mordica. D. Watkins. 23. D. & Miles. Teacher Education and Special Education. (2006). & Sundbye. Technology-supported formative and summative assessment of collaborative scientific inquiry. Schieve. Rule. Academic Medicine. Care.. Applying an analytic writing rubric to children's hypermedia “narratives”. M. G. (1998). Roswell. Johnson. Comparing several human and computer-based methods for scoring concept maps and essays. 28. Criteria teachers use to score performance items. Technical education curriculum assessment. T.. Economics of Education Review. Educational Assessment. 32. Hickey. and Education of Young Children. 243–257. Harrison. Peterson. Learning & Performance Support Laboratory. & Drumgold. SS (2004). & Appleton. C. JR. A question of choice: The implications of assessing expressive writing in multiple genres.. Mott. A rubric for scoring postsecondary academic skills. L. B. S. and validating the interview for admission into the teacher education program. Levison. BS.. Pomplun. Scoring rubrics for assessing students' performance on functional behavior assessment cases. Journal of Vocational Education Research. The study of individual differences in the utility and validity of rubrics in the learning of writing ability. DT. Etsler. Unpublished doctoral dissertation. Brooks. Pindiprolu. DeCuir. Teaching and Teacher Education. 5. & Caldwell. (2002). (2005). Portfolio assessment in a collaborative program evaluation: The reliability and validity of a family literacy portfolio. S. & Forgette- Giroux.144 A.and low-quality teaching. 5.. Scherbert. (2006). In Paper Presented at the Annual Meeting of the American Educational Research Association. Practical Assessment. R. Fisher. MS. F. NE.. USA: Nova Southeastern University. RC (2003). (2005). 26. F. developing. H. Hand. L. T. J. M. 39–70. LC.. Oral communication skills in higher education: Using a performance- based evaluation rubric to assess communication skills. & Junker. Innovative Higher Education. 227–239. & Salehi. Crosson. (2006).. 31. 367–377. & Kubicka-Miller. 20. Reflection as a visible outcome for preservice teachers. SC. (2003). Collaborative consultation pre-referral interventions at the elementary level to assist at-risk students with reading and language arts difficulties. A. Simon. (2002). Paying for high. Journal of Educational Computing Research..