Anda di halaman 1dari 25

Penilaian sering dilihat oleh individu di kedua praktik pendidikan dan komunitas

penelitian sebagai pengaruh negatif pada pengajaran dan pembelajaran, terutama


ketika taruhan tinggi melekat pada hasil nilai tes (Kaestle, 2013; Linn, 2013). Makalah
ini berpendapat bahwa ketika penilaian dipahami, dirancang, dan diterapkan dengan
benar, itu dapat berfungsi sebagai pengaruh positif pada pencapaian tujuan
pembelajaran yang kita miliki untuk siswa di abad ke-21. Untuk membuat argumen
saya mengacu pada laporan yang dikeluarkan oleh National Research Council (NRC) AS
yang berjudul “Mengetahui Apa yang Siswa Ketahui: Ilmu Pengetahuan dan Desain
Penilaian Pendidikan ”(Pellegrino, Chudowsky, & Glaser, 2001), serta beberapa
laporan terbaru yang menguraikan poin-poin yang dibuat dalam laporan NRC 2001.
Laporan terbaru ini fokus pada masalah desain dan penggunaan penilaian pendidikan
mengingat konteks saat ini perubahan besar dalam standar pembelajaran disiplin di
Amerika Serikat (misalnya, Darling-Hammond et al., 2013; Komisi Gordon, 2013a,
2013b; Pellegrino, Wilson, Koenig, & Beatty, 2014). Sementara banyak argumen saya
diilustrasikan dengan menggambar pada konteks pendidikan A.S. saat ini, mereka
berlaku untuk sistem pendidikan mana pun di mana penggunaan penilaian berkisar di
seluruh tingkatan dari ruang kelas ke distrik, negara bagian, nasional atau
internasional.
konteks.
Di Bagian I, fokusnya adalah pada tantangan yang lebih luas di abad ke-21 pendidikan
dan jenis penilaian yang perlu kita dukung pencapaian tujuan pembelajaran yang
relevan dengan masyarakat global. Bagian ini diakhiri dengan diskusi singkat tentang
lima elemen sistem penilaian yang dapat mendukung evaluasi tersebut lebih dalam
belajar. Bagian II memperkenalkan tujuan dan konteks penilaian pendidikan dan
kemudian Bagian III membahas tiga terkait kerangka kerja konseptual: (a) penilaian
sebagai proses penalaran dari bukti, (b) penilaian didorong oleh model pembelajaran
dinyatakan sebagai perkembangan pembelajaran, dan (c) penggunaan bukti yang
dipusatkan proses desain untuk mengembangkan dan menafsirkan penilaian. Bagian
IV beralih ke implikasi materi dalam Bagian III untuk penilaian kelas dan penilaian skala
besar. Bagian V kemudian mempertimbangkan elemen sistem penilaian yang
seimbang dan Bagian VI kembali ke lima elemen sistem penilaian dibahas dalam
Bagian I dan ditutup dengan menjelaskan secara singkat indikator-indikator utama
kualitas yang harus kita pertahankan saat kita berupaya menerapkan sistem penilaian
yang koheren sebagai bagian dari proses transformasi pendidikan di abad ke-21.
I. Tantangan Pendidikan Sebelum Kita
Sifat pekerjaan dan masyarakat yang berubah berarti premium di dunia saat ini tidak
hanya pada informasi yang diperoleh siswa, tetapi pada kemampuan mereka untuk
menganalisis, mensintesis, dan menerapkan apa yang mereka miliki belajar untuk
mengatasi masalah baru, merancang solusi, berkolaborasi secara efektif, dan
berkomunikasi secara persuasif (lihat mis., Bereiter & Scardamalia, 2013; Pellegrino &
Hilton, 2012). Di Amerika Serikat, pembuat kebijakan di hampir setiap negara bagian
telah mengadopsi standar baru dimaksudkan untuk memastikan bahwa semua siswa
lulus dari sekolah menengah siap untuk kuliah dan karier. Untuk mencapai tujuan itu
diperlukan sebuah transformasi dalam pengajaran, pembelajaran, dan penilaian
sehingga semuanya siswa mengembangkan kompetensi belajar yang lebih dalam
diperlukan untuk keberhasilan postsecondary. Transformasi ini akan membutuhkan
perbaikan dalam kurikulum dan sistem penilaian untuk mendukung kompetensi
belajar yang lebih dalam. Kementerian pendidikan sekitar dunia telah mendesain
ulang kurikulum dan sistem penilaian untuk menekankan keterampilan ini. Misalnya,
saat Singapura bersiap untuk memperbaiki sistem asesmennya, kemudian Menteri
Pendidikan, Tharman Shanmugaratnam, mencatat (Ng, 2008):
[Kita perlu] lebih sedikit ketergantungan pada hafalan, tes berulang dan tipe 'satu
ukuran cocok untuk semua', dan lebih banyak lagi tentang pembelajaran yang
melibatkan, penemuan melalui pengalaman, pengajaran yang berbeda, pembelajaran
keterampilan seumur hidup, dan pembangunan karakter, sehingga siswa dapat ...
kembangkan atribut, pola pikir, karakter, dan nilai-nilai untuk masa depan
keberhasilan.
Reformasi di Singapura, seperti di Selandia Baru, Hong Kong, sejumlah negara
bagian Australia dan provinsi Kanada, dan pencapaian tinggi lainnya yurisdiksi telah
diperkenalkan semakin ambisius penilaian kinerja yang mengharuskan siswa untuk
menemukan, mengevaluasi, dan menggunakan informasi daripada hanya mengingat
fakta. Selain itu, ini penilaian - yang meminta siswa untuk merancang dan melakukan
investigasi, menganalisis data, menarik kesimpulan yang valid, dan melaporkan
temuan - sering meminta siswa untuk menunjukkan apa yang mereka miliki tahu
dalam investigasi yang menghasilkan tulisan canggih, lisan, produk matematika, fisik,
dan multimedia (Darling- Hammond & Adamson (2010) (Lihat Lampiran untuk contoh).
Ini penilaian, bersama dengan investasi lain dalam kurikulum yang bijaksana,
pengajaran berkualitas tinggi, dan sekolah yang didanai secara adil, misalnya,
tampaknya berkontribusi pada prestasi tinggi mereka (Darling-Hammond, 2010).
Amerika Serikat siap untuk mengambil langkah besar ke arah kurikulum dan
penilaian untuk jenis pembelajaran yang lebih mendalam dengan adopsi Standar
Negara Inti Umum yang baru (CCSSI, 2010a, 2010b) dan Standar Sains Generasi
Selanjutnya (Achieve, 2013). Ini standar dimaksudkan untuk menjadi "lebih sedikit,
lebih tinggi, dan lebih dalam" daripada iterasi standar sebelumnya, yang telah dikritik
karena "satu mil lebar dan satu inci dalam". Mereka bertujuan untuk memastikan
bahwa siswa siap untuk kuliah dan karier dengan pengetahuan yang lebih dalam dan
banyak lagi keterampilan yang dapat ditransfer dalam disiplin ilmu ini, termasuk
kemampuan membaca dan dengarkan secara kritis untuk memahami, menulis dan
berbicara dengan jelas dan persuasif, dengan mengacu pada bukti, dan untuk
menghitung dan berkomunikasi secara matematis, alasan secara kuantitatif dan
secara ilmiah, dan desain solusi untuk masalah kompleks.
Standar Inti Umum dalam seni bahasa Inggris dan matematika, dan Standar
Sains Generasi Selanjutnya akan membutuhkan pendekatan yang lebih terintegrasi
untuk menyampaikan instruksi konten semua bidang studi (Pellegrino & Hilton, 2012).
Inti Bersama standar dalam seni bahasa Inggris ditulis untuk memasukkan
pengembangan membaca kritis, menulis, berbicara, dan mendengarkan keterampilan
dalam sejarah, sains, matematika, dan seni serta dalam Kelas bahasa Inggris. Standar
Inti Umum dalam matematika adalah ditulis untuk memasukkan penggunaan
keterampilan dan konsep matematika dalam Bahasa Indonesia bidang-bidang seperti
sains, teknologi, dan teknik. Standar-standar ini menekankan cara dimana siswa harus
menggunakan melek huruf dan keterampilan berhitung di seluruh kurikulum dan
dalam kehidupan. Sebagai negara berusaha untuk menerapkan standar-standar ini,
mereka juga harus memeriksa bagaimana mereka penilaian mendukung dan
mengevaluasi keterampilan ini dan menciptakan insentif bagi mereka untuk diajarkan
dengan baik.
Di Amerika Serikat, dua konsorsium negara bagian - Kemitraan untuk Penilaian
Kesiapan untuk Perguruan Tinggi dan Karier (PARCC) dan Konsorsium Penilaian
Seimbang yang Lebih Cerdas (SBAC) – telah dibentuk untuk mengembangkan penilaian
generasi berikutnya dari standar-standar ini. Ini adalah bagian dari berbagai inisiatif
untuk memikirkan kembali penilaian itu menemani reformasi pendidikan yang
didorong oleh standar disiplin. Dengan demikian, sudah saatnya mempertimbangkan
fitur apa saja yang berkualitas tinggi sistem penilaian yang memenuhi tujuan baru ini
harus mencakup. Itu Laporan Komisi Gordon 2013, ditulis oleh banyak pemimpin ahli
dalam kurikulum, pengajaran, dan penilaian, paling banyak dijelaskan tujuan kritis
dengan cara ini:
Untuk membantu dalam mencapai tujuan pembelajaran yang ditetapkan dalam Inti
umum, penilaian harus sepenuhnya mewakili kompetensi bahwa tuntutan dunia yang
semakin kompleks dan terus berubah. Itu penilaian terbaik dapat mempercepat
perolehan kompetensi ini jika mereka membimbing tindakan guru dan memungkinkan
siswa untuk mengukur kemajuan mereka. Untuk melakukannya, tugas dan kegiatan
dalam penilaian hrus menjadi model yang layak mendapat perhatian dan energi dari
guru dan siswa. Komisi meminta pembuat kebijakan di semua tingkatan untuk secara
aktif mempromosikan transformasi yang sangat dibutuhkan ini saat ini praktik
penilaian ... Sistem penilaian [harus] kuat cukup untuk mendorong perubahan
instruksional yang diperlukan untuk memenuhi standar ... dan memberikan bukti
bahwa pembelajaran siswa bermanfaat bagi guru.
Penilaian baru harus memajukan kompetensi yang cocok ke era di mana kita hidup.
Siswa kontemporer harus mampu mengevaluasi validitas dan relevansi informasi yang
berbeda dan menarik kesimpulan dari mereka. Mereka perlu menggunakan apa yang
mereka ketahui untuk membuat dugaan dan mencari bukti untuk mengujinya, datang
dengan ide-ide baru, dan berkontribusi secara produktif ke jaringan mereka, apakah
di tempat kerja atau di komunitas mereka. Seiring dunia tumbuh semakin kompleks
dan saling berhubungan, orang harus bisa mengenali pola, membuat perbandingan,
menyelesaikan kontradiksi, dan memahami sebab dan akibat. Mereka perlu belajar
untuk merasa nyaman dengannya ambiguitas dan mengakui bahwa perspektif
membentuk informasi dan makna yang kita tarik darinya. Pada tingkat paling umum,
the Penekanan dalam sistem pendidikan kita perlu pada membantu individu masuk
akal dari dunia dan bagaimana cara beroperasi efektif di dalamnya. Akhirnya, penting
juga untuk melakukan penilaian lebih dari mendokumentasikan kemampuan siswa
dan apa yang mereka miliki tahu. Agar bermanfaat, penilaian harus memberikan
petunjuk mengapa siswa memikirkan cara mereka melakukan dan bagaimana mereka
belajar serta alasan untuk kesalahpahaman (Komisi Gordon, 2013b).
Tidak ada penilaian tunggal yang dapat mengevaluasi semua jenis pembelajaran yang
kita nilai bagi siswa; instrumen tunggal tidak dapat memenuhi semua tujuan dipegang
oleh orang tua, praktisi, dan pembuat kebijakan. Seperti yang diperdebatkan di bawah,
itu Penting untuk membayangkan sistem penilaian terkoordinasi, di Indonesia alat
yang berbeda digunakan untuk tujuan yang berbeda - misalnya, pelaporan formatif
dan sumatif, diagnostik vs skala besar. Namun, dalam sistem seperti itu, semua
penilaian harus dilakukan dengan setia mewakili Standar, dan semua harus
memodelkan pengajaran yang baik dan praktik belajar.
Setidaknya lima fitur utama menentukan elemen penilaian sistem yang dapat
sepenuhnya mengukur standar kualitas tinggi seperti Standar Negara Inti Umum dan
Ilmu Generasi Selanjutnya Standar dan dukung evaluasi pembelajaran yang lebih
dalam (lihat Darling-Hammond et al. (2013) untuk penjabaran relevansi, makna dan
fitur yang menonjol dari masing-masing dari lima kriteria ini):
1. Penilaian Keterampilan Kognitif Tingkat Tinggi: Sebagian besar tugas pertemuan
siswa harus memanfaatkan jenis keterampilan kognitif yang dimiliki telah ditandai
sebagai "tingkat yang lebih tinggi" - keterampilan yang mendukung dapat
ditransfer belajar, daripada hanya menekankan keterampilan yang memanfaatkan
pembelajaran hafalan dan penggunaan prosedur dasar. Meskipun ada tempat yang
diperlukan untuk keterampilan dasar dan pengetahuan prosedural, itu harus
seimbang dengan memperhatikan pemikiran kritis dan aplikasi pengetahuan untuk
yang baru konteks.
2. Penilaian Kesetiaan Tinggi atas Kemampuan Kritis: Selain konsep pokok materi
pelajaran, penilaian harus mencakup yang kritis kemampuan yang diartikulasikan
dalam standar, seperti komunikasi (berbicara, membaca, menulis, dan
mendengarkan dalam bentuk multi-media), kolaborasi, pemodelan, pemecahan
masalah yang kompleks, dan penelitian. Tugas harus mengukur kemampuan ini
secara langsung karena akan digunakan dalam dunia nyata, bukan melalui proxy
jarak jauh.
3. Standar yang Dibandingkan Secara Internasional: Dalam hal konten dan standar
kinerja, penilaian harus sama ketat seperti negara - negara pendidikan terkemuka,
dalam hal jenis konten dan tugas yang mereka sajikan serta tingkat kinerja yang
mereka harapkan.
4. Penggunaan Item yang Instruksi Sensitif dan Mendidik Berharga: Tugas-tugas harus
dirancang sedemikian rupa sehingga mendasari konsep dapat diajarkan dan
dipelajari, membedakan antara siswa yang telah diajarkan dengan baik atau buruk,
alih-alih mencerminkan siswa ' akses diferensial ke pengalaman di luar sekolah
(sering kali terkait dengan status sosial ekonomi atau konteks budaya mereka) atau
tergantung pada interpretasi rumit yang sebagian besar mencerminkan ujian
keterampilan. Mempersiapkan (dan terkadang melibatkan) penilaian harus
melibatkan siswa dalam kegiatan yang bernilai pengajaran, dan hasil dari tes harus
memberikan instruksi bermanfaat informasi.
5. Penilaian yang Valid, Andal, dan Adil: Agar bisa benar-benar valid untuk beragam
pelajar, penilaian harus diukur baik apa yang mereka maksudkan untuk diukur,
akurat dalam mengevaluasi kemampuan siswa dan melakukannya dengan andal di
seluruh konteks pengujian dan pencetak gol. Mereka juga harus tidak bias dan
dapat diakses dan digunakan di cara yang mendukung hasil positif bagi siswa dan
pengajaran kualitas.
Satu tantangan besar adalah menentukan jalan ke depan kita dapat membuat
sistem penilaian yang memenuhi tujuan yang kita miliki untuk sistem pendidikan dan
yang sesuai dengan kriteria diuraikan di atas. Dalam apa yang berikut, kami
mempertimbangkan konteks penilaian pendidikan, dasar-dasar konseptual dari
penilaian, dan proses desain yang berprinsip dasar untuk mencapai sistem penilaian
yang memenuhi kriteria yang diuraikan di atas. Ini termasuk penilaian yang dirancang
untuk mendukung pengajaran dan pembelajaran di kelas serta yang dirancang untuk
memantau kemajuan dalam sistem pendidikan.

II Penilaian Pendidikan dalam Konteks


Tujuan dan Konteks Penilaian
Dari kuis guru, ujian tengah semester, atau ujian akhir hingga tes standar yang
dikelola secara nasional dan internasional, penilaian pengetahuan dan keterampilan
siswa telah menjadi bagian mana-mana dari lanskap pendidikan. Penilaian sekolah
belajar memberikan informasi untuk membantu pendidik, administrator, pembuat
kebijakan, siswa, orang tua, dan peneliti menilai keadaan siswa belajar dan membuat
keputusan tentang implikasi dan tindakan. Tujuan khusus untuk mana penilaian akan
digunakan adalah pertimbangan penting dalam semua fase desainnya. Sebagai
contoh, penilaian digunakan oleh instruktur di ruang kelas untuk membantu atau
memantau belajar biasanya perlu memberikan informasi lebih rinci daripada penilaian
yang hasilnya akan digunakan oleh pembuat kebijakan atau lembaga akreditasi. Salah
satu poin utama dari Knowing What Laporan Siswa Tahu adalah bahwa penilaian
dikembangkan untuk tujuan khusus dan sifat desainnya sangat banyak dibatasi oleh
penggunaan interpretif yang dimaksudkan.
Penilaian untuk membantu pembelajaran. Dalam konteks kelas, instruktur
menggunakan berbagai bentuk penilaian untuk menginformasikan sehari-hari dan
keputusan bulan ke bulan tentang langkah selanjutnya untuk instruksi, untuk beri
siswa umpan balik tentang kemajuan mereka, dan untuk memotivasi siswa. Salah satu
jenis penilaian kelas yang akrab adalah buatan guru kuis, tetapi penilaian juga
mencakup lebih banyak metode informal untuk menentukan bagaimana siswa
mengalami kemajuan dalam pembelajaran mereka, seperti proyek kelas, umpan balik
dari instruksi yang dibantu komputer, observasi kelas, pekerjaan tertulis, pekerjaan
rumah, dan percakapan dengan dan di antara siswa - semua ditafsirkan oleh guru
dalam terang informasi tambahan tentang siswa, konteks sekolah, dan konten yang
dipelajari. Situasi ini disebut sebagai penilaian untuk membantu pembelajaran, atau
penggunaan formatif dari penilaian (lihat mis., Black & Wiliam, 1998; Wiliam, 2007).
Penilaian ini memberikan informasi spesifik tentang kekuatan dan kesulitan siswa
dalam belajar. Sebagai contoh, statistik guru perlu tahu lebih dari fakta bahwa seorang
siswa tidak mengerti probabilitas; mereka perlu tahu detailnya kesalahpahaman ini,
seperti kecenderungan siswa untuk bingung probabilitas bersyarat dan gabungan.
Guru dapat menggunakan informasi dari jenis penilaian ini untuk menyesuaikan
instruksi mereka untuk bertemu kebutuhan siswa, yang mungkin sulit diantisipasi dan
kemungkinan akan terjadi bervariasi dari satu siswa ke siswa lainnya. Siswa dapat
menggunakan informasi ini untuk menentukan keterampilan dan pengetahuan mana
yang perlu mereka pelajari lebih lanjut dan penyesuaian apa dalam pemikiran mereka
yang perlu mereka buat.
Penilaian prestasi individu. Tipe lain dari penilaian yang digunakan untuk
membuat keputusan tentang individu adalah itu dilakukan untuk membantu
menentukan apakah seorang siswa telah mencapai a tingkat kompetensi tertentu
setelah menyelesaikan fase tertentu pendidikan, baik itu unit kurikuler dua minggu,
kursus semester-panjang, atau 12 tahun bersekolah. Ini disebut sebagai penilaian
individu prestasi, atau penggunaan penilaian sumatif. Beberapa yang paling bentuk
penilaian sumatif yang lazim adalah yang digunakan oleh kelas instruktur, seperti tes
akhir unit atau akhir kursus, yang sering digunakan untuk menetapkan nilai huruf saat
kursus selesai. Skala besar penilaian - yang dikelola atas arahan pengguna eksternal ke
kelas - juga memberikan informasi tentang pencapaian individu siswa, serta informasi
komparatif tentang bagaimana kinerja seseorang relatif terhadap orang lain. Karena
berskala besar penilaian biasanya diberikan hanya setahun sekali dan melibatkan a
jeda waktu antara pengujian dan ketersediaan hasil, hasilnya jarang memberikan
informasi yang dapat digunakan untuk membantu guru atau para siswa membuat
keputusan sehari-hari atau bulan-ke-bulan mengajar dan belajar.
Penilaian untuk mengevaluasi program. Tujuan umum lain dari penilaian adalah
untuk membantu administrator, pembuat kebijakan atau peneliti merumuskan
penilaian tentang kualitas dan efektivitas program dan lembaga pendidikan. Evaluasi
instruksional dapat dianggap formatif di alam ketika digunakan untuk meningkatkan
efektivitas pengajaran. Penggunaan penilaian sumatif untuk evaluasi semakin
digabungkan dalam membuat taruhan besar keputusan tidak hanya tentang individu,
tetapi juga tentang program dan institusi (mis., Linn, 2013). Misalnya, pelaporan publik
negara hasil penilaian oleh sekolah dan kabupaten / kota dapat mempengaruhi
penilaian orang tua dan pembayar pajak tentang kualitas dan kemanjuran mereka
sekolah dan memengaruhi keputusan tentang alokasi sumber daya. Sama seperti
dengan individu, kualitas ukuran sangat penting dalam validitas keputusan ini.
Pertimbangan Lebih Lanjut tentang Tujuan, Level, dan Skala Waktu
Seperti disebutkan di atas, penilaian terjadi dalam berbagai konteks, memiliki a
berbagai penggunaan formal dan informal, dan dilakukan untuk memenuhi tujuan
yang berbeda. Tujuan dari suatu penilaian menentukan prioritas, dan konteks
penggunaan menimbulkan kendala pada desain. Karena itu, penting untuk
mengetahui bahwa satu jenis penilaian tidak cocok untuk semua tujuan atau konteks
penggunaan. Secara umum, semakin banyak tujuan a penilaian tunggal bertujuan
untuk melayani, semakin banyak tujuan masing-masing dikompromikan dan produk
keseluruhan akan mewakili sub-optimal desain untuk setiap penggunaan yang
dimaksudkan. Kesalahan yang terus-menerus adalah menganggapnya penilaian sesuai
dan dapat ditafsirkan untuk hal tertentu konteks penggunaan tanpa menentukan
apakah ada bukti mengenai validitas asumsi semacam itu dalam konteks itu. Satu
ukuran cocok untuk semua kekeliruan sangat sering dan bermasalah sejak itu
menghasilkan pilihan penilaian yang tidak tepat untuk pengajaran atau penelitian
tujuan yang pada gilirannya dapat menyebabkan kesimpulan yang salah tentang
orang, program, dan / atau lembaga.
Meskipun penilaian saat ini digunakan untuk berbagai keperluan di sistem
pendidikan, premis dari Knowing What Students Tahu laporan adalah bahwa
keefektifan dan kegunaan mereka harus pada akhirnya dinilai oleh sejauh mana
mereka mempromosikan pembelajaran siswa. Itu Tujuan penilaian harus “untuk
mendidik dan meningkatkan siswa kinerja, bukan hanya untuk mengauditnya
”(Wiggins, 1998, p.7). Karena penilaian dikembangkan untuk tujuan khusus, sifatnya
desain sangat dibatasi oleh tujuan penggunaannya. Meskipun mungkin tampaknya
masuk akal untuk mendikotomi antara kelas internal penilaian, dikelola oleh
instruktur, dan tes eksternal, dikelola oleh distrik, negara bagian, atau negara atau
lembaga lain, seperti dikotomi adalah penyederhanaan berlebihan dari sebuah
kontinum yang mencerminkan kedekatan penilaian dengan diberlakukannya
pembelajaran khusus dan kegiatan belajar. Ruiz-Primo, Shavelson, Hamilton, & Klein
(2002) mendefinisikan lima titik diskrit pada rangkaian penilaian jarak: langsung (mis.,
pengamatan atau artefak dari berlakunya aktivitas instruksional tertentu), tutup (mis.,
disematkan penilaian dan kuis belajar semiformal dari satu atau lebih kegiatan),
proksimal (mis., ujian kelas formal belajar dari a kurikulum spesifik), distal (mis.,
pencapaian yang dirujuk kriteria) tes seperti yang disyaratkan oleh undang-undang
federal No Child Left Behind), dan jarak jauh (hasil yang lebih luas diukur dari waktu ke
waktu, termasuk norma yang direferensikan tes prestasi dan beberapa nasional dan
internasional ukuran pencapaian). Penilaian yang berbeda harus dipahami sebagai titik
berbeda pada kontinum ini jika mereka ingin efektif selaras satu sama lain dan dengan
kurikulum dan instruksi. Di Intinya, penilaian adalah ujian transfer dan bisa dekat atau
jauh transfer tergantung di mana penilaian berada di sepanjang kontinum yang
disebutkan di atas.
Tingkat di mana penilaian dimaksudkan untuk berfungsi, yang melibatkan jarak
yang bervariasi dalam "ruang dan waktu" dari berlakunya pengajaran dan
pembelajaran, memiliki implikasi untuk bagaimana dan seberapa baik itu dapat
memenuhi berbagai fungsi penilaian, baik itu formatif, sumatif, atau evaluasi program
(NRC, 2003). Seperti yang diperdebatkan di tempat lain (Hickey & Pellegrino, 2005;
Pellegrino & Hickey, 2006), juga merupakan jika tingkat dan fungsi penilaian yang
berbeda dapat miliki berbagai tingkat kecocokan dengan sikap teoretis tentang alam
mengetahui dan belajar. Meskipun penilaian digunakan dalam berbagai konteks,
untuk perbedaan tujuan, dan pada rentang waktu yang berbeda sering terlihat sangat
berbeda, mereka berbagi prinsip umum tertentu. Salah satu prinsip tersebut adalah
itu penilaian selalu merupakan proses penalaran dari bukti. Dengan itu bahkan
sifatnya, penilaiannya tidak tepat sampai batas tertentu. Hasil penilaian hanya
perkiraan dari apa yang diketahui dan diketahui seseorang bisa lakukan. Kami
menguraikan kedua masalah ini dalam dua berikut bagian.

III. Kerangka Kerja Konseptual


Penilaian sebagai Proses Penalaran Evidentiary: Penilaian Segi tiga Pendidik
menilai siswa untuk belajar tentang apa yang mereka ketahui dan bisa lakukan, tetapi
penilaian tidak menawarkan jalur pipa langsung ke siswa pikiran. Menilai hasil
pendidikan tidak semudah seperti mengukur tinggi atau berat; atribut yang diukur
adalah representasi mental dan proses yang tidak terlihat secara lahiriah. Dengan
demikian, penilaian adalah alat yang dirancang untuk mengamati perilaku siswa dan
menghasilkan data yang dapat digunakan untuk menarik kesimpulan yang masuk akal
tentang apa yang siswa ketahui. Memutuskan apa yang akan dinilai dan bagaimana
melakukannya jadi tidak sesederhana yang mungkin muncul. Proses pengumpulan
bukti untuk mendukung kesimpulan tentang
apa yang siswa ketahui merupakan rantai penalaran dari bukti tentang pembelajaran
siswa yang menjadi ciri semua penilaian, dari kuis kelas dan tes prestasi standar, untuk
program bimbingan terkomputerisasi, untuk percakapan yang dilakukan siswa dengan
gurunya saat mereka bekerja melalui masalah matematika atau mendiskusikan arti
suatu teks. Orang beralasan dari bukti setiap hari tentang apa pun sejumlah
keputusan, kecil dan besar. Ketika meninggalkan rumah di pagi, misalnya, seseorang
tidak tahu dengan pasti bahwa itu benar akan hujan, tetapi mungkin memutuskan
untuk mengambil payung di dasar bukti seperti laporan cuaca pagi dan awan yang
mengancam di langit. Pertanyaan pertama dalam proses penalaran penilaian adalah
“bukti tentang apa? ”Data menjadi bukti hanya dalam masalah analitik ketika
seseorang telah menetapkan relevansinya dengan suatu dugaan dipertimbangkan
(Schum, 1987, hlm. 16). Data tidak menyediakan sendiri berarti; nilai mereka sebagai
bukti hanya dapat muncul melalui beberapa kerangka kerja interpretasi. Apa yang
dirasakan seseorang secara visual misalnya, tidak hanya bergantung pada data yang
diterimanya sebagai foton Cahaya menyentakkan retina-retinanya, tetapi juga pada
apa yang menurutnya akan dilihatnya. Dalam konteks saat ini, penilaian pendidikan
menyediakan data seperti esai tertulis, tanda pada lembar jawaban, presentasi
proyek, atau penjelasan siswa tentang solusi masalah mereka. Data ini menjadi bukti
hanya berkenaan dengan dugaan tentang bagaimana siswa memperoleh pengetahuan
dan keterampilan.
Dalam Mengetahui Apa yang Siswa Ketahui melaporkan proses alasan dari bukti
digambarkan sebagai tiga serangkai elemen yang saling berhubungan: segitiga
penilaian. Simpul dari segitiga penilaian (lihat Gambar 1) mewakili tiga kunci elemen
yang mendasari setiap penilaian: model kognisi siswa dan belajar di bidang penilaian;
seperangkat asumsi dan prinsip-prinsip tentang jenis pengamatan yang akan diberikan
bukti kompetensi siswa; dan proses interpretasi untuk memahami bukti sehubungan
dengan tujuan penilaian dan pemahaman siswa. Ketiga elemen ini mungkin eksplisit
atau tersirat, tetapi penilaian tidak dapat dirancang dan diimplementasikan, atau
dievaluasi, tanpa pertimbangan masing-masing. Ketiganya terwakili sebagai simpul
segitiga karena masing-masing terhubung ke dan tergantung pada dua lainnya. Prinsip
utama dari Knowing What Students Know laporannya adalah agar penilaian efektif dan
valid, ketiga elemen harus sinkron. Segitiga penilaian menyediakan kerangka kerja
yang berguna untuk menganalisis dasar-dasar saat ini penilaian untuk menentukan
seberapa baik mereka mencapai tujuan kita ada dalam pikiran, serta untuk merancang
penilaian masa depan dan menetapkan validitas (mis., lihat Marion & Pellegrino,
2006).
Sudut kognisi segitiga mengacu pada teori, data, dan seperangkat asumsi
tentang bagaimana siswa mewakili pengetahuan dan mengembangkan kompetensi
dalam domain materi pelajaran (mis., pecahan, Hukum Newton, termodinamika).
Dalam penilaian tertentu aplikasi, teori belajar dalam domain diperlukan untuk
mengidentifikasi seperangkat pengetahuan dan keterampilan yang penting untuk
diukur untuk konteks penggunaan yang dimaksudkan, apakah itu untuk menandai
kompetensi yang telah diperoleh siswa pada suatu saat untuk dibuat penilaian
sumatif, atau membuat penilaian formatif untuk membimbing instruksi selanjutnya
untuk memaksimalkan pembelajaran. Premis sentral adalah bahwa teori kognitif harus
mewakili yang paling ilmiah pemahaman kredibel tentang cara-cara khas yang diwakili
peserta didik pengetahuan dan mengembangkan keahlian dalam suatu domain. Setiap
penilaian juga didasarkan pada serangkaian asumsi dan prinsip tentang jenis tugas
atau situasi yang akan ditanyakan siswa mengatakan, melakukan, atau menciptakan
sesuatu yang menunjukkan penting pengetahuan dan kemampuan. Tugas-tugas yang
diminta siswa menanggapi penilaian tidak sewenang-wenang. Mereka harus hati-hati
dirancang untuk memberikan bukti yang terkait dengan model kognitif belajar dan
mendukung jenis kesimpulan dan keputusan itu akan dibuat berdasarkan hasil
penilaian. Pengamatan simpul dari segitiga penilaian mewakili deskripsi atau set
spesifikasi untuk tugas penilaian yang akan menghasilkan penerangan tanggapan dari
siswa. Dalam penilaian, seseorang memiliki kesempatan untuk susun beberapa sudut
kecil dunia untuk melakukan pengamatan. Itu desainer penilaian dapat menggunakan
kemampuan ini untuk memaksimalkan nilai data dikumpulkan, seperti yang terlihat
melalui lensa yang mendasarinya asumsi tentang bagaimana siswa belajar di domain.
Setiap penilaian juga didasarkan pada asumsi dan model untuk menafsirkan
bukti yang dikumpulkan dari pengamatan. Vertex interpretasi segitiga mencakup
semua metode dan alat yang digunakan untuk alasan dari pengamatan yang salah.
Saya mengungkapkan bagaimana pengamatan berasal dari serangkaian penilaian
tugas merupakan bukti tentang pengetahuan dan keterampilan yang ada dinilai.
Dalam konteks penilaian skala besar, interpretasi Metode biasanya model statistik,
yang merupakan karakterisasi atau ringkasan pola-pola yang akan dilihat seseorang
dalam data yang diberikan berbagai tingkat kompetensi siswa. Dalam konteks ruang
kelas penilaian, interpretasi sering dibuat kurang formal oleh guru, dan seringkali
didasarkan pada model intuitif atau kualitatif daripada statistik formal. Bahkan secara
informal guru membuat penilaian terkoordinasi tentang aspek apa dari siswa
'Pemahaman dan pembelajaran itu relevan, bagaimana seorang siswa melakukan satu
atau lebih tugas, dan apa arti pertunjukan tentang pengetahuan dan pemahaman
siswa. Poin penting adalah bahwa masing-masing dari ketiga elemen penilaian segitiga
tidak hanya harus masuk akal sendiri, tetapi juga harus terhubung untuk masing-
masing dari dua elemen lainnya dengan cara yang bermakna untuk mengarah pada
penilaian yang efektif dan kesimpulan yang baik. Jadi, untuk memiliki yang efektif
penilaian, ketiga simpul segitiga harus bekerja sama dalam sinkroni. Inti dari
keseluruhan proses ini adalah teori dan data tentang bagaimana siswa belajar dan apa
yang siswa ketahui saat mereka kembangkan kompetensi untuk aspek-aspek penting
dari kurikulum.

Pembelajaran Khusus Domain: Konsep Kemajuan Pembelajaran


Sebagaimana dikemukakan di atas, target inferensi untuk setiap penilaian yang
diberikan harus banyak ditentukan oleh model kognisi dan pembelajaran yang
menggambarkan bagaimana orang mewakili pengetahuan dan berkembang
kompetensi dalam bidang minat (unsur kognisi dari segitiga penilaian) dan apa saja
elemen penting dari hal tersebut kompetensi seperti bagaimana pengetahuan
diorganisasikan, dll. Dimulai dengan model pembelajaran adalah salah satu fitur utama
yang membedakan pendekatan yang diusulkan untuk desain penilaian dari arus khas
pendekatan. Model ini menyarankan aspek terpenting dari prestasi siswa tentang yang
mana yang ingin digambar kesimpulan, dan memberikan petunjuk tentang jenis tugas
penilaian yang akan memperoleh bukti untuk mendukung kesimpulan tersebut (lihat
juga Pellegrino et al., 2001; Pellegrino, Baxter, & Glaser, 1999).
Konsisten dengan ide-ide ini, ada dorongan baru-baru ini minat pada topik
"kemajuan belajar" (lihat Duschl, Schweingruber, & Shouse, 2007; Dewan Penelitian
Nasional, 2012; Wilson & Bertenthal, 2006). Berbagai definisi pembelajaran
perkembangan (juga disebut lintasan pembelajaran) sekarang ada di Internet literatur,
dengan perbedaan substansial dalam fokus dan niat (lihat mis., Alonzo & Gotwals,
2012; Corcoran, Mosher, & Rogat, 2009; Daro, Mosher, Corcoran, Barrett, &
Konsorsium untuk Penelitian Kebijakan di Indonesia Pendidikan, 2011; Duncan &
Hmelo-Silver, 2009). Belajar perkembangan adalah hipotesis empiris dan dapat diuji
tentang bagaimana pemahaman siswa, dan kemampuan untuk menggunakan, inti
konsep dan penjelasan serta praktik disiplin terkait tumbuh dan menjadi lebih canggih
dari waktu ke waktu, dengan tepat instruksi (Duschl et al., 2007). Hipotesis ini
menggambarkan jalur yang cenderung diikuti oleh siswa saat mereka menguasai
konsep inti.
Lintasan pembelajaran yang dihipotesiskan diuji secara empiris memastikan
validitas konstruk mereka (Apakah urutan hipotesis menggambarkan sebuah jalan
yang benar-benar dialami oleh para siswa yang diberikan instruksi?) dan pada akhirnya
untuk menilai validitas konsekuensial mereka (Apakah pengajaran berdasarkan
perkembangan pembelajaran menghasilkan lebih baik hasil untuk sebagian besar
siswa?). Ketergantungan pada bukti empiris membedakan lintasan pembelajaran dari
lingkup topikal tradisional dan spesifikasi urutan. Lingkup topik dan deskripsi
urutannya adalah biasanya hanya didasarkan pada analisis logis dari disiplin saat ini
pengetahuan dan pengalaman pribadi dalam mengajar.
Setiap perkembangan belajar yang dihipotesiskan memiliki implikasi untuk
penilaian, karena penilaian efektif harus diselaraskan model kognitif beralasan secara
empiris. Model pembelajaran perkembangan harus mengandung setidaknya unsur-
unsur berikut:
1. Targetkan pertunjukan atau tujuan pembelajaran yang merupakan tujuan poin dari
perkembangan pembelajaran dan didefinisikan oleh masyarakat harapan, analisis
disiplin, dan / atau persyaratan untuk masuk ke tingkat pendidikan berikutnya.
2. Variabel kemajuan yang merupakan dimensi pemahaman, aplikasi, dan praktik
yang sedang dikembangkan dan dilacak waktu. Ini mungkin konsep inti dalam
disiplin atau praktik pusat karya sastra, ilmiah atau matematika.
3. Tingkat pencapaian yang merupakan langkah menengah dalam jalur
perkembangan yang dilacak oleh perkembangan pembelajaran. level ini mungkin
mencerminkan level integrasi atau tahapan umum itu mencirikan perkembangan
pemikiran siswa. Mungkin disana langkah-langkah antara yang non-kanonik tetapi
merupakan batu loncatan ide kanonik:
4. Pertunjukan belajar yang merupakan jenis tugas siswa di tingkat pencapaian
tertentu akan mampu melakukan. Mereka memberikan spesifikasi untuk
pengembangan penilaian oleh siswa mana yang akan menunjukkan pengetahuan
mereka dan pemahaman; dan
5. Penilaian, yang merupakan langkah spesifik yang digunakan untuk melacak
perkembangan siswa di sepanjang perkembangan yang dihipotesiskan. Belajar
perkembangan mencakup pendekatan ntuk penilaian, seperti penilaian integral
untuk pengembangan, validasi, dan penggunaannya.
Penelitian tentang kognisi dan pembelajaran telah menghasilkan serangkaian
deskripsi pembelajaran dan kinerja khusus domain yang dapat berfungsi untuk
memandu desain penilaian, khususnya untuk bidang tertentu di Indonesia membaca,
matematika, dan sains (mis., American Association for Kemajuan Ilmu Pengetahuan,
2001; Bransford, Brown, cocking, Donovan, & Pellegrino, 2000; Duschl et al, 2007;
Kilpatrick, Swafford, & Findell, 2001; Snow, Burns, & Griifin, 1998; Wilson &
Bertenthal, 2006). Yang mengatakan, ada banyak yang harus dilakukan dalam
memetakan pembelajaran perkembangan berbagai bidang kurikulum dengan cara
yang bisa secara efektif memandu desain instruksi dan penilaian.
Meskipun demikian, ada sedikit yang diketahui tentang kognisi dan siswa
belajar bahwa kita dapat memanfaatkan sekarang untuk memandu bagaimana kita
merancang sistem penilaian, terutama yang berusaha untuk menutupi kemajuan
pembelajaran di dalam dan di seluruh kelas. Makalah karya Deane dan Song (2014)
dalam masalah ini memberikan contoh yang sangat baik dari penerapan kerangka
perkembangan pembelajaran, serta proses desain yang berpusat pada bukti dibahas
pada bagian selanjutnya, seperti bagian dari pengembangan program penilaian CBAL
di bidang Seni berbahasa Inggris.
Pengembangan Penilaian: Desain Berpusat Bukti
Meskipun sangat berguna untuk mengonseptualisasikan penilaian sebagai a proses
penalaran dari bukti, desain yang sebenarnya penilaian adalah upaya yang menantang
yang perlu dipandu teori dan penelitian tentang kognisi serta resep praktis mengenai
proses yang mengarah pada produktif dan berpotensi penilaian yang valid untuk
konteks penggunaan tertentu. Seperti dalam desain apa pun aktivitas, pengetahuan
ilmiah memberikan arahan dan kendala mengatur kemungkinan, tetapi tidak
menentukan sifat yang tepat dari desain, juga tidak menghalangi kecerdikan untuk
mencapai produk akhir.
Desain selalu merupakan proses kompleks yang menerapkan teori dan penelitian
untuk mencapai solusi yang hampir optimal di bawah serangkaian beberapa kendala,
beberapa di antaranya berada di luar bidang sains. Dalam Dalam hal penilaian
pendidikan, desain sangat dipengaruhi cara oleh variabel seperti tujuannya (mis.,
untuk membantu pembelajaran, untuk mengukur pencapaian individu, atau untuk
mengevaluasi suatu program), the konteks di mana ia akan digunakan (ruang kelas
atau skala besar), dan kendala praktis (mis., sumber daya dan waktu).
Kecenderungan dalam desain penilaian adalah untuk bekerja dari yang agak Deskripsi
“longgar” tentang apa yang seharusnya diketahui oleh siswa dan dapat melakukan
(mis., standar atau kerangka kerja kurikulum) terhadap pengembangan tugas atau
masalah yang harus mereka jawab. Mengingat kompleksitas proses desain penilaian,
kecil kemungkinannya proses yang longgar semacam itu dapat menghasilkan generasi
penilaian kualitas tanpa banyak kesenian, keberuntungan, dan coba-coba. Sebagai
akibatnya, banyak penilaian tidak cukup pada sejumlah dimensi termasuk representasi
dari konstruksi kognitif dan konten yang akan dibahas dan ketidakpastian tentang
ruang lingkup kesimpulan yang dapat ditarik dari kinerja tugas.
Menyadari bahwa penilaian adalah proses penalaran pembuktian, telah terbukti
bermanfaat untuk lebih sistematis dalam membingkai proses desain penilaian sebagai
proses Desain yang Berpusat pada Bukti (mis., Mislevy & Haertel, 2006; Mislevy &
Riconscente, 2006). Untuk sebuah diskusi luas tentang logika dan beberapa komponen
ECD sebagai diterapkan untuk pengembangan tes, pembaca disebut kertas oleh Zieky
(2014) dalam masalah ini. Untuk tujuan saat ini, Gambar 2 sudah cukup untuk
menangkap tiga komponen penting dari keseluruhan proses. Seperti yang ditunjukkan
pada gambar, proses dimulai dengan mendefinisikan setepat mungkin klaim bahwa
seseorang ingin dapat membuat tentang siswa pengetahuan dan cara-cara yang
seharusnya diketahui siswa dan memahami beberapa aspek tertentu dari domain
konten. Contohnya mungkin termasuk aspek pemikiran aljabar, rasio dan proporsi,
gaya dan gerak, panas dan suhu dll. Paling banyak aspek kritis dalam mendefinisikan
klaim yang ingin dibuat untuk tujuan penilaian harus setepat mungkin tentang unsur-
unsur itu penting dan ungkapkan ini dalam bentuk kata kerja kognisi jauh lebih tepat
dan kurang kabur daripada kognitif tingkat tinggi kata kerja superordinat seperti tahu
dan mengerti. Contoh kata kerja mungkin termasuk membandingkan, menjelaskan,
menganalisis, menghitung, menguraikan, menjelaskan, memperkirakan,
membenarkan, dll.
Memandu proses ini menentukan klaim adalah teori dan penelitian tentang sifat
domain-spesifik mengetahui dan belajar Sementara klaim yang ingin dibuat atau
diverifikasi adalah tentang siswa, mereka terkait dengan bentuk-bentuk bukti yang
akan memberikandukungan untuk klaim tersebut - waran mendukung setiap klaim. Itu
bukti bukti yang terkait dengan serangkaian klaim yang diberikan fitur produk kerja
atau pertunjukan yang akan memberi substansi untuk klaim. Ini termasuk fitur yang
harus ada dan bagaimana mereka ditimbang dalam skema pembuktian apa pun - yaitu,
yang penting paling dan yang paling penting atau tidak sama sekali. Misalnya kalau
buktinya untuk mendukung klaim tentang pengetahuan siswa tentang undang-undang
Geraknya adalah bahwa siswa dapat menganalisis situasi fisik dalam istilah dari
kekuatan yang bekerja pada semua tubuh, maka buktinya mungkin a diagram benda
bebas yang digambar dengan semua gaya berlabel termasuk besarnya dan arah
mereka. Ketepatan yang datang dari penjabaran klaim dan pernyataan bukti yang
terkait dengan domain pengetahuan dan keterampilan terbayar ketika seseorang
beralih ke desain tugas atau situasi itu dapat memberikan bukti yang diperlukan.
Intinya, tugas tidak dirancang atau dipilih sampai jelas bentuk bukti apa yang
diperlukan mendukung berbagai klaim yang terkait dengan penilaian yang diberikan
situasi. Tugas perlu memberikan semua bukti yang diperlukan dan mereka harus
memungkinkan siswa untuk "menunjukkan apa yang mereka ketahui" dengan cara itu
adalah sebagai ambigu mungkin sehubungan dengan apa tugasnya kinerja
menyiratkan tentang pengetahuan dan keterampilan siswa - yaitu, kesimpulan
tentang kognisi siswa yang diizinkan dan berkelanjutan dari serangkaian tugas atau
item penilaian yang diberikan. Menarik aplikasi dari pendekatan ECD dapat ditemukan
dalam skala besar program penilaian sedang dalam pengembangan dan validasi oleh
dua konsorsium besar negara-negara yang sedang mengembangkan penilaian yang
selaras dengan Standar Negara Inti Umum yang baru dalam matematika dan seni
bahasa Inggris di Amerika Serikat (lihat PARCC, 2014; SBAC, 2014).
Ini di luar cakupan makalah ini untuk juga mempertimbangkan masalah
pengukuran dan inferensi statistik berkenaan dengan kinerja siswa pada penilaian
yang diberikan. Namun demikian, penting untuk dicatat bahwa komponen interpretasi
Segitiga Penilaian, serta penerapan kerangka kerja ECD untuk desain penilaian, sering
bergantung pada penerapan model pengukuran formal. Berbagai model seperti itu
tersedia untuk digunakan dalam konteks mulai dari penilaian kelas hingga tes standar
berskala besar dari jenis yang digunakan dalam program penilaian nasional dan
internasional (lihat misalnya, Pellegrino et al. 2001; Pellegrino, DiBello, & Brophy,
2014). Kertas oleh de la Torre dan Minchen (2014) dalam masalah ini memberikan
diskusi yang sangat baik tentang manfaat kelas tertentu dari model tersebut, yang
dikenal sebagai Model Klasifikasi Diagnostik, ketika tujuan dari desain penilaian adalah
untuk mendapatkan informasi interpretatif yang terkait erat dengan detail model
kognitif pengetahuan dan keterampilan siswa. Dalam kasus seperti itu, ada kaitan erat
antara elemen-elemen dari segitiga penilaian yang dimanifestasikan dalam rincian
desain penilaian yang mencakup aturan untuk membuat kesimpulan dari bukti yang
diperoleh dari serangkaian tugas yang dirancang dengan cermat. Seringkali, tujuan
memperoleh informasi diagnostik terperinci tersebut adalah penggunaannya sebagai
bagian dari proses penilaian formatif kelas.
IV. Implikasi Untuk Desain Penilaian
Desain dan Penggunaan Penilaian Kelas
Ilmuwan pembelajaran umumnya berpendapat bahwa praktik penilaian kelas
perlu diubah untuk mendukung pembelajaran yang lebih baik (juga lihat Shepard,
2000). Konten dan karakter penilaian perlu ditingkatkan secara signifikan untuk
mencerminkan penelitian empiris terbaru tentang pembelajaran dan, mengingat apa
yang sekarang kita ketahui tentang perkembangan pembelajaran, pengumpulan dan
penggunaan informasi penilaian dan wawasan harus menjadi bagian dari proses
pembelajaran yang sedang berlangsung. Poin terakhir ini lebih lanjut menunjukkan
bahwa program pendidikan guru harus memberi guru pemahaman yang mendalam
tentang bagaimana menggunakan penilaian dalam pengajaran mereka. Banyak ahli
penilaian pendidikan percaya bahwa jika penilaian, kurikulum, dan pengajaran lebih
terhubung secara integral, pembelajaran siswa akan meningkat (misalnya, Pellegrino
et al., 1999; Stiggins, 1997).
Menurut Sadler (1989), tiga elemen diperlukan jika guru ingin berhasil menggunakan
penilaian untuk mempromosikan pembelajaran:
(1) Pandangan yang jelas tentang tujuan pembelajaran (berasal dari kurikulum)
(2) Informasi tentang keadaan pelajar saat ini (berasal dari penilaian)
(3) Tindakan untuk menutup celah (diambil melalui instruksi)
Masing-masing dari ketiga elemen ini menginformasikan yang lain. Misalnya,
merumuskan prosedur penilaian untuk penggunaan ruang kelas dapat memacu guru
untuk berpikir lebih spesifik tentang tujuan pembelajaran, sehingga mengarah pada
modifikasi kurikulum dan pengajaran. Modifikasi ini dapat, pada gilirannya, mengarah
pada prosedur penilaian yang disempurnakan, dan sebagainya. Keberadaan penilaian
ruang kelas di sepanjang garis yang dibahas di sini tidak akan memastikan
pembelajaran yang efektif. Kejelasan dan kesesuaian tujuan kurikulum, validitas
penilaian dalam kaitannya dengan tujuan-tujuan ini, interpretasi bukti penilaian, dan
relevansi dan kualitas instruksi yang terjadi merupakan penentu penting dari hasil.
Pengajaran yang efektif harus dimulai dengan model kognisi dan pembelajaran
dalam domain. Bagi sebagian besar guru, tujuan akhir pembelajaran ditetapkan oleh
kurikulum, yang biasanya diamanatkan secara eksternal (mis., Dengan standar
kurikulum negara bagian). Tetapi kurikulum yang diamanatkan secara eksternal tidak
menentukan kognisi dan hasil pembelajaran berbasis empiris yang diperlukan untuk
penilaian agar efektif. Akibatnya, guru (dan yang lainnya yang bertanggung jawab
untuk merancang kurikulum, pengajaran, dan penilaian) harus merancang tujuan
jangka menengah yang dapat berfungsi sebagai rute efektif untuk mencapai tujuan
yang diamanatkan secara eksternal dan, untuk melakukannya secara efektif, mereka
harus memiliki pemahaman tentang bagaimana siswa mewakili pengetahuan dan
mengembangkan kompetensi dalam domain. Penilaian formatif harus didasarkan
pada teori-teori kognitif tentang bagaimana orang belajar materi pelajaran tertentu
untuk memastikan bahwa pengajaran berpusat pada apa yang paling penting untuk
tahap pembelajaran berikutnya, mengingat keadaan pemahaman pelajar saat ini.
Pengembangan pra-layanan dan profesional diperlukan untuk membantu guru
merumuskan model perkembangan pembelajaran sehingga mereka dapat
mengidentifikasi strategi naif siswa atau awal yang masuk akal dan
mengembangkannya untuk menggerakkan siswa ke arah pemahaman yang lebih
canggih. Ini akan meningkatkan keahlian diagnostik guru sehingga mereka dapat
membuat keputusan berdasarkan informasi tentang langkah selanjutnya untuk
pembelajaran siswa. Beberapa pendekatan berbasis kognitif untuk instruksi dan
penilaian telah terbukti memiliki dampak positif pada pembelajaran siswa, termasuk
program Instruksi Kognitif (Carpenter, Fennema, & Franke, 1996) dan lainnya (Cobb et
al., 1991; Griffin & Case , 1997).
Desain dan Penggunaan Penilaian Skala Besar
Penilaian skala besar lebih lanjut dihapus dari instruksi tetapi masih bisa
mendapat manfaat pembelajaran jika dirancang dengan baik dan digunakan dengan
benar. Jika prinsip-prinsip desain yang diidentifikasi di atas diterapkan, secara
substansial informasi yang lebih valid, bermanfaat, dan adil akan diperoleh dari
penilaian berskala besar. Namun, sebelum sekolah, distrik, negara bagian, atau negara
dapat sepenuhnya memanfaatkan teori dan penelitian kontemporer, mereka mungkin
perlu secara substansial mengubah cara mereka mendekati penilaian skala besar.
Secara khusus, mereka harus mengendurkan beberapa kendala yang saat ini
mendorong banyak praktik penilaian skala besar, sebagai berikut.
Penilaian sumatif skala besar harus fokus pada aspek pembelajaran yang paling
kritis dan sentral dalam domain - sebagaimana diidentifikasi oleh standar kurikulum
dan diinformasikan oleh penelitian dan teori kognitif. Penilaian skala besar biasanya
didasarkan pada model pembelajaran yang kurang detail dibandingkan penilaian
kelas. Untuk tujuan sumatif, orang mungkin perlu tahu apakah seorang siswa telah
menguasai aspek-aspek yang lebih kompleks dari pengurangan multikolom, termasuk
meminjam dari dan melintasi nol, sedangkan seorang guru perlu tahu persis kesalahan
prosedural mana yang mengarah pada kesalahan. Meskipun pembuat kebijakan dan
orang tua mungkin tidak memerlukan semua detail diagnostik yang akan berguna bagi
guru dan siswa selama pengajaran, penilaian sumatif skala besar harus didasarkan
pada model pembelajaran yang kompatibel dengan dan berasal dari rangkaian yang
sama. pengetahuan dan asumsi tentang pembelajaran sebagai penilaian kelas.
Penelitian tentang kognisi dan pembelajaran menunjukkan berbagai
kompetensi yang harus dinilai ketika mengukur prestasi siswa, banyak di antaranya
pada dasarnya belum dimanfaatkan oleh penilaian saat ini. Contohnya adalah
organisasi pengetahuan, representasi masalah, penggunaan strategi, metakognisi, dan
kegiatan partisipatif (mis., Merumuskan pertanyaan, menyusun dan mengevaluasi
argumen, berkontribusi pada pemecahan masalah kelompok). Ini adalah elemen
penting dari teori kontemporer dan penelitian tentang perolehan kompetensi dan
keahlian dan dibahas dan diilustrasikan secara rinci dalam berbagai referensi yang
disebutkan sebelumnya pada bagian tentang perkembangan pembelajaran. Penilaian
skala besar tidak boleh mengabaikan aspek-aspek kompetensi ini dan harus
memberikan informasi tentang aspek-aspek ini dari sifat pemahaman siswa, daripada
sekadar membuat peringkat siswa menurut perkiraan kemahiran umum. Jika tes
didasarkan pada teori kognisi dan pembelajaran yang didasarkan pada penelitian, tes
tersebut dapat memberikan arahan positif untuk pengajaran, menjadikan "pengajaran
untuk ujian" lebih produktif untuk pembelajaran daripada destruktif (poin ini dibahas
lebih lanjut di bawah).
Sayangnya, diberikan kendala saat ini dari tes standar administrasi, hanya
perbaikan terbatas dalam penilaian skala besar yang dimungkinkan. Kendala-kendala
ini termasuk kebutuhan untuk memberikan skor yang dapat diandalkan dan dapat
dibandingkan untuk individu maupun kelompok, kebutuhan untuk mencicipi
serangkaian standar kurikulum yang luas dalam waktu pengujian yang terbatas per
siswa, dan kebutuhan untuk menawarkan efisiensi biaya dalam hal pengembangan,
penilaian , dan administrasi. Untuk memenuhi permintaan semacam ini, desainer
biasanya membuat penilaian yang diberikan pada waktu yang ditentukan, dengan
semua siswa diberi tes yang sama (atau paralel) di bawah kondisi standar yang ketat
(sering disebut sebagai penilaian berdasarkan permintaan). Tugas umumnya dari jenis
yang dapat disajikan dalam format kertas dan pensil yang dapat direspon siswa dengan
cepat, dan yang dapat dinilai dengan andal dan efisien. Akibatnya, hasil pembelajaran
yang memungkinkan untuk dinilai dengan cara-cara ini dinilai, tetapi aspek
pembelajaran yang tidak dapat diamati dalam kondisi yang terbatas tidak. Merancang
penilaian baru yang menangkap kompleksitas kognisi dan pembelajaran akan
membutuhkan memeriksa asumsi dan nilai-nilai yang saat ini mendorong pilihan
desain penilaian dan keluar dari paradigma saat ini untuk mengeksplorasi pendekatan
alternatif untuk penilaian skala besar, termasuk penggunaan teknologi inovatif (lihat
misalnya, Quellmalz & Pellegrino, 2009; Pellegrino et al., 2014).
V. Sistem Penilaian Seimbang
Banyak penilaian yang berbeda digunakan di sekolah-sekolah, dengan masing-
masing melayani beragam kebutuhan dan audiensi yang berbeda. Mungkin
kesenjangan terbesar adalah antara penilaian eksternal, skala besar untuk tujuan
evaluasi sumatif dan perbandingan oleh pembuat kebijakan, dan penilaian kelas yang
dirancang untuk membantu guru dalam pekerjaan pengajaran mereka. Salah satu hasil
dari variasi ini adalah bahwa pengguna dapat menjadi frustrasi ketika penilaian yang
berbeda memiliki tujuan dan hasil pencapaian yang bertentangan. Terkadang
perbedaan seperti itu bisa bermakna dan bermanfaat, seperti ketika penilaian secara
eksplisit ditujukan untuk mengukur hasil sekolah yang berbeda. Namun, lebih sering,
tujuan penilaian dan umpan balik yang saling bertentangan menyebabkan banyak
kebingungan bagi pendidik, siswa, dan orang tua. Pada bagian ini kami menjelaskan
visi untuk sistem terkoordinasi dari berbagai penilaian yang bekerja bersama, bersama
dengan kurikulum dan pengajaran, untuk mempromosikan pembelajaran.
Dalam banyak sistem pendidikan di seluruh dunia, penilaian difokuskan pada
kegiatan kelas yang dirancang untuk memberikan informasi tentang kemajuan
pembelajaran dan penilaian berstandar eksternal berskala besar memainkan peran
yang relatif kecil atau sekunder dalam sistem pendidikan (lihat Dewan Riset Nasional,
2003). Di Amerika Serikat, bagaimanapun, sumber daya yang diinvestasikan dalam
memproduksi dan menggunakan tes skala besar - dalam hal uang, waktu pengajaran,
penelitian, dan pengembangan - jauh lebih besar daripada investasi dalam desain dan
penggunaan penilaian kelas yang efektif (lihat misalnya, Kaestle , 2013).
Dan sayangnya, ada banyak bukti bahwa penilaian skala besar yang digunakan
saat ini di AS dan di tempat lain berdampak negatif terhadap pengajaran dan penilaian
kelas. Sebagai contoh, seperti yang dibahas sebelumnya, guru merasakan tekanan
untuk mengajar pada ujian, yang (mengingat fokus penilaian hari ini pada fakta dan
keterampilan yang terputus) menghasilkan penyempitan instruksi. Ini tidak akan
menjadi masalah jika penilaian yang ditemukan pada tes tersebut memiliki kualitas
yang lebih tinggi dan mewakili berbagai tingkat pemikiran dan penalaran yang kami
inginkan untuk dicapai oleh siswa. Kemudian kita akan memiliki tes yang layak untuk
diajar dan tugas-tugasnya akan jauh lebih dekat dengan yang berguna dalam konteks
pengajaran di kelas untuk mempromosikan pembelajaran dan keterlibatan siswa.
Mereka akan menjadi tugas dan pertunjukan yang pantas dengan waktu dan perhatian
guru dan siswa. Jika itu benar, maka kita tidak akan memiliki masalah yang ada
sekarang karena guru memodelkan tes kelas mereka sendiri setelah tugas yang sangat
terbatas dan kurang ideal ditemukan pada tes standar yang khas (Koretz, 2009; Linn,
2000; Shepard, 2000 ). Diberikan bahwa mereka akan terlibat dalam latihan
pemodelan seperti itu ketika tes eksternal penting untuk tujuan seperti akuntabilitas,
akan jauh lebih baik jika apa yang mereka pemodelkan merupakan penilaian kualitas
siswa yang tinggi dan valid. Jadi, di samping kebutuhan untuk mencapai keseimbangan
yang lebih baik antara ruang kelas dan penilaian skala besar, kita juga perlu
mengoordinasikan sistem penilaian yang secara kolektif mendukung serangkaian
tujuan pembelajaran dan pengajaran yang umum, daripada bekerja dengan tujuan
yang berbeda. Untuk tujuan ini, sistem penilaian harus menunjukkan tiga sifat:
kelengkapan, koherensi, dan kontinuitas.
Dengan kelengkapan, maksud saya bahwa berbagai pendekatan pengukuran
harus digunakan untuk menyediakan berbagai bukti untuk mendukung pengambilan
keputusan pendidikan. Tidak ada skor tes tunggal yang dapat dianggap sebagai ukuran
definitif kompetensi siswa. Berbagai langkah meningkatkan validitas dan keadilan
kesimpulan yang ditarik dengan memberi siswa berbagai cara dan peluang untuk
menunjukkan kompetensi mereka. Berbagai langkah juga dapat digunakan untuk
memberikan bukti bahwa peningkatan skor tes mewakili keuntungan nyata dalam
pembelajaran, dibandingkan dengan skor inflasi karena mengajar secara sempit untuk
satu tes tertentu (mis., Koretz, 2009).
Dengan koherensi, maksud saya bahwa model pembelajaran siswa yang
mendasari berbagai penilaian eksternal dan kelas dalam suatu sistem harus
kompatibel. Sementara penilaian skala besar mungkin didasarkan pada model
pembelajaran yang lebih kasar daripada yang mendasari penilaian yang digunakan di
ruang kelas, basis konseptual untuk penilaian skala besar harus menjadi versi yang
lebih luas dari yang masuk akal pada butir yang lebih halus. level (Mislevy, 1996).
Dengan cara ini, hasil penilaian eksternal akan lebih konsisten pemahaman rinci
tentang pembelajaran yang mendasari instruksi dan penilaian kelas. Ketika seseorang
naik dan turun tingkat sistem, dari ruang kelas melalui sekolah, distrik, dan negara,
penilaian sepanjang dimensi vertikal ini harus selaras. Selama model pembelajaran
yang mendasarinya konsisten, penilaian akan melengkapi satu sama lain daripada
menyajikan tujuan pembelajaran yang saling bertentangan.
Akhirnya, sistem penilaian ideal akan dirancang untuk berkelanjutan. Artinya,
penilaian harus mengukur kemajuan siswa dari waktu ke waktu, lebih mirip dengan
rekaman video daripada foto yang disediakan oleh sebagian besar tes saat ini. Untuk
memberikan gambaran kemajuan seperti itu, beberapa set pengamatan dari waktu ke
waktu harus dihubungkan secara konseptual sehingga perubahan dapat diamati dan
ditafsirkan. Model kemajuan siswa dalam pembelajaran harus mendasari sistem
penilaian, dan tes harus dirancang untuk memberikan informasi yang memetakan
kembali ke perkembangan. Gambar 3 memberikan ilustrasi grafis tentang tampilan
sistem penilaian dan beberapa faktor yang akan berfungsi untuk mencapai
keseimbangan dan mendukung ketiga prinsip ini. Gambar 3 menunjukkan bahwa
sistem seperti itu akan (a) dikoordinasikan lintas level, (b) disatukan oleh tujuan
pembelajaran umum, dan (c) disinkronkan dengan menyatukan variabel kemajuan.
Tidak ada sistem penilaian yang ada memiliki fitur desain ini dan memenuhi ketiga
kriteria kelengkapan, koherensi, dan kontinuitas, tetapi ada contoh penilaian yang
mewakili langkah-langkah menuju tujuan-tujuan ini. Misalnya, program Penilaian
Perkembangan Australia (Forster & Masters, 2001; Masters & Forster, 1996) dan
sistem penilaian BEAR (Wilson, Draney, & Kennedy, 2001; Wilson & Sloane, 2000)
menunjukkan bagaimana peta kemajuan dapat digunakan untuk mencapai koherensi
antara penilaian formatif dan sumatif, serta di antara kurikulum, instruksi, dan
penilaian. Peta kemajuan juga memungkinkan pengukuran pertumbuhan (sehingga
memenuhi kriteria kesinambungan). Dewan Penelitian Pendidikan Australia telah
menghasilkan satu set bahan materi yang sangat bagus bagi para guru untuk
mendukung penggunaan berbagai strategi penilaian - mulai dari tes tertulis hingga
portofolio hingga proyek di tingkat kelas - yang semuanya dapat dirancang untuk
menghubungkan kembali ke peta kemajuan (dengan demikian memenuhi kriteria
kelengkapan).
VI. Bergerak Maju: Kebutuhan dan Peluang
Karena penilaian terkait dengan klaim, kami ingin membuktikan tentang
kompetensi siswa, pendekatan baru untuk penilaian harus diperlakukan sebagai
proses mengumpulkan bukti untuk mengkonfirmasi atau mengonfirmasi klaim
tertentu (Gorin, 2013). Bukti itu, yang dalam suatu sistem penilaian dapat berasal dari
berbagai sumber, dapat digunakan untuk meningkatkan baik bagaimana mereka
diajarkan dan bagaimana dan apa yang dipelajari siswa. Bukti tersebut mungkin
mencakup serangkaian kegiatan yang berkisar dari tugas kinerja yang sederhana
hingga rumit yang dilakukan di dalam ruang kelas serta penilaian di luar kegiatan di
ruang kelas biasa (Bennett, 2013). Pellegrino et al. (2014) telah menjelaskan secara
terperinci pendekatan sistem semacam itu untuk penilaian sains. Deskripsi yang
mereka berikan dirancang untuk mempromosikan visi pembelajaran sains dan
pengajaran yang terkait dengan Kerangka Kerja Dewan Riset Nasional AS untuk
pendidikan sains K-12 (Dewan Penelitian Nasional, 2012) dan turunannya dari Standar
Sains Generasi Selanjutnya (Achieve, 2013).
Teknologi digital sangat menjanjikan untuk membantu membawa banyak
perubahan dalam penilaian yang diyakini banyak orang perlu. Teknologi yang tersedia
saat ini dan inovasi di cakrawala langsung dapat digunakan untuk mengakses
informasi, membuat simulasi dan skenario, memungkinkan siswa untuk terlibat dalam
permainan pembelajaran dan kegiatan lainnya, dan memungkinkan kolaborasi di
antara siswa. Kegiatan semacam itu memungkinkan untuk mengamati,
mendokumentasikan, dan menilai pekerjaan siswa karena mereka terlibat dalam
kegiatan alami - mungkin mengurangi kebutuhan untuk memisahkan penilaian formal
untuk akuntabilitas dari pembelajaran pada saat itu (mis., Behrens & DiCerbo, 2013).
Teknologi tentu akan memungkinkan penggunaan penilaian formatif yang lebih besar
yang pada gilirannya telah terbukti berdampak signifikan terhadap prestasi siswa.
Kegiatan digital juga dapat memberikan informasi tentang kemampuan non-kognitif,
seperti ketekunan, kreativitas, dan kerja tim yang tidak dapat dilakukan oleh
pendekatan pengujian saat ini. Disandingkan dengan janji adalah perlunya banyak
pekerjaan yang harus dilakukan pada masalah penilaian dan interpretasi bukti
sebelum penilaian yang melekat seperti itu dapat berguna untuk berbagai tujuan ini.
Banyak masalah, termasuk beberapa yang disinggung di atas, telah dibahas dan
diperdebatkan di antara para pendidik dan pakar penilaian selama bertahun-tahun.
Sebagai bagian dari diskusi itu sekarang dikenal luas.
bahwa pengujian standar berskala besar telah memberikan yang lebih besar
dan pengaruh yang lebih besar terhadap sekolah Amerika (Kaestle, 2013; Linn, 2013).
Pada saat yang sama, telah ditunjukkan berulang kali bahwa guru memiliki dampak
terbesar pada pendidikan dari semua faktor di sekolah. Dan apa yang guru lakukan dan
apa yang mereka ajarkan dan bagaimana mereka menilai di kelas yang memberi
pengaruh pada guru. Jika guru dan sekolah memungkinkan jenis pembelajaran yang
dapat ditransfer yang diperlukan oleh kaum muda dalam masyarakat kontemporer,
penilaian akan perlu untuk mendukung kurikulum dan pengajaran yang berfokus pada
pembelajaran tersebut, bersama dengan keterampilan dasar tradisional. Sistem
penilaian baru, yang didasarkan pada standar baru, harus mencakup fitur yang
dijelaskan sebelumnya dalam makalah ini. Kriteria untuk sistem penilaian seperti itu
harus ketat dan ambisius, sambil memperhitungkan dalam waktu dekat apa yang
dapat dicapai secara finansial, logistik, teknologi, dan ilmiah. Jalan untuk mencapai
tujuan pendidikan yang lebih ambisius cenderung untuk melewati fase yang berbeda
daripada terjadi dalam satu lompatan raksasa. Mengingat di mana kita saat ini dan apa
yang seharusnya layak di negara baru itu, serangkaian indikator berikut telah
disarankan untuk digunakan dalam mengevaluasi apakah sistem penilaian dan
komponennya memenuhi lima kriteria yang dibahas dalam Bagian I (lihat Darling-
Hammond et al., 2013 untuk perincian tambahan).
Entitas pendidikan - negara, negara bagian, provinsi, dll. – Harus mengevaluasi
set penilaian yang saat ini mereka miliki dan / atau kembangkan terhadap kriteria ini,
dan mereka harus menggunakan penilaian mereka dengan cara yang telah divalidasi
dengan tepat. Melakukannya akan membantu memastikan konsekuensi positif dari
penilaian untuk pengajaran dan pembelajaran siswa. Untuk kembali ke kutipan dari
Komisi Gordon (2013b) yang disebutkan sebelumnya dalam makalah ini: “Penilaian
terbaik dapat mempercepat perolehan pengetahuan dan kompetensi abad ke-21 jika
mereka membimbing tindakan guru dan memungkinkan siswa untuk mengukur
kemajuan mereka. Untuk melakukannya, tugas dan kegiatan dalam penilaian harus
menjadi model yang layak untuk perhatian dan energi guru dan siswa. ”Mengubah
penilaian pendidikan dengan cara yang diusulkan tergantung pada pendekatan sistem
yang mencakup banyak faktor. Di antara ini adalah kemajuan dalam teori kognitif dan
penelitian dan aplikasi teknologi yang dikombinasikan dengan investasi dalam
pengetahuan guru dan perubahan kebijakan pendidikan yang menyertainya. Pembuat
kebijakan di semua tingkatan perlu secara aktif mempromosikan transformasi yang
sangat dibutuhkan dari praktik penilaian saat ini. Sebuah pertanyaan terbuka adalah
apakah pendekatan sistem seperti itu dapat dicapai di seluruh tingkat kebijakan dan
praktik pendidikan yang biasanya berlaku dan pada skala mulai dari kabupaten
setempat, hingga negara bagian, negara, dan bahkan di tingkat penilaian internasional.
Ringkasan yang diperluas
Evaluasi sering dilihat sebagai pengaruh negatif pada pengajaran-pembelajaran
oleh bagian yang baik dari komunitas pendidikan -kedua di bidang terapan dan di
bidang penelitian-, terutama ketika hasil evaluasi memiliki konsekuensi penting.
Artikel ini mengusulkan bahwa jika evaluasi dipahami, dirancang dan
diimplementasikan secara memadai, itu dapat secara positif mempengaruhi
pencapaian tujuan pembelajaran siswa abad ke-21. Untuk mempertahankan tesis ini,
baik pilar konseptual evaluasi dan prinsip-prinsip dasar desain yang membentuk dasar
argumen itu dipertimbangkan, serta contoh-contoh evaluasi yang memenuhi kriteria
ini, termasuk evaluasi yang dirancang untuk mendukung proses evaluasi. belajar-
mengajar di kelas bersama dengan orang lain yang dirancang untuk menjelaskan
kemajuan sistem pendidikan.
Bagian I berfokus pada tantangan besar pendidikan abad ke-21 dan pada jenis
evaluasi yang diperlukan untuk mencapai tujuan pembelajaran yang relevan bagi
masyarakat secara keseluruhan. Bagian ini diakhiri dengan diskusi singkat tentang lima
karakteristik utama yang mendefinisikan komponen-komponen sistem evaluasi yang
mampu mengukur sepenuhnya tujuan atau standar berkualitas tinggi dan
mempromosikan evaluasi magang lebih dalam: (1) evaluasi kemampuan kognitif
tingkat tinggi, (2) penilaian kapasitas kesetiaan tinggi yang kritis, (3) standar dengan
titik referensi internasional, (4) penggunaan pertanyaan yang peka terhadap instruksi
dan berharga dari sudut pandang pendidikan, dan (5) evaluasi yang dapat diandalkan,
valid dan adil. Di bagian VI artikel ini, kita kembali ke lima karakteristik dan kriteria ini
untuk menilai apa yang telah dicapai. Menentukan jalur yang memungkinkan kita
untuk membuat sistem evaluasi untuk mencapai tujuan yang ditetapkan dalam sistem
pendidikan dan yang memenuhi kriteria di atas adalah tantangan nyata. Bagian II dan
III membahas beberapa masalah mendasar dan kerangka kerja konseptual yang
diperlukan untuk bergerak maju di jalur itu.
Bagian II menganalisis tujuan dan konteks evaluasi pendidikan untuk
menyediakan kerangka kerja untuk memahami mengapa berbagai jenis evaluasi
diperlukan dan apa fungsinya dalam sistem pendidikan. Pertanyaan sentral adalah
bahwa evaluasi tunggal tidak dapat digunakan untuk semuanya dan, oleh karena itu,
desain evaluasi harus mempertimbangkan fungsi yang harus dilakukan (mis., Formatif,
sumatif, evaluasi program) dan konteks menggunakan (misalnya, kelas individu
terhadap sekolah, daerah atau negara). Selanjutnya, bagian III m meneliti tiga
kerangka kerja konseptual yang terkait satu sama lain dan yang mendasar dalam
konseptualisasi dan desain setiap evaluasi: (a) evaluasi sebagai proses penalaran
berdasarkan bukti, (b) evaluasi dilakukan dari model pembelajaran yang dirumuskan
sebagai perkembangan pembelajaran, dan (c) penggunaan desain yang berpusat pada
bukti untuk merancang evaluasi dan menafsirkan hasilnya. Aspek kunci dari ketiga
kerangka kerja ini adalah bahwa desain dan penggunaan evaluasi harus berasal dari
konsepsi yang jelas tentang apa arti kompetensi dalam domain kurikuler tertentu dan
bagaimana kompetensi berubah dari waktu ke waktu berdasarkan proses belajar-
mengajar. Apa yang memandu desain dan penggunaan penilaian kinerja siswa adalah
teori, model, dan data empiris terbaik tentang sifat pengetahuan dan pembelajaran.
Bagian IV kembali ke implikasi materi yang dibahas dalam bagian sebelumnya
untuk desain evaluasi kelas dan juga dalam skala besar. Hal ini menunjukkan bahwa
siswa yang belajar biasanya menyatakan bahwa perlu untuk mengubah praktik
evaluasi di kelas untuk mendukung pembelajaran. Misalnya, konten dan jenis atau
sifat evaluasi harus ditingkatkan secara signifikan untuk mencerminkan kemajuan
terbaru dalam pembelajaran penelitian; Di sisi lain, mengingat apa yang sekarang
diketahui tentang perkembangan pembelajaran, pengetahuan ini serta pengumpulan
dan penggunaan informasi dari evaluasi harus menjadi bagian dari proses pelatihan
yang sedang berlangsung. Pertanyaan terakhir ini juga menyarankan bahwa program
yang dirancang untuk peserta pelatihan dan guru aktif harus membantu kedua
kelompok untuk mengetahui secara mendalam bagaimana menggunakan evaluasi
dalam proses pelatihan. Adapun program evaluasi skala besar, mereka sering tidak
perlu membatasi dan hanya mengukur apa yang mudah dinilai, dengan format yang
dirancang untuk meningkatkan efisiensi pengumpulan data dan penghematan biaya
dalam kaitannya dengan koreksi jawaban atas pertanyaan tes yang diberikan.
Sebaliknya, dikatakan bahwa evaluasi skala besar harus fokus pada aspek yang paling
penting dan kritis dari pembelajaran dalam domain pengetahuan, karena mereka telah
diidentifikasi dalam tujuan kurikuler dan didukung oleh teori dan penelitian kognitif.
Merancang penilaian baru yang menangkap kompleksitas kognisi dan pembelajaran
akan memerlukan memeriksa banyak asumsi dan nilai-nilai yang saat ini memandu
pilihan desain evaluasi dan juga
putus dengan paradigma saat ini dalam desain evaluasi skala besar untuk
mengeksplorasi cara-cara alternatif, termasuk penggunaan teknologi yang inovatif.
Bagian V mempertimbangkan komponen-komponen sistem evaluasi seimbang
yang mencakup evaluasi di kelas bersama dengan evaluasi yang digunakan oleh distrik
sekolah, wilayah dan negara untuk memantau. Dikatakan bahwa di negara-negara
seperti Amerika Serikat perlu untuk mencapai keseimbangan yang lebih baik antara
kelas dan evaluasi skala besar: daripada memiliki program evaluasi yang berbeda yang
melayani tujuan yang berbeda, perlu untuk mengoordinasikan sistem evaluasi yang
bekerja bersama-sama untuk mencapai seperangkat tujuan pengajaran dan
pembelajaran yang umum. Untuk ini, kata sistem evaluasi harus menunjukkan tiga
sifat, yang secara singkat dijelaskan: cakupan luas, koherensi dan kontinuitas. Dengan
cakupan luas dipahami bahwa berbagai metode pengukuran digunakan untuk
mendapatkan bukti yang berkontribusi dalam pengambilan keputusan di bidang
pendidikan. Koherensi berarti bahwa dalam sistem evaluasi model pembelajaran siswa
yang mendasari evaluasi kelas dan evaluasi eksternal yang berbeda harus kompatibel.
Kontinuitas berarti bahwa penilaian harus mengukur kemajuan siswa dari waktu ke
waktu, lebih sesuai dengan metafora rekaman video daripada dengan gambar diam
yang ditawarkan oleh sebagian besar tes.
Bagian VI kembali ke lima komponen sistem evaluasi yang diuraikan dalam
bagian I dan menyimpulkan dengan menjelaskan secara singkat indikator kualitas
utama yang harus diingat jika sistem evaluasi yang koheren akan dilaksanakan sebagai
bagian dari proses transformasi pendidikan di abad ke-21. Contoh pendidikan terkait
di tingkat negara, wilayah, provinsi, dll. mereka harus memeriksa sehubungan dengan
kriteria ini program evaluasi yang saat ini sedang berjalan atau yang mereka
rencanakan untuk desain. Mereka juga harus memastikan untuk menggunakan hasil
evaluasi mereka untuk tujuan yang telah divalidasi dengan benar. Cara melanjutkan
ini dapat berkontribusi pada evaluasi yang memiliki konsekuensi positif dalam
pengajaran dan pembelajaran siswa.
Mengubah evaluasi pendidikan dengan cara yang diusulkan membutuhkan
pendekatan sistemik yang mencakup banyak faktor, termasuk kemajuan dalam teori
kognitif dan penelitian dan aplikasi teknologi yang dikombinasikan dengan investasi
dalam pelatihan guru dan perubahan yang bersamaan dalam kebijakan pendidikan.
Otoritas pendidikan di semua tingkatan (regional, nasional, ...) harus mempromosikan
transformasi yang sangat dibutuhkan dari praktik evaluasi saat ini. Satu pertanyaan
yang tetap mengemuka di antara mereka adalah apakah mereka mempertimbangkan
apakah pendekatan sistemik seperti itu dapat dicapai di tingkat nasional dan
internasional.