Penilaian sering dilihat oleh individu di kedua praktik pendidikan dan komunitas
penelitian sebagai pengaruh negatif pada pengajaran dan pembelajaran, terutama
ketika taruhan tinggi melekat pada hasil nilai tes (Kaestle, 2013; Linn, 2013). Makalah ini berpendapat bahwa ketika penilaian dipahami, dirancang, dan diterapkan dengan benar, itu dapat berfungsi sebagai pengaruh positif pada pencapaian tujuan pembelajaran yang kita miliki untuk siswa di abad ke-21. Untuk membuat argumen saya mengacu pada laporan yang dikeluarkan oleh National Research Council (NRC) AS yang berjudul “Mengetahui Apa yang Siswa Ketahui: Ilmu Pengetahuan dan Desain Penilaian Pendidikan ”(Pellegrino, Chudowsky, & Glaser, 2001), serta beberapa laporan terbaru yang menguraikan poin-poin yang dibuat dalam laporan NRC 2001. Laporan terbaru ini fokus pada masalah desain dan penggunaan penilaian pendidikan mengingat konteks saat ini perubahan besar dalam standar pembelajaran disiplin di Amerika Serikat (misalnya, Darling-Hammond et al., 2013; Komisi Gordon, 2013a, 2013b; Pellegrino, Wilson, Koenig, & Beatty, 2014). Sementara banyak argumen saya diilustrasikan dengan menggambar pada konteks pendidikan A.S. saat ini, mereka berlaku untuk sistem pendidikan mana pun di mana penggunaan penilaian berkisar di seluruh tingkatan dari ruang kelas ke distrik, negara bagian, nasional atau internasional. konteks. Di Bagian I, fokusnya adalah pada tantangan yang lebih luas di abad ke-21 pendidikan dan jenis penilaian yang perlu kita dukung pencapaian tujuan pembelajaran yang relevan dengan masyarakat global. Bagian ini diakhiri dengan diskusi singkat tentang lima elemen sistem penilaian yang dapat mendukung evaluasi tersebut lebih dalam belajar. Bagian II memperkenalkan tujuan dan konteks penilaian pendidikan dan kemudian Bagian III membahas tiga terkait kerangka kerja konseptual: (a) penilaian sebagai proses penalaran dari bukti, (b) penilaian didorong oleh model pembelajaran dinyatakan sebagai perkembangan pembelajaran, dan (c) penggunaan bukti yang dipusatkan proses desain untuk mengembangkan dan menafsirkan penilaian. Bagian IV beralih ke implikasi materi dalam Bagian III untuk penilaian kelas dan penilaian skala besar. Bagian V kemudian mempertimbangkan elemen sistem penilaian yang seimbang dan Bagian VI kembali ke lima elemen sistem penilaian dibahas dalam Bagian I dan ditutup dengan menjelaskan secara singkat indikator-indikator utama kualitas yang harus kita pertahankan saat kita berupaya menerapkan sistem penilaian yang koheren sebagai bagian dari proses transformasi pendidikan di abad ke-21. I. Tantangan Pendidikan Sebelum Kita Sifat pekerjaan dan masyarakat yang berubah berarti premium di dunia saat ini tidak hanya pada informasi yang diperoleh siswa, tetapi pada kemampuan mereka untuk menganalisis, mensintesis, dan menerapkan apa yang mereka miliki belajar untuk mengatasi masalah baru, merancang solusi, berkolaborasi secara efektif, dan berkomunikasi secara persuasif (lihat mis., Bereiter & Scardamalia, 2013; Pellegrino & Hilton, 2012). Di Amerika Serikat, pembuat kebijakan di hampir setiap negara bagian telah mengadopsi standar baru dimaksudkan untuk memastikan bahwa semua siswa lulus dari sekolah menengah siap untuk kuliah dan karier. Untuk mencapai tujuan itu diperlukan sebuah transformasi dalam pengajaran, pembelajaran, dan penilaian sehingga semuanya siswa mengembangkan kompetensi belajar yang lebih dalam diperlukan untuk keberhasilan postsecondary. Transformasi ini akan membutuhkan perbaikan dalam kurikulum dan sistem penilaian untuk mendukung kompetensi belajar yang lebih dalam. Kementerian pendidikan sekitar dunia telah mendesain ulang kurikulum dan sistem penilaian untuk menekankan keterampilan ini. Misalnya, saat Singapura bersiap untuk memperbaiki sistem asesmennya, kemudian Menteri Pendidikan, Tharman Shanmugaratnam, mencatat (Ng, 2008): [Kita perlu] lebih sedikit ketergantungan pada hafalan, tes berulang dan tipe 'satu ukuran cocok untuk semua', dan lebih banyak lagi tentang pembelajaran yang melibatkan, penemuan melalui pengalaman, pengajaran yang berbeda, pembelajaran keterampilan seumur hidup, dan pembangunan karakter, sehingga siswa dapat ... kembangkan atribut, pola pikir, karakter, dan nilai-nilai untuk masa depan keberhasilan. Reformasi di Singapura, seperti di Selandia Baru, Hong Kong, sejumlah negara bagian Australia dan provinsi Kanada, dan pencapaian tinggi lainnya yurisdiksi telah diperkenalkan semakin ambisius penilaian kinerja yang mengharuskan siswa untuk menemukan, mengevaluasi, dan menggunakan informasi daripada hanya mengingat fakta. Selain itu, ini penilaian - yang meminta siswa untuk merancang dan melakukan investigasi, menganalisis data, menarik kesimpulan yang valid, dan melaporkan temuan - sering meminta siswa untuk menunjukkan apa yang mereka miliki tahu dalam investigasi yang menghasilkan tulisan canggih, lisan, produk matematika, fisik, dan multimedia (Darling- Hammond & Adamson (2010) (Lihat Lampiran untuk contoh). Ini penilaian, bersama dengan investasi lain dalam kurikulum yang bijaksana, pengajaran berkualitas tinggi, dan sekolah yang didanai secara adil, misalnya, tampaknya berkontribusi pada prestasi tinggi mereka (Darling-Hammond, 2010). Amerika Serikat siap untuk mengambil langkah besar ke arah kurikulum dan penilaian untuk jenis pembelajaran yang lebih mendalam dengan adopsi Standar Negara Inti Umum yang baru (CCSSI, 2010a, 2010b) dan Standar Sains Generasi Selanjutnya (Achieve, 2013). Ini standar dimaksudkan untuk menjadi "lebih sedikit, lebih tinggi, dan lebih dalam" daripada iterasi standar sebelumnya, yang telah dikritik karena "satu mil lebar dan satu inci dalam". Mereka bertujuan untuk memastikan bahwa siswa siap untuk kuliah dan karier dengan pengetahuan yang lebih dalam dan banyak lagi keterampilan yang dapat ditransfer dalam disiplin ilmu ini, termasuk kemampuan membaca dan dengarkan secara kritis untuk memahami, menulis dan berbicara dengan jelas dan persuasif, dengan mengacu pada bukti, dan untuk menghitung dan berkomunikasi secara matematis, alasan secara kuantitatif dan secara ilmiah, dan desain solusi untuk masalah kompleks. Standar Inti Umum dalam seni bahasa Inggris dan matematika, dan Standar Sains Generasi Selanjutnya akan membutuhkan pendekatan yang lebih terintegrasi untuk menyampaikan instruksi konten semua bidang studi (Pellegrino & Hilton, 2012). Inti Bersama standar dalam seni bahasa Inggris ditulis untuk memasukkan pengembangan membaca kritis, menulis, berbicara, dan mendengarkan keterampilan dalam sejarah, sains, matematika, dan seni serta dalam Kelas bahasa Inggris. Standar Inti Umum dalam matematika adalah ditulis untuk memasukkan penggunaan keterampilan dan konsep matematika dalam Bahasa Indonesia bidang-bidang seperti sains, teknologi, dan teknik. Standar-standar ini menekankan cara dimana siswa harus menggunakan melek huruf dan keterampilan berhitung di seluruh kurikulum dan dalam kehidupan. Sebagai negara berusaha untuk menerapkan standar-standar ini, mereka juga harus memeriksa bagaimana mereka penilaian mendukung dan mengevaluasi keterampilan ini dan menciptakan insentif bagi mereka untuk diajarkan dengan baik. Di Amerika Serikat, dua konsorsium negara bagian - Kemitraan untuk Penilaian Kesiapan untuk Perguruan Tinggi dan Karier (PARCC) dan Konsorsium Penilaian Seimbang yang Lebih Cerdas (SBAC) – telah dibentuk untuk mengembangkan penilaian generasi berikutnya dari standar-standar ini. Ini adalah bagian dari berbagai inisiatif untuk memikirkan kembali penilaian itu menemani reformasi pendidikan yang didorong oleh standar disiplin. Dengan demikian, sudah saatnya mempertimbangkan fitur apa saja yang berkualitas tinggi sistem penilaian yang memenuhi tujuan baru ini harus mencakup. Itu Laporan Komisi Gordon 2013, ditulis oleh banyak pemimpin ahli dalam kurikulum, pengajaran, dan penilaian, paling banyak dijelaskan tujuan kritis dengan cara ini: Untuk membantu dalam mencapai tujuan pembelajaran yang ditetapkan dalam Inti umum, penilaian harus sepenuhnya mewakili kompetensi bahwa tuntutan dunia yang semakin kompleks dan terus berubah. Itu penilaian terbaik dapat mempercepat perolehan kompetensi ini jika mereka membimbing tindakan guru dan memungkinkan siswa untuk mengukur kemajuan mereka. Untuk melakukannya, tugas dan kegiatan dalam penilaian hrus menjadi model yang layak mendapat perhatian dan energi dari guru dan siswa. Komisi meminta pembuat kebijakan di semua tingkatan untuk secara aktif mempromosikan transformasi yang sangat dibutuhkan ini saat ini praktik penilaian ... Sistem penilaian [harus] kuat cukup untuk mendorong perubahan instruksional yang diperlukan untuk memenuhi standar ... dan memberikan bukti bahwa pembelajaran siswa bermanfaat bagi guru. Penilaian baru harus memajukan kompetensi yang cocok ke era di mana kita hidup. Siswa kontemporer harus mampu mengevaluasi validitas dan relevansi informasi yang berbeda dan menarik kesimpulan dari mereka. Mereka perlu menggunakan apa yang mereka ketahui untuk membuat dugaan dan mencari bukti untuk mengujinya, datang dengan ide-ide baru, dan berkontribusi secara produktif ke jaringan mereka, apakah di tempat kerja atau di komunitas mereka. Seiring dunia tumbuh semakin kompleks dan saling berhubungan, orang harus bisa mengenali pola, membuat perbandingan, menyelesaikan kontradiksi, dan memahami sebab dan akibat. Mereka perlu belajar untuk merasa nyaman dengannya ambiguitas dan mengakui bahwa perspektif membentuk informasi dan makna yang kita tarik darinya. Pada tingkat paling umum, the Penekanan dalam sistem pendidikan kita perlu pada membantu individu masuk akal dari dunia dan bagaimana cara beroperasi efektif di dalamnya. Akhirnya, penting juga untuk melakukan penilaian lebih dari mendokumentasikan kemampuan siswa dan apa yang mereka miliki tahu. Agar bermanfaat, penilaian harus memberikan petunjuk mengapa siswa memikirkan cara mereka melakukan dan bagaimana mereka belajar serta alasan untuk kesalahpahaman (Komisi Gordon, 2013b). Tidak ada penilaian tunggal yang dapat mengevaluasi semua jenis pembelajaran yang kita nilai bagi siswa; instrumen tunggal tidak dapat memenuhi semua tujuan dipegang oleh orang tua, praktisi, dan pembuat kebijakan. Seperti yang diperdebatkan di bawah, itu Penting untuk membayangkan sistem penilaian terkoordinasi, di Indonesia alat yang berbeda digunakan untuk tujuan yang berbeda - misalnya, pelaporan formatif dan sumatif, diagnostik vs skala besar. Namun, dalam sistem seperti itu, semua penilaian harus dilakukan dengan setia mewakili Standar, dan semua harus memodelkan pengajaran yang baik dan praktik belajar. Setidaknya lima fitur utama menentukan elemen penilaian sistem yang dapat sepenuhnya mengukur standar kualitas tinggi seperti Standar Negara Inti Umum dan Ilmu Generasi Selanjutnya Standar dan dukung evaluasi pembelajaran yang lebih dalam (lihat Darling-Hammond et al. (2013) untuk penjabaran relevansi, makna dan fitur yang menonjol dari masing-masing dari lima kriteria ini): 1. Penilaian Keterampilan Kognitif Tingkat Tinggi: Sebagian besar tugas pertemuan siswa harus memanfaatkan jenis keterampilan kognitif yang dimiliki telah ditandai sebagai "tingkat yang lebih tinggi" - keterampilan yang mendukung dapat ditransfer belajar, daripada hanya menekankan keterampilan yang memanfaatkan pembelajaran hafalan dan penggunaan prosedur dasar. Meskipun ada tempat yang diperlukan untuk keterampilan dasar dan pengetahuan prosedural, itu harus seimbang dengan memperhatikan pemikiran kritis dan aplikasi pengetahuan untuk yang baru konteks. 2. Penilaian Kesetiaan Tinggi atas Kemampuan Kritis: Selain konsep pokok materi pelajaran, penilaian harus mencakup yang kritis kemampuan yang diartikulasikan dalam standar, seperti komunikasi (berbicara, membaca, menulis, dan mendengarkan dalam bentuk multi-media), kolaborasi, pemodelan, pemecahan masalah yang kompleks, dan penelitian. Tugas harus mengukur kemampuan ini secara langsung karena akan digunakan dalam dunia nyata, bukan melalui proxy jarak jauh. 3. Standar yang Dibandingkan Secara Internasional: Dalam hal konten dan standar kinerja, penilaian harus sama ketat seperti negara - negara pendidikan terkemuka, dalam hal jenis konten dan tugas yang mereka sajikan serta tingkat kinerja yang mereka harapkan. 4. Penggunaan Item yang Instruksi Sensitif dan Mendidik Berharga: Tugas-tugas harus dirancang sedemikian rupa sehingga mendasari konsep dapat diajarkan dan dipelajari, membedakan antara siswa yang telah diajarkan dengan baik atau buruk, alih-alih mencerminkan siswa ' akses diferensial ke pengalaman di luar sekolah (sering kali terkait dengan status sosial ekonomi atau konteks budaya mereka) atau tergantung pada interpretasi rumit yang sebagian besar mencerminkan ujian keterampilan. Mempersiapkan (dan terkadang melibatkan) penilaian harus melibatkan siswa dalam kegiatan yang bernilai pengajaran, dan hasil dari tes harus memberikan instruksi bermanfaat informasi. 5. Penilaian yang Valid, Andal, dan Adil: Agar bisa benar-benar valid untuk beragam pelajar, penilaian harus diukur baik apa yang mereka maksudkan untuk diukur, akurat dalam mengevaluasi kemampuan siswa dan melakukannya dengan andal di seluruh konteks pengujian dan pencetak gol. Mereka juga harus tidak bias dan dapat diakses dan digunakan di cara yang mendukung hasil positif bagi siswa dan pengajaran kualitas. Satu tantangan besar adalah menentukan jalan ke depan kita dapat membuat sistem penilaian yang memenuhi tujuan yang kita miliki untuk sistem pendidikan dan yang sesuai dengan kriteria diuraikan di atas. Dalam apa yang berikut, kami mempertimbangkan konteks penilaian pendidikan, dasar-dasar konseptual dari penilaian, dan proses desain yang berprinsip dasar untuk mencapai sistem penilaian yang memenuhi kriteria yang diuraikan di atas. Ini termasuk penilaian yang dirancang untuk mendukung pengajaran dan pembelajaran di kelas serta yang dirancang untuk memantau kemajuan dalam sistem pendidikan.
II Penilaian Pendidikan dalam Konteks
Tujuan dan Konteks Penilaian Dari kuis guru, ujian tengah semester, atau ujian akhir hingga tes standar yang dikelola secara nasional dan internasional, penilaian pengetahuan dan keterampilan siswa telah menjadi bagian mana-mana dari lanskap pendidikan. Penilaian sekolah belajar memberikan informasi untuk membantu pendidik, administrator, pembuat kebijakan, siswa, orang tua, dan peneliti menilai keadaan siswa belajar dan membuat keputusan tentang implikasi dan tindakan. Tujuan khusus untuk mana penilaian akan digunakan adalah pertimbangan penting dalam semua fase desainnya. Sebagai contoh, penilaian digunakan oleh instruktur di ruang kelas untuk membantu atau memantau belajar biasanya perlu memberikan informasi lebih rinci daripada penilaian yang hasilnya akan digunakan oleh pembuat kebijakan atau lembaga akreditasi. Salah satu poin utama dari Knowing What Laporan Siswa Tahu adalah bahwa penilaian dikembangkan untuk tujuan khusus dan sifat desainnya sangat banyak dibatasi oleh penggunaan interpretif yang dimaksudkan. Penilaian untuk membantu pembelajaran. Dalam konteks kelas, instruktur menggunakan berbagai bentuk penilaian untuk menginformasikan sehari-hari dan keputusan bulan ke bulan tentang langkah selanjutnya untuk instruksi, untuk beri siswa umpan balik tentang kemajuan mereka, dan untuk memotivasi siswa. Salah satu jenis penilaian kelas yang akrab adalah buatan guru kuis, tetapi penilaian juga mencakup lebih banyak metode informal untuk menentukan bagaimana siswa mengalami kemajuan dalam pembelajaran mereka, seperti proyek kelas, umpan balik dari instruksi yang dibantu komputer, observasi kelas, pekerjaan tertulis, pekerjaan rumah, dan percakapan dengan dan di antara siswa - semua ditafsirkan oleh guru dalam terang informasi tambahan tentang siswa, konteks sekolah, dan konten yang dipelajari. Situasi ini disebut sebagai penilaian untuk membantu pembelajaran, atau penggunaan formatif dari penilaian (lihat mis., Black & Wiliam, 1998; Wiliam, 2007). Penilaian ini memberikan informasi spesifik tentang kekuatan dan kesulitan siswa dalam belajar. Sebagai contoh, statistik guru perlu tahu lebih dari fakta bahwa seorang siswa tidak mengerti probabilitas; mereka perlu tahu detailnya kesalahpahaman ini, seperti kecenderungan siswa untuk bingung probabilitas bersyarat dan gabungan. Guru dapat menggunakan informasi dari jenis penilaian ini untuk menyesuaikan instruksi mereka untuk bertemu kebutuhan siswa, yang mungkin sulit diantisipasi dan kemungkinan akan terjadi bervariasi dari satu siswa ke siswa lainnya. Siswa dapat menggunakan informasi ini untuk menentukan keterampilan dan pengetahuan mana yang perlu mereka pelajari lebih lanjut dan penyesuaian apa dalam pemikiran mereka yang perlu mereka buat. Penilaian prestasi individu. Tipe lain dari penilaian yang digunakan untuk membuat keputusan tentang individu adalah itu dilakukan untuk membantu menentukan apakah seorang siswa telah mencapai a tingkat kompetensi tertentu setelah menyelesaikan fase tertentu pendidikan, baik itu unit kurikuler dua minggu, kursus semester-panjang, atau 12 tahun bersekolah. Ini disebut sebagai penilaian individu prestasi, atau penggunaan penilaian sumatif. Beberapa yang paling bentuk penilaian sumatif yang lazim adalah yang digunakan oleh kelas instruktur, seperti tes akhir unit atau akhir kursus, yang sering digunakan untuk menetapkan nilai huruf saat kursus selesai. Skala besar penilaian - yang dikelola atas arahan pengguna eksternal ke kelas - juga memberikan informasi tentang pencapaian individu siswa, serta informasi komparatif tentang bagaimana kinerja seseorang relatif terhadap orang lain. Karena berskala besar penilaian biasanya diberikan hanya setahun sekali dan melibatkan a jeda waktu antara pengujian dan ketersediaan hasil, hasilnya jarang memberikan informasi yang dapat digunakan untuk membantu guru atau para siswa membuat keputusan sehari-hari atau bulan-ke-bulan mengajar dan belajar. Penilaian untuk mengevaluasi program. Tujuan umum lain dari penilaian adalah untuk membantu administrator, pembuat kebijakan atau peneliti merumuskan penilaian tentang kualitas dan efektivitas program dan lembaga pendidikan. Evaluasi instruksional dapat dianggap formatif di alam ketika digunakan untuk meningkatkan efektivitas pengajaran. Penggunaan penilaian sumatif untuk evaluasi semakin digabungkan dalam membuat taruhan besar keputusan tidak hanya tentang individu, tetapi juga tentang program dan institusi (mis., Linn, 2013). Misalnya, pelaporan publik negara hasil penilaian oleh sekolah dan kabupaten / kota dapat mempengaruhi penilaian orang tua dan pembayar pajak tentang kualitas dan kemanjuran mereka sekolah dan memengaruhi keputusan tentang alokasi sumber daya. Sama seperti dengan individu, kualitas ukuran sangat penting dalam validitas keputusan ini. Pertimbangan Lebih Lanjut tentang Tujuan, Level, dan Skala Waktu Seperti disebutkan di atas, penilaian terjadi dalam berbagai konteks, memiliki a berbagai penggunaan formal dan informal, dan dilakukan untuk memenuhi tujuan yang berbeda. Tujuan dari suatu penilaian menentukan prioritas, dan konteks penggunaan menimbulkan kendala pada desain. Karena itu, penting untuk mengetahui bahwa satu jenis penilaian tidak cocok untuk semua tujuan atau konteks penggunaan. Secara umum, semakin banyak tujuan a penilaian tunggal bertujuan untuk melayani, semakin banyak tujuan masing-masing dikompromikan dan produk keseluruhan akan mewakili sub-optimal desain untuk setiap penggunaan yang dimaksudkan. Kesalahan yang terus-menerus adalah menganggapnya penilaian sesuai dan dapat ditafsirkan untuk hal tertentu konteks penggunaan tanpa menentukan apakah ada bukti mengenai validitas asumsi semacam itu dalam konteks itu. Satu ukuran cocok untuk semua kekeliruan sangat sering dan bermasalah sejak itu menghasilkan pilihan penilaian yang tidak tepat untuk pengajaran atau penelitian tujuan yang pada gilirannya dapat menyebabkan kesimpulan yang salah tentang orang, program, dan / atau lembaga. Meskipun penilaian saat ini digunakan untuk berbagai keperluan di sistem pendidikan, premis dari Knowing What Students Tahu laporan adalah bahwa keefektifan dan kegunaan mereka harus pada akhirnya dinilai oleh sejauh mana mereka mempromosikan pembelajaran siswa. Itu Tujuan penilaian harus “untuk mendidik dan meningkatkan siswa kinerja, bukan hanya untuk mengauditnya ”(Wiggins, 1998, p.7). Karena penilaian dikembangkan untuk tujuan khusus, sifatnya desain sangat dibatasi oleh tujuan penggunaannya. Meskipun mungkin tampaknya masuk akal untuk mendikotomi antara kelas internal penilaian, dikelola oleh instruktur, dan tes eksternal, dikelola oleh distrik, negara bagian, atau negara atau lembaga lain, seperti dikotomi adalah penyederhanaan berlebihan dari sebuah kontinum yang mencerminkan kedekatan penilaian dengan diberlakukannya pembelajaran khusus dan kegiatan belajar. Ruiz-Primo, Shavelson, Hamilton, & Klein (2002) mendefinisikan lima titik diskrit pada rangkaian penilaian jarak: langsung (mis., pengamatan atau artefak dari berlakunya aktivitas instruksional tertentu), tutup (mis., disematkan penilaian dan kuis belajar semiformal dari satu atau lebih kegiatan), proksimal (mis., ujian kelas formal belajar dari a kurikulum spesifik), distal (mis., pencapaian yang dirujuk kriteria) tes seperti yang disyaratkan oleh undang-undang federal No Child Left Behind), dan jarak jauh (hasil yang lebih luas diukur dari waktu ke waktu, termasuk norma yang direferensikan tes prestasi dan beberapa nasional dan internasional ukuran pencapaian). Penilaian yang berbeda harus dipahami sebagai titik berbeda pada kontinum ini jika mereka ingin efektif selaras satu sama lain dan dengan kurikulum dan instruksi. Di Intinya, penilaian adalah ujian transfer dan bisa dekat atau jauh transfer tergantung di mana penilaian berada di sepanjang kontinum yang disebutkan di atas. Tingkat di mana penilaian dimaksudkan untuk berfungsi, yang melibatkan jarak yang bervariasi dalam "ruang dan waktu" dari berlakunya pengajaran dan pembelajaran, memiliki implikasi untuk bagaimana dan seberapa baik itu dapat memenuhi berbagai fungsi penilaian, baik itu formatif, sumatif, atau evaluasi program (NRC, 2003). Seperti yang diperdebatkan di tempat lain (Hickey & Pellegrino, 2005; Pellegrino & Hickey, 2006), juga merupakan jika tingkat dan fungsi penilaian yang berbeda dapat miliki berbagai tingkat kecocokan dengan sikap teoretis tentang alam mengetahui dan belajar. Meskipun penilaian digunakan dalam berbagai konteks, untuk perbedaan tujuan, dan pada rentang waktu yang berbeda sering terlihat sangat berbeda, mereka berbagi prinsip umum tertentu. Salah satu prinsip tersebut adalah itu penilaian selalu merupakan proses penalaran dari bukti. Dengan itu bahkan sifatnya, penilaiannya tidak tepat sampai batas tertentu. Hasil penilaian hanya perkiraan dari apa yang diketahui dan diketahui seseorang bisa lakukan. Kami menguraikan kedua masalah ini dalam dua berikut bagian.
III. Kerangka Kerja Konseptual
Penilaian sebagai Proses Penalaran Evidentiary: Penilaian Segi tiga Pendidik menilai siswa untuk belajar tentang apa yang mereka ketahui dan bisa lakukan, tetapi penilaian tidak menawarkan jalur pipa langsung ke siswa pikiran. Menilai hasil pendidikan tidak semudah seperti mengukur tinggi atau berat; atribut yang diukur adalah representasi mental dan proses yang tidak terlihat secara lahiriah. Dengan demikian, penilaian adalah alat yang dirancang untuk mengamati perilaku siswa dan menghasilkan data yang dapat digunakan untuk menarik kesimpulan yang masuk akal tentang apa yang siswa ketahui. Memutuskan apa yang akan dinilai dan bagaimana melakukannya jadi tidak sesederhana yang mungkin muncul. Proses pengumpulan bukti untuk mendukung kesimpulan tentang apa yang siswa ketahui merupakan rantai penalaran dari bukti tentang pembelajaran siswa yang menjadi ciri semua penilaian, dari kuis kelas dan tes prestasi standar, untuk program bimbingan terkomputerisasi, untuk percakapan yang dilakukan siswa dengan gurunya saat mereka bekerja melalui masalah matematika atau mendiskusikan arti suatu teks. Orang beralasan dari bukti setiap hari tentang apa pun sejumlah keputusan, kecil dan besar. Ketika meninggalkan rumah di pagi, misalnya, seseorang tidak tahu dengan pasti bahwa itu benar akan hujan, tetapi mungkin memutuskan untuk mengambil payung di dasar bukti seperti laporan cuaca pagi dan awan yang mengancam di langit. Pertanyaan pertama dalam proses penalaran penilaian adalah “bukti tentang apa? ”Data menjadi bukti hanya dalam masalah analitik ketika seseorang telah menetapkan relevansinya dengan suatu dugaan dipertimbangkan (Schum, 1987, hlm. 16). Data tidak menyediakan sendiri berarti; nilai mereka sebagai bukti hanya dapat muncul melalui beberapa kerangka kerja interpretasi. Apa yang dirasakan seseorang secara visual misalnya, tidak hanya bergantung pada data yang diterimanya sebagai foton Cahaya menyentakkan retina-retinanya, tetapi juga pada apa yang menurutnya akan dilihatnya. Dalam konteks saat ini, penilaian pendidikan menyediakan data seperti esai tertulis, tanda pada lembar jawaban, presentasi proyek, atau penjelasan siswa tentang solusi masalah mereka. Data ini menjadi bukti hanya berkenaan dengan dugaan tentang bagaimana siswa memperoleh pengetahuan dan keterampilan. Dalam Mengetahui Apa yang Siswa Ketahui melaporkan proses alasan dari bukti digambarkan sebagai tiga serangkai elemen yang saling berhubungan: segitiga penilaian. Simpul dari segitiga penilaian (lihat Gambar 1) mewakili tiga kunci elemen yang mendasari setiap penilaian: model kognisi siswa dan belajar di bidang penilaian; seperangkat asumsi dan prinsip-prinsip tentang jenis pengamatan yang akan diberikan bukti kompetensi siswa; dan proses interpretasi untuk memahami bukti sehubungan dengan tujuan penilaian dan pemahaman siswa. Ketiga elemen ini mungkin eksplisit atau tersirat, tetapi penilaian tidak dapat dirancang dan diimplementasikan, atau dievaluasi, tanpa pertimbangan masing-masing. Ketiganya terwakili sebagai simpul segitiga karena masing-masing terhubung ke dan tergantung pada dua lainnya. Prinsip utama dari Knowing What Students Know laporannya adalah agar penilaian efektif dan valid, ketiga elemen harus sinkron. Segitiga penilaian menyediakan kerangka kerja yang berguna untuk menganalisis dasar-dasar saat ini penilaian untuk menentukan seberapa baik mereka mencapai tujuan kita ada dalam pikiran, serta untuk merancang penilaian masa depan dan menetapkan validitas (mis., lihat Marion & Pellegrino, 2006). Sudut kognisi segitiga mengacu pada teori, data, dan seperangkat asumsi tentang bagaimana siswa mewakili pengetahuan dan mengembangkan kompetensi dalam domain materi pelajaran (mis., pecahan, Hukum Newton, termodinamika). Dalam penilaian tertentu aplikasi, teori belajar dalam domain diperlukan untuk mengidentifikasi seperangkat pengetahuan dan keterampilan yang penting untuk diukur untuk konteks penggunaan yang dimaksudkan, apakah itu untuk menandai kompetensi yang telah diperoleh siswa pada suatu saat untuk dibuat penilaian sumatif, atau membuat penilaian formatif untuk membimbing instruksi selanjutnya untuk memaksimalkan pembelajaran. Premis sentral adalah bahwa teori kognitif harus mewakili yang paling ilmiah pemahaman kredibel tentang cara-cara khas yang diwakili peserta didik pengetahuan dan mengembangkan keahlian dalam suatu domain. Setiap penilaian juga didasarkan pada serangkaian asumsi dan prinsip tentang jenis tugas atau situasi yang akan ditanyakan siswa mengatakan, melakukan, atau menciptakan sesuatu yang menunjukkan penting pengetahuan dan kemampuan. Tugas-tugas yang diminta siswa menanggapi penilaian tidak sewenang-wenang. Mereka harus hati-hati dirancang untuk memberikan bukti yang terkait dengan model kognitif belajar dan mendukung jenis kesimpulan dan keputusan itu akan dibuat berdasarkan hasil penilaian. Pengamatan simpul dari segitiga penilaian mewakili deskripsi atau set spesifikasi untuk tugas penilaian yang akan menghasilkan penerangan tanggapan dari siswa. Dalam penilaian, seseorang memiliki kesempatan untuk susun beberapa sudut kecil dunia untuk melakukan pengamatan. Itu desainer penilaian dapat menggunakan kemampuan ini untuk memaksimalkan nilai data dikumpulkan, seperti yang terlihat melalui lensa yang mendasarinya asumsi tentang bagaimana siswa belajar di domain. Setiap penilaian juga didasarkan pada asumsi dan model untuk menafsirkan bukti yang dikumpulkan dari pengamatan. Vertex interpretasi segitiga mencakup semua metode dan alat yang digunakan untuk alasan dari pengamatan yang salah. Saya mengungkapkan bagaimana pengamatan berasal dari serangkaian penilaian tugas merupakan bukti tentang pengetahuan dan keterampilan yang ada dinilai. Dalam konteks penilaian skala besar, interpretasi Metode biasanya model statistik, yang merupakan karakterisasi atau ringkasan pola-pola yang akan dilihat seseorang dalam data yang diberikan berbagai tingkat kompetensi siswa. Dalam konteks ruang kelas penilaian, interpretasi sering dibuat kurang formal oleh guru, dan seringkali didasarkan pada model intuitif atau kualitatif daripada statistik formal. Bahkan secara informal guru membuat penilaian terkoordinasi tentang aspek apa dari siswa 'Pemahaman dan pembelajaran itu relevan, bagaimana seorang siswa melakukan satu atau lebih tugas, dan apa arti pertunjukan tentang pengetahuan dan pemahaman siswa. Poin penting adalah bahwa masing-masing dari ketiga elemen penilaian segitiga tidak hanya harus masuk akal sendiri, tetapi juga harus terhubung untuk masing- masing dari dua elemen lainnya dengan cara yang bermakna untuk mengarah pada penilaian yang efektif dan kesimpulan yang baik. Jadi, untuk memiliki yang efektif penilaian, ketiga simpul segitiga harus bekerja sama dalam sinkroni. Inti dari keseluruhan proses ini adalah teori dan data tentang bagaimana siswa belajar dan apa yang siswa ketahui saat mereka kembangkan kompetensi untuk aspek-aspek penting dari kurikulum.
Pembelajaran Khusus Domain: Konsep Kemajuan Pembelajaran
Sebagaimana dikemukakan di atas, target inferensi untuk setiap penilaian yang diberikan harus banyak ditentukan oleh model kognisi dan pembelajaran yang menggambarkan bagaimana orang mewakili pengetahuan dan berkembang kompetensi dalam bidang minat (unsur kognisi dari segitiga penilaian) dan apa saja elemen penting dari hal tersebut kompetensi seperti bagaimana pengetahuan diorganisasikan, dll. Dimulai dengan model pembelajaran adalah salah satu fitur utama yang membedakan pendekatan yang diusulkan untuk desain penilaian dari arus khas pendekatan. Model ini menyarankan aspek terpenting dari prestasi siswa tentang yang mana yang ingin digambar kesimpulan, dan memberikan petunjuk tentang jenis tugas penilaian yang akan memperoleh bukti untuk mendukung kesimpulan tersebut (lihat juga Pellegrino et al., 2001; Pellegrino, Baxter, & Glaser, 1999). Konsisten dengan ide-ide ini, ada dorongan baru-baru ini minat pada topik "kemajuan belajar" (lihat Duschl, Schweingruber, & Shouse, 2007; Dewan Penelitian Nasional, 2012; Wilson & Bertenthal, 2006). Berbagai definisi pembelajaran perkembangan (juga disebut lintasan pembelajaran) sekarang ada di Internet literatur, dengan perbedaan substansial dalam fokus dan niat (lihat mis., Alonzo & Gotwals, 2012; Corcoran, Mosher, & Rogat, 2009; Daro, Mosher, Corcoran, Barrett, & Konsorsium untuk Penelitian Kebijakan di Indonesia Pendidikan, 2011; Duncan & Hmelo-Silver, 2009). Belajar perkembangan adalah hipotesis empiris dan dapat diuji tentang bagaimana pemahaman siswa, dan kemampuan untuk menggunakan, inti konsep dan penjelasan serta praktik disiplin terkait tumbuh dan menjadi lebih canggih dari waktu ke waktu, dengan tepat instruksi (Duschl et al., 2007). Hipotesis ini menggambarkan jalur yang cenderung diikuti oleh siswa saat mereka menguasai konsep inti. Lintasan pembelajaran yang dihipotesiskan diuji secara empiris memastikan validitas konstruk mereka (Apakah urutan hipotesis menggambarkan sebuah jalan yang benar-benar dialami oleh para siswa yang diberikan instruksi?) dan pada akhirnya untuk menilai validitas konsekuensial mereka (Apakah pengajaran berdasarkan perkembangan pembelajaran menghasilkan lebih baik hasil untuk sebagian besar siswa?). Ketergantungan pada bukti empiris membedakan lintasan pembelajaran dari lingkup topikal tradisional dan spesifikasi urutan. Lingkup topik dan deskripsi urutannya adalah biasanya hanya didasarkan pada analisis logis dari disiplin saat ini pengetahuan dan pengalaman pribadi dalam mengajar. Setiap perkembangan belajar yang dihipotesiskan memiliki implikasi untuk penilaian, karena penilaian efektif harus diselaraskan model kognitif beralasan secara empiris. Model pembelajaran perkembangan harus mengandung setidaknya unsur- unsur berikut: 1. Targetkan pertunjukan atau tujuan pembelajaran yang merupakan tujuan poin dari perkembangan pembelajaran dan didefinisikan oleh masyarakat harapan, analisis disiplin, dan / atau persyaratan untuk masuk ke tingkat pendidikan berikutnya. 2. Variabel kemajuan yang merupakan dimensi pemahaman, aplikasi, dan praktik yang sedang dikembangkan dan dilacak waktu. Ini mungkin konsep inti dalam disiplin atau praktik pusat karya sastra, ilmiah atau matematika. 3. Tingkat pencapaian yang merupakan langkah menengah dalam jalur perkembangan yang dilacak oleh perkembangan pembelajaran. level ini mungkin mencerminkan level integrasi atau tahapan umum itu mencirikan perkembangan pemikiran siswa. Mungkin disana langkah-langkah antara yang non-kanonik tetapi merupakan batu loncatan ide kanonik: 4. Pertunjukan belajar yang merupakan jenis tugas siswa di tingkat pencapaian tertentu akan mampu melakukan. Mereka memberikan spesifikasi untuk pengembangan penilaian oleh siswa mana yang akan menunjukkan pengetahuan mereka dan pemahaman; dan 5. Penilaian, yang merupakan langkah spesifik yang digunakan untuk melacak perkembangan siswa di sepanjang perkembangan yang dihipotesiskan. Belajar perkembangan mencakup pendekatan ntuk penilaian, seperti penilaian integral untuk pengembangan, validasi, dan penggunaannya. Penelitian tentang kognisi dan pembelajaran telah menghasilkan serangkaian deskripsi pembelajaran dan kinerja khusus domain yang dapat berfungsi untuk memandu desain penilaian, khususnya untuk bidang tertentu di Indonesia membaca, matematika, dan sains (mis., American Association for Kemajuan Ilmu Pengetahuan, 2001; Bransford, Brown, cocking, Donovan, & Pellegrino, 2000; Duschl et al, 2007; Kilpatrick, Swafford, & Findell, 2001; Snow, Burns, & Griifin, 1998; Wilson & Bertenthal, 2006). Yang mengatakan, ada banyak yang harus dilakukan dalam memetakan pembelajaran perkembangan berbagai bidang kurikulum dengan cara yang bisa secara efektif memandu desain instruksi dan penilaian. Meskipun demikian, ada sedikit yang diketahui tentang kognisi dan siswa belajar bahwa kita dapat memanfaatkan sekarang untuk memandu bagaimana kita merancang sistem penilaian, terutama yang berusaha untuk menutupi kemajuan pembelajaran di dalam dan di seluruh kelas. Makalah karya Deane dan Song (2014) dalam masalah ini memberikan contoh yang sangat baik dari penerapan kerangka perkembangan pembelajaran, serta proses desain yang berpusat pada bukti dibahas pada bagian selanjutnya, seperti bagian dari pengembangan program penilaian CBAL di bidang Seni berbahasa Inggris. Pengembangan Penilaian: Desain Berpusat Bukti Meskipun sangat berguna untuk mengonseptualisasikan penilaian sebagai a proses penalaran dari bukti, desain yang sebenarnya penilaian adalah upaya yang menantang yang perlu dipandu teori dan penelitian tentang kognisi serta resep praktis mengenai proses yang mengarah pada produktif dan berpotensi penilaian yang valid untuk konteks penggunaan tertentu. Seperti dalam desain apa pun aktivitas, pengetahuan ilmiah memberikan arahan dan kendala mengatur kemungkinan, tetapi tidak menentukan sifat yang tepat dari desain, juga tidak menghalangi kecerdikan untuk mencapai produk akhir. Desain selalu merupakan proses kompleks yang menerapkan teori dan penelitian untuk mencapai solusi yang hampir optimal di bawah serangkaian beberapa kendala, beberapa di antaranya berada di luar bidang sains. Dalam Dalam hal penilaian pendidikan, desain sangat dipengaruhi cara oleh variabel seperti tujuannya (mis., untuk membantu pembelajaran, untuk mengukur pencapaian individu, atau untuk mengevaluasi suatu program), the konteks di mana ia akan digunakan (ruang kelas atau skala besar), dan kendala praktis (mis., sumber daya dan waktu). Kecenderungan dalam desain penilaian adalah untuk bekerja dari yang agak Deskripsi “longgar” tentang apa yang seharusnya diketahui oleh siswa dan dapat melakukan (mis., standar atau kerangka kerja kurikulum) terhadap pengembangan tugas atau masalah yang harus mereka jawab. Mengingat kompleksitas proses desain penilaian, kecil kemungkinannya proses yang longgar semacam itu dapat menghasilkan generasi penilaian kualitas tanpa banyak kesenian, keberuntungan, dan coba-coba. Sebagai akibatnya, banyak penilaian tidak cukup pada sejumlah dimensi termasuk representasi dari konstruksi kognitif dan konten yang akan dibahas dan ketidakpastian tentang ruang lingkup kesimpulan yang dapat ditarik dari kinerja tugas. Menyadari bahwa penilaian adalah proses penalaran pembuktian, telah terbukti bermanfaat untuk lebih sistematis dalam membingkai proses desain penilaian sebagai proses Desain yang Berpusat pada Bukti (mis., Mislevy & Haertel, 2006; Mislevy & Riconscente, 2006). Untuk sebuah diskusi luas tentang logika dan beberapa komponen ECD sebagai diterapkan untuk pengembangan tes, pembaca disebut kertas oleh Zieky (2014) dalam masalah ini. Untuk tujuan saat ini, Gambar 2 sudah cukup untuk menangkap tiga komponen penting dari keseluruhan proses. Seperti yang ditunjukkan pada gambar, proses dimulai dengan mendefinisikan setepat mungkin klaim bahwa seseorang ingin dapat membuat tentang siswa pengetahuan dan cara-cara yang seharusnya diketahui siswa dan memahami beberapa aspek tertentu dari domain konten. Contohnya mungkin termasuk aspek pemikiran aljabar, rasio dan proporsi, gaya dan gerak, panas dan suhu dll. Paling banyak aspek kritis dalam mendefinisikan klaim yang ingin dibuat untuk tujuan penilaian harus setepat mungkin tentang unsur- unsur itu penting dan ungkapkan ini dalam bentuk kata kerja kognisi jauh lebih tepat dan kurang kabur daripada kognitif tingkat tinggi kata kerja superordinat seperti tahu dan mengerti. Contoh kata kerja mungkin termasuk membandingkan, menjelaskan, menganalisis, menghitung, menguraikan, menjelaskan, memperkirakan, membenarkan, dll. Memandu proses ini menentukan klaim adalah teori dan penelitian tentang sifat domain-spesifik mengetahui dan belajar Sementara klaim yang ingin dibuat atau diverifikasi adalah tentang siswa, mereka terkait dengan bentuk-bentuk bukti yang akan memberikandukungan untuk klaim tersebut - waran mendukung setiap klaim. Itu bukti bukti yang terkait dengan serangkaian klaim yang diberikan fitur produk kerja atau pertunjukan yang akan memberi substansi untuk klaim. Ini termasuk fitur yang harus ada dan bagaimana mereka ditimbang dalam skema pembuktian apa pun - yaitu, yang penting paling dan yang paling penting atau tidak sama sekali. Misalnya kalau buktinya untuk mendukung klaim tentang pengetahuan siswa tentang undang-undang Geraknya adalah bahwa siswa dapat menganalisis situasi fisik dalam istilah dari kekuatan yang bekerja pada semua tubuh, maka buktinya mungkin a diagram benda bebas yang digambar dengan semua gaya berlabel termasuk besarnya dan arah mereka. Ketepatan yang datang dari penjabaran klaim dan pernyataan bukti yang terkait dengan domain pengetahuan dan keterampilan terbayar ketika seseorang beralih ke desain tugas atau situasi itu dapat memberikan bukti yang diperlukan. Intinya, tugas tidak dirancang atau dipilih sampai jelas bentuk bukti apa yang diperlukan mendukung berbagai klaim yang terkait dengan penilaian yang diberikan situasi. Tugas perlu memberikan semua bukti yang diperlukan dan mereka harus memungkinkan siswa untuk "menunjukkan apa yang mereka ketahui" dengan cara itu adalah sebagai ambigu mungkin sehubungan dengan apa tugasnya kinerja menyiratkan tentang pengetahuan dan keterampilan siswa - yaitu, kesimpulan tentang kognisi siswa yang diizinkan dan berkelanjutan dari serangkaian tugas atau item penilaian yang diberikan. Menarik aplikasi dari pendekatan ECD dapat ditemukan dalam skala besar program penilaian sedang dalam pengembangan dan validasi oleh dua konsorsium besar negara-negara yang sedang mengembangkan penilaian yang selaras dengan Standar Negara Inti Umum yang baru dalam matematika dan seni bahasa Inggris di Amerika Serikat (lihat PARCC, 2014; SBAC, 2014). Ini di luar cakupan makalah ini untuk juga mempertimbangkan masalah pengukuran dan inferensi statistik berkenaan dengan kinerja siswa pada penilaian yang diberikan. Namun demikian, penting untuk dicatat bahwa komponen interpretasi Segitiga Penilaian, serta penerapan kerangka kerja ECD untuk desain penilaian, sering bergantung pada penerapan model pengukuran formal. Berbagai model seperti itu tersedia untuk digunakan dalam konteks mulai dari penilaian kelas hingga tes standar berskala besar dari jenis yang digunakan dalam program penilaian nasional dan internasional (lihat misalnya, Pellegrino et al. 2001; Pellegrino, DiBello, & Brophy, 2014). Kertas oleh de la Torre dan Minchen (2014) dalam masalah ini memberikan diskusi yang sangat baik tentang manfaat kelas tertentu dari model tersebut, yang dikenal sebagai Model Klasifikasi Diagnostik, ketika tujuan dari desain penilaian adalah untuk mendapatkan informasi interpretatif yang terkait erat dengan detail model kognitif pengetahuan dan keterampilan siswa. Dalam kasus seperti itu, ada kaitan erat antara elemen-elemen dari segitiga penilaian yang dimanifestasikan dalam rincian desain penilaian yang mencakup aturan untuk membuat kesimpulan dari bukti yang diperoleh dari serangkaian tugas yang dirancang dengan cermat. Seringkali, tujuan memperoleh informasi diagnostik terperinci tersebut adalah penggunaannya sebagai bagian dari proses penilaian formatif kelas. IV. Implikasi Untuk Desain Penilaian Desain dan Penggunaan Penilaian Kelas Ilmuwan pembelajaran umumnya berpendapat bahwa praktik penilaian kelas perlu diubah untuk mendukung pembelajaran yang lebih baik (juga lihat Shepard, 2000). Konten dan karakter penilaian perlu ditingkatkan secara signifikan untuk mencerminkan penelitian empiris terbaru tentang pembelajaran dan, mengingat apa yang sekarang kita ketahui tentang perkembangan pembelajaran, pengumpulan dan penggunaan informasi penilaian dan wawasan harus menjadi bagian dari proses pembelajaran yang sedang berlangsung. Poin terakhir ini lebih lanjut menunjukkan bahwa program pendidikan guru harus memberi guru pemahaman yang mendalam tentang bagaimana menggunakan penilaian dalam pengajaran mereka. Banyak ahli penilaian pendidikan percaya bahwa jika penilaian, kurikulum, dan pengajaran lebih terhubung secara integral, pembelajaran siswa akan meningkat (misalnya, Pellegrino et al., 1999; Stiggins, 1997). Menurut Sadler (1989), tiga elemen diperlukan jika guru ingin berhasil menggunakan penilaian untuk mempromosikan pembelajaran: (1) Pandangan yang jelas tentang tujuan pembelajaran (berasal dari kurikulum) (2) Informasi tentang keadaan pelajar saat ini (berasal dari penilaian) (3) Tindakan untuk menutup celah (diambil melalui instruksi) Masing-masing dari ketiga elemen ini menginformasikan yang lain. Misalnya, merumuskan prosedur penilaian untuk penggunaan ruang kelas dapat memacu guru untuk berpikir lebih spesifik tentang tujuan pembelajaran, sehingga mengarah pada modifikasi kurikulum dan pengajaran. Modifikasi ini dapat, pada gilirannya, mengarah pada prosedur penilaian yang disempurnakan, dan sebagainya. Keberadaan penilaian ruang kelas di sepanjang garis yang dibahas di sini tidak akan memastikan pembelajaran yang efektif. Kejelasan dan kesesuaian tujuan kurikulum, validitas penilaian dalam kaitannya dengan tujuan-tujuan ini, interpretasi bukti penilaian, dan relevansi dan kualitas instruksi yang terjadi merupakan penentu penting dari hasil. Pengajaran yang efektif harus dimulai dengan model kognisi dan pembelajaran dalam domain. Bagi sebagian besar guru, tujuan akhir pembelajaran ditetapkan oleh kurikulum, yang biasanya diamanatkan secara eksternal (mis., Dengan standar kurikulum negara bagian). Tetapi kurikulum yang diamanatkan secara eksternal tidak menentukan kognisi dan hasil pembelajaran berbasis empiris yang diperlukan untuk penilaian agar efektif. Akibatnya, guru (dan yang lainnya yang bertanggung jawab untuk merancang kurikulum, pengajaran, dan penilaian) harus merancang tujuan jangka menengah yang dapat berfungsi sebagai rute efektif untuk mencapai tujuan yang diamanatkan secara eksternal dan, untuk melakukannya secara efektif, mereka harus memiliki pemahaman tentang bagaimana siswa mewakili pengetahuan dan mengembangkan kompetensi dalam domain. Penilaian formatif harus didasarkan pada teori-teori kognitif tentang bagaimana orang belajar materi pelajaran tertentu untuk memastikan bahwa pengajaran berpusat pada apa yang paling penting untuk tahap pembelajaran berikutnya, mengingat keadaan pemahaman pelajar saat ini. Pengembangan pra-layanan dan profesional diperlukan untuk membantu guru merumuskan model perkembangan pembelajaran sehingga mereka dapat mengidentifikasi strategi naif siswa atau awal yang masuk akal dan mengembangkannya untuk menggerakkan siswa ke arah pemahaman yang lebih canggih. Ini akan meningkatkan keahlian diagnostik guru sehingga mereka dapat membuat keputusan berdasarkan informasi tentang langkah selanjutnya untuk pembelajaran siswa. Beberapa pendekatan berbasis kognitif untuk instruksi dan penilaian telah terbukti memiliki dampak positif pada pembelajaran siswa, termasuk program Instruksi Kognitif (Carpenter, Fennema, & Franke, 1996) dan lainnya (Cobb et al., 1991; Griffin & Case , 1997). Desain dan Penggunaan Penilaian Skala Besar Penilaian skala besar lebih lanjut dihapus dari instruksi tetapi masih bisa mendapat manfaat pembelajaran jika dirancang dengan baik dan digunakan dengan benar. Jika prinsip-prinsip desain yang diidentifikasi di atas diterapkan, secara substansial informasi yang lebih valid, bermanfaat, dan adil akan diperoleh dari penilaian berskala besar. Namun, sebelum sekolah, distrik, negara bagian, atau negara dapat sepenuhnya memanfaatkan teori dan penelitian kontemporer, mereka mungkin perlu secara substansial mengubah cara mereka mendekati penilaian skala besar. Secara khusus, mereka harus mengendurkan beberapa kendala yang saat ini mendorong banyak praktik penilaian skala besar, sebagai berikut. Penilaian sumatif skala besar harus fokus pada aspek pembelajaran yang paling kritis dan sentral dalam domain - sebagaimana diidentifikasi oleh standar kurikulum dan diinformasikan oleh penelitian dan teori kognitif. Penilaian skala besar biasanya didasarkan pada model pembelajaran yang kurang detail dibandingkan penilaian kelas. Untuk tujuan sumatif, orang mungkin perlu tahu apakah seorang siswa telah menguasai aspek-aspek yang lebih kompleks dari pengurangan multikolom, termasuk meminjam dari dan melintasi nol, sedangkan seorang guru perlu tahu persis kesalahan prosedural mana yang mengarah pada kesalahan. Meskipun pembuat kebijakan dan orang tua mungkin tidak memerlukan semua detail diagnostik yang akan berguna bagi guru dan siswa selama pengajaran, penilaian sumatif skala besar harus didasarkan pada model pembelajaran yang kompatibel dengan dan berasal dari rangkaian yang sama. pengetahuan dan asumsi tentang pembelajaran sebagai penilaian kelas. Penelitian tentang kognisi dan pembelajaran menunjukkan berbagai kompetensi yang harus dinilai ketika mengukur prestasi siswa, banyak di antaranya pada dasarnya belum dimanfaatkan oleh penilaian saat ini. Contohnya adalah organisasi pengetahuan, representasi masalah, penggunaan strategi, metakognisi, dan kegiatan partisipatif (mis., Merumuskan pertanyaan, menyusun dan mengevaluasi argumen, berkontribusi pada pemecahan masalah kelompok). Ini adalah elemen penting dari teori kontemporer dan penelitian tentang perolehan kompetensi dan keahlian dan dibahas dan diilustrasikan secara rinci dalam berbagai referensi yang disebutkan sebelumnya pada bagian tentang perkembangan pembelajaran. Penilaian skala besar tidak boleh mengabaikan aspek-aspek kompetensi ini dan harus memberikan informasi tentang aspek-aspek ini dari sifat pemahaman siswa, daripada sekadar membuat peringkat siswa menurut perkiraan kemahiran umum. Jika tes didasarkan pada teori kognisi dan pembelajaran yang didasarkan pada penelitian, tes tersebut dapat memberikan arahan positif untuk pengajaran, menjadikan "pengajaran untuk ujian" lebih produktif untuk pembelajaran daripada destruktif (poin ini dibahas lebih lanjut di bawah). Sayangnya, diberikan kendala saat ini dari tes standar administrasi, hanya perbaikan terbatas dalam penilaian skala besar yang dimungkinkan. Kendala-kendala ini termasuk kebutuhan untuk memberikan skor yang dapat diandalkan dan dapat dibandingkan untuk individu maupun kelompok, kebutuhan untuk mencicipi serangkaian standar kurikulum yang luas dalam waktu pengujian yang terbatas per siswa, dan kebutuhan untuk menawarkan efisiensi biaya dalam hal pengembangan, penilaian , dan administrasi. Untuk memenuhi permintaan semacam ini, desainer biasanya membuat penilaian yang diberikan pada waktu yang ditentukan, dengan semua siswa diberi tes yang sama (atau paralel) di bawah kondisi standar yang ketat (sering disebut sebagai penilaian berdasarkan permintaan). Tugas umumnya dari jenis yang dapat disajikan dalam format kertas dan pensil yang dapat direspon siswa dengan cepat, dan yang dapat dinilai dengan andal dan efisien. Akibatnya, hasil pembelajaran yang memungkinkan untuk dinilai dengan cara-cara ini dinilai, tetapi aspek pembelajaran yang tidak dapat diamati dalam kondisi yang terbatas tidak. Merancang penilaian baru yang menangkap kompleksitas kognisi dan pembelajaran akan membutuhkan memeriksa asumsi dan nilai-nilai yang saat ini mendorong pilihan desain penilaian dan keluar dari paradigma saat ini untuk mengeksplorasi pendekatan alternatif untuk penilaian skala besar, termasuk penggunaan teknologi inovatif (lihat misalnya, Quellmalz & Pellegrino, 2009; Pellegrino et al., 2014). V. Sistem Penilaian Seimbang Banyak penilaian yang berbeda digunakan di sekolah-sekolah, dengan masing- masing melayani beragam kebutuhan dan audiensi yang berbeda. Mungkin kesenjangan terbesar adalah antara penilaian eksternal, skala besar untuk tujuan evaluasi sumatif dan perbandingan oleh pembuat kebijakan, dan penilaian kelas yang dirancang untuk membantu guru dalam pekerjaan pengajaran mereka. Salah satu hasil dari variasi ini adalah bahwa pengguna dapat menjadi frustrasi ketika penilaian yang berbeda memiliki tujuan dan hasil pencapaian yang bertentangan. Terkadang perbedaan seperti itu bisa bermakna dan bermanfaat, seperti ketika penilaian secara eksplisit ditujukan untuk mengukur hasil sekolah yang berbeda. Namun, lebih sering, tujuan penilaian dan umpan balik yang saling bertentangan menyebabkan banyak kebingungan bagi pendidik, siswa, dan orang tua. Pada bagian ini kami menjelaskan visi untuk sistem terkoordinasi dari berbagai penilaian yang bekerja bersama, bersama dengan kurikulum dan pengajaran, untuk mempromosikan pembelajaran. Dalam banyak sistem pendidikan di seluruh dunia, penilaian difokuskan pada kegiatan kelas yang dirancang untuk memberikan informasi tentang kemajuan pembelajaran dan penilaian berstandar eksternal berskala besar memainkan peran yang relatif kecil atau sekunder dalam sistem pendidikan (lihat Dewan Riset Nasional, 2003). Di Amerika Serikat, bagaimanapun, sumber daya yang diinvestasikan dalam memproduksi dan menggunakan tes skala besar - dalam hal uang, waktu pengajaran, penelitian, dan pengembangan - jauh lebih besar daripada investasi dalam desain dan penggunaan penilaian kelas yang efektif (lihat misalnya, Kaestle , 2013). Dan sayangnya, ada banyak bukti bahwa penilaian skala besar yang digunakan saat ini di AS dan di tempat lain berdampak negatif terhadap pengajaran dan penilaian kelas. Sebagai contoh, seperti yang dibahas sebelumnya, guru merasakan tekanan untuk mengajar pada ujian, yang (mengingat fokus penilaian hari ini pada fakta dan keterampilan yang terputus) menghasilkan penyempitan instruksi. Ini tidak akan menjadi masalah jika penilaian yang ditemukan pada tes tersebut memiliki kualitas yang lebih tinggi dan mewakili berbagai tingkat pemikiran dan penalaran yang kami inginkan untuk dicapai oleh siswa. Kemudian kita akan memiliki tes yang layak untuk diajar dan tugas-tugasnya akan jauh lebih dekat dengan yang berguna dalam konteks pengajaran di kelas untuk mempromosikan pembelajaran dan keterlibatan siswa. Mereka akan menjadi tugas dan pertunjukan yang pantas dengan waktu dan perhatian guru dan siswa. Jika itu benar, maka kita tidak akan memiliki masalah yang ada sekarang karena guru memodelkan tes kelas mereka sendiri setelah tugas yang sangat terbatas dan kurang ideal ditemukan pada tes standar yang khas (Koretz, 2009; Linn, 2000; Shepard, 2000 ). Diberikan bahwa mereka akan terlibat dalam latihan pemodelan seperti itu ketika tes eksternal penting untuk tujuan seperti akuntabilitas, akan jauh lebih baik jika apa yang mereka pemodelkan merupakan penilaian kualitas siswa yang tinggi dan valid. Jadi, di samping kebutuhan untuk mencapai keseimbangan yang lebih baik antara ruang kelas dan penilaian skala besar, kita juga perlu mengoordinasikan sistem penilaian yang secara kolektif mendukung serangkaian tujuan pembelajaran dan pengajaran yang umum, daripada bekerja dengan tujuan yang berbeda. Untuk tujuan ini, sistem penilaian harus menunjukkan tiga sifat: kelengkapan, koherensi, dan kontinuitas. Dengan kelengkapan, maksud saya bahwa berbagai pendekatan pengukuran harus digunakan untuk menyediakan berbagai bukti untuk mendukung pengambilan keputusan pendidikan. Tidak ada skor tes tunggal yang dapat dianggap sebagai ukuran definitif kompetensi siswa. Berbagai langkah meningkatkan validitas dan keadilan kesimpulan yang ditarik dengan memberi siswa berbagai cara dan peluang untuk menunjukkan kompetensi mereka. Berbagai langkah juga dapat digunakan untuk memberikan bukti bahwa peningkatan skor tes mewakili keuntungan nyata dalam pembelajaran, dibandingkan dengan skor inflasi karena mengajar secara sempit untuk satu tes tertentu (mis., Koretz, 2009). Dengan koherensi, maksud saya bahwa model pembelajaran siswa yang mendasari berbagai penilaian eksternal dan kelas dalam suatu sistem harus kompatibel. Sementara penilaian skala besar mungkin didasarkan pada model pembelajaran yang lebih kasar daripada yang mendasari penilaian yang digunakan di ruang kelas, basis konseptual untuk penilaian skala besar harus menjadi versi yang lebih luas dari yang masuk akal pada butir yang lebih halus. level (Mislevy, 1996). Dengan cara ini, hasil penilaian eksternal akan lebih konsisten pemahaman rinci tentang pembelajaran yang mendasari instruksi dan penilaian kelas. Ketika seseorang naik dan turun tingkat sistem, dari ruang kelas melalui sekolah, distrik, dan negara, penilaian sepanjang dimensi vertikal ini harus selaras. Selama model pembelajaran yang mendasarinya konsisten, penilaian akan melengkapi satu sama lain daripada menyajikan tujuan pembelajaran yang saling bertentangan. Akhirnya, sistem penilaian ideal akan dirancang untuk berkelanjutan. Artinya, penilaian harus mengukur kemajuan siswa dari waktu ke waktu, lebih mirip dengan rekaman video daripada foto yang disediakan oleh sebagian besar tes saat ini. Untuk memberikan gambaran kemajuan seperti itu, beberapa set pengamatan dari waktu ke waktu harus dihubungkan secara konseptual sehingga perubahan dapat diamati dan ditafsirkan. Model kemajuan siswa dalam pembelajaran harus mendasari sistem penilaian, dan tes harus dirancang untuk memberikan informasi yang memetakan kembali ke perkembangan. Gambar 3 memberikan ilustrasi grafis tentang tampilan sistem penilaian dan beberapa faktor yang akan berfungsi untuk mencapai keseimbangan dan mendukung ketiga prinsip ini. Gambar 3 menunjukkan bahwa sistem seperti itu akan (a) dikoordinasikan lintas level, (b) disatukan oleh tujuan pembelajaran umum, dan (c) disinkronkan dengan menyatukan variabel kemajuan. Tidak ada sistem penilaian yang ada memiliki fitur desain ini dan memenuhi ketiga kriteria kelengkapan, koherensi, dan kontinuitas, tetapi ada contoh penilaian yang mewakili langkah-langkah menuju tujuan-tujuan ini. Misalnya, program Penilaian Perkembangan Australia (Forster & Masters, 2001; Masters & Forster, 1996) dan sistem penilaian BEAR (Wilson, Draney, & Kennedy, 2001; Wilson & Sloane, 2000) menunjukkan bagaimana peta kemajuan dapat digunakan untuk mencapai koherensi antara penilaian formatif dan sumatif, serta di antara kurikulum, instruksi, dan penilaian. Peta kemajuan juga memungkinkan pengukuran pertumbuhan (sehingga memenuhi kriteria kesinambungan). Dewan Penelitian Pendidikan Australia telah menghasilkan satu set bahan materi yang sangat bagus bagi para guru untuk mendukung penggunaan berbagai strategi penilaian - mulai dari tes tertulis hingga portofolio hingga proyek di tingkat kelas - yang semuanya dapat dirancang untuk menghubungkan kembali ke peta kemajuan (dengan demikian memenuhi kriteria kelengkapan). VI. Bergerak Maju: Kebutuhan dan Peluang Karena penilaian terkait dengan klaim, kami ingin membuktikan tentang kompetensi siswa, pendekatan baru untuk penilaian harus diperlakukan sebagai proses mengumpulkan bukti untuk mengkonfirmasi atau mengonfirmasi klaim tertentu (Gorin, 2013). Bukti itu, yang dalam suatu sistem penilaian dapat berasal dari berbagai sumber, dapat digunakan untuk meningkatkan baik bagaimana mereka diajarkan dan bagaimana dan apa yang dipelajari siswa. Bukti tersebut mungkin mencakup serangkaian kegiatan yang berkisar dari tugas kinerja yang sederhana hingga rumit yang dilakukan di dalam ruang kelas serta penilaian di luar kegiatan di ruang kelas biasa (Bennett, 2013). Pellegrino et al. (2014) telah menjelaskan secara terperinci pendekatan sistem semacam itu untuk penilaian sains. Deskripsi yang mereka berikan dirancang untuk mempromosikan visi pembelajaran sains dan pengajaran yang terkait dengan Kerangka Kerja Dewan Riset Nasional AS untuk pendidikan sains K-12 (Dewan Penelitian Nasional, 2012) dan turunannya dari Standar Sains Generasi Selanjutnya (Achieve, 2013). Teknologi digital sangat menjanjikan untuk membantu membawa banyak perubahan dalam penilaian yang diyakini banyak orang perlu. Teknologi yang tersedia saat ini dan inovasi di cakrawala langsung dapat digunakan untuk mengakses informasi, membuat simulasi dan skenario, memungkinkan siswa untuk terlibat dalam permainan pembelajaran dan kegiatan lainnya, dan memungkinkan kolaborasi di antara siswa. Kegiatan semacam itu memungkinkan untuk mengamati, mendokumentasikan, dan menilai pekerjaan siswa karena mereka terlibat dalam kegiatan alami - mungkin mengurangi kebutuhan untuk memisahkan penilaian formal untuk akuntabilitas dari pembelajaran pada saat itu (mis., Behrens & DiCerbo, 2013). Teknologi tentu akan memungkinkan penggunaan penilaian formatif yang lebih besar yang pada gilirannya telah terbukti berdampak signifikan terhadap prestasi siswa. Kegiatan digital juga dapat memberikan informasi tentang kemampuan non-kognitif, seperti ketekunan, kreativitas, dan kerja tim yang tidak dapat dilakukan oleh pendekatan pengujian saat ini. Disandingkan dengan janji adalah perlunya banyak pekerjaan yang harus dilakukan pada masalah penilaian dan interpretasi bukti sebelum penilaian yang melekat seperti itu dapat berguna untuk berbagai tujuan ini. Banyak masalah, termasuk beberapa yang disinggung di atas, telah dibahas dan diperdebatkan di antara para pendidik dan pakar penilaian selama bertahun-tahun. Sebagai bagian dari diskusi itu sekarang dikenal luas. bahwa pengujian standar berskala besar telah memberikan yang lebih besar dan pengaruh yang lebih besar terhadap sekolah Amerika (Kaestle, 2013; Linn, 2013). Pada saat yang sama, telah ditunjukkan berulang kali bahwa guru memiliki dampak terbesar pada pendidikan dari semua faktor di sekolah. Dan apa yang guru lakukan dan apa yang mereka ajarkan dan bagaimana mereka menilai di kelas yang memberi pengaruh pada guru. Jika guru dan sekolah memungkinkan jenis pembelajaran yang dapat ditransfer yang diperlukan oleh kaum muda dalam masyarakat kontemporer, penilaian akan perlu untuk mendukung kurikulum dan pengajaran yang berfokus pada pembelajaran tersebut, bersama dengan keterampilan dasar tradisional. Sistem penilaian baru, yang didasarkan pada standar baru, harus mencakup fitur yang dijelaskan sebelumnya dalam makalah ini. Kriteria untuk sistem penilaian seperti itu harus ketat dan ambisius, sambil memperhitungkan dalam waktu dekat apa yang dapat dicapai secara finansial, logistik, teknologi, dan ilmiah. Jalan untuk mencapai tujuan pendidikan yang lebih ambisius cenderung untuk melewati fase yang berbeda daripada terjadi dalam satu lompatan raksasa. Mengingat di mana kita saat ini dan apa yang seharusnya layak di negara baru itu, serangkaian indikator berikut telah disarankan untuk digunakan dalam mengevaluasi apakah sistem penilaian dan komponennya memenuhi lima kriteria yang dibahas dalam Bagian I (lihat Darling- Hammond et al., 2013 untuk perincian tambahan). Entitas pendidikan - negara, negara bagian, provinsi, dll. – Harus mengevaluasi set penilaian yang saat ini mereka miliki dan / atau kembangkan terhadap kriteria ini, dan mereka harus menggunakan penilaian mereka dengan cara yang telah divalidasi dengan tepat. Melakukannya akan membantu memastikan konsekuensi positif dari penilaian untuk pengajaran dan pembelajaran siswa. Untuk kembali ke kutipan dari Komisi Gordon (2013b) yang disebutkan sebelumnya dalam makalah ini: “Penilaian terbaik dapat mempercepat perolehan pengetahuan dan kompetensi abad ke-21 jika mereka membimbing tindakan guru dan memungkinkan siswa untuk mengukur kemajuan mereka. Untuk melakukannya, tugas dan kegiatan dalam penilaian harus menjadi model yang layak untuk perhatian dan energi guru dan siswa. ”Mengubah penilaian pendidikan dengan cara yang diusulkan tergantung pada pendekatan sistem yang mencakup banyak faktor. Di antara ini adalah kemajuan dalam teori kognitif dan penelitian dan aplikasi teknologi yang dikombinasikan dengan investasi dalam pengetahuan guru dan perubahan kebijakan pendidikan yang menyertainya. Pembuat kebijakan di semua tingkatan perlu secara aktif mempromosikan transformasi yang sangat dibutuhkan dari praktik penilaian saat ini. Sebuah pertanyaan terbuka adalah apakah pendekatan sistem seperti itu dapat dicapai di seluruh tingkat kebijakan dan praktik pendidikan yang biasanya berlaku dan pada skala mulai dari kabupaten setempat, hingga negara bagian, negara, dan bahkan di tingkat penilaian internasional. Ringkasan yang diperluas Evaluasi sering dilihat sebagai pengaruh negatif pada pengajaran-pembelajaran oleh bagian yang baik dari komunitas pendidikan -kedua di bidang terapan dan di bidang penelitian-, terutama ketika hasil evaluasi memiliki konsekuensi penting. Artikel ini mengusulkan bahwa jika evaluasi dipahami, dirancang dan diimplementasikan secara memadai, itu dapat secara positif mempengaruhi pencapaian tujuan pembelajaran siswa abad ke-21. Untuk mempertahankan tesis ini, baik pilar konseptual evaluasi dan prinsip-prinsip dasar desain yang membentuk dasar argumen itu dipertimbangkan, serta contoh-contoh evaluasi yang memenuhi kriteria ini, termasuk evaluasi yang dirancang untuk mendukung proses evaluasi. belajar- mengajar di kelas bersama dengan orang lain yang dirancang untuk menjelaskan kemajuan sistem pendidikan. Bagian I berfokus pada tantangan besar pendidikan abad ke-21 dan pada jenis evaluasi yang diperlukan untuk mencapai tujuan pembelajaran yang relevan bagi masyarakat secara keseluruhan. Bagian ini diakhiri dengan diskusi singkat tentang lima karakteristik utama yang mendefinisikan komponen-komponen sistem evaluasi yang mampu mengukur sepenuhnya tujuan atau standar berkualitas tinggi dan mempromosikan evaluasi magang lebih dalam: (1) evaluasi kemampuan kognitif tingkat tinggi, (2) penilaian kapasitas kesetiaan tinggi yang kritis, (3) standar dengan titik referensi internasional, (4) penggunaan pertanyaan yang peka terhadap instruksi dan berharga dari sudut pandang pendidikan, dan (5) evaluasi yang dapat diandalkan, valid dan adil. Di bagian VI artikel ini, kita kembali ke lima karakteristik dan kriteria ini untuk menilai apa yang telah dicapai. Menentukan jalur yang memungkinkan kita untuk membuat sistem evaluasi untuk mencapai tujuan yang ditetapkan dalam sistem pendidikan dan yang memenuhi kriteria di atas adalah tantangan nyata. Bagian II dan III membahas beberapa masalah mendasar dan kerangka kerja konseptual yang diperlukan untuk bergerak maju di jalur itu. Bagian II menganalisis tujuan dan konteks evaluasi pendidikan untuk menyediakan kerangka kerja untuk memahami mengapa berbagai jenis evaluasi diperlukan dan apa fungsinya dalam sistem pendidikan. Pertanyaan sentral adalah bahwa evaluasi tunggal tidak dapat digunakan untuk semuanya dan, oleh karena itu, desain evaluasi harus mempertimbangkan fungsi yang harus dilakukan (mis., Formatif, sumatif, evaluasi program) dan konteks menggunakan (misalnya, kelas individu terhadap sekolah, daerah atau negara). Selanjutnya, bagian III m meneliti tiga kerangka kerja konseptual yang terkait satu sama lain dan yang mendasar dalam konseptualisasi dan desain setiap evaluasi: (a) evaluasi sebagai proses penalaran berdasarkan bukti, (b) evaluasi dilakukan dari model pembelajaran yang dirumuskan sebagai perkembangan pembelajaran, dan (c) penggunaan desain yang berpusat pada bukti untuk merancang evaluasi dan menafsirkan hasilnya. Aspek kunci dari ketiga kerangka kerja ini adalah bahwa desain dan penggunaan evaluasi harus berasal dari konsepsi yang jelas tentang apa arti kompetensi dalam domain kurikuler tertentu dan bagaimana kompetensi berubah dari waktu ke waktu berdasarkan proses belajar- mengajar. Apa yang memandu desain dan penggunaan penilaian kinerja siswa adalah teori, model, dan data empiris terbaik tentang sifat pengetahuan dan pembelajaran. Bagian IV kembali ke implikasi materi yang dibahas dalam bagian sebelumnya untuk desain evaluasi kelas dan juga dalam skala besar. Hal ini menunjukkan bahwa siswa yang belajar biasanya menyatakan bahwa perlu untuk mengubah praktik evaluasi di kelas untuk mendukung pembelajaran. Misalnya, konten dan jenis atau sifat evaluasi harus ditingkatkan secara signifikan untuk mencerminkan kemajuan terbaru dalam pembelajaran penelitian; Di sisi lain, mengingat apa yang sekarang diketahui tentang perkembangan pembelajaran, pengetahuan ini serta pengumpulan dan penggunaan informasi dari evaluasi harus menjadi bagian dari proses pelatihan yang sedang berlangsung. Pertanyaan terakhir ini juga menyarankan bahwa program yang dirancang untuk peserta pelatihan dan guru aktif harus membantu kedua kelompok untuk mengetahui secara mendalam bagaimana menggunakan evaluasi dalam proses pelatihan. Adapun program evaluasi skala besar, mereka sering tidak perlu membatasi dan hanya mengukur apa yang mudah dinilai, dengan format yang dirancang untuk meningkatkan efisiensi pengumpulan data dan penghematan biaya dalam kaitannya dengan koreksi jawaban atas pertanyaan tes yang diberikan. Sebaliknya, dikatakan bahwa evaluasi skala besar harus fokus pada aspek yang paling penting dan kritis dari pembelajaran dalam domain pengetahuan, karena mereka telah diidentifikasi dalam tujuan kurikuler dan didukung oleh teori dan penelitian kognitif. Merancang penilaian baru yang menangkap kompleksitas kognisi dan pembelajaran akan memerlukan memeriksa banyak asumsi dan nilai-nilai yang saat ini memandu pilihan desain evaluasi dan juga putus dengan paradigma saat ini dalam desain evaluasi skala besar untuk mengeksplorasi cara-cara alternatif, termasuk penggunaan teknologi yang inovatif. Bagian V mempertimbangkan komponen-komponen sistem evaluasi seimbang yang mencakup evaluasi di kelas bersama dengan evaluasi yang digunakan oleh distrik sekolah, wilayah dan negara untuk memantau. Dikatakan bahwa di negara-negara seperti Amerika Serikat perlu untuk mencapai keseimbangan yang lebih baik antara kelas dan evaluasi skala besar: daripada memiliki program evaluasi yang berbeda yang melayani tujuan yang berbeda, perlu untuk mengoordinasikan sistem evaluasi yang bekerja bersama-sama untuk mencapai seperangkat tujuan pengajaran dan pembelajaran yang umum. Untuk ini, kata sistem evaluasi harus menunjukkan tiga sifat, yang secara singkat dijelaskan: cakupan luas, koherensi dan kontinuitas. Dengan cakupan luas dipahami bahwa berbagai metode pengukuran digunakan untuk mendapatkan bukti yang berkontribusi dalam pengambilan keputusan di bidang pendidikan. Koherensi berarti bahwa dalam sistem evaluasi model pembelajaran siswa yang mendasari evaluasi kelas dan evaluasi eksternal yang berbeda harus kompatibel. Kontinuitas berarti bahwa penilaian harus mengukur kemajuan siswa dari waktu ke waktu, lebih sesuai dengan metafora rekaman video daripada dengan gambar diam yang ditawarkan oleh sebagian besar tes. Bagian VI kembali ke lima komponen sistem evaluasi yang diuraikan dalam bagian I dan menyimpulkan dengan menjelaskan secara singkat indikator kualitas utama yang harus diingat jika sistem evaluasi yang koheren akan dilaksanakan sebagai bagian dari proses transformasi pendidikan di abad ke-21. Contoh pendidikan terkait di tingkat negara, wilayah, provinsi, dll. mereka harus memeriksa sehubungan dengan kriteria ini program evaluasi yang saat ini sedang berjalan atau yang mereka rencanakan untuk desain. Mereka juga harus memastikan untuk menggunakan hasil evaluasi mereka untuk tujuan yang telah divalidasi dengan benar. Cara melanjutkan ini dapat berkontribusi pada evaluasi yang memiliki konsekuensi positif dalam pengajaran dan pembelajaran siswa. Mengubah evaluasi pendidikan dengan cara yang diusulkan membutuhkan pendekatan sistemik yang mencakup banyak faktor, termasuk kemajuan dalam teori kognitif dan penelitian dan aplikasi teknologi yang dikombinasikan dengan investasi dalam pelatihan guru dan perubahan yang bersamaan dalam kebijakan pendidikan. Otoritas pendidikan di semua tingkatan (regional, nasional, ...) harus mempromosikan transformasi yang sangat dibutuhkan dari praktik evaluasi saat ini. Satu pertanyaan yang tetap mengemuka di antara mereka adalah apakah mereka mempertimbangkan apakah pendekatan sistemik seperti itu dapat dicapai di tingkat nasional dan internasional.