Anda di halaman 1dari 73

Machine Translated by Google

teotlG
a
lkoiro
/ayym S
A
F

BAB TIGA BELAS

Menilai Pembelajaran Siswa

GARIS BESAR BAB


Apa Tujuan Instruksional dan Bagaimana Cara Penggunaannya?

Merencanakan Tujuan Pelajaran


HASIL BELAJAR
Menyelaraskan Tujuan dan Penilaian

Menggunakan Taksonomi Tujuan Instruksional Di akhir bab ini, Anda seharusnya dapat:

Penelitian tentang Tujuan Instruksional


13.1 Mengidentifikasi pembelajaran yang dibangun dengan baik
Mengapa Evaluasi Penting? tujuan dan menjelaskan bagaimana tujuan tersebut digunakan
Evaluasi sebagai Umpan Balik secara efektif

Evaluasi sebagai Informasi 13.2 Membedakan jenis-jenis evaluasi berdasarkan tujuannya

Evaluasi sebagai Insentif


13.3 Menjelaskan cara menulis tes yang adil, efektif, dan berbagai
Bagaimana Pembelajaran Siswa Dievaluasi?
jenis soal tes
Evaluasi Formatif dan Sumatif
13.4 Menjelaskan cara mengevaluasi pekerjaan siswa
Referensi Norma dan Referensi Kriteria menggunakan penilaian autentik, portofolio, dan kinerja
Evaluasi

Mencocokkan Strategi Evaluasi dengan Sasaran 13.5 Mendeskripsikan cara penilaian siswa
Bagaimana Tes Dibangun? pembelajaran mempengaruhi pengajaran yang disengaja

Prinsip Pengujian Prestasi

M13_SLAV4054_12e_SE_C13.indd 338 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 339

GARIS BESAR BAB (LANJUTAN) Efektivitas Penilaian Kinerja

Menggunakan Tabel Spesifikasi Rubrik Penilaian untuk Penilaian Kinerja

Menulis Soal Tes Respon Terpilih Penilaian melalui Game Digital dan
Simulasi
Menulis Item Respons yang Dibangun
Bagaimana Nilai Ditentukan?
Menulis dan Mengevaluasi Tes Esai
Menetapkan Kriteria Penilaian
Menulis dan Mengevaluasi Item Pemecahan Masalah
Apa Itu Penilaian Otentik, Portofolio, dan Kinerja? Menetapkan Nilai Surat
Penilaian Kinerja
Penilaian Portofolio Sistem Penilaian Alternatif Lainnya
Penilaian kinerja Menetapkan Nilai Rapor

Sullivan bersenang-senang mengajar tentang Sipil Pelajaran Pak Sullivan menyenangkan. Mereka terlibat.
Tn. Perang, dan kelas sejarah AS kelas sebelasnya juga bersenang- Mereka menggunakan mode presentasi yang bervariasi. Mereka
senang. Tuan Sullivan menceritakan segala macam anekdot tentang mengintegrasikan keterampilan dari disiplin ilmu lain. Mereka jelas mencapai
perang. Dia menggambarkan pertempuran yang terjadi dalam keadaan satu tujuan penting dari ilmu sosial: membangun kenikmatan terhadap topik
telanjang (sekelompok Konfederasi tertangkap sedang mengarungi tersebut. Namun, meskipun pelajaran Pak Sullivan sangat menarik, hanya
sungai), saat Stone wall Jackson kalah dalam pertempuran karena dia tidur ada sedikit kesesuaian antara apa yang dia ajarkan dan apa yang dia uji.
siang di tengah pertempuran, dan beberapa cerita tentang wanita yang Dia dan murid-muridnya sedang dalam perjalanan yang menyenangkan,
menyamarkan gendernya untuk bertarung. sebagai tentara. Dia bercerita tapi kemana mereka pergi?
tentang serangan Konfederasi (dari Kanada) di bank Vermont. Dia
MENGGUNAKAN PENGALAMAN ANDA
mengedarkan bola mini dan grapeshot asli, dan bertanya-tanya apakah
PEMBELAJARAN KOOPERATIF Dalam kelompok yang terdiri dari empat
mereka telah membunuh seseorang. Faktanya, Tuan Sullivan telah
atau lima siswa, buatlah garis nilai dari 1 hingga 100, dengan 1 mewakili
berbicara selama berminggu-minggu tentang pertempuran, lagu-lagu, dan
pengajaran yang buruk dan 100 mewakili pengajaran yang hebat. Tandai
kepribadian serta kelemahan para jenderal. Akhirnya, setelah kegiatan
secara bergiliran di mana Anda akan menempatkan Tuan Sullivan pada skala ini.
matematika yang menarik di mana siswa harus mencari tahu berapa banyak
Biarkan setiap orang menjelaskan penilaiannya. Sekarang tinjau
uang Konfederasi yang mereka perlukan untuk membeli sepotong roti, Pak
peringkatnya dan ubah seperlunya. Diskusikan metode yang lebih baik
Sullivan menyuruh siswa menyimpan semua materi mereka untuk mengerjakan ujian.
yang mungkin digunakan Pak Sullivan untuk mengajar dan kemudian
Para siswa kaget. Satu-satunya pertanyaan adalah: Apa yang terjadi
menilai siswanya.
penyebab utama, peristiwa, dan akibat dari Perang Saudara?

Dalam mengajar
bukankah kamupelajaran, unit, dan kursus,
dan murid-muridmu yang bagaimana Anda mengetahui
sampai ke sana? ke mana
Bab ini membahas Andadan
tujuan akan pergi dan
penilaian, apakah
serta atau tidak
tujuan
pengajaran dan cara menentukan apakah tujuan tercapai. Tujuan adalah rencana pembelajaran tentang apa yang harus
diketahui dan mampu dilakukan siswa pada akhir suatu program studi; pelajaran harus dirancang untuk mencapai tujuan ini.
Evaluasi siswa harus menunjukkan sejauh mana setiap siswa telah benar-benar menguasai tujuan tersebut pada akhir
kursus (Banks, 2012; McMillan, 2011; Spinelli, 2011). Setiap guru harus mempunyai gagasan yang jelas tentang arah
kelasnya, bagaimana cara mencapainya, dan bagaimana mengetahui apakah kelas sudah sampai.

APA TUJUAN INSTRUKSIONAL


DAN BAGAIMANA PENGGUNAANNYA? DalamTASC 7

Perencanaan untuk
Apa yang Anda ingin siswa Anda ketahui atau dapat lakukan di akhir pelajaran hari ini?
Petunjuk
Apa yang harus mereka ketahui pada akhir serangkaian pelajaran mengenai mata pelajaran tertentu? Apa yang harus
mereka ketahui di akhir kursus? Mengetahui jawaban atas pertanyaan-pertanyaan ini adalah salah satunya

M13_SLAV4054_12e_SE_C13.indd 339 02/11/16 17:16


Machine Translated by Google

340 BAB TIGA BELAS

prasyarat terpenting untuk pengajaran yang disengaja dan berkualitas tinggi (Burke, 2009; Moss & Brookhart, 2012). Seorang
guru bagaikan pemandu di alam liar dengan pasukan yang lembut. Jika Anda tidak mempunyai peta atau rencana untuk
membawa kelompok ke tempat tujuan, seluruh kelompok pasti akan tersesat. Murid-murid Pak Sullivan bersenang-senang,
tetapi karena guru mereka tidak memiliki rencana bagaimana pelajarannya akan memberi mereka konsep-konsep penting
yang berkaitan dengan Perang Saudara, kecil kemungkinan mereka akan mempelajari konsep-konsep tersebut.

Menetapkan tujuan di awal kursus merupakan langkah penting dalam menyediakan kerangka kerja yang sesuai
dengan pembelajaran individu (Moss, Brookhart, & Long, 2011; Reeves, 2011).
Tanpa kerangka seperti itu, kita akan mudah tersesat, menghabiskan terlalu banyak waktu pada topik-topik yang tidak penting
dalam kursus. Seorang guru biologi sekolah menengah menghabiskan sebagian besar waktunya mengajar biokimia; murid-
muridnya tahu semua tentang susunan kimia DNA, sel darah merah, klorofil, dan pati, tapi sedikit tentang zoologi, botani,
anatomi, atau topik lain yang biasanya penting dalam biologi sekolah menengah. Kemudian pada akhir bulan Mei guru
tersebut panik karena menyadari bahwa kelasnya harus melakukan serangkaian latihan laboratorium sebelum akhir tahun.
Pada hari-hari berikutnya mereka membedah katak, mata domba, otak domba, dan janin babi! Tentu saja, para siswa hanya
belajar sedikit dari laboratorium yang terburu-buru tersebut dan hanya sedikit belajar tentang biologi secara umum. Guru ini
tidak memiliki rencana induk dan memutuskan minggu demi minggu (atau mungkin hari demi hari) apa yang harus diajarkan,
sehingga kehilangan gambaran besarnya—ruang lingkup pengetahuan yang secara umum dianggap penting bagi siswa
sekolah menengah. belajar di kelas biologi. Hanya sedikit guru yang mengikuti sebuah rencana dengan kaku setelah mereka
membuatnya, namun proses pembuatannya masih sangat membantu.

Tujuan pembelajaran, terkadang disebut tujuan perilaku, adalah pernyataan keterampilan atau konsep yang
diharapkan diketahui oleh siswa pada akhir periode pengajaran. Biasanya, tujuan pembelajaran dinyatakan sedemikian rupa
sehingga memperjelas bagaimana tujuan tersebut akan diukur (lihat Mager, 1997). Beberapa contoh tujuan instruksional
adalah sebagai berikut:

Diberikan 100 fakta pembagian (seperti 27 dibagi 3), siswa akan memberikan jawaban yang benar untuk semua 100
dalam 3 menit.

Ketika ditanya, siswa akan menyebutkan setidaknya lima fungsi yang menjadi ciri semua makhluk hidup (respirasi,
reproduksi, dll).

Dalam sebuah esai, siswa akan dapat membandingkan dan membedakan gaya artistik van Gogh dan Gauguin.

Dengan adanya pernyataan “Terselesaikan: Amerika Serikat seharusnya tidak ikut serta dalam Perang Dunia I,”
siswa akan mampu berargumentasi secara persuasif baik mendukung atau menentang proposisi tersebut.
Koneksi 13.1
Untuk informasi lebih lanjut mengenai Perlu dicatat bahwa meskipun jenis pembelajaran yang terlibat dan tingkat kinerja yang dicapai sangat bervariasi,
perencanaan pembelajaran dan tujuan-tujuan ini memiliki beberapa kesamaan. Mager (1997), yang karyanya meluncurkan gerakan tujuan perilaku,
tujuan pembelajaran sebagai menggambarkan tujuan memiliki tiga bagian: kinerja, kondisi, dan kriteria. Penjelasan dan contoh diberikan pada Tabel 13.1.
komponen pengajaran yang efektif, lihat Bab 7.

TABEL 13. Bagian dari Pernyataan Tujuan Perilaku

PERTUNJUKAN KONDISI KRITERIA


Definisi Tujuan selalu menyatakan Suatu tujuan selalu Jika memungkinkan, suatu
apa yang diharapkan dilakukan menggambarkan tujuan menggambarkan
oleh seorang pembelajar. kondisi yang mendasari kriteria kinerja yang dapat
kinerja tersebut diterima.
terjadi.

Pertanyaan Dijawab Apa yang seharusnya dapat Dalam kondisi apa Seberapa baik hal itu harus dilakukan?

dilakukan oleh pembelajar? apakah Anda ingin pelajar


dapat melakukannya?

Contoh Gunakan kata sifat Diberikan 10 kalimat dengan . . . siswa akan memilih kata sifat
dan kata keterangan pengubah yang hilang, . . . atau kata keterangan
dengan benar. dengan benar setidaknya dalam 9 dari 10
kalimat.

M13_SLAV4054_12e_SE_C13.indd 340 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 341

Merencanakan Tujuan Pelajaran


Dalam praktiknya, kerangka tujuan perilaku adalah kondisi-kinerja-kriteria. Pertama, nyatakan kondisi di mana pembelajaran
akan dinilai, seperti berikut ini:

Dengan diberikan tes 10 item, siswa akan mampu. ..

Dalam sebuah esai, siswa akan mampu. ..

Dengan menggunakan kompas dan busur derajat, siswa dapat . . .

Bagian kedua dari tujuan biasanya berupa kata kerja tindakan yang menunjukkan apa yang dapat dilakukan siswa. Misalnya
(dari Gronlund & Brookhart, 2009):

Menulis

Membedakan antara

Mengenali
Cocok

Membandingkan dan kontras

Terakhir, tujuan perilaku umumnya menyatakan kriteria keberhasilan, seperti berikut:

. . . semua 100 fakta perkalian dalam 3 menit.

. . . setidaknya lima negara yang mengirim penjelajah ke Dunia Baru.

. . . setidaknya ada tiga persamaan dan tiga perbedaan antara pemerintah AS berdasarkan Konstitusi dan berdasarkan
Anggaran Konfederasi.

Terkadang kriteria keberhasilan tidak dapat ditentukan sebagai angka yang benar. Meski begitu, suc
cess harus ditentukan sejelas mungkin:

Siswa akan menulis esai dua halaman yang menggambarkan situasi sosial perempuan seperti yang digambarkan
dalam Rumah Boneka.

Siswa akan memikirkan setidaknya enam kemungkinan kegunaan pengocok telur selain mengocok telur.

PENULISAN TUJUAN KHUSUS Tujuan pembelajaran harus disesuaikan dengan materi pelajaran yang diajarkan. Ketika siswa
harus mempelajari keterampilan atau informasi yang terdefinisi dengan baik dengan satu jawaban yang benar, tujuan
instruksional spesifik dapat ditulis sebagai berikut:

Diberikan 10 soal yang melibatkan penjumlahan dua pecahan yang penyebutnya sama, siswa akan menyelesaikan paling
sedikit 9 pecahan dengan benar.

Diberikan 10 kalimat yang kekurangan kata kerja, siswa akan dengan benar memilih kata kerja yang sesuai jumlahnya
dalam minimal 8 kalimat. Contoh: Saya dan kucing saya berulang tahun di bulan Mei. Masing-masing dari kita [ingin,
ingin] kuliah.

Dengan adanya tali sepanjang 4 meter yang diikatkan ke langit-langit, siswa akan mampu naik ke puncak dalam waktu
kurang dari 20 detik.

Beberapa materi, tentu saja, tidak sesuai dengan tujuan pembelajaran spesifik tersebut, dan dalam kasus seperti ini
merupakan suatu kesalahan jika mengikuti tujuan yang memiliki kriteria numerik. Misalnya, tujuan berikut dapat ditulis:

Siswa akan membuat daftar setidaknya lima persamaan dan lima perbedaan antara situasi imigran di Amerika Serikat

pada awal tahun 1900an dan situasi imigran saat ini.

Perhatikan bahwa tujuan ini meminta daftar, yang mungkin tidak menunjukkan pemahaman yang sebenarnya
dari topik tersebut. Tujuan yang kurang spesifik namun lebih bermakna mungkin adalah sebagai berikut:

Dalam sebuah esai, siswa akan membandingkan dan membedakan situasi imigran di Amerika Serikat pada awal tahun
1900-an dan situasi imigran saat ini.

Tujuan pengajaran umum ini akan memungkinkan siswa lebih leluasa dalam mengekspresikan pemahaman mereka tentang
topik dan meningkatkan pemahaman daripada menghafal daftar persamaan dan perbedaan.

M13_SLAV4054_12e_SE_C13.indd 341 02/11/16 17:16


Machine Translated by Google

342 BAB TIGA BELAS

MENULIS TUJUAN YANG JELAS Tujuan pembelajaran harus cukup spesifik agar bermakna. Misalnya, pertimbangkan tujuan
berikut mengenai imigran:

Siswa akan mengembangkan apresiasi penuh atas keberagaman masyarakat yang telah berkontribusi terhadap
pembangunan masyarakat AS.

Kedengarannya bagus, tapi apa maksudnya “penghargaan penuh”? Tujuan seperti itu tidak membantu Anda mempersiapkan
pelajaran atau membantu siswa memahami apa yang akan diajarkan dan bagaimana hal tersebut akan dinilai.

MELAKUKAN ANALISIS TUGAS Dalam merencanakan pembelajaran, penting untuk mempertimbangkan keterampilan yang
dibutuhkan dalam tugas yang akan diajarkan atau diberikan. Misalnya, Anda mungkin meminta siswa menggunakan Internet untuk
menulis laporan singkat tentang topik yang diminati. Tugas ini tampaknya cukup mudah, namun pertimbangkan keterampilan
terpisah yang terlibat:

Mengetahui cara mencari informasi di Internet

Mengetahui cara menilai sumber di Internet berdasarkan objektivitas dan keakuratannya

Mendapatkan ide pokok dari materi ekspositori


LabEd Saya
Merencanakan atau menguraikan laporan singkat
Contoh Video 13.1
Menulis paragraf ekspositori
Dua guru mendiskusikan rencana
unit peradaban dan dampaknya Memahami keterampilan mekanika bahasa (seperti penggunaan huruf besar, tanda baca, dan penggunaan)

terhadap sejarah. Dapatkah Anda Keterampilan-keterampilan ini sendiri dapat dipecah menjadi sub-keterampilan. Anda harus menyadari sub-keterampilan
mengidentifikasi prasyarat yang yang terlibat dalam setiap tugas pembelajaran untuk memastikan bahwa siswa mengetahui apa yang perlu mereka ketahui agar
mereka harapkan untuk diketahui oleh berhasil. Sebelum memberikan tugas laporan Internet, Anda perlu memastikan bahwa siswa mengetahui cara menggunakan
siswa dan komponen keterampilan sumber daya Internet dan bahwa mereka dapat memahami dan menulis materi ekspositori. Anda dapat mengajarkan atau
yang mereka harapkan untuk meninjau keterampilan ini sebelum mengirim siswa ke komputer mereka.
digunakan dan dikembangkan oleh
siswa selama unit berlangsung?
Dalam mengajarkan keterampilan baru apa pun, penting untuk mempertimbangkan semua sub-keterampilan yang ada di
dalamnya. Pikirkan semua langkah terpisah yang terlibat dalam penjumlahan pecahan, penulisan rumus kimia, atau dalam
mengidentifikasi kalimat topik dan detail pendukung. Oleh karena itu, pertimbangkan keterampilan yang diperlukan untuk menulis
surat bisnis di MS Word, seperti yang diilustrasikan pada Gambar 13.1.
Proses memecah tugas atau tujuan menjadi komponen-komponen yang lebih sederhana disebut
analisis tugas. Dalam merencanakan pembelajaran, proses tiga langkah untuk analisis tugas dapat digunakan.

1. Identifikasi keterampilan prasyarat. Apa yang harus siswa ketahui sebelum Anda mengajarkan pelajaran?
Misalnya, pada pelajaran penjumlahan pecahan yang penyebutnya berbeda, siswa perlu mengetahui cara mencari
kelipatan persekutuan terkecil, cara mengalikan pecahan senilai, cara menjumlahkan pecahan yang penyebutnya sama,
dan cara menyederhanakan pecahan.

2. Identifikasi komponen keterampilan. Dalam pelajaran sebenarnya, sub-keterampilan apa yang harus diajarkan kepada
siswa sebelum mereka dapat belajar untuk mencapai tujuan yang lebih besar? Untuk kembali ke contoh penjumlahan
pecahan, setiap langkah harus direncanakan, diajarkan, dan dinilai selama pembelajaran.

3. Rencanakan bagaimana komponen keterampilan akan dirangkai menjadi keterampilan akhir. Langkah terakhir dalam
analisis tugas adalah menyusun kembali sub-keterampilan menjadi proses lengkap yang diajarkan. Misalnya, siswa
mungkin dapat melakukan setiap keterampilan yang diperlukan untuk menjumlahkan pecahan dengan penyebut yang
berbeda, namun hal ini tidak berarti mereka dapat menggabungkan semuanya untuk mengerjakan keseluruhan tugas.
Sub-keterampilan tersebut harus diintegrasikan ke dalam suatu proses yang utuh sehingga siswa dapat memahami dan
mempraktikkannya.

PERENCANAAN Mundur Sama seperti tujuan pembelajaran yang lebih dari sekadar penjumlahan tujuan tugas tertentu, maka
tujuan suatu program studi lebih dari sekadar penjumlahan tujuan pelajaran tertentu. Oleh karena itu, masuk akal untuk memulai
dengan menuliskan tujuan umum untuk kursus secara keseluruhan, kemudian tujuan untuk unit yang besar, dan baru kemudian
tujuan perilaku yang spesifik (lihat Gronlund & Brookhart, 2009). Ini dikenal sebagai perencanaan mundur. Misalnya, Tuan
Sullivan sebaiknya mengidentifikasi tujuan unit Perang Saudaranya sebagai berikut:

M13_SLAV4054_12e_SE_C13.indd 342 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 343

GAMBAR
Ciptakan persuasif dan 13.1 Contoh
bisnis yang terformat dengan baik
Hierarki Keterampilan
surat menggunakan MS Word
Sebelum siswa dapat mempraktikkan

keterampilan utama (menulis surat

bisnis di MS Word), mereka harus mampu


Tulislah kalimat persuasif dan
Buka dan simpan Word menggunakan komputer dan membuat
bisnis yang terformat dengan baik
dokumen
surat surat. Semua keterampilan ini harus
ada

dipelajari sebelum keterampilan utama

Urutan ide dan dapat dikuasai. Mereka independen


Gunakan keyboard dan mouse
atau layar sentuh mengatur pikiran kapan
satu sama lain dan dapat dipelajari dalam
menulis
urutan apa pun. Sebelum membuat

surat, siswa harus mampu mengeja

Eja kata dengan benar dan kata dan menyusun gagasan tertulis.

merumuskan secara gramatikal Terakhir, untuk menggunakan komputer,


kalimat yang benar
pelajar terlebih dahulu harus mempelajari

cara menggunakan mouse/

layar sentuh dan cara membuka dan


menyimpan dokumen.

“Siswa akan memahami penyebab utama, peristiwa, dan konsekuensi dari Perang Saudara.” Berikutnya dia mungkin akan
menulis tujuan-tujuan yang lebih rinci terkait dengan sebab-sebab, peristiwa-peristiwa, dan konsekuensi-konsekuensi, kemudian
merencanakan unit-unit dan pelajaran-pelajaran individual seputar tujuan-tujuan tersebut. Contoh rinci proses perencanaan
mundur diilustrasikan pada Tabel 13.2 dan dijelaskan dalam Teori ke dalam Praktek selanjutnya.

TABEL 13. Contoh Tujuan Mata Kuliah Seni Bahasa


Guru dapat mengalokasikan waktu pengajaran untuk suatu mata pelajaran dengan (a) memutuskan topik apa yang akan dibahas selama satu tahun atau

semester, (b) memutuskan berapa minggu yang akan dihabiskan untuk setiap topik, (c) memilih unit dalam setiap topik, (d) memutuskan bagaimana

caranya. berapa hari yang harus dihabiskan untuk masing-masing pelajaran, dan (e) memutuskan pelajaran apa yang seharusnya diberikan setiap hari.

TUJUAN KURSUS TUJUAN UNIT


(MINGGU YANG DIAlokasikan) (HARI YANG DIAlokasikan) PELAJARAN

Menulis cerita fiksi: 3 Bagian-bagian cerita: 2 Pelajaran 1: Bagian-Bagian dari Sebuah Cerita—Ikhtisar

Menulis nonfiksi: 3 Detail dan penjabarannya: 3 Perkenalan

Menulis esai persuasif: 2 Penulisan, revisi, dan proses Pengaturan

kreatif: 3 Tokoh utama


. . . dll. . . . dll.
Antagonis
Merencanakan

Kesimpulan

Pelajaran 2: Bagian-bagian Cerita-Identifikasi


dari Contoh
Perkenalan

Pengaturan

Tokoh utama

Antagonis
Merencanakan

Kesimpulan

M13_SLAV4054_12e_SE_C13.indd 343 02/11/16 17:16


Machine Translated by Google

344 BAB TIGA BELAS

TEORI MENJADI PRAKTEK


Perencanaan Kursus, Unit, dan Pelajaran
Dalam merencanakan suatu kursus, penting untuk menetapkan tujuan jangka panjang, jangka menengah,
dan jangka pendek sebelum mulai mengajar (Diamond, 2008; Dougherty, 2012; Fisher & Frey, 2014c;
Reeves, 2015). Sebelum siswa tiba pada hari pertama kelas, Anda perlu memiliki rencana umum tentang
apa yang akan dibahas sepanjang tahun, rencana yang lebih spesifik tentang apa yang akan ada di unit
pertama (serangkaian pelajaran yang terhubung), dan rencana yang sangat spesifik. rencanakan isi pelajaran
pertama (seperti yang ditunjukkan pada Tabel 13.2). Semua negara bagian dan banyak distrik telah
menetapkan standar untuk setiap mata pelajaran, dan standar ini akan membantu memandu perencanaan Anda.
Tabel 13.2 menunjukkan proses perencanaan mundur. Pertama, tujuan kursus ditetapkan. Kemudian
tujuan unit ditetapkan. Akhirnya, pelajaran khusus direncanakan.
Tujuan kursus mencantumkan semua topik yang akan dibahas sepanjang tahun. Anda dapat membagi
jumlah minggu dalam satu tahun ajaran dengan jumlah topik utama untuk menentukan apa yang dibutuhkan
masing-masing topik. Lebih banyak atau lebih sedikit waktu dapat dicadangkan untuk topik tertentu, selama
tersedia cukup waktu untuk topik lainnya. Satu semester penuh dapat digunakan untuk salah satu topik pada
Tabel 13.2, namun hal ini tidak sesuai untuk mata kuliah survei ilmu hayat. Anda harus membuat pilihan sulit
sebelum hari pertama kelas tentang berapa banyak waktu yang harus dihabiskan pada setiap topik untuk
Penunjuk Sertifikasi
menghindari menghabiskan terlalu banyak waktu pada topik awal dan tidak memiliki cukup waktu tersisa
Untuk tes sertifikasi guru, Anda
mungkin diminta untuk
untuk mengerjakan topik berikutnya dengan baik. Beberapa guru sejarah sepertinya masih terjebak dalam

mengambil tujuan dari Perang Dunia I pada pertengahan Mei dan harus memampatkan sebagian besar abad ke-20 menjadi
standar kurikulum negara bagian beberapa minggu!
dan menulis tujuan perilaku untuk Tabel 13.2 menunjukkan perkiraan alokasi minggu untuk masing-masing topik yang akan dibahas.
memenuhi standar tersebut. Ini hanyalah perkiraan kasar yang akan diubah seiring berjalannya waktu.

Tujuan Unit dan Tes Unit Setelah tujuan kursus ditetapkan, tugas berikutnya adalah menetapkan tujuan
untuk unit pertama dan memperkirakan jumlah periode kelas yang akan digunakan untuk setiap tujuan
(Diamond, 2008). Merupakan ide bagus untuk menulis pengujian unit sebagai bagian dari proses
perencanaan. Menulis tes terlebih dahulu membantu Anda fokus pada isu-isu penting yang akan dibahas.
Misalnya, dalam unit 4 minggu tentang Perang Saudara, Pak Sullivan mungkin telah memutuskan bahwa
konsep terpenting yang harus dipelajari siswa adalah penyebab perang, beberapa poin utama tentang
kampanye militer, pentingnya sipasi Eman Proklamasi, pembunuhan Lincoln, dan sejarah masa
Rekonstruksi. Topik-topik ini akan menjadi inti dari pengujian unit pada Perang Saudara. Menulis tes ini
dapat membantunya mendapatkan perspektif yang tepat tentang pentingnya berbagai masalah yang harus
dibahas. Bukan berarti dia tidak seharusnya membagikan anekdot dan menunjukkannya kepada Stu

penyok senjata Perang Saudara, tetapi mempersiapkan uji unit akan membantunya mengingat gambaran
besarnya.
Tes yang Anda persiapkan sebagai bagian dari perencanaan kursus Anda mungkin bukan tes yang
Anda berikan di akhir unit. Anda dapat memutuskan untuk mengubah, menambah, atau menghapus item
untuk mencerminkan konten yang sebenarnya Anda liput. Namun hal ini tidak mengurangi pentingnya
menentukan terlebih dahulu tujuan apa yang ingin Anda capai dan bagaimana Anda akan menilainya.

Banyak teks memberikan tes unit dan tujuan, membuat tugas Anda lebih mudah. Contoh tujuan dan
soal tes tersedia di departemen pendidikan negara bagian dan lokal, dan dapat ditemukan di Internet.
Namun, meskipun Anda telah menyiapkan tujuan dan tes, tetap penting untuk meninjau isinya dan
mengubahnya seperlunya agar sesuai dengan apa yang ingin Anda ajarkan.

M13_SLAV4054_12e_SE_C13.indd 344 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 345

Jika Anda mempersiapkan pengujian unit dari awal, gunakan panduan untuk menguji konstruksi
yang disajikan nanti di bab ini. Pastikan bahwa soal-soal tes tersebut mencakup berbagai tujuan sesuai
dengan kepentingannya terhadap pelajaran secara keseluruhan (yaitu, tujuan-tujuan yang lebih penting
tercakup dalam lebih banyak soal), dan mencakup soal-soal yang menilai pemikiran tingkat tinggi serta
faktual. pengetahuan.

Rencana Pembelajaran dan Penilaian Pembelajaran Langkah terakhir dalam perencanaan mundur
adalah merencanakan pembelajaran sehari-hari. Tabel 13.2 menunjukkan bagaimana tujuan unit tertentu
dapat dipecah menjadi pelajaran sehari-hari. Langkah selanjutnya adalah merencanakan isi setiap
pelajaran. Rencana pembelajaran terdiri dari tujuan, rencana penyajian informasi, rencana pemberian
praktik kepada siswa (bila sesuai), rencana penilaian pemahaman siswa, dan bila perlu rencana
pengajaran ulang siswa (atau seluruh kelas) jika pemahamannya tidak memadai.

Menyelaraskan Tujuan dan Penilaian


Karena tujuan pembelajaran dinyatakan dalam bentuk bagaimana tujuan tersebut akan diukur, jelas bahwa tujuan
sangat selaras dengan penilaian, yang terdiri dari pengukuran sejauh mana siswa telah mempelajari tujuan yang DalamTASC 6
ditetapkan untuk tujuan tersebut. Kebanyakan penilaian di sekolah berupa tes atau kuis atau penilaian verbal
informal seperti pertanyaan di kelas. Namun, siswa juga dapat menunjukkan pembelajarannya dengan menulis esai, Penilaian
membuat presentasi multimedia, melukis gambar, melakukan tune-up mobil, atau membuat kue nanas terbalik.

Salah satu prinsip penting dalam penilaian adalah bahwa penilaian dan tujuan harus dikaitkan dengan jelas
(Martone & Sireci, 2009; McAfee, Leong, & Bodrova, 2016). Siswa mempelajari sebagian dari apa yang diajarkan
kepada mereka; semakin besar tumpang tindih antara apa yang diajarkan dan apa yang diuji, semakin baik nilai tes
siswa dan semakin akurat kebutuhan pengajaran tambahan dapat ditentukan (Lloyd dkk., 2013; Popham, 2014a;
Russell & Airasian, 2012 ; Pengawal, 2009). Pengajaran harus terkait erat dengan tujuan pembelajaran, dan
keduanya harus secara jelas berhubungan dengan penilaian (Buhle & Bla chowicz, 2008/2009). Jika ada tujuan
yang layak untuk diajarkan, maka tujuan tersebut juga layak untuk diuji, dan sebaliknya.
Seperti disebutkan sebelumnya, salah satu cara untuk menentukan tujuan suatu kursus adalah dengan
mempersiapkan pertanyaan tes sebelum kursus dimulai (lihat Waugh & Gronlund, 2013). Hal ini memungkinkan
Anda untuk menulis tujuan pengajaran umum (pernyataan yang jelas tentang apa yang diharapkan dipelajari siswa
melalui pengajaran) dan kemudian memperjelasnya dengan tujuan pembelajaran yang sangat spesifik (perilaku
spesifik yang diharapkan ditunjukkan oleh siswa di akhir serangkaian pelajaran), seperti dalam contoh berikut.

Tujuan Pembelajaran Khusus


Tujuan Pengajaran (Pertanyaan Tes)

A. Kemampuan untuk mengurangi angka tiga digit yang a1. 237a2. 412 a3. 596
dikelompokkan kembali satu atau dua kali
2184 2298 2448

B. Memahami penggunaan bahasa untuk b1. Bagaimana Poe memperkuat mood “The
mengatur suasana hati dalam “The Raven” setelah menempatkannya di bait pertama?
Gagak"

C. Kemampuan untuk mengidentifikasi rumus Tuliskan rumus kimia berikut ini:


kimia zat umum

c1. Air _____

c2. Karbon dioksida _____

c3. Batu bara _____

c4. Garam dapur _____

M13_SLAV4054_12e_SE_C13.indd 345 02/11/16 17:16


Machine Translated by Google

346 BAB TIGA BELAS

Menggunakan Taksonomi Tujuan Instruksional


Dalam menulis tujuan dan penilaian, penting untuk mempertimbangkan keterampilan yang berbeda dan tingkat
Koneksi 13.2 pemahaman yang berbeda. Misalnya, dalam pelajaran sains tentang serangga untuk siswa kelas dua, Anda mungkin
Untuk informasi mengenai
ingin memberikan informasi (nama-nama berbagai serangga) dan serangkaian sikap (seperti apresiasi terhadap
keterampilan berpikir dan
pentingnya serangga bagi ekosistem dan gagasan bahwa sains itu menyenangkan). Dalam mata pelajaran lain Anda
berpikir kritis, lihat Bab 8.
mungkin mencoba menyampaikan fakta dan konsep yang berbeda berdasarkan jenisnya. Misalnya, dalam mengajarkan
pelajaran tentang kalimat topik dalam membaca, Anda mungkin meminta siswa terlebih dahulu mengingat definisi
kalimat topik, kemudian mengidentifikasi kalimat topik dalam paragraf, dan akhirnya menulis kalimat topik mereka sendiri
INTASC 5 untuk paragraf aslinya. Masing-masing aktivitas ini menunjukkan pemahaman yang berbeda terhadap konsep “kalimat
topik”, dan konsep ini belum diajarkan secara memadai jika siswa hanya dapat melakukan salah satu aktivitas tersebut.
Penerapan
Berbagai tujuan pembelajaran tersebut dapat diklasifikasikan berdasarkan jenis dan tingkat kerumitannya. Taksonomi,
Konten
atau sistem klasifikasi, membantu Anda mengkategorikan aktivitas pembelajaran.

TAKSONOMI BLOOM Pada tahun 1956, Benjamin Bloom dan beberapa rekan peneliti (Bloom, Engle hart, Furst, Hill, &
Krathwohl, 1956) menerbitkan taksonomi tujuan pendidikan yang telah berpengaruh dalam penelitian dan praktik
pendidikan sejak saat itu. Bloom dan rekan-rekannya mengkategorikan tujuan dari yang sederhana ke kompleks atau
dari faktual ke konseptual. Elemen kunci berikut (dari yang sederhana hingga yang kompleks) merupakan apa yang biasa
disebut taksonomi Bloom untuk domain kognitif (Badgett & Christmann, 2009; Marzano & Kendall, 2007).

1. Pengetahuan (mengingat informasi). Tingkat tujuan terendah dalam hierarki Bloom, pengetahuan terdiri dari
LabEd Saya
tujuan seperti menghafal fakta atau rumus matematika, prinsip ilmiah, atau konjugasi kata kerja.
Contoh Video 13.2
Dalam pelajaran yang
dimaksudkan untuk 2. Pemahaman (menerjemahkan, menafsirkan, atau mengekstrapolasi informasi). Tujuan pemahaman
mendorong siswa melihat mengharuskan siswa menunjukkan pemahaman informasi serta kemampuan untuk menggunakannya. Contohnya
hubungan antara geografi antara lain menafsirkan makna diagram, grafik, atau perumpamaan; menyimpulkan prinsip yang mendasari
dan ekonomi, Ms. Holmquest eksperimen sains; atau memprediksi apa yang mungkin terjadi selanjutnya dalam sebuah cerita.
mendorong kelasnya
untuk menganalisis 3. Penerapan (menggunakan prinsip atau abstraksi untuk memecahkan permasalahan baru atau dalam kehidupan
informasi. Jelas dari nyata). Tujuan penerapan mengharuskan siswa untuk menggunakan pengetahuan atau prinsip untuk memecahkan masalah praktis.
pelajaran ini, dan juga dari Contohnya termasuk menggunakan prinsip geometri untuk mengetahui berapa galon air yang dimasukkan ke
bagan di papan tulis, bahwa dalam kolam renang dengan dimensi tertentu, atau menggunakan pengetahuan tentang hubungan antara suhu
pelajaran sebelumnya berfokus dan tekanan untuk menjelaskan mengapa balon lebih besar pada hari yang panas dibandingkan pada hari yang dingin.
pada pengetahuan dan pemahaman.
4. Analisis (menguraikan informasi atau ide yang kompleks menjadi bagian-bagian yang lebih sederhana
untuk memahami bagaimana bagian-bagian tersebut berhubungan atau disusun). Tujuan analisis
mengharuskan siswa untuk melihat struktur yang mendasari informasi atau ide yang kompleks. Contoh tujuan
analisis mencakup membandingkan pendidikan di Amerika Serikat dengan pendidikan di Jepang, atau
mengidentifikasi gagasan utama sebuah cerita pendek.

5. Sintesis (penciptaan sesuatu yang sebelumnya tidak ada). Tujuan sintesis melibatkan penggunaan keterampilan
untuk menciptakan produk yang benar-benar baru. Contohnya termasuk menulis komposisi, menurunkan aturan
matematika, merancang eksperimen sains untuk memecahkan suatu masalah, atau membuat kalimat baru dalam
bahasa asing.

6. Evaluasi (menilai sesuatu berdasarkan standar yang diberikan). Tujuan evaluasi memerlukan pembuatan
penilaian nilai terhadap beberapa kriteria atau standar. Misalnya, siswa mungkin diminta untuk membandingkan
kekuatan dan kelemahan dua komputer tablet dalam hal fleksibilitas, daya, dan perangkat lunak yang tersedia.

Karena taksonomi Bloom disusun dari yang sederhana hingga yang kompleks, sebagian orang mengartikannya
sebagai pemeringkatan tujuan dari yang sepele (pengetahuan) hingga yang penting (sintesis, evaluasi). Namun, hal ini
bukanlah tujuan dari taksonomi. Tingkat tujuan yang berbeda sesuai untuk tujuan yang berbeda dan untuk siswa pada
tahap perkembangan yang berbeda (Marzano & Kendall, 2007). Misalnya, Anda ingin dokter Anda memiliki pemahaman
mendalam tentang cara kerja tubuh manusia, namun Anda juga berharap dia mengetahui nama semua bagian tubuh,
obat-obatan, dan peralatan di bidang spesialisasinya, semua tujuan tingkat pengetahuan!

M13_SLAV4054_12e_SE_C13.indd 346 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 347

TABEL 13. Contoh Tujuan dalam Matriks Konten Perilaku


Matriks isi perilaku dapat mengingatkan guru untuk mengembangkan tujuan pembelajaran yang membahas keterampilan di berbagai tingkat kognitif.

CONTOH 1: CONTOH 2: CONTOH 3:


JENIS TUJUAN WILAYAH LINGKARAN GAGASAN UTAMA SEBUAH CERITA KOLONISASI AFRIKA
Pengetahuan Berikan rumus luas lingkaran. Definisikan ide pokok. Buatlah garis waktu yang menunjukkan
bagaimana orang Eropa membagi Afrika
menjadi koloni.

Pemahaman Berikan contoh cara menemukan Menafsirkan peta Afrika yang menunjukkan
gagasan utama sebuah cerita. kolonisasi oleh negara-negara Eropa.

Aplikasi Terapkan rumus luas lingkaran pada


permasalahan kehidupan nyata.

Analisis Identifikasi gagasan utama Bandingkan tujuan dan metode yang digunakan
sebuah cerita. negara-negara Eropa dalam menjajah Afrika.

Perpaduan Gunakan pengetahuan tentang luas Menulislah cerita baru berdasarkan Tulislah esai tentang penjajahan Eropa
lingkaran dan volume kubus gagasan pokok cerita yang dibaca. di Afrika dari
untuk mendapatkan rumus volume perspektif seorang kepala suku Bantu.
silinder.
Evaluasi Evaluasi ceritanya.

Pentingnya taksonomi Bloom adalah sebagai pengingat bahwa kita ingin siswa mempunyai berbagai tingkat
keterampilan. Seringkali, guru fokus pada pengetahuan yang terukur dan tujuan pemahaman dan lupa bahwa siswa
tidak dapat dianggap mahir dalam banyak keterampilan sampai mereka dapat menerapkan atau mensintesis
keterampilan tersebut (lihat Iran-Nejad & Stewart, 2007). Di sisi lain, beberapa guru gagal memastikan bahwa siswa
telah menguasai dasar-dasarnya dengan baik sebelum melanjutkan ke tujuan yang lebih tinggi.

MENGGUNAKAN MATRIKS KONTEN PERILAKU Salah satu cara untuk memastikan bahwa tujuan Anda mencakup
banyak tingkatan adalah dengan menulis matriks konten perilaku. Ini hanyalah sebuah bagan yang menunjukkan
bagaimana konsep atau keterampilan tertentu akan diajarkan dan dinilai pada tingkat kognitif yang berbeda. Contoh
tujuan dalam matriks isi perilaku disajikan pada Tabel 13.3. Perhatikan bahwa untuk setiap topik, tujuan dicantumkan
untuk beberapa, tetapi tidak semua tingkat taksonomi Bloom. Beberapa topik tidak cocok untuk beberapa tingkat
taksonomi, dan tidak ada alasan mengapa setiap tingkat harus dibahas untuk setiap topik. Namun, menggunakan
matriks konten perilaku dalam menetapkan tujuan memaksa Anda untuk mempertimbangkan tujuan di atas tingkat pengetahuan dan pemahaman.

TUJUAN DILUAR DASAR Mempelajari fakta dan keterampilan bukan satu-satunya tujuan penting dalam pengajaran.
Terkadang perasaan yang dimiliki siswa mengenai suatu mata pelajaran atau tentang keterampilan mereka sendiri
setidaknya sama pentingnya dengan seberapa banyak informasi yang mereka pelajari. Tujuan instruksional yang
berkaitan dengan sikap dan nilai disebut tujuan afektif. Banyak orang berpendapat bahwa tujuan utama kursus sejarah
atau kewarganegaraan AS adalah untuk mempromosikan nilai-nilai patriotisme dan tanggung jawab sipil, dan bahwa
salah satu tujuan kursus matematika adalah untuk memberikan kepercayaan diri siswa terhadap kemampuan mereka
menggunakan matematika. Dalam merencanakan pengajaran, penting untuk mempertimbangkan tujuan afektif dan
kognitif. Kecintaan belajar, kepercayaan diri dalam belajar, dan pengembangan sikap prososial dan kooperatif adalah
beberapa tujuan terpenting yang harus Anda miliki untuk siswa Anda. Sternberg (2008) menyarankan agar sekolah
melengkapi tujuan yang berkaitan dengan 3R (membaca, 'menulis, dan 'ritmatika) dengan tiga R lagi: penalaran,
ketahanan, dan tanggung jawab (lihat juga Rothstein & Jacobsen, 2009; Stiggins & Chappuis, 2012) . Selain itu,
kreativitas adalah tujuan yang patut dikejar, meskipun mengukurnya tidak mudah (Brookhart, 2013a).

Penelitian tentang Tujuan Instruksional


Tiga alasan utama diberikan untuk menulis tujuan pembelajaran. Salah satunya adalah latihan ini membantu mengatur
perencanaan Anda. Seperti yang dikatakan Mager (1997), jika Anda tidak yakin ke mana tujuan Anda, kemungkinan
besar Anda akan berakhir di tempat lain dan bahkan tidak menyadarinya. Alasan lainnya adalah menetapkan tujuan
instruksional membantu memandu evaluasi. Akhirnya, dihipotesiskan bahwa pengembangan tujuan instruksional
meningkatkan prestasi siswa.

M13_SLAV4054_12e_SE_C13.indd 347 02/11/16 17:16


Machine Translated by Google

348 BAB TIGA BELAS

Walaupun merencanakan secara berlebihan atau mengikuti secara kaku rencana yang tidak fleksibel merupakan suatu kesalahan,
sebagian besar guru yang berpengalaman membuat, menggunakan, dan menghargai tujuan dan penilaian yang telah direncanakan sebelumnya.
Mungkin dukungan yang paling meyakinkan bagi penetapan tujuan pengajaran yang jelas adalah dukungan tidak langsung.
Cooley dan Leinhardt (1980) menemukan bahwa faktor tunggal yang paling kuat dalam memprediksi nilai membaca dan
matematika siswa adalah sejauh mana siswa benar-benar diajarkan keterampilan yang diujikan.
Hal ini menyiratkan bahwa pengajaran efektif sejauh mana tujuan, pengajaran, dan penilaian dikoordinasikan satu sama
lain. Spesifikasi tujuan pengajaran yang jelas adalah langkah pertama untuk memastikan bahwa pengajaran di kelas
diarahkan untuk memberikan siswa keterampilan penting, yaitu keterampilan yang cukup penting untuk diuji.

Penting untuk memastikan bahwa tujuan pengajaran yang dikomunikasikan kepada siswa cukup luas untuk
mencakup semua pelajaran atau kursus yang seharusnya diajarkan. Ada bahayanya jika memberikan siswa serangkaian
tujuan yang terlalu sempit dapat membuat siswa terfokus pada beberapa informasi dan mengesampingkan fakta dan
konsep lain.

MENGAPA EVALUASI PENTING?


Evaluasi, atau penilaian, terdiri dari semua cara yang digunakan di sekolah untuk mengukur kinerja siswa secara formal
DalamTASC 6
(Lloyd et al., 2013; McMillan, 2011; Popham, 2014; Waugh & Gronlund, 2013).
Ini termasuk kuis dan tes, evaluasi tertulis, dan nilai. Evaluasi siswa biasanya berfokus pada prestasi akademik, namun
Penilaian banyak sekolah juga menilai perilaku dan sikap. Banyak sekolah dasar memberikan deskripsi perilaku siswa (seperti
“mengikuti arahan”, “mendengarkan dengan penuh perhatian”, “bekerja dengan orang lain”, “menggunakan waktu dengan
bijak”). Di sekolah dasar, menengah, dan menengah atas, prevalensi laporan perilaku semakin berkurang, namun banyak
sekolah menengah atas menilai siswanya berdasarkan kriteria seperti “berusaha sesuai kemampuan”, “siap”, dan
“bertanggung jawab”.
Mengapa guru menggunakan tes dan nilai? Anda menggunakannya karena, dengan satu atau lain cara, Anda harus
memeriksa dan mengomunikasikan pembelajaran siswa secara berkala. Tes dan nilai memberi tahu guru, siswa, dan
orang tua tentang kinerja siswa di sekolah. Anda dapat menggunakan tes untuk menentukan apakah pengajaran Anda
efektif dan untuk mengetahui siswa mana yang memerlukan bantuan tambahan. Siswa dapat menggunakan tes untuk
mengetahui apakah strategi belajar mereka membuahkan hasil. Orang tua membutuhkan nilai untuk mengetahui prestasi
anak-anak mereka di sekolah; nilai biasanya berfungsi sebagai satu-satunya bentuk komunikasi yang konsisten antara
sekolah dan rumah. Sekolah terkadang membutuhkan nilai dan tes untuk melakukan penempatan siswa.
Negara bagian dan distrik sekolah memerlukan tes untuk mengevaluasi sekolah dan, dalam beberapa kasus, guru. Pada
akhirnya, perguruan tinggi menggunakan nilai dan nilai tes standar untuk memutuskan siapa yang akan diterima, dan
pemberi kerja menggunakan bukti pencapaian berdasarkan nilai, seperti ijazah dan kredensial lainnya, dalam keputusan perekrutan.
Oleh karena itu guru harus mengevaluasi pembelajaran siswa; hanya sedikit yang berpendapat sebaliknya. Penelitian mengenai
penggunaan tes menemukan bahwa siswa belajar lebih banyak dalam mata pelajaran yang menguji siswa dibandingkan mata pelajaran

yang tidak mengujinya (Dempster, 1991; Haynie & Haynie, 2008).


Evaluasi siswa mempunyai enam tujuan utama (lihat Waugh & Gronlund, 2013):

1. Umpan balik kepada siswa

2. Umpan balik kepada guru

3. Informasi kepada orang tua


4. Informasi seleksi dan sertifikasi

5. Informasi untuk akuntabilitas


6. Insentif untuk meningkatkan usaha siswa

Evaluasi sebagai Umpan Balik


Koneksi 13.3 Bayangkan seorang pemilik toko mencoba beberapa strategi untuk meningkatkan bisnisnya—pertama beriklan di surat
Untuk informasi lebih lanjut tentang umpan balik sebagai kabar, kemudian mengirimkan brosur ke rumah-rumah di dekat toko, dan akhirnya mengadakan penjualan. Namun,
komponen pengajaran yang misalkan setelah mencoba setiap strategi, pemilik toko gagal mencatat dan membandingkan pendapatan toko. Tanpa
efektif, lihat Bab 7. melakukan inventarisasi dengan cara ini, pemilik hanya akan belajar sedikit tentang efektivitas strategi apa pun dan mungkin
hanya membuang-buang waktu dan uang. Hal serupa juga terjadi pada guru dan siswa. Mereka perlu mengetahui sesegera
mungkin apakah investasi waktu dan energi mereka dalam kegiatan tertentu membuahkan hasil berupa peningkatan
pembelajaran.

M13_SLAV4054_12e_SE_C13.indd 348 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 349

UMPAN BALIK UNTUK SISWA Seperti halnya pemilik toko, siswa perlu mengetahui hasil usahanya (Fisher & Frey, 2014c;
Marzano, Yanoski, Hoegh, & Simms, 2013). Evaluasi rutin memberi mereka umpan balik mengenai kekuatan dan kelemahan
mereka. Misalnya, Anda meminta siswa menulis komposisi dan kemudian memberikan kembali evaluasi tertulis. Beberapa siswa
mungkin menyadari bahwa mereka perlu bekerja lebih banyak pada konten, yang lain pada penggunaan pengubah, dan yang
lainnya lagi pada mekanika bahasa. Informasi ini akan membantu siswa meningkatkan kemampuan menulis mereka lebih dari
sekedar nilai tanpa penjelasan (Brookhart & Nitko, 2015; Chappuis, Stiggins, Chappuis, & Arter, 2012).

Agar berguna sebagai umpan balik, evaluasi harus dibuat sespesifik mungkin (Quinn, 2012). Misalnya, Cross dan Cross
(1980/1981) menemukan bahwa siswa yang menerima umpan balik tertulis selain nilai huruf, lebih mungkin dibandingkan siswa
lain untuk percaya bahwa usaha mereka, daripada keberuntungan atau faktor eksternal lainnya, yang menentukan keberhasilan
mereka di sekolah.

UMPAN BALIK KEPADA GURU Salah satu fungsi evaluasi pembelajaran siswa yang paling penting (dan sering diabaikan)
adalah memberikan umpan balik kepada guru mengenai efektivitas pengajaran mereka. Anda tidak dapat berharap untuk menjadi
efektif secara optimal jika Anda tidak mengetahui apakah siswa telah memahami pokok-pokok pelajaran Anda. Mengajukan
pertanyaan di kelas dan mengamati siswa saat mereka bekerja memberi Anda gambaran tentang seberapa baik siswa telah
belajar; namun dalam banyak mata pelajaran, kuis singkat namun sering, tugas menulis, dan produk siswa lainnya diperlukan
untuk memberikan indikasi kemajuan siswa yang lebih rinci. Pertanyaan yang disusun dengan baik dapat membantu Anda
memahami pemikiran siswa dan mengungkap kesalahpahaman (Brookhart, 2014; McTighe & Wiggins, 2013; Salend, 2016;
Wiliam & Leahy, 2015).
Evaluasi juga memberikan informasi kepada kepala sekolah dan sekolah secara keseluruhan, yang dapat digunakan untuk
memandu upaya reformasi secara keseluruhan dengan mengidentifikasi sekolah atau subkelompok mana di sekolah yang
memerlukan perbaikan (McTighe & Curtis, 2015; Mertler, 2014; Schimmer, 2016 ). Papan tulis elektronik dengan perangkat
respons digital dapat memberikan informasi langsung kepada guru tentang berapa banyak siswa yang telah memahami setiap
tujuan yang diajarkan dan dinilai oleh guru (Magaño & Marzano, 2014).

Evaluasi sebagai Informasi


Rapor disebut rapor karena melaporkan informasi kemajuan siswa. Fungsi pelaporan evaluasi ini penting karena beberapa alasan.

INFORMASI KEPADA ORANG TUA Pertama, berbagai macam evaluasi rutin sekolah (nilai ujian, bintang, dan sertifikat serta nilai Koneksi 13.4
rapor) membuat orang tua selalu mendapat informasi tentang tugas sekolah anak-anak mereka. Untuk informasi lebih lanjut tentang
Misalnya, jika nilai siswa menurun, orang tua mungkin mengetahui penyebabnya dan mungkin dapat membantu siswa tersebut orang tua, lihat Bab 11.
kembali ke jalur yang benar. Kedua, nilai dan evaluasi lainnya membentuk sistem penguatan informal berbasis rumah. Ingatlah
dari Bab 11 bahwa banyak penelitian menemukan bahwa melaporkan secara teratur kepada orang tua ketika siswa melakukan
pekerjaan dengan baik dan meminta orang tua untuk memperkuat laporan yang baik akan meningkatkan perilaku dan prestasi
siswa. Tanpa banyak disuruh, sebagian besar orang tua secara alami menguatkan anak-anak mereka untuk mendapatkan nilai
bagus, sehingga menjadikan nilai penting dan efektif sebagai insentif.

INFORMASI UNTUK SELEKSI Beberapa sosiolog melihat pemilahan siswa berdasarkan peran sosial sebagai tujuan utama
sekolah: Jika sekolah tidak benar-benar menentukan siapa yang akan menjadi tukang daging, pembuat roti, atau pembuat tempat
lilin, maka sekolah akan sangat mempengaruhi siapa yang akan menjadi buruh, pekerja terampil, pekerja kerah putih, atau
LabEd Saya
profesional. Fungsi penyortiran ini berlangsung secara bertahap selama bertahun-tahun bersekolah. Di kelas awal, siswa diurutkan
Contoh Video 13.3
ke dalam kelompok membaca. Kemudian beberapa siswa kelas delapan mengambil aljabar, sedangkan yang lain mengambil
Guru ini memberikan
prealjabar atau matematika umum. Di sekolah menengah atas, siswa sering kali diarahkan ke tingkat lanjutan, dasar, atau
umpan balik evaluatif
perbaikan pada mata pelajaran tertentu, dan penyortiran besar terjadi ketika siswa diterima di berbagai perguruan tinggi dan
secara individu kepada siswa
program pelatihan. Terlebih lagi, sepanjang masa sekolah, beberapa siswa diseleksi ke dalam program pendidikan khusus, ke
dan kemudian kepada ibunya.
dalam program untuk mereka yang berbakat dan bertalenta, atau ke dalam program khusus lainnya dengan pendaftaran terbatas.
Dalam kedua konferensi tersebut, dia

bertanya bagaimana mereka dapat


Terkait erat dengan seleksi adalah sertifikasi, penggunaan tes untuk memenuhi syarat siswa untuk promosi atau untuk
bekerja sama untuk membantu mendukung
akses ke berbagai pekerjaan. Misalnya, banyak negara bagian dan distrik setempat mempunyai ujian yang harus dilalui siswa
pembelajaran siswa.
untuk naik kelas atau untuk lulus sekolah menengah atas. Ujian pengacara untuk pengacara, ujian dewan untuk mahasiswa
kedokteran, dan ujian untuk guru seperti Ujian Guru Nasional adalah contoh ujian sertifikasi yang mengontrol akses terhadap
profesi.

INFORMASI UNTUK AKUNTABILITAS Seringkali, evaluasi siswa berfungsi sebagai data untuk evaluasi guru, sekolah, distrik,
atau bahkan negara bagian. Setiap negara bagian mempunyai program pengujian di seluruh negara bagian yang memungkinkan
negara bagian tersebut menentukan peringkat setiap sekolah dalam hal kinerja siswa (Banks, 2012;

M13_SLAV4054_12e_SE_C13.indd 349 02/11/16 17:16


Machine Translated by Google

350 BAB TIGA BELAS

Koneksi 13.5 Miller, Linn, & Gronlund, 2013). Nilai tes ini juga sering digunakan dalam evaluasi kepala sekolah, guru, dan
Untuk informasi lebih lanjut tentang pengawas. Oleh karena itu, pengujian ini dilakukan dengan sangat serius.
pengelompokan kemampuan, lihat Bab 9.

Evaluasi sebagai Insentif


Salah satu kegunaan penting evaluasi adalah untuk memotivasi siswa agar memberikan upaya terbaiknya (Dueck,
2014; Vagle, 2014). Intinya, nilai tinggi, bintang, dan hadiah diberikan sebagai imbalan atas kerja baik. Siswa
menghargai nilai dan hadiah terutama karena orang tua mereka menghargainya. Beberapa siswa sekolah
menengah juga menghargai nilai karena itu penting untuk masuk ke perguruan tinggi yang selektif.

Pemeriksaan Mandiri MyEdLab 13.1

BAGAIMANA PEMBELAJARAN SISWA DIEVALUASI?


DalamTASC 6

Strategi evaluasi harus sesuai dengan kegunaannya (McMillan, 2011; Penuel & Shepard, 2016; Salend, 2016).
Penilaian
Untuk memahami bagaimana penilaian dapat digunakan secara paling efektif dalam pengajaran di kelas, penting
untuk mengetahui perbedaan antara evaluasi formatif dan sumatif serta antara interpretasi yang mengacu pada
norma dan interpretasi yang mengacu pada kriteria.

Evaluasi Formatif dan Sumatif


Penunjuk Sertifikasi Penilaian dapat dibagi menjadi dua kategori: formatif dan sumatif. Pada dasarnya, evaluasi formatif menanyakan,
Untuk ujian sertifikasi guru, Anda “Seberapa baik kinerja Anda dan bagaimana Anda dapat mencapai kinerja yang lebih baik?” Evaluasi sumatif
mungkin diberikan kasus yang menanyakan, “Seberapa baik kinerja Anda?” Evaluasi formatif dirancang untuk memberi tahu guru apakah
menggambarkan evaluasi kinerja pengajaran tambahan diperlukan dan untuk memberi tahu siswa apakah pembelajaran tambahan diperlukan
siswa, dan Anda perlu mengategorikan (Gewertz, 2015; Heri tage, 2011; Higgins, 2014; Marzano et al., 2013; Tomlinson & Moon, 2013). Tes formatif,
evaluasi tersebut sebagai formatif atau atau diagnostik, diberikan untuk menemukan kekuatan dan kelemahan dalam pembelajaran dan untuk melakukan
koreksi di tengah jalan dalam hal kecepatan atau isi pengajaran (Fisher & Frey, 2014a). Evaluasi formatif bahkan
sumatif. dapat dilakukan “on the fly” selama pengajaran, melalui penyelidikan pembelajaran lisan atau tertulis singkat, atau
dengan mendengarkan siswa selama kerja kelompok. Latihan dan permainan yang terkomputerisasi semakin
banyak digunakan untuk memberikan umpan balik langsung kepada guru dan siswa terhadap pembelajaran siswa
(Phillips & Popovíc, 2012). Evaluasi formatif berguna jika bersifat informatif, terkait erat dengan kurikulum yang
diajarkan, tepat waktu, dan sering dilakukan (Dunn & Mulvenon, 2009; Fogarty & Kerns, 2009; McMillan, 2011;
Popham, 2014a; Spinelli, 2011) . Misalnya, kuis yang sering diberikan dan diberi skor segera setelah pelajaran
tertentu dapat berfungsi sebagai evaluasi formatif, memberikan umpan balik untuk membantu guru dan siswa
meningkatkan pembelajaran siswa. Penggunaan penilaian formatif secara efektif dalam pembelajaran telah dibahas di Bab 7.
Sebaliknya, evaluasi sumatif mengacu pada tes pengetahuan siswa di akhir unit struktural (seperti ujian
akhir). Evaluasi sumatif mungkin sering dilakukan atau tidak, tetapi evaluasi tersebut harus dapat diandalkan dan
(secara umum) harus memungkinkan adanya perbandingan antar siswa. Evaluasi sumatif juga harus dikaitkan
Koneksi 13.6
erat dengan evaluasi formatif dan tujuan kursus (Gronlund & Brookhart, 2009; Schimmer, 2016).
Untuk informasi lebih lanjut tentang

pengujian standar, lihat Bab 14.

Evaluasi yang Direferensikan Norma dan Kriteria


Interpretasi untuk melekatkan derajat nilai pada kinerja siswa merupakan langkah penting dalam evaluasi.
Penunjuk Sertifikasi
Perbedaan antara acuan norma dan acuan kriteria didasarkan pada cara penafsiran nilai siswa.
Tes sertifikasi guru Anda

mungkin mengharuskan Anda untuk


Interpretasi yang mengacu pada norma berfokus pada perbandingan nilai seorang siswa dengan nilai
mengevaluasi kapan akan lebih banyak
siswa lainnya. Di dalam kelas, misalnya, nilai biasanya digunakan untuk memberikan gambaran kepada guru
tepat untuk menggunakan tes yang
tentang seberapa baik kinerja siswa dibandingkan dengan teman sekelasnya. Seorang siswa mungkin juga
direferensikan kriteria dan kapan melakukannya
memiliki tingkat kelas atau peringkat sekolah (Guskey, 2014); dan dalam ujian terstandar, nilai siswa dapat
menggunakan tes yang mengacu pada norma.
dibandingkan dengan nilai kelompok norma yang mewakili secara nasional.
Interpretasi yang mengacu pada kriteria berfokus pada penilaian penguasaan siswa terhadap keterampilan
tertentu, terlepas dari bagaimana siswa lain melakukan keterampilan yang sama. Evaluasi yang mengacu pada kriteria
adalah yang terbaik jika evaluasi tersebut terkait erat dengan tujuan spesifik atau domain kurikulum yang diajarkan dengan jelas.
Tabel 13.4 membandingkan ciri-ciri utama dan tujuan pengujian yang mengacu pada kriteria dan yang mengacu
pada norma (lihat juga Waugh & Gronlund, 2013; Popham, 2014b; Thorndike & Thorndike-Christ, 2010).

M13_SLAV4054_12e_SE_C13.indd 350 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 351

TABEL 13. Perbandingan Dua Pendekatan Pengujian Prestasi


Tes yang mengacu pada norma dan tes yang mengacu pada kriteria memiliki tujuan yang berbeda dan memiliki ciri yang berbeda.

FITUR PENGUJIAN REFERENSI NORMAL PENGUJIAN BERREFERENSI KRITERIA


Penggunaan utama Pengujian survei Tes penguasaan

Penekanan utama Mengukur perbedaan individu dalam pencapaian Menjelaskan tugas yang dapat dilakukan siswa

Interpretasi hasil Membandingkan kinerja dengan individu lain Membandingkan kinerja dengan domain pencapaian yang ditentukan dengan
jelas

Cakupan konten Biasanya mencakup bidang pencapaian yang luas Biasanya berfokus pada serangkaian tugas pembelajaran yang terbatas

Sifat rencana pengujian Tabel spesifikasi umum digunakan Spesifikasi domain terperinci lebih disukai

Prosedur pemilihan item Item dipilih untuk memberikan diskriminasi maksimum Mencakup semua item yang diperlukan untuk menggambarkan kinerja

antar individu (untuk memperoleh variabilitas skor tinggi); item secara memadai; tidak ada upaya yang dilakukan untuk mengubah tingkat kesulitan

yang mudah biasanya dihilangkan dari tes item atau menghilangkan item yang mudah untuk meningkatkan variabilitas skor

Standar kinerja Tingkat kinerja ditentukan secara relatif Tingkat kinerja umumnya ditentukan secara absolut
posisi dalam beberapa kelompok yang dikenal (misalnya, siswa menempati urutan kelima standar (misalnya, siswa menunjukkan penguasaan dengan
dalam kelompok yang terdiri dari 20 orang) mendefinisikan 90 persen istilah teknis)

Sumber: Gronlund, Norman E., Cara membuat tes dan penilaian prestasi, Edisi ke-5, © 1993. Dicetak ulang atas izin Pearson Education,
Inc., Upper Saddle River, NJ.

Evaluasi formatif hampir selalu menjadi acuan kriteria. Dalam pengujian formatif, guru ingin mengetahui,
misalnya, siapa yang mengalami kesulitan dengan hukum termodinamika Newton, bukan siswa mana yang
menduduki peringkat pertama, kelima belas, atau ketiga puluh di kelas dalam pengetahuan fisika. Sebaliknya,
pengujian sumatif dapat berupa acuan kriteria atau acuan norma. Sekalipun tes tersebut mengacu pada kriteria,
guru biasanya ingin mengetahui, pada tes sumatif, bagaimana kinerja masing-masing siswa dibandingkan dengan
siswa lainnya.

Mencocokkan Strategi Evaluasi dengan Sasaran


Mengingat semua faktor yang dibahas sampai saat ini, apa strategi terbaik untuk mengevaluasi siswa?
Jawaban pertama adalah tidak ada satu strategi terbaik (Penuel & Shepard, 2016; Popham, 2014a, b). Cara
terbaik untuk mencapai salah satu tujuan evaluasi mungkin tidak sesuai untuk tujuan lainnya. Oleh karena itu,
Anda harus memilih jenis evaluasi yang berbeda untuk tujuan yang berbeda.
Minimal, dua jenis evaluasi harus digunakan: satu diarahkan pada pemberian insentif dan umpan balik, dan yang
lainnya diarahkan pada peringkat siswa secara individu dibandingkan dengan kelompok yang lebih besar.

EVALUASI UNTUK INSENTIF DAN UMPAN BALIK Nilai tradisional seringkali tidak memadai sebagai insentif
untuk mendorong siswa memberikan upaya terbaiknya dan sebagai umpan balik kepada guru dan siswa
(Tomlinson & Moon, 2014; Wiliam, 2014). Permasalahan utamanya adalah nilai diberikan terlalu jarang, waktunya
terlalu jauh dari kinerja siswa, dan tidak terikat dengan perilaku siswa tertentu. Penelitian telah menemukan
bahwa prestasi belajar lebih tinggi di ruang kelas di mana siswa menerima umpan balik langsung pada kuis
mereka dibandingkan di kelas di mana umpan balik tertunda (Duckor, 2014; Tomlinson, 2014a; Wiggins, 2012).

Alasan lain mengapa nilai kurang dari ideal sebagai insentif adalah karena nilai tersebut biasanya didasarkan pada standar
komparatif. Akibatnya, relatif mudah bagi siswa berkemampuan tinggi untuk mencapai nilai A dan B, namun sangat sulit bagi siswa
berkemampuan rendah untuk mencapainya. Akibatnya, beberapa orang yang berprestasi tinggi melakukan pekerjaan lebih sedikit
daripada yang mampu mereka lakukan, dan beberapa orang yang berprestasi rendah menyerah. Seperti disebutkan dalam Bab 10, Koneksi 13.7
imbalan yang terlalu mudah atau terlalu sulit untuk diperoleh, atau imbalan yang dirasakan lebih merupakan hasil dari kemampuan Imbalan dan motivasi dibahas di

dibandingkan usaha, merupakan motivator yang buruk (Chapman & King, 2005; Wigfield & Eccles, 2000). Bab 5.
Oleh karena itu, penilaian tradisional harus dilengkapi dengan evaluasi yang dirancang lebih baik untuk
memberikan insentif dan umpan balik. Misalnya, guru mungkin memberikan kuis harian yang terdiri dari 5 atau 10
item yang dinilai di kelas segera setelah selesai, atau mereka mungkin meminta siswa menulis “esai mini” harian Koneksi 13.8
tentang topik yang sedang dipelajari di kelas. Hal ini memberikan siswa dan guru informasi yang mereka perlukan Untuk mengetahui lebih lanjut mengenai

untuk menyesuaikan strategi pengajaran dan pembelajaran mereka dan untuk memperbaiki kekurangan yang imbalan apa yang menjadikan motivator

ditemukan dalam evaluasi (Shepard, 2005). Jika guru menjadikan hasil kuis penting dengan meminta mereka buruk, lihat Bab 10.

memperhitungkan nilai mata pelajaran atau dengan memberikan tugas yang sempurna kepada siswa

M13_SLAV4054_12e_SE_C13.indd 351 02/11/16 17:16


Machine Translated by Google

352 BAB TIGA BELAS

pengakuan atau sertifikat khusus, maka nilai kuis juga berfungsi sebagai insentif yang efektif, memberi
penghargaan pada perilaku belajar yang efektif segera setelah hal itu terjadi. Penting untuk memiliki serangkaian
kriteria yang jelas dan obyektif untuk membandingkan pekerjaan siswa sehingga siswa dapat melihat dengan
tepat mengapa mereka mendapat nilai seperti itu. Jika kriteria tersebut diilustrasikan dengan menggunakan rubrik
Koneksi 13.9 yang mempunyai gambaran berbagai tingkat pencapaian (skor) serta contoh hasil karya siswa yang berada
Untuk informasi lebih lanjut tentang imbalan itu
pada tingkat pencapaian tertinggi (atau lebih baik lagi, itulah tipikal dari setiap kemungkinan skor yang mungkin
terlalu mudah untuk dicapai, diterima siswa). sesuai rubrik), maka siswa dapat melihat secara pasti bagaimana prestasinya dibandingkan
lihat Bab 10. dengan kriteria (Stiggins & Chappuis, 2012).

Evaluasi untuk Dibandingkan dengan Orang Lain


Ada kalanya Anda perlu mengetahui dan mengomunikasikan seberapa baik kinerja siswa dibandingkan dengan
siswa lain. Informasi ini penting untuk memberikan gambaran realistis kepada orang tua (dan siswa itu sendiri)
mengenai kinerja siswa. Misalnya, siswa yang memiliki keterampilan luar biasa dalam sains harus mengetahui
bahwa mereka luar biasa, tidak hanya dalam konteks kelas atau sekolah, namun juga dalam konteks negara
bagian atau nasional yang lebih luas. Secara umum, siswa perlu membentuk persepsi yang akurat tentang
kekuatan dan kelemahan mereka untuk memandu keputusan mereka tentang masa depan.
Evaluasi komparatif biasanya diberikan berdasarkan nilai dan tes standar. Berbeda dengan evaluasi
insentif/umpan balik, evaluasi komparatif tidak perlu sering dilakukan.
Sebaliknya, penekanan dalam evaluasi komparatif haruslah pada penilaian kinerja siswa yang adil, tidak
memihak, dan dapat diandalkan.
Agar adil, evaluasi komparatif dan penilaian sumatif lainnya terhadap kinerja siswa harus benar-benar
didasarkan pada tujuan yang ditetapkan di awal kursus dan konsisten dengan format evaluasi insentif/umpan
balik formatif. Tidak ada guru yang menginginkan suatu situasi
Koneksi 13.10 dimana siswa mengerjakan penilaian minggu demi minggu dengan baik tetapi kemudian gagal dalam evaluasi sumatif
Untuk informasi lebih lanjut karena tidak adanya korespondensi antara kedua bentuk evaluasi tersebut. Misalnya, jika tes sumatif
mengenai nilai dan tes menggunakan soal esai, maka tes formatif yang mendahuluinya juga harus menyertakan soal esai (Tileston &
standar, lihat Bab 14. Darling, 2008).
Ada dua kunci penilaian sumatif yang andal. Pertama, Anda harus menggunakan berbagai peluang
penilaian (Brookhart & Nitko, 2015; Popham, 2014a). Tidak ada siswa yang boleh menerima nilai berdasarkan

PEMBELAJARAN ABAD 21
Munculnya Common Core State Standards, yang dibahas secara rinci di Bab 14, mempunyai implikasi
besar terhadap penilaian kelas. Penilaian berdasarkan Common Core akan digunakan untuk
akuntabilitas di sebagian besar negara bagian. Agar adil bagi siswa (dan guru), siswa harus memiliki
kesempatan rutin untuk mempraktikkan aktivitas dan penilaian berdasarkan Standar Umum Negara
Bagian. Standar Seni Bahasa Inggris/Bahasa menekankan analisis dan integrasi konten, penulisan,
penggunaan teknologi, dan kolaborasi, yang semuanya dapat dan harus mempengaruhi penilaian
kelas juga. Standar Matematika em
fase pemecahan masalah, penalaran, membangun argumen, dan kolaborasi. Hal ini akan menjadi
bagian yang berharga dari penilaian reguler bahkan jika Common Core tidak ada, namun penerapan
Common Core secara luas memberi guru satu alasan lagi untuk fokus pada pembelajaran yang lebih
mendalam, integrasi konten yang beragam, penggunaan teknologi, dan kolaborasi ( Marzano dkk.,
2013; Zhao, 2015).

Kreativitas dan Pemecahan Masalah Otentik


DalamTASC 5
Sejak era progresif dimulai seratus tahun yang lalu, para pendidik telah menganjurkan kreativitas
Penerapan dan keterampilan pemecahan masalah yang autentik sebagai hasil utama pendidikan. Namun karena
Konten hasil-hasil ini sulit dan memakan waktu untuk diukur secara andal, hasil-hasil tersebut sering kali
diremehkan dibandingkan dengan fakta dan keterampilan yang relatif mudah untuk dinilai. Perangkat
lunak penilaian baru, khususnya pengujian adaptif, mulai membuat penilaian reguler terhadap
kreativitas dan pemecahan masalah autentik menjadi lebih praktis, seperti ketika komputer digunakan untuk

M13_SLAV4054_12e_SE_C13.indd 352 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 353

menimbulkan masalah yang kompleks dan terbuka pada tingkat keberfungsian siswa yang tepat. Solusi seperti
ini, yang sering digunakan sebagai penilaian patokan dan penilaian sumatif, akan segera membantu guru untuk
lebih fokus pada keterampilan penting abad ke-21 ini dan untuk memantau perkembangan siswa sebagai
pemecah masalah yang kreatif.

PERTANYAAN

hanya pada satu tes, karena terlalu banyak tes bisa salah hanya dengan satu penilaian. Kedua, Anda harus menguji
pembelajaran pada saat pembelajaran telah selesai, bukan pada saat pembelajaran sedang berkembang. Lebih baik
mengumpulkan informasi evaluasi sumatif ketika siswa menyelesaikan unit pembelajaran, serta menggunakan unit utama dan tes akhir.

Pemeriksaan Mandiri MyEdLab 13.2

Alat Analisis Video MyEdLab 13.1 Buka MyEdLab dan klik Alat Analisis Video untuk mengakses
latihan “Penilaian formatif: perspektif guru.”

Alat Analisis Video MyEdLab 13.2 Kunjungi MyEdLab dan klik Alat Analisis Video untuk mengakses
latihan “Penilaian formatif: revisi dan praktik.”

BAGAIMANA UJI DIBUAT?


Setelah Anda mengetahui domain konsep yang akan dinilai dalam tes pembelajaran siswa, sekarang saatnya menulis soal
Koneksi 13.11
tes. Menulis tes prestasi yang baik adalah keterampilan penting untuk pengajaran yang efektif. Bagian ini menyajikan
Untuk informasi lebih lanjut tentang pencapaian
beberapa prinsip dasar pengujian prestasi dan beberapa alat praktis untuk konstruksi tes (lihat Chappuis, 2015; Miller et al.,
pengujian sehubungan dengan
2013; Popham, 2014; Salend, 2016; Witte, 2012). Pengujian prestasi dibahas lagi di Bab 14 sehubungan dengan tes standar.

Bab 14.

Prinsip Pengujian Prestasi


Gronlund dan Brookhart (2009) mencantumkan enam prinsip yang perlu diingat dalam mempersiapkan tes prestasi, yang
diparafrasekan sebagai berikut:

1. Tes prestasi harus mengukur tujuan pembelajaran yang ditetapkan dengan jelas dan selaras dengan tujuan Koneksi 13.12
struktural. Mungkin prinsip yang paling penting dari pengujian prestasi adalah bahwa tes tersebut harus sesuai Untuk informasi lebih lanjut tentang

dengan tujuan kursus dan dengan instruksi yang sebenarnya diberikan (Lloyd et al., 2013; Squires, 2009; Thorndike karakteristik dan kegunaannya
& Thorndike-Christ, 2010; Waugh & Gronlund, 2013). Tes prestasi tidak boleh menjadi kejutan bagi siswa;
sebaliknya, penilaian tersebut harus menilai pemahaman siswa terhadap konsep atau keterampilan paling penting tes, lihat Bab 14.
yang seharusnya diajarkan dalam pelajaran atau kursus tersebut.

2. Tes prestasi harus mengukur sampel yang representatif dari tugas-tugas pembelajaran yang termasuk dalam
pengajaran. Dengan pengecualian yang jarang terjadi (seperti fakta perkalian), tes prestasi tidak menilai setiap
keterampilan atau fakta yang seharusnya dipelajari siswa. Sebaliknya, mereka mengambil sampel dari semua tujuan
pembelajaran. Jika siswa tidak mengetahui sebelumnya pertanyaan apa yang akan diujikan, maka mereka harus
mempelajari seluruh isi kursus agar dapat mengerjakannya dengan baik. Namun, soal tes harus mewakili seluruh
tujuan (isi dan keterampilan) yang dicakup.
Misalnya, jika kursus sastra Inggris menghabiskan waktu 8 minggu untuk membahas Shakespeare dan 2 minggu
untuk penulis Elizabethan lainnya, tes tersebut harus memuat soal yang berkaitan dengan Shakespeare sekitar
empat kali lebih banyak dibandingkan item lainnya. Item yang dipilih untuk mewakili tujuan tertentu harus menjadi
pusat tujuan tersebut. Tidak ada tempat dalam pengujian prestasi untuk pertanyaan rumit atau tidak jelas. Misalnya,
pengujian unit pada Revolusi Amerika harus menanyakan pertanyaan terkait

M13_SLAV4054_12e_SE_C13.indd 353 17/11/16 10:31


Machine Translated by Google

354 BAB TIGA BELAS

tentang penyebab, peristiwa-peristiwa utama, dan hasil perjuangan tersebut, bukan tentang siapa yang
mendayung George Washington melintasi Delaware. (Jawaban: John Glover dan Marinir Marblehead-nya.)

3. Tes prestasi hendaknya mencakup jenis-jenis soal tes yang paling tepat untuk mengukur hasil belajar
yang diinginkan. Butir-butir tes prestasi harus sedekat mungkin dengan tujuan akhir pembelajaran (Banks,
2012; Schimmer, 2014; Witte, 2012).
Misalnya, dalam pemecahan masalah matematika, salah satu tujuan Anda mungkin adalah memungkinkan
siswa memecahkan masalah seperti yang akan mereka temui di luar sekolah. Mencocokkan item atau
pertanyaan pilihan ganda mungkin tidak sesuai untuk ujian semacam ini, karena dalam kehidupan nyata kita
tidak memilih dari menu solusi yang mungkin untuk suatu masalah.

4. Tes prestasi harus sesuai dengan kegunaan tertentu dari hasil tersebut. Setiap jenis tes prestasi memiliki
persyaratannya masing-masing. Misalnya, tes yang digunakan untuk diagnosis akan berfokus pada
keterampilan tertentu yang mungkin memerlukan bantuan siswa. Tes diagnostik aritmatika dasar mungkin
berisi soal-soal pengurangan yang melibatkan angka nol di minuend (misalnya, 307 dikurangi 127), suatu
Koneksi 13.13 keterampilan yang sulit dilakukan oleh banyak siswa. Sebaliknya, tes yang digunakan untuk memprediksi
Untuk informasi lebih lanjut kinerja masa depan mungkin menilai kemampuan umum dan luasnya pengetahuan siswa. Tes formatif harus
mengenai reliabilitas sangat erat kaitannya dengan materi yang baru saja disajikan, sedangkan tes sumatif harus mensurvei
tes prestasi, lihat Bab 14. bidang pengetahuan atau keterampilan yang lebih luas.

5. Tes prestasi harus dapat diandalkan, namun harus ditafsirkan dengan hati-hati. Suatu tes dikatakan reliabel
jika siswa yang diuji untuk kedua kalinya mempunyai urutan peringkat yang sama. Secara umum, penulis tes
prestasi meningkatkan reliabilitas tes dengan menggunakan sejumlah besar soal dan dengan memasukkan
beberapa soal yang hampir semua siswa dapat menjawabnya dengan benar atau yang hampir semua siswa tidak
menjawabnya (O'Connor, 2009). Penggunaan soal yang ditulis dengan jelas dan fokus langsung pada tujuan yang
sebenarnya diajarkan juga meningkatkan reliabilitas tes. Namun, betapapun ketatnya reliabilitas dibangun dalam
suatu pengujian, akan selalu ada beberapa kesalahan pengukuran. Siswa mempunyai hari-hari baik dan buruk
atau dapat menjadi penebak yang beruntung atau tidak beruntung. Beberapa siswa pandai dalam ujian dan
biasanya ujiannya bagus; yang lain cemas menghadapi ujian dan ujiannya jauh di bawah pengetahuan atau potensi mereka yang sebenar
Oleh karena itu, tidak ada satu pun nilai tes yang boleh dipandang dengan keyakinan berlebihan. Nilai tes apa
pun hanyalah perkiraan dari pengetahuan atau keterampilan siswa yang sebenarnya dan harus ditafsirkan demikian.

6. Tes prestasi harus meningkatkan pembelajaran. Segala jenis tes prestasi, khususnya tes matif, memberikan
informasi penting tentang kemajuan belajar siswa (Dueck, 2014; Sousa, 2016). Stiggins dan Chappuis (2012),
misalnya, mendesak agar penilaian pembelajaran lebih penting daripada penilaian pembelajaran . Tes
prestasi harus dilihat sebagai bagian dari proses pembelajaran dan digunakan untuk meningkatkan
pengajaran dan membimbing pembelajaran siswa (Chappuis, 2015; Russell & Airasian, 2012). Artinya, hasil
tes prestasi harus dikomunikasikan dengan jelas kepada siswa segera setelah tes dilaksanakan; dalam hal
tes formatif, siswa harus segera diberikan hasilnya. Guru harus menggunakan hasil tes formatif dan sumatif
untuk memandu pengajaran, untuk menemukan titik kuat dan lemah dalam pemahaman siswa, dan untuk
menetapkan kecepatan pengajaran yang tepat.

DalamTASC 6
TEORI MENJADI PRAKTEK
Penilaian
Membuat Penilaian Adil
Meskipun keadilan dalam penilaian adalah sesuatu yang diyakini semua orang, mendefinisikan keadilan
sebagai penilaian tidaklah mudah. Memang benar, edisi terbaru dari Standar Tes Pendidikan dan
Psikologi memberikan empat definisi dan mengakui bahwa masih banyak definisi lain yang muncul dalam
literatur (AERA/APA/NCME, 1999). Keadilan berarti bersikap jujur, tidak memihak, dan bebas dari
diskriminasi. Selain etis, keadilan juga masuk akal dalam pembelajaran. Pengujian yang adil mendorong
siswa untuk mengeluarkan lebih banyak upaya dalam belajar karena mereka menyadari bahwa
kesuksesan hanya bergantung pada apa yang mereka ketahui dan mampu lakukan (Oosterhof, 2009).
Keadilan dalam penilaian muncul dari praktik yang baik dalam empat fase pengujian: menulis,
melaksanakan, menilai, dan menafsirkan penilaian. Praktik-praktik yang mengarah pada keadilan dalam
bidang-bidang ini dibahas secara terpisah di bawah ini.

M13_SLAV4054_12e_SE_C13.indd 354 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 355

Penilaian Penulisan Dasarkan penilaian pada tujuan kursus. Siswa mengharapkan tes untuk mencakup apa
yang telah mereka pelajari. Mereka juga berhak atas tes yang tidak “mengelabui” mereka agar memberikan
jawaban yang salah atau memberi mereka imbalan dengan skor tinggi karena menebak atau menggertak.
Hindari konteks dan ekspresi yang lebih familier atau menarik bagi beberapa siswa dibandingkan siswa
lainnya. Salah satu tantangan dalam tes menulis adalah memastikan tidak ada siswa yang diuntungkan atau
dirugikan karena latar belakang mereka yang berbeda. Misalnya, contoh yang berhubungan dengan musik,
olahraga, atau selebriti mungkin menarik bagi sebagian siswa tetapi tidak bagi siswa lainnya. Pilihan bahasa dan
topik tertentu sebaiknya tidak digunakan jika topik tersebut lebih dikenal atau menarik bagi sebagian siswa
dibandingkan siswa lainnya. Jika menghindari pilihan-pilihan tersebut ternyata mustahil, maka paling tidak
pastikan soal-soal yang disukai sebagian siswa diimbangi dengan soal-soal lain yang disukai siswa lainnya.

Pemberian Penilaian Pastikan siswa mempunyai kesempatan yang sama dalam mempelajari materi pada
penilaian. Terlepas dari apakah siswa telah belajar sebanyak yang mereka bisa, setidaknya mereka seharusnya
mempunyai kesempatan yang sama untuk melakukannya. Jika beberapa siswa diberi waktu tambahan atau
materi yang dirahasiakan dari siswa lain, siswa lain tersebut mungkin tidak akan merasa diperlakukan dengan
adil.
Pastikan siswa memahami format yang akan mereka gunakan untuk merespons. Jika beberapa siswa
merasa tidak nyaman dengan jenis pertanyaan dalam suatu penilaian, mereka tidak akan mempunyai kesempatan
yang sama untuk menunjukkan apa yang dapat mereka lakukan. Jika itu masalahnya, berikan beberapa latihan
dengan format tersebut sebelumnya untuk membantu mereka berhasil.
Beri banyak waktu. Kebanyakan tes di bidang pendidikan tidak mencakup konten yang pada akhirnya
akan digunakan di bawah tekanan waktu. Oleh karena itu, sebagian besar penilaian harus menghargai kualitas,
bukan kecepatan. Hanya dengan memberikan waktu yang cukup sehingga hampir semua siswa mempunyai
kesempatan untuk menjawab setiap pertanyaan, Anda dapat mencegah ketergesaan menjadi penghalang kinerja.

Penilaian Penilaian Pastikan rubrik yang digunakan untuk menilai jawaban memberikan kredit penuh pada
jawaban yang responsif terhadap pertanyaan yang diajukan, bukan memerlukan informasi lebih banyak daripada
yang diminta untuk kredit penuh. Jika pertanyaan tersebut tidak mendorong siswa yang berpengetahuan untuk
menulis jawaban yang mendapat kredit penuh, maka pertanyaan tersebut harus diubah. Tidaklah adil untuk
memberi penghargaan kepada beberapa siswa karena melakukan lebih dari yang diminta dalam butir tersebut;
tidak semua siswa memahami petunjuk yang sebenarnya (dan tersembunyi) karena belum diberitahu.

Menafsirkan Penilaian Dasarkan nilai pada penilaian sumatif di akhir unit, bukan penilaian formatif yang
digunakan untuk membuat keputusan mengenai pembelajaran yang sedang berlangsung. Yang terakhir ini
dimaksudkan sebagai diagnostik dan digunakan untuk membantu mencapai pembelajaran. Karena nilai
menyatakan pencapaian, maka nilai tersebut harus ditentukan berdasarkan penilaian yang dilakukan setelah
pembelajaran berlangsung.
Mendasarkan nilai pada beberapa format penilaian (McTighe & Wiggins, 2013). Karena siswa berbeda-
beda dalam format pilihan mereka, beberapa siswa diuntungkan dengan tes respons terpilih, yang lain dengan
tes esai, yang lain dengan penilaian kinerja, dan yang lainnya lagi dengan makalah dan proyek. Selain itu, nilai
dasar pada beberapa penilaian yang diambil pada waktu berbeda. Buatlah akomodasi yang sesuai untuk pelajar
bahasa Inggris dan siswa penyandang disabilitas, seperti memberikan lebih banyak waktu pada ujian jika mereka
memerlukannya (Herrera, Cabral, & Murray, 2013; Voltz, Sims, & Nelson, 2010). Yang terakhir, pastikan faktor-
faktor yang mungkin mengakibatkan kinerja siswa yang tidak lazim diketahui untuk meminimalkan pentingnya
nilai siswa dalam penilaian tersebut. Jika diketahui bahwa seorang siswa belum melakukan yang terbaik, maka
mendasarkan nilai atau keputusan penting lainnya pada penilaian tersebut bukan hanya tidak adil tetapi juga
tidak akurat.

M13_SLAV4054_12e_SE_C13.indd 355 02/11/16 17:16


Machine Translated by Google

356 BAB TIGA BELAS

DI WEB
DiscoverySchool.com memiliki rubrik untuk setiap jenis penilaian, serta rencana pembelajaran dan
informasi berguna lainnya bagi para pendidik. Untuk rubrik penilaian proyek siswa, lihat
eduscapes.com. Untuk situs web tentang pembuatan rubrik, lihat http://rubistar.4teachers.org/ dan
http://elearningindustry.com/
5-alat-pembuat-rubrik-gratis-terbaik-untuk-guru.

Menggunakan Tabel Spesifikasi


Tes prestasi harus mengukur tujuan yang ditentukan dengan baik. Langkah pertama dalam proses pengembangan tes adalah
memutuskan domain konsep mana yang akan diukur oleh tes tersebut dan berapa banyak soal tes yang akan ditempatkan
pada setiap konsep. Waugh & Gronlund (2013) menyarankan agar guru membuat tabel spesifikasi untuk setiap unit
pembelajaran, mencantumkan berbagai tujuan yang diajarkan dan berbagai tingkat pemahaman yang akan dinilai (lihat juga
Guskey, 2005). Tingkat pemahaman mungkin sesuai dengan taksonomi tujuan pendidikan Bloom (Bloom et al., 1956; Marzano
& Kendall, 2009).
Bloom, Hastings, dan Madaus (1971) merekomendasikan pengklasifikasian soal tes untuk setiap tujuan menurut enam kategori,
seperti yang ditunjukkan pada Tabel 13.5, tabel spesifikasi unit IPS.
Tabel spesifikasi bervariasi untuk setiap jenis kursus dan hampir identik dengan matriks isi perilaku, yang dibahas
sebelumnya dalam bab ini. Hal ini sebagaimana mestinya; matriks isi perilaku digunakan untuk memaparkan tujuan suatu
kursus, dan tabel spesifikasi menguji tujuan tersebut.
Setelah Anda menulis item yang sesuai dengan tabel spesifikasi Anda, periksa tes secara keseluruhan dan evaluasi
berdasarkan standar berikut:

1. Apakah item-item tersebut menekankan konsep yang sama dengan yang Anda tekankan dalam pembelajaran sehari-hari?
(Ingat bagaimana Pak Sullivan, dalam sketsa pembuka bab, mengabaikan aturan yang masuk akal ini.)

2. Apakah ada bagian penting dari isi atau tujuan yang diabaikan atau diremehkan?

3. Apakah tes tersebut mencakup semua tingkat tujuan pembelajaran yang termasuk dalam pelajaran?

4. Apakah bahasa item tersebut sesuai dengan bahasa dan tingkat membaca yang Anda gunakan
pelajaran?

5. Apakah petunjuknya jelas, bahkan bagi siswa yang mengalami kesulitan dalam memberikan petunjuk?
6. Apakah terdapat keseimbangan yang masuk akal antara apa yang diukur benda-benda tersebut dan lamanya waktu pengukuran tersebut

akan diperlukan bagi siswa untuk mengembangkan respons?

7. Apakah Anda menulis jawaban model atau kerangka komponen penting untuk soal esai pendek?
Apakah bobot setiap item mencerminkan nilai relatifnya di antara item lainnya?

Evaluasi yang dibatasi pada informasi yang diperoleh dari tes kertas dan pensil hanya memberikan jenis informasi
tertentu tentang kemajuan siswa di sekolah. Sumber dan strategi lain untuk penilaian pekerjaan siswa harus digunakan,
termasuk daftar periksa, wawancara, simulasi kelas, kegiatan bermain peran, dan catatan anekdot. Untuk melakukan hal ini
secara sistematis, Anda dapat membuat jurnal atau catatan untuk mencatat informasi evaluatif yang ringkas dan meyakinkan
tentang setiap siswa sepanjang tahun ajaran.

Menulis Soal Tes Respon Terpilih


Soal tes yang dapat diberi skor benar atau salah tanpa memerlukan interpretasi disebut sebagai soal respons terpilih. Bentuk
soal pilihan ganda, benar-salah, dan menjodohkan adalah bentuk yang paling umum. Perhatikan bahwa jawaban yang benar
muncul pada tes dan tugas siswa adalah memilihnya. Tidak ada keraguan apakah siswa telah memilih jawaban yang benar atau
belum.
Namun setiap jenis memiliki kelebihan dan kekurangannya masing-masing.

ITEM PILIHAN GANDA Dianggap oleh sebagian pendidik sebagai bentuk tes yang paling berguna dan fleksibel (Badgett &
Christmann, 2009; Waugh & Gronlund, 2013), item pilihan ganda dapat digunakan dalam tes untuk sebagian besar mata
pelajaran sekolah. Bentuk dasar soal pilihan ganda adalah batang yang diikuti pilihan atau alternatif. Batangnya bisa berupa
pertanyaan atau pernyataan parsial yang dilengkapi dengan salah satu dari beberapa pilihan. Tidak ada jumlah pilihan yang
sempurna, namun penggunaan empat atau lima adalah pilihan yang paling umum—satu jawaban yang benar dan jawaban yang
salah namun masuk akal yang disebut sebagai pengecoh atau penghalang.

M13_SLAV4054_12e_SE_C13.indd 356 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 357

TABEL 13. Tabel Spesifikasi Unit Ilmu Sosial tentang Hak Pilih
Tabel spesifikasi ini mengklasifikasikan soal tes dan tujuan menurut enam kategori mulai dari pengetahuan istilah hingga kemampuan menerapkan pengetahuan.

D. KETERAMPILAN

C. PENGETAHUAN DALAM PENGGUNAAN E. KEMAMPUAN


A. PENGETAHUAN B. PENGETAHUAN ATURAN DAN PROSES DAN UNTUK MEMBUAT F. KEMAMPUAN MEMBUAT
KETENTUAN FAKTA PRINSIP PROSEDUR TERJEMAHAN APLIKASI

Hak pilih Buatlah garis waktu Hukum apa yang dilakukan Buat Venn Tulislah entri buku harian dari sudut

peristiwa penting dalam hak pilih rusak? diagram untuk membandingkan pandang seorang gadis remaja yang

hak pilih dan membedakan ibunya dipenjara saat unjuk rasa


pergerakan kelompok hak pilih dengan pendukung hak pilih.

kelompok lain di Amerika


yang tidak diberi hak untuk

memilih.

Persamaan Berikan tiga Bandingkan hak-hak Bagaimana kabarnya Kelas akan terbentuk Teliti dan tulis laporan tentang

contoh bagaimana perempuan di Amerika prinsip-prinsip yang dua tim yang akan berdebat ketidaksetaraan gender hari ini.
perempuan tidak Serikat pada tahun tercantum dalam tentang apakah ada kesetaraan Bandingkan dengan ketidaksetaraan

diberikan hak yang 1920 dengan hak- Proklamasi Kemerdekaan di antara semua siswa di gender yang terjadi pada masa

setara dengan laki- hak perempuan di Athena tidak sejalan dengan hukum sekolah kami. gerakan hak pilih di Amerika.

laki kuno. bagi perempuan, dan Apa pendapat Anda tentang istilah

khususnya bagi “kesetaraan”—apakah ada derajat


Amerika Afrika kesetaraan?
wanita?

Suara Tulislah paragraf Anggaplah Anda Sebutkan situasi di mana Setelah pemilih Di banyak negara, masyarakat tidak

singkat tentang apa itu bertanggung jawab atas Anda akan menggunakan surat memberikan suaranya, dapat memilih. Jika kita tidak dapat

surat suara kotak suara pada tahun 1916. Buatlah


suara bahkan sampai sekarang bagaimana cara mereka menentukannya
memilih di negara kita, bagaimana

daftar aturan yang akan siapa yang memenangkan pemilu? hal ini dapat mengubah kehidupan

Anda posting di dalamnya. pemerintahan dan masyarakat kita?

Kewarganegaraan Definisikan sipil Apa artinya Tindakan apa yang Identifikasi lima orang dalam Kembangkan proyek perbaikan
menjadi dapat Anda ambil sejarah yang/ masyarakat hipotetis.
berpikiran sipil? untuk berwawasan sipil? berpikiran sipil dan menjelaskan

apa yang mereka lakukan

Piket Jelaskan apa yang Apakah piket itu Buatlah tanda piket Temukan artikel surat Mengapa hak untuk melakukan

dimaksud dengan piket sah? tentang sesuatu yang kabar tentang situasi protes merupakan bagian penting

serius yang ingin Anda protes di mana dari demokrasi kita?

piket terlibat. Tulis


opini 1-2 paragraf tentang

apakah menurut Anda itu

cara paling efektif untuk


memprotes dalam situasi

tersebut.

Contoh berikut menunjukkan dua jenis item pilihan ganda, satu dengan pertanyaan
batang tion dan yang lainnya dengan batang penyelesaian:

1. Warna apa yang dihasilkan dari campuran cat kuning dan biru dengan perbandingan yang sama?
A. Hitam

B. Abu-abu
C. Hijau [pilihan yang benar]
D. Merah

2. Presiden AS sebenarnya dipilih oleh


A. seluruh pemilih terdaftar.
B. perwakilan kongres kami.

M13_SLAV4054_12e_SE_C13.indd 357 02/11/16 17:16


Machine Translated by Google

358 BAB TIGA BELAS

C. Perguruan Tinggi Pemilihan. [pilihan yang benar]


D. Mahkamah Agung.

Saat menulis soal pilihan ganda, ingatlah dua tujuan. Pertama, siswa yang berkemampuan harus mampu memilih
jawaban yang benar dan tidak terganggu oleh alternatif yang salah. Kedua, Anda harus meminimalkan kemungkinan siswa
yang tidak mengetahui materi pelajaran dapat menebak jawaban yang benar. Untuk mencapai hal ini, para pengacau harus
terlihat mungkin bagi mereka yang kurang informasi; kata-kata dan bentuknya tidak boleh langsung mengidentifikasi
jawaban-jawaban tersebut sebagai jawaban yang buruk. Oleh karena itu, salah satu tugas dalam menulis soal pilihan
ganda yang baik adalah mengidentifikasi dua, tiga, atau empat pengecoh yang masuk akal, namun tidak rumit.

TEORI MENJADI PRAKTEK


Menulis Tes Pilihan Ganda (Saran Format)

M13_SLAV4054_12e_SE_C13.indd 358 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 359

M13_SLAV4054_12e_SE_C13.indd 359 02/11/16 17:16


Machine Translated by Google

360 BAB TIGA BELAS

GAMBAR
13.2 Ujian Tes berikut ini tentang negara buatan, Quizzerland. Gunakan kebijaksanaan tes Anda untuk menebak jawaban
“Ujian Kebijaksanaan” dari soal-soal yang sangat buruk ini.
1. Apa mata uang utama yang digunakan di Quizzerland?
A. Dolar
B. Peso
C. kuark
D. Pound

2. Jelaskan pola curah hujan tahunan di Quizzerland.


A. Kebanyakan hujan di dataran tinggi, kering di dataran rendah
B. Hujan
C. Kering

D. Salju
3. Berapa jumlah anak dalam keluarga Quizzerlandian?
A. Tidak pernah lebih dari 2

B. Biasanya 2–3
C. Selalu minimal 3
D. Tidak ada

4. Apa jawaban yang tepat untuk setiap pertanyaan yang diajukan di sini?
A.
B.
C.
D.
Jawaban:

1.c (proses eliminasi)


2. a (item yang lebih panjang dengan kualifikasi biasanya benar)
3. b (“item selalu” dan “tidak pernah” biasanya salah)
4.d (respon ini belum digunakan)

ITEM BENAR – SALAH Jenis pertanyaan pilihan ganda lainnya adalah soal benar – salah. Kelemahan utama format benar-
salah adalah siswa mempunyai peluang 50 persen untuk menebak dengan benar. Oleh karena itu, sebaiknya jarang
digunakan.

ITEM YANG COCOK Seperti yang umum disajikan, item yang cocok biasanya berbentuk dua daftar, katakanlah A dan B.
Untuk setiap item dalam daftar A, siswa harus memilih satu item dalam daftar B. Dasar pemilihan harus dijelaskan dengan
jelas dalam petunjuknya. . Item yang cocok dapat digunakan untuk mencakup konten dalam jumlah besar; yaitu, sejumlah
besar konsep (tetapi tidak terlalu besar) harus muncul dalam dua daftar. Setiap daftar harus mencakup konten terkait (gunakan
lebih dari satu set item yang cocok untuk jenis materi berbeda). Keterampilan kognitif utama yang diujikan latihan mencocokkan
adalah mengingat.
Item yang cocok seringkali dapat dijawab dengan eliminasi karena banyak guru yang menjaga korespondensi satu
lawan satu antara kedua daftar tersebut. Untuk melibatkan siswa dalam konten, bukan format, guru harus memasukkan lebih
banyak item dalam daftar B daripada di daftar A atau mengizinkan penggunaan kembali item dalam daftar B.

Menulis Item Respons yang Dibangun


Item respons yang dibangun mengharuskan siswa untuk menyediakan, bukan memilih jawabannya. Bentuk yang paling
sederhana adalah isian pada bagian yang kosong, yang sering kali dapat ditulis untuk mengurangi atau menghilangkan
ambiguitas dalam penilaian. Namun, tanggapan yang tidak diantisipasi mungkin menghasilkan jawaban yang ambigu,
sehingga menimbulkan pertanyaan di benak instruktur tentang cara menilainya. Item respons yang dikonstruksi juga tersedia
dalam bentuk esai pendek dan esai panjang.

M13_SLAV4054_12e_SE_C13.indd 360 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 361

ISI ITEM YANG KOSONG Ketika jelas hanya ada satu kemungkinan jawaban yang benar, format yang menarik adalah
penyelesaian, atau “isi bagian yang kosong,” seperti dalam contoh berikut.

1. Kota terbesar di Jerman adalah 2. __________.

Berapakah 15 persen dari $198,00? __________


3. Besaran hambatan listrik adalah __________.

Kelebihan soal penyelesaian ini adalah dapat mengurangi unsur tes


kebijaksanaan mendekati nol. Misalnya, bandingkan item berikut:

1. Ibukota Maine adalah 2. __________.

Ibukota Maine adalah


A. Sacramento

B. Agustus

C. Juneau
D. Boston

Seorang siswa yang tidak tahu apa ibu kota Maine dapat memilih Augusta dari daftar di item 2 karena mudah
untuk mengesampingkan tiga kota lainnya. Namun pada butir 1, siswa harus mengetahui jawabannya. Soal
penyelesaian sangat berguna dalam matematika, karena soal pilihan ganda dapat membantu memberikan jawaban
atau memberi imbalan pada tebakan, seperti pada contoh berikut

4037
2 159

A. 4196

B. 4122

C. 3878 [jawaban benar]


D. 3978

Jika siswa mengurangi dan mendapatkan jawaban selain yang tercantum, mereka tahu bahwa mereka harus terus
mencoba. Dalam beberapa kasus, mereka dapat mempersempit alternatif dengan memperkirakan daripada mengetahui
cara menghitung jawabannya.
Sangat penting untuk menghindari ambiguitas dalam item penyelesaian. Dalam beberapa mata pelajaran, hal ini
mungkin sulit dilakukan karena dua jawaban atau lebih dapat memuat sebuah fragmen yang tidak menentukan
konteksnya, seperti pada dua contoh berikut.

1. Pertempuran Hastings terjadi di _________. [Tanggal atau tempat?]

2. “H2O” melambangkan_________. [Air atau dua bagian hidrogen dan satu bagian oksigen?]

Jika ada kemungkinan ambiguitas, mungkin yang terbaik adalah beralih ke jenis soal pilihan seperti pilihan ganda.

Menulis dan Mengevaluasi Tes Esai


Pertanyaan esai singkat memungkinkan siswa menjawab dengan kata-kata mereka sendiri. Bentuk paling umum untuk
item esai pendek memberikan pertanyaan untuk dijawab oleh siswa. Jawabannya bisa berkisar dari satu atau dua
kalimat hingga satu halaman, katakanlah, 100 hingga 150 kata. Soal esai yang panjang membutuhkan lebih banyak
waktu dan panjang, sehingga memberikan peluang lebih besar bagi siswa untuk mendemonstrasikan pengorganisasian
dan pengembangan ide. Meskipun panjangnya berbeda, metode yang tersedia untuk menulis dan menilainya serupa.

Bentuk esai dapat memperoleh beragam tanggapan, mulai dari memberikan definisi istilah hingga
membandingkan dan mengontraskan konsep atau peristiwa penting. Item-item ini khususnya cocok untuk menilai
kemampuan siswa dalam menganalisis, mensintesis, dan mengevaluasi. Oleh karena itu, Anda dapat menggunakannya
untuk menilai kemajuan siswa dalam mengorganisasikan data dan menerapkan konsep pada tingkat tujuan pengajaran
tertinggi. Tentu saja, item-item ini sangat bergantung pada keterampilan menulis dan kemampuannya

M13_SLAV4054_12e_SE_C13.indd 361 02/11/16 17:16


Machine Translated by Google

362 BAB TIGA BELAS

ide frase, sehingga penggunaan esai yang eksklusif dapat menyebabkan guru meremehkan pengetahuan dan usaha siswa yang
telah mempelajari materi tetapi penulisnya buruk.
Salah satu kesalahan penting yang dilakukan guru dalam menulis soal esai adalah kegagalan menentukan dengan jelas
perkiraan detail yang diperlukan dalam jawaban dan panjang yang diharapkan. Menyatakan seberapa besar bobot suatu soal relatif
terhadap keseluruhan tes pada umumnya tidak cukup untuk memberi tahu siswa seberapa banyak detail yang harus disertakan
dalam sebuah jawaban. Contoh berikut menggambarkan hal ini.

Item Esai yang Buruk

Diskusikan peran perdana menteri dalam politik Kanada.

Peningkatan

Dalam lima paragraf atau kurang, kenali tiga perbedaan antara perdana menteri Kanada dan presiden AS dalam
kewajibannya terhadap konstituennya masing-masing. Untuk masing-masing dari ketiganya, jelaskan perbedaan
kewajibannya.

Perhatikan bahwa versi yang diperbaiki menyatakan panjangnya (lima paragraf atau kurang), aspek yang dibahas
(perbedaan antara perdana menteri dan presiden), jumlah poin yang dibahas (tiga; jika Anda menulis “setidaknya tiga,” yang akan
menimbulkan ambiguitas dalam tugas tersebut), bagaimana poin-poin tersebut harus dipilih (berbeda dalam kewajibannya terhadap
konstituennya masing-masing), dan arah serta tingkat penjabaran yang diperlukan (jelaskan bagaimana kewajiban-kewajiban
tersebut berbeda). Butir ini mengarahkan siswa pada respons yang diinginkan dan memberi Anda kesempatan lebih besar untuk
menjelaskan kriteria penilaian respons siswa.

Item esai harus berisi informasi spesifik yang harus disampaikan oleh siswa. Beberapa guru enggan menyebutkan hal-hal
khusus yang mereka ingin siswa diskusikan, karena mereka percaya bahwa menambahkan kata atau frasa dalam instruksi berarti
memberikan terlalu banyak informasi. Namun jika suatu item bersifat ambigu, siswa yang berbeda akan menafsirkannya secara
berbeda. Akibatnya, mereka akan menjawab pertanyaan yang berbeda-beda, dan tes tersebut hampir pasti tidak adil bagi mereka
semua.
Item esai memiliki sejumlah keuntungan selain memungkinkan siswa menyatakan ide dengan kata-kata mereka sendiri.
Misalnya, soal esai tidak mudah ditebak dengan benar. Mereka dapat meningkatkan penilaian yang efisien dengan mengharuskan
siswa untuk menggabungkan beberapa konsep dalam satu respons. Mereka juga dapat digunakan untuk mengukur kemampuan
kreatif, seperti bakat menulis atau imajinasi dalam membangun peristiwa hipotetis, serta menilai organisasi dan kelancaran.

Sisi negatifnya adalah masalah keandalan dalam menilai tanggapan esai. Beberapa penelitian menunjukkan bahwa
penilaian independen terhadap jawaban esai yang sama oleh guru yang berbeda dapat menghasilkan penilaian yang berkisar dari
nilai yang sangat baik hingga nilai yang gagal (Popham, 2014a). Kelemahan kedua adalah tanggapan esai membutuhkan banyak
waktu untuk dievaluasi. Waktu yang Anda hemat dengan menulis satu item esai dibandingkan beberapa jenis item lainnya harus
dibayar kembali saat menilai esai.
Ketiga, soal esai pada umumnya memerlukan waktu respons yang cukup lama dari siswa. Oleh karena itu, mereka biasanya tidak
dapat digunakan untuk mencakup konten yang luas. Meskipun demikian, item esai memungkinkan guru untuk melihat seberapa
baik siswa dapat menggunakan materi yang telah diajarkan. Keluasan dikorbankan demi kedalaman.

Saran berikut memberikan pedoman tambahan untuk menulis item esai yang efektif.

1. Seperti halnya format soal apa pun, cocokkan soal dengan tujuan pembelajaran.

2. Jangan menggunakan arahan umum seperti “diskusi”, “berikan pendapat Anda tentang”, atau “ceritakan semua yang Anda
ketahui”. Sebaliknya, pilihlah dengan hati-hati kata kerja respons spesifik seperti “membandingkan”, “kontras”,
“mengidentifikasi”, “daftar dan definisikan”, dan “jelaskan perbedaannya”.

3. Tulis tanggapan terhadap soal tersebut sebelum Anda memberikan tes untuk memperkirakan waktu yang dibutuhkan siswa
untuk merespon. Sekitar empat kali waktu respons Anda merupakan perkiraan yang wajar.

4. Tulis ulang item tersebut untuk mengarahkan siswa dengan jelas ke arah respons yang diinginkan.

5. Mewajibkan seluruh siswa menjawab semua butir soal. Meskipun memberikan kesempatan kepada siswa untuk memilih soal
mana yang akan dijawab tampaknya menarik, hal ini pada dasarnya merupakan praktik yang tidak adil. Pertama, siswa
berbeda dalam kemampuan mereka untuk membuat pilihan terbaik. Kedua, soal-soal tersebut tidak akan memiliki tingkat
kesulitan yang setara. Dan ketiga, siswa yang mengetahui bahwa mereka akan mempunyai pilihan dapat meningkatkan
nilai mereka dengan mempelajari sebagian materi secara cermat saja.

M13_SLAV4054_12e_SE_C13.indd 362 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 363

Setelah menulis item esai—dan dengan jelas menentukan konten yang akan disertakan dalam respons—Anda harus memiliki
gagasan yang jelas tentang bagaimana Anda akan menilai berbagai elemen respons siswa. Langkah pertama adalah menulis tanggapan
model atau garis besar rinci tentang unsur-unsur penting yang siswa diarahkan untuk disertakan dalam tanggapan mereka sehingga Anda
dapat membandingkan tanggapan siswa. Jika Anda ingin menggunakan komentar evaluatif tetapi bukan nilai huruf, kerangka atau model
Anda akan berfungsi sebagai panduan untuk menunjukkan kepada siswa segala kelalaian dan kesalahan dalam jawaban mereka, serta
poin-poin bagus dari jawaban mereka. Jika Anda menggunakan nilai huruf untuk menilai esai, Anda harus membandingkan elemen
tanggapan siswa dengan isi model Anda dan memberikan kredit yang sesuai untuk tanggapan yang sesuai dengan bobot relatif elemen
dalam model.

Jika memungkinkan, Anda harus meminta rekan kerja untuk menilai validitas elemen dan bobotnya dalam respons model Anda.
Melangkah lebih jauh dan meminta rekan kerja menerapkan kriteria model pada satu atau lebih respons siswa akan meningkatkan
keandalan penilaian Anda (lihat Langer & Colton, 2005). Pastikan untuk menawarkan untuk melakukan hal yang sama untuk mereka!

Salah satu masalah terkait tes esai adalah apakah dan seberapa banyak menghitung tata bahasa, ejaan, dan fitur teknis lainnya.
Jika Anda memperhitungkan faktor-faktor ini, berikan siswa nilai terpisah dalam hal isi dan mekanika sehingga mereka akan mengetahui
dasar penilaian pekerjaan mereka.
Kegunaan penilaian dalam pengajaran adalah dengan menghasilkan satu atau lebih rubrik penilaian yang dapat dibagikan kepada
siswa jauh sebelum ujian. Rubriknya, seperti contohnya, harus bersifat umum, sehingga dapat diterapkan pada esai yang luas. Siswa dapat
melihat aspek pencapaian mereka yang mana yang akan berkontribusi pada evaluasi positif dan dapat berlatih untuk memastikan pekerjaan
mereka menggambarkan elemen-elemen penting tersebut. Anda dapat memperlihatkan esai siswa (anonim) dari tahun-tahun sebelumnya
untuk mengilustrasikan rubrik. Salah satu rubrik penyelesaian masalah matematika SMA tampak pada Gambar 13.3.

Tingkat 3

Responsnya menunjukkan penerapan strategi yang masuk akal yang mengarah pada solusi yang tepat dalam konteks masalah. Representasi tersebut pada

dasarnya benar. Penjelasan dan/atau justifikasinya masuk akal, disajikan dengan jelas, dikembangkan secara utuh, dan mendukung penyelesaian, serta tidak

mengandung kesalahan matematis yang berarti. Responsnya menunjukkan pemahaman dan analisis masalah yang lengkap.

Level 2

Responsnya menunjukkan penerapan strategi yang masuk akal yang mungkin tidak lengkap atau belum dikembangkan. Ini mungkin atau mungkin tidak mengarah

pada solusi yang tepat. Representasi tersebut pada dasarnya benar. Penjelasan dan/atau pembenaran mendukung solusi dan masuk akal, meskipun mungkin tidak

dikembangkan dengan baik atau lengkap. Responsnya menunjukkan pemahaman konseptual dan analisis masalah.

Tingkat 1

Responsnya menunjukkan sedikit atau tidak ada upaya untuk menerapkan strategi yang masuk akal atau menerapkan strategi yang tidak tepat. Mungkin

jawabannya benar atau mungkin juga tidak. Representasinya tidak lengkap atau hilang. Penjelasan dan/atau pembenarannya mengungkapkan kelemahan

serius dalam penalaran. Penjelasan dan/atau pembenarannya mungkin tidak lengkap atau hilang.

Respons tersebut menunjukkan pemahaman dan analisis masalah yang minim.

tingkat 0

Responsnya sepenuhnya salah atau tidak relevan. Mungkin tidak ada tanggapan, atau tanggapannya mungkin menyatakan, “Saya tidak tahu.”

GAMBAR 13.
Matematika di Maryland
Sumber: WD Schafer, G. Swanson, N. Bené, & G. Newberry, “Effects of Teacher Knowledge of Rubrics on Student Achievement in Four Content Areas,” Applied
Measurement in Education, 14, 2001, hlm. 151–170.

M13_SLAV4054_12e_SE_C13.indd 363 02/11/16 17:16


Machine Translated by Google

364 BAB TIGA BELAS

TEORI MENJADI PRAKTEK

Mendeteksi Bluffing pada Esai Siswa

Menulis dan Mengevaluasi Item Pemecahan Masalah


Koneksi 13.14 Dalam banyak mata pelajaran, seperti matematika dan ilmu fisika dan sosial, tujuan pembelajaran mencakup
Untuk informasi lebih lanjut tentang pemecahan pengembangan keterampilan dalam pemecahan masalah, sehingga penting untuk menilai kinerja siswa dalam
masalah, lihat Bab 8. memecahkan masalah (Badgett & Christmann, 2009; McMillan, 2011). Penilaian pemecahan masalah
mengharuskan siswa untuk mengatur, memilih, dan menerapkan prosedur kompleks yang memiliki setidaknya
beberapa langkah atau komponen penting. Penting untuk menilai pekerjaan siswa dalam setiap langkah atau komponen ini.
DalamTASC 5 Contoh berikut menunjukkan masalah matematika tingkat kelas tujuh dan respon siswa kelas tujuh
terhadapnya. Pembahasan evaluasi pemecahan masalah berikut ini dapat diterapkan pada disiplin ilmu apa pun.
Penerapan
Konten
MASALAH

Misalkan dua penjudi sedang memainkan sebuah permainan di mana yang kalah harus membayar jumlah yang sama dengan jumlah
yang dimiliki penjudi lainnya pada saat itu. Jika Pemain A memenangkan permainan pertama dan ketiga, dan Pemain B memenangkan

DalamTASC 6 permainan kedua, dan mereka menyelesaikan ketiga permainan tersebut dengan masing-masing $12, berapakah jumlah uang masing-
masing pemain untuk memulai permainan pertama? Bagaimana Anda mendapatkan jawaban Anda?

Penilaian Tanggapan seorang siswa:

Setelah permainan A punya B punya

3 $12,00 $12,00

2 6.00 18.00

1 15.00 9.00

Pada awalnya $7,50 $16,50

Saat saya mulai dengan Game 1, saya menebak dan menebak, tetapi saya tidak bisa mencapai angka 12
dan 12.

Kemudian saya memutuskan untuk memulai di Game 3 dan bekerja mundur. Itu berhasil!

M13_SLAV4054_12e_SE_C13.indd 364 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 365

Bagaimana Anda mengevaluasi respons seperti itu secara objektif? Seperti dalam mengevaluasi item esai
pendek, Anda harus memulai persiapan Anda untuk menilai respons pemecahan masalah dengan menulis respons
model atau, mungkin lebih praktis, garis besar komponen atau prosedur penting yang terlibat dalam pemecahan
masalah. Seperti halnya esai, pemecahan masalah mungkin memerlukan beberapa pendekatan berbeda namun
valid. Garis besarnya harus cukup fleksibel untuk mengakomodasi semua kemungkinan yang valid.

TEORI MENJADI PRAKTEK


Evaluasi Rekan
Teknik evaluasi yang sering digunakan dalam pembelajaran kooperatif, khususnya dalam menulis kreatif dan
(lebih jarang) pemecahan masalah matematika, adalah dengan meminta siswa menilai pekerjaan masing-
masing berdasarkan kriteria tertentu sebelum guru menilai mereka berdasarkan kriteria yang sama (Brookhart,
2013a; Erkens, 2015; Reynolds, 2009; Smith, 2009). Evaluasi teman sejawat tidak memberikan kontribusi
terhadap nilai atau nilai siswa, namun memberikan umpan balik kepada siswa untuk digunakan dalam merevisi
komposisi atau produk. Gambar 13.4 menunjukkan panduan respons rekan yang mungkin digunakan untuk perbandingan–
tugas menulis kontras. Rekan, dan kemudian guru, memasukkan tanda centang untuk setiap kategori di mana
siswa telah melakukan pekerjaan yang memadai. Rekan dan guru juga menilai kertas siswa untuk memberikan
saran perbaikan. Evaluasi sejawat memberikan evaluasi formatif bagi penulis, namun juga memberikan
kesempatan berharga bagi penilai untuk mengambil sudut pandang guru dan mendapatkan wawasan tentang
apa yang dimaksud dengan tulisan yang baik.

MENGEVALUASI ITEM PEMECAHAN MASALAH Pemecahan masalah melibatkan beberapa komponen


penting yang sesuai dengan sebagian besar disiplin ilmu, termasuk memahami masalah yang harus dipecahkan,
menangani masalah secara sistematis, dan sampai pada jawaban yang masuk akal. Berikut ini adalah daftar
rinci elemen-elemen yang umum pada sebagian besar pemecahan masalah yang dapat memandu pembobotan
elemen-elemen dalam evaluasi Anda terhadap kemampuan pemecahan masalah siswa.

Elemen Evaluasi Pemecahan Masalah


1. Masalah organisasi
A. Representasi dibuat dalam bentuk tabel, grafik, bagan, dll.
B. Representasi yang ditampilkan sesuai dengan permasalahan.

C. Pemahaman global terhadap masalah ini ditunjukkan.


2. Prosedur (matematis: trial and error, kerja mundur, proses eksperimen,
induksi empiris)
A. Sebuah prosedur yang layak telah dicoba.
B. Prosedur ini dilakukan hingga solusi akhir.

C. Perhitungannya (jika ada) sudah benar.


3. Penyelesaian (matematis: tabel, angka, gambar, grafik, dll)
A. Jawabannya masuk akal.
B. Jawaban telah diperiksa.
C. Jawabannya benar.

4. Logika khusus agar detail atau penerapan informasi yang diberikan masuk akal.

Jika Anda ingin memberikan kredit sebagian untuk jawaban yang mengandung elemen yang benar,
atau jika Anda ingin memberi tahu siswa tentang nilai jawaban mereka, Anda harus memikirkan cara untuk
melakukan hal ini secara konsisten. Poin-poin berikut memberikan beberapa panduan.

(lanjutan)

M13_SLAV4054_12e_SE_C13.indd 365 02/11/16 17:16


Machine Translated by Google

366 BAB TIGA BELAS

1. Tulis tanggapan model sebelum memberikan kredit parsial untuk pekerjaan seperti penulisan
esai, pemecahan masalah matematika, tugas laboratorium, dan pekerjaan apa pun yang Anda evaluasi
menurut kualitas berbagai tahapannya.

2. Jelaskan kepada siswa dengan cukup rinci arti nilai yang Anda berikan untuk mengkomunikasikan
nilai pekerjaan.

Contoh berikut mengilustrasikan garis besar pekerjaan siswa yang patut dicontoh dari matematika
matematika dan ilmu sosial atau sastra.

DARI MATEMATIKA Siswa diberikan soal sebagai berikut:


Dalam turnamen tenis eliminasi tunggal, 40 pemain akan bermain untuk kejuaraan tunggal.
Tentukan berapa banyak pertandingan yang harus dimainkan.

Evaluasi
A. Bukti bahwa siswa memahami permasalahan, ditunjukkan dengan penggambaran
soal grafik, tabel, bagan, persamaan, dll. (3 poin)
B. Penggunaan metode untuk memecahkan masalah yang berpotensi menghasilkan solusi yang benar
—misalnya, coba-coba yang sistematis, induksi empiris, eliminasi, bekerja mundur. (5 poin)

C. Tiba pada solusi yang tepat. (3 poin)

Ketiga komponen dalam evaluasi diberi poin sesuai dengan bobot yang dinilai guru masing-masing
bernilai dalam konteks jalannya pembelajaran dan tujuan tes. Anda dapat memberikan kredit penuh untuk
jawaban yang benar meskipun semua pekerjaan tidak ditampilkan dalam jawaban, asalkan Anda tahu
bahwa siswa dapat mengerjakan pekerjaan tersebut di kepala mereka. Namun penting untuk berhati-hati
terhadap efek halo, yang terjadi ketika Anda mengetahui siswa mana yang menulis jawaban yang mana
dan Anda mengubah penilaian makalah sesuai dengan pendapat Anda tentang siswa tersebut. Tanggapan
yang sama harus mendapat skor yang sama tidak peduli siapa yang menulisnya. Penggunaan rubrik atau
panduan penilaian yang terperinci dalam evaluasi adalah cara untuk membuat penilaian lebih obyektif dan
dengan demikian menghindari efek halo.

DARI SOSIAL ATAU SASTRA Siswa diminta untuk menanggapi dengan esai 100 kata untuk item berikut:

Bandingkan dan kontraskan perkembangan alat Inuit dan Navajo berdasarkan


iklim di mana kedua masyarakat ini tinggal.

Evaluasi
A. Tanggapan tersebut memberikan bukti ingatan yang spesifik dan akurat mengenai iklim tempat
tinggal suku Inuit dan Navajo (1 poin) serta peralatan Inuit dan Navajo. (1 poin)
B. Esai berkembang dengan kesinambungan pemikiran dan logika. (3 poin)
C. Alasan yang akurat diberikan untuk penggunaan berbagai alat di iklim masing-masing. (3 poin)

D. Analisis yang membandingkan dan membedakan persamaan dan perbedaan antara kedua
kelompok dan pengembangan alatnya diberikan. (8 poin)
e. Tanggapan diakhiri dengan ringkasan dan penutup. (1 poin)

Kedua contoh ini juga harus menyarankan cara untuk mengevaluasi item dalam mata pelajaran lain.
Memberikan penghargaan sebagian untuk sebagian besar pekerjaan yang dilakukan siswa tentunya akan
menghasilkan evaluasi yang lebih menyeluruh terhadap kemajuan siswa dibandingkan dengan menilai pekerjaan
tersebut hanya sebagai benar atau salah. Contoh-contoh menunjukkan bagaimana mengatur penilaian obyektif untuk evaluasi

M13_SLAV4054_12e_SE_C13.indd 366 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 367

pekerjaan yang tidak cocok untuk bentuk sederhana berupa soal pilihan ganda, benar-salah,
penyelesaian, dan pencocokan. Poin tidak harus digunakan untuk mengevaluasi komponen
tanggapan. Dalam banyak situasi, beberapa jenis penjelasan evaluatif mungkin lebih bermakna.
Deskriptor evaluatif adalah pernyataan yang menggambarkan ciri-ciri kuat dan lemah dari suatu
tanggapan terhadap suatu item, pertanyaan, atau proyek. Dalam contoh matematika, deskriptor
evaluatif guru untuk butir a mungkin berbunyi, “Kamu telah menggambar sebuah bagan yang
sangat bagus yang menunjukkan bahwa kamu memahami arti dari soal, dan itu sangat bagus,
tetapi nampaknya kamu ceroboh ketika memasukkan beberapa angka penting. di bagan Anda.”
Perhatikan bahwa masing-masing contoh ini mirip rubrik dan dapat digeneralisasikan ke
berbagai topik. Jika guru dan siswa mendiskusikan hal ini selama pengajaran, siswa akan
memiliki perangkat yang membantu mereka memahami apa yang sedang mereka upayakan,
dan baik guru maupun siswa akan memiliki bahasa yang sama yang dapat mereka gunakan
selama pengajaran dan dalam penilaian formatif mereka.

GAMBAR
Kriteria Mitra Guru
13.4 Contoh
Formulir Respon
Isi
Mitra untuk
1. Menunjukkan kemiripan konsep
Penugasan Perbandingan-K
2. Menunjukkan perbedaan konsep
3. Terorganisir dengan baik

4. Kalimat pembuka yang bagus

5. Kalimat penutup yang baik


Mekanika
1. Ejaan benar
2. Tata bahasanya benar

3. Tanda baca benar


4. Minimal 2 halaman

Pemeriksaan Mandiri MyEdLab 13.3

APAKAH PENILAIAN ASLI, PORTOFOLIO,


DAN KINERJA?
Setelah banyak kritik terhadap tes tradisional (misalnya, Beers, 2011; McTighe & Curtis, 2015; Shepard, 2000;
DalamTASC 6
Zhao, 2015), para kritikus telah mengembangkan dan menerapkan sistem penilaian alternatif yang dirancang
untuk menghindari masalah yang ditimbulkan oleh tes pilihan ganda. . Gagasan utama di balik alternatif
Penilaian
pengujian ini adalah siswa harus diminta untuk mendokumentasikan pembelajaran mereka atau menunjukkan
bahwa mereka benar-benar dapat melakukan sesuatu yang nyata dengan informasi dan keterampilan yang
telah mereka pelajari di sekolah (Brookhart, 2015; Greenstein, 2012; Lewin & Schoemaker, 2011 ; McTighe & Wiggins, 2013).
Misalnya, siswa mungkin diminta untuk membuat portofolio, merancang metode pengukuran kecepatan
angin, menggambar model skala mobil balap, atau menulis sesuatu untuk audiens sebenarnya. Tes
semacam ini disebut sebagai penilaian autentik atau penilaian kinerja (McTighe & Wiggins, 2013). Salah
satu tujuan dari “penilaian alternatif” ini adalah untuk menunjukkan pencapaian dalam konteks yang realistis.
Dalam membaca misalnya, gerakan penilaian autentik telah mengarah pada pengembangan tes di mana
siswa diminta membaca dan menafsirkan bagian teks yang lebih panjang dan menunjukkan pemahaman yang mendalam.

M13_SLAV4054_12e_SE_C13.indd 367 02/11/16 17:16


Machine Translated by Google

368 BAB TIGA BELAS

Dalam sains, penilaian autentik mungkin melibatkan siswa menyiapkan dan melaksanakan eksperimen.
Dalam menulis, siswa mungkin diminta untuk menulis surat asli atau artikel surat kabar. Dalam matematika,
siswa mungkin memecahkan masalah fisik kompleks yang memerlukan wawasan dan kreativitas. Tes autentik
terkadang mengharuskan siswa untuk mengintegrasikan pengetahuan dari domain yang berbeda—misalnya,
menggunakan aljabar dalam konteks membaca dan melakukan eksperimen sains dan menuliskan hasilnya.

LabEd Saya Penilaian Portofolio


Contoh Video 13.4
Portofolio sangat efektif Salah satu bentuk penilaian alternatif yang populer adalah penilaian portofolio: pengumpulan dan evaluasi
ketika para guru bertemu sampel pekerjaan siswa dalam jangka waktu lama (Brookhart, 2015; Greenstein, 2012; McMillan, 2011). Anda
bersama siswa untuk meninjau dapat mengumpulkan komposisi siswa, proyek, dan bukti lain mengenai fungsi tingkat tinggi dan menggunakan
materi dan merefleksikan bukti ini untuk mengevaluasi kemajuan siswa dari waktu ke waktu. Misalnya, banyak guru yang meminta
keberhasilan dan tujuan di siswanya menyimpan portofolio tulisan mereka yang menunjukkan perkembangan komposisi dari draf pertama
masa depan. hingga produk akhir; portofolio juga dapat digunakan untuk entri jurnal, laporan buku, karya seni, cetakan
komputer, atau makalah yang menunjukkan perkembangan dalam pemecahan masalah (Brookhart, 2015).
Portofolio semakin banyak dipelihara di komputer untuk melengkapi file kertas (Diehm, 2004; Niguidula, 2005).
Lihat Gambar 13.5 untuk kriteria sampel dalam mengevaluasi portofolio tulisan siswa.

GAMBAR
13.5 Contoh Kriteria Formulir Evaluasi Portofolio
Penilaian
Peningkatan
Kemampuan Diperlukan Bagus sekali
Menulis Siswa Nama: 1 2 3 4
Melalui Penilaian Portofolio
1. Semua pekerjaan yang ditugaskan disertakan

2. Lembar log selesai


3. Refleksi akhir selesai
4. Pekerjaan menunjukkan
perbaikan pada kelemahan
sebelumnya

5. Menulis menggabungkan umpan balik


guru dari pekerjaan sebelumnya

6. Portofolio menunjukkan
peningkatan penulisan secara keseluruhan

Kriteria Tambahan
7.
8.
9.
10.
Komentar Guru:

M13_SLAV4054_12e_SE_C13.indd 368 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 369

Penilaian portofolio memiliki kegunaan penting ketika Anda ingin mengevaluasi siswa untuk dilaporkan kepada Penunjuk Sertifikasi
orang tua atau tujuan lain di sekolah. Ketika dikombinasikan dengan penilaian berdasarkan permintaan dan digunakan Pertanyaan sertifikasi
dengan rubrik publik yang konsisten, portofolio yang menunjukkan peningkatan dari waktu ke waktu dapat memberikan guru mungkin meminta
bukti perubahan yang kuat bagi orang tua dan siswa itu sendiri (Burke, 2009). Anda untuk menanggapi
studi kasus dengan
menyarankan cara

DI WEB untuk menerapkan penilaian portofolio


sesuai untuk kasus tersebut.
Untuk laporan, buletin, dan publikasi lain tentang penilaian, khususnya penilaian kinerja dan
portofolio, kunjungi cresst.org, Pusat Penelitian Evaluasi, Standar, dan Pengujian Siswa Nasional
(CRESST), yang berlokasi di UCLA. Untuk melihat artikel dan multimedia terkait penilaian dan
topik lain di bidang pendidikan, kunjungi situs web George Lucas Educational Foundation di edu
topia.org. Kunjungi juga situs web Komisi Pendidikan Amerika, yang berisi daftar situs terkait
penilaian, di ecs.org.

TEORI MENJADI PRAKTEK


Menggunakan Portofolio di Kelas

PERENCANAAN DAN ORGANISASI

Kembangkan rencana fleksibel secara keseluruhan untuk portofolio siswa. Apa tujuan portofolio
tersebut? Barang apa saja yang dibutuhkan? Kapan dan bagaimana cara memperolehnya?
Kriteria apa yang akan diterapkan untuk refleksi dan evaluasi?
Rencanakan waktu yang cukup bagi siswa untuk mempersiapkan dan mendiskusikan item portofolio.
Menilai portofolio membutuhkan lebih banyak waktu dan pemikiran dibandingkan mengoreksi tes
kertas dan pensil.

Mulailah dengan satu aspek pembelajaran dan pencapaian siswa, dan secara bertahap sertakan
aspek lainnya saat Anda dan siswa mempelajari prosedur portofolio. Proses penulisan, misalnya,
sangat cocok untuk dokumentasi melalui portofolio.

Pilih item untuk dimasukkan dalam portofolio yang akan menunjukkan pengembangan kemahiran
pada tujuan dan sasaran penting. Item yang membahas berbagai tujuan membantu membuat
penilaian portofolio menjadi lebih efisien.
Kumpulkan setidaknya dua jenis item: indikator yang diperlukan (Arter & McTighe, 2001; Murphy
& Underwood, 2000) atau item inti dan sampel pekerjaan opsional.
Indikator wajib atau indikator inti adalah item yang dikumpulkan untuk setiap anak yang akan
menunjukkan kemajuan masing-masing anak. Sampel pekerjaan opsional menunjukkan
pendekatan, minat, dan kekuatan unik masing-masing siswa.
Tempatkan daftar tujuan dan sasaran di depan setiap portofolio bersama dengan daftar indikator
yang diperlukan, dan sertakan juga tempat untuk mencatat item opsional, sehingga Anda dan
siswa dapat melacak isinya.

PENERAPAN

Untuk menghemat waktu, untuk memastikan bahwa item portofolio mewakili pekerjaan siswa,
dan untuk meningkatkan keaslian, masukkan pengembangan item portofolio ke dalam kegiatan
kelas yang sedang berlangsung.

(lanjutan)

M13_SLAV4054_12e_SE_C13.indd 369 02/11/16 17:16


Machine Translated by Google

370 BAB TIGA BELAS

Berikan siswa tanggung jawab untuk mempersiapkan, memilih, mengevaluasi, dan mengarsipkan
item portofolio dan menjaga portofolio tetap mutakhir. Anak kecil akan membutuhkan bimbingan
dalam hal ini.

Untuk item portofolio tertentu, berikan contoh refleksi dan penilaian diri bagi siswa untuk membantu
mereka menyadari proses yang mereka gunakan, apa yang telah mereka pelajari, apa yang belum
mereka pelajari, dan apa yang mungkin perlu mereka lakukan secara berbeda di lain waktu.
Bersikaplah selektif. Portofolio bukanlah kumpulan sampel karya, rekaman audio atau video, gambar,
situs web, dan produk lainnya secara sembarangan. Ini adalah pilihan item yang bijaksana yang
memberikan contoh pembelajaran anak-anak. Penyertaan item secara acak dengan cepat menjadi
berlebihan.
Gunakan informasi dalam portofolio untuk menempatkan peserta didik pada serangkaian keterampilan yang
berkembang.

Analisis item portofolio untuk wawasan pengetahuan dan keterampilan siswa. Ketika Anda melakukan
ini, Anda akan lebih memahami kekuatan dan kebutuhan siswa, proses berpikir, prasangka,
kesalahpahaman, pola kesalahan, dan mengembangkan tolok ukur mental.

Gunakan informasi portofolio untuk mendokumentasikan dan merayakan pembelajaran siswa, untuk
berbagi pencapaian siswa dengan orang tua dan personel sekolah lainnya, dan untuk meningkatkan
dan menargetkan pengajaran di kelas. Jika portofolio tidak dikaitkan dengan instruksi pembuktian,
maka portofolio tersebut tidak berfungsi. (Untuk panduan evaluasi portofolio, lihat Brookhart, 2013;
McTighe & Wiggins, 2013; Stiggins & Chappuis, 2012.)

Penilaian kinerja
Tes yang melibatkan demonstrasi aktual pengetahuan atau keterampilan dalam kehidupan nyata disebut penilaian kinerja
(Brookhart, 2015; McMillan, 2011; Popham, 2014a; Shavelson, 2013). Misalnya, siswa kelas sembilan mungkin diminta
untuk melakukan proyek sejarah lisan, membaca tentang peristiwa penting baru-baru ini dan kemudian mewawancarai
individu yang terlibat. Kualitas sejarah lisan, yang dilakukan selama beberapa minggu, menunjukkan tingkat penguasaan
siswa terhadap konsep-konsep IPS yang terlibat. Wiggins (1993) menjelaskan penilaian yang digunakan dalam 2 minggu
terakhir sekolah di mana siswa harus menerapkan semua yang telah mereka pelajari sepanjang tahun untuk menganalisis
lumpur yang mencampurkan berbagai zat padat dan cair. Beberapa sekolah memerlukan “pameran” yang rumit, seperti
proyek yang dikembangkan selama berbulan-bulan, sebagai demonstrasi kompetensi. Penilaian kinerja yang lebih berbatas
waktu mungkin meminta siswa untuk menyiapkan eksperimen, merespons teks yang diperluas, menulis dalam berbagai
genre, atau memecahkan masalah matematika realistis. Teknologi memungkinkan siswa untuk melakukan eksperimen
kompleks yang memerlukan pemahaman mendalam dan wawasan tentang sains atau matematika, misalnya (Clarke-
Midura, 2014).

Efektivitas Penilaian Kinerja


Salah satu kritik paling penting terhadap tes standar tradisional adalah bahwa tes tersebut dapat memfokuskan guru pada
pengajaran hanya pada rentang keterampilan sempit yang kebetulan ada dalam tes tersebut (lihat Popham, 2004).
Bagaimana penilaian kinerja bisa menjadi lebih baik? Setidaknya secara teori, kita bisa membuat tes yang memerlukan
pemahaman luas tentang materi pelajaran sehingga tes tersebut layak untuk diajarkan.

Misalnya, perhatikan tes kinerja matematika yang ditunjukkan pada Gambar 13.6. Bayangkan siswa Anda harus
mendemonstrasikan keterampilan mereka dalam menentukan waktu. Satu-satunya cara untuk mengajarkan tes semacam
itu adalah dengan memaparkan siswa pada berbagai cara untuk mengetahui waktu.
Di luar semua masalah praktis dan biaya penyelenggaraan dan penilaian tes kinerja, masih belum jelas apakah tes
kinerja akan menyelesaikan semua masalah pengujian standar. Misalnya, Shavelson, Baxter, dan Pine (1992) mempelajari
penilaian kinerja dalam sains.

M13_SLAV4054_12e_SE_C13.indd 370 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 371

Kemampuan untuk Dinilai


Tujuan yang ingin dinilai: Menetapkan waktu menggunakan jam
Jenis kemampuan yang terlibat: Aturan

Kinerja yang Harus Diperhatikan

Domain tugas yang terkait dengan tujuan yang dinilai


Menceritakan waktu menggunakan jam digital atau analog

Dengan jam analog, memberitahukan waktu dengan angka atau tanda lain di mukanya
Dengan jam digital atau analog, memberitahukan waktu dengan atau tanpa indikasi detik
Dengan jam digital atau analog, memberitahukan waktu dengan berbagai bentuk, ukuran, dan warna yang digunakan
tampilan jam

Deskripsi tugas yang harus dilakukan: Siswa melihat tampilan jam analog dan menyatakannya
waktu yang ditampilkan

Fokus pada proses atau produk? Produk


Keterampilan prasyarat yang harus diverifikasi: Siswa dapat membaca angka.
Bahan yang dibutuhkan
Tampilan jam dengan jarum jam dan menit yang dapat digerakkan. Wajah harus berisi nomor untuk ditunjuk
jam. Jam tidak boleh memiliki jarum detik.
Pedoman administrasi

Gunakan delapan pengaturan waktu yang berbeda, dengan jarum menit dua kali dalam setiap seperempat jam.
Variasikan jarum penunjuk jam hingga jangkauan penuhnya.

Jarum menit dan jam harus terlihat jelas di semua pengaturan.


Instruksi kepada siswa

Katakan kepada siswa, “Jam berapa yang ditunjukkan jam ini?”

Rencana Penilaian

Waktu yang dinyatakan siswa tepat dalam waktu 1 menit.

GAMBAR 13.6
Sumber: Oosterhof, Albert. Mengembangkan dan menggunakan penilaian kelas (edisi ke-4) (c) 2009, hal. 186. Dicetak ulang dan direproduksi
secara elektronik dengan izin dari Pearson Education Inc., Upper Saddle River, NJ.

Mereka menemukan bahwa kinerja siswa pada penilaian tersebut dapat dinilai dengan andal, namun penilaian
kinerja yang berbeda menghasilkan pola skor yang sangat berbeda, dan skor siswa masih lebih terkait erat
dengan bakat siswa dibandingkan dengan apa yang sebenarnya diajarkan kepada siswa. Temuan serupa
dilaporkan dalam penelitian yang dilakukan oleh Educational Testing Service (1995), Linn (1994), dan Supovitz
dan Brennan (1997).

Rubrik Penilaian untuk Penilaian Kinerja


Penilaian kinerja biasanya diberi skor berdasarkan rubrik yang menentukan terlebih dahulu jenis kinerja yang
diharapkan untuk setiap kegiatan (Brookhart, 2013; Burke, 2009; Popham, 2014; Vagle, 2014). Gambar 13.7
menunjukkan satu rubrik (dari Taylor, 1994) yang dikembangkan untuk esai tentang pengembangan karakter
dalam cerita yang telah dibaca siswa.
Tugas penilaian kinerja mirip dengan soal esai di mana siswa mungkin melakukan pendekatan
terhadapnya dengan berbagai cara. Oleh karena itu, penting juga dalam penilaian kinerja agar siswa
memahami kriteria penilaian. Salah satu cara untuk memastikan hal ini adalah dengan menulis beberapa Penunjuk Sertifikasi
rubrik umum yang cukup fleksibel untuk diterapkan pada keseluruhan kinerja siswa. Gambar 13.3 memberikan Anda mungkin ditanyai
tentang tes sertifikasi guru Anda
contoh rubrik umum yang diterapkan pada hasil matematika sekolah menengah. Telah dikemukakan bahwa
penggunaan rubrik seperti ini dalam pengajaran di kelas dapat meningkatkan prestasi siswa (Schafer, untuk memberikan contoh
Swanson, Bené, & Newberry, 2001). tujuan kinerja dan kemudian
Perencanaan penilaian kinerja membutuhkan waktu, dan menghindari jebakan subjektivitas dalam menulis tujuan perilaku,
penilaian kinerja memerlukan latihan. Namun, beberapa item penilaian kinerja yang dipikirkan dengan matang kegiatan, dan penilaian
dan ditulis dengan baik dapat berfungsi, misalnya, sebagai evaluasi sumatif untuk semua atau sebagian besar pembelajaran siswa yang
tujuan pendidikan Anda untuk keseluruhan unit (lihat Gambar 13.8). akan mencapai tujuan tersebut.

M13_SLAV4054_12e_SE_C13.indd 371 02/11/16 17:16


Machine Translated by Google

372 BAB TIGA BELAS

GAMBAR
13.7 Contoh Pertunjukan
Rubrik Esai Pengembangan Karakter dalam Sastra
Penilaian: Kriteria kinerja
Target Kinerja,
Kriteria Kinerja,
dan Deskripsi dijelaskan.
Kinerja pada
Poin Skor Berbeda cerita.
Sumber: Catherine Taylor,
“Penilaian untuk Pengukuran atau
Standar,” American Educational
tentang kontribusi karakter terhadap cerita.
Research Journal, 31(2),
hlm. 231–262, 1994.
Rubrik Penilaian
4 poin Esai bersifat lengkap, menyeluruh, dan berwawasan luas dalam
menggambarkan perkembangan tokoh dan kontribusinya terhadap cerita.
Dukungan yang memadai diberikan untuk mendorong kami mempertimbangkan sudut pandang penulis.
Semua kutipan dari teks meningkatkan pemahaman kita tentang pandangan
penulis tentang karakter.

3 poin Esai lengkap dalam menggambarkan perkembangan karakter dan kontribusinya


terhadap cerita. Dukungan yang memadai diberikan untuk mendorong kami
mempertimbangkan sudut pandang penulis. Sebagian besar kutipan dari teks
meningkatkan pemahaman kita tentang pandangan penulis tentang karakter tersebut.

2 poin Esai lengkap dalam uraiannya baik tentang perkembangan tokoh


maupun kontribusi tokoh dalam cerita. Beberapa dukungan diberikan
untuk membantu kami mempertimbangkan sudut pandang penulis. Sebagian
besar kutipan dari teks meningkatkan pemahaman kita tentang pandangan
penulis tentang karakter untuk elemen yang dijelaskan.

1 poin Esai sebagian besar lengkap dalam uraiannya baik tentang perkembangan
tokoh maupun kontribusi tokoh terhadap cerita. Sudut pandang penulis
didukung, tetapi tidak selalu meyakinkan. Beberapa kutipan dari teks tersebut
menambah pemahaman kita tentang pandangan penulis tentang karakter
untuk elemen yang dijelaskan.

0 poin Esai tertulis belum selesai, secara signifikan kurang memenuhi semua
kriteria, atau tidak mengerjakan tugas.

Penilaian melalui Permainan dan Simulasi Digital


Komputer telah lama digunakan untuk menilai pembelajaran siswa, namun hingga saat ini komputer hanya
menyediakan penilaian dan pencatatan yang mudah dan cepat. Namun saat ini, komputer mulai digunakan
untuk menilai kinerja siswa saat mereka berpartisipasi dalam permainan, simulasi, dan aktivitas lainnya
(Schaaf, 2015). Misalnya, siswa yang bekerja bersama dalam simulasi latihan laboratorium sains mungkin
dinilai secara digital berdasarkan kontribusi pribadi mereka terhadap laboratorium (Erkens, 2015). Siswa
yang bermain game melawan komputer mungkin bersenang-senang dan belajar, namun pada saat yang
sama tanggapan mereka dapat dicatat dan dievaluasi berdasarkan standar. Suatu saat nanti, mungkin siswa
tidak lagi mengikuti tes yang terpisah dari kegiatan pembelajaran yang mereka lakukan sehari-hari (McTighe
& Curtis, 2015).

M13_SLAV4054_12e_SE_C13.indd 372 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 373

Rubrik Pameran Psikologi


ÿ Proyek Psikologi Kami. . .
(25 poin) Memberikan informasi latar belakang—mengutip penelitian lain, menjelaskan ketertarikan kita pada topik tersebut, dan menyajikan
alasan topik tersebut. [Semakin baik informasi latar belakang, semakin detail, dan semakin “cocok”, semakin banyak poin yang Anda peroleh.]

Contoh singkat: “Kami tertarik pada bagaimana pakaian mempengaruhi perilaku. Kami selalu merasa lebih baik ketika kami berdandan
dan juga berpikir bahwa lebih sedikit kekerasan yang terjadi di antara orang-orang yang 'berdandan'. Cohen dan Cohen (1987) menemukan
bahwa siswa yang mengenakan seragam mempunyai prestasi 10 persen lebih baik dalam ujian dan mendapat rujukan kantor yang lebih sedikit.
Oleh karena itu kami ingin melihat topik ini lebih jauh.”

(25 poin) Memberikan deskripsi penelitian (abstrak— pernyataan umum dalam 100 kata atau kurang tentang Anda
proyek).
Contoh singkat: “Penelitian ini menyelidiki hubungan antara prestasi akademik dan penggunaan seragam
di sekolah. Tiga sekolah di Derry County, Pennsylvania, disurvei mengenai masalah kinerja akademik dan rujukan kantor. Penggunaan seragam
menunjukkan peningkatan prestasi dan penurunan masalah perilaku.”

(40 poin) Memiliki hipotesis yang terukur dengan variabel tertentu ditentukan dan diidentifikasi.

(25 poin) Mencakup setidaknya satu grafik, bagan, atau alat bantu visual lainnya yang merangkum data. Seseorang seharusnya bisa
lihat grafik/bagan Anda dan lihat dengan jelas apa saja variabel dan hasilnya.

(10 poin) Termasuk salinan bersih survei atau skala lain yang digunakan untuk mengumpulkan data.

(40 poin) Termasuk prosedur tertulis yang memberi tahu pengamat apa yang sebenarnya kita lakukan.
Contoh singkat: “Kami memerlukan waktu 3 hari untuk mensurvei 100 siswa dan 30 guru.”

(30 poin) Termasuk bagian yang menjelaskan data dan memberitahukan apakah hipotesis itu akurat.
Contoh singkat: “Data kami mencerminkan bahwa hipotesis kami benar: Peningkatan skor sebesar 30 persen mencerminkan peningkatan
prestasi siswa sementara . . .” [Sekali lagi, kembangkan penjelasan Anda. Jika Anda hanya mengatakan, “Kami benar” atau “Hipotesis kami benar/
salah,” Anda tidak akan menerima lebih dari setengah poin.]

(30 poin) Termasuk bagian yang menjelaskan pentingnya penelitian ini—mengapa hal ini penting.
Contoh singkat: “Ini adalah studi yang penting karena mencerminkan bias yang mungkin tidak disadari oleh banyak orang
serta cara di mana siswa dapat meningkatkan nilai dan mengurangi masalah perilaku mereka sendiri. Lebih jauh lagi. . .”

(50 poin) Interaktif. Artinya, pengamat bisa mengikuti tes, melihat layar, mengerjakan kuis, dan sebagainya. [Ini dapat dilakukan dengan
berbagai cara. Misalnya, jika tesnya panjang, mintalah pengamat mengerjakan sebagian atau tunjukkan video prosedur Anda.]

Total Poin yang Mungkin: 275

GAMBAR 13.8
Sumber: Tuan Charles Greiner, Lusher Charter School. Universitas New Orleans/Tulane.

BAGAIMANA PENENTUAN NILAI?


Salah satu tugas yang paling membingungkan dan sering kali kontroversial yang Anda hadapi adalah menilai pekerjaan
siswa (Brookhart & Nitko, 2015; Reeves, 2015; Quinn, 2012; Schimmer, 2016; Scriffiny, 2008). Apakah penilaian diperlukan?
Jelas bahwa suatu bentuk evaluasi siswa sumatif diperlukan, dan penilaian dalam bentuk apa pun adalah bentuk yang
paling banyak digunakan di sebagian besar sekolah.

Menetapkan Kriteria Penilaian


Terdapat banyak kriteria penilaian, namun terlepas dari tingkat sekolah tempat guru mengajar, mereka umumnya sepakat
mengenai perlunya menjelaskan arti nilai yang mereka berikan (Brookhart & Nitko, 2015; Stiggins & Chappuis, 2012;
Vatterott, 2015) . Nilai harus mengkomunikasikan setidaknya nilai relatif dari pekerjaan siswa di kelas. Mereka juga harus
membantu siswa untuk memahami dengan lebih baik apa yang diharapkan

M13_SLAV4054_12e_SE_C13.indd 373 02/11/16 17:16


Machine Translated by Google

374 BAB TIGA BELAS

dari mereka dan bagaimana mereka dapat meningkatkannya. Mereka juga dapat menjadi dasar percakapan
produktif dengan siswa dan orang tua (Webber & Wilson, 2012).
Guru dan sekolah yang menggunakan nilai huruf memberikan arti umum berikut pada huruf:

A 5 unggul; luar biasa; pencapaian yang luar biasa


B 5 sangat baik, tetapi tidak unggul; diatas rata-rata

C 5 pekerjaan atau kinerja yang kompeten, tetapi tidak luar biasa; rata-rata
D 5 kelulusan minimum, tetapi kelemahan serius ditunjukkan; dibawah rata-rata
E 5 kegagalan untuk lulus; kelemahan serius ditunjukkan

Menetapkan Nilai Surat


Semua distrik sekolah memiliki kebijakan atau praktik umum untuk menetapkan nilai rapor. Sebagian besar
menggunakan nilai huruf ABCDF, namun banyak (khususnya di tingkat sekolah dasar) menggunakan berbagai
versi nilai luar biasa–memuaskan–tidak memuaskan (Brookhart & Nitko, 2015; Reeves, 2015; Schimmer, 2016).
Beberapa hanya melaporkan nilai persentase. Kriteria yang menjadi dasar penilaian sangat bervariasi dari satu
daerah ke daerah yang lain. Sekolah menengah biasanya memberikan satu nilai untuk setiap mata pelajaran yang
diambil, namun sebagian besar sekolah dasar dan beberapa sekolah menengah memasukkan peringkat pada
usaha atau perilaku serta kinerja.
Kriteria untuk memberikan nilai huruf mungkin ditentukan oleh administrasi sekolah, namun kriteria penilaian paling
sering ditentukan oleh masing-masing guru dengan menggunakan pedoman yang sangat luas. Dalam praktiknya, hanya
sedikit guru yang dapat memberikan nilai A kepada separuh siswanya atau memberikan terlalu banyak siswa yang gagal;
namun di antara kedua kondisi ekstrem ini, guru mungkin mempunyai kelonggaran yang cukup besar (lihat Guskey, 2014;
Tomlinson & Moon, 2013).

STANDAR PENILAIAN MUTLAK Nilai dapat diberikan berdasarkan standar absolut atau relatif. Standar penilaian
absolut mungkin terdiri dari skor persentase yang telah ditetapkan sebelumnya yang diperlukan untuk suatu nilai
tertentu, seperti dalam contoh berikut:

Nilai Persentase Benar


A 90–100 persen
B 80–89 persen
C 70–79 persen
D 60–69 persen
F Kurang dari 60 persen

Dalam bentuk standar absolut lainnya, yang disebut penilaian berdasarkan kriteria, Anda memutuskan
terlebih dahulu kinerja mana yang merupakan kinerja yang luar biasa (A), di atas rata-rata (B), rata-rata (C), di
bawah rata-rata (D), dan tidak memadai (F) penguasaan. dari tujuan instruksional.
Standar persentase absolut mempunyai satu kelemahan penting: Nilai siswa mungkin bergantung pada
tingkat kesulitan tes yang diberikan. Misalnya, seorang siswa dapat lulus tes benar-salah (jika nilai kelulusannya
60 persen) dengan mengetahui hanya 20 persen jawaban dan menebak sisanya (mendapatkan setengah dari 80
persen soal yang tersisa benar secara kebetulan). Namun, pada tes sulit yang tidak mungkin ditebak, 60 persen
bisa menjadi nilai yang sangat tinggi. Oleh karena itu, penggunaan kriteria persentase absolut harus disesuaikan
dengan standar yang mengacu pada kriteria. Artinya, Anda mungkin menggunakan standar 60–70–80–90 persen
di sebagian besar situasi, namun menetapkan (dan mengumumkan kepada siswa) standar ujian yang lebih tinggi
yang mungkin dianggap mudah oleh siswa, dan standar yang lebih rendah untuk ujian yang lebih sulit.

Kerugian lainnya adalah kisaran nilainya biasanya berbeda, terutama untuk nilai F. Seorang siswa yang
mendapat nilai F mungkin sangat dekat dengan nilai D atau mungkin sangat jauh dari kata “lulus”.
Hal ini juga berlaku untuk nilai lainnya, namun rentang F yang besar (0 hingga 60 persen) menekankan
ketidakpastian. Terlebih lagi, konsekuensi dari nilai F seringkali cukup parah.

M13_SLAV4054_12e_SE_C13.indd 374 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 375

STANDAR PENILAIAN RELATIF Standar penilaian relatif adalah suatu sistem di mana seorang guru memberikan nilai menurut
peringkat siswa di kelas atau kelasnya. Bentuk klasik dari penilaian relatif adalah menentukan berapa persentase siswa yang akan
diberi nilai A, B, dan seterusnya. Bentuk praktik ini disebut grading on the curve karena siswa diberi nilai berdasarkan posisinya
pada distribusi skor yang telah ditentukan.

Standar penilaian relatif memiliki keuntungan dalam menempatkan skor siswa dalam kaitannya satu sama lain tanpa
memperhatikan tingkat kesulitan tes tertentu. Namun, standar penilaian relatif juga mempunyai kelemahan serius (lihat Guskey,
2014; O'Connor, 2009). Salah satunya adalah karena jumlah nilai A dan B tetap, siswa di kelas yang berprestasi tinggi harus
mendapatkan nilai yang jauh lebih tinggi untuk mendapatkan nilai A atau B dibandingkan siswa di kelas yang berprestasi rendah—
situasi yang mungkin dianggap tidak adil. . Guru sering kali mengatasi masalah ini dengan memberikan nilai A dan B yang relatif
lebih banyak di kelas yang berprestasi tinggi dibandingkan di kelas lain. Kerugian lain dari penilaian relatif adalah menciptakan
persaingan di antara siswa; ketika seorang siswa mendapat nilai A, hal ini mengurangi kemungkinan siswa lain memperoleh nilai
A. Persaingan dapat menghambat siswa untuk saling membantu dan melukai hubungan sosial antar teman sekelas (Guskey,
2014).

Penilaian yang ketat pada kurva dan pedoman untuk angka A dan B telah hilang dalam beberapa tahun terakhir. Salah
satu penyebabnya adalah adanya inflasi tingkat umum; lebih banyak nilai A dan B yang diberikan saat ini dibandingkan di masa
lalu, dan C bukan lagi nilai rata-rata yang diharapkan tetapi sering kali menunjukkan kinerja di bawah rata-rata (Goodwin, 2011;
Pattison, Grodsky, & Muller, 2013). Anderson (1994) merangkum survei nasional terhadap siswa kelas delapan yang diminta
melaporkan nilai bahasa Inggris mereka sejak kelas enam. Hasilnya adalah sebagai berikut:

Kebanyakan nilai A: 31 persen

Kebanyakan B: 38 persen

Kebanyakan C: 23 persen

Kebanyakan D: 6 persen

Sebagian besar kurang dari D: 2 persen

Hasil yang diperoleh serupa dalam matematika, dan nilai di sekolah dengan tingkat kemiskinan tinggi hanya sedikit lebih
rendah dibandingkan dengan di sekolah kelas menengah. Kemungkinan besar nilai yang dilaporkan sendiri ini lebih tinggi daripada
nilai sebenarnya yang diterima siswa, namun kemungkinan besar nilai rata-rata saat ini adalah B, bukan C.

Pendekatan penilaian yang paling umum dilakukan dengan melihat nilai siswa dalam suatu ujian, dengan mempertimbangkan
tingkat kesulitan ujian dan kinerja kelas secara keseluruhan, dan memberikan nilai sedemikian rupa sehingga siswa yang “tepat”
akan memperoleh nilai A dan B serta nilai yang sama. "nomor yang benar" gagal. Para guru mempunyai perkiraan yang berbeda-
beda mengenai angka-angka yang seharusnya, namun sekolah sering kali mempunyai norma-norma yang tidak terucapkan
mengenai berapa banyak siswa yang harus diberi nilai A dan berapa banyak yang harus gagal.

Penilaian Kinerja
Salah satu keterbatasan terpenting dari nilai tradisional adalah meskipun nilai tersebut dapat memberikan beberapa indikasi tentang
kinerja siswa dibandingkan dengan nilai lain, namun nilai tersebut tidak memberikan informasi tentang apa yang diketahui dan
dapat dilakukan siswa. Seorang siswa yang mendapat nilai B dalam bahasa Inggris mungkin akan kecewa atau bernapas lega,
tergantung pada apa yang diharapkannya. Namun, nilai ini tidak memberi tahu dia atau orang tua atau gurunya apa yang bisa dia
lakukan, apa yang perlu dia lakukan untuk maju, atau di mana letak kekuatan dan kelemahannya (Marzano & Heflebower, 2011;
Quinn, 2012). Selain itu, pemberian nilai tunggal pada setiap mata pelajaran dapat memperkuat gagasan bahwa siswa lebih mampu
atau kurang mampu, atau mungkin lebih termotivasi atau kurang termotivasi, dibandingkan gagasan bahwa semua siswa sedang
berkembang.
Beberapa sekolah telah menanggapi keterbatasan ini dengan pendekatan penilaian alternatif yang disebut penilaian kinerja
(Guskey, 2014), di mana guru menentukan apa yang diketahui dan dapat dilakukan anak-anak dan kemudian melaporkannya
dengan cara yang mudah dipahami oleh orang tua dan siswa (Guskey , 2014).
Gambar 13.9 (dari Wiggins, 1994) menunjukkan satu halaman penilaian seni bahasa yang berisi standar kelulusan kelas lima,
atau ekspektasi tentang apa yang harus diketahui oleh siswa kelas lima. Orang tua yang menerima formulir seperti ini dapat melihat
kemajuan siswa menuju jenis kinerja yang dianggap penting oleh distrik sekolah. Perhatikan bahwa meskipun formulir tersebut
memberikan informasi tentang kinerja siswa dibandingkan dengan siswa lain, penekanannya adalah pada pertumbuhan seiring
berjalannya waktu.

M13_SLAV4054_12e_SE_C13.indd 375 02/11/16 17:16


Machine Translated by Google

376 BAB TIGA BELAS

Laporan Kemajuan Fairplay Nama siswa _____ Kelas 3 _____ 4 _____


Sekolah Dasar Komunitas Polton Guru _____ Tahun ajaran_____
Distrik Sekolah Cherry Creek
(Bagian Seni Bahasa)

Persyaratan kelulusan berbasis kinerja berfokus pada penguasaan siswa terhadap kemahiran. Kurikulum dan laporan kemajuan tertulis diarahkan untuk
mempersiapkan siswa menghadapi tugas ini. Tanggal (misalnya, 12/3) menunjukkan kinerja siswa dalam rangkaian kemajuan berdasarkan standar kelulusan
kelas lima.
Dasar Ahli Canggih

Kemahiran Seni Bahasa 1

Mendengarkan, menafsirkan isyarat Mendengarkan secara aktif, Mendengarkan secara aktif untuk Mendengarkan secara aktif
verbal dan nonverbal untuk mendemonstrasikan pemahaman, mencapai tujuan, menunjukkan untuk mencapai tujuan,
membangun makna. dan mengklarifikasi dengan pemahaman, dan mengklarifikasi mendemonstrasikan pemahaman,
pertanyaan dan parafrase. dengan pertanyaan dan parafrase. mengklarifikasi dengan pertanyaan
dan parafrase, mengklasifikasikan,
menganalisis, dan menerapkan informasi.

Kemahiran Seni Bahasa 2

Menyampaikan makna secara jelas Berbicara dengan tepat untuk Berbicara dengan tepat dalam Berbicara dengan tepat untuk
dan runtut melalui tuturan baik menginformasikan, menjelaskan, bentuk, menjelaskan, menginformasikan, menjelaskan,
dalam situasi formal maupun mendemonstrasikan, atau mendemonstrasikan, atau membujuk. mendemonstrasikan, atau
informal. membujuk. Mengatur pidato dan Mengatur pidato yang buruk dan membujuk. Atau mengatur
menggunakan kosakata untuk pidato
menggunakan kosakata untuk menyampaikan formal dengan detail dan transi
pesan.
menyampaikan pesan. tions mengadaptasi subjek
dan kosa kata.
Menggunakan kontak mata,
gerak tubuh, dan ekspresi
yang sesuai dengan
audiens dan topik.

Kemahiran Seni Bahasa 3

Membaca untuk membangun Membaca materi yang Membaca materi yang bervariasi, Membaca berbagai materi,
makna melalui interaksi dengan bervariasi, memahami secara memahami secara harafiah dan interpretatif. memahami dan menarik
teks, dengan mengenali persyaratan literal. Mengingat dan Mensintesis dan mengeksplorasi kesimpulan, mengingat
yang berbeda dari berbagai bahan membangun pengetahuan melalui informasi, menarik kesimpulan. dan membangun
cetakan, dan dengan menggunakan informasi terkait. Mulai Mengkritik maksud penulis, pengetahuan melalui
strategi yang tepat untuk menggunakan strategi untuk menganalisis materi untuk mencari maknaformasi terkait.
dan nilai.
meningkatkan pemahaman. mengembangkan kefasihan, Menerapkan strategi untuk meningkatkan Menerapkan strategi untuk
menyesuaikan kecepatan ketika membaca materi
kefasihan, yang berbeda.
menyesuaikan kecepatan saat meningkatkan kelancaran,
membaca materi yang berbeda. menyesuaikan kecepatan
saat membaca materi yang berbeda.

Kemahiran Seni Bahasa 4

Menghasilkan tulisan yang Menulis dengan tepat tentang Menulis dengan tepat sebagai topik Menulis dengan tepat
menyampaikan tujuan dan topik yang ditugaskan atau yang ditandatangani atau dipilih sendiri. tentang topik yang
makna, menggunakan strategi dipilih sendiri. Gagasan utama Gagasan pokok yang jelas, detail yang ditugaskan atau dipilih
menulis yang efektif, dan yang jelas, sedikit detail. Elemen lemahmenarik, pengorganisasian yang sendiri. Menghubungkan
menggabungkan kaidah bahasa di awal, tengah, akhir. Struktur jelas, urutan yang jelas, struktur kalimat pendapat, detail, dan contoh.
tulis untuk berkomunikasi dengan kalimat kurang bervariasi dan yang bervariasi, pengeditan untuk Pengorganisasian dan
jelas. berisi mengurangi kesalahan. Pilihan suara pengurutan yang efektif,
kesalahan. dan kata yang tepat. struktur kalimat yang bermakna,
pengeditan untuk menghilangkan sebagian besar kesalahan.
Pilihan suara dan kata yang
tepat.

Dibandingkan dengan kelas di bidang Seni Bahasa, anak Anda 1 2 3 Periode Penandaan
Menampilkan kinerja yang kuat
Catatan: Guru memberi tanda centang pada satu kotak per periode
Menunjukkan perkembangan yang tepat
penilaian untuk menunjukkan status anak dalam seni bahasa.
Perlu latihan dan dukungan

GAMBAR 13.9
Sumber: Dari “Toward Better Report Cards,” Educational Leadership, oleh Grant Wiggins. Hak Cipta © 1994 dicetak ulang dengan izin Grant Wiggins.

M13_SLAV4054_12e_SE_C13.indd 376 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 377

RUBRIK PENILAIAN UNTUK PENILAIAN KINERJA Persyaratan utama dalam penggunaan penilaian kinerja adalah pengumpulan
sampel pekerjaan dari siswa yang menunjukkan tingkat kinerja mereka pada suatu rangkaian perkembangan. Mengumpulkan dan
mengevaluasi pekerjaan yang sudah dilakukan siswa di kelas (seperti komposisi, laporan lab, atau proyek) disebut penilaian
portofolio (Brookhart, 2013, 2014, 2015; McTighe & Wiggins, 2013), yang dibahas sebelumnya dalam bab ini. Alternatifnya adalah
dengan memberikan tes kepada siswa di mana mereka dapat menunjukkan kemampuan mereka untuk menerapkan dan
mengintegrasikan pengetahuan, keterampilan, dan penilaian. Kebanyakan skema penilaian kinerja menggunakan beberapa
kombinasi portofolio dan tes kinerja berdasarkan permintaan. Dalam kedua kasus tersebut, kinerja siswa biasanya dievaluasi
berdasarkan rubrik, yang menggambarkan, misalnya, kinerja sebagian mahir, mahir, dan lanjutan, atau yang menunjukkan posisi
siswa dalam rangkaian perkembangan.

Sistem Penilaian Alternatif Lainnya


Beberapa pendekatan penilaian lainnya digunakan bersama dengan pendekatan pembelajaran inovatif. Dalam sistem yang
disebut penilaian kontrak, siswa menegosiasikan sejumlah pekerjaan atau tingkat kinerja tertentu yang akan mereka capai untuk
menerima nilai tertentu. Misalnya, seorang siswa mungkin setuju untuk menyelesaikan lima laporan buku dengan panjang tertentu
dalam periode penilaian untuk menerima nilai A.
Penilaian penguasaan melibatkan penetapan standar penguasaan, seperti 80 atau 90 persen benar dalam suatu ujian. Semua
siswa yang mencapai standar tersebut menerima nilai A; siswa yang tidak mencapainya pertama kali menerima instruksi korektif
dan kemudian mengikuti tes kembali untuk mencoba mencapai kriteria penguasaan (Fisher, Frey, & Pumpian, 2011; Guskey,
2014). Terakhir, banyak guru memberikan nilai berdasarkan perbaikan atau usaha, biasanya dikombinasikan dengan nilai
tradisional. Dengan cara ini, seorang siswa yang kinerjanya berada pada tingkat rendah dibandingkan dengan siswa lain tetap
dapat menerima umpan balik yang menunjukkan bahwa dia berada pada jalur menuju kinerja yang lebih tinggi (lihat Tomlinson &
Moon, 2013).

MENGIZINKAN SISWA MENGAMBIL UJI UJIAN Banyak guru memperbolehkan siswanya untuk mengikuti ulang tes, terutama jika
mereka gagal pada kali pertama (Dueck, 2011; Wormeli, 2011). Hal ini dapat menjadi ide yang baik jika memberikan kesempatan
kepada siswa untuk melakukan pembelajaran tambahan dan menguasai materi yang sedang dipelajari di kelas. Misalnya, seorang
siswa mungkin diberikan waktu 2 hari untuk mempelajari materi yang diujikan dan kemudian mengambil bentuk tes alternatif.
(Memberikan tes yang sama kepada siswa tidak disarankan karena hal ini akan memungkinkan siswa untuk mempelajari hanya
pertanyaan-pertanyaan yang diajukan.) Siswa kemudian dapat diberi nilai yang satu huruf lebih rendah dari nilai yang dia peroleh
pada tes kedua. , karena siswa mempunyai keuntungan memiliki kesempatan ekstra untuk belajar. Terdapat bahaya jika siswa
mengetahui bahwa mereka dapat mengikuti tes ulang, mereka mungkin tidak akan belajar sampai setelah mencoba tes pertama,
namun secara umum, memberikan siswa kesempatan kedua adalah cara yang baik untuk memungkinkan mereka yang bersedia
melakukan upaya ekstra untuk meningkatkan kemampuan mereka. nilai yang buruk. Beberapa sekolah memberikan nilai A, B, C,
atau tidak lengkap, memberikan waktu tambahan dan dukungan sampai semua siswa mampu memperoleh setidaknya nilai C
(Kenkel, Hoelscher, & West, 2006).

Menetapkan Nilai Rapor


Kebanyakan sekolah memberikan rapor empat atau enam kali setahun—yaitu setiap 6 atau 9 minggu. Nilai rapor paling sering
diperoleh dari beberapa kombinasi faktor berikut (Brookhart & Nitko, 2015; Reeves, 2015):

Skor pada kuis dan tes

Skor pada makalah dan proyek


LabEd Saya
Skor pada pekerjaan rumah
Contoh Video 13.5
Skor pada seatwork Penulis buku teks Bob Slavin

Partisipasi kelas (perilaku akademik di kelas, jawaban pertanyaan kelas, dan sebagainya) menyajikan cerita tentang
pengalaman pertamanya menilai
Deportment (perilaku kelas, keterlambatan, sikap)
makalah siswa. Menurut Anda
Upaya
mengapa seorang guru mungkin
Hal ini diurutkan dari ukuran pencapaian yang paling formal dan dapat diandalkan hingga ukuran pencapaian tersebut merasa dia “gagal” ketika seorang siswa gagal

dianggap paling tidak valid sebagai indikator pembelajaran. Dua faktor pertama yang tercantum adalah penilaian sumatif, dan kelas? Apa yang dapat Anda lakukan

hampir semua orang akan menganggapnya tepat untuk penilaian. Dua berikutnya biasanya formatif dan dengan demikian untuk memastikan Anda selalu dapat

menunjukkan bagaimana pembelajaran mengalami kemajuan ketika masih belum lengkap. Kurang tepat karena tidak membenarkan nilai yang Anda berikan
kepada siswa?
menyampaikan informasi status pada akhir satuan pembelajaran.

M13_SLAV4054_12e_SE_C13.indd 377 02/11/16 17:16


Machine Translated by Google

378 BAB TIGA BELAS

Tiga hal terakhir mungkin berkontribusi pada pencapaian, namun bukan pencapaian. Mendasarkan nilai pada nilai tersebut dapat
mengkomunikasikan informasi yang salah kepada orang lain tentang siswa (Guskey, 2014). Guru sering memberikan bobot yang
berbeda terhadap berbagai faktor, dengan menyatakan (misalnya) bahwa nilai akan didasarkan pada 30 persen kuis, 30 persen pada
ujian akhir, 20 persen pada pekerjaan rumah, dan 20 persen pada partisipasi kelas. Ini membantu mengkomunikasikan kepada siswa
apa yang paling penting bagi guru.
Salah satu permasalahan penting muncul ketika skor harus digabungkan untuk penilaian—bagaimana menangani pekerjaan
yang hilang, seperti pekerjaan rumah (O'Connor, 2009; Reeves, 2006, 2015). Beberapa guru memberi nilai “nol” untuk pekerjaan yang
tidak ada. Demikian pula, mereka mungkin memberikan angka nol pada pengujian karena alasan lain. Namun angka nol bisa sangat
merugikan (bahkan nilai tersebut sangat jauh dari nilai kelulusan sehingga hampir mustahil bagi siswa untuk pulih). Praktik ini hanya
dapat dipandang sebagai hukuman. Strategi yang lebih baik mungkin adalah dengan menggunakan sistem di mana nilai diubah menjadi
serangkaian nilai numerik yang masuk akal (misalnya, A = 4, B = 3, dll.), dengan 0 diberikan untuk setiap pekerjaan yang hilang. Untuk
mengilustrasikan perbedaan dalam kedua strategi ini, pertimbangkan seorang siswa yang melewatkan satu dari lima tugas. Jika dia
diberi nilai nol untuk pekerjaan yang hilang dan nilai tugasnya adalah 92, 86, 0, 73, dan 91, nilai rata-ratanya adalah 68,4, atau D dalam
skema penilaian 60–70–80–90. Sebaliknya, mengkonversi skor menggunakan nilai huruf akan memberinya nilai rata-rata 2,6, yang
berarti C. Solusi lain yang digunakan di beberapa sekolah adalah memberikan nilai minimal 50 pada skala 100 poin, untuk menghindari
adanya satu angka nol yang membuat kesuksesan menjadi mustahil. Sebuah studi mengenai hal ini di sekolah menengah menemukan

bahwa nilai minimum tidak menyebabkan inflasi nilai dan memberikan manfaat dalam hal kelulusan mata pelajaran (Carey & Carifio,
2012).

Kadang-kadang prestasi siswa dalam ujian atau kuis tampak sangat buruk baginya. Penilaian yang tidak biasa tersebut
mungkin terjadi karena alasan non-akademik, seperti gangguan di rumah atau di sekolah.
Percakapan pribadi dengan siswa mengenai tes atau kuis mungkin akan mengungkap masalah yang harus diperhatikan, dan siswa
mungkin diberi kesempatan untuk mengikuti kembali tes tersebut. Beberapa guru menjatuhkan nilai terendah yang diterima siswa pada
kuis untuk menghindari hukuman bagi siswa karena kesalahan yang tidak biasa.

GURU YANG SENGAJA


Menggunakan Apa yang Anda Ketahui tentang Menilai Siswa
Pembelajaran untuk Meningkatkan Pengajaran dan Pembelajaran

Guru yang intensional menilai pembelajaran siswa dengan cara yang selaras dengan tujuan dan pengajaran mereka.

Mereka menggunakan hasil penilaian untuk menyesuaikan pengajaran mereka dan untuk memberikan umpan balik penting

kepada siswa, keluarga, dan masyarakat. Guru yang intensional mengetahui bahwa tidak ada satu ukuran pun yang ideal

untuk setiap keadaan, dan mereka menerapkan serangkaian penilaian yang sesuai dengan tujuan dan keadaan mereka.

Mereka merencanakan kursus, unit, dan pelajaran seputar tujuan penting.

Mereka dengan hati-hati menyelaraskan penilaian mereka terhadap pembelajaran siswa dengan tujuan-tujuan ini.

Mereka menggunakan taksonomi tujuan pembelajaran untuk memastikan bahwa mereka mengajarkan semua

jenis tujuan, bukan hanya pengetahuan dan pemahaman.

Mereka menggunakan penilaian formatif secara terus-menerus untuk mengetahui apa yang telah dipelajari siswa

sejauh ini, dan kemudian menggunakan informasi tersebut untuk memberikan informasi kepada siswa dan untuk

menyesuaikan tingkat dan kecepatan pengajaran mereka.

Mereka membuat tes dan kuis yang menyentuh semua jenis pembelajaran dan fokus pada tujuan unit utama.

Mereka menciptakan penilaian yang dapat diandalkan untuk menentukan apakah siswa telah atau belum

menguasai konsep dan keterampilan penting.

Mereka menggunakan berbagai format respons dalam tes, termasuk respons yang dikonstruksi serta pertanyaan

pilihan ganda dan isian.

Mereka menilai keterampilan tingkat tinggi, seperti pemecahan masalah dan kreativitas.

M13_SLAV4054_12e_SE_C13.indd 378 02/11/16 17:16


Machine Translated by Google

MENILAI PEMBELAJARAN SISWA 379

Untuk konten yang sesuai, mereka mengumpulkan dan mengevaluasi portofolio pekerjaan siswa
sehingga mereka dapat menentukan bagaimana kemajuan siswa dalam tugas-tugas otentik. Contohnya
termasuk komposisi, pemecahan masalah, proyek seni, dan
pertunjukan musik. Selamat pagi
Silakan ambil yang kosong
selembar kertas dan jawablah
Mereka memberikan nilai secara adil dan dapat diandalkan
pertanyaan berikut:

berdasarkan pencapaian standar siswa, dan menjelaskan Apa empat kekuatan erosi?

Berapa jumlah kerusakannya, dalam dolar


kepada siswa dan orang tua mereka berdasarkan nilai tersebut disebabkan oleh erosi pada garis pantai Amerika setiap tahunnya?

dan apa yang perlu dilakukan untuk meningkatkannya.


Latihan
Mereka secara proaktif melibatkan siswa dan orang tua dalam
Aplikasi MyEdLab 13.1
diskusi mengenai penilaian, dengan penekanan pada apa yang
Dalam teks Pearson, tonton video
telah dicapai dan apa yang masih harus dicapai.
kelas. Kemudian gunakan

pedoman dalam “Guru yang


Mereka memberikan kesempatan kepada siswa untuk meningkatkan Disengaja” untuk menjawab
nilai mereka dengan mengulang tes serupa setelah melakukan serangkaian pertanyaan yang
pembelajaran tambahan, atau menggunakan sistem penilaian akan membantu Anda
penguasaan di mana siswa memiliki banyak kesempatan untuk merefleksikan dan memahami
memenuhi standar. proses belajar mengajar yang disajikan dalam video.

Salah satu prinsip penting dalam penilaian rapor adalah bahwa nilai tidak boleh mengejutkan.
Siswa harus selalu mengetahui bagaimana nilai mereka akan dihitung, apakah tugas kelas dan pekerjaan rumah disertakan,
dan apakah partisipasi dan upaya di kelas juga diperhitungkan. Kejelasan mengenai standar penilaian membantu Anda
menghindari banyak keluhan tentang nilai rendah yang tidak terduga dan, yang lebih penting, membuat siswa mengetahui
secara pasti apa yang harus mereka lakukan untuk meningkatkan nilai mereka (Guskey, 2014; O'Connor & Wormeli, 2011;
Reeves, 2015).
Banyak sekolah memberikan nilai “sementara” di tengah-tengah periode penilaian, yang memberikan siswa
gambaran awal tentang apa yang mereka lakukan dan peringatan jika mereka tampaknya akan mendapat masalah. Variasi
dalam praktik ini adalah dengan memberikan nilai sementara hanya jika siswa sedang menuju nilai D atau F. Menambahkan
komentar pada nilai untuk menjelaskan apa yang perlu dilakukan siswa untuk mendapatkan nilai yang lebih tinggi dapat
sangat membantu dalam menjaga motivasi dan meningkatkan kinerja (Dueck, 2014).
Prinsip penting lainnya adalah bahwa nilai harus bersifat pribadi. Siswa tidak perlu mengetahui nilai satu sama lain;
mempublikasikan nilai hanya mengundang perbandingan yang merugikan di antara siswa. Terakhir, penting untuk menyatakan
kembali bahwa nilai hanyalah salah satu metode evaluasi siswa.
Evaluasi tertulis dapat memberikan informasi yang berguna kepada orang tua dan siswa (Marzano, Yanoski, Hoegh, &
Simms, 2013). Buku nilai yang terkomputerisasi kini banyak tersedia dan digunakan secara luas.
Namun Guskey (2014) memperingatkan bahwa Anda harus berhati-hati saat menggunakan perangkat lunak penghemat
waktu ini dan menghindari membiarkan program mengambil keputusan yang seharusnya Anda buat sendiri (Mertler, 2014).

Pemeriksaan Mandiri MyEdLab 13.4

RINGKASAN

Apa Tujuan Instruksional dan Bagaimana Cara Penggunaannya?


Penelitian mendukung penggunaan tujuan instruksional, atau perilaku, yang merupakan pernyataan jelas tentang apa yang
siswa harus ketahui dan mampu lakukan di akhir pelajaran, unit, atau kursus. Pernyataan ini juga merinci kondisi kinerja
dan kriteria penilaian. Dalam perencanaan pembelajaran, analisis tugas berkontribusi pada perumusan tujuan, dan
perencanaan mundur memfasilitasi pengembangan tujuan khusus dari tujuan umum dalam suatu program pembelajaran.
Tujuan terkait erat dengan penilaian. Taksonomi tujuan pendidikan Bloom mengklasifikasikan tujuan pendidikan dari yang
sederhana hingga yang kompleks, meliputi pengetahuan, pemahaman, penerapan, analisis, sintesis, dan evaluasi. Matriks
isi perilaku membantu memastikan bahwa tujuan mencakup banyak tingkatan.

M13_SLAV4054_12e_SE_C13.indd 379 02/11/16 17:16


Machine Translated by Google

380 BAB TIGA BELAS

Mengapa Evaluasi Penting?


Ukuran formal atas kinerja atau pembelajaran siswa penting sebagai umpan balik bagi siswa dan guru, sebagai
informasi bagi orang tua, sebagai pedoman seleksi dan sertifikasi, sebagai data untuk menilai akuntabilitas sekolah,
dan sebagai insentif untuk meningkatkan upaya siswa.

Bagaimana Pembelajaran Siswa Dievaluasi?


Strategi evaluasi meliputi evaluasi formatif; evaluasi sumatif; evaluasi yang mengacu pada norma, di mana nilai
seorang siswa dibandingkan dengan nilai siswa lainnya; dan evaluasi yang mengacu pada kriteria, di mana skor
siswa dibandingkan dengan standar penguasaan. Siswa dievaluasi melalui tes atau pertunjukan. Metode evaluasi
yang tepat bergantung pada tujuan evaluasi. Misalnya, jika tujuan pengujian adalah untuk mengetahui apakah siswa
telah menguasai konsep kunci dalam suatu pelajaran, kuis formatif atau pertunjukan yang mengacu pada kriteria
akan menjadi pilihan yang paling tepat.

Bagaimana Tes Dibangun?


Tes dibangun untuk memperoleh bukti pembelajaran siswa dalam kaitannya dengan tujuan pengajaran.
Tes prestasi harus dibangun sesuai dengan enam prinsip: Tes tersebut harus (1) mengukur tujuan pembelajaran
yang didefinisikan dengan jelas, (2) memeriksa sampel yang representatif dari tugas-tugas pembelajaran yang
disertakan dalam pengajaran, (3) menyertakan jenis item tes yang paling sesuai untuk mengukur hasil belajar yang
diinginkan, (4) sesuai dengan kegunaan hasil yang akan dibuat, (5) dapat diandalkan dan ditafsirkan dengan hati-
hati, dan (6) meningkatkan pembelajaran. Tabel spesifikasi membantu dalam perencanaan tes yang sesuai dengan
tujuan pembelajaran. Jenis soal tes meliputi pilihan ganda, benar salah, soal tuntas, menjodohkan, esai pendek, dan
soal pemecahan masalah. Setiap jenis soal tes mempunyai kegunaan yang optimal, beserta kelebihan dan
kekurangannya. Misalnya, jika Anda ingin mempelajari bagaimana siswa memikirkan, menganalisis, mensintesis,
atau mengevaluasi beberapa aspek isi kursus, tes esai singkat mungkin paling tepat, asalkan Anda punya waktu
untuk melaksanakannya dan mengevaluasi tanggapan siswa.

Apa Itu Penilaian Otentik, Portofolio, dan Kinerja?


Penilaian portofolio dan penilaian kinerja menghindari aspek negatif tes pilihan ganda pensil dan kertas dengan
mengharuskan siswa mendemonstrasikan pembelajaran mereka melalui contoh pekerjaan atau penerapan langsung
di dunia nyata. Penilaian kinerja biasanya diberi skor berdasarkan rubrik yang menentukan terlebih dahulu jenis
kinerja yang diharapkan.

Bagaimana Nilai Ditentukan?


Sistem penilaian berbeda dalam pendidikan dasar dan menengah. Misalnya, penilaian informal mungkin lebih cocok
dilakukan di tingkat dasar, sedangkan nilai huruf menjadi semakin penting di tingkat menengah. Standar penilaian
mungkin bersifat absolut atau relatif (penilaian berdasarkan kurva). Penilaian kinerja adalah cara bagi guru untuk
menentukan apa yang diketahui dan dapat dilakukan anak. Persyaratan utama dalam penilaian kinerja adalah
pengumpulan sampel pekerjaan siswa secara bijaksana yang menunjukkan tingkat kinerja. Pendekatan lain adalah
dengan memberikan tes kepada siswa di mana mereka dapat menunjukkan kemampuan mereka. Sistem lain
termasuk penilaian kontrak dan penilaian penguasaan. Nilai rapor biasanya merupakan nilai rata-rata pada ujian,
pekerjaan rumah, pekerjaan rumah, partisipasi kelas, tingkah laku, dan usaha.

ISTILAH UTAMA

Tinjaulah istilah-istilah kunci berikut dari bab ini.

tujuan afektif 347 evaluasi 348


penilaian 345 deskriptor evaluatif 367
perencanaan mundur 343 menggagalkan 357

matriks konten perilaku 347 evaluasi formatif 350

item penyelesaian 361 efek halo 366

interpretasi yang mengacu pada kriteria 350 tujuan instruksional 340


pengecoh 357 tujuan pembelajaran 345

M13_SLAV4054_12e_SE_C13.indd 380 02/11/16 17:16


Machine Translated by Google

MENILAI BELAJAR SISWA 381

soal esai panjang 361 item jawaban terpilih 356 item


penilaian penguasaan esai pendek 361
377 soal mencocokkan batang 356
360 soal pilihan ganda 356 evaluasi sumatif 350
interpretasi yang mengacu pada norma tabel spesifikasi 356 analisis
350 penilaian kinerja 370 tugas 342
penilaian portofolio 368 taksonomi tujuan pendidikan 346 tujuan
penilaian pemecahan masalah 364 pengajaran 345 soal benar-
standar penilaian relatif 375 salah 360

PENILAIAN DIRI:
PRAKTEK UNTUK LISENSI
Petunjuk: Sketsa pembuka bab membahas indikator-indikator yang sering dinilai dalam ujian perizinan
negara bagian. Baca kembali sketsa pembuka bab dan kemudian tanggapi pertanyaan-pertanyaan berikut.

1. Pak Sullivan mengalami kesulitan menghubungkan apa yang dia ajarkan dan apa yang dia uji.
Manakah dari alat evaluasi berikut yang paling mungkin membantu Pak Sullivan dalam menghubungkan
hal ini?
A. Tes pilihan ganda b.
Tujuan instruksional c.
Strategi pengajaran tradisional d.
Pengujian buku terbuka
2. Pak Sullivan mungkin menggunakan bagan yang menunjukkan bagaimana suatu konsep atau keterampilan akan
diajarkan pada tingkat kognitif yang berbeda dalam kaitannya dengan tujuan pembelajaran. Apa
nama bagan ini?
A. Analisis tugas b.
Perencanaan mundur c. Matriks konten perilaku
D. Tabel spesifikasi 3. Pak
Sullivan mungkin dapat meningkatkan hubungan antara apa yang dia ajarkan dan apa yang dia uji
mengikuti saran manakah di bawah ini? A. Sertakan
semua konten instruksional dalam tes. B. Buatlah
tes yang mencakup semua jenis soal: benar-salah, pilihan ganda, menjodohkan, jawaban singkat,
esai, dan soal pemecahan masalah. C.
Bebas dari batasan tujuan instruksional. D. Rancang tes yang
sesuai dengan kegunaan tertentu dari hasil yang akan dibuat.
4. Jenis evaluasi manakah yang digunakan Pak Sullivan di bawah ini?
A. Sumatif
B. Bakat c.
Afektif
D. Analisis tugas
5. Mengapa Pak Sullivan memilih untuk membuat tabel spesifikasi?
A. Untuk menunjukkan jenis pembelajaran yang akan dinilai untuk tujuan pembelajaran yang
berbeda b. Untuk mengukur kinerja siswa terhadap standar yang
ditentukan c. Membuat perbandingan antar
siswa d. Untuk mengidentifikasi kondisi penguasaan
6. Dalam esai singkat, jelaskan mengapa evaluasi itu penting.
7. Menulis tujuan pembelajaran, membuat tabel spesifikasi menggunakan taksonomi Bloom, de
mengembangkan rencana pelajaran, dan menulis tes singkat untuk suatu topik pelajaran.

Ujian Lisensi MyEdLab 13.1 Jawab pertanyaan dan terima umpan balik instan di eText Pearson Anda
di MyEdLab.

M13_SLAV4054_12e_SE_C13.indd 381 02/11/16 17:16


Machine Translated by Google

og
/zratsyaawilh toiH
F

BAB EMPAT BELAS

Tes Standar dan Akuntabilitas

GARIS BESAR BAB


Apa Itu Tes Standar dan Bagaimana Cara Penggunaannya?
Seleksi dan Penempatan
HASIL BELAJAR
Diagnosa
Evaluasi dan Akuntabilitas Di akhir bab ini, Anda seharusnya dapat:

Peningkatan Sekolah 14.1 Mengidentifikasi berbagai jenis tes standar dan kegunaannya
Jenis Tes Standar Apa yang Diberikan?
Tes Bakat 14.2 Mengatasi masalah yang berkaitan dengan standarisasi
Tes Prestasi yang Direferensikan Norma pengujian dan pengujian di kelas

Tes Prestasi yang Direferensikan Kriteria 14.3 Diskusikan bagaimana guru bertanggung jawab atas prestasi
siswanya
Pengaturan Standar
14.4 Jelaskan bagaimana pengetahuan dibakukan
Bagaimana Tes Standar Ditafsirkan?
tes dan akuntabilitas menginformasikan pengajaran yang
Skor Persentil disengaja
Skor Setara Kelas
Skor Standar

M14_SLAV4054_12e_SE_C14.indd 382 27/10/16 16:23


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 383

GARIS BESAR BAB (LANJUTAN) Bagaimana Pendidik Bertanggung Jawab atas Prestasi
Siswa?
Apa Saja Permasalahan Mengenai Pengujian Standar dan
Kelas? Setiap Siswa Berhasil Bertindak (ESSA)

Uji Validitas Standar Negara Inti Umum

Uji Keandalan Reformasi Berbasis Bukti

Uji Bias Bagaimana Anda Dapat Menggunakan Data untuk Menginformasikan Pengajaran Anda?

Administrasi Tes Terkomputerisasi Penilaian Tolok Ukur

Menguji Akomodasi untuk Siswa dengan Reformasi Berbasis Data


Disabilitas
Sistem Penilaian Nilai Tambah
Menguji Akomodasi untuk Pelajar Bahasa Inggris

ennifer Tranh adalah guru kelas lima di Lincoln Elemen Nona Tranh tersenyum. “Sayangnya tidak. Sulit untuk dijelaskan,

J sekolah tar. Dia bertemu dengan orang tua salah satu tetapi nilai setara nilai 6,9 seharusnya menjadi nilai yang diperoleh siswa di
murid-muridnya, Anita McKay. akhir kelas enam pada tes kelas lima. Bukan berarti Anita sudah menguasai
“Halo, Tuan dan Nyonya McKay,” sapa Ibu Tranh ketika orang tua materi kelas enam. Selain itu, kami menganggap remeh informasi ujian
Anita tiba. “Saya sangat senang Anda bisa datang. Silakan duduk, dan kita siswa mana pun. Kami lebih mengandalkan kinerja sehari-hari dan tes di
akan mulai masuk. Pertama, saya ingin memberi tahu Anda betapa kelas untuk mengetahui kinerja setiap siswa. Dalam hal ini skor CAT standar
menyenangkannya memiliki Anita di kelas saya. Dia selalu ceria, sangat cukup konsisten dengan apa yang kami lihat dilakukan Anita di kelas. Namun
bersedia membantu orang lain. Karyanya berjalan dengan sangat baik di izinkan saya menunjukkan contoh lain yang menunjukkan kurang konsistensi.
sebagian besar mata pelajaran, meskipun ada beberapa bidang yang saya Saya yakin Anda memperhatikan bahwa meskipun nilai membaca Anita
agak khawatirkan. Namun sebelum saya mulai, apakah Anda memiliki cukup bagus, nilai pemahaman bacaannya jauh lebih rendah dibandingkan
pertanyaan untuk saya?” nilai di sebagian besar bidang lainnya. Dia mendapat nilai persentil hanya
Tuan dan Nyonya McKay berkata kepada Nona Tranh bahwa 30. Ini hampir satu tahun di bawah tingkat kelas. Menurutku Anita adalah
menurut mereka Anita sedang menjalani tahun yang baik dan mereka sangat pembaca yang cukup baik, jadi aku terkejut. Saya memberinya tes lain, Tes
ingin mendengar kabarnya. Membaca Lisan Abu-abu. Tes ini diberikan secara tatap muka, sehingga
"Baiklah. Pertama-tama, saya tahu Anda telah melihat hasil Tes memberikan indikasi yang lebih baik mengenai seberapa baik siswa
Prestasi California Anita. Kami menyebutnya 'CAT' membaca. Di Gray, Anita mendapat nilai di tingkat kelas. Skor ini lebih
pendek. Kebanyakan orang tua tidak memahami nilai ujian ini, jadi saya menunjukkan di mana saya melihatnya membaca di kelas, jadi saya tidak
akan mencoba menjelaskannya kepada Anda. Pertama, mari kita lihat mengkhawatirkan dia dalam bidang ini.
matematika. Seperti yang Anda ketahui, Anita selalu menjadi siswa
matematika yang baik, dan nilai serta nilainya mencerminkan hal ini. Dia
mendapat nilai A pada rapor terakhirnya dan nilai persentil 90 pada
perhitungan matematika. Itu berarti dia mendapat nilai lebih baik dari 90 “Di sisi lain, ada kekhawatiran saya terhadap Anita yang tidak

persen siswa kelas lima di negara tersebut. Dia memperoleh nilai yang tercermin dalam tes standarnya. Dia mendapat nilai mendekati persentil

hampir sama baiknya dalam konsep dan penerapan matematika—skornya beradake-70


padadalam
persentil
mekanika
ke-85.” bahasa dan ekspresi bahasa. Hal ini mungkin
“Apa yang dimaksud dengan ‘nilai setara’ ini?” tanya Ny. McKay. membuat Anda berpikir Anita hebat dalam bidang seni bahasa, dan dia
melakukannya dengan baik dalam banyak hal. Namun, saya prihatin dengan
“Itu adalah skor yang seharusnya menunjukkan pencapaian seorang tulisan Anita. Saya menyimpan portofolio tulisan siswa sepanjang tahun. Ini
anak dalam kaitannya dengan tingkat kelasnya. Misalnya, nilai Anita yang Anita di sini. Dia menunjukkan beberapa perkembangan dalam menulis, tapi
setara dengan 6,9 berarti dia mendapat nilai lebih dari satu tahun di depan saya pikir dia bisa melakukan jauh lebih baik. Seperti yang Anda lihat, ejaan,
nilai kelas lima.” tanda baca, dan tata bahasanya sangat bagus, namun ceritanya sangat
“Apakah ini berarti dia boleh bolos matematika kelas enam?” tanya pendek dan faktual. Seperti yang Anda tahu, kami tidak memberikan nilai
Tuan McKay.

(lanjutan)

M14_SLAV4054_12e_SE_C14.indd 383 18/10/16 15:37


Machine Translated by Google

384 BAB EMPAT BELAS

secara tertulis. Kami menggunakan formulir penilaian yang menunjukkan sebenarnya mengembangkan kemampuan mereka untuk menerapkan
perkembangan siswa menuju mahir menulis. Berdasarkan portofolionya, keterampilan mereka dalam melakukan hal-hal nyata dan memecahkan
saya menilai dia mahir, namun untuk maju, saya ingin melihatnya masalah nyata. Faktanya, setelah kita membahas nilai dan tes standar
menulis lebih banyak dan benar-benar melepaskan imajinasinya. Dia Anita, mari kita lihat portofolionya, dan saya pikir Anda akan mendapatkan
menceritakan kisah-kisah hebat secara lisan, tapi menurut saya dia gambaran yang lebih baik tentang apa yang dia lakukan di sekolah ini.”
sangat khawatir akan membuat kesalahan dalam mekanika sehingga
MENGGUNAKAN PENGALAMAN ANDA
dia menulis dengan sangat hati-hati. Saat liburan, Anda dapat
PEMBELAJARAN KOPERASI DAN BERPIKIR KREATIF Selesaikan
mendorongnya untuk menulis jurnal atau menulis lainnya jika memungkinkan.”
konferensi orang tua-guru tentang nilai ujian. Mintalah sukarelawan
“Tetapi jika nilai tes standarnya bagus dalam bahasa,” kata Ny.
untuk berperan sebagai Ny. McKay, Mr. McKay, dan Ms.
McKay, “bukankah itu berarti dia baik-baik saja?”
Tranh. Seorang sukarelawan dapat bertindak sebagai moderator untuk
mengklarifikasi miskomunikasi dan menjaga agar konferensi tetap berjalan.
“Nilai ujian memberi tahu kita beberapa hal, tapi tidak semuanya,”
kata Ms. Tranh. “CAT bagus dalam hal-hal sederhana seperti penghitungan BERPIKIR KRITIS Apa yang Anda ketahui dari membaca kasus ini?
matematika dan mekanika bahasa, namun tidak begitu bagus dalam Apa yang masih ingin kamu ketahui? Dan apa yang kamu pelajari di
memberi tahu kita apa yang sebenarnya bisa dilakukan anak-anak. Itu sini? Sudahkah Ibu Tranh memberi tahu kami semua yang perlu kami
sebabnya saya menyimpan portofolio pekerjaan siswa dalam bentuk tulisan, ketahui tentang nilai ujian standar dan penilaian portofolio Anita dalam
bidang menulis, matematika, dan sains?
pemecahan masalah matematika, dan sains. Saya ingin melihat bagaimana anak-anak

Percakapan ennifer Tranh dengan keluarga McKay menggambarkan beberapa kegunaan dan keterbatasan
DalamTASC 10

Kepemimpinan dan
J nilai dan tes standar. CAT dan Tes Membaca Lisan Abu-abu memberikan Ms. Tranh
informasi yang mengaitkan kinerja Anita di beberapa bidang dengan norma-norma nasional, dan nilai-nilai Anita
Kolaborasi memberi Ms. Tranh gambaran bagaimana kinerja Anita dibandingkan dengan teman-teman sekelasnya, namun baik
tes maupun nilai standar tidak memberikan rincian atau kelengkapan yang tercermin dalam portofolio pekerjaan dan
pengamatan lainnya penampilan Anita. Secara keseluruhan, tes standar, nilai, portofolio pekerjaan, dan penilaian
kelas lainnya yang ditafsirkan secara hati-hati memberikan gambaran yang baik tentang kinerja Anita. Masing-masing
memiliki nilai, dan semua informasi harus dievaluasi dalam pengambilan keputusan pendidikan.

APA ITU UJI STANDARDIS DAN


BAGAIMANA PENGGUNAANNYA?
Apakah Anda ingat mengikuti SAT, ACT, atau ujian masuk perguruan tinggi lainnya? Pernahkah Anda bertanya-tanya
DalamTASC 6
bagaimana tes tersebut disusun, apa arti skornya, dan sejauh mana skor Anda mewakili apa yang sebenarnya Anda
ketahui atau dapat Anda lakukan? SAT dan ujian masuk perguruan tinggi lainnya adalah tes standar. Berbeda
Penilaian
dengan tes buatan guru yang dibahas di Bab 13, tes terstandar biasanya diberikan dalam kondisi “terstandar” yang
sama kepada ribuan siswa serupa yang dirancang untuk melakukan tes tersebut, yang memungkinkan penerbit tes
menetapkan norma-norma yang menjadi nilai setiap individu. dapat dibandingkan. Misalnya, jika sampel nasional
yang mewakili siswa kelas empat mempunyai skor rata-rata 37 soal yang benar pada tes standar yang terdiri dari 50
soal, maka 37 akan menjadi “norma nasional” kelas empat pada tes ini, yaitu nilai yang membagi nilai di atas dan
mereka yang berada di bawah “norma.”

Tes standar tradisional telah mendapat banyak kritik dan kontroversi, dan saat ini berbagai macam penilaian
alternatif digunakan. Namun, berbagai jenis tes terstandar terus diberikan untuk berbagai tujuan di semua tingkat
pendidikan. Bab ini
menjelaskan bagaimana dan mengapa tes standar dilaksanakan dan bagaimana skor pada tes ini dapat
diinterpretasikan dan diterapkan pada keputusan pendidikan yang penting. Bab ini membahas mengapa tes standar
digunakan untuk meminta pertanggungjawaban distrik, sekolah, dan guru atas kinerja siswa, dan bagaimana kebijakan
federal dan negara bagian yang berfokus pada akuntabilitas telah meningkatkan pertaruhannya. Hal ini juga mencakup
informasi tentang kritik terhadap pengujian standar dan alternatif yang sedang dikembangkan, diperdebatkan, dan diterapkan.

M14_SLAV4054_12e_SE_C14.indd 384 18/10/16 15:37


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 385

Tes yang distandarisasi biasanya dimaksudkan untuk memberikan tolak ukur yang tidak dapat diberikan
oleh tes yang dibuat oleh guru, untuk membandingkan individu atau kelompok siswa. Misalnya, orang tua seorang
anak bertanya kepada Anda bagaimana prestasi putri mereka dalam matematika. Anda berkata, “Baik, dia mendapat
nilai 81 persen pada ujian matematika terakhirnya.” Untuk beberapa tujuan, informasi ini sudah cukup. Namun untuk
tujuan lain orang tua mungkin ingin mengetahui lebih banyak. Bagaimana nilai 81 persen dibandingkan dengan nilai
siswa lain di kelas ini? Bagaimana dengan siswa lain di sekolah, distrik, negara bagian, atau seluruh negara? Dalam
beberapa konteks, skor 81 persen mungkin membantu gadis tersebut memenuhi syarat untuk mengikuti program
khusus bagi siswa yang berbakat matematika; di negara lain hal ini mungkin menunjukkan perlunya instruksi
perbaikan. Misalkan Anda menemukan bahwa rata-rata kelas Anda benar dalam ujian matematika sebesar 85 persen.
Bagaimana kinerja kelas ini dibandingkan dengan kelas matematika lain atau siswa secara nasional? Tes yang
dibuat oleh guru tidak dapat menghasilkan informasi ini.
Tes terstandar biasanya dibuat dengan hati-hati untuk memberikan informasi akurat tentang tingkat kinerja
siswa. Seringkali, pakar kurikulum menetapkan apa yang harus diketahui dan dapat dilakukan oleh siswa pada usia
tertentu dalam mata pelajaran tertentu. Kemudian pertanyaan ditulis untuk menilai berbagai keterampilan atau
informasi yang diharapkan dimiliki siswa. Soal-soal tersebut diujicobakan pada berbagai kelompok siswa. Soal-soal
yang hampir semua siswa benar atau hampir semuanya salah biasanya dibuang, begitu pula soal-soal yang menurut
siswa tidak jelas atau membingungkan. Pola skor diperiksa dengan cermat. Jika siswa yang mendapat nilai baik pada
sebagian besar item tidak lebih baik daripada siswa yang mendapat nilai lebih rendah pada item tertentu, maka item
tersebut kemungkinan besar akan dikeluarkan.
Akhirnya, tes akhir dikembangkan dan diberikan kepada sekelompok besar siswa terpilih dari seluruh negeri.
Upaya biasanya dilakukan untuk memastikan bahwa kelompok ini menyerupai populasi siswa yang lebih besar yang
pada akhirnya akan menggunakan tes tersebut. Misalnya, tes geometri untuk siswa kelas sebelas mungkin diberikan
kepada sampel siswa kelas sebelas di perkotaan, pedesaan, dan pinggiran kota; di berbagai wilayah negara; di
sekolah swasta maupun negeri; dan untuk siswa dengan tingkat persiapan matematika yang berbeda. Perhatian
diberikan untuk mencakup siswa dari semua latar belakang sosial ekonomi dan etnis. Langkah ini menetapkan
norma-norma tes, yang memberikan indikasi tentang berapa nilai rata-rata siswa (Brookhart & Nitko, 2015; Kaplan
& Saccuzzo, 2013; Kubiszyn &
Borich, 2010; Popham, 2014a). Skor pada tes baru mungkin dibandingkan dengan skor pada tes yang sudah ada.
Terakhir, panduan pengujian disiapkan, menjelaskan bagaimana tes tersebut diberikan, dinilai, dan diinterpretasikan.
Tes sekarang siap untuk penggunaan umum. Proses pengembangan tes telah menciptakan tes yang nilainya
mempunyai arti di luar batas-batas kelas atau sekolah tertentu dan dapat digunakan dalam berbagai cara. Fungsi
penting dari pengujian standar meliputi penempatan, diagnosis, evaluasi, dan peningkatan sekolah.

Seleksi dan Penempatan


Tes standar sering digunakan untuk memilih siswa untuk masuk atau penempatan di program tertentu. Misalnya, Koneksi 14.1
SAT (Tes Penilaian Skolastik) atau ACT (Program Pengujian Perguruan Tinggi Amerika) yang mungkin Anda ikuti di Untuk diskusi antara
sekolah menengah mungkin telah dipertimbangkan oleh dewan penerimaan perguruan tinggi dalam memutuskan pengelompokan kemampuan kelas
apakah akan menerima Anda sebagai pelajar. Demikian pula, penerimaan ke program khusus bagi siswa yang dan dalam kelas, lihat Bab 9.
berbakat dan berbakat mungkin sebagian bergantung pada nilai ujian yang distandarisasi. Bersama dengan informasi
lainnya, tes terstandar dapat memberikan informasi untuk membantu Anda memutuskan apakah akan menempatkan
siswa dalam program pendidikan khusus. Sekolah dasar mungkin menerapkan standar skor membaca untuk
menempatkan siswa dalam kelompok membaca. Beberapa perguruan tinggi mendasarkan prasyarat untuk mata
kuliah tertentu pada perolehan nilai tertentu. Tes terstandar kadang-kadang digunakan untuk menentukan kelayakan
untuk kenaikan kelas, kelulusan sekolah menengah atas, atau masuk ke suatu pekerjaan. Misalnya, sebagian besar
negara bagian menjadikan nilai tes standar sebagai bagian dari proses sertifikasi guru. Beberapa negara bagian dan
distrik menggunakan nilai ujian siswa, bersama dengan informasi lainnya, untuk mengevaluasi guru.

Diagnosa
Tes terstandar sering digunakan untuk mendiagnosis masalah atau kekuatan belajar siswa secara individu (Nicoll,
Lu, Pignone, & McPhee, 2012). Misalnya, seorang siswa yang berprestasi buruk di sekolah mungkin diberikan
serangkaian tes untuk menentukan apakah dia memiliki ketidakmampuan belajar.
Pada saat yang sama, pengujian ini mungkin mengidentifikasi defisit spesifik yang memerlukan perbaikan. Guru
sering kali menggunakan tes diagnostik keterampilan membaca, seperti Tes Membaca Lisan Abu-abu yang digunakan
Ms. Tranh, untuk mengidentifikasi masalah membaca khusus siswa. Misalnya tes diagnostik

M14_SLAV4054_12e_SE_C14.indd 385 18/10/16 15:37


Machine Translated by Google

386 BAB EMPAT BELAS

mungkin menunjukkan bahwa keterampilan decoding siswa baik-baik saja tetapi pemahaman bacaannya buruk; atau
bahwa seorang siswa memiliki keterampilan komputasi yang baik tetapi kurang memiliki keterampilan pemecahan
masalah. Tes diagnostik yang lebih terperinci mungkin memberi tahu guru bahwa siswa fisika mengerjakan materi
dengan baik tetapi tidak dalam pengukuran ilmiah, atau bahwa siswa bahasa asing memiliki pemahaman tata bahasa
yang baik tetapi kurang kompeten dalam berekspresi. Penilaian yang canggih dapat membantu Anda menentukan
kedalaman pemahaman siswa terhadap konsep yang kompleks.

Evaluasi dan Akuntabilitas


Mungkin penerapan tes standar yang paling umum adalah untuk mengevaluasi kemajuan siswa dan efektivitas guru
dan sekolah. Misalnya, kabupaten dan negara bagian menggunakan tes untuk meminta pertanggungjawaban pendidik
atas prestasi siswanya dengan mengevaluasi kemajuan yang dicapai sekolah dalam kinerja siswa secara keseluruhan.
Orang tua sering kali ingin mengetahui bagaimana kinerja anak-anak mereka dibandingkan dengan prestasi anak-anak
pada tingkat kelasnya. Bagi setiap siswa, nilai tes yang terstandarisasi akan bermakna dalam evaluasi hanya jika Anda
menggunakannya bersama dengan informasi lain, seperti kinerja aktual siswa di sekolah dan dalam konteks lain,
seperti yang dilakukan oleh Ibu Tranh. Banyak siswa yang mendapat nilai buruk pada tes standar sering kali unggul di
sekolah, perguruan tinggi, atau pekerjaan; entah mereka kesulitan mengerjakan tes atau mereka mempunyai
keterampilan penting yang tidak diukur dengan tes tersebut. Namun, beberapa siswa menunjukkan prestasi terbaik
mereka pada tes standar. Untuk pembahasan lebih lanjut mengenai akuntabilitas dan kebijakan pendidikan terkait, lihat
bagian “Bagaimana Pendidik Bertanggung Jawab atas Prestasi Siswa?” nanti di bab ini.

Peningkatan Sekolah
Tes terstandar dapat berkontribusi untuk meningkatkan proses sekolah. Hasil dari beberapa tes standar memberikan
informasi tentang penempatan siswa yang tepat dan informasi diagnostik yang penting dalam remediasi. Selain itu, tes
prestasi dapat memandu pengembangan dan revisi kurikulum ketika kelemahan muncul (lihat Kallick & Colosimo,
2009). Tes terstandar juga dapat berperan dalam bimbingan dan konseling. Hal ini berlaku tidak hanya untuk tes
prestasi dan bakat tetapi juga untuk jenis pengukuran yang lebih terspesialisasi, seperti inventarisasi minat kejuruan
dan skala psikologis lainnya yang digunakan untuk siswa konseling.

Sekolah sering kali menggunakan tes prestasi akademik untuk mengevaluasi keberhasilan relatif dari program
atau strategi pendidikan yang bersaing. Misalnya, jika seorang guru atau sekolah mencoba strategi pengajaran yang
inovatif, tes dapat membantu mengungkapkan apakah strategi tersebut lebih berhasil dibandingkan metode sebelumnya.
Penunjuk Sertifikasi Hasil tes di seluruh negara bagian dan distrik sering kali menjadi tolak ukur bagi warga untuk menilai keberhasilan
Anda mungkin diminta dalam sekolah setempat. Namun, mendidik siswa adalah sebuah proses yang kompleks, dan tes yang terstandarisasi hanya
tes sertifikasi guru Anda untuk dapat memberikan sebagian kecil dari informasi yang diperlukan untuk mengevaluasi guru, program, atau sekolah.
mendefinisikan tes standar dan Permasalahan muncul ketika nilai tes yang distandarisasi terlalu ditekankan atau digunakan untuk tujuan yang berbeda
mendiskusikan tujuannya. dari tujuan yang telah dirancang.

JENIS UJI STANDARDISASI APA YANG


DIBERIKAN?
Tiga jenis tes standar yang umum digunakan di lingkungan sekolah: tes bakat, tes prestasi yang mengacu pada
norma, dan tes prestasi yang mengacu pada kriteria (Kaplan & Saccuzzo, 2013; Popham, 2014a, b; Reynolds &
Livingston, 2012; Salkind, 2013). Tes bakat dirancang untuk menilai kemampuan siswa. Hal ini dimaksudkan untuk
memprediksi kemampuan siswa dalam belajar atau melakukan jenis tugas tertentu, bukan untuk mengukur seberapa
banyak siswa telah belajar. Tes bakat yang paling banyak digunakan mengukur bakat intelektual secara umum, namun
banyak tes lain yang lebih spesifik mengukur bakat tertentu, seperti kemampuan mekanis atau persepsi atau kesiapan
membaca. SAT, misalnya, dimaksudkan untuk memprediksi bakat siswa untuk studi di perguruan tinggi. Tes bakat
berhasil sejauh tes tersebut memprediksi kinerja. Misalnya, tes kesiapan membaca yang diberikan kepada siswa taman
kanak-kanak yang tidak secara akurat memprediksi seberapa baik siswa akan membaca ketika mereka mencapai kelas
satu atau dua tidak akan banyak gunanya.

M14_SLAV4054_12e_SE_C14.indd 386 18/10/16 15:37


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 387

Tes prestasi digunakan untuk (1) meramalkan kinerja masa depan siswa dalam suatu mata pelajaran, (2)
mendiagnosis kesulitan siswa, (3) berfungsi sebagai tes formatif kemajuan siswa, dan (4) berfungsi sebagai tes sumatif
belajar.
Tes prestasi yang mengacu pada norma adalah penilaian terhadap pengetahuan siswa tentang bidang konten
tertentu, seperti matematika, membaca, atau bahasa Prancis sebagai bahasa asing. Norma-norma yang dijadikan acuan
adalah hasil perwakilan kelompok siswa yang dapat diperbandingkan skornya.
Tes ini sengaja dibangun untuk mengungkapkan perbedaan di antara siswa. Perbedaan-perbedaan tersebut diharapkan
disebabkan oleh kualitas pengajaran dan pembelajaran siswa, bukan perbedaan kurikulum dari satu sekolah ke sekolah
lain, sehingga mereka menilai sebagian, namun tidak semua, keterampilan yang diajarkan di satu sekolah. Tes prestasi
yang mengacu pada norma tidak boleh terlalu luas cakupannya karena dirancang untuk digunakan secara nasional, dan
kurikulum untuk mata pelajaran tertentu bervariasi dari satu daerah ke daerah lain. Misalnya, jika beberapa siswa kelas
tujuh belajar tentang aritmatika basis-2 atau diagram Venn tetapi yang lain tidak, maka topik tersebut kemungkinan besar
tidak akan muncul dalam ujian matematika nasional.
Tes prestasi yang mengacu pada kriteria juga menilai pengetahuan siswa tentang materi pelajaran, namun alih-alih
membandingkan prestasi seorang siswa dengan norma-norma nasional, tes ini dirancang untuk mengukur sejauh mana
siswa telah menguasai keterampilan tertentu yang ditentukan dengan baik. Informasi yang dihasilkan oleh tes yang
mengacu pada kriteria cukup spesifik: “Tiga puluh tujuh persen siswa kelas lima di Ontario dapat mengisi nama negara-
negara besar Eropa Barat pada peta garis besar” atau “Sembilan puluh tiga persen siswa kelas dua belas di Alexander
SMA Hamilton mengetahui bahwa peningkatan suhu gas dalam wadah tertutup akan meningkatkan tekanan gas.” Kadang-
kadang nilai tes yang mengacu pada kriteria digunakan dalam perbandingan antar sekolah atau antar kabupaten, namun
biasanya tidak ada kelompok norma yang mewakili yang digunakan. Jika sekelompok ahli kurikulum memutuskan bahwa
setiap siswa kelas lima di Illinois harus mampu mengisi peta garis besar Amerika Selatan, maka ekspektasi untuk item
tersebut adalah 100 persen; kurang menarik apakah siswa kelas lima Illinois mendapat nilai lebih baik atau lebih buruk
dalam mata pelajaran ini dibandingkan siswa di negara bagian lain. Yang lebih penting adalah, secara keseluruhan, siswa
mengalami peningkatan setiap tahunnya dalam hal ini.

Tes Bakat
Meskipun tes bakat, tes prestasi yang mengacu pada norma, dan tes yang mengacu pada kriteria secara teori berbeda Koneksi 14.2
satu sama lain, pada kenyataannya terdapat banyak tumpang tindih di antara tes-tes tersebut. Misalnya, bakat biasanya Untuk mempelajari lebih lanjut tentang siswa

diukur dengan mengevaluasi pencapaian dalam domain yang didefinisikan secara luas. perbedaan kecerdasan
Pembelajaran di sekolah dapat mempengaruhi nilai tes bakat siswa, dan siswa yang mendapat nilai bagus pada satu jenis umum, bakat khusus,
tes biasanya akan mendapat nilai bagus pada jenis tes lainnya (Popham, 2014a). serta kemampuan dan gaya
belajar, lihat Bab 4.
TES KECERDASAN UMUM Tes bakat yang paling umum diberikan di sekolah adalah tes kecerdasan, atau tes bakat
umum untuk pembelajaran di sekolah (Kaplan & Saccuzzo, 2013; Reynolds & Livingston, 2012). Intelligence quotient, atau
IQ, adalah skor yang paling sering dikaitkan dengan tes kecerdasan, namun jenis skor lainnya juga dihitung.

Tes kecerdasan dirancang untuk memberikan indikasi umum tentang bakat individu dalam berbagai bidang fungsi
intelektual. Kecerdasan itu sendiri dipandang sebagai kemampuan untuk menghadapi abstraksi, belajar, dan memecahkan
masalah (Sternberg, Jarvin, & Grigorenko, 2009), dan tes kecerdasan fokus pada keterampilan tersebut. Tes kecerdasan
memberi siswa beragam pertanyaan untuk dijawab dan masalah untuk dipecahkan.

PENGUKURAN IQ Pengukuran kecerdasan intelektual (IQ) diperkenalkan pada awal tahun 1900-an oleh Alfred Binet,
seorang psikolog Perancis, untuk mengidentifikasi anak-anak dengan kesulitan belajar yang serius sehingga mereka tidak
mungkin memperoleh manfaat dari pengajaran di kelas reguler (Esping &
pemetik, 2015). Skala yang dikembangkan Binet untuk mengukur kecerdasan menilai berbagai karakteristik mental dan
keterampilan, seperti memori, pengetahuan, kosa kata, dan pemecahan masalah.
Binet menguji sejumlah besar siswa dari berbagai usia untuk menetapkan norma (ekspektasi) terhadap kinerja keseluruhan
tesnya. Ia kemudian menyatakan IQ sebagai rasio usia mental (rata-rata nilai ujian siswa pada usia tertentu) dengan usia
kronologis dikalikan 100. Misalnya, anak usia 6 tahun (usia kronologis [CA] 5 6) yang mendapat nilai di rata-rata semua
anak usia 6 tahun (usia mental [MA] 5 6) akan memiliki IQ 100 (6/6 3 100 5 100). Setiap anak usia 6 tahun yang mendapat
nilai rata-rata anak usia 7 tahun (MA 5 7) akan memiliki IQ sekitar 117 (7/6 3 100 5 117).

Selama bertahun-tahun rasio usia mental/usia kronologis telah menurun, dan IQ kini didefinisikan memiliki rata-
rata 100 dan deviasi standar 15 (deviasi standar adalah ukuran seberapa

M14_SLAV4054_12e_SE_C14.indd 387 18/10/16 15:37


Machine Translated by Google

388 BAB EMPAT BELAS

skor tersebar (didefinisikan nanti dalam bab ini) pada usia berapa pun. Sebagian besar skor berada di dekat rata-rata,
dengan sejumlah kecil skor yang berada jauh di atas dan di bawah rata-rata, membentuk “kurva lonceng”. Secara teori,
sekitar 68 persen dari seluruh individu akan memiliki IQ dalam satu standar deviasi dari mean; yaitu, dari 85 (satu
simpangan baku di bawah rata-rata) hingga 115 (satu simpangan baku di atas), dan 95 persen akan ditemukan dalam
rentang hingga dua simpangan baku dari rata-rata (antara 70 dan 130).
Tes kecerdasan dirancang untuk memberikan indikasi umum tentang bakat seseorang dalam berbagai bidang
fungsi intelektual. Tes yang paling banyak digunakan mengandung banyak skala berbeda. Setiap skala mengukur
komponen kecerdasan yang berbeda. Seringkali, seseorang yang mendapat nilai bagus pada satu skala juga mendapat
nilai bagus pada skala lain, tetapi hal ini tidak selalu terjadi. Orang yang sama mungkin mempunyai kemampuan yang
sangat baik dalam pemahaman umum dan kesamaan, kurang baik dalam penalaran aritmatika, dan buruk dalam desain blok, misalnya.
Tes kecerdasan dilakukan baik kepada individu maupun kelompok. Tes seperti Tes Kemampuan Mental Otis-
Lennon, Tes Kecerdasan Lorge-Thorndike, dan Tes Kematangan Mental California, sering kali diberikan kepada kelompok
besar siswa sebagai penilaian umum terhadap bakat intelektual. Tes-tes ini tidak seakurat atau sedetail tes kecerdasan
yang diberikan secara individual kepada orang-orang oleh psikolog terlatih, seperti Tes Kecerdasan Wechsler untuk Anak-
Anak – Edisi Keempat (WISC-IV) atau tes Stanford-Binet. Misalnya, siswa yang sedang dinilai untuk kemungkinan
penempatan di pendidikan khusus karena kesulitan belajar biasanya mengikuti tes yang diberikan secara individual (paling
sering WISC-IV), bersama dengan tes lainnya.
Koneksi 14.3 Nilai IQ penting karena berkorelasi dengan prestasi sekolah. Artinya, siswa yang memiliki IQ lebih tinggi rata-rata
Untuk diskusi tentang cenderung mendapat nilai lebih baik, mendapat nilai lebih tinggi dalam tes prestasi, dan seterusnya. Rata-rata pencapaian
penggunaan skor IQ dalam pendidikan ini kemudian diterjemahkan menjadi keberhasilan dalam pekerjaan dan pendapatan (Hauser, 2010). Pada saat
klasifikasi peserta didik seorang anak berusia sekitar 6 tahun, perkiraan IQ cenderung menjadi relatif stabil, dan IQ kebanyakan orang tetap sama
dengan pengecualian atau untuk hingga dewasa. Namun, beberapa orang mengalami perubahan besar dalam perkiraan IQ mereka, seringkali karena
layanan pendidikan khusus, lihat faktor pendidikan atau pengaruh lingkungan lainnya (Ceci, 1991).
Bab 12.

TES APTITUDE MULTIFAKTOR Bentuk lain dari tes bakat yang memberikan perincian keterampilan yang lebih spesifik
adalah tes bakat multifaktor. Banyak tes serupa yang tersedia, dengan beragam konten dan penekanan. Tes tersebut
mencakup tes kemampuan skolastik seperti SAT; tes sekolah dasar dan menengah, seperti Tes Bakat Diferensial, Tes
Kemampuan Kognitif, dan Tes Keterampilan Kognitif; tes kesiapan membaca, seperti Tes Kesiapan Membaca Metropolitan;
dan berbagai skala perkembangan untuk anak prasekolah. Minimal, sebagian besar tes ini tidak hanya memberikan skor
bakat secara keseluruhan tetapi juga subskor untuk bakat verbal dan nonverbal.

Seringkali, subskor dibagi lebih halus untuk menggambarkan kemampuan yang lebih spesifik.

Tes Prestasi yang Direferensikan Norma


Jika tes bakat berfokus pada potensi pembelajaran umum dan pengetahuan yang diperoleh baik di sekolah maupun di
luar, tes prestasi berfokus pada keterampilan atau kemampuan yang secara tradisional diajarkan di sekolah. Secara
umum, tes prestasi terstandar terbagi dalam empat kategori: rangkaian prestasi, tes diagnostik, ukuran prestasi mata
pelajaran tunggal, dan ukuran prestasi yang mengacu pada kriteria (Popham, 2014; Salkind, 2013).

BATERAI PENCAPAIAN Baterai pencapaian standar , seperti Tes Prestasi California, Tes Keterampilan Dasar Iowa,
Tes Keterampilan Dasar Komprehensif, Tes Prestasi Stanford, dan Tes Prestasi Metropolitan, digunakan untuk mengukur
pencapaian individu atau kelompok dalam berbagai bidang. bidang studi. Rangkaian survei ini mencakup beberapa tes
kecil, masing-masing dalam bidang subjek berbeda, dan biasanya diberikan kepada suatu kelompok selama jangka waktu
beberapa hari. Banyak baterai prestasi yang tersedia untuk digunakan di sekolah memiliki konstruksi dan konten yang
serupa. Akan tetapi, karena terdapat sedikit perbedaan antara tes dalam tujuan pembelajaran dan materi pelajaran yang

diambil dalam subtes, sebelum memilih tes tertentu, penting untuk memeriksanya secara cermat untuk kesesuaiannya
dengan kurikulum sekolah tertentu dan kesesuaiannya dengan tujuan sekolah. .

Baterai prestasi biasanya memiliki beberapa bentuk untuk berbagai usia atau tingkatan kelas sehingga prestasi dapat
dipantau dalam kurun waktu beberapa tahun (Kubiszyn & Borich, 2010; Salkind, 2013).

PENILAIAN NASIONAL KEMAJUAN PENDIDIKAN (NAEP) Penilaian Nasional Kemajuan Pendidikan adalah ujian yang

sangat penting yang diberikan oleh Departemen Pendidikan AS kepada siswa terpilih di semua negara bagian. Ini seperti
tes prestasi lainnya tetapi digunakan untuk mengukur pertumbuhan seluruh siswa di Amerika Serikat dalam membaca,
matematika, sains, dan menulis. NAEP hanya diberikan setiap dua tahun sekali untuk matematika dan membaca, dan
lebih jarang untuk sains dan menulis. Selain menunjukkan keuntungan dari waktu ke waktu,

M14_SLAV4054_12e_SE_C14.indd 388 18/10/16 15:37


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 389

NAEP memungkinkan pemerintah AS untuk membandingkan kinerja negara bagian dan juga kota-kota besar tertentu.
Nilai NAEP tidak digunakan untuk akuntabilitas, melainkan dirancang untuk memberikan ukuran yang adil bagi seluruh negara,
karena nilai tes di negara bagian tidak dirancang untuk tetap stabil atau dapat dibandingkan dengan tes yang diberikan di negara
bagian lain. Faktanya, negara bagian yang mendapat nilai tertinggi dalam persentase kelulusan ujian negara bagiannya sering kali
mendapat nilai terbawah dalam NAEP, dan sebaliknya. Untuk skor NAEP dari waktu ke waktu dan di berbagai negara bagian dan
kota, kunjungi situs web Pusat Statistik Pendidikan Nasional (www.nces.gov).

TES DIAGNOSTIK Berbeda dengan baterai prestasi yang umumnya berfokus pada bidang konten tertentu dan menekankan
keterampilan yang dianggap penting untuk penguasaan materi pelajaran tersebut, tes diagnostik menghasilkan informasi yang
jauh lebih rinci dibandingkan tes prestasi lainnya (Nicoll et al. , 2012). Misalnya, tes matematika standar sering kali menghasilkan
skor untuk perhitungan, konsep, dan aplikasi matematika, sedangkan tes diagnostik akan memberikan skor pada keterampilan
yang lebih spesifik, seperti menjumlahkan desimal atau menyelesaikan soal kata dua langkah. Tes diagnostik sebagian besar
tersedia untuk membaca dan matematika dan dimaksudkan untuk menunjukkan bidang kekuatan dan kelemahan tertentu dalam
keterampilan ini. Hasilnya dapat digunakan untuk memandu pengajaran remedial atau untuk menyusun pengalaman belajar bagi
siswa yang diharapkan mempelajari keterampilan tersebut.

TES PRESTASI BIDANG PELAJARAN Guru membuat sebagian besar tes kelas untuk menilai keterampilan dalam mata pelajaran
tertentu. Namun, distrik sekolah dapat membeli tes prestasi khusus untuk hampir semua mata pelajaran. Masalah dengan tes
semacam ini adalah jika tes tersebut tidak dikaitkan dengan kurikulum tertentu dan strategi pengajaran yang digunakan di kelas,
tes tersebut mungkin tidak cukup mewakili konten yang telah diajarkan. Jika tes prestasi terstandardisasi dipertimbangkan untuk
mengevaluasi pembelajaran di bidang tertentu, isi tes tersebut harus diperiksa secara cermat untuk kesesuaiannya dengan
kurikulum daerah, instruksi yang telah diterima siswa, dan standar serta penilaian daerah atau negara bagian.

Tes Prestasi yang Direferensikan Kriteria


Tes yang mengacu pada kriteria berbeda dari tes standar yang mengacu pada norma dalam beberapa hal (McMil lan, 2011;
Popham, 2014). Tes tersebut dapat berbentuk baterai survei, tes diagnostik, atau tes subjek tunggal. Berbeda dengan tes yang
mengacu pada norma, yang dirancang untuk sekolah dengan kurikulum yang berbeda-beda, tes yang mengacu pada kriteria akan
lebih bermakna jika disusun berdasarkan serangkaian tujuan yang jelas. Untuk banyak tes, tujuan ini dapat dipilih oleh distrik
sekolah, administrator gedung, atau guru. Soal-soal tes dipilih agar sesuai dengan tujuan instruksional tertentu, sering kali dengan
tiga sampai lima soal yang mengukur setiap tujuan. Oleh karena itu, tes dapat menunjukkan tujuan mana yang telah dikuasai
oleh siswa secara individu atau kelas secara keseluruhan. Hasil tes dapat digunakan untuk memandu pengajaran atau kegiatan
perbaikan di masa depan. Oleh karena itu, tes ini terkadang disebut sebagai tes yang mengacu pada tujuan. LabEd Saya
Contoh Video 14.1

Seorang pakar di bidang


Tes yang mengacu pada kriteria berbeda dari tes prestasi lainnya dalam cara penilaiannya dan bagaimana hasilnya pendidikan, Gerald Bracey
diinterpretasikan. Pada tes yang mengacu pada kriteria, biasanya skor untuk setiap tujuanlah yang penting. Hasilnya dapat menggambarkan referensi norma dan norma
menunjukkan, misalnya, berapa banyak siswa yang dapat mengalikan dua digit dengan dua digit atau berapa banyak siswa yang tes yang mengacu pada kriteria dan
dapat menulis surat bisnis dengan benar. Selain itu, nilai siswa pada tes total atau pada tujuan tertentu diinterpretasikan membahas beberapa keterbatasan
berdasarkan beberapa kriteria kinerja yang memadai dan tidak bergantung pada kinerja kelompok. Contoh tes yang mengacu setiap.
pada kriteria mencakup tes untuk pengemudi dan pilot, yang dirancang untuk menentukan siapa yang dapat mengemudi atau
terbang, bukan siapa yang termasuk dalam 20 persen pengemudi atau pilot teratas. Tes untuk guru juga menjadi acuan kriteria. Koneksi 14.4
Untuk informasi lebih lanjut tentang referensi norma

Skor pada tes yang mengacu pada kriteria sering kali dilaporkan dalam bentuk jumlah item yang siswa dapatkan dengan dan pengujian yang mengacu

benar pada setiap tujuan. Dari data tersebut Anda dapat mengukur apakah siswa telah menguasai tujuannya. pada kriteria, lihat Bab 13.

Penunjuk Sertifikasi
Pengaturan Standar Pada tes sertifikasi guru Anda, Anda
Ketika tes digunakan untuk membuat keputusan tentang penguasaan suatu mata pelajaran atau topik, beberapa prosedur harus mungkin perlu mengetahui kriteria
digunakan untuk menentukan nilai batas tes yang menunjukkan berbagai tingkat kemahiran (Kubiszyn & Borich, 2010; McClarty, yang direferensikan

Way, Porter, Beinters, & Miles, 2013 ; Popham, 2014a). Sebagian besar metode penetapan skor batas bergantung pada penilaian tes akan memberi Anda informasi
profesional dari perwakilan kelompok guru dan pendidik lainnya. Profesional yang berkualifikasi mungkin memeriksa setiap item yang lebih baik daripada biasanya

dalam tes dan menilai kemungkinan bahwa seorang siswa dengan tingkat kemahiran tertentu akan menjawab item tersebut tes referensi tentang bagaimana

dengan benar. Mereka kemudian mendasarkan skor batas penguasaan atau kemahiran pada probabilitas ini. Standar yang banyak yang dimiliki setiap siswa

ditetapkan dengan menggunakan prosedur seperti ini adalah hal yang umum dalam ujian perizinan serta di banyak program mempelajari aspek tertentu dari
akuntabilitas negara bagian dan distrik. kurikulum.

M14_SLAV4054_12e_SE_C14.indd 389 18/10/16 15:37


Machine Translated by Google

390 BAB EMPAT BELAS

BAGAIMANA UJI STANDARDISASI


DIINTERPRETASIKAN?
Setelah siswa mengikuti tes standar, tes tersebut biasanya dikirim untuk penilaian komputer ke kantor pusat atau penerbit
tes. Skor mentah siswa (angka yang benar pada setiap subtes) diterjemahkan ke dalam satu atau lebih skor turunan,
seperti persentil, nilai setara, atau setara kurva normal, yang menghubungkan skor siswa dengan skor kelompok yang diuji.
dinormalisasi.
Statistik ini dijelaskan pada bagian berikut (lihat McMillan, 2011; Popham, 2014a).

Skor Persentil
Skor persentil, atau peringkat persentil (terkadang disingkat dalam laporan tes sebagai % ILE), menunjukkan berapa
persentase siswa dalam kelompok normal yang mendapat nilai lebih rendah dari skor tertentu. Misalnya, jika seorang siswa
mencapai nilai median untuk kelompok yang bernorma (yaitu, jika jumlah siswa yang sama mendapat nilai lebih baik atau
lebih buruk dari siswa tersebut), siswa tersebut akan mempunyai peringkat persentil 50 karena nilai mereka melebihi nilai
median dari siswa tersebut. 50 persen lainnya berada pada kelompok normal.
Jika Anda memberi peringkat pada kelompok yang terdiri dari 30 siswa dari bawah ke atas pada nilai ujian, siswa ke-25
dari bawah akan mendapat nilai pada persentil ke-83 (25/30 3 100 83,3).

Skor Setara Kelas


Penunjuk Sertifikasi Nilai setara kelas menghubungkan nilai siswa dengan nilai rata-rata yang diperoleh siswa pada tingkat kelas tertentu.
Untuk ujian sertifikasi guru, Anda Katakanlah kelompok normal mencapai nilai rata-rata 70 pada tes membaca di awal kelas lima. Skor ini akan ditetapkan
mungkin perlu mengetahui bahwa sebagai nilai yang setara dengan 5.0. Jika kelompok norming kelas enam mencapai nilai tes 80 pada bulan September,
nilai setara siswa sebesar nilai ini akan ditetapkan sebagai nilai setara dengan 6,0. Sekarang katakanlah seorang siswa kelas lima memperoleh nilai
7,3 pada tes matematika standar mentah 75. Nilai ini adalah separuh antara nilai 5,0 dan 6,0, sehingga siswa tersebut akan diberi nilai yang setara dengan
akan 5,5. Angka setelah koma disebut “bulan”, jadi nilai yang setara dengan 5,5 akan dibaca “lima tahun, lima bulan”. Secara
menunjukkan bahwa siswa tersebut teori, seorang siswa di bulan ketiga kelas lima seharusnya mendapat nilai 5,3 (lima tahun, tiga bulan), dan seterusnya.
tampil sebaik rata-rata siswa Hanya 10 bulan pada tahun ajaran reguler, September hingga Juni, yang dihitung.
kelas tujuh di bulan ketiga sekolah
pada hal itu

tes yang sama, tetapi bagi siswa Keuntungan dari persamaan kelas adalah mudah diinterpretasikan dan masuk akal secara intuitif. Misalnya, jika
yang tingkat kelasnya di bawah rata-rata siswa memperoleh satu nilai yang setara setiap tahun, kami menyebutnya kemajuan pada tingkat yang
7, nilai yang setara dengan 7,3 diharapkan. Jika kita mengetahui bahwa seorang siswa mempunyai prestasi 2 tahun di bawah tingkat kelasnya (katakanlah,
tidak berarti kemampuan seorang siswa kelas sembilan mendapat nilai pada tingkat yang sama dengan siswa kelas tujuh), ini memberi kita
mengerjakan pekerjaan kelas tujuh. pemahaman tentang betapa buruknya prestasi siswa tersebut.
Namun, skor setara kelas harus ditafsirkan hanya sebagai perkiraan kasar (McMillan, 2011). Salah satu penyebabnya
adalah siswa tidak terus-menerus memperoleh prestasi dari bulan ke bulan. Di sisi lain, nilai yang jauh dari tingkat nilai
yang diharapkan tidak sesuai dengan apa yang diharapkan. Seorang siswa kelas empat yang mendapat nilai, katakanlah,
setara dengan nilai 7,4 sama sekali tidak siap untuk bekerja di kelas tujuh; skor ini berarti bahwa siswa kelas empat telah
benar-benar menguasai pekerjaan kelas empat dan mendapat nilai yang sama baiknya dengan siswa kelas tujuh pada tes
kelas empat.
Tentu saja, rata-rata siswa kelas tujuh mengetahui lebih banyak daripada apa yang dinilai pada tes kelas empat, sehingga
tidak ada perbandingan nyata antara siswa kelas empat yang mendapat nilai setara dengan 7,4 dan siswa kelas tujuh yang
memperoleh nilai setara. Kedua tes yang mereka ambil sangat berbeda.
Pergeseran definisi ekspektasi tingkat kelas juga dapat mempersulit penafsiran nilai. Dalam ujian akuntabilitas
negara, lebih dari 50 persen siswa seringkali memenuhi standar, meskipun rata-rata ujian nasional di negara bagian
tersebut rendah. “Uji inflasi” ini terkadang disebut “Efek Danau Wobegon”. (Dalam kota mitos Danau Wobegon yang digarap
oleh komedian Garrison Keillor, “Semua anak berada di atas rata-rata.”) Karena norma-norma bervariasi dari tes ke tes,
pernyataan tentang berapa banyak siswa pada tingkat tertentu harus selalu dianggap remeh. . Hal yang lebih bermakna
adalah bagaimana siswa berubah dari waktu ke waktu, atau bagaimana suatu daerah, sekolah, atau subkelompok
dibandingkan dengan daerah lain dalam ujian yang sama (Popham, 2014a). Nilai ujian negara bagian cenderung meningkat
seiring berjalannya waktu, karena siswa dan guru terbiasa dengan format dan penekanan ujian. Jika hal ini terjadi, negara
bagian sering kali mengubah tes, dan skornya turun drastis dalam satu tahun. Kemudian, selama beberapa tahun
berikutnya, nilai ujian baru kembali meningkat.

M14_SLAV4054_12e_SE_C14.indd 390 18/10/16 15:37


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 391

Skor Standar
Beberapa macam skor menggambarkan hasil tes menurut posisinya pada kurva normal. Kurva normal menggambarkan
sebaran skor yang sebagian besar berada di dekat rata-rata, atau rata-rata, dengan jumlah skor yang lebih kecil secara
simetris muncul semakin jauh kita berada di atas atau di bawah rata-rata (Salkind, 2013). Plot frekuensi berdistribusi normal
menghasilkan kurva berbentuk lonceng. Misalnya, Gambar 14.1 menunjukkan distribusi frekuensi dari sebuah tes dengan
skor rata-rata 50. Setiap 3 menunjukkan satu siswa yang mendapat skor tertentu; ada 10 angka 3 pada angka 50, jadi kita
tahu ada 10 siswa yang mendapat nilai ini. Sembilan siswa mendapat nilai 49 dan sembilan mendapat nilai 51, dan
seterusnya, dan sangat sedikit siswa yang mendapat nilai di atas 60 atau di bawah 40. Distribusi normal seperti yang
ditunjukkan pada Gambar 14.2 bersifat umum; misalnya, tinggi dan berat badan didistribusikan secara normal ke seluruh
populasi orang dewasa secara umum. Tes terstandar dirancang sedemikian rupa sehingga sangat sedikit siswa yang dapat
menjawab setiap item atau tidak ada item dengan benar, sehingga skor pada tes tersebut biasanya terdistribusi secara
normal.

DEVIASI STANDAR Salah satu konsep penting yang berkaitan dengan distribusi normal adalah deviasi standar, yang
merupakan ukuran penyebaran skor. Deviasi standar, secara kasar, adalah jumlah rata-rata perbedaan skor dari rata-rata.
Misalnya, pertimbangkan dua rangkaian skor berikut:

Tetapkan A Tetapkan B

85 70

70 68

65 < Berarti > 65

60 62

45 60

Deviasi standar: 14.6 Simpangan baku: 4.1

Perhatikan bahwa kedua himpunan mempunyai mean yang sama (65) namun sebaliknya keduanya sangat berbeda,
Himpunan A lebih tersebar dibandingkan Himpunan B. Hal ini tercermin dalam fakta bahwa Himpunan A mempunyai standar
deviasi yang jauh lebih besar (14,6) dibandingkan Himpunan B. (4.1). Simpangan baku dari sekumpulan skor menunjukkan
seberapa tersebarnya distribusi tersebut. Ketika skor atau data lain terdistribusi secara normal, kita dapat memperkirakan
berapa banyak skor yang akan turun berdasarkan deviasi standar tertentu dari mean. Hal ini diilustrasikan pada Gambar
14.2, yang menunjukkan bahwa dalam distribusi normal mana pun, sekitar 34 persen dari seluruh skor berada di antara rata-
rata dan satu deviasi standar di atas rata-rata (11 SD), dan angka serupa berada di antara rata-rata dan satu deviasi standar
di bawah rata-rata (11 SD), dan jumlah serupa berada di antara rata-rata dan satu deviasi standar di bawah rata-rata (21
SD). Jika Anda keluarkan dua standar deviasi dari rata-rata, maka sekitar 95 persen skor akan disertakan.
Skor pada tes terstandar sering kali dilaporkan dalam kaitannya dengan seberapa jauh skor tersebut dari rata-rata
yang diukur dalam satuan deviasi standar. Misalnya skor IQ dinormalisasi sehingga terdapat mean 100 dan standar deviasi
15. Artinya rata-rata seseorang akan mendapat skor 100, seseorang akan mendapat skor 100.

GAMBAR
14.1 Frekuensi Skor
yang Membentuk
Kurva Normal
Jika 100 orang mengikuti
tes dan skor masing-masing
tes ditandai dengan tanda x
pada grafik, hasilnya mungkin
menunjukkan kurva normal.
Dalam distribusi normal, sebagian
besar skor berada pada atau
mendekati mean (dalam hal ini,
50), dan jumlah skor semakin
35 40 45 50 55 60 65 menurun semakin jauh dari mean.
Nilai ujian

M14_SLAV4054_12e_SE_C14.indd 391 18/10/16 15:37


Machine Translated by Google

392 BAB EMPAT BELAS

GAMBAR
14.2 Standar Deviasi SD = Deviasi Standar
34,1% 34,1%
Ketika nilai tes berdistribusi normal,
pengetahuan tentang seberapa
jauh letak skor tertentu dari 13,6% 13,6%

rata-rata, dalam kaitannya


dengan standar deviasi, menunjukkan 2,2% 2,2%

berapa persentase skor yang lebih 19,2%19,2%


0,12% 0,12%
tinggi dan berapa persentase
yang lebih rendah. –4 SD –3 SD –2 SD –1 SD –½ SD +½ SD +1 SD +2 SD +3 SD +4 SD
Berarti

38,3%

68,3%

95,4%

99,8%

yang memberi skor satu standar deviasi di atas rata-rata akan mendapat skor 115, seseorang yang mendapat skor satu
standar deviasi di bawah rata-rata akan mendapat skor 85, dan seterusnya. Oleh karena itu, secara teori, sekitar 68
persen dari seluruh nilai IQ (yaitu, lebih dari dua pertiganya) berada di antara 85 (21 SD) dan 115 (11 SD). Skor SAT
juga dinormalisasi berdasarkan deviasi standar, dengan rata-rata untuk setiap skala ditetapkan sebesar 500 dan deviasi
standar sebesar 100. Artinya, lebih dari dua pertiga seluruh skor berada di antara 400 dan 600. Untuk IQ, 95 persen
berada di antara 400 dan 600. 70 (22 SD) dan 130 (12 SD).

STANINES Standar skor yang kadang digunakan adalah skor stanine (dari kata standar sembilan). Stanin memiliki rata-
rata 5 dan simpangan baku 2, sehingga setiap stanin mewakili simpangan baku 0,5. Skor stanin dilaporkan sebagai
bilangan bulat, jadi seseorang yang memperoleh skor stanin 7 (11 SD) sebenarnya berada di antara 0,75 SD dan 1,25
SD di atas rata-rata.

SETARA KURVA NORMAL Jenis skor standar lain yang kadang-kadang digunakan adalah setara kurva normal (NCE).
Setara kurva normal dapat berkisar dari 1 hingga 99, dengan rata-rata 50 dan deviasi standar sekitar 21. Skor NCE mirip
dengan persentil, kecuali interval antara skor NCE sama (tidak demikian halnya dengan skor persentil).

Skor standar lainnya, yang lebih sering digunakan dalam statistik dibandingkan dalam pelaporan hasil tes standar, adalah
skor-z, yang menetapkan rata-rata distribusi pada 0 dan deviasi standar pada 1. Gambar 14.3 menunjukkan bagaimana
sekumpulan skor mentah berdistribusi normal dengan rata-rata persen benar sebesar 70 persen dan deviasi standar 5
akan diwakili dalam skor-z, stanine, setara kurva normal, skor persentil, dan skor IQ dan SAT yang setara.

Perhatikan perbedaan angka antara skor persentil dan semua skor standar (z-score, stanine, NCE, IQ, dan SAT).
Skor persentil dikumpulkan di tengah-tengah distribusi karena sebagian besar siswa mendapat skor mendekati rata-
rata. Artinya, perubahan kecil pada nilai mentah yang mendekati rata-rata dapat menghasilkan perubahan persentil yang
besar (persentase siswa di bawah nilai tersebut). Sebaliknya, perubahan skor mentah yang jauh di atas atau di bawah
rata-rata akan menyebabkan perbedaan persentil yang lebih kecil. Misalnya, peningkatan 5 poin pada tes dari 70 menjadi
75 akan memindahkan siswa dari persentil ke-50 ke ke-84, peningkatan sebesar 34 poin persentil; tetapi 5 poin lagi (dari
75 menjadi 80) meningkatkan peringkat persentil siswa hanya sebesar 14 poin. Pada tingkat ekstrim, peningkatan 5 poin
Penunjuk Sertifikasi yang sama, dari 80 menjadi 85, hanya menghasilkan peningkatan 1 poin persentil, dari 98 menjadi 99.
Untuk ujian sertifikasi guru, Anda
mungkin harus mampu memilih, Karakteristik peringkat persentil ini berarti bahwa perubahan persentil harus diinterpretasikan secara hati-hati.
menyusun, dan menggunakan Misalnya, seorang guru mungkin menyombongkan diri, “Rata-rata anak-anak saya meningkat 23 poin persentil [dari 50
strategi dan instrumen penilaian menjadi 73], sementara anak-anak Anda yang dianggap pintar hanya memperoleh 15 poin persentil [dari 84 menjadi 99].
yang sesuai dengan hasil Saya benar-benar melakukan pekerjaan yang hebat dengan mereka!” Faktanya, siswa dari guru yang menyombongkan
pembelajaran yang dievaluasi. diri hanya memperoleh 3 poin dalam skor mentah, atau 0,6 standar deviasi, sedangkan siswa dari guru lain memperoleh
10 poin dalam skor mentah, atau 2 standar deviasi!

M14_SLAV4054_12e_SE_C14.indd 392 18/10/16 15:37


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 393

GAMBAR
SD = Deviasi Standar
14.3
Hubungan
Berbagai Jenis Skor
Skor mentah yang
terdistribusi secara normal
dapat dilaporkan dalam
berbagai cara.
–3 SD –2 SD –1 SD Rata-rata +1 SD +2 SD +3 SD Setiap metode pelaporan
Skor 55 60 65 70 75 80 85 dicirikan oleh meannya,
mentah (% benar)
skor-z –3 –2 –1 0 +1 +2 +3
kisaran antara skor tinggi
Stanin 1 3 5 7 9 dan rendah, dan interval deviasi standar
Setara dengan 1 8 29 50 71 92 99
kurva normal
IQ 55 70 85 100 115 130 145
Sabtu 200 300 400 500 600 700 800
Persentil 1 2 16 50 84 98 99

TEORI MENJADI PRAKTEK


Menafsirkan Skor Tes Standar
Bagian ini menyajikan panduan untuk menafsirkan laporan tes untuk tes kinerja akademik standar
yang banyak digunakan, Terra Nova, yang diterbitkan oleh CTB/McGraw-Hill (2008). Tes
berstandar nasional lainnya yang banyak digunakan (seperti CAT, Iowa, dan Stanford)
menggunakan format laporan serupa.

LEMBAR CATATAN KELAS Gambar 14.4 menunjukkan bagian dari lembar catatan kelas Terra
Nova untuk anak-anak di kelas membaca Judul I kelas enam.

Data Identifikasi
Lihat dulu di bagian atas formulir. Nilai (6,7) menunjukkan bahwa pada saat post test, siswa
berada di bulan ke 7 kelas enam (April; September adalah bulan 0). Informasi di kiri bawah
menunjukkan tanggal ujian, sekolah, distrik, norma ujian, dan “seperempat bulan” (yaitu, minggu
sejak sekolah dimulai).

Skor
Di bawah setiap kolom, skor tes ditampilkan dalam dua metrik: skor referensi norma, dan persentil
nasional. Bagian A di paling kanan menunjukkan kepada kita kisaran skor kelompok (misalnya,
54–90 dalam Reading). Bagian C menyoroti nilai rata-rata di suatu negara dan memetakan nilai
kelas Ny. Jones sehubungan dengan itu.

LAPORAN PROFIL INDIVIDU Seperti kebanyakan tes standar, Terra Nova memberikan analisis
rinci tentang kinerja tes setiap anak. Gambar 14.5 menunjukkan contoh siswa kelas tiga, Gary
Jones (laporan sebenarnya, tapi bukan nama sebenarnya).
Di bagian atas laporan terdapat daftar nilai Gary dalam lima mata pelajaran. Dalam Reading,
misalnya, skor Pemahaman Dasar Gary adalah 91. Indeks Kinerja Tujuan Nasional menunjukkan
bahwa ia dapat diharapkan menjawab 79 pertanyaan dengan benar jika ia diuji pada 100 jenis
pertanyaan seperti itu, selisih 12 poin, seperti yang ditunjukkan di kotak berikutnya. Kotak
berikutnya menunjukkan rentang penguasaannya 48-70. Gary telah melakukan jauh lebih baik
dari ini pada usia 91 tahun. Semua informasi ini ditafsirkan secara visual di Bagian B.

M14_SLAV4054_12e_SE_C14.indd 393 18/10/16 15:37


Machine Translated by Google

394 BAB EMPAT BELAS

Pemeriksaan Mandiri MyEdLab 14.1

GAMBAR 14.4
Ketika suatu kelas siswa mengambil tes standar, hasilnya dapat dibandingkan melalui bentuk yang serupa dengan yang ditunjukkan di sini.
Sumber: CTB-McGraw Hill (2008). Memperkenalkan Terra Nova, edisi ke-3: Standar baru dalam pencapaian (hal. 4). Direproduksi dengan izin
CTB/McGraw-Hill LLC. Terra Nova dan CAT adalah merek dagang terdaftar dari McGraw-Hill Companies, Inc.

M14_SLAV4054_12e_SE_C14.indd 394 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 395

GAMBAR 14.5
Laporan untuk individu yang mengikuti tes standar dapat mencakup skor keseluruhan dan skor pada tujuan konten tertentu.
Sumber: CTB-McGraw Hill (2008). Memperkenalkan Terra Nova, edisi ke-3: Standar baru dalam pencapaian (hal. 3). Direproduksi dengan izin
CTB/McGraw-Hill LLC. Terra Nova dan CAT adalah merek dagang terdaftar dari McGraw-Hill Companies, Inc.

M14_SLAV4054_12e_SE_C14.indd 395 18/10/16 15:38


Machine Translated by Google

396 BAB EMPAT BELAS

APA SAJA PERMASALAHAN TERKAIT


PENGUJIAN STANDAR DAN KELAS?
Penggunaan tes terstandar untuk menilai guru, sekolah, dan daerah telah meningkat secara dramatis dalam beberapa
tahun terakhir. Semua negara bagian sekarang memiliki program pengujian di seluruh negara bagian di mana siswa
pada tingkat kelas tertentu mengikuti tes negara bagian. No Child Left Behind (NCLB), undang-undang pendidikan
federal yang diperkenalkan pada masa pemerintahan Bush, mewajibkan tes membaca dan matematika tahunan di
kelas 3–8 dan satu kelas di sekolah menengah (biasanya 11). Hal ini masih berlaku berdasarkan Undang-Undang
Setiap Siswa Berhasil (ESSA) tahun 2015. Departemen pendidikan negara bagian menganalisis skor tes ini untuk
mengevaluasi program pendidikan negara bagian secara keseluruhan dan untuk membandingkan kinerja masing-
masing distrik sekolah, sekolah, dan guru sebagai bagian dari program akuntabilitas. Akuntabilitas adalah salah satu
dari beberapa masalah terkait penggunaan dan penyalahgunaan tes standar. Permasalahan mengenai pengujian,
standar, dan topik terkait merupakan salah satu pertanyaan yang paling hangat diperdebatkan dalam pendidikan AS
(Brookhart & Nitko, 2015). Dalam beberapa tahun terakhir ada banyak perkembangan dan usulan perubahan dalam pengujian.

Uji Validitas
Kami menggunakan nilai tes untuk membuat kesimpulan tentang siswa yang kami ukur. Validitas suatu tes adalah
sejauh mana kesimpulan tersebut dapat dibenarkan (Kubiszyn & Borich, 2010; McMillan, 2011) .
Jenis bukti yang digunakan untuk mengevaluasi validitas suatu tes bervariasi sesuai dengan tujuan tes tersebut.
Misalnya, jika suatu tes dipilih untuk membantu guru dan administrator menentukan siswa mana yang mungkin
mengalami kesulitan dalam satu atau lebih aspek pengajaran, perhatian utamanya adalah pada seberapa baik tes
tersebut memprediksi kinerja akademik di masa depan. Namun, jika tujuannya adalah untuk menggambarkan tingkat
pencapaian sekelompok siswa saat ini, perhatian utama akan fokus pada keakuratan deskripsi tersebut. Singkatnya,
validitas berkaitan dengan relevansi suatu tes untuk tujuan yang dimaksudkan.

Karena berbagai peran yang diharapkan dari tes di sekolah dan dalam proses pendidikan, ada tiga kelompok
bukti validitas yang menjadi perhatian pengguna tes: konten, kriteria, dan bukti konsekuensial (Popham, 2014; Reynolds
& Livingston, 2012; Salkind, 2013).

BUKTI VALIDITAS ISI Kriteria terpenting untuk kegunaan suatu tes—


terutama tes pencapaian—adalah apakah tes tersebut menilai apa yang ingin dinilai oleh pengguna. Kriteria yang
disebut bukti isi adalah penilaian terhadap tingkat tumpang tindih antara apa yang diajarkan (atau apa yang seharusnya
diajarkan) dan apa yang diuji. Hal ini ditentukan oleh para ahli konten melalui perbandingan yang cermat antara konten
tes dengan standar negara bagian atau distrik atau dengan tujuan kursus atau program. Misalnya, tes yang menekankan
tanggal dan fakta sejarah, sedangkan kurikulum dan standar negara bagian atau lokal menekankan gagasan utama
sejarah, tidak dapat dianggap valid.

BUKTI VALIDITAS TERKAIT KRITERIA Dikumpulkan dengan melihat hubungan antara skor pada tes dan rangkaian
skor lainnya, bukti terkait kriteria membandingkan hasil tes dengan harapan berdasarkan pemahaman tentang
berbagai penilaian tersebut. Misalnya, bukti prediktif dari validitas suatu tes mungkin merupakan ukuran kemampuannya
untuk membantu memprediksi perilaku di masa depan. Jika kita menggunakan sebuah tes untuk meramalkan kinerja
sekolah siswa di masa depan, salah satu cara untuk menguji validitas tes tersebut adalah dengan menghubungkan nilai
tes tersebut dengan beberapa ukuran kinerja siswa selanjutnya. Jika terdapat tingkat kesesuaian yang sesuai antara
tes dan kinerja selanjutnya, maka tes tersebut dapat digunakan untuk memberikan informasi prediktif bagi siswa.
Misalnya, nilai ujian SAT dan ACT telah terbukti berhubungan cukup baik dengan kinerja di perguruan tinggi; Oleh
karena itu, banyak petugas penerimaan perguruan tinggi menggunakan skor ini (bersama dengan nilai sekolah
menengah atas dan informasi lainnya) dalam memutuskan pelamar mana yang akan diterima.

Bentuk terkait kriteria lain yang disebut bukti validitas bersamaan menentukan apakah tes tersebut mengukur
domain yang sama dengan tes lainnya. Misalnya, jika tes IQ kelompok akan digantikan dengan tes IQ individu,
pertama-tama kita ingin mengetahui apakah tes tersebut menghasilkan skor yang sebanding. Dengan memberikan
kedua tes kepada siswa yang sama dalam sebuah penelitian, seseorang dapat mengevaluasi hubungan antara nilai
mereka.
Bentuk lain dari bukti yang bersamaan disebut bukti diskriminan. Tes prestasi, misalnya, mungkin diharapkan
menunjukkan kurangnya hubungan dengan beberapa variabel. Untuk

M14_SLAV4054_12e_SE_C14.indd 396 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 397

Misalnya, tes bakat mekanik harus dikorelasikan dengan kemampuan peserta tes dalam merakit mesin, namun tes tersebut
tidak boleh berkorelasi terlalu baik dengan bakat verbal, yang merupakan keterampilan yang berbeda, atau dengan gender,
yang tidak ada hubungannya dengan keterampilan yang sedang diuji. diukur.

Uji Keandalan
Validitas berkaitan dengan keterampilan dan pengetahuan yang diukur dengan sebuah tes, sedangkan reliabilitas tes berkaitan
dengan keakuratan pengukuran keterampilan dan pengetahuan tersebut (Kaplan & Saccuzzo, 2013; McMillan, 2011; Popham,
2014). Nilai tes seharusnya merupakan hasil dari pengetahuan dan keterampilan siswa yang diukur. Namun ketika suatu tes
dilaksanakan, aspek-aspek yang berkaitan dengan tes itu sendiri dan keadaan sekitar pelaksanaannya dapat menyebabkan
hasil menjadi tidak akurat.
Secara teori, jika seorang siswa mengerjakan tes yang setara dua kali, dia harus memperoleh nilai yang sama pada kedua kali
tersebut. Sejauh mana hal ini tidak akan terjadi melibatkan subjek keandalan. Ciri-ciri penilaian yang acak (seperti soal tes yang
ambigu, perbedaan isi soal tertentu, tebakan beruntung atau tidak beruntung, motivasi yang tidak konsisten, dan kecemasan)
semuanya memengaruhi nilai tes dan dapat menyebabkan hasil berbeda untuk penyelenggaraan tes setara yang berbeda.
Selain itu, pada esai atau ukuran kinerja lainnya, perbedaan antar penilai mengurangi keandalan. Jika dapat ditunjukkan
bahwa individu menerima nilai yang sama pada dua penyelenggaraan tes yang sama, maka kepercayaan dapat ditempatkan
pada keandalan tes tersebut. Jika skornya sangat tidak konsisten, sulit untuk menaruh kepercayaan pada skor tes tertentu.
Secara umum, semakin panjang tes dan semakin mirip item-itemnya, semakin besar reliabilitasnya.

Reliabilitas biasanya diukur dengan menggunakan koefisien yang mempunyai kisaran teoritis dari 0 sampai 1. Semakin
tinggi angkanya, semakin reliabel tes tersebut. Secara umum, tes prestasi terstandar yang baik harus memiliki koefisien 0,90
atau lebih tinggi. Reliabilitas mungkin dianggap mencerminkan seberapa konsisten suatu tes mengukur sesuatu tentang siswa.
Validitas mencerminkan betapa berartinya suatu nilai tes terhadap sesuatu yang kita pedulikan. Dengan demikian suatu tes
tidak dapat mempunyai validitas tanpa adanya reliabilitas, namun suatu tes dapat reliabel tanpa adanya validitas. Sebagai
contoh reliabilitas tanpa validitas, pertimbangkan reaksi Anda jika instruktur Anda memberikan nilai mata pelajaran berdasarkan
tinggi badan siswa. Ia akan memiliki penilaian yang sangat andal (tinggi badan dapat ditentukan dengan cukup akurat), namun
skor tersebut tidak akan menjadi indikator valid atas pengetahuan atau keterampilan Anda. Sekarang bayangkan sebuah tes
kreativitas di mana siswa diminta untuk menjelaskan kegunaan inovatif pembuka kaleng. Jika penilai tidak sepakat mengenai
cara menilai jawaban siswa, atau jika skor sangat bervariasi ketika siswa mengikuti tes yang sama 6 bulan kemudian, maka
skala tersebut tidak dapat diandalkan dan oleh karena itu tidak dapat dianggap valid.

Secara keseluruhan, reliabilitas dan validitas sangat penting ketika tes digunakan untuk tujuan yang sangat penting,
seperti menugaskan siswa ke pendidikan khusus atau mempertahankan mereka, atau mengevaluasi guru atau sekolah. Untuk
tujuan tersebut, berbagai ukuran, yang semuanya memiliki reliabilitas dan validitas tinggi, sangatlah penting (Penfield, 2010).

Uji Bias
Beberapa kritik utama terhadap tes standar tradisional melibatkan masalah validitas dan reliabilitas (lihat Linn, 2000). Kritikus
berpendapat bahwa tes tersebut

Memberikan informasi palsu tentang status pembelajaran di sekolah-sekolah nasional (Bracey, 2003) Penunjuk Sertifikasi
Tes sertifikasi guru Anda
Tidak adil terhadap (atau bias terhadap) beberapa jenis siswa (misalnya, siswa dari latar belakang berbeda, mereka
yang memiliki kemampuan bahasa Inggris terbatas, perempuan, dan siswa dari keluarga berpenghasilan rendah) (lihat mungkin mengharuskan
Anda memahami penilaian
Lissitz & Schafer, 2002; Orfield & Kornhaber, 2001; Scheurich, Skrla, & Johnson, 2000; Suzuki, Ponterotto, & Meller,
masalah terkait seperti
2000)
validitas tes, reliabilitas tes,
Cenderung merusak proses belajar mengajar, seringkali mereduksi pengajaran hanya sekedar persiapan ujian
bias, dan masalah penilaian.

Fokuskan waktu, energi, dan perhatian pada keterampilan sederhana yang mudah diuji, dan jauhkan dari keterampilan
berpikir tingkat tinggi dan upaya kreatif (Campbell, 2000; Popham, 2014)

Salah satu masalah utama dalam penafsiran nilai tes standar adalah kemungkinan terjadinya bias
terhadap siswa dari latar belakang berpenghasilan rendah atau beragam. Di satu sisi, ini adalah pertanyaan tentang validitas
tes: Sebuah tes yang memberikan keuntungan yang tidak adil kepada satu atau beberapa kategori siswa tidak dapat dibenarkan.

M14_SLAV4054_12e_SE_C14.indd 397 18/10/16 15:38


Machine Translated by Google

398 BAB EMPAT BELAS

dianggap sah. Yang paling memprihatinkan adalah kemungkinan bahwa tes bisa menjadi bias karena tes tersebut
menilai pengetahuan atau keterampilan yang umum pada satu kelompok atau budaya tetapi tidak pada kelompok atau
budaya lain. Misalnya, tes yang mencakup bacaan pemahaman tentang perjalanan ke pantai dapat menjadi bias
terhadap siswa yang tinggal jauh dari pantai atau tidak mampu melakukan perjalanan ke pantai. Sebuah bagian tentang
Halloween mungkin tidak adil bagi Saksi-Saksi Yehuwa, yang tidak merayakan Halloween.
Penerbit tes secara rutin menilai bias dalam item tes (disebut bias item). Soal yang menunjukkan skor lebih
rendah (atau lebih tinggi) untuk kelompok demografi siswa (misalnya, kelompok gender atau ras) dari yang diharapkan
berdasarkan tes secara keseluruhan akan ditandai untuk dievaluasi. Item-item ini biasanya dirujuk ke sebuah komite
yang terdiri dari perwakilan dari berbagai kelompok demografi, yang kemungkinan besar akan mengecualikan item
tersebut. Masalah terkait adalah sensitivitas. Sudah jelas bahwa soal tes yang mengandung stereotip budaya atau
gender yang terang-terangan harus ditolak. Misalnya, tes yang itemnya selalu menyebut dokter sebagai “dia” atau
memberikan nama Hispanik hanya untuk pekerja kasar tidak boleh digunakan.

Penggunaan komputer untuk melaksanakan tes menjadi lebih umum. Dalam bentuknya yang paling sederhana, siswa
diberikan soal pilihan ganda yang sama dalam urutan yang sama seperti yang akan diambil siswa jika mereka mengikuti
tes kertas dan pensil pada umumnya. Namun, komputer memungkinkan untuk menyesuaikan pemilihan item dengan
kinerja siswa. Dalam administrasi adaptif komputer (Olson, 2005), tindak lanjut terhadap setiap item tergantung pada
keberhasilan siswa dalam menjawab, dengan item yang lebih sulit diberikan setelah jawaban yang benar dan item yang
lebih mudah disajikan setelah jawaban yang salah. Saat tes berlangsung, perkiraan kinerja siswa selama keseluruhan
tes terus diperbarui. Hal ini dapat menghasilkan penghematan waktu nyata; siswa biasanya dapat mengerjakan tes
dalam waktu kurang dari sepertiga waktu administrasi kertas dan pensil, dengan tingkat akurasi yang sama. Selain itu,
pengujian adaptif komputer dapat membidik serangkaian keterampilan tertentu yang lebih maju dari apa yang diketahui
siswa, memberikan informasi yang lebih akurat mengenai keterampilan tersebut sambil menghindari pemborosan waktu
pada soal-soal yang sangat mudah atau tidak mungkin bagi siswa. . Di sisi lain, penelitian terbaru yang membandingkan
nilai ujian yang diambil di komputer dengan nilai ujian yang sama yang diberikan di atas kertas menemukan bahwa,
setidaknya pada tahun pertama, siswa di banyak negara bagian memiliki kinerja yang jauh lebih baik dalam ujian
kertas (Herold, 2016). Di Rhode Island, misalnya, 42,5 persen siswa mendapat nilai “mahir” dalam Bahasa Inggris/Seni
Bahasa pada tes Common Core PARCC versi kertas, sementara hanya 34 persen yang mendapat nilai bagus pada
versi komputer. Namun, di negara bagian lain, tidak ditemukan perbedaan antara administrasi kertas dan administrasi
komputer.

Menguji Akomodasi bagi Siswa Penyandang Disabilitas


Bagaimana seharusnya siswa penyandang disabilitas berpartisipasi dalam ujian terstandar? Beberapa jenis akomodasi,
seperti memperbesar teks untuk siswa dengan masalah penglihatan, tidak kontroversial. Yang jauh lebih kontroversial
adalah akomodasi bagi siswa dengan ketidakmampuan belajar, seperti memperpanjang waktu ujian dan membaca item
untuk siswa (Lovett, 2010; Voltz, Sims, & Nelson, 2010). Sebuah tinjauan terhadap banyak penelitian yang dilakukan
oleh Sireci dan rekannya (2005) meneliti efek dari berbagai akomodasi. Mereka menemukan bahwa memperpanjang
waktu ujian akan meningkatkan nilai bagi semua siswa (tidak hanya siswa penyandang disabilitas), meskipun siswa
penyandang disabilitas mendapatkan manfaat yang lebih besar dibandingkan siswa lainnya. Namun, membacakan item
kepada siswa terutama bermanfaat bagi siswa penyandang disabilitas. Berdasarkan temuan-temuan ini, penting bagi
pembuat kebijakan untuk menetapkan pedoman yang jelas dalam sistem akuntabilitas mengenai kapan akomodasi
boleh dan tidak boleh digunakan, untuk menghindari bias dalam penilaian.

Menguji Akomodasi untuk Pelajar Bahasa Inggris


Gerakan akuntabilitas nasional telah meningkatkan kekhawatiran mengenai ujian bagi pelajar bahasa Inggris. Tentu
saja, siswa yang tidak dapat berbahasa Inggris tidak dapat memberikan respons yang berarti terhadap tes yang
diberikan dalam bahasa Inggris, namun jika pembelajar bahasa Inggris tidak diperbolehkan mengikuti tes, terdapat
bahaya bahwa kebutuhan mereka tidak akan terpenuhi secara memadai (Kieffer, Lesaux, Rivera, & Francis, 2009).
Sistem akuntabilitas negara bagian (seperti di Texas) telah menggunakan tes dalam bahasa Spanyol di kelas-kelas
awal. Akomodasi lainnya termasuk menulis ulang tes untuk menyederhanakan instruksi atau soal itu sendiri, memberikan
waktu tambahan, atau menyajikan tes dalam dua bahasa sekaligus (bahasa Inggris dan bahasa ibu) dan membiarkan
siswa memilih mana yang akan dijawab.

M14_SLAV4054_12e_SE_C14.indd 398 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 399

DI WEB
Untuk informasi lebih lanjut mengenai isu-isu yang berkaitan dengan prinsip-prinsip penilaian
pendidikan, kunjungi situs web National Council on Measurement in Education (NCME)
(ncme.org) dan situs web James McMillan dari Virginia Commonwealth University tentang
Prinsip-prinsip Penilaian Dasar untuk Guru dan Administrator (pareonline.net). Lihat
juga Pusat Nasional untuk Peningkatan Penilaian Pendidikan (nciea.org) dan Badan Nasional
Pengujian Pendidikan dan Kebijakan Publik (bc.edu, kemudian Penelitian, kemudian Pusat dan Institut
Penelitian).

Pemeriksaan Mandiri MyEdLab 14.2

BAGAIMANA PENDIDIKAN BERTANGGUNG JAWAB


UNTUK PRESTASI SISWA?
Tren yang berkembang dalam beberapa tahun terakhir adalah upaya untuk meminta pertanggungjawaban guru,
sekolah, dan daerah atas apa yang dipelajari siswa (Klein, 2016). Semua negara bagian di AS, sebagian besar
provinsi di Kanada, dan Inggris (di antara banyak negara lainnya) telah menerapkan program pengujian standar
secara berkala dan mempublikasikan hasilnya setiap sekolah. Banyak daerah melengkapi tes negara bagian ini
dengan tes tambahan, termasuk “penilaian patokan” yang diberikan beberapa kali setiap tahun untuk membantu
memandu pengajaran menuju pemenuhan standar negara bagian. Tidak mengherankan jika para pelaku bisnis
dan administrator lainnya memperhatikan skor ini seperti halnya pemilik bisnis memperhatikan lembar laba
mereka. Tes yang distandarisasi telah menjadi tes yang “berisiko tinggi”, yang berarti bahwa hasilnya mempunyai
konsekuensi yang serius bagi para pendidik dan (dan semakin meningkat) bagi siswa itu sendiri. Misalnya, banyak
negara bagian dan distrik kini mengharuskan siswa mendapat nilai pada tingkat tertentu dalam ujian negara
bagian agar dapat naik kelas atau lulus sekolah menengah atas. Banyak negara bagian dan distrik mengeluarkan
rapor sekolah yang mencantumkan data seperti nilai ujian, kehadiran, retensi, dan skorsing; ini mungkin dilaporkan
di surat kabar atau dipublikasikan. Nilai ujian sering kali digunakan dalam pengambilan keputusan tentang
perekrutan, pemecatan, promosi, dan pemindahan kepala sekolah dan pengawas, dan terkadang guru.

DI WEB
Untuk mempelajari lebih lanjut tentang masalah akuntabilitas dan penilaian tingkat negara
bagian, kunjungi situs web Council of Chief State School Officers (CCSSO) di ccsso.org.
CCSSO adalah organisasi pejabat publik yang memimpin pendidikan K-12 di 50 negara
bagian. Untuk informasi tentang akuntabilitas sekolah piagam, lihat
charterschoolcenter.org. Untuk masalah akuntabilitas dan penilaian
siswa penyandang disabilitas, lihat cehd.umn.edu.

Gerakan akuntabilitas ini salah satunya bermula dari hilangnya kepercayaan masyarakat terhadap
pendidikan. Para pembuat undang-undang (antara lain), yang kecewa dengan contoh siswa yang lulus SMA
tidak mampu membaca atau berhitung, menuntut sekolah menetapkan standar yang lebih tinggi dan siswa
mencapainya (McDermott, 2007).
Namun gerakan akuntabilitas mendapat banyak kritik (Hamilton, Stecher, & Yuan, 2008; Rotberg, 2001;
Ryan & Shepard, 2008; Schlechty, 2011). Banyak yang berpendapat bahwa penilaian akuntabilitas menggoda
sekolah untuk hanya mengajarkan apa yang diujikan, menekankan membaca dan matematika dengan
mengorbankan, misalnya, sains dan ilmu sosial (David, 2011; Marx & Harris, 2006), dan menekankan tujuan yang
mudah diukur (seperti misalnya tanda baca) dibandingkan tujuan yang lebih penting namun sulit diukur (seperti
komposisi) (Gallagher, 2010). Banyak pendidik yang menyatakan hal itu

M14_SLAV4054_12e_SE_C14.indd 399 18/10/16 15:38


Machine Translated by Google

400 BAB EMPAT BELAS

penilaian akuntabilitas gagal memperhitungkan perbedaan tantangan yang dihadapi sekolah (Barton, 2007/2008; Darling-Hammond
et al., 2012). Sebuah sekolah atau ruang kelas mungkin mendapatkan hasil tes yang buruk karena siswanya berasal dari latar
belakang kurang mampu atau belum bisa berbahasa Inggris dengan baik, dan bukan karena mereka diberikan pengajaran yang
buruk. Siswa di sekolah dengan tingkat kemiskinan tinggi mungkin memiliki lebih sedikit kesempatan untuk belajar karena
pendanaan mereka seringkali lebih rendah dibandingkan sekolah lain (Orfield & Kornhaber, 2001; Starratt, 2003). Mobilitas siswa
yang tinggi, terutama di daerah perkotaan dengan tingkat SES rendah, mungkin berarti bahwa sekolah harus bertanggung jawab
terhadap siswa yang baru mereka temui selama beberapa minggu atau bulan. Kinerja sekolah dari tahun ke tahun tidak stabil, dan
LabEd Saya sekolah mungkin diberi penghargaan atau hukuman berdasarkan variasi kecil yang tidak penting secara statistik (Fuller, Wright,
Contoh Video 14.2 Gesicki, & Kang, 2007; Kelly & Monczunski, 2007). Tes berisiko tinggi dapat menyebabkan sekolah dan daerah mencoba
Penulis buku teks Bob Slavin “mempermainkan sistem” dengan mengadopsi kebijakan yang secara artifisial meningkatkan nilai dengan mengeluarkan siswa
menggambarkan sebuah hal yang kontroversial yang berpotensi mendapat nilai rendah dari kelompok tes, seperti menugaskan lebih banyak anak ke pendidikan khusus,
keputusan distrik sekolah untuk mengkategorikan lebih banyak siswa sebagai siswa terbatas Mahir berbahasa Inggris, atau mempertahankan lebih banyak siswa
mengurangi waktu istirahat yang (Booher-Jennings & Beveridge, 2007; Heilig & Darling-Hammond, 2008). Banyak pengamat mencatat bahwa guru, di bawah
dihabiskan siswa. Pertimbangkan tekanan yang luar biasa, terkadang menggunakan strategi yang tidak etis untuk meningkatkan nilai siswa (Hamilton et al., 2008;
potensi dampak negatif dari Popham, 2014a), dan terdapat banyak skandal kecurangan karena tekanan yang kuat terhadap guru dan administrator untuk
pengurangan program kurikuler non-inti. meningkatkan nilai siswa. skor (Starnes, 2011).

Bagaimana cara terbaik bagi para Beberapa peneliti (misalnya, Amrein & Berliner, 2003; Ellmore & Fuhrman, 2001; Neill, 2003) mempertanyakan apakah
pendidik untuk mengatasi peningkatan akuntabilitas sebenarnya mengarah pada pencapaian yang lebih tinggi. Pemerintah federal secara teratur
meningkatnya kebutuhan untuk memberikan tes kepada sampel siswa nasional. Nilai pada Penilaian Kemajuan Pendidikan Nasional (NAEP) ini dapat dibandingkan
mempersiapkan semua siswa memenuhi dengan nilai ujian negara bagian. Carnoy dan Loeb (2002) hanya menemukan sedikit perbedaan dalam perolehan skor NAEP
standar akademik yang lebih ketat? antara negara bagian dengan sistem akuntabilitas yang kuat dan negara bagian lainnya, sedangkan Neill dan Gaylor (2001) dan
Amrein dan Berliner (2003) menemukan bahwa negara bagian dengan sistem akuntabilitas yang kuat memiliki perolehan NAEP
yang lebih rendah . daripada negara bagian lain. Panel Dewan Riset Nasional meninjau berbagai studi tentang strategi akuntabilitas
berisiko tinggi dan menemukan sedikit manfaat untuk pembelajaran (Sparks, 2011a). Di sisi lain, sebuah penelitian di Inggris
menemukan bahwa ketika Inggris mempertahankan standar tes tetapi Wales tidak menerapkannya, nilai tes internasional di Wales
mulai turun dibandingkan dengan skor di Inggris (McNally, 2014).

Terlepas dari kritik yang ada, tuntutan akan akuntabilitas tetap ada (Popham, 2014a).
Salah satu keuntungan akuntabilitas adalah meningkatkan tekanan pada sekolah dan guru untuk memberikan perhatian kepada
siswa yang mungkin gagal dan membantu mereka yang paling membutuhkan bantuan. Negara-negara bagian diwajibkan untuk
melaporkan skor “terpilah”, yang berarti bahwa negara-negara tersebut bertanggung jawab secara terpisah atas perolehan siswa
dari setiap etnis, terbatasnya kemampuan bahasa Inggris siswa, dan seterusnya. Hal ini dapat memfokuskan para pemimpin
sekolah dalam menemukan cara untuk memastikan bahwa semua kelompok mengalami kemajuan (Scheurich dkk., 2000).
Keuntungan lainnya adalah akuntabilitas mendorong sekolah untuk mencari metode pengajaran yang lebih baik dan menjamin
evaluasi rutin terhadap setiap inovasi yang dicoba sekolah (Wiliam, 2010).

Tes akuntabilitas negara didasarkan pada standar negara. Di sebagian besar negara bagian saat ini, standar-standar ini
selaras dengan Common Core State Standards (CCSS) atau “standar siap kuliah dan karier” lainnya yang serupa dengan CCSS.
Hal ini akan dibahas kemudian dalam bab ini.
Baik negara bagian telah mengadopsi CCSS atau standar siap berkarir dan perguruan tinggi lainnya, standar mereka
biasanya setidaknya dilengkapi dengan item yang dipilih atau dikembangkan oleh beragam kelompok pemangku kepentingan
(termasuk guru, orang tua, pemberi kerja, dan peneliti), yang mengungkapkan penilaian mereka. tentang apa yang harus diajarkan
dan dipelajari. Melalui proses membangun konsensus, suatu negara menyatukan pemikiran para pendidik dan non-pendidik dalam
menentukan domain konten yang dibutuhkan melalui penilaiannya. Proses ini memaksa para pemimpin pendidikan dan pembuat
kebijakan untuk memperjelas apa yang mereka ingin anak-anak pelajari, yang kemudian dapat membantu mereka menetapkan
kebijakan yang sejalan dengan tujuan-tujuan tersebut.

Setiap Siswa Berhasil Bertindak (ESSA)


Pada bulan Desember 2015, Kongres AS mengesahkan pembaruan undang-undang utama yang mengatur peran federal dalam
pendidikan. Undang-undang ini, yang dikenal dengan No Child Left Behind (NCLB) pada tahun 2002 hingga 2015, kini disebut
Every Student Succeeds Act, atau ESSA (Klein, 2016). Pemerintah federal hanya menyediakan sekitar 7 persen pendanaan
untuk pendidikan publik (sisanya berasal dari pajak negara bagian dan lokal), namun 7 persen tersebut sangat berpengaruh,
terutama untuk sekolah yang melayani banyak siswa kurang mampu, pembelajar bahasa Inggris, dan siswa yang menerima
beasiswa khusus. -layanan pendidikan.

M14_SLAV4054_12e_SE_C14.indd 400 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 401

Sebagai seorang guru, Anda mungkin akan menemukan kebijakan yang ada karena ESSA atau terpengaruh olehnya.
Berikut adalah beberapa permasalahan utama yang ditangani oleh ESSA yang mungkin penting bagi Anda (lihat Pekan
Pendidikan, 2015).

1. Akuntabilitas. Mungkin dampak ESSA yang paling universal adalah pada akuntabilitas (Che nowith, 2016; Rothman
& Marion, 2016). Seperti halnya di NCLB, siswa akan diuji dalam membaca dan matematika di masing-masing kelas
3 sampai 8, ditambah satu kelas di sekolah menengah atas (biasanya kelas 11). Namun, berbeda dengan NCLB,
pemerintah federal tidak akan menekan negara bagian untuk menggunakan tes tertentu dan tidak akan mewajibkan
konsekuensi khusus bagi sekolah yang tidak memenuhi standar negara bagian. Negara-negara akan diberi lebih
banyak otonomi untuk mengatur sistem penilaian dan akuntabilitas mereka sendiri.

2. Tujuan Akuntabilitas. Daripada hanya mengukur hasil pencapaian, negara bagian akan diminta untuk menetapkan
standar yang “menantang” dan memantau kemajuan berdasarkan kriteria tambahan. Hal ini mencakup kemahiran
bahasa Inggris, kelulusan sekolah menengah atas, dan setidaknya satu indikator tambahan yang dipilih oleh negara,
seperti keterlibatan siswa, akses terhadap kursus lanjutan, atau iklim/keamanan sekolah (lihat Blad, 2016).

3. Sekolah Berkinerja Rendah. Di bawah NCLB, sekolah-sekolah yang mendapat nilai 5 persen terendah di negara
bagiannya dapat mengajukan permohonan Hibah Peningkatan Sekolah, yang menyediakan dana besar bagi sekolah
namun memerlukan perubahan besar, seperti memindahkan atau memecat kepala sekolah dan separuh staf. ESSA
menyediakan dana khusus untuk sekolah-sekolah berkinerja rendah tetapi menyerahkan tanggung jawab kepada
Koneksi 14.5
negara bagian, distrik, dan sekolah untuk merancang program mereka sendiri. Namun, bukti efektivitas program-
Lihat Bab 4 untuk
program ini harus ada. (Reformasi berbasis bukti akan dibahas nanti dalam bab ini.)
penjelasan kesenjangan
4. Pendanaan Judul I. Di bawah NCLB, sekolah-sekolah yang melayani banyak siswa kurang mampu menerima dana prestasi antara siswa mayoritas dan
tambahan untuk membantu mereka meningkatkan hasil bagi siswa-siswa tersebut. (Judul I dijelaskan di Bab 4.) minoritas.
ESSA akan melanjutkan pendanaan Judul I hanya dengan beberapa perubahan kecil.

TEORI MENJADI PRAKTEK


Mengajar Keterampilan Mengerjakan Tes

Karena tes terstandar menjadi semakin penting dalam evaluasi siswa, guru, dan sekolah, persiapan siswa untuk
mengikuti tes ini juga semakin penting.
Tentu saja, cara terbaik untuk mempersiapkan siswa menghadapi ujian adalah dengan mengajarkan materi
dengan baik (Salend, 2011; Schmidt & Cogan, 2009; Tileston & Darling, 2008). Namun, sekolah juga perlu
membantu banyak siswa agar paham terhadap ujian sehingga mereka dapat menunjukkan apa yang sebenarnya
mereka ketahui pada tes standar dan mendapatkan nilai setinggi mungkin.
Banyak masalah etika yang terlibat dalam membantu siswa mengerjakan tes standar dengan baik Koneksi 14.6
(Popham, 2014a; Salend, 2016). Misalnya, salah satu cara untuk membantu siswa mendapat nilai bagus adalah Untuk informasi lebih lanjut tentang

dengan mengetahui soal tes terlebih dahulu dan mengajari siswa jawabannya. Jelas sekali, ini curang. Kasus mengajarkan keterampilan

mengerjakan tes dalam konteks


yang lebih ambigu secara etis muncul ketika guru mengetahui mata pelajaran apa yang akan diujikan dan hanya
pengajaran kesadaran metakognitif
mengajarkan materi yang mereka tahu akan diuji. Misalnya, jika tes standar tidak menilai pengenalan angka
dan keterampilan belajar, lihat Bab 6.
Romawi, guru matematika mungkin melewatkan topik ini untuk menghabiskan lebih banyak waktu pada tujuan
yang akan diuji. Praktek ini dikritik sebagai “mengajar untuk menguji.” Namun, dapat juga dikatakan bahwa tidak
adil untuk menguji siswa pada materi yang belum diajarkan dan oleh karena itu pengajaran harus diselaraskan
dengan tes (Popham, 2014a; Tileston & Darling, 2008). Permasalahannya adalah tes terstandar hanya dapat
menilai sampel kecil dari seluruh tujuan yang diajarkan di sekolah, dan mengarahkan pengajaran ke arah tujuan
yang akan diuji, dengan mengesampingkan semua tujuan yang diajarkan di sekolah.

(lanjutan)

M14_SLAV4054_12e_SE_C14.indd 401 18/10/16 15:38


Machine Translated by Google

402 BAB EMPAT BELAS

yang lain, akan menghasilkan kurikulum yang sangat sempit. Karena godaan untuk membatasi instruksi pada isi tes yang

akan datang, maka penting untuk menjaga keamanan tes. Soal-soal tertentu dalam suatu tes tidak boleh dibagikan kepada
guru sebelum tanggal administrasi.

Selain mencocokkan konten instruksional dengan tujuan tes secara umum, ada banyak cara untuk membantu siswa

belajar agar dapat mengerjakan tes dengan baik secara umum. Penelitian telah menemukan bahwa siswa dapat diajar untuk

menjadi bijaksana dalam menghadapi ujian dan hal ini meningkatkan nilai ujian standar mereka (Bangert-Drowns, Kulik,

Kulik, & Morgan, 1991). Siswa juga dapat diajarkan strategi mengatasi kecemasan mereka terhadap ujian. Strategi-strategi

ini terkadang dapat membantu anak-anak menghadapi ujian dengan lebih percaya diri dan mengurangi stres (Flippo, 2008).

Pertanyaan telah diajukan mengenai efektivitas program yang mempersiapkan siswa untuk SAT. Karena SAT

mengukur keterampilan kognitif, mungkin diharapkan bahwa program pengajaran dapat meningkatkan skor. Konsensus di

antara para peneliti adalah bahwa pembinaan (terutama pembinaan jangka panjang) efektif untuk SAT, khususnya bagi

siswa yang berprestasi rendah (Becker, 1990), ketika fokusnya adalah pada keterampilan yang diukur oleh SAT.

Beberapa cara untuk membantu siswa mempersiapkan diri menghadapi tes terstandar adalah sebagai berikut

(lihat Flippo, 2008; Tileston & Darling, 2008).

1. Berikan siswa latihan dengan format item yang serupa. Misalnya saja jika suatu tes akan digunakan

format pilihan ganda, berikan siswa latihan dengan format serupa dalam kuis dan tes rutin di ruang kelas. Jika tes

akan menggunakan format yang tidak biasa seperti analogi verbal (misalnya, Besar:Kecil::Jujur: _______), berikan

siswa latihan dengan jenis soal ini.

2. Menyarankan agar siswa melewatkan soal-soal yang sulit atau memakan

waktu dan kembali lagi nanti.

3. Jika tidak ada penalti untuk menebak dalam suatu tes, anjurkan kepada

siswa agar mereka selalu mengisi beberapa jawaban. Jika ada penalti

untuk menebak, siswa hendaknya didorong untuk menebak hanya

jika mereka dapat mempersempit pilihan dengan menghilangkan


LabEd Saya
satu atau lebih pilihan.
Contoh Video 14.3
4. Menyarankan agar siswa membaca semua pilihan pada tes pilihan ganda
Di kelas ini, guru sedang
sebelum memilih salah satu. Terkadang ada lebih dari satu jawaban
mempersiapkan siswanya untuk
yang benar, namun salah satunya harus selalu menjadi jawaban yang
mengikuti tes standar di seluruh
lebih baik.
negara bagian pada akhir
5. Menyarankan kepada siswa agar mereka menggunakan seluruh waktu tahun. Bagaimana cara
yang ada. Jika mereka menyelesaikannya lebih awal, mereka harus terbaiknya mempersiapkan
mengulangi jawabannya. ujian tanpa mengorbankan validitas tesnya?

Standar Negara Inti Umum


Perubahan besar dalam pengujian dan akuntabilitas sedang terjadi di banyak negara bagian. Hal ini melibatkan penerapan Common
Core State Standards (CCSS) secara luas mulai tahun 2010, dan penilaian negara berdasarkan Common Core. Standar ini
dikembangkan oleh Asosiasi Gubernur Nasional dan Dewan Kepala Sekolah Negeri dengan dorongan dari pemerintahan Obama (lihat
Departemen Pendidikan AS, 2015). Awalnya, 46 negara bagian mendaftar untuk mengadopsi standar tersebut dan salah satu dari dua
penilaian yang selaras dengan standar tersebut, penilaian Smarter Balanced atau PARCC (Kemitraan untuk Penilaian Kesiapan
Perguruan Tinggi dan Karir). Namun, dalam beberapa tahun terakhir, banyak negara bagian yang tidak menerapkan penilaian ini dan
membuat penilaian sendiri, sementara negara bagian lainnya tidak menerapkan standar tersebut sama sekali.

Tujuan dari Common Core Standards adalah agar semua siswa dan sekolah di Amerika berupaya mencapai tujuan yang sama,
seperti yang biasa terjadi di negara-negara Eropa dan Asia yang secara rutin mendapat nilai.

M14_SLAV4054_12e_SE_C14.indd 402 27/10/16 16:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 403

lebih baik dibandingkan Amerika Serikat dalam penilaian internasional. Salah satu fokusnya adalah menghilangkan
perbedaan substansial antara satu negara bagian dengan negara bagian lainnya dalam hal standar dan kriteria kemahiran
dalam ujian negara bagian. Sebelum Common Core, skor yang dianggap mahir di satu negara bagian mungkin dinilai
jauh dari mahir di negara bagian tetangga (Schneider, 2015). Namun, dengan begitu banyak negara bagian yang
menghapuskan Standar Umum Negara Bagian, situasi ini tidak berubah sebanyak yang diharapkan banyak orang.
Namun, sebagian besar negara bagian masih menganut konsep yang lebih luas yaitu “standar siap kuliah dan karir,”
yang mungkin menggunakan atau tidak menggunakan penilaian berdasarkan Common Core State Standards (Departemen Pendidikan AS, 2015).
Perubahan terbesar yang dibawa oleh CCSS adalah sifat standar dan penilaian berdasarkan standar tersebut.
Common Core sangat menekankan penulisan, argumentasi, penalaran, dan penggunaan teknologi (Doorey, 2014;
Herman & Linn, 2014). Meskipun standar ini hanya berlaku untuk seni dan matematika bahasa Inggris/bahasa, sekolah
didorong untuk fokus pada membaca dan matematika sepanjang hari, mengajarkan (misalnya) strategi membaca untuk
teks faktual dalam IPS dan mengajarkan matematika yang relevan dalam sains. Standar seni dan matematika bahasa
Inggris/bahasa dirangkum dalam Tabel 14.1.

Antara penerbitan standar dan transisi ke tes berdasarkan standar tersebut, banyak panduan pengajaran
berdasarkan standar telah muncul (lihat, misalnya, Allyn, 2013; Cawn, 2015; Evenson dkk., 2013a, b; Pearson & Hiebert,
2015; Tomlinson & Imbeau, 2014).
Penerbit dan organisasi pengembangan staf kini menyediakan materi dan pelatihan yang selaras dengan Common Core
kepada sekolah (misalnya, Davis, 2014; Jensen & Nickelsen, 2013; Marzano, Yanoski, Hoegh, & Simms, 2013; Tibbals &
Bernhardt, 2015; Udelhofen, 2014 ).
Seperti yang diharapkan, standar Common Core mendapat beberapa kritik. Porter, McMaken, Hwang, dan Yang
(2011) membandingkan Common Core State Standards dengan standar negara-negara berkinerja tinggi dan negara
bagian AS dan menemukan sedikit tumpang tindih, dan hanya perbaikan kecil yang menekankan pada keterampilan
tingkat tinggi. Pihak lain setuju atau tidak setuju dengan penilaian ini (misalnya, Beach, 2011; Chandler, Fortune, Lovett,
& Scherrer, 2016; Cobb & Jackson, 2011; Dingman, Teuscher, Newton, & Kasmer, 2013; Ohler, 2013). Calfee dan Wilson
(2016) mengkritik keras standar literasi Common Core. Dietel (2011), mencatat niat penilaian Common Core untuk
menggunakan penilaian kinerja, mencatat sejarah mengecewakan penilaian kinerja dalam program akuntabilitas negara.
Terdapat permasalahan dalam mengadaptasi Common Core kepada siswa berkebutuhan khusus (Karten, 2016; Shah,
2012). Loveless (2012) serta Hess dan McShane (2013) bertanya-tanya apakah semua upaya yang dilakukan dengan
mengutak-atik standar negara bagian dan (sekarang) nasional yang mendominasi kebijakan pendidikan sejak tahun
1980an telah membawa perubahan, dan meramalkan nasib buruk bagi Common Core.

TABEL 14.1 • Fokus Standar Negara Inti Umum

Standar Matematika

1. Memahami masalah dan tekun menyelesaikannya.


2. Bernalar secara abstrak dan kuantitatif.
3. Membangun argumen yang masuk akal dan mengkritik alasan orang lain.
4. Model dengan matematika.
5. Gunakan alat yang tepat secara strategis.
6. Perhatikan ketelitian.
7. Cari dan manfaatkan struktur.

8. Carilah dan ungkapkan keteraturan dalam penalaran yang berulang-ulang.

Standar Seni Bahasa Inggris/Bahasa 1.

Menganalisis bagaimana dan mengapa individu, peristiwa, dan ide berkembang dan berinteraksi sepanjang teks.
2. Mengintegrasikan dan mengevaluasi konten yang disajikan dalam beragam format dan media, termasuk secara visual dan
secara kuantitatif dan juga kata-kata.
3. Membaca dan memahami teks sastra dan informasi yang kompleks secara mandiri dan mahir.
4. Mengembangkan dan memperkuat tulisan sesuai kebutuhan dengan merencanakan, merevisi, mengedit, menulis ulang, atau mencoba a
pendekatan baru.
5. Menggunakan teknologi, termasuk Internet, untuk memproduksi dan menerbitkan tulisan serta berinteraksi dan
berkolaborasi dengan orang lain.

6. Melaksanakan proyek penelitian jangka pendek dan berkelanjutan berdasarkan pertanyaan-pertanyaan terfokus,
yang menunjukkan pemahaman terhadap pokok bahasan yang sedang diselidiki.

Sumber: © Hak Cipta 2010. Pusat Praktik Terbaik Asosiasi Gubernur Nasional dan Dewan Kepala Pejabat Sekolah
Negeri. Seluruh hak cipta.

M14_SLAV4054_12e_SE_C14.indd 403 27/10/16 16:38


Machine Translated by Google

404 BAB EMPAT BELAS

Tes terkomputerisasi, yang digunakan dalam tes PARCC, juga telah dikritik oleh banyak orang (Gullen, 2014), dan siswa
diketahui mendapat nilai lebih rendah pada tes terkomputerisasi dibandingkan tes serupa yang dilakukan di atas kertas
(Herold, 2016).
Apa pun validitas dari kekhawatiran ini, Common Core telah merangsang perbincangan nasional tentang apa yang
layak untuk diajarkan dan tentang bagaimana menjadikan guru melampaui bentuk pengajaran yang sudah lazim “Saya
bersedia, kami bersedia, Anda bersedia” (Ferguson, 2013; Phillips & Wong, 2012). Penilaian CCSS cenderung lama
(hingga 10 jam) dan sulit (Doorey, 2014; Gewirtz, 2013; Herman & Linn, 2014), dan tes PARCC memerlukan penggunaan
komputer dalam pengujian itu sendiri. Mungkin perlu waktu sebelum kita mengetahui apakah standar dan penilaian baru ini
akan meningkatkan hasil belajar siswa, namun hal ini tentu saja mengguncang segalanya!

TEORI MENJADI PRAKTEK


Tes Seimbang dan PARCC yang Lebih Cerdas

Dalam gerakan nasional menuju standar kesiapan perguruan tinggi dan karir, beberapa negara bagian
mengadopsi salah satu dari dua penilaian Common Core (Smarter Balanced atau PARCC), dan negara bagian
lainnya mencontohkan penilaian negara bagian mereka berdasarkan standar tersebut. Gambar 14.6 dan 14.7
masing-masing menunjukkan contoh yang mengilustrasikan item matematika dan bahasa Inggris/seni bahasa,
dari tes Smarter Balanced.

GAMBAR 14.6 • Contoh Soal Matematika Seimbang yang Lebih Cerdas


Sumber: Digunakan dengan Izin dari Smarter Balanced Assessment Consortium, UCLA

M14_SLAV4054_12e_SE_C14.indd 404 27/10/16 16:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 405

GAMBAR 14.7 • Contoh Pertanyaan ELA yang Lebih Cerdas dan Seimbang
Sumber: Digunakan dengan Izin dari Smarter Balanced Assessment Consortium, UCLA

Reformasi Berbasis Bukti


Penelitian di bidang pendidikan selalu menghasilkan wawasan dan saran untuk praktik, namun dalam beberapa tahun
terakhir, jalur penelitian-ke-praktik telah diperkaya secara signifikan. Program spesifik di setiap mata pelajaran dan tingkat
kelas semakin banyak dievaluasi dalam eksperimen besar yang membandingkan sekolah yang menggunakan program
tersebut dengan sekolah yang tetap menggunakan praktik tradisional. Seringkali sekolah, guru, atau siswa ditugaskan
secara acak untuk menerima perlakuan eksperimental atau sebagai kelompok kontrol.

Reformasi berbasis bukti menghasilkan banyak program yang dapat diterapkan oleh sekolah dengan percaya
diri. Ini termasuk program membaca dasar dan menengah, matematika, dan sains; program untuk pembaca yang
kesulitan; program untuk pelajar bahasa Inggris; aplikasi teknologi; dan banyak lagi. Pendidik dapat mengetahui program-
program yang telah terbukti dalam pendidikan di situs web pemerintah, http://ies.ed.gov/ncee/wwc/, atau di situs
Universitas Johns Hopkins, www.bestevidence.
organisasi. Clearinghouse ini seperti Consumer Reports bagi para pendidik. Hal ini membantu para pendidik membuat
pilihan yang bijaksana bagi anak-anak mereka, sehingga mereka dapat meningkatkan peluang siswa untuk memenuhi
standar ambisius dari Common Core dan standar kesiapan perguruan tinggi dan karier lainnya.
ESSA mendorong penggunaan program-program yang memiliki bukti efektivitas yang “kuat”, “moderat”, atau
“menjanjikan”. Secara khusus, program yang digunakan di sekolah yang menerima hibah karena prestasi yang sangat
rendah harus mempunyai bukti efektivitas, dan proposal pendanaan dari beberapa sumber federal memenuhi syarat untuk
mendapatkan poin tambahan jika mereka mengusulkan untuk menggunakan program yang telah terbukti.

M14_SLAV4054_12e_SE_C14.indd 405 27/10/16 16:38


Machine Translated by Google

406 BAB EMPAT BELAS

BAGAIMANA ANDA DAPAT MENGGUNAKAN DATA UNTUK


INFORMASIKAN PENGAJARAN ANDA?

Gerakan akuntabilitas telah menyebabkan banyak upaya untuk menggunakan data untuk memberi informasi kepada para pendidik
tentang kinerja siswa, guru, dan sekolah melebihi apa yang diwajibkan oleh masing-masing negara bagian.

Penilaian Tolok Ukur


Di sekolah-sekolah Amerika yang terobsesi dengan ujian, Anda mungkin mengira hal terakhir yang kita perlukan adalah lebih banyak
ujian. Namun banyak distrik dan negara bagian yang menyelenggarakan penilaian patokan yang menilai anak-anak tiga, lima, atau
bahkan delapan kali setahun, biasanya dalam bidang membaca dan matematika.
Popularitas penilaian benchmark mudah dimengerti. NCLB meningkatkan tekanan besar pada sekolah untuk meningkatkan nilai
ujian negara mereka. Namun ujian negara diberikan terlalu jarang dan skornya datang terlambat sehingga tidak berguna dalam
menyesuaikan kebijakan atau praktik pengajaran. Misalnya, sebagian besar negara bagian melakukan tes pada musim semi. Pada saat
skor dilaporkan, saat itu musim panas atau musim gugur. Sebuah sekolah mungkin mengetahui pada bulan Juli bahwa nilai
matematikanya bermasalah. Namun pada bulan Juli, sekolah telah mengerahkan sumber dayanya dan membuat rencana untuk tahun
mendatang.
Informasi dari nilai tes kelas empat, misalnya, tidak dapat bermanfaat bagi siswa kelas empat yang mengikuti tes tersebut dan mungkin
terlambat untuk memberikan manfaat yang besar bagi siswa kelas lima atau kelompok siswa kelas empat berikutnya.

Para pendidik telah lama memahami masalah ini dan telah lama mencari solusinya. Saat ini, tersedia beragam penilaian tolok
ukur yang dirancang untuk menghasilkan informasi awal yang berguna mengenai kemajuan siswa. Banyak daerah dan bahkan masing-
masing guru telah merancang dan menggunakan penilaian acuan mereka sendiri. Penilaian tolok ukur memungkinkan Anda
mengidentifikasi kinerja setiap siswa, kelas, subkelompok, dan sekolah dalam setiap tujuan yang dinilai oleh negara bagian dan
ditekankan dalam standar negara bagian dan distrik, sehingga Anda dapat menargetkan pengembangan dan reformasi profesional di
tempat yang paling membutuhkannya (Fogarty & Kerns, 2009; Odden & Archibald, 2009).

Penilaian tolok ukur dapat memungkinkan sekolah untuk mengukur “denyut nadi” pencapaian mereka, namun seperti dalam
bidang kedokteran, pengukuran denyut nadi tidak berarti penyembuhan. Yang penting adalah apa yang dokter dan pasien lakukan
selanjutnya. Demikian pula, penilaian tolok ukur memberi tahu sekolah ke mana mereka akan menuju dan ke mana mereka harus fokus,
namun penggunaan penilaian tolok ukur belum terbukti dapat meningkatkan prestasi siswa. Studi mengenai pemberian informasi
penilaian patokan ke sekolah menemukan dampak positif namun sangat kecil terhadap pembelajaran siswa (Konstantopoulos, Miller, &
VanderPloeg, 2013; Slavin, Cheung, Holmes, Madden, & Chamberlain, 2013).

Penilaian tolok ukur merupakan alat yang berguna di tangan para pendidik yang tercerahkan, namun tidak lebih dari sekadar
indikator pencapaian anak-anak saat ini. Sebagai bagian dari strategi komprehensif reformasi kabupaten dan sekolah, penilaian tolok
ukur dapat memainkan peran pendukung utama, namun hanya peran pendukung (Chappuis & Chappuis, 2007/2008). Jika kita ingin
menggunakan lebih banyak waktu kelas anak-anak kita yang berharga untuk ujian, kita harus menggunakan hasilnya secara cerdas dan
proaktif untuk meningkatkan pengajaran dan pembelajaran inti.

Reformasi Berbasis Data


Pergerakan menuju penggunaan penilaian benchmark adalah bagian dari tren yang lebih luas menuju penggunaan data untuk mendorong
reformasi di sekolah dan daerah (James-Ward, Fisher, Frey, & Lapp, 2013; Mandinach & Gummer, 2016; Mertler, 2014; Sykes & Wilson,
2016; Venables, 2014). Reformasi berbasis data
lebih dari sekadar melihat nilai ujian negara. Para pemimpin sekolah yang terlibat dalam reformasi tersebut mengatur informasi dari tes
negara bagian dan penilaian tolok ukur berdasarkan subketerampilan, subkelompok, tingkat kelas, dan kategori lainnya, menambahkan
informasi tentang kehadiran, program putus sekolah yang digunakan di sekolah, dan sebagainya untuk menemukan “akar penyebab”
dari masalah tersebut. masalah sekolah (Datnow & Park, 2015; Hamilton et al., 2008, 2009; Hess & Mehta, 2013; Mandinach & Gummer,
2016; Smith, Johnson, & Thompson, 2012).
Mereka selanjutnya dengan hati-hati mempertimbangkan solusi potensial terhadap permasalahan mereka, idealnya program yang
memiliki bukti efektivitas yang kuat (lihat Coalition for Evidence-Based Policy, 2003; Odden, 2009; Slavin et al., 2012; Towne, Wise, &
Winters, 2005); menerapkan solusi tersebut; lalu terus memantau benchmark dan menguji data untuk melihat apakah data tersebut
berfungsi.

M14_SLAV4054_12e_SE_C14.indd 406 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 407

TEORI MENJADI PRAKTEK


Reformasi Berbasis Data

Heritage dan Chen (2005) membahas pendekatan reformasi berbasis data yang menggunakan alat berbasis
web yang disebut Quality School Portfolio (QSP) untuk membantu pimpinan sekolah mengatur dan memahami
data. Mereka kemudian menjelaskan proses penggunaan data untuk memandu reformasi sekolah:

1. Tentukan apa yang ingin Anda ketahui. Reformasi berbasis data harus dimulai dengan permasalahan
yang ingin dipecahkan oleh para pendidik atau pertanyaan yang ingin mereka jawab. Tidak ada seorang pun
yang memperhatikan data yang tidak memberi tahu mereka sesuatu yang ingin mereka ketahui.

2. Kumpulkan data. Para pendidik yang terlibat dalam reformasi berbasis data mengorganisir data yang
ada dan mengumpulkan data baru untuk menjawab pertanyaan-pertanyaan yang mereka ajukan. Data tersebut
dapat mencakup tes negara dan benchmark, penilaian tambahan (seperti penilaian menulis atau pemecahan
masalah matematika yang bukan bagian dari tes negara), informasi tentang materi dan program yang digunakan
oleh guru, sikap guru dan siswa, atau apa pun. hal lain mungkin mempengaruhi keputusan mengenai reformasi
yang sedang dipertimbangkan (Bernhardt, 2005; Depascale, 2012).

3. Analisis hasil. Langkah selanjutnya adalah mengorganisasikan data, pertama-tama menghitung rata-
rata dan kemudian menggunakan data tersebut untuk menguji gagasan tentang apa yang menyebabkan masalah
yang coba dipecahkan oleh sekolah. Misalnya, bayangkan sebuah sekolah mempunyai nilai matematika yang
lebih rendah daripada yang seharusnya. Komite sekolah meninjau nilai ujian negara bagian dan nilai patokan
triwulanan, dan semuanya menyampaikan cerita yang sama: Nilainya rendah dan tidak ada peningkatan.
Mungkinkah guru tidak fokus pada semua keterampilan yang diujikan? Panitia melihat nilai pada bagian-bagian
tes (misalnya pecahan, geometri, soal cerita) dan menemukan bahwa nilai-nilai tersebut rendah secara
keseluruhan. Bisakah masalahnya hanya dipisah-pisahkan pada subkelompok tertentu? Panitia menilai skor
untuk anak laki-laki dan perempuan, orang Afrika-Amerika, Hispanik, dan kulit putih. Mereka melihat satu pola
yang mengejutkan: Anak perempuan tampaknya mempunyai kinerja yang sangat buruk. Panitia mengatur untuk
mengunjungi kelas dan melihat apa yang terjadi. Ketika mereka kembali mendiskusikan temuan mereka, mereka
memiliki perspektif baru terhadap data. Guru-guru di seluruh sekolah banyak memanfaatkan ceramah tradisional
dan pemecahan masalah, seperti yang disarankan oleh teks mereka. Di banyak kelas, sekelompok anak laki-laki
yang agresif mendominasi diskusi, sedangkan sebagian besar anak perempuan merasa bosan dan merasa
tersisih dari kegiatan kelas. Mereka menemukan kelas-kelas di mana sebagian besar anak perempuan tidak
pernah berpartisipasi dan tidak mengatakan satu hal pun dalam pelajaran yang berdurasi 50 menit tersebut.
Dengan menghubungkan data kuantitatif dengan observasi, panitia memutuskan bahwa masalahnya mungkin
metode pengajaran tidak melibatkan semua siswa.

4. Tetapkan prioritas dan tujuan. Dalam reformasi berbasis data, tidak cukup hanya sekedar mengetahui
data. Sekolah harus mengambil tindakan berdasarkan data. Hal ini dimulai dengan menetapkan prioritas dan
tujuan solusi yang mungkin dicoba oleh sekolah. Tujuan harus dapat diukur, terfokus pada prestasi siswa,
realistis, dan dapat dicapai (Bernhardt, 2005). Dalam kasus sekolah yang mempunyai soal matematika, komite
menetapkan tujuan untuk meningkatkan kinerja matematika semua siswa, dengan fokus khusus pada anak
perempuan, dan menyusun rencana untuk memantau secara ketat data patokan triwulanan.

5. Mengembangkan strategi. Langkah terpenting dalam reformasi berbasis data adalah mengembangkan
strategi spesifik untuk memecahkan permasalahan yang teridentifikasi. Pemimpin sekolah perlu
mempertimbangkan solusi potensial untuk masalah yang mereka amati. Misalnya, untuk memecahkan masalah
prestasi, sekolah mungkin melihat What Works Clearinghouse federal (ies.ed.gov) atau Best Evidence
Encyclopedia (bestevidence.org), yang keduanya merangkum tinjauan ilmiah penelitian program pendidikan.
untuk nilai pra-K hingga 12.

(lanjutan)

M14_SLAV4054_12e_SE_C14.indd 407 18/10/16 15:38


Machine Translated by Google

408 BAB EMPAT BELAS

Dalam kasus sekolah yang mempunyai masalah matematika, anggota komite melihat Ensiklopedia Bukti
Terbaik dan menemukan bahwa terdapat bukti bagus untuk pembelajaran kooperatif dalam matematika dasar. Mereka
beralasan hal ini dapat meningkatkan partisipasi seluruh siswa.
Mereka mencari pelatih lokal untuk mempersiapkan para guru dalam menggunakan pembelajaran kooperatif dalam
matematika, dan seiring berjalannya waktu, mereka mulai melihat nilai benchmark matematika mereka meningkat.
Kemudian, ketika nilai ujian negara kembali diumumkan, panitia senang melihat bahwa nilai matematika telah
meningkat untuk semua siswa, terutama untuk anak perempuan, yang kini sepenuhnya terlibat dengan matematika di semua kelas.
Allan Odden dan rekan-rekannya (Odden, 2009; Odden & Archibald, 2009) telah melakukan penelitian
terhadap sekolah dan distrik yang memperoleh hasil luar biasa dalam tes akuntabilitas negara.
Mereka menemukan bahwa sekolah dan daerah yang berhasil mengikuti jalur seperti yang baru saja digariskan.
Mereka memperhatikan data mereka sendiri dengan cermat, mengidentifikasi bidang-bidang yang membutuhkan,
memilih dan dengan hati-hati menerapkan program yang telah terbukti, dan terus menggunakan data untuk melacak
keberhasilan mereka dalam menerapkan strategi baru. Pusat Penelitian dan Reformasi Pendidikan (CRRE)
Universitas Johns Hopkins mengevaluasi program reformasi distrik semacam ini di 59 distrik dengan tingkat kemiskinan
tinggi di tujuh negara bagian dan menemukan kemajuan yang signifikan, terutama dalam bidang membaca (Slavin et
al., 2012). Namun, kemajuan tersebut tidak terlihat ketika alat analisis data mulai digunakan, namun ketika sekolah-
sekolah di kabupaten tersebut mulai memilih dan menerapkan program membaca dan matematika yang sudah terbukti.

Sistem Penilaian Nilai Tambah


Masalah utama dalam semua penilaian akuntabilitas adalah kenyataan bahwa sekolah tidak setara dalam memberikan masukan
siswa. Sekolah yang melayani wilayah dengan banyak siswa kurang beruntung atau pembelajar bahasa Inggris menghadapi
kesulitan yang lebih besar dalam mencapai standar dibandingkan sekolah yang melayani wilayah kelas menengah.
Salah satu solusi untuk masalah ini yang diadopsi oleh beberapa negara bagian adalah dengan fokus pada apa yang disebut
dengan penilaian nilai tambah, yaitu penentuan seberapa banyak pembelajaran yang telah ditambahkan sekolah kepada siswanya.
Yang paling dikenal luas adalah Sistem Penilaian Nilai Tambah Pendidikan (EVAAS), yang pertama kali digunakan di Tennessee
(sebagai TVAAS) dan kemudian diperluas ke beberapa negara bagian lainnya. Idenya adalah bahwa meskipun tidak semua
sekolah menghadapi tantangan yang sama dalam membuat siswanya lulus ujian negara, sekolah-sekolah tersebut dapat
dibandingkan secara lebih sah dalam hal sejauh mana mereka dapat memajukan siswanya dari bidang apa pun .
tingkat dasar pembelajaran yang mereka mulai (Jorgenson, 2012; Wiliam, 2010). Meskipun ide ini menarik, model nilai tambah
telah dikritik karena alasan teknis (misalnya, Amrein-Beardsley, 2008, 2009; Darling-Hammond dkk., 2012; McCaffrey, Lockwood,
Koretz, Louis, & Hamilton, 2004) karena berpotensi tidak akurat, gagal memperhitungkan faktor risiko siswa, dan menunjukkan
masalah lain. Sebuah penelitian yang membandingkan penilaian guru berdasarkan kepala sekolah dan model nilai tambah hampir
tidak menemukan korelasi (Harris, Ingle, & Rutledge, 2014). Kekhawatirannya adalah bahwa penggunaan nilai nilai tambah
sebagai dasar akuntabilitas tidak akan menyelesaikan masalah kesenjangan pada titik awal, karena sekolah-sekolah di komunitas
dengan SES rendah masih kecil kemungkinannya untuk mendapatkan nilai yang baik dalam ukuran nilai tambah. Baru-baru ini,
skor nilai tambah mulai digunakan sebagai bagian dari evaluasi guru, bukan hanya evaluasi sekolah, dan hal ini telah menimbulkan
kekhawatiran yang lebih bersifat teknis dan politis (Darling-Hammond, 2012; Scher rer, 2012; Wolk, 2010). American Educational
Research Association (2015) baru-baru ini mengeluarkan pernyataan tentang model nilai tambah (VAM) yang menetapkan
persyaratan teknis untuk penggunaannya. Sayangnya, hanya sedikit negara bagian yang menggunakan model nilai tambah yang
memenuhi standar ini, menurut AERA.

DI WEB
Untuk informasi lebih lanjut mengenai reformasi berbasis data, kunjungi What Works Clearinghouse
(ies.ed.gov), Best Evidence Encyclopedia (bestevidence.org), Pusat Penelitian dan Reformasi
Pendidikan (education.jhu.edu), dan Pusat Nasional untuk Penelitian Evaluasi, Standar, dan Pengujian
Siswa (CRESST) (cse.ucla.edu), The Education Trust (edtrust.org), atau Konsorsium Penelitian
Kebijakan dalam Pendidikan
(cpre.wceruw.org).

M14_SLAV4054_12e_SE_C14.indd 408 18/10/16 15:38


Machine Translated by Google

UJI STANDAR DAN AKUNTABILITAS 409

Pemeriksaan Mandiri MyEdLab 14.3

RINGKASAN

Istilah standar menggambarkan tes yang seragam dalam isi, administrasi, dan penilaian dan, oleh karena itu,
memungkinkan perbandingan hasil di seluruh ruang kelas, sekolah, dan distrik sekolah.
Tes standar seperti SAT dan CTBS mengukur kinerja atau kemampuan individu terhadap standar, atau norma,
yang telah ditetapkan untuk banyak siswa lain di distrik sekolah, negara bagian, atau negara tempat setiap tes
dirancang. Nilai tes standar digunakan untuk seleksi dan penempatan, seperti kenaikan kelas atau penerimaan
perguruan tinggi; untuk diagnosis dan remediasi; untuk evaluasi kemahiran atau kemajuan siswa dalam bidang
konten; dan untuk evaluasi strategi pengajaran, guru, dan sekolah.

Tes bakat, seperti tes kecerdasan umum dan tes multifaktor, memprediksi kemampuan umum siswa dan
persiapan untuk belajar. Tes IQ yang diberikan kepada individu atau kelompok berupaya mengukur bakat
individu dalam domain kognitif. Tes prestasi menilai kemahiran siswa dalam berbagai mata pelajaran. Tes
diagnostik berfokus pada materi pelajaran tertentu untuk menemukan kekuatan atau kelemahan dalam
penguasaan. Pengujian yang mengacu pada norma menafsirkan skor dibandingkan dengan skor orang lain
yang mengikuti tes, dan pengujian yang mengacu pada kriteria menafsirkan skor berdasarkan kriteria kinerja
tetap.

Skor yang diperoleh dari skor mentah meliputi persentil, persentase skor pada kelompok normal yang berada
di bawah skor tertentu; nilai yang setara, nilai dan bulan di mana skor tertentu dianggap mewakili kinerja
tipikal; dan skor standar, kinerja siswa dalam kaitannya dengan distribusi skor normal. Standar skor meliputi
stanine (berdasarkan standar deviasi skor), ekuivalen kurva normal (berdasarkan perbandingan skor dengan
distribusi normal), dan skor-z (letak skor di atas atau di bawah mean).

Tes dan soal tes harus mempunyai validitas, kualitas pengujian apa yang hendak diuji. Validitas prediktif
berarti bahwa tes tersebut secara akurat memprediksi kinerja masa depan. Reliabilitas berarti bahwa hasil tes
konsisten ketika tes dilakukan di tempat atau waktu yang berbeda. Bias tes dalam bentuk apa pun
membahayakan validitas. Persoalan lain yang berkaitan dengan ujian terstandar mencakup etika dalam isi
ujian, persiapan siswa untuk ujian, penggunaan nilai ujian, hubungan ujian dengan kurikulum, dan administrasi
ujian melalui komputer.

Pendidik semakin dimintai pertanggungjawaban atas prestasi siswa. Nilai ujian sering kali digunakan dalam
keputusan tentang perekrutan, pemecatan, dan promosi pendidik. Kritikus mengatakan bahwa meminta
pertanggungjawaban guru atas perolehan siswa (1) tidak adil karena titik awal siswa yang berbeda dan (2)
dapat mendorong pengajaran untuk ujian atau mengadopsi kebijakan yang secara artifisial meningkatkan nilai
standar. Salah satu keuntungan akuntabilitas adalah meningkatkan tekanan pada sekolah untuk memberikan
perhatian kepada siswa yang mungkin akan gagal. Karena tes akuntabilitas didasarkan pada standar tentang
apa yang harus dipelajari, tes ini dapat membantu memperjelas tujuan pembelajaran.

M14_SLAV4054_12e_SE_C14.indd 409 18/10/16 15:38


Machine Translated by Google

410 BAB EMPAT BELAS

GURU YANG SENGAJA


Menggunakan Apa yang Anda Ketahui tentang Standar
Tes untuk Meningkatkan Pengajaran dan Pembelajaran

Guru yang intensional mengetahui bahwa tes terstandar dapat memberikan beberapa—walaupun terbatas—
informasi tentang bagaimana kinerja guru, sekolah, dan siswa. Mereka dapat menafsirkan skor standar
dan menggunakan hasil tes standar untuk pengambilan keputusan.
Guru yang disengaja mengandalkan langkah-langkah penilaian lain untuk melengkapi gambaran rumit
pembelajaran siswa.

• Mereka memahami bagaimana dan mengapa tes standar dilakukan dan mengetahui kegunaannya
dan keterbatasan.

• Mereka memahami bagaimana berbagai jenis tes standar


digunakan untuk tujuan yang berbeda-beda.
• Mereka dapat menafsirkan laporan yang diberikan dengan
hasil tes yang terstandarisasi.

• Mereka memahami bagaimana tes dapat diandalkan dan


valid, dan bagaimana menghindari bias dalam konstruksi tes.

• Mereka memahami bagaimana kebijakan nasional dan negara


bagian mempengaruhi pengujian akuntabilitas. LabEd Saya

• Mereka tahu bagaimana membantu siswa mempersiapkan diri Latihan Penerapan 14.1

menghadapi ujian terstandar tanpa membiarkan tanggung Dalam teks Pearson, tonton
video kelas. Kemudian gunakan
jawab ini mendominasi pengajaran mereka.
pedoman dalam “Yang Disengaja
• Mereka mengetahui bagaimana akomodasi dibuat untuk
Guru” untuk menjawab serangkaian
menguji siswa penyandang disabilitas dan pembelajar
pertanyaan yang akan membantu
bahasa Inggris.
Anda merenungkan dan memahami
• Mereka tahu bagaimana menggunakan data patokan untuk pembelajaran yang disajikan
menginformasikan perencanaan pengajaran dan sekolah mereka. dalam video tersebut.

ISTILAH UTAMA

Tinjaulah istilah-istilah kunci berikut dari bab ini.

baterai prestasi 388 bukti terkait kriteria 396


tes prestasi 387 skor batas 399
tes bakat 386 reformasi berbasis data 406
penilaian patokan 406 skor turunan 390
bias 397 tes diagnostik 389
usia kronologis 387 bukti diskriminan 396
Standar Siap Perguruan Tinggi dan Karir 403 skor setara kelas 390
Standar Inti Umum Negara (CCSS) 402 intelijen 387
adaptif komputer 398 usia mental 387
bukti bersamaan 396 baterai bakat multifaktor 388
bukti isi 396 Tidak Ada Anak Tertinggal (NCLB) 396

M14_SLAV4054_12e_SE_C14.indd 410 27/10/16 16:39

Anda mungkin juga menyukai