Anda di halaman 1dari 5

dan satu ucapan selamat tinggal.

Apakah kita begitu yakin bahwa perbedaan antara kedua siswa


ini (dan juga teman sekelas mereka) cukup besar dapat andal membedakan antara dan di antara
mereka? (Kita juga dapat bertanya apakah kita yakin bahwa peringkat sekolah menengah adalah
ukuran yang valid tentang apa artinya menjadi sukses di sekolah menengah, tetapi itu adalah
masalah lain.) Semakin banyak personil sekolah menengah tampaknya tidak begitu yakin.
Mereka telah meninggalkan penunjukan mengucapkan pidato perpisahan dan satu ucapan
selamat tinggal demi kelompok siswa berprestasi sangat tinggi (mis., 10% teratas).

Pengembang tes referensi-rujukan komersial mengakui kesalahan nilai siswa pada ujian.
Akibatnya, mereka melaporkan band peringkat persentil, yang mempertimbangkan berbagai
sumber kesalahan. Pelajaran yang dapat dipetik dari diskusi ini adalah bahwa skor yang menjadi
dasar interpretasi yang direferensikan berdasarkan norma kami tidak setepat seperti kelihatannya
atau seperti yang kita inginkan. Ini bukan untuk menyarankan mereka tidak berguna. Kesalahan
melekat dalam semua bentuk penilaian. Sebaliknya, ini menunjukkan bahwa mereka harus
ditafsirkan dengan benar dan digunakan dengan hati-hati.

Komposisi Sampel Normatif atau Grup Referensi.

Karena nilai siswa ditafsirkan relatif terhadap nilai siswa lain, penting untuk mengetahui
sesuatu tentang siswa lain. Dalam kasus yang jarang terjadi, sampel normatif dipilih secara acak
dari beberapa populasi yang terdefinisi dengan baik. Sebaliknya, penerbit tes komersial
bergantung pada administrator distrik sekolah untuk menjadi sukarelawan siswa mereka untuk
berpartisipasi dalam program pengujian. Akibatnya, sebelum interpretasi yang bermakna dapat
dibuat, beberapa pertanyaan tentang sampel normatif, kelompok norma, atau kelompok referensi
harus ditanyakan (dan dijawab). Mungkin pertanyaan yang paling penting menyangkut
komposisi sosial ekonomi dari sampel normatif. Ada banyak penelitian yang menghubungkan
status sosial ekonomi (SES) dengan prestasi siswa, terutama ketika data dikumpulkan di tingkat
sekolah dan distrik sekolah. Misalkan, misalnya, 65% dari siswa di kelas Anda memenuhi syarat
untuk makan siang gratis atau dengan potongan harga. Sebaliknya, hanya 30% dari siswa dalam
sampel normatif yang memenuhi syarat untuk makan siang gratis atau potongan harga. Anda
harus bertanya pada diri sendiri apakah membandingkan prestasi siswa Anda dengan sampel
normatif adalah perbandingan yang berarti.
Salah satu solusi untuk masalah ini adalah membuat perbandingan dengan beberapa
kelompok referensi karena setiap perbandingan berkontribusi pada pemahaman kita secara
keseluruhan. Perbandingan dengan siswa di sekolah, siswa di distrik, siswa di negara bagian,
siswa di negara ini, siswa yang cenderung mendaftar di perguruan tinggi, siswa yang
kemungkinan putus sekolah, semua ini berpotensi meningkatkan pemahaman kita tentang makna
nilai siswa.

PERBANDINGAN DENGAN STANDAR PRESET

Ada standar, dan ada standar. Artinya, ada standar yang hampir identik dengan tujuan
(sebagaimana disebutkan dalam bab 1), dan ada standar yang menunjukkan tingkat kinerja yang
diinginkan atau diharapkan (seperti istilah yang digunakan dalam bab ini). Banyak upaya telah
dilakukan untuk meminimalkan kebingungan yang disebabkan oleh penggunaan standar dalam
dua cara berbeda. Beberapa membedakan antara standar konten dan standar kinerja; lainnya,
antara standar dan tolok ukur. Fokus diskusi di bagian ini adalah pada jenis standar yang
terakhir; yaitu, standar kinerja atau tolok ukur. Ketika istilah standar digunakan dengan cara ini,
itu menyarankan dikotomi. Entah seorang siswa telah memenuhi standar atau dia belum.
Masalah sebenarnya dalam membuat perbandingan dengan standar yang telah ditetapkan, adalah
bagaimana cara menetapkan standar yang dapat dipertahankan.

Standar Sejarah

Seorang siswa menulis esai yang mengumpulkan 94 poin dari gurunya. Nilai apa yang harus
diterima siswa ini? "A" jelas. Bagaimana kami bisa tahu? Karena, secara historis, 94 telah
digunakan untuk membagi "As" dari "Bs." Jika kita telah menggunakan standar di masa lalu,
seberapa buruk itu? Setelah semua, pengadilan di seluruh tanah kami telah menggunakan
preseden historis untuk membenarkan sejumlah keputusan mereka.

Standar Sewenang-wenang

Dalam banyak hal, standar historis agak arbitrer. Jika mereka bermakna pada satu waktu, kita
telah lupa mengapa mereka begitu. Di zaman modern, standar sewenang-wenang dapat
diilustrasikan oleh kebijakan toleransi nol saat ini yang mengatur senjata di sekolah. Dalam
konteks kebijakan ini, pisau steak dapat dianggap sebagai senjata, dan kepemilikan sederhana
pisau steak pada satu kesempatan, terlepas dari penggunaannya, dapat mengakibatkan
penskorsan atau pengusiran.

Standar sewenang-wenang cenderung dibuat oleh sekelompok kecil orang (mis. Dewan sekolah)
yang telah diberi wewenang untuk membuat keputusan bagi mayoritas. Kadang-kadang satu
individu menetapkan standar, seperti dalam kasus guru kelas: "Anda hanya dapat mempertajam
pensil Anda satu kali per periode kelas."

Standar sewenang-wenang umumnya disertai dengan niat baik. Dewan sekolah ingin
meminimalkan kekerasan di sekolah; guru ingin meminimalkan pengembaraan tanpa tujuan di
kelas. Selain itu, standar arbitrer dapat mengarah pada hasil positif (mis., Penurunan senjata yang
didefinisikan secara luas-dibawa ke sekolah, peningkatan waktu untuk tugas di kelas). Dengan
demikian, standar sewenang-wenang tidak perlu buruk; mereka hanya sewenang-wenang.

Standar Yang Dipertimbangkan

Standar yang dipertimbangkan ditetapkan ketika kelompok orang berkumpul untuk berbicara,
berdiskusi, dan berunding tentang standar yang harus ditetapkan. Dalam menetapkan standar
pada berbagai penilaian berisiko tinggi, misalnya, orang dapat disatukan untuk memeriksa tugas
individu yang termasuk dalam penilaian.

Mereka mungkin diminta untuk menentukan berapa banyak opsi respons pada setiap tugas yang
termasuk dalam tes pilihan ganda dapat dihilangkan oleh siswa yang tahu sedikit tentang konten
atau tujuan yang dinilai (Nedelsky, 1954). Hasilnya adalah peluang untuk mendapatkan setiap
item yang benar dengan menebak. Misalnya, jika seorang siswa dapat menghilangkan dua opsi
respons pada item pilihan ganda empat pilihan sebagai sesuatu yang jelas salah, peluangnya
untuk mendapatkan item itu benar dengan menebak adalah salah satu dari dua atau 50%.
Persentase yang dihasilkan ini dijumlahkan di semua item membentuk standar kinerja minimal.

Atau, mereka mungkin diminta untuk menentukan proporsi kelompok siswa yang memiliki
kompetensi minimal yang mungkin merespons dengan benar untuk setiap tugas (Angoff, 1971).
Standar kinerja dalam hal ini adalah jumlah dari persentase ini.

Pendekatan lain, yang tidak memerlukan pemeriksaan item-per-item, adalah meminta guru untuk
mengidentifikasi siswa yang mereka yakini dan belum menguasai tujuan yang dinilai. Dua
distribusi skor disiapkan: satu untuk yang ditunjuk sebagai master dan yang lainnya untuk yang
ditunjuk sebagai bukan master. Titik potong antara dua distribusi skor ini dipilih sebagai standar
kinerja (Berk, 1976). Terlepas dari prosedur yang digunakan, perhatian yang cermat diberikan
untuk setiap tugas penilaian karena berkaitan dengan satu atau lebih kelompok siswa atau dengan
tingkat pencapaian yang dirasakan siswa. Standar yang dipertimbangkan adalah kemajuan dari
standar yang sewenang-wenang karena orang-orang berkumpul untuk membicarakannya. Alih-
alih menghasilkan proses top-down atau serigala sendirian, mereka muncul sebagai hasil dari
proses bottom-up. Artinya, mereka didasarkan pada kekhawatiran dan pendapat dari mereka
yang paling mungkin terkena dampak oleh standar.

Standar Berorientasi Sukses

Seperti namanya, standar berorientasi keberhasilan adalah standar yang ditetapkan sedemikian
rupa untuk meningkatkan peluang keberhasilan siswa di masa depan. Sebagian besar pendekatan
untuk pengaturan standar memiliki orientasi di sini dan sekarang. Yaitu, berdasarkan apa yang
saya ketahui tentang siswa saya dan instrumen penilaian, tingkat kinerja apa yang akan saya
terima sebagai indikasi bahwa siswa saya telah belajar apa yang saya harapkan mereka pelajari?
Ini adalah pertanyaan yang wajar untuk diajukan dalam konteks berorientasi saat ini. Ada
pertanyaan lain yang bisa ditanyakan, namun satu-dengan orientasi masa depan. Tingkat kinerja
apa yang perlu dicapai oleh siswa saya pada instrumen penilaian ini untuk memiliki peluang
terbaik untuk berhasil dalam tugas pembelajaran dan penilaian di kemudian hari? Ini adalah
pertanyaan yang lebih sulit untuk ditanyakan sebagian karena memerlukan informasi
longitudinal (mis., Informasi yang dikumpulkan pada siswa yang sama dari waktu ke waktu).
Namun, kita dapat melihat nilai dari pengaturan standar yang berorientasi pada keberhasilan
dengan mempertimbangkan sebuah contoh.

Hampir setiap orang menerima bahwa perkembangan bahasa awal merupakan kunci
keberhasilan pendidikan jangka panjang. Good, Simmons, aad Kame'enui 2001) melakukan
serangkaian penelitian yang meneliti perubahan dalam kelancaran membaca oral (ORF) selama
kelas awal (1-3) serta hubungan antara ORF tingkat tiga dan kinerja pada Oregon Statewide
Assessment (OSA). Data yang mereka kumpulkan memberikan ilustrasi baik yang dijanjikannya
dalam menetapkan standar yang berorientasi pada keberhasilan maupun prosedur yang terlibat
dalam menetapkannya.
Good, Simmons, dan Kame'enui menilai ORF lebih dari 300 siswa pada akhir kelas tiga dan
kemudian membandingkan skor ORF mereka dengan skor mereka pada OSA. Untuk menilai
ORF, Tes Lancar Membaca Lisan (TORF; Layanan Pendidikan Anak-Anak, 1987) secara
individual diberikan. Siswa diminta untuk membacakan masing-masing dari tiga bagian dengan
lantang selama 1 menit. Kata-kata yang dihapus, kata yang diganti, dan keraguan lebih dari 3
detik dinilai sebagai kesalahan. Jika seorang siswa mengoreksi diri dalam 3 detik, kesalahan
awal tidak dihitung. Jumlah rata-rata kata yang tepat per menit dari tiga bagian digunakan
sebagai tingkat ORF. Ringkasan grafik dari hasil ditunjukkan pada Gambar 6.2. Skor OSA
ditunjukkan pada dimensi vertikal, dan skor TORF ditunjukkan pada dimensi horizontal.

Beberapa informasi diperlukan untuk memahami grafik. Pertama, Negara Bagian Oregon telah
menetapkan standar yang telah ditetapkan pada OSA. Siswa harus mendapatkan skor 201 agar
mereka dapat memenuhi harapan. Selanjutnya, siswa yang mencapai skor 215 dikatakan
melebihi harapan. Kedua standar kinerja ini ditunjukkan sebagai garis vertikal tebal pada
Gambar 6.2. Masalahnya, kemudian, adalah untuk menetapkan standar pada TORF sedemikian
rupa sehingga siswa yang mencapai standar sangat mungkin untuk berhasil di OSA (yaitu,
mereka memenuhi atau melampaui harapan).

Dua kemungkinan standar kinerja ditunjukkan pada Gambar 6.2 dengan garis vertikal tebal.
Semakin rendah dari kedua standar ini setara dengan skor TORF 70. Siswa yang mencapai skor
ini dapat membaca dengan suara keras pada tingkat 70 kata per menit tanpa kesalahan (atau agak
lebih dari 70 kata per menit ketika kesalahan dibuat). Semakin tinggi kedua standar ini setara
dengan skor TORF 110. Ini sesuai dengan tingkat pembacaan lisan 110 kata per menit tanpa
kesalahan (atau, sekali lagi, sedikit lebih tinggi

Anda mungkin juga menyukai