Anda di halaman 1dari 48

menilai

belajar melalui
standar
pengujian

APA JENIS TES DISTANDARISASI


ADA?
Tes standar yang diberikan kepada sampel besar siswa (misalnya, nasional) di bawah
kondisi yang sama, termasuk instruksi tes, lingkungan pengujian, jumlah
waktu untuk mengikuti tes, dan prosedur penilaian. Tidak seperti tes buatan guru atau tes
bank termasuk dalam buku pelajaran, tes standar hanya dapat dibeli dari penerbit uji
oleh orang-orang yang memenuhi syarat untuk menggunakannya. Tes standar merupakan bagian yang
tidak terpisahkan dari
Sistem pendidikan AS dan dapat melayani fungsi yang berbeda. Salah satu fungsi penting adalah untuk
memberikan penilaian yang obyektif prestasi siswa di seluruh negeri sehingga keputusan
pada seleksi dan penempatan dalam program pendidikan tertentu dapat dibuat
(Brennan, Kim, Wenz-Gross, & Siperstein, 2001). Ketika keputusan ini didasarkan pada
skor dirancang dengan baik tes standar, mereka adil dan dibenarkan karena semua
siswa mengikuti tes yang sama di bawah kondisi yang sama. Misalnya, penerimaan perguruan tinggi
petugas dapat membuat keputusan dengan menggunakan uji Assesment (SAT)
dan American College Testing Program (ACT) puluhan siswa yang mungkin datang
dari berbagai latar belakang, daerah, dan sekolah tinggi di negara ini.
Fungsi penting lainnya dari tes prestasi standar adalah untuk memberikan informasi
tentang efektivitas sekolah kepada orang tua, anggota dewan sekolah, dan negara bagian dan federal
pejabat (Linn & Miller, 2005). Semua 50 negara memiliki penilaian standar tahunan
prestasi siswa yang bertujuan untuk menentukan apakah siswa dipromosikan ke
kelas, apakah guru dan kepala sekolah menerima imbalan keuangan atau penurunan pangkat,
dan apakah sekolah menerima dukungan finansial dari pemerintah negara bagian atau federal. Karena
hasil tes ini digunakan untuk menahan para siswa, guru, dan administrator sekolah
jawab atas prestasi dan dapat mengakibatkan konsekuensi serius, mereka
biasanya disebut tes berisiko tinggi.
Hasil tes standar juga memiliki fungsi evaluasi, seperti membantu mengidentifikasi
daerah yang perlu perbaikan atau menilai keberhasilan program pendidikan tertentu
(Hopkins, 1998; Schmoker, 1999). Sebagai contoh, sebuah distrik sekolah di Pennsylvania
menerapkan metode berbasis penyelidikan baru untuk membantu sekolah menengah siswa
belajar ilmu
tahun ini. Distrik sekolah dapat membandingkan nilai tes standar dari terakhir
tahun dan tahun ini untuk menentukan perubahan dalam prestasi siswa. Namun, ingat
dari Bab 12 yang standar tes memberikan informasi hanya parsial untuk mengevaluasi
mengajar efektivitas. Oleh karena itu, hasil tes perlu dipertimbangkan dalam hubungannya
dengan bentuk-bentuk penilaian kelas.
Akhirnya, tes standar dapat memiliki fungsi diagnostik, yang terdiri dari identifikasi
kekuatan dan kelemahan siswa dalam bidang konten tertentu (Popham, 2005).
Seorang mahasiswa yang tidak melakukan seperti yang diharapkan mungkin diberikan baterai
standar
tes untuk menentukan apakah ia / dia memiliki ketidakmampuan belajar atau exceptionality lain.
dalam
Pada bagian berikutnya, kita meninjau jenis yang paling umum dari tes standar yang digunakan
dalam
sekolah, termasuk bakat, prestasi, diagnostik, dan tes kesiapan.

Tes aptitude
Bakat adalah kemampuan dalam bidang domain tertentu yang berkembang dari waktu ke waktu. Tes
bakat adalah
dirancang untuk menilai kemampuan atau keterampilan siswa dan digunakan untuk memprediksi
prestasi akademik di masa depan
dalam domain diuji. Tes bakat khusus meliputi tes bakat musik,
pemahaman mekanik, keterampilan kognitif (yaitu, pemahaman, penalaran) serta
Tes Differential Aptitude (Bennett, Seashore, & Wesman, 1984), yang dirancang untuk mengukur
siswa SMA dan orang dewasa 'bakat untuk berhasil dalam bidang profesional tertentu.
Tes bakat yang paling umum diberikan dalam sekolah tes kecerdasan, yang
Dianggap tes bakat umum untuk belajar di sekolah. Misalnya, setelah mencoba yang berbeda
strategi prereferral, Mr Madon menyimpulkan bahwa satu-satunya cara untuk menjaga Juana ontask
adalah untuk memberikan kegiatan pembelajaran yang jauh melampaui tingkat kelas lima khas.
Dalam konsultasi dengan tim multidisiplin, keputusan dibuat untuk mengelola kecerdasan
tes untuk memeriksa kemungkinan bahwa Juana dapat berbakat. Juana diterima sangat tinggi
skor di semua bidang tes, menunjukkan bahwa potensi akademik nya bisa lebih baik dilayani
oleh gifted program sekolah.
Tes kecerdasan dapat diberikan baik secara individu maupun kelompok. individu
tes kecerdasan dikelola dan ditafsirkan oleh psikolog terlatih. contoh
dari tes kecerdasan individu adalah Scales Stanford-Binet Intelligence
(Thorndike, Hagen, & Sattler, 1986), yang dapat digunakan dengan anak-anak berumur dua
tahun dan sampai dewasa. Contoh lain adalah serangkaian tes yang dikembangkan oleh
Wechsler (1974, 1991), yang meliputi skala yang berbeda untuk rentang usia yang berbeda:
Wechsler Adult Intelligence Scale (WAIS III), Skala Wechsler Intelligence untuk
Anak-anak (WISC III), dan Wechsler Preschool dan Skala Primer Intelijen
(WPPSI). Skala Wechsler menghasilkan skor keseluruhan dan skor verbal dan kinerja.
Gambar 13.1 menunjukkan contoh barang dari tes Wechsler.
Tes kecerdasan lain individu adalah Baterai Kaufman Assessment untuk
Anak-anak (Kaufman & Kaufman, 1983), Kemampuan Differential Timbangan (DAS-II), dan
Potensi Perangkat Penilaian Pembelajaran (LPAD, Feuerstein, 1979), yang dirancang untuk menilai
perbedaan antara kapasitas siswa untuk belajar dan kemampuan maju mereka.
Tes kecerdasan kelompok yang lebih praktis daripada tes kecerdasan individual
karena mereka dirancang untuk menilai beberapa siswa secara bersamaan dalam beberapa jam
dan administrasi tidak perlu dilakukan oleh psikolog terlatih. Namun,
karena mereka cenderung tidak seakurat tes kecerdasan individual, beberapa negara melakukan
tidak mengurus mereka. Contoh tes kecerdasan kelompok adalah Uji Henmon-Nelson
dari Kemampuan Mental dan Kemampuan Otis-Lennon Sekolah Uji (OLSAT). ingat dari
Tinggi Stakes Tes
Tes yang memberikan hasil yang dapat
digunakan untuk menyimpan siswa, guru, dan
administrator sekolah bertanggung jawab
untuk berprestasi dan yang mungkin
Hasil di Tes consequencesAptitude serius
Bakat adalah kemampuan dalam bidang domain tertentu yang berkembang dari waktu ke waktu. Tes
bakat adalah
dirancang untuk menilai kemampuan atau keterampilan siswa dan digunakan untuk memprediksi
prestasi akademik di masa depan
dalam domain diuji. Tes bakat khusus meliputi tes bakat musik,
pemahaman mekanik, keterampilan kognitif (yaitu, pemahaman, penalaran) serta
Tes Differential Aptitude (Bennett, Seashore, & Wesman, 1984), yang dirancang untuk mengukur
siswa SMA dan orang dewasa 'bakat untuk berhasil dalam bidang profesional tertentu.
Tes bakat yang paling umum diberikan dalam sekolah tes kecerdasan, yang
Dianggap tes bakat umum untuk belajar di sekolah. Misalnya, setelah mencoba yang berbeda
strategi prereferral, Mr Madon menyimpulkan bahwa satu-satunya cara untuk menjaga Juana ontask
adalah untuk memberikan kegiatan pembelajaran yang jauh melampaui tingkat kelas lima khas.
Dalam konsultasi dengan tim multidisiplin, keputusan dibuat untuk mengelola kecerdasan
tes untuk memeriksa kemungkinan bahwa Juana dapat berbakat. Juana diterima sangat tinggi
skor di semua bidang tes, menunjukkan bahwa potensi akademik nya bisa lebih baik dilayani
oleh gifted program sekolah.
Tes kecerdasan dapat diberikan baik secara individu maupun kelompok. individu
tes kecerdasan dikelola dan ditafsirkan oleh psikolog terlatih. contoh
dari tes kecerdasan individu adalah Scales Stanford-Binet Intelligence
(Thorndike, Hagen, & Sattler, 1986), yang dapat digunakan dengan anak-anak berumur dua
tahun dan sampai dewasa. Contoh lain adalah serangkaian tes yang dikembangkan oleh
Wechsler (1974, 1991), yang meliputi skala yang berbeda untuk rentang usia yang berbeda:
Wechsler Adult Intelligence Scale (WAIS III), Skala Wechsler Intelligence untuk
Anak-anak (WISC III), dan Wechsler Preschool dan Skala Primer Intelijen
(WPPSI). Skala Wechsler menghasilkan skor keseluruhan dan skor verbal dan kinerja.
Gambar 13.1 menunjukkan contoh barang dari tes Wechsler.
Tes kecerdasan lain individu adalah Baterai Kaufman Assessment untuk
Anak-anak (Kaufman & Kaufman, 1983), Kemampuan Differential Timbangan (DAS-II), dan
Potensi Perangkat Penilaian Pembelajaran (LPAD, Feuerstein, 1979), yang dirancang untuk menilai
perbedaan antara kapasitas siswa untuk belajar dan kemampuan maju mereka.
Tes kecerdasan kelompok yang lebih praktis daripada tes kecerdasan individual
karena mereka dirancang untuk menilai beberapa siswa secara bersamaan dalam beberapa jam
dan administrasi tidak perlu dilakukan oleh psikolog terlatih. Namun,
karena mereka cenderung tidak seakurat tes kecerdasan individual, beberapa negara melakukan
tidak mengurus mereka. Contoh tes kecerdasan kelompok adalah Uji Henmon-Nelson
dari Kemampuan Mental dan Kemampuan Otis-Lennon Sekolah Uji (OLSAT). ingat dari
Tinggi Stakes Tes
Tes yang memberikan hasil yang dapat
digunakan untuk menyimpan siswa, guru, dan
administrator sekolah bertanggung jawab
untuk berprestasi dan yang mungkin
Hasil konsekuensi yang serius

Tes prestasi
Tes prestasi dirancang untuk menilai apa yang siswa telah belajar atau keterampilan theyhave
menguasai (Aiken & Groth-Marnat, 2006). Tes prestasi standar dapat membantu
guru mengidentifikasi daerah-daerah tertentu dalam domain akademik (misalnya, matematika,
membaca,
ilmu sosial) di mana siswa perlu perbaikan. Kadang-kadang perbedaan antara
bakat dan tes prestasi tidak jelas. The SAT dapat dianggap bakat atau
tes prestasi, tergantung pada tujuan yang digunakan. Ketika digunakan untuk memprediksi
sukses di perguruan tinggi, itu dianggap sebagai tes bakat. Ketika digunakan untuk mengukur siswa
pengetahuan sebelumnya dalam matematika, kosa kata, dan pemahaman bacaan, ini dianggap sebagai
sebuah
tes prestasi. Misalnya, selama konferensi orang tua akhir-of-tahun, Ms Gibbs
suka berbagi hasil tes prestasi siswa sehingga orang tua dapat lebih memahami
apa pengetahuan dan keterampilan anak mereka telah menguasai selama tahun
dan dalam bidang apa siswa akan perlu untuk meningkatkan selama tahun akademik berikutnya.
Tes prestasi yang tipikal adalah tes mengacu-norma nasional standar, seperti
Terranova Tes Komprehensif Keterampilan Dasar, Pencapaian Tes Metropolitan,
dan Tes Prestasi Stanford (McMillan, 2004).
Karakteristik dari tes prestasi adalah bahwa mereka termasuk baterai subyek untuk menilai
pengetahuan dan keterampilan yang sesuai dengan berbagai mata pelajaran menjadi pada tingkat kelas
yang berbeda. untuk
Misalnya, baterai Stanford untuk kelas enam termasuk subyek untuk membaca, matematika,
bahasa, mendengarkan, ejaan, IPA, IPS, kemampuan belajar, penggunaan informasi, dan pemikiran
keterampilan. Karena perbedaan potensial antara isi dan keterampilan termasuk dalam pencapaian
baterai tes dan mereka yang merupakan bagian dari tujuan pembelajaran guru, itu adalah baik sebuah
ide untuk hati-hati memeriksa seberapa sesuai tes prestasi adalah untuk menilai belajar Anda
tujuan sebelum menggunakan hasil mereka untuk membuat keputusan di kelas.
?
13335
Matrix Penalaran
Contoh Rancangan Barang
Gambar 13.1 Contoh item
dari kecerdasan Wechsler
sisik.
Sumber: Barang Contoh dari
Skala Wechsler Intelligence untuk
Anak-anak, Edisi Keempat (WISC-IV).
Copyright © 2003 NCS Pearson,
Inc Reproduksi dengan izin.
All rights reserved. "Wechsler
Skala Kecerdasan Anak "dan
"WISC" adalah merek dagang, di AS
dan / atau negara lain, dari Pearson
Pendidikan, Inc atau afiliasinya (s).
IQ Skor
Skor yang digunakan untuk menafsirkan kecerdasan
tes.

Selain baterai prestasi, sekolah dapat membeli mata pelajaran tertentu


tes prestasi untuk hampir semua subjek. Namun, jika Anda sedang mempertimbangkan untuk
menggunakan
tersedia secara komersial tes prestasi subjek, pastikan bahwa Anda memeriksa
sesuai antara kurikulum kabupaten dan isi dinilai dengan tes. ingat dari
bab sebelumnya bahwa penilaian hanya berlaku untuk sejauh bahwa mereka mengukur apa
mereka dimaksudkan untuk mengukur.
Pada tahun 1969, pemerintah federal mulai mengelola Penilaian Nasional
Kemajuan Pendidikan (NAEP). Tujuan dari NAEP adalah untuk menilai muda Amerika '
pengetahuan dan keterampilan dalam membaca, menulis, sastra, matematika, IPA, IPS, seni,
kewarganegaraan, dan karir dan pengembangan kerja. Meskipun negara tidak diperlukan
untuk mengelola tes ini, pemerintah federal telah mendorong tes sukarela
keempat, eighth-, dan siswa kedua belas kelas di semua negara dengan harapan bahwa NAEP akan
menjadi penilaian nasional Amerika prestasi siswa. Dibandingkan dengan tahun 1992,
siswa keempat dan kelas delapan menunjukkan sedikit perbaikan dalam membaca dan matematika
skor pada tahun 2007, sedangkan kedua belas anak kelas menunjukkan penurunan dalam membaca dan
kurang dari
seperempat dari mereka dilakukan pada atau di atas tingkat kemahiran dalam matematika (NAEP,
2007).
The NAEP juga memberikan gambaran tentang kesenjangan prestasi dibahas dalam Bab
2 Gambar 13.2 menunjukkan kesenjangan prestasi antara putih dan Afrika-Amerika dan
Keempat Hispanik dan kelas delapan siswa membaca dan matematika selama bertahun-tahun
1990-2007. Seperti dapat dilihat pada gambar, dalam membaca, kesenjangan prestasi antara putih

dan keempat anak kelas Afrika-Amerika lebih kecil pada tahun 2007 daripada di penilaian sebelumnya,
namun kesenjangan putih-Hispanik tidak berbeda pada tahun 2007 dibandingkan dengan tahun 1992
Dalam
matematika, kesenjangan prestasi antara keempat kelas putih dan Afrika-Amerika adalah
lebih kecil pada tahun 2007 dibandingkan tahun 1990, namun kesenjangan putih-Hispanik pada tahun
2007 tidak berbeda dari
bahwa pada tahun 1990 Untuk kedelapan-grader, yang NAEP menunjukkan kesenjangan prestasi yang
signifikan di
membaca pada tahun 2007, matematika kesenjangan yang lebih kecil pada tahun 2007 dibandingkan
tahun 2005 antara putih dan
Mahasiswa Afrika-Amerika, tapi tidak ada perubahan signifikan dalam celah matematika putih-Hispanik.
Selain NAEP, tes prestasi internasional telah digunakan untuk membuat
perbandingan prestasi di berbagai negara. Misalnya, Tren
Internasional Studi Matematika dan Sains (TIMSS) menyediakan data tentang matematika,
membaca, dan ilmu prestasi siswa AS dibandingkan dengan siswa
di negara-negara lain untuk tahun 1995, 1999, 2003, dan 2007 baik pada keempat atau
tingkat kelas delapan atau keduanya. Hasil TIMSS terbaru ditunjukkan pada Gambar 13.3.
• Science. AS keempat-anak kelas hanya mengungguli oleh mahasiswa dari tiga
negara (Cina Taiwan, Jepang, dan Singapura). AS delapan kelas yang
mengungguli oleh mahasiswa dari sembilan negara (termasuk negara-negara Asia,
yang memiliki beberapa nilai tertinggi). Oleh SMA, mahasiswa AS peringkat
bawah rata-rata internasional, dengan siswa dari Swedia, Belanda,
Norwegia, dan Swiss peringkat di antara yang tertinggi.
• Reading. Mahasiswa Amerika melakukannya dengan baik dibandingkan dengan rekan-rekan mereka di
lain
negara selama bertahun-tahun sekolah dasar, tetapi pada akhir SMA
mereka telah jatuh di belakang siswa di banyak negara lain.
• Matematika. Meskipun siswa AS di atas skor rata-rata internasional, delapan
negara mengungguli Amerika Serikat di kelas empat dan empat negara
mengungguli Amerika Serikat di kelas delapan. The peringkat tertinggi
negara dalam matematika adalah Singapura, Jepang, Cina Taiwan, dan Korea
(Gonzales et al., 2004).

Selain negara-negara peringkat berdasarkan kinerja, hasil dari internasional


penilaian seperti TIMSS digunakan untuk membuat kesimpulan mengenai faktor
mempengaruhi prestasi dan belajar di negara-negara yang berpartisipasi dan untuk menyarankan
kebijakan
rekomendasi. Sebagai contoh, telah berpendapat bahwa negara kita secara keseluruhan
kinerja yang lebih rendah pada ilmu pengetahuan, matematika, dan membaca adalah hasil dari siswa
yang lebih rendah
harapan, instruksional cukup dan waktu pekerjaan, waktu yang berlebihan dihabiskan
dengan media, ukuran kelas yang lebih besar, dan pengeluaran sumber daya yang tidak efisien (Ravitch,
1995).
Namun, para ahli menunjukkan beberapa keterbatasan hasil tes internasional, termasuk
berikut (British Columbia Wali Sekolah Dasar, 2008; Ercikan &
Koh, 2005):
• Karakteristik nasional dapat membuat hasil prestasi sulit untuk membandingkan. untuk
Misalnya, jika instruksi membaca dimulai pada usia lima di satu negara dan usia tujuh
lain, hasil pembacaan delapan-year-olds di berbagai negara tidak mungkin
memberikan perbandingan yang adil.
• Hasil sangat dipengaruhi oleh topik yang diajarkan dan di mana.
Siswa dapat tahu banyak tentang topik yang tidak pada tes dan sedikit tentang
topik yang di tes tapi belum diajarkan.
• Tes Internasional tekan pada konten bahwa negara-negara peserta setuju bernilai
pengujian. Hal ini menghasilkan satu ukuran cocok untuk semua ukuran yang tidak dapat disesuaikan
dengan
kurikulum atau standar satu negara.
• Mahasiswa dari negara-negara peserta memiliki budaya yang signifikan dan linguistik
perbedaan yang mungkin menantang reliabilitas, validitas, dan kewajaran tes.
Tes Diagnostik
Pemeriksaan diagnostik ditujukan untuk menilai kebutuhan belajar khusus siswa sehingga
kebutuhan tersebut dapat dipenuhi melalui metode pembelajaran biasa atau khusus. Diagnostik
tes dikelola secara individual oleh para profesional terlatih dan sebagian besar digunakan untuk
tujuan diagnostik dalam membaca dan matematika, terutama di tingkat dasar
(Berninger, Stage, Smith, & Hildebrand, 2001). Contohnya adalah Test of Detroit
Belajar Aptitude (AGS Publishing, 2006), Stanford Diagnostik Reading Uji
(Karlsen & Gardner, 1995), dan Analisis Durrell dari Reading Kesulitan (Durrell &
Catterson, 1980).
Dibandingkan dengan tes prestasi, tes diagnostik mencakup lebih banyak item dan lebih subyek,
memungkinkan para guru untuk melaporkan nilai siswa di daerah yang lebih spesifik (Thorndike,
2005). Sebuah tes diagnostik dalam membaca dapat melaporkan nilai siswa pada kosa kata, membaca
pemahaman, dan surat pengakuan. Sebuah penggunaan yang tepat dari tes diagnostik di
membaca adalah untuk menemukan komponen yang membaca tertentu terganggu pada mahasiswa
yang secara konsisten melakukan di bawah tingkat kelas membaca penilaian pemahaman.
Misalnya, tes membaca diagnostik menunjukkan bahwa Carol (berjuang a
siswa dalam bahasa kelas seni Ms Austen) memiliki rata-rata
membaca kefasihan dan akurasi, pengetahuan kata di atas kelas
tingkat, tetapi membaca pemahaman di bawah tingkat kelas. berdasarkan
hasil tersebut, Ms Austen memutuskan untuk mengajar Carol beberapa
pemahaman-monitoring strategi.
Tes kesiapan
Tes kesiapan sekolah menilai apakah anak-anak telah memperoleh
keterampilan kognitif yang diperlukan untuk berhasil di TK atau kelas satu.
Contohnya adalah Test Kesiapan TK, Test Boehm
dari Konsep Dasar, yang Brigance Inventarisasi Perkembangan Awal,
Kesiapan Gesell Sekolah Test, dan Metropolitan
Kesiapan Test.

Ketika kesiapan nilai tes yang digunakan dalam kombinasi dengan informasi lainnya, mereka
dapat membantu mengidentifikasi keterlambatan perkembangan yang mungkin memerlukan perhatian
segera
(Bracken & Walker, 1997). Di sisi lain, meskipun popularitas, tes kesiapan mereka
telah sangat dikritik karena mereka tidak sangat berkorelasi dengan anak-anak kemudian
prestasi akademik (La Paro & Pianta, 2000; Stipek, 2002).
Menurut banyak ahli, validitas prediktif terbatas tes kesiapan bergantung pada
fakta bahwa sebagian besar dari mereka tidak didasarkan pada teori perkembangan anak dan bahwa
mereka
memiliki bias budaya dan bahasa, yang mungkin menjadi alasan bahwa anak-anak dari berpenghasilan
rendah
keluarga, anak-anak minoritas, dan anak-anak dari rumah di mana bahasa Inggris bukan bahasa pertama

sering mendapatkan skor kesiapan yang lebih rendah (Pusat Nasional untuk Fair dan Open Pengujian,
1991).
Dengan demikian, para ahli menyarankan untuk tidak menggunakan hasil tes ini untuk menunda anak-
anak resmi
sekolah melainkan untuk mendapatkan informasi tentang bagaimana mengadaptasi kurikulum sekolah
dan lingkungan untuk melayani kebutuhan khusus anak-anak (Farran, 2001; Lidz, 1991).
● CARA MENILAI KUALITAS

UJI DISTANDARISASI
Pada bagian ini kita membahas karakteristik tes standar yang baik. Mirip dengan
penilaian kelas terakhir dalam bab sebelumnya, kualitas yang standar
tes dapat dievaluasi dengan memeriksa nya validitas, reliabilitas, keadilan, dan kepraktisan.
Karena kita sudah dibahas sifat-sifat ini secara rinci, dalam bab ini kita
meninjau mereka hanya sebentar. Selain itu, jika tes standar adalah norma-referenced
(yaitu, nilai siswa yang dibandingkan dengan kelompok norma), kualitas
Tes juga akan tergantung pada karakteristik kelompok uji norma. Mari kita secara singkat
meninjau karakteristik ini.
Keandalan dan Validitas
Dua kualitas pertama bahwa guru harus mengevaluasi untuk memastikan bahwa tes standar
adalah kualitas yang baik adalah kehandalan dan validitas. Ingatlah bahwa tes dapat diandalkan ketika
mereka
konsisten, yaitu, ketika mereka memberikan konsisten, hasil yang stabil untuk setiap siswa. guru
dapat belajar tentang keandalan tes nasional atau negara dibakukan melalui laporan pengujian.
Jika tes standar didistribusikan oleh perusahaan penilaian komersial, tes tersebut
selalu disertai dengan teknik manual yang berisi semacam bukti kehandalan.
Biasanya, uji reliabilitas dilaporkan sebagai koefisien korelasi, yang bisa berkisar
dari 0 ke 1, dengan koefisien yang lebih tinggi, seperti dalam 0.80s atau 0.90s, sedang dicari (Popham,
2009). The SAT, misalnya, memiliki koefisien reliabilitas lebih dari 0,90.
Ingatlah bahwa tes adalah valid ketika mereka mengukur apa yang mereka dimaksudkan untuk
mengukur
dan kesimpulan tentang nilai tes yang akurat. Validitas isi, sejauh mana
tes akurat mengukur pengetahuan dan keterampilan yang merupakan bagian dari tujuan pembelajaran,
adalah kualitas penting dari tes prestasi seperti standar yang diwajibkan pemerintah
tes digunakan untuk tujuan akuntabilitas (Aiken, 2003). Validitas konstruk, sejauh
yang tes akurat mengukur keterampilan atau atribut tertentu, adalah kualitas penting dari
aptitude atau tes diagnostik seperti Intelligence Uji Wechsler untuk Anak-anak atau
Reading Diagnostik Stanford Uji (Karlsen & Gardner, 1995). Akhirnya, tes standar
memiliki validitas prediktif saat mereka mampu memprediksi kinerja masa depan. Jenis
validitas penting bagi tes bakat seperti SAT dan ACT, yang digunakan untuk memprediksi
Keberhasilan siswa di perguruan tinggi, atau sekolah tes kesiapan, yang digunakan untuk memprediksi
apakah anak-anak akan berhasil di TK atau kelas satu.
Kepraktisan dan Keadilan
Karena tes standar biasanya mudah dijalankan dan mencetak gol, kepraktisan
tidak pernah menjadi masalah. Di sisi lain, keprihatinan yang meningkat tentang standar
penilaian adalah bias tes. Ms Kerns mengajarkan matematika sekunder di New Mexico dan tahu
bahwa murid-muridnya yang dipersiapkan dengan baik untuk mengambil NAEP, sehingga dia terkejut
mendengar
banyak dari mereka membuat komentar negatif setelah mengambil ujian. "Tes Itu benar-benar
rumit! "keluh Tracy. "Apakah Anda mendapatkan 'yacht' masalah?" "Tidak, aku tidak tahu
apa yang itu tentang, jadi aku agak melewatkan itu. "jawab Morris. "Aku tahu! Aku tidak bisa
bisa melewati 'batang' hal "menyela Melissa. "Bukankah itu bagian dari tanaman?" Ms
Kerns menyadari bahwa murid-muridnya yang frustrasi bukan karena mereka tidak bisa melakukan
matematika tetapi lebih karena mereka tidak bisa memahami konteks beberapa masalah.
Hidup di padang pasir sepanjang hidup mereka telah mencegah mereka dari mengembangkan bahari
pengetahuan yang diperlukan untuk memecahkan "yacht" masalah. Karena siswa Ms Kerns ini
tidak memiliki kesempatan yang sama untuk menunjukkan pengetahuan dan keterampilan mereka
sebagai siswa lain yang bisa dengan mudah berhubungan dengan masalah (mungkin karena mereka
tinggal di sepanjang pantai atau di sebuah pulau), yang "yacht" masalah menantang keadilan
dari penilaian nasional.
Untuk mencegah bias yang paling penerbit uji memiliki panel ahli yang membaca item tes
hati-hati untuk menentukan apakah mereka mungkin menyinggung atau bias terhadap tertentu
kelompok, seperti perempuan dan budaya atau bahasa minoritas. Namun, metode ini adalah
terbatas karena bergantung pada subjektivitas para ahli. Kami membahas secara lebih rinci
potensi sumber standar Bias tes pada bagian isu-isu dalam standar
pengujian.

The Norm Grup

Tes mengacu-norma memungkinkan pendidik untuk membandingkan skor individu dengan yang norma
kelompok, sampel yang representatif dari populasi yang diuji dan yang memiliki skor
sebelumnya telah disusun untuk tujuan membuat perbandingan. Mari kita periksa ini
definisi secara lebih rinci. Sampel adalah bagian dari populasi (Kish, 2000). Contoh
populasi sekolah di negara Anda dapat terdiri dari pilihan acak dari 10% dari siswa
di semua sekolah. Sampel mewakili populasi yang akan diuji ketika mereka
meliputi karakteristik yang relevan dari populasi secara keseluruhan. Dalam contoh sebelumnya,
membayangkan bahwa departemen luar negeri Anda pendidikan tertarik dalam mengembangkan
standar
tes untuk menilai pembelajaran sains untuk semua siswa kelas empat di negara bagian. setelah
uji dibangun, pengembang tes akan perlu untuk mengelola untuk sampel fourthgrade
siswa di negara yang mewakili gender negara secara keseluruhan itu, etnis,
status sosial ekonomi (SES), dan komposisi regional. Jika negara Anda memiliki cukup bahkan
kerusakan jenis kelamin, kelompok norma negara harus mencakup kira-kira jumlah yang sama
anak laki-laki dan perempuan. Jika populasi siswa di negara Anda adalah 30% Afrika-Amerika,
50% Hispanik, dan 20% Anglo, maka kelompok norma juga harus menyertakan etnis
distribusi. Sebelum membaca paragraf berikutnya, pikirkan pertanyaan berikut:
Apa implikasi dari menggunakan tes standar ketika kelompok norma tidak representatif
dari populasi sasaran?
Seperti Anda mungkin sudah tahu, ketika kelompok-kelompok norma tidak mewakili siswa
Populasi yang mengambil tes, perbandingan antara nilai siswa dan orang-orang
kelompok norma tidak tepat. Inilah sebabnya mengapa guru harus hati-hati memeriksa
karakteristik kelompok norma tes standar ketika mengevaluasi kualitas mereka
dan hasil. Bayangkan skenario berikut. Sebuah distrik sekolah pedesaan di barat daya
yang sebagian besar terdiri dari siswa berpenghasilan rendah dengan kemampuan bahasa Inggris yang
terbatas
tertarik menggunakan tes prestasi tertentu untuk mengevaluasi kualitas nya
praktek pengajaran. Setelah pemberian pertama, jelas bahwa siswa di kabupaten
berkinerja jauh di bawah tingkat kelas. Sebuah pemeriksaan dekat kelompok tes itu norma
menunjukkan bahwa itu terdiri eksklusif dari siswa perkotaan dari keluarga kaya di
Northeast, populasi yang tidak mewakili distrik sekolah pedesaan.
Beberapa nilai tes standar didasarkan pada norma-norma negara, yang terstandar
nilai tes dari kelompok perwakilan mahasiswa di sebuah negara. Tes lain menggunakan norma-norma
nasional,
yang merupakan nilai tes standar dari kelompok perwakilan dari seluruh negeri.
Namun demikian, tidak semua tes standar akan menggunakan scoring norma-referenced. Bahkan,
sebagian besar
negara menggunakan scoring kriteria-direferensikan dalam sistem akuntabilitas mereka, di mana nilai
siswa
dievaluasi terhadap standar yang telah ditentukan dan bukan terhadap kinerja

kelompok norma. Sebuah negara dapat menetapkan nilai cutoff (misalnya, 70%) bahwa siswa perlu
mencapai lulus tes. Ingat dari Bab 12 bahwa para ahli merekomendasikan menggunakan criterionrather
dari penilaian norma-direferensikan untuk tes guru-dikembangkan. Kriteria-direferensikan
penilaian mempromosikan rasa siswa kompetensi, otonomi, dan kecenderungan alami mereka
untuk belajar dengan memberikan informasi tentang penguasaan pengetahuan dan keterampilan yang
relevan. Sebaliknya,
Skor norma-direferensikan (kadar pada kurva) merusak rasa siswa kompetensi,
otonomi, dan motivasi intrinsik dengan menekankan persaingan antar siswa
dan membuat satu kinerja bergantung pada kinerja orang lain.
BERSAMA BELAJAR TUGAS
Konsultasikan dengan teman sekelas dan membuat diagram Venn membandingkan dan kontras
normreferenced
dan kriteria-direferensikan tes. Sertakan karakteristik dari kedua jenis tes sebagai
serta beberapa keuntungan dan kerugian dari menggunakan masing-masing jenis.
● Bagaimana menafsirkan DISTANDARISASI UJI SKOR
Untuk beberapa tes standar, perusahaan pengujian akan mengirimkan kembali nilai siswa untuk
sekolah setelah mereka mencetak gol mereka. Bagi yang lain, guru perlu tahu bagaimana untuk
mencetak gol
tes sendiri dengan menggunakan kunci scoring dan rubrik didistribusikan dengan tes. dalam kedua
kasus, setelah nilai ujian dihitung, Anda perlu untuk menafsirkan mereka secara tepat sehingga
bahwa hasil mereka dapat menginformasikan praktik mengajar Anda. Pada bagian ini, kita membahas
beberapa
konsep statistik dasar untuk membantu Anda memahami hasil tes standar, termasuk frekuensi
distribusi, ukuran tendensi sentral dan variabilitas, dan karakteristik
dari distribusi normal. Selain itu, Anda harus tahu bagaimana menafsirkan berbeda
nilai tes standar (misalnya, mentah, persentil, kelas-setara) untuk berkomunikasi secara efektif
hasilnya kepada siswa, orang tua, guru lain, dan administrator.
Distribusi Frekuensi
Kadang-kadang nilai tes standar yang ditampilkan sebagai distribusi frekuensi, daftar
jumlah atau proporsi nilai siswa pada setiap skor tingkat atau interval. Gambar
13.4 menunjukkan contoh distribusi frekuensi pada uji hipotesis. Jika Anda melihat

pada dua kolom pertama, Anda akan melihat bahwa ada lima siswa yang diterima
skor 60 dan hanya satu siswa yang menerima skor dari 70 Kolom ketiga
menunjukkan frekuensi relatif, yang merupakan frekuensi untuk masing-masing skor dibagi dengan
jumlah siswa. Anda dapat menghitung jumlah siswa dalam distribusi ini
dengan menambahkan kolom frekuensi. Dalam contoh kita, jumlah
siswa adalah 100, sehingga frekuensi relatif dari skor 64 adalah 20%. Kolom keempat
menunjukkan frekuensi kumulatif, yang dapat dihitung dengan kumulatif
menambahkan frekuensi relatif dari skor terendah ke nilai tertinggi. dengan membaca
kolom frekuensi kumulatif, Anda dapat melihat bahwa 90% dari siswa mencetak
66 dan lebih rendah.
Sekarang kita lihat Angka 13,5 dan 13,6, yang merupakan distribusi frekuensi
dengan dua grafik yang khas. Gambar 13.5 disebut grafik garis karena mewakili
distribusi frekuensi dengan garis. Perhatikan bahwa frekuensi untuk setiap nilai yang vertikal
sumbu dan nilai yang sesuai dalam sumbu horisontal. Gambar 13.6, yang disebut bar
grafik atau histogram, merupakan frekuensi sebagai satu set garis vertikal.
Ukuran Tendensi Sentral
Selain pemahaman frekuensi skor, guru tertarik untuk mengetahui
Rata khas (yaitu, tendensi sentral) dalam distribusi skor. Ada tiga utama
ukuran tendensi sentral. Mean adalah rata-rata aritmatika dari nilai; itu
dihitung dengan menambahkan semua nilai dalam distribusi dan membaginya dengan jumlah
siswa. Jika tiga siswa memiliki skor 5, 6, dan 10, skor rata-rata akan
(5 + 6 + 10) / 3 = 7 Mean adalah ukuran tendensi sentral yang memperhitungkan
semua skor dalam distribusi.
Median adalah nilai yang ada di tengah-tengah distribusi memerintahkan skor,
yang mengapa kadang-kadang juga disebut mean geometrik. Dalam contoh sebelumnya,
skor median adalah 6 karena jatuh tepat di tengah dari tiga nilai. Anda mungkin

bertanya-tanya bagaimana menghitung median ketika jumlah total skor adalah bahkan lebih
dibandingkan angka ganjil. Dalam hal ini, karena akan ada dua daripada satu tengah
nilai, median adalah rata-rata dari dua nilai yang jatuh di tengah. Untuk nilai
dari 6, 8, 10, dan 11, median akan 9, yang merupakan rata-rata 8 dan 10 Berbeda
mean, median adalah ukuran tendensi sentral yang tidak memperhitungkan
semua skor dalam distribusi.
Ukuran tendensi sentral ketiga adalah mode, yang merupakan nilai yang paling sering
dari distribusi. Sekarang kembali ke Gambar 13.4 dan mencoba untuk menemukan modus distribusi
skor sebelum membaca paragraf berikutnya.
Anda mungkin memperhatikan bahwa modus adalah 63, karena memiliki frekuensi tertinggi di
distribusi. Mode hanya dapat digunakan jika beberapa nilai yang berulang. distribusi
adalah bimodal ketika mereka memiliki dua mode; mereka multimodal ketika mereka memiliki dua atau
lebih
mode. Keuntungan utama dari menggunakan mode adalah perhitungan yang mudah. Di sisi lain
tangan, jika dibandingkan dengan rata-rata dan median, itu adalah ukuran tendensi sentral
yang memperhitungkan paling sedikit informasi dari skor
distribusi.
Mari kita tinjau tiga langkah tendensi sentral dengan menghitung mean, median,
dan modus untuk distribusi skor berikut: 3, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 7, 7, 8 The
berarti adalah jumlah dari nilai dibagi dengan jumlah total skor (76/14 = 5.43).
Median adalah 5,5, atau nilai tengah antara nilai-nilai ketujuh dan kedelapan dalam
memerintahkan distribusi. Modus adalah 7, skor paling diulang.
Ukuran Variabilitas
Meskipun ukuran tendensi sentral memungkinkan Anda untuk menghitung nilai khas dalam
distribusi, mereka tidak memberikan informasi tentang bagaimana nilai didistribusikan.
Apakah nilai tersebar luas (di mana kinerja siswa kasus 'sangat bervariasi)
atau mereka erat berkerumun (di mana kinerja siswa kasus 'kira-kira
sama)? Untuk menjawab pertanyaan ini, Anda dapat memeriksa dua ukuran variabilitas:
jangkauan dan deviasi standar skor. Lihatlah Gambar 13.4 lagi dan
menemukan minimum dan maksimum nilai distribusi ini sebelum membaca berikutnya
paragraf.
Anda mungkin menemukan bahwa nilai minimum adalah 60 dan maksimum adalah 70 Oleh karena itu,
kisaran distribusi ini adalah 10, yang dapat dihitung dengan mengurangkan minimum
skor dari skor maksimum dalam distribusi. Rentang ini mungkin menjadi ukuran pertama
variabilitas yang Anda anggap, tetapi bukan merupakan ukuran optimal variabilitas karena
itu mempertimbangkan hanya skor maksimum dan minimum distribusi.
Sebaliknya, standar deviasi mempertimbangkan semua nilai karena mengukur
seberapa luas nilai bervariasi sehubungan dengan Rata-rata dalam distribusi. Semakin besar
standar deviasi, semakin menyebar skor dalam distribusi. Semakin kecil
standar deviasi, semakin berkerumun nilai sekitar mean. standar
penyimpangan, bagaimanapun, adalah tidak mudah untuk menghitung sebagai jangkauan. Berikut
langkah-langkah yang
Anda harus menggunakan untuk menghitung standar deviasi untuk distribusi skor:
1 Hitung nilai rata-rata (, diucapkan "X bar") dari distribusi.
2 Kurangi mean dari masing-masing skor (X -).
3 Persegi setiap perbedaan (X -) 2
4.Tambahkan semua perbedaan kuadrat
5. Bagilah jumlah itu dengan jumlah total nilai
6 Cari akar kuadrat
Guru harus mempertimbangkan menghitung deviasi standar dari satu set nilai jika mereka
tertarik untuk mendapatkan gambaran lengkap dari kinerja kelas. Misalnya, dua
distribusi skor mungkin menghasilkan skor rata-rata sama, namun distribusi skor mungkin

berbeda jauh. Bayangkan bahwa Ms Kahn memberikan tes matematika standar yang sama untuk dua
ruang kelas
(A dan B). Setiap kelas memiliki 25 siswa, yang bisa mendapatkan potensi maksimum
skor 12 poin dalam ujian. Siswa di kelas A menerima skor berikut: 3,
3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 8, 8, dan 8 Siswa di kelas
B menerima skor berikut: 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 8, 8, 8, 8, 8, 12,
12, 12, 12, dan 12 Sekarang cobalah untuk menebak mana kelas akan memiliki standar deviasi terbesar
sebelum membaca paragraf berikutnya.
Anda mungkin menduga bahwa standar deviasi untuk kelas A harus
lebih kecil dari satu untuk kelas B. Bahkan, jika Anda benar-benar dihitung mean
dan deviasi standar untuk kelas A dan B, Anda akan menemukan bahwa mereka berdua memiliki
skor berarti 5,2, namun standar deviasi mereka 1.76 dan 4.25, masing-masing. The
standar deviasi jauh lebih kecil untuk kelas A karena nilai siswa yang
cukup erat berkumpul bersama-sama (menunjukkan relatif bahkan kinerja di kalangan siswa).
Sebaliknya, kelas B memiliki standar deviasi yang lebih besar karena siswa
skor tersebar terpisah, menunjukkan bahwa beberapa siswa menguasai konten tetapi yang lain
berkinerja sangat buruk pada tes. Seperti yang Anda lihat, meskipun standar deviasi
adalah konsep statistik yang mungkin terlalu abstrak atau teknis untuk berkomunikasi
kepada siswa dan orang tua, penting bagi guru untuk mengetahui seberapa erat siswa
skor yang berkerumun di sekitar nilai rata-rata tes untuk merenungkan masa depan instruksional
kebutuhan.
Distribusi normal
Distribusi normal adalah di mana sebagian besar nilai mengelompok di sekitar nilai rata-rata
dalam distribusi dan memiliki kurva berbentuk lonceng seperti yang ditunjukkan pada Gambar
13.7. Perhatikan bahwa distribusi skor simetris: setengah nilai tersebut berada di bawah
skor rata-rata dan setengah lainnya jatuh di atas. Karakteristik lain dari yang normal
distribusi adalah bahwa 68% dari nilai tersebut berada dalam 1 deviasi standar dari
berarti; 96% dari nilai tersebut berada dalam 2 standar deviasi dari mean; dan hanya
4% dari nilai tersebut berada di atas atau di bawah 2 standar deviasi dari mean. Selain itu,
ketika distribusi skor normal, rata-rata, median, dan modus yang
identik.
Untuk lebih memahami bagaimana nilai dapat diartikan dalam distribusi normal, mari kita
berasumsi bahwa Peter mendapat skor 90 pada tes standar. Jika nilai rata-rata dari semua siswa
yang mengambil tes adalah 100 dan deviasi standar 10, maka skor Petrus adalah
hanya 1 standar deviasi di bawah Unit mean. Bayangkan sekarang bahwa segala sesuatu yang lain
disimpan
sama kecuali bahwa deviasi standar dari nilai adalah 5 bukan 10 ini berarti

rata-rata. Seperti yang Anda lihat, mengetahui baik mean dan deviasi standar dari distribusi
skor akan memungkinkan Anda untuk menginterpretasikan nilai individu siswa lebih bermakna,
terutama jika nilai tes membentuk distribusi normal.
Distribusi normal biasanya ditemukan ketika jumlah nilai sangat besar,
seperti dalam kasus negara atau tes standar nasional. Skor SAT adalah contoh
dari distribusi normal, dengan rata-rata 500 dan deviasi standar 100.
Demikian juga, nilai IQ terdistribusi secara normal, memiliki rata-rata 100 dan deviasi standar
dari 15, yang berarti bahwa 68% dari semua nilai IQ jatuh dalam kisaran 85 dan 115.
Jenis Skor
Skor pada yang paling banyak digunakan tes standar dilaporkan pada formulir yang merangkum
dan menjelaskan hasil siswa. Oleh karena itu, hal ini berguna untuk belajar tentang berbagai
jenis nilai yang mungkin terjadi pada bentuk-bentuk ini. Skor mentah adalah
jumlah item yang siswa menjawab dengan benar pada tes; dengan sendirinya, hal ini
tidak memberikan informasi tentang bagaimana siswa dilakukan dibandingkan dengan siswa lain
atau betapa sulitnya tes itu. Inilah sebabnya mengapa penerbit tes menyediakan guru dengan
jenis lain dari nilai, termasuk nilai-setara, persentil, dan skor standar.
Kami membahas ini berikutnya.
Kelas-Setara Skor. Skor kelas-setara menunjukkan kinerja siswa
dalam kaitannya dengan tingkat kelas dan bulan schoolyear tersebut, dengan asumsi 10-
bulan schoolyear. Sebagai contoh, skor kelas-setara 4,6 menunjukkan skor yang
setara dengan bulan keenam ke kelas empat sekolah, dan kelas-setara
skor 5.0 menunjukkan skor yang setara dengan awal kelas lima.
Skor kelas-setara memiliki keuntungan menjadi mudah dimengerti. Di sisi lain
tangan, mereka dapat menyesatkan bila diartikan sebagai penempatan kelas yang sesuai
bukan kemajuan siswa. Sebuah skor di atas kelas yang sebenarnya siswa mungkin salah
ditafsirkan sebagai indikasi bahwa siswa mampu secara konsisten bekerja di sebuah
tingkat yang lebih tinggi, menunjukkan kebutuhan untuk promosi dipercepat. Misalnya, Sophia
ibu memanggil guru kelas empat putrinya, Mr Brazen, untuk konferensi. dia hanya
menerima standar nilai ujian Sophia di surat dan sangat bersemangat tentang
kemungkinan bahwa putrinya mungkin dipertimbangkan untuk kemajuan ke kelas enam
kelas. Sophia menerima skor kelas-setara 6,5 dalam ujian. Selama konferensi,
Mr Brazen menjelaskan bahwa Sophia mencetak sama dengan kelas enam akan
pada tes kelas empat; Namun, skor tidak boleh diartikan bahwa
Sophia harus di kelas enam matematika. Mengapa? Skor 6,5 kelas-setara adalah skor
bahwa siswa kelas enam khas di bulan kelima akan menerima jika ia / dia
telah mengambil tes kelas empat. Sophia tidak terkena kurikulum matematika kelas enam,
dan uji kelas empat tidak berisi konten kelas enam. Akibatnya,
semua kita dapat menyimpulkan dari 6,5 kelas-setara skor Sophia adalah bahwa prestasinya
tingkat dalam matematika yang relatif tinggi terhadap rekan-rekan kelas empat nya. Skor tersebut tidak
menyediakan
informasi tentang bagaimana dia akan menangani kurikulum matematika biasanya diajarkan
kepada siswa dengan bulan kelima kelas enam. Skor kelas-setara tidak memberikan
resep untuk penempatan kelas. Ketika skor kelas-setara jauh lebih tinggi
atau lebih rendah dari tingkat kelas siswa, mereka terutama tanda kinerja yang luar biasa.
Karena skor kelas-setara cenderung disalahartikan, ahli
merekomendasikan menggunakan jenis lain skor untuk melaporkan kinerja pada tes standar.
Persentil Skor. Skor persentil menunjukkan persentase distribusi yang
terletak pada atau di bawah nilai siswa, sehingga memberikan informasi tentang posisi skor ini
sehubungan dengan sisa nilai dalam distribusi. skor persentil
berkisar antara 1 hingga 99 Seorang mahasiswa dengan skor persentil 78 pada tes dilakukan juga
atau lebih baik dari 78% dari sampel yang terdiri kelompok norma untuk khusus ini
uji. Perhatikan bahwa persentil skor mengacu pada persentase orang daripada persentase
tanggapan yang benar.

Keterbatasan lain dari nilai persentil adalah bahwa mereka melebih-lebihkan perbedaan skor

di kisaran tengah nilai dan meremehkan skor perbedaan yang lebih rendah dan

rentang atas skor. Anda secara visual dapat melihat hal ini pada Gambar 13.8, yang menunjukkan

SAT skor mentah dan persentil yang sesuai untuk empat siswa. Seperti yang Anda lihat, Maggie,

Ralph, JR, dan Ayesha menerima skor mentah dari 530, 555, 625, dan 790, dan peringkat di

60, persentil ke-70, ke-90, dan ke-99, masing-masing. Meskipun perbedaan dalam peringkat
antara Maggie dan Ralph adalah sama dengan yang antara

JR dan Ayesha (10%), perbedaan antara nilai aktual

Maggie dan Ralph (25 poin) jauh lebih kecil dari itu antara JR

dan Ayesha (165 poin).

Standar Skor. Nilai standar dinyatakan sebagai penyimpangan dari

skor rata-rata, seperti konsep standar deviasi yang baru saja dibahas.

Nilai standar berguna karena Anda dapat mengubah nilai baku

jenis yang berbeda dari tes menjadi skala umum, sehingga memungkinkan untuk perbandingan

tes di seluruh. Mari kita lihat tiga nilai standar umum:

stanines, z-skor, dan skor-t. Stanines, yang merupakan versi pendek untuk

nines standar istilah, melaporkan hasil tes siswa pada 9-point

skala yang berkisar dari 1 sampai 9 Stanines dikembangkan oleh militer AS

untuk memberikan nilai satu digit yang dapat digunakan untuk membandingkan seluruh

tes. Stanines biasanya diartikan sebagai berikut:

• Skor dari 1, 2, dan 3 di bawah rata-rata.

• Skor 4, 5, dan 6 rata-rata.

• Skor dari 7, 8, dan 9 atas rata-rata.

Skor Stanine memiliki rata-rata 5 dan deviasi standar 2 dan

lihat skor persentil tertentu dalam distribusi normal, seperti yang ditunjukkan pada

Tabel 13.1. Perhatikan bahwa masing-masing skor stanine mewakili berbagai hasil tes.

Sebagai contoh, skor stanine dari 8 meliputi hasil tes

yang berada dalam 89 ke 95 persentil.

z-skor memberikan informasi tentang berapa banyak standar deviasi skor mentah

atas atau di bawah nilai rata-rata dari distribusi. Skor-z dihitung dengan mengurangkan
mean dari skor dan membagi dengan standar deviasi seperti yang ditunjukkan pada

rumus berikut: z-score = (X -) / SD. z-skor berguna karena mereka memungkinkan kita

untuk mengubah skor mentah dalam distribusi normal menjadi nilai setara untuk normal

distribusi yang memiliki rata-rata 0 dan standar deviasi 1, membuat skor

mudah dimengerti. Skor-z mengindikasikan seberapa jauh dan ke arah yang tertentu

Rata adalah dari nilai rata-rata seperti yang dinyatakan dalam satuan standar distribusi-nya

penyimpangan.

Jika distribusi skor memiliki rata-rata 100 dan deviasi standar 20 dan

siswa memiliki skor 110, maka skor-z untuk siswa ini akan (110-100) / 20?

0,5, yang merupakan standar deviasi 0,5 atas rata-rata. Demikian juga, jika distribusi

skor memiliki rata-rata 200 dan deviasi standar 50 dan mahasiswa memiliki skor

150, skor-z untuk siswa ini akan (150? 200) / 50 ?? 1, yang merupakan 1 standar deviasi

bawah rata-rata.

Cara lain untuk membakukan skor yang menghindari ketidaknyamanan menggunakan negatif

nomor terdiri dari mengubah z-skor menjadi skor-t. T-Rata adalah standar

Rata-rata di mana diatur ke 50 dan deviasi standar diatur ke 10; bisa

dihitung dengan rumus sebagai berikut: t-score = 50 + 10 × (z-score). Sebuah z-skor 2 dapat disamakan

untuk t-skor 70; skor mentah dari 110 dan 150 dalam contoh kami sebelumnya

sesuai dengan t-skor 55 dan 40, masing-masing. Orang tua dan siswa biasanya akan

menemukan t-skor lebih mudah untuk memahami ketika z-skor dinyatakan akan menyebabkan angka
negatif.

Tampaknya berlawanan berhubungan kinerja untuk angka negatif. kelas

Tips: Cara Menggunakan Standar Uji Skor merangkum definisi dan menggunakan untuk

skor yang berbeda dibahas dalam bagian ini.


APAKAH PERAN GURU'S
DI PENGUJIAN DISTANDARISASI?
Bagian ini mengunjungi kembali siklus penilaian diperkenalkan pada Bab 12 dengan fokus pada standar
pengujian. Ingat bahwa siklus penilaian terdiri dari empat tahap: perencanaan,
administrasi, evaluasi dan meninjau, dan mengkomunikasikan hasil penilaian
kepada pihak terkait seperti siswa, orang tua, dan administrator. Untuk kasus tertentu
pengujian standar, kita membahas bagaimana guru harus mempersiapkan siswa untuk ujian,
mengelola tes, menafsirkan nilai tes, mengkomunikasikan hasil kepada siswa dan
pengasuh, dan petunjuk rencana berdasarkan hasil tes.
VIDEO TUGAS CASE. . . Menggunakan Strategi di Kelas Anda: Mendengar
dari Spesialis (Tab 2)
Pergi ke kursus WileyPlus dan melihat video. Pikirkan tentang bagaimana Anda dapat menerapkan
sehari-hari
strategi kelas yang dibahas oleh Ibu Dean dengan administrasi tes standar
(misalnya, tujuan dan komunikasi dengan siswa dan orang tua belajar). Bersiaplah untuk
membahas strategi-strategi.
Mempersiapkan Siswa untuk Standar Pengujian
Mempersiapkan siswa untuk ujian standar memerlukan dua tanggung jawab. Pertama, guru perlu
untuk memastikan bahwa siswa telah mencapai tujuan pembelajaran, yang tergantung pada seberapa
efektif
instruksi. Kedua, guru harus memastikan bahwa siswa dapat melakukan yang terbaik untuk
menunjukkan pengetahuan dan keterampilan mereka selama pengujian standar. Untuk tujuan ini, Anda
harus meluangkan waktu untuk menjelaskan tujuan dari tes, bagaimana hasilnya akan digunakan, dan
bagaimana tes yang relevan dengan pembelajaran mereka. Dengan memberikan informasi secara
rasional, Anda akan
lebih cenderung memotivasi siswa Anda untuk melakukannya dengan baik pada tes. Misalnya, ketika
Jarett
pertanyaan Mrs Kirkland tentang perlunya membaca instruksi tes di Bayangkan Anda Apakah
Guru, ia menunjukkan kurangnya pemahaman tentang pentingnya standardisasi
prosedur administrasi tes. Sangat mungkin bahwa Jarett juga menyadari
alasan untuk mengambil tes, yang akan mempengaruhi motivasinya untuk melakukannya dengan baik di
atasnya.
Berkomunikasi sikap positif terhadap penilaian dan menghindari membuat komentar
mengenai berisiko tinggi sifat pengujian standar, yang hanya dapat meningkatkan
kecemasan dan siswa kompromi kinerja mereka. Bahkan jika Anda memiliki perasaan negatif
tentang berisiko tinggi tes, menahan godaan untuk melibatkan siswa dalam diskusi
tentang pedagogis mereka, politik, atau implikasi keuangan. Sebagai hari tes
pendekatan, memberikan siswa informasi sebanyak mungkin mengenai hari, waktu,
subyek, respon format, dan prosedur untuk mengurangi kecemasan mereka.
Sebuah cara yang efektif untuk mempersiapkan siswa untuk ujian standar adalah untuk memberi
mereka sering
tes praktek dari jenis yang sama dan format sebagaimana tes yang sebenarnya. Dengan cara ini, siswa
akan
lebih cenderung memiliki automaticity maju dalam prosedur uji-mengambil seperti mengetahui
bagaimana menanggapi pertanyaan pilihan ganda atau bagaimana untuk mengisi mencetak komputer-
lembar jawaban (Sax, 1989). Banyak negara menyediakan sekolah dengan tes praktek dan latihan
dirancang untuk membiasakan siswa dengan taruhan tinggi prosedur pengujian. Selain itu, Anda
dapat mengajarkan strategi uji-mengambil dasar sebagai bagian dari instruksi rutin Anda tanpa
meningkatkan
beban Anda secara signifikan. Kelas Tips: Membantu Siswa Menjadi Lebih Efektif
Test-Takers daftar beberapa bermanfaat strategi uji-mengambil.
Karena hasil tes standar dapat memiliki konsekuensi serius bagi siswa, guru,
dan sekolah, banyak sekolah juga menggunakan keterampilan program uji-mengambil (Payne, 1997).
Meskipun penelitian menemukan bahwa mengajar strategi ujian hanya memiliki dampak yang kecil
terhadap
skor siswa (Educational Testing Service, 1994; Scruggs & Lifson, 1985), strategi
instruksi dapat membantu muda dan mahasiswa rendah mencapai serta siswa yang memiliki
sedikit pengalaman uji-mengambil (Walton & Taylor, 1996-1997).

menjaga orang tua informasi. Ingat bahwa orang tua adalah mitra Anda dan kunci
untuk memotivasi siswa untuk melakukannya dengan baik. Edarkan newsletter menginformasikan orang
tua tentang
Tujuan dari uji dan penggunaan hasil, tanggal pengujian dan waktu (sehingga mereka
menghindari janji penjadwalan pada hari-hari), dan meminta dukungan mereka dalam pemantauan
penyelesaian siswa tugas yang dimaksudkan untuk membantu mereka mempersiapkan diri untuk ujian
(lihat Gambar 13.9). Ingatkan orang tua untuk mendukung anak-anak mereka dengan memastikan siswa
mendapat tidur malam yang baik malam sebelum ujian, memiliki sarapan yang baik sebelum ujian,
dan tiba di sekolah tepat waktu hari tes.
Uji Administrasi
Kebanyakan tes standar mencakup petunjuk tentang cara tes harus diberikan,
termasuk cara mengatur ruang pengujian, bagaimana mendistribusikan lembar tes dan jawaban,
berapa banyak waktu siswa harus mengikuti tes, dan apa guru harus dan tidak harus
dilakukan saat para siswa mengerjakan tes. Guru harus mengikuti petunjuk ini erat dengan
memastikan bahwa tes ini, pada kenyataannya, mengingat dalam kondisi standar (Gay & Airasian, 2000).

Ingat bahwa validitas hasil tes standar berbasis norma tergantung, antara faktor-faktor lainnya,
pada seberapa baik kondisi pengujian mencerminkan kondisi pengujian kelompok norma.
Para ahli juga merekomendasikan mengambil catatan pada setiap perilaku siswa yang tidak biasa selama

administrasi tes, seperti ketika siswa tampaknya harus absen mental, menanggapi secara acak,
atau menunjukkan tanda-tanda kecemasan yang ekstrim (Linn & Miller, 2005).
Catatan ini mungkin membantu account untuk kinerja siswa
saat keputusan tiba.
Pastikan bahwa siswa memiliki ruang kerja yang memadai, sesuai
pencahayaan dan suhu kondisi, dan bahwa kebisingan dan gangguan
diminimalkan. Untuk menghindari terganggu oleh orang luar, tempatkan tanda
di ruang pengujian menunjukkan bahwa pengujian sedang berlangsung (McMillan,
2004). Untuk membantu siswa memantau waktu mereka, menulis di papan tulis
memulai dan mengakhiri waktu ujian.
Menafsirkan Standar Uji Skor
Langkah pertama dalam menafsirkan hasil tes standar adalah untuk menyadari
keterbatasan mereka. Karena semua tes memiliki beberapa tingkat kesalahan,
berhati-hati ketika menafsirkan perbedaan kecil dalam nilai tes,
terutama mereka yang berasal dari persentil dan kelas-setara

skor (Airasian, 2005). Para ahli menyarankan menggunakan informasi penilaian lainnya dalam
hubungannya

dengan hasil tes standar untuk datang dengan evaluasi yang lebih akurat

Kinerja siswa (Kaplan & Saccuzzo, 2005; Neukrug & Fawcett, 2006).

Ketika para guru menafsirkan tes standar, mereka biasanya membandingkan kinerja siswa

untuk itu siswa dari sekolah yang berbeda, kabupaten, negara, dan bahkan negara.

Untuk membantu membuat perbandingan, penerbit tes menyediakan sekolah dengan laporan seperti

yang ditunjukkan pada Gambar 13.10.

Seperti yang Anda lihat, laporan ini mencakup jumlah item dalam setiap tes

dan subtes dan skor mentah, skor persentil nasional siswa (ditunjukkan sebagai

peringkat persentil atau PR), skor stanine (ditunjukkan setelah dasbor dalam setiap persentil

Rata-rank), dan band persentil nasional.

Sebuah metode yang baik untuk memeriksa laporan tes standar adalah mulai dengan tertinggi

tingkat informasi, seperti skor untuk domain utama (misalnya, matematika, membaca,

IPA, IPS), dan kemudian memeriksa nilai pada subskala dalam masing-masing dari

domain utama (misalnya, kosakata dan pemahaman bacaan dalam membaca). Maskapai

skor akan memungkinkan Anda untuk melihat kekuatan dan kelemahan relatif dari setiap siswa antara
domain dan dalam domain dan menentukan apakah hasilnya konsisten dengan lainnya
Bukti tentang kinerja siswa Anda. Evaluasi nilai tes standar dalam
kombinasi dengan penilaian kelas lainnya dapat menyediakan Anda dengan kesempatan untuk
merefleksikan perkembangan siswa dan merencanakan cara untuk meningkatkan instruksi sesuai.
mengkomunikasikan Hasil
Setelah hasil tes dikembalikan dan Anda memiliki kesempatan untuk menafsirkannya dalam
hubungannya
dengan penilaian lain, mengkomunikasikan hasil kepada siswa dan orang tua atau pengasuh.
Tanggung jawab utama Anda terdiri dari menafsirkan hasil tes menggunakan non-teknis
bahasa dan dalam konteks indikator kinerja lainnya. Ingat bahwa yang paling
tujuan mengkomunikasikan hasil tes standar dan jenis lainnya penilaian
adalah untuk berbagi informasi yang dapat membantu orang tua dan guru bekerja bersama-sama
menuju
keberhasilan akademis siswa. Guru harus mengikuti Hak Keluarga Pendidikan dan
Privacy Act (FERPA) mandat untuk kerahasiaan dan menyajikan hasil tes kepada siswa
dan pengasuh secara pribadi (lihat Bab 12 untuk penjelasan resep FERPA).
Instruksi perencanaan
Hasil tes standar dapat membimbing perencanaan Anda baik sebelum atau setelah kelas memiliki
mulai. Ketika tes standar diberikan sebelum instruksi, hasilnya dapat memberikan
guru informasi mengenai kemampuan masa lalu siswa atau prestasi, yang dapat
digunakan untuk menentukan tingkat yang tepat dari instruksi untuk memulai schoolyear yang

Namun, hati-hati tentang pengaturan harapan bagi siswa atau seluruh kelas yang
hanya didasarkan pada hasil tes standar, karena hal ini dapat menyebabkan self-fulfilling
nubuat dibahas dalam Bab 2.
Ketika tes standar diberikan setelah kelas mulai, hasilnya dapat digunakan
untuk mengevaluasi efektivitas mengajar dan untuk merencanakan instruksi sesuai. Hal ini adalah
diilustrasikan pada gambar siklus penilaian yang disajikan dalam bab sebelumnya (Gambar 12.10).
Setelah tes standar diberikan, dievaluasi, dan dikomunikasikan, sekarang saatnya untuk menggunakan
informasi tes untuk merefleksikan metode Anda, kurikulum, dan kualitas dari
menguji dirinya untuk merencanakan dan meningkatkan instruksi masa depan. Namun demikian,
ingatlah untuk tidak bergantung pada
skor tes tunggal untuk merencanakan instruksi; sebaliknya, melengkapi hasil tes standar dengan
bukti lain, seperti penilaian kelas formal dan informal dan kinerja masa lalu
catatan. Kelas Tips: Cara Mendukung Standar Pengujian Efektif merangkum
beberapa prinsip dari bagian ini dengan contoh-contoh yang sesuai kelas.
TIPS KELAS
Cara Mendukung Standar Pengujian Efektif
Prinsip Kelas Contoh
Pastikan bahwa siswa siap untuk mengikuti tes. Ms Woodmen telah memutuskan untuk menghabiskan
minggu sebelum negara
Peserta didik kurang cemas dan lebih mampu menunjukkan tes standar untuk mendapatkan dia ketiga
anak kelas yang digunakan untuk pengujian
pengetahuan dan keterampilan mereka ketika mereka akrab dengan kondisi. Dia menyusun meja dari
kerja adat mereka
format tes dan prosedur. kelompok ke baris, dia membaca arah ke aktivitas sehari-hari seperti dia
akan lakukan untuk tes, dan dia memiliki siswa berlatih mengisi
lingkaran sepenuhnya.
Berkomunikasi sikap positif terhadap pengujian. Mr Anderson menyadari tentang keterbatasan tes
standar.
Ingat bahwa perasaan negatif hanya dapat meningkatkan kecemasan Namun ia membuat upaya untuk
menciptakan sikap positif terhadap
dan menyakiti kinerja. tes standar dalam kelas dengan menjelaskan manfaatnya
dalam membimbing mengajar dan membantu siswa lebih memahami
daerah di mana mereka perlu meningkatkan.
Ikuti instruksi tes dengan hati-hati dan melaporkan biasa Mrs Nann melihat bahwa Ann tampak sangat
pucat dan
pengamatan. Ini akan memastikan bahwa hasilnya sebanding nyaman pada pagi hari pertama tes yang
diwajibkan pemerintah.
dengan orang-orang dari kelompok norma dan karena itu berguna untuk Sedangkan arah uji dibaca, Ann
berlari ke tempat sampah
guru, administrator, dan pembuat kebijakan. tapi jatuh sakit sebelum dia sampai di sana. Setelah
ruangan itu dibersihkan,
siswa kembali pengujian dan Mrs Nann membuat catatan berhati-hati
Reaksi Ann dalam dokumen pengujian.
Pertimbangkan norma tes ini, reliabilitas, validitas, dan keadilan Meskipun manual yang menyertai tes
standar
selama interpretasi. Bila mungkin, mengumpulkan seperti teknis dan panjang, Mr Wilson membacanya
dengan cermat sehingga dia bisa
informasi sebanyak mungkin tentang sifat-sifat mengevaluasi kualitas tes, memahami penggunaan
ditujukan untuk
pengujian sebelum menafsirkan hasil siswa tertentu '. skor tes, dan menginterpretasikan hasil tes
akurat.
Menyediakan akomodasi yang sesuai. Gunakan khusus Selama bagian matematika dari tes standar, Ms
Baline
IEP siswa pendidikan 'untuk memandu Anda tentang membuat mereka yakin bahwa James dan Anita
memiliki kalkulator mereka siap sebagai
kebutuhan akomodasi, dan menerapkan bahasa yang dibutuhkan bytheir IEPs.
akomodasi yang diizinkan dengan ELLs.
Pastikan Anda memahami menguji hasil nilai tes sebelum Setelah standar dikembalikan, Mr Jacobs suka
berkomunikasi mereka untuk siswa dan orang tua. Studi masing-masing menulis surat kepada setiap
orang tua menjelaskan hasil tes. mengetahui
Laporan skor sebelumnya dan siap untuk menyajikan non bahwa hasil mungkin terlalu teknis, ia
membuat upaya untuk memasukkan
umpan balik teknis namun informasi tentang kemajuan siswa. grafik dan menggunakan bahasa umum
dalam penjelasannya.
Ambil hasil tes menjadi pertimbangan untuk merencanakan dan Ms Homer sedang mempersiapkan
untuk schoolyear mendatang dengan melihat
meningkatkan instruksi. Periksa 'kekuatan dan siswanya siswa skor tes terakhir. Dia senang melihat
bahwa semua nya
bidang diperlukan perbaikan di sub-skala tes, dan mahasiswa dilakukan pada tingkat kelas dalam
matematika tahun lalu, jadi dia berencana
menggunakan informasi tersebut untuk memandu jenis dan jumlah hanya meninjau konten tahun lalu
sebelum pindah ke yang baru
instruksi yang perlu setiap siswa. informasi tahun ini.
Jangan hanya mengandalkan hasil tes standar untuk membuat Ketika mempersiapkan untuk akhir-of-
the-tahun konferensi dengan orang tua,
keputusan. Meskipun tes standar dikembangkan Mrs Quilian suka memberikan beberapa artefak untuk
menggambarkan dirinya
oleh para ahli yang terlatih dalam pengembangan tes, perlu diingat bahwa pernyataan tentang kekuatan
dan kelemahan siswa. sebelum
tes standar tidak akan memberitahu kita segala sesuatu yang konferensi siswa mulai, dia mengumpulkan
portofolio pekerjaan siswa,
tahu dan mampu melakukan. nilai kelas, dan nilai tes standar untuk setiap siswa.

● MASALAH DALAM PENGUJIAN DISTANDARISASI


Pengujian standar bukan tanpa kontroversi. Bagian ini merangkum isu-isu utama
sekitar pengujian standar, termasuk gerakan akuntabilitas, bias tes, dan
pengujian guru.
Akuntabilitas dan Pengujian Standar
Gerakan akuntabilitas dianggap sebagai solusi efektif terhadap keprihatinan umum
bahwa peningkatan jumlah siswa SMA yang lulus dengan sangat rendah
kecakapan dalam keaksaraan dan matematika. Karena uang publik digunakan untuk mendanai sekolah,
ada
perlu mekanisme untuk menginformasikan orang tua, warga, pendidik, administrator, dan
kebijakan tentang sekolah dan kualitas guru serta kemajuan anak-anak dalam mata pelajaran utama.
Seperti yang mungkin Anda ingat dari Bab 1, Anak No Left Behind (NCLB)
undang-undang merespon kebutuhan ini dengan mensyaratkan bahwa semua negara memiliki di
tempat tes tahunan
kinerja siswa dalam membaca, matematika, dan ilmu pengetahuan di kelas 3 sampai 8 (US
Departemen Pendidikan, 2002). Negara memiliki pilihan untuk mengembangkan sendiri
tes, kontrak dengan perusahaan untuk mengembangkan tes mereka, atau membeli tes komersial yang
tersedia
melalui perusahaan penerbitan. Tes standar biasanya dikembangkan oleh kurikulum
ahli, yang mempertimbangkan nasional dan negara standar untuk membangun
pertanyaan yang menilai siswa apa di setiap kelas harus tahu atau dapat dilakukan di berbagai
bidang studi.
Menurut NCLB, semua sekolah diharapkan untuk membuat kemajuan tahunan yang memadai
(AYP) dari semua penilaian negara. Untuk tujuan ini, negara harus melaporkan nilai tes untuk masing-
masing
sekolah dipilah berdasarkan subkelompok (misalnya, etnis, pendidikan khusus, SES, dan ELL
status). Dengan demikian, sekolah dan kabupaten bertanggung jawab untuk semua subkelompok
membuat AYP.
Sekolah dengan satu atau lebih sub kelompok tidak memenuhi kriteria AYP negara mereka tunduk
konsekuensi negatif. Sebuah sekolah yang tidak memenuhi AYP untuk dua atau lebih kebutuhan tahun
untuk mengidentifikasi daerah-daerah tertentu yang perlu perbaikan dan bekerja dengan orang tua,
guru,
dan ahli dari luar untuk mengembangkan rencana untuk meningkatkan prestasi siswa. Selain itu,
sekolah harus menawarkan layanan pendidikan tambahan (misalnya program, setelah sekolah,
musim panas program remediasi) dan memberikan orang tua kesempatan untuk mentransfer
anak-anak mereka ke sekolah yang lebih sukses. Jika sekolah tidak memenuhi AYP selama lebih
tahun, konsekuensi dapat mencakup restrukturisasi organisasi internal
sekolah, menunjuk penasihat ahli eksternal, memperpanjang schoolyear atau schoolday,
mengubah kurikulum, atau mengganti staf sekolah.
Banyak orang mempertanyakan penekanan saat ini pada pengujian standar yang dihasilkan dari
gerakan akuntabilitas. Pengujian standar sangat mahal dan dapat mengurangi
dari menawarkan siswa kurikulum yang seimbang (Kohn, 2000a). Beberapa berpendapat bahwa guru
akan merasakan tekanan untuk meningkatkan nilai tes untuk membuktikan bahwa mereka menyediakan
pendidikan yang berkualitas,
sehingga hanya mengajarkan apa yang diuji dengan mengorbankan tujuan pembelajaran lain,
fenomena yang dikenal sebagai pengajaran untuk tes (Berliner & Biddle, 1997; Shepard, 1995).
Yang lainnya berpendapat bahwa karena NCLB memberikan otonomi negara tentang pengaturan
pembelajaran
standar dan prosedur untuk menentukan apa yang merupakan subkelompok (misalnya, dalam
satu sekolah subkelompok mungkin termasuk mahasiswa Afrika-Amerika, tapi tidak di negara lain

sekolah), beberapa sekolah akan bertanggung jawab untuk lebih dari subkelompok lainnya
sekolah. Sebuah kritik tambahan adalah bahwa tes standar gagal untuk mencerminkan tertentu
tantangan beberapa sekolah, seperti sekolah tinggi kemiskinan dimana tepat
pendanaan, daripada pengajaran berkualitas tinggi, kurang atau daerah perkotaan mobilitas tinggi,
di mana sekolah harus bertanggung jawab atas kinerja siswa yang mungkin
hanya memiliki beberapa minggu atau bulan instruksi (Orfield & Kornhaver, 2001;
Starratt, 2003).
Yang penting, para ahli telah menunjukkan bahwa tinggi-stake testing dapat memotivasi
sekolah dan kabupaten untuk mengadopsi kebijakan yang tidak diinginkan untuk artifisial mengembang
skor, seperti
sebagai menugaskan lebih banyak anak untuk pendidikan khusus, mengkategorikan lebih banyak siswa
sebagai
ELL, mendorong siswa dengan ketidakmampuan belajar untuk menghindari taking standar
tes, atau mempertahankan siswa lebih dari yang diperlukan (Allington & McGill-Franzen,
1992; Linn, 2000). Singkatnya, banyak kritik seputar pertanyaan NCLB
apakah hukum ini adalah mekanisme yang tepat untuk mendapatkan informasi yang berarti tentang
pendidikan siswa. Namun sistem akuntabilitas di sini untuk tinggal (Marshall, 2003;
Scherer, 2001). Oleh karena itu, Anda harus memiliki pemahaman yang baik tentang karakteristik,
fungsi, dan interpretasi dari tes standar. Guru Expert adalah
menyadari kekuatan dan kelemahan tes standar 'dan tahu bagaimana menggunakannya
(Linn & Gronlund, 2000).
Uji Bias: Definisi
Uji Bias terjadi ketika tes tidak adil bagi anggota beberapa kelompok tetapi tidak untuk orang lain.
Karena keanekaragaman bahasa dan budaya yang luas di Amerika Serikat, bias tes memiliki
menjadi salah satu perhatian terbesar dalam tes standar (Murphy & Davidshofer, 1994;
Thorndike, 2005). Namun, para ahli tidak setuju pada definisi tentang apa yang merupakan
bias tes. Beberapa percaya bahwa tes bias jika menghasilkan nilai yang berbeda antara
kelompok. Namun, definisi ini terlalu sederhana, seperti yang ditunjukkan oleh contoh berikut.
Bayangkan bahwa kita memiliki dua kelompok siswa di kelas SMA. Grup A adalah
kohort siswa yang membaca materi yang ditugaskan secara konsisten sebelum kelas, belajar bersama,
mengadakan diskusi harian tentang topik yang dibahas oleh catatan kelas, berbagi, dan menghadiri kelas

secara teratur. Sebaliknya, kelompok B adalah kelompok siswa yang tidak membaca materi yang
diberikan
sebelum kelas dan menghadiri kelas secara sporadis. Sekarang anggaplah bahwa, untuk menilai
pembelajaran,
Guru memberikan kedua kelompok tes standar yang sama dan hasilnya menunjukkan bahwa kelompok
Sekelompok mengungguli B secara signifikan. Apakah bukti ini cukup untuk menyimpulkan bahwa tes
bias terhadap kelompok B? Pikirkan tentang jawaban yang mungkin untuk pertanyaan ini sebelum
membaca
paragraf berikutnya.
Seperti yang Anda lihat, definisi ini bias menyesatkan karena perbedaan skor kelompok
juga akan berasal ketika kelompok sedang dipertimbangkan berbeda dalam pengetahuan dan
keterampilan yang tes dimaksudkan untuk menilai. Dalam contoh kita, kelompok B underperformed
kelompok
A hanya karena siswa dalam kelompok ini tidak menempatkan waktu yang sama dan usaha dalam
belajar
untuk ujian.
Definisi kedua bias melihat validitas prediktif dari tes khusus.
Menurut pendekatan ini, tes bias jika itu baik overpredicts atau underpredicts beberapa
kriteria untuk anggota satu kelompok dengan anggota kelompok lain. A masuk perguruan tinggi
Pemeriksaan akan menjadi bias terhadap anak perempuan jika melakukan pekerjaan yang baik
memprediksi nilai kuliah
untuk laki-laki tetapi konsisten meremehkan nilai kuliah untuk perempuan. Namun,
penelitian tidak menunjukkan bahwa ini adalah kasus tentang pemeriksaan yang sebenarnya seperti itu.
meskipun
banyak yang berpendapat bahwa tes masuk perguruan tinggi dapat menjadi bias terhadap perempuan
dan etnis
minoritas, penelitian tentang pengujian masuk perguruan tinggi menunjukkan bahwa tes melakukan
pekerjaan yang sama baik
memprediksi kinerja perguruan tinggi di seluruh kelompok yang berbeda, asalkan anggota
kelompok tersebut adalah penutur asli bahasa Inggris (Brown, Reynolds, & Whitaker, 1999; Sattler,
2001; Young, 2003).
Sekarang bahwa Anda memiliki kesempatan untuk berpikir tentang fungsi dan isu-isu standar
tes dan peran guru dalam pengujian standar, membaca studi kasus berikut
dan mencoba untuk memecahkan dilema guru Nunaka Valley SD ini.

SBA) dimulai pada bulan April, sehingga selama beberapa bulan ke depan kami akan
meninjau strategi pemecahan masalah dan mengambil tes praktek
dalam membaca, menulis, matematika, dan ilmu pengetahuan. Hari ini, Anda akan mengambil
tes praktek matematika sehingga saya dapat mengidentifikasi daerah-daerah di mana Anda
mungkin perlu bantuan tambahan, "Mr Cardasis menjelaskan kepada fourthgraders nya.
"Ah, tidak tes lain, kami hanya mengambil tes matematika minggu lalu,"
Christopher protes.
"Dan aku punya tes membaca ini
pagi, "Emma menambahkan.
"Sepertinya semua yang kita lakukan adalah tes, tes,
tes, "Madison mengomel.
"Aku tahu kau punya banyak tes
akhir-akhir ini, tapi apa yang harus kita lakukan.
Percayalah, aku tidak suka tes baik,
tapi itu sesuatu negara membutuhkan.
Besok, kita akan dapat kembali ke
kegiatan belajar yang menyenangkan kami. Maafkan aku, aku
berharap kita tidak perlu menghabiskan begitu banyak
pengujian waktu, tapi itu hanya cara itu, "
Mr Cardasis mengatakan meminta maaf. untuk
sisa matematika pelajaran
keempat anak kelas diam-diam menyelesaikan
tes, yang terutama terdiri dari kata
masalah.
"Itu terlalu keras," Tyler mengeluh
setelah itu.
"Ya, saya menduga pada tiga masalah terakhir," Chloe mengakui.
"Kadang-kadang Anda harus menebak," Mr Cardasis balasan. "Kami akan
pergi besok tes. "
"Tapi saya pikir kau bilang kita akan melakukan sesuatu yang menyenangkan?"
Madison mengingatkannya.
"Yah," Mr Cardasis berhenti. "Kami akan mencoba untuk mendapatkan beberapa menyenangkan
kegiatan, tetapi pengujian fokus besar kita sekarang. Aku tahu bagaimana perasaan Anda.
Ini bukan sesuatu yang saya berharap baik. "
Setelah sekolah, Mr Cardasis menghadiri ketiga untuk kelas lima perencanaan
pertemuan untuk membahas strategi uji-persiapan. "Bagaimana praktek
tes akan sejauh ini? "Mrs Iso, pengujian Nunaka Valley
koordinator, meminta kelompok guru.
"Murid-murid saya tampak terbakar habis sudah," Mr Cardasis
dimulai. "Mereka mengeluh dan mengatakan tes terlalu keras.
Saya tidak yakin apa yang harus dilakukan karena SBA masih tiga bulan
pergi. "
"Aku menyesal mendengarnya. Kita bisa memikirkan strategi untuk membantu
memotivasi siswa Anda. Sebagai guru, penting untuk secara efektif
mempersiapkan mereka dan model sikap positif terhadap
tes, "Mrs Iso menyarankan.
"Saya ketiga kelas benar-benar menikmati bermain game uji-persiapan di
tim. Pertama, saya punya pertanyaan jawaban kelas tentang kue
grafik. Kemudian masing-masing tim menciptakan masalah grafik mereka sendiri,
menggabungkan olahraga favorit mereka. Tidak mengherankan, Iditarod
adalah pilihan yang populer. Mereka memiliki banyak
menyenangkan, "Mrs Nappaaluk laporan.
"Saya senang mendengar Anda menggunakan
teknik pembelajaran kooperatif, "
Ibu Iso mendorong. "Test-persiapan tidak
berarti seatwork individu.
Saya pikir sangat penting untuk mendapatkan
siswa berbicara dan berpikir kritis
tentang pemecahan masalah. "
"Ya, mereka bertanya apa
permainan kami akan bermain besok.
Jadi saya pikir, sebagai sebuah kelompok, kita bisa
datang dengan kegiatan yang akan membantu
mempersiapkan siswa untuk tes, "Mrs
Nappaaluk menyarankan. "Saya ingin mereka
merasa percaya diri dan siap untuk
SBA. "
"Ide bagus. Pertama, mari kita tinjau
mondar-mandir kalender untuk memastikan kami
mencakup semua standar penting
sebelum April dan kemudian kita dapat bertukar pikiran kegiatan, "Mrs Iso
merespon.
"Aku tidak tahu bagaimana aku akan mengajar statistik dan probabilitas
sebelum April, karena saat kelima anak kelas masih
berjuang dengan fraksi, "Mr Peratrovich mengatakan kelompok.
"Saya mengalami masalah yang sama menemukan waktu untuk fungsi aljabar,"
Ibu Nappaaluk mengakui.
"Saya pikir yang terbaik yang bisa kita lakukan adalah mengekspos siswa untuk konsep
yang mungkin pada tes sehingga mereka tidak bingung pada bulan April, "
Ibu Iso merekomendasikan.
"Jujur," Mr Cardasis dimulai. "Saya merasa seperti itu hanya mengajar
untuk menguji, dan itu bukan tujuan saya sebagai seorang pendidik. Kita semua
prihatin nilai tes sekolah, tetapi ketika kita melakukannya
banyak tes-persiapan, siswa kehilangan waktu belajar yang berharga.
Sebagai contoh, saya ingin menghabiskan setidaknya dua minggu pada pengukuran
dan geometri sehingga saya dapat menyertakan aplikasi dunia nyata; tapi

banyak tes-persiapan mengambil menyenangkan dan kreativitas dari pembelajaran dan


daun siswa merasa cemas dan tidak terlibat. "
"Saya menyadari bahwa sebagai profesional kita mungkin memiliki berbeda
filsafat tentang pengujian standar. Tapi untuk saat ini, pengujian
di sini untuk tinggal dan kita memiliki tanggung jawab untuk mengajar siswa kami
alat yang mereka butuhkan untuk berhasil. Kau tahu, tes yang digunakan
sepanjang hidup-untuk mendapatkan surat izin mengemudi, untuk kuliah, untuk lulusan
sekolah, atau untuk memenuhi syarat untuk pekerjaan, "Mrs Iso balasan.
Mr Peratrovich melompat: "Saya pikir sangat penting untuk diingat
bahwa tidak ada tes memberikan gambaran lengkap pengetahuan siswa,
kemampuan, atau bakat. Tapi program penilaian yang efektif yang
berfokus pada keterampilan berpikir kritis harus menjadi bagian dari pendidikan kita
rencana. Kita harus bertanggung jawab kepada siswa kami dan mereka
keluarga. "
"Saya mengerti maksud Anda," Mr Cardasis dimulai. "Aku hanya tidak ingin
melupakan menyediakan kurikulum baik-bulat yang tidak hanya
memberikan siswa dasar dalam dasar-dasar tetapi juga mencakup
musik, seni, pendidikan jasmani, dan pilihan lainnya. Saya pikir itu
kesalahan untuk beberapa mata pelajaran, seperti ilmu-ilmu sosial, harus didorong
samping, hanya karena mereka tidak pada SBA. "
"Yah, saya pikir itu sebabnya kita perlu mengevaluasi kembali apa artinya
untuk mempersiapkan siswa untuk ujian, "Mrs Iso mengusulkan. "Meminta
siswa untuk mendiskusikan dan memperdebatkan isu-isu, mendorong mereka untuk
mendukung jawaban mereka dengan bukti, dan mengajar mereka bagaimana
untuk menguji hipotesis adalah semua strategi yang akan membantu mereka di
tes dan sepanjang hidup. "
"Sebagai guru tahun pertama, saya memiliki kesan bahwa SBA
menilai pengetahuan yang sangat dasar dan menawarkan sedikit peluang untuk
siswa untuk menggunakan keterampilan berpikir tingkat tinggi, seperti analisis,
sintesis, evaluasi, dan kreativitas, "saham Ms Kendall.
"Memang benar, tes tidak memberikan siswa kesempatan untuk
membuat proyek diperpanjang atau menjawab pertanyaan-pertanyaan terbuka. tapi
pertanyaan tes tahapan memang membutuhkan siswa untuk menganalisis
data, memberikan pendapat mereka, dan membenarkan jawaban mereka. Banyak
soal matematika meminta siswa untuk memberikan penjelasan tertulis
proses pemikiran mereka, "jelas Mrs Iso.
"Saya pikir itu akan sangat membantu bagi kita untuk membahas strategi yang efektif
akan kami gunakan untuk mempersiapkan siswa untuk tes, "Mr Cardasis
kata. "Haruskah siswa tes praktek lengkap setiap minggu?
Haruskah mereka bekerja dalam kelompok kooperatif untuk berlatih masalah
pemecahan? Haruskah kita menargetkan standar tertentu sebelum April?
Haruskah kita meninjau tipe tertentu dari membaca pertanyaan? Haruskah
kami menekankan estimasi dan nomor akal untuk membantu siswa
memvalidasi jawaban mereka? "
"Mereka adalah semua strategi yang baik, yang dapat kita bahas lebih lanjut
mendalam, "Mrs Iso merekomendasikan. "Ingatlah untuk merencanakan instruksi
berdasarkan kebutuhan siswa Anda. Whatmay bekerja untuk satu siswa
atau salah satu guru mungkin tidak bekerja bagi orang lain. Saya pikir jika kita semua
memfokuskan energi kami pada penyediaan berkualitas tinggi, berdasarkan penelitian-
instruksi, siswa akan belajar keterampilan yang mereka butuhkan untuk berhasil. "
Isu dalam Standar Pengujian •••••••••••••••••• 521 C
KASUS PERTANYAAN ANALISIS PANDUAN
Langkah 1: Identifikasi
Identifikasi dan jelaskan secara singkat isu utama di kelas
kasus.
Pertanyaan Membimbing: Yang siswa / guru / administrator / orang tua
perilaku cenderung berdampak pada siswa
pengembangan, pembelajaran, motivasi, perilaku kelas, dan / atau
penilaian dan mengapa?
Langkah 2: Evaluasi
Mengevaluasi proses pengambilan keputusan guru dalam kasus oleh
menggambarkan pro dan kontra dari tindakannya.
Membimbing pertanyaan: Apakah strategi guru mungkin untuk mengatasi
pengembangan, belajar, motivasi, perilaku kelas,
dan / atau tantangan penilaian yang diidentifikasi dalam langkah 1 dan mengapa
atau mengapa tidak?
Langkah 3: Solusi
Jelaskan strategi alternatif yang akan digunakan dalam kasus dengan
dasar pemikiran yang sesuai berdasarkan apa yang Anda ketahui dari pendidikan
teori psikologi dan penelitian.
Membimbing pertanyaan: Apakah ada alternatif strategi yang dapat
digunakan untuk mengatasi perkembangan, belajar, motivasi,
tantangan kelas perilaku, dan / atau penilaian diidentifikasi
pada langkah 1 dan mengapa? ●

Definisi ketiga bias tes bergantung pada penilaian dari sebuah panel ahli, yang
diasumsikan memiliki kemampuan untuk menganalisis isi tes dan menentukan apakah
tes diskriminasi terhadap kelompok yang berbeda dari individu. Uji penerbit tampaknya mendukung
definisi ini, karena mereka secara rutin menilai barang Bias dengan panel ahli. Pendidikan
Testing Service memiliki semua bahan penilaian terakhir oleh sebuah komite sensitivitas, yang
mengevaluasi apakah item mungkin menjadi bias terhadap Asia / Pacific Island Amerika, hitam
Amerika, Hispanik Amerika, penduduk asli Amerika / Indian Amerika, individu dengan
cacat, atau perempuan. Masalah dengan pendekatan ini adalah bahwa apa yang merupakan Bias
tergantung pada subjektivitas para ahli, sehingga menantang keandalan dan / atau validitas
keputusan panel ahli.
Sumber Uji Bias
Cara alternatif untuk memahami tes bias untuk menguji sumber-sumber potensial yang
dapat menghukum sekelompok mahasiswa tidak adil. Pada bagian ini, kita membahas beberapa sumber
yang mungkin menantang kewajaran pengujian standar: offensiveness, bias konten,
Bias bahasa, dan prosedur pengujian dan Format Bias (Anastasi & Urbina, 1997; Linn
& Miller, 2005).
Offensiveness. Sebuah tes bias karena offensiveness ketika sekelompok tertentu
siswa mungkin dihina oleh isinya. Contohnya adalah soal tes yang menyiratkan bahwa
anak laki-laki kreatif dan sukses pemecah masalah tapi gadis-gadis membutuhkan bantuan dengan
masalah.
Item tes bahwa siswa menganggap ofensif dapat menghasilkan perasaan-perasaan negatif yang
mungkin
mempengaruhi sikap mereka terhadap pengujian, dan karenanya nilai ujian mereka, yang menantang
kewajaran tes.
Konten Bias. Tes / item menampilkan Bias konten ketika itu menghasilkan nilai yang berbeda
antara kelompok siswa yang berbeda karena kandungan item / test kurang familiar
ke salah satu kelompok, meskipun kedua kelompok telah menguasai pengetahuan dan
keterampilan diukur dengan tes / item. Misalnya, item matematika pemecahan masalah yang
siswa diminta untuk membandingkan bobot beberapa objek, termasuk sepak bola, mungkin
menjadi bias terhadap anak perempuan karena perempuan cenderung memiliki pengalaman menangani
bola.
Jadi mereka mungkin menemukan item lebih sulit daripada anak laki-laki (Scheuneman, 1982). The
ketidaksesuaian antara konten pengujian dan pengalaman sebelumnya juga dapat mengakibatkan bias
terhadap tertentu
budaya, regional, sosial ekonomi, atau kelompok agama.
Sebuah studi penelitian terbaru menunjukkan bahwa sebagian besar siswa Eskimo memilih jawaban
yang salah
ke item kosakata berikut dalam tes standar:
• "Manakah dari berikut ini akan paling mungkin untuk membawa Anda ke rumah sakit jika Anda
terluka? "
Jawaban yang benar adalah ambulans, namun siswa Eskimo terutama memilih pesawat
karena itu adalah bagaimana orang-orang dari komunitas mereka diangkut ke rumah sakit di
darurat (Platt, 2004).
Demikian pula, soal tes berikut dari Toolkit98 (Regional Pendidikan
Laboratorium, 1998) terbukti menjadi bias terhadap anak-anak pedesaan:
• Empat burung sedang duduk di pagar. Seorang petani melemparkan batu yang melanda salah satu
burung. Berapa banyak burung yang tersisa di pagar?
Meskipun pengembang barang diharapkan jawaban yang tepat untuk menjadi tiga, anak-anak petani
tahu
bahwa setelah batu dilemparkan, semua burung akan terbang jauh. Berdasarkan pengalaman mereka
sebelumnya,
jawaban mereka adalah nol (Kusimo et al., 2000).
Keragaman budaya kelas hari ini meningkatkan potensi bias konten
dan telah menyebabkan beberapa psikolog untuk mengusulkan pengembangan tes budaya bebas.
Namun demikian, upaya tersebut belum sangat sukses. Siswa dari Minor budaya

kelompok ity melakukan yang sama pada tes kecerdasan standar dan apa yang disebut budaya bebas
tes (Sattler, 2001), dan banyak ahli berpendapat bahwa tidak mungkin untuk membangun sebuah
culturefree
tes karena sangat tindakan administrasi, mengambil, dan menafsirkan tes budaya
di alam (Ogbu, 1994).
Sebuah alternatif untuk mencoba untuk mengembangkan tes kultur bebas adalah pengujian budaya
yang relevan, yang
terdiri dari menggunakan latar belakang budaya siswa untuk meningkatkan kebermaknaan item tes
(Bigelow, 1999; Gay, 1997; Sandoval, Scheuneman, Ramos-Grenier, Geisinger, & Frisby,
1999). Kesulitan dengan pendekatan ini adalah bahwa hal itu penting untuk memastikan bahwa makna
dari item tes untuk satu kelompok budaya adalah sama dengan yang untuk kelompok pembanding,
dan ini mungkin bermasalah. Selain itu, bahkan dalam kelompok budaya tunggal, ada besar
variasi di antara pengalaman siswa. Misalnya, latar belakang budaya dan masa lalu
pengalaman Ana, seorang mahasiswa yang keluarganya baru-baru ini pindah dari Cile, cenderung
sangat berbeda dengan Antonio, yang keluarganya beremigrasi dari Kuba banyak generasi
lalu. Namun Ana dan Antonio keduanya mahasiswa warisan Hispanik.
Bahasa Bias. Item bias tes bahasa ditampilkan saat itu menghasilkan nilai yang berbeda
antara kelompok siswa yang berbeda karena bahasa item tes kurang familiar
ke salah satu kelompok, meskipun kedua kelompok telah menguasai pengetahuan dan
keterampilan diukur dengan item tes. Karena tes standar biasanya diberikan
dalam bahasa Inggris, jenis ini bias kemungkinan akan timbul terhadap pelajar bahasa Inggris (ELLs)
yang diuji di daerah yang tidak terkait dengan seni bahasa. Tes bisa adil untuk ELLs saat
demonstrasi pengetahuan siswa tergantung pada pemahaman mereka atau mengungkapkan
ide dalam bahasa kurang akrab.
Untuk menghindari bias bahasa, para ahli telah mengusulkan beberapa solusi. satu terdiri
memberikan siswa akomodasi bahasa, modifikasi lingkungan atau
prosedur pengujian yang dirancang untuk menghilangkan efek dari kemampuan berbahasa Inggris pada
siswa
kinerja. Sebagai contoh, siswa ELL mungkin akan diizinkan untuk menggunakan bahasa Inggris
kamus atau glosarium saat mengambil tes, menerima waktu ekstra untuk menyelesaikan tes,
atau diberikan baik akomodasi (Abedi, Tuhan, Hofstetter, & Baker, 2000). lain
solusi terdiri dari memiliki sekelompok ahli bahasa menyederhanakan bahasa uji
item untuk meminimalkan kemungkinan bahwa kemampuan untuk memahami siswa akan mengganggu
dengan demonstrasi pengetahuan mereka (Abedi & Tuhan, 2001).
Penelitian tentang akomodasi bahasa ini, bagaimanapun, tidak sangat menjanjikan. A
Studi terbaru menunjukkan bahwa memungkinkan siswa waktu ekstra mengangkat sejumlah ELLs dan
non-ELLs sama, menunjukkan bahwa itu bukan akomodasi bahasa valid (Abedi et al.,
2000). Selain itu, penyederhanaan linguistik tidak ditemukan untuk membuat perbedaan yang signifikan
dalam kinerja keseluruhan perbedaan ELLs hanya kecil dalam kinerja mereka
pada beberapa item tes (Abedi, Hofstetter, & Tuhan, 2004).
Solusi yang diusulkan ketiga bias bahasa untuk menerjemahkan tes menjadi siswa
bahasa pertama. Masalah dengan pendekatan ini adalah bahwa terjemahan dapat mengakibatkan
makna
perubahan seluruh bahasa dan dialek, sehingga meningkatkan kekhawatiran tentang validitas
penilaian ini. Para Individu Penyandang Cacat Undang-Undang Pendidikan (IDEA) mensyaratkan bahwa
setiap penilaian yang digunakan untuk mengidentifikasi siswa dengan kebutuhan khusus diberikan
dalam
bahasa pertama siswa. Namun tidak ada informasi mengenai reliabilitas dan validitas
tes diterjemahkan dan tidak ada kelompok norma terhadap yang untuk membandingkan kinerja siswa
(Lopez, 1997; Sattler, 2001).
Ada juga kekhawatiran atas siswa pengujian dalam bahasa asli mereka ketika
Bahasa Inggris adalah bahasa pengantar karena siswa tidak memahami akademik
bahasa daerah konten (misalnya, matematika, IPA, IPS) di mereka
bahasa ibu. Oleh karena itu, pengujian native-language disarankan hanya untuk siswa
yang menerima instruksi dalam bahasa yang (Abedi et al., 2004). Singkatnya, penelitian lebih lanjut
tampaknya diperlukan untuk menemukan solusi yang tepat untuk masalah tes standar ini.
Prosedur Bias dan Format Bias. Akhirnya, bisa ada bias dalam prosedur pengujian
dan format tes itu sendiri. Hal ini terjadi ketika tes meliputi prosedur atau
format yang berbeda-beda akrab bagi subkelompok peserta ujian. Jenis bias

mungkin muncul ketika satu kelompok siswa kurang memiliki pengetahuan tentang prosedur pengujian
daripada yang lain, seperti anak-anak yang keluarganya baru-baru beremigrasi ke
Amerika Serikat dan berasal dari sistem pendidikan di mana pengujian standar tidak
praktek umum. Kurangnya keakraban dengan prosedur pengujian standar bisa,
Oleh karena itu, berpengaruh negatif terhadap kinerja kelompok ini. Namun, jenis bias dapat
mudah diperbaiki dengan berkomunikasi dengan jelas kepada siswa dan orang tua prosedur,
konsekuensi,
dan harapan untuk pengujian standar di negara ini.
Akhirnya, pengujian Format Bias terjadi ketika siswa dari latar belakang budaya yang berbeda
atau berbeda gender dalam kecenderungan mereka untuk menebak pada pertanyaan pilihan ganda
(Ben-Shakhar
& Sinai, 1991; Gafni & Melamed, 1994). Kelompok yang cenderung untuk menebak ketika
jawaban untuk pertanyaan yang tidak diketahui dihukum, sehingga render tes tidak adil.
Tes standar harus memberikan kesempatan yang sama bagi semua siswa untuk menunjukkan
kemampuan dan pengetahuan mereka. Karena itu, ketika menafsirkan hasil standar
tes, guru harus berpikir tentang sejauh mana bahasa siswa
latar belakang, pengalaman, dan keyakinan telah mempersiapkan mereka untuk berhasil mengikuti tes
(Greenfield, 1997). Selain itu, guru harus merefleksikan potensi sumber bias
Ulasan di bagian ini ketika mereka membuat item penilaian mereka sendiri untuk menghindari
beberapa kelompok mendapatkan item yang benar atau salah untuk alasan yang salah. beberapa
membimbing
pertanyaan untuk membantu guru mengevaluasi tes mereka menciptakan bagi siswa disajikan
di Kelas Tips: Cara Mengenali Bias di Standar Uji Produk.
guru Pengujian
Kebanyakan negara membutuhkan calon guru untuk mengambil ujian lisensi. Meskipun tidak ada
ujian nasional di tempat belum, sekitar 80% dari negara-negara yang memerlukan ujian lisensi
menggunakan
Tes PRAXISTM diterbitkan oleh Testing Service Pendidikan (2009). Seri ini terdiri
dari tiga komponen berikut:
• Praksis ITM-screening awal keterampilan akademis dasar diambil sebelum sarjana
siswa secara resmi mengakui program sertifikasi guru
• Praksis IITM-satu set ujian keluar diambil sebelum siswa diberikan pengajaran
bidang isi khusus sertifikat dan menutupi siswa dan pengetahuan pedagogis
(prinsip-prinsip belajar dan mengajar)
• PRAXIS IIITM-tes kinerja mengajar (misalnya, rencana pelajaran, esai, portofolio,
video, pengamatan kelas) diberikan selama tahun pertama mengajar
dan yang dapat digunakan untuk membuat keputusan lisensi

Serikat dapat meminta salah satu atau semua dari tes PRAXISTM untuk lisensi.
Tes PRAXISTM mendukung gerakan akuntabilitas saat ini
dengan memegang guru bertanggung jawab untuk memenuhi terukur
hasil pendidikan. Namun, tes PRAXISTM telah dikritik
kurangnya konsistensi di seluruh negara tentang nilai cutoff
dan penegakan tes (Darling-Hammond & Baratz-Snowden,
2005). Inilah sebabnya mengapa telah terjadi panggilan terakhir untuk ujian nasional
untuk calon guru (Keller, 2005; Wineburg, 2006).
Para kritikus berpendapat bahwa tes hanya dapat menilai pengetahuan tingkat rendah dan
keterampilan dan kemampuan guru untuk mengelola kompleksitas kelas
mahasiswa beragam tergantung pada faktor-faktor lain selain pengetahuan
dinilai dalam tes standar (Kohn, 2000b; Nagel & Peterson, 2001).
Namun, mirip dengan kasus gerakan akuntabilitas, meskipun
Kontroversi sekitar tes ini, penggunaannya telah didukung oleh
Federasi Guru Amerika, terbesar kedua profesional
organisasi pendidik di negara (Blair, 2000). Sertifikasi maju lain
Program adalah Badan Nasional Standar Pengajaran Profesional (NBPTS), yang
mencakup kombinasi satu tahun penilaian kinerja di kelas, pengembangan portofolio,
dan rekaman video. Untuk mempelajari lebih lanjut tentang tes PRAXISTM dan NBPTS, Anda dapat
kunjungi website di http: // www. ets.org/ praksis dan http://www.nbpts.org.
● ARAH BARU DI PENGUJIAN DISTANDARISASI
Karena banyak isu seputar pengujian standar, arah baru yang berfokus
pada alternatif untuk penilaian tradisional muncul. Pada bagian ini kita membahas
dua arah baru dalam pengujian standar: penilaian otentik dan berbasis komputer
pengujian.
Penilaian otentik
Kritik tes standar tradisional berpendapat bahwa penilaian ini berfokus pada keterampilan dasar
dan fakta-fakta yang tidak relevan dengan dunia nyata. Meminta siswa untuk memecahkan pertanyaan
secara individual,
tanpa kemampuan untuk menggunakan sumber daya atau alat-alat dan di bawah tekanan waktu,
apakah
tidak mencerminkan kondisi memecahkan masalah dalam kehidupan nyata, di mana orang bekerja sama
dengan
satu sama lain, menarik dari berbagai sumber daya dan alat-alat, dan menggunakan pemikiran high-
order mereka
dan kreativitas (Chang & Chiu, 2005; Wolf, Bixby, Glenn, & Gardner, 1991).
Arah baru lahir dari kritik-kritik ini ditujukan untuk menciptakan apa standar
tes otentik. Ingat dari Bab 12 bahwa penilaian otentik adalah mereka yang mengukur
Kinerja siswa pada tugas-tugas yang relevan dengan kehidupan di luar sekolah dan
termasuk penilaian kinerja, portofolio, dan pameran (Popham, 2005). banyak
negara mengadopsi penilaian otentik sebagai bagian atau seluruh sistem penilaian seluruh negara
bagian mereka.
Kebijakan ini biasanya tercermin dalam standar negara tertentu, seperti yang terlihat dalam
berikut contoh.
• Pada tahun 1990, Kentucky lulus Pendidikan Reformasi Undang-Undang, yang mengatur tujuan
bahwa siswa menerapkan pengetahuan yang diperoleh di sekolah dengan situasi kehidupan sehari-hari
(Komisi Nasional Pengujian dan Kebijakan Publik, 1990).
• Vermont mengadopsi sistem penilaian seluruh negara bagian yang berbasis portofolio-
(Vermont Departemen Pendidikan, 2000).
• Kentucky termasuk menulis portofolio dan item terbuka dimana siswa
perlu menjelaskan alasan mereka (Kentucky Department of Education, 2000).
• Maryland menggunakan penilaian kinerja dalam matematika, sains, dan menulis
(Maryland State Departemen Pendidikan, 2001).

Versi yang lebih baru dari penilaian nasional tradisional juga bergerak ke arah ini;
mereka termasuk pilihan ganda yang lebih sedikit dan lebih item dibangun-respon,
di mana mahasiswa diwajibkan untuk menghasilkan sebuah esai, solusi untuk masalah, atau visual
representasi (misalnya, grafik, diagram) untuk menunjukkan pengetahuan mereka. The SAT memiliki
pindah ke penilaian yang lebih otentik tertulis oleh termasuk 20 sampai 30 menit tertulis
esai.
Seperti yang mungkin Anda ingat dari bab sebelumnya, sisi buruk otentik
penilaian adalah bahwa mereka memiliki keterbatasan mereka sendiri ketika datang untuk memenuhi
persyaratan
penilaian yang baik. Pertama, tidak jelas apakah penilaian otentik berlaku
penilaian standar pembelajaran. Bahkan ketika seorang siswa berhasil menyelesaikan tertentu
hands-on penilaian kinerja dalam ilmu pengetahuan, itu masih mungkin bahwa siswa akan
tidak menampilkan pengetahuan dan keterampilan yang diperlukan untuk melakukan tugas ilmu yang
berbeda
(Shavelson, Baxter, & Gao, 1993). Keterbatasan penting kedua adalah bahwa penilaian otentik
yang ditemukan sangat dapat diandalkan (Driessen, van der Vleuten, Schuwirth, van
Tartwijk, & Vermunt, 2005; Herman & Winters, 1994; Jasper & Fulton, 2005). Jika otentik
penilaian akan digunakan untuk membandingkan kinerja seluruh siswa, sekolah,
kabupaten, negara, dan bahkan bangsa, perawatan khusus untuk memastikan keandalan Peringkat
diperlukan.
Ketiga, meskipun pertunjukan, pameran, dan portofolio dapat digunakan pada seluruh sekolah yang
dasar, mereka tidak memiliki kepraktisan di kabupaten, negara bagian, dan tingkat nasional karena
mereka
terlalu mahal dan rumit untuk mengelola (Wiggins, 1989). Akhirnya, kekhawatiran khusus
muncul ketika upaya yang dilakukan untuk membakukan penilaian otentik, yaitu, untuk membuat
pengalaman yang seragam untuk semua siswa (Worthen, 1993).
Keterbatasan ini telah membuat negara-negara seperti Arizona, California, Kentucky, dan
Wisconsin menghindar dari upaya mereka untuk memasukkan penilaian otentik di seluruh negara
bagian
tes. Sampai penilaian otentik dapat dikembangkan menjadi penilaian kualitas tinggi, mereka
harus dikombinasikan dengan lebih banyak jenis penilaian tradisional. Tes standar tampaknya
menjadi satu-satunya jenis penilaian yang dapat memberikan "gambaran besar," sebanding, dan dapat
diandalkan
informasi belajar siswa (Worthen & Spandel, 1991).
Pengujian Berbasis Komputer
Dalam bentuk yang paling sederhana, pengujian berbasis komputer terdiri dari menyajikan siswa dengan
sama
tes standar yang biasanya diberikan dalam format kertas dan pensil. beberapa
keuntungan dari pengujian berbasis komputer melalui pengujian kertas dan pensil tradisional
administrasi dan efisiensi mencetak, mengurangi biaya pengujian, keamanan tes ditingkatkan sehingga
dari transmisi elektronik dan enkripsi, pengambilan keputusan lebih cepat sebagai akibat dari
penilaian segera dan pelaporan, administrasi tes berisi dan mencetak gol, dan lebih sedikit
entri respon dan pengakuan kesalahan (Asuni, 2008; Scheuermann & Guimarães Pereira,
2008). Selain itu, penilaian berbasis komputer menunjukkan validitas dan reliabilitas yang sebanding
untuk penilaian kertas dan pensil menggunakan item yang lebih sedikit dan waktu kurang (Anastasi &
Urbina, 1997).
Komputer mampu menghadirkan berbagai penilaian tradisional,
termasuk benar-salah, pilihan ganda, isi-in-the-blank, dan openended
pertanyaan. Selain itu, teknologi simulasi dapat diintegrasikan
dalam pengujian berbasis komputer untuk memungkinkan siswa untuk melakukan hands-on
tugas kinerja, seperti melakukan percobaan sains virtual,
yang lebih efisien daripada kinerja ilmu kelas yang sebenarnya
tes (Fitzgerald et al., 2008).
Sebuah penggunaan yang lebih berguna dari komputer adalah pengujian adaptif, yang disesuaikan
pengiriman item tes untuk tingkat kinerja siswa berbeda
(Olson, 2000; WAINER, 2000). Dalam situasi ini, siswa mulai dengan
menjawab satu soal tes; kemudian, tergantung pada apakah siswa
memberikan jawaban benar atau salah untuk pertanyaan itu, hadiah komputer
item baru dari kesulitan yang lebih tinggi atau lebih rendah, masing-masing. sebagai siswa
menjawab lebih item, update komputer kinerja mereka
profil. Ada penghematan waktu yang signifikan dengan penggunaan adaptif
pengujian karena dapat memberikan informasi yang lebih akurat mengenai

apa yang siswa tahu atau mampu melakukan tanpa membuang-buang waktu pada item yang terlalu
mudah atau terlalu sulit. Selain itu, pengujian adaptif memungkinkan siswa untuk pulih dari
langkah yang salah selama pemecahan masalah (yang tidak mungkin di non-komputer berbasis
testing), dan mereka menghindari kesalahan manusia dalam rating (Kumar & Helgeson, 1995).
Sebuah penggunaan baru dan menjanjikan pengujian berbasis komputer terdiri dari menyediakan siswa
dengan
format penilaian yang sulit untuk mengelola dalam kondisi pengujian standar biasa,
seperti presentasi animasi, simulasi, video, dan kaset audio. aplikasi ini
belum di tempat. Namun, ketika aplikasi ini mulai memasuki dunia
penilaian standar, sangat penting bahwa mereka dapat diandalkan dan cukup dilaksanakan dan bahwa
siswa menjadi kompeten dan nyaman menggunakan komputer untuk menunjukkan pembelajaran
mereka.
● DIVERSITY IN PENGUJIAN DISTANDARISASI
Kami sudah membahas bagaimana latar belakang bahasa dan budaya siswa yang beragam dapat
menantang keadilan dan validitas tes standar. Bagian ini memperluas pada
topik keragaman dalam pengujian standar dengan berfokus pada yang luar biasa, tinggi kecemasan, dan
siswa perkotaan.
Exceptionalities dan Pengujian Standar
Seperti yang Anda ingat dari Bab 2, menurut Individu Penyandang Cacat Pendidikan
Act (IDEA), siswa yang telah diidentifikasi memiliki kebutuhan khusus membutuhkan individual
Program pendidikan (IEP), yang menentukan tujuan yang akan dicapai
dalam tujuan pembelajaran umum kelas. Oleh karena itu, guru harus akrab
dengan semua IEPs untuk anak-anak yang luar biasa di dalam kelas mereka sehingga mereka dapat
menyesuaikan mereka
penilaian dengan tujuan yang telah ditetapkan dalam IEPs.
Menurut IDEA, siswa dengan exceptionalities harus disertakan pada umumnya
pengujian standar, meskipun akomodasi yang sesuai harus disediakan
(Spinelli, 2002). Seorang anak mungkin perlu beberapa akomodasi berikut: memiliki
waktu tambahan; mengambil penilaian dalam lebih dari satu sesi; yang dinilai dalam
ruang yang terpisah; memiliki guru membaca instruksi; memungkinkan siswa untuk
suara daripada menulis jawaban; menggunakan asisten; atau memiliki akses ke pekerjaan
prosesor, braillewriter, atau kamus. Jenis tertentu di
diperlukan akan tergantung pada kebutuhan khusus siswa. Membaca tes untuk siswa yang agak
daripada meminta siswa untuk membaca tes dia / dirinya sendiri mungkin cocok untuk mahasiswa
dengan ketidakmampuan belajar, dan pembesar tes dicetak mungkin tepat
untuk mahasiswa yang secara visual ditantang. Meskipun banyak sekolah dan kabupaten memiliki
kebijakan akomodasi sudah di tempat yang harus Anda belajar tentang (Pitoniak &
Royer, 2001), sumber tambahan informasi tentang menilai kebutuhan khusus siswa
dapat ditemukan di Pusat Nasional di website Pendidikan Hasil '
cehd.umn.edu/nceo.
Uji Kecemasan dan Pengujian Standar
Sumber lain keragaman dalam pengujian standar adalah kecemasan. Anda mungkin
ingat dari Bab 9 bahwa ada dua jenis kecemasan, kecemasan fasilitatif
dan melemahkan kecemasan. Kecemasan fasilitatif moderat dan tidak
tentu memiliki efek negatif kinerja. Di sisi lain, melemahkan
kecemasan mencapai tingkat mana kinerja menjadi terganggu.
Hal ini tidak jarang untuk menemukan anak-anak yang telah mengembangkan melemahkan
kecemasan selama tes pengambilan setelah dikritik kuat tentang masa lalu
kegagalan (Covington & Omelich, 1987). Cate, salah satu mahasiswa Ibu Kirkland
Bayangkan Anda di Apakah Guru, kemungkinan telah mengembangkan melemahkan
tes kecemasan.

Selain itu, siswa yang lebih tua, siswa dari beberapa kelompok minoritas, dan orang-orang dari
latar belakang-SES rendah juga ditemukan kemungkinan untuk menampilkan tes kecemasan (Hill, 1984;
Kirkland, 1971; Phillips, Pitcher, Worsham, & Miller, 1980). Sebagai contoh, beberapa Asia-
Siswa Amerika mungkin menampilkan tes kecemasan karena tekanan keluarga tinggi untuk melakukan
baik di sekolah (Pang, 1995). Oleh karena itu, guru harus mempertimbangkan strategi untuk
meminimalkan
kecemasan yang tidak perlu di sekitar situasi tes standar:
• Mempromosikan pembelajaran berorientasi daripada pendekatan berorientasi kinerja dalam
kelas.
• Tekankan bahwa penilaian adalah kesempatan untuk belajar dan mengevaluasi diri.
• Kirim pesan bahwa membuat kesalahan adalah suatu kondisi untuk pembelajaran dan pertumbuhan.
• Mempersiapkan siswa Anda jauh di atas waktu untuk mengambil tes standar dengan menyediakan
informasi sebanyak mungkin dalam hal konten mereka, format, dan tujuan
dan dengan terlibat dalam tes praktek sering.
Siswa Perkotaan dan Standar Pengujian
Karena keragaman yang tinggi di lingkungan perkotaan, guru harus sangat sadar
dari beberapa keterbatasan tes standar yang dibahas dalam bab ini. Pertama, siswa perkotaan
mungkin datang ke kelas tanpa pengetahuan yang memadai tentang pengujian
prosedur dan format, yang, seperti yang Anda ingat, dapat menjadi sumber pengujian Bias. Seperti
siswa tinggi kecemasan, masalah ini dapat diselesaikan dengan memberikan informasi yang jelas uji
di muka dan memberikan siswa penilaian sering dari jenis yang sama sehingga mereka dapat
menjadi akrab dengan format yang dan prosedur mereka.
Kedua, karena banyak siswa perkotaan akan ELLs, akan ada tambahan
potensi bias bahasa. Seperti yang disarankan sebelumnya, guru harus menggunakan bahasa apapun
akomodasi yang diperbolehkan, seperti menyediakan siswa dengan perpanjangan waktu selama
uji-mengambil, membaca arah keras, atau memungkinkan penggunaan kamus.
Melanie Stetson Freeman / The Christian Science Monitor / Getty Images, Inc
KEMBALI ISU PENDIDIKAN
Sekolah dapat Tutup Gap Prestasi?
Poin yang perlu dipertimbangkan: Di satu sisi, kritikus pendidikan publik
berpendapat bahwa kesenjangan prestasi adalah hasil dari overrepresentation yang
siswa Afrika-Amerika dan Hispanik di low
Kemampuan trek, yang ditandai dengan dangkal dan
Kurikulum tidak menantang (Darling-Hammond, 2004). ingat
dari Bab 2 bahwa etnis minoritas dan berpenghasilan rendah siswa
jauh lebih mungkin untuk jatuh ke dalam trek lebih rendah dari rekan-rekan mereka,
bahkan ketika mengendalikan tingkat prestasi masa lalu
(Burris & Welner, 2005; Le Tendre, Hofer, & Shimizu, 2003).
Kritikus ini mencatat bahwa kesenjangan prestasi melebar sebagai
sekolah tahun meningkat, memberikan dukungan lebih lanjut untuk ide
bahwa siswa Afrika-Amerika dan Hispanik yang tidak baik
dilayani oleh sistem pendidikan saat ini. Akibatnya,
menurut pandangan ini, kesenjangan prestasi dapat ditutup
oleh sekolah asalkan upaya serius dilakukan untuk memberikan
kesempatan pendidikan yang sama bagi semua siswa.
Lain percaya bahwa kesenjangan prestasi telah bertahan
meskipun upaya itikad baik sekolah untuk mereformasi kurikulum dan
kebijakan (Borman & Hewes, 2003). Menurut pandangan ini,
kesenjangan prestasi dapat ditutup, namun sekolah-sekolah saja tidak bisa
membuat perubahan sistemik yang diperlukan untuk melakukannya. The
kesenjangan sosial dan ekonomi antara berbagai etnis dan
kelompok ras di Amerika Serikat telah menyebabkan kemiskinan yang lebih tinggi
tarif di antara keluarga Afrika-Amerika dan Hispanik.
Anak-anak yang tinggal di rumah yang kurang beruntung memiliki akses yang lebih
untuk perawatan kesehatan yang diperlukan, nutrisi, dan bahan-bahan yang
mendukung pertumbuhan intelektual (misalnya, buku, komputer,
Kunjungan museum, perpustakaan).
Meskipun itu adalah tanggung jawab dari setiap administrator sekolah
dan guru untuk memberikan pendidikan berkualitas untuk semua siswa,
upaya mereka perlu didukung oleh luas
kesehatan, gizi, dan program pengangguran untuk membuat
perubahan yang signifikan dalam kehidupan siswa yang ditinggalkan
belakang (Mathis, 2005).
Ketiga, siswa-SES yang lebih rendah atau mereka yang berasal dari latar belakang budaya yang beragam
mungkin mengalami kesulitan yang berkaitan dengan isi dari beberapa item tes standar, potensi
sumber bias konten. Sayangnya, kecuali Anda merancang penilaian Anda sendiri, konten
Bias hanya dapat diperiksa setelah tes telah diberikan. Namun penting
untuk melihat kinerja siswa pada item yang berbeda ketika Anda menafsirkan
skor dari tes standar.
Akhirnya, beberapa siswa mungkin percaya bahwa tes standar yang menghukum, sehingga gagal
untuk melihat mereka sebagai kesempatan untuk belajar. Untuk menghindari menyimpan tes standar
negatif
keyakinan (ingat bahwa tes ini di sini untuk tinggal!), guru harus menciptakan learningfocused
lingkungan kelas. Anda dapat meninjau Bab 11 untuk beberapa panduan yang berguna.
● RINGKASAN
• Tes distandarisasi adalah mereka diberikan kepada sampel besar siswa di bawah kondisi yang sama
dalam rangka untuk memungkinkan perbandingan konten dan penilaian yang tepat. mereka
dapat melayani seleksi dan penempatan, akuntabilitas, evaluasi program, dan diagnostik
fungsi. Tes standar yang paling umum digunakan di sekolah-sekolah adalah bakat,
prestasi, diagnostik, dan kesiapan tes. Tes bakat digunakan untuk memprediksi
prestasi akademik di masa depan; tes prestasi digunakan untuk menilai apa pengetahuan
dan keterampilan siswa telah belajar; tes diagnostik digunakan untuk mengidentifikasi spesifik
belajar kebutuhan siswa; dan tes kesiapan digunakan untuk menilai apakah anak-anak
telah memperoleh keterampilan yang diperlukan untuk berhasil di TK atau kelas satu.
• tes standar yang baik memiliki membangun, konten, atau validitas prediktif; menghasilkan
konsisten, stabil, hasil untuk setiap siswa (reliability); menyediakan semua siswa dengan
kesempatan yang sama untuk menunjukkan pengetahuan dan keterampilan (keadilan); dan
relatif mudah untuk mengelola dan skor (kepraktisan). Tes standar yang baik adalah
juga didasarkan pada norma kelompok yang mewakili populasi yang akan diuji.
• Statistik yang digunakan untuk menginterpretasikan hasil tes standar termasuk distribusi frekuensi
dan langkah-langkah yang relatif dan kumulatif frekuensi; ukuran pusat
kecenderungan (yaitu, mean, median, modus); dan ukuran variabilitas (yaitu, kisaran
dan standar deviasi). Di antara berbagai nilai yang dapat digunakan pada standar
tes skor mentah, skor kelas-setara, skor persentil, dan
nilai standar seperti stanines, z-skor, dan skor-t. Distribusi normal adalah
berbentuk lonceng dan biasanya ditemukan ketika jumlah nilai sangat besar,
seperti dalam kasus tes yang diwajibkan pemerintah.
• Peran guru dalam pengujian standar yang mempersiapkan siswa untuk
tes, administrasi tes, menafsirkan nilai tes, berkomunikasi hasil tes,
dan menggunakan hasil tes standar untuk merencanakan instruksi. pengujian standar
terkait erat dengan gerakan akuntabilitas saat ini. Para pendukung gerakan
berpendapat bahwa tes standar secara efisien menilai kualitas pendidikan;
kritikus menunjukkan bahwa pengujian standar adalah mahal, menyempit kurikulum, dan
gagal untuk mencerminkan tantangan khusus dari beberapa sekolah. Standar lain saat
Masalah tes uji Bias, yang terjadi ketika tes tidak adil bagi anggota
beberapa kelompok tetapi tidak untuk orang lain. Meskipun tidak ada kesepakatan mengenai definisi,
ahli mengidentifikasi beberapa potensi sumber bias tes: offensiveness, konten
Bias, bias bahasa, dan pengujian prosedur dan format yang Bias.
• pengujian Guru juga digunakan dalam mengejar pertanggungjawaban guru, dengan sebagian besar
negara yang membutuhkan calon guru untuk mengambil ujian lisensi. Sebuah tren saat ini di
pengujian standar adalah upaya untuk membuat tes otentik standar untuk menilai
pengetahuan dan keterampilan yang relevan dengan dunia nyata. Namun penilaian otentik
dikritik karena memiliki keterbatasan ketika datang untuk memenuhi persyaratan
penilaian yang baik. Kecenderungan lain dalam pengujian standar adalah berbasis komputer
pengujian, yang memiliki keuntungan menjadi lebih efisien daripada kertas dan pensil
pengujian dan beradaptasi item tes untuk tingkat kinerja siswa yang berbeda.

• Beberapa negara telah mengadopsi penilaian otentik sebagai bagian atau seluruh seluruh negara
bagian mereka
sistem penilaian dalam upaya untuk lebih mencerminkan kondisi pemecahan masalah
dalam kehidupan nyata. Rendahnya validitas, reliabilitas, dan kepraktisan penilaian otentik,
Namun, keterbatasan yang kuat ketika datang untuk memenuhi persyaratan
penilaian yang baik.
• Guru perlu mempertimbangkan kebutuhan khusus siswa saat pemberian standar
tes. Siswa dengan ketidakmampuan mungkin perlu akomodasi khusus untuk
menyelesaikan tes. Siswa dengan uji kecemasan harus disiapkan sebelum tes
dan diberikan bimbingan untuk mengurangi kecemasan. Guru-guru di sekolah-sekolah perkotaan harus
menyadari sumber potensi bias ketika datang ke tes standar.
● SYARAT UTAMA
pengujian adaptif 526
tes kultur bebas 522
distribusi frekuensi
506
kelas-setara Rata
510
berisiko tinggi tes 499
histogram 507
Skor IQ 500
akomodasi bahasa
523
berarti 507
median 507
Mode 508
Penilaian Nasional
Kemajuan Pendidikan
(NAEP) 501
norma kelompok 505
distribusi normal 509
skor persentil 510
Kisaran 508
Rata-mentah 510
standar deviasi 508
nilai standar 511
tes standar 498
stanines 511
mengajar untuk tes 518
bias tes 504
Tren Internasional
matematika dan
Studi Ilmu (TIMSS)
502
z-skor 512
● UJI PENGETAHUAN DAN PEMAHAMAN
Menggunakan apa yang Anda pelajari dari bab ini, memberikan jawaban singkat untuk pertanyaan-
pertanyaan berikut.
Ulasan Pertanyaan-pertanyaan ini akan membantu Anda menilai pemahaman Anda tentang bab ini.
1.Apakah tes standar dan tujuan apa mereka melayani?
2 Apa saja berbagai jenis tes standar?
3 Apa karakteristik tes standar yang baik?
4. statistik apa yang digunakan untuk menafsirkan kinerja kelompok pada tes standar?
5. Apa jenis nilai dapat digunakan untuk melaporkan kinerja dalam tes standar?
6 Apa peran guru dalam pengujian standar?
7 Apakah tes bias dan berapa banyak sumber bias kau tahu?
8 Apa sajakah keuntungan dari pengujian standar berbasis komputer?
9. Apa adalah beberapa pertimbangan khusus untuk menggunakan tes standar dengan perkotaan
dan siswa yang luar biasa?

CONNECT APA YANG ANDA PELAJARI


UNTUK BAB LAIN
Pertanyaan-pertanyaan berikut akan membantu Anda mengintegrasikan apa yang Anda pelajari dalam
bab ini dengan relevan
topik yang dibahas dalam bab-bab sebelumnya.
1 Apa tantangan tersendiri yang gerakan akuntabilitas saat berpose untuk
guru (Bab 1)?
2 jenis manakah keanekaragaman siswa dapat mempengaruhi validitas dan keadilan dari standar
penilaian tes (Bab 2)?
3 Bagaimana Anda akan berhubungan ZPD Vygotsky ke Potensi Penilaian Pembelajaran
Metode penilaian Perangkat (Bab 3)?
4.Apa pola asuh akan lebih mungkin untuk memperoleh melemahkan tes kecemasan dalam
siswa (Bab 4)?
5. Bagaimana Anda membenarkan gagasan menyediakan siswa dengan tes praktek sering
prinsip pembelajaran behavioris menggunakan (Bab 5)?
6 Bagaimana mungkin keterampilan metakognitif siswa membantu kinerja mereka pada standar
tes (Bab 6)?
7 Apa saja tren saat ini dalam penilaian negara dan nasional high-order
berpikir (Bab 7)?
8 Apa beberapa keterbatasan tes standar sesuai dengan sociocognitive dan
konstruktivistik belajar (Bab 8)?
9. Bagaimana mungkin mencetak rendah pada tes kesiapan mempengaruhi motivasi anak untuk belajar
(Bab 9)?
10 Bagaimana Anda akan mengevaluasi kemampuan untuk mendukung siswa tes standar rasa
kompetensi dan otonomi (Bab 10)?
11 Unsur-unsur apa dari kelas yang dikelola dengan baik diperlukan untuk mendukung siswa
sukses di tes standar (Bab 11)?
12 Di mana cara adalah penilaian guru tradisional buatan berbeda dari commercially-
membuat tes standar (Bab 12)?

Studi Kasus: Bagaimana ini Sekolah Menengah Guru


Pastikan Ef fective Standar Pengujian?
Berikut ini adalah kasus kelas berdasarkan pengalaman guru otentik.
Baca kasus dengan hati-hati. Kemudian menjawab terbuka
pertanyaan yang mengikuti dengan menerapkan teori-teori dan penelitian dibahas
dalam bab ini.
Ibu Rodriquez mengajar matematika di Sekolah Navarro Tengah,
terletak di Rio Grande Valley of Texas selatan, di mana 91%
dari siswa Hispanik. Berdasarkan ketentuan akuntabilitas
di No Child Left Behind Act, Navarro setiap tahun dievaluasi
untuk membuat kemajuan tahunan yang memadai (AYP) untuk semua
sub kelompok siswa. Ibu Rodriquez tahu kebijakan pengujian negara
dapat membingungkan bagi guru baru, siswa, dan orang tua,
jadi dia bekerja sama dengan rekan-rekannya untuk menciptakan mendukung
lingkungan sekolah yang mempersiapkan siswa untuk melakukan mereka
terbaik. Di Navarro, subkelompok besar ditetapkan sebagai terbatas
Mahir bahasa Inggris (LEP). Di Texas, siswa LEP mengambil kedua
Reading Proficiency Test dalam bahasa Inggris (RPTE), yang dirancang untuk
mengukur pertumbuhan tahunan mereka dalam bahasa Inggris membaca kemampuan, dan
Texas Penilaian Pengetahuan dan Keterampilan (taks) tes,
baik dalam bahasa Inggris atau Spanyol, untuk memberikan yang komprehensif
penilaian keterampilan mereka.
Selama dua tahun terakhir di Navarro, siswa ditunjuk sebagai
LEP telah berjuang untuk memenuhi AYP dalam matematika pada tes taks.
Di Texas, seperti banyak negara, siswa LEP dapat menerima akomodasi,
disebut bahasa ditampung pengujian (LAT),
berdasarkan kebutuhan mereka. Akomodasi LAT termasuk guru
membaca pertanyaan tes keras, menyediakan terjemahan lisan
kata, menggunakan kamus dwibahasa, dan menggunakan gambar sehingga
siswa dapat memahami apa pertanyaan tes yang meminta.
Setelah menganalisis data uji taks dari sebelumnya
schoolyear, guru matematika Navarro menemukan bahwa siswa LEP
dilakukan baik pada masalah komputasi tetapi konsisten
mencetak rendah pada masalah tingkat tinggi. Para guru menyimpulkan
bahwa skor rendah adalah karena tidak kekurangan siswa pemahaman
tetapi mereka kurang berlatih dengan pemecahan masalah di dalam
kelas. Mereka memutuskan untuk membuat pemecahan masalah tingkat tinggi
a fokus untuk schoolyear dan mulai merencanakan bagaimana untuk memasukkan
praktek sehari-hari ke dalam kurikulum mereka.
Para guru matematika menyadari bahwa pemecahan masalah sukses
melibatkan serangkaian proses kognitif. Ini termasuk membaca
masalah untuk memahami, parafrase itu, merencanakan bagaimana
memecahkannya, memperkirakan jawabannya, komputasi matematika, dan memeriksa
untuk memastikan rencana itu sesuai dan jawabannya adalah benar.
Pemecahan masalah matematika juga memerlukan pengaturan diri
strategi. Sebagai siswa memecahkan masalah, mereka harus memberitahu diri
apa yang harus dilakukan; mengajukan pertanyaan; dan mengevaluasi, memantau, dan
memverifikasi apa yang mereka lakukan. Tujuannya guru bagi siswa untuk mandiri
menerapkan proses kognitif dan strategi untuk
masalah yang mereka hadapi. Untuk memulai inisiatif pemecahan masalah,
guru membuat alat penilaian yang ramah siswa untuk digunakan dalam
kelas mereka. Dari pengalaman, mereka tahu tes taks akan meminta
siswa untuk menulis respon untuk menjelaskan pemikiran mereka dibangun
dan untuk menunjukkan perhitungan mereka.
Untuk menjawab pertanyaan-pertanyaan dibangun-respon, siswa akan
perlu berlatih tidak hanya bagaimana menghitung jawaban, tetapi juga bagaimana
untuk menjelaskan pemikiran mereka. Oleh karena itu, guru membuat sederhana
rubrik sehingga siswa dengan mudah dapat mengevaluasi diri jawaban mereka.
Masalah khas mungkin:
Penjelasan matematika Rubrik
DID I. . . YA TIDAK
Tulis ulang masalah dalam kalimat pembuka saya?
Sertakan nomor penting?
Jawaban masalah?
Jelaskan bagaimana saya mendapat jawaban saya (yang
pemecahan masalah strategi atau operasi saya menggunakan)?
total
Jumlah Ya memeriksa 1 2 3 4
Grade 60% 75% 85% 100%
Untuk memberikan siswa berlatih dengan format ini pemecahan masalah baru,
guru merencanakan untuk memulai semua kelas matematika mereka dengan
"Solusi of the Day" pelajaran. Pada awal tahun, guru
akan menggunakan waktu ini untuk secara eksplisit mengajarkan siswa bagaimana untuk memecahkan

masalah dan membimbing mereka langkah-demi-langkah melalui proses. The


guru merencanakan untuk model kedua benar dan salah pemecahan masalah
perilaku. Pemodelan perilaku yang benar akan membantu siswa
memahami bagaimana pemecah masalah yang baik menggunakan proses tertentu dan
strategi, sedangkan pemodelan perilaku yang salah akan mendorong
mereka untuk memantau proses dan memperbaiki kesalahan pemecahan masalah.
Sebagai tahun berlangsung dan siswa menjadi lebih mahir
dan pemecah masalah independen, tujuan instruksional akan
untuk menyajikan lebih kompleks, masalah tahapan. para guru
ingin siswa untuk berlatih memecahkan berbagai masalah dalam
berbagai format sehingga siswa merasa siap dan percaya diri
ketika tiba saatnya untuk mengambil tes taks. Seperti kebanyakan tes negara,
Taks tidak dibatasi waktu, jadi guru mendorong siswa untuk mengambil banyak
waktu pada setiap masalah dan untuk memeriksa kembali pekerjaan mereka. guru
menyadari pemeriksaan kemajuan secara teratur akan sangat penting untuk menentukan
apakah strategi membantu kinerja siswa. Ini
juga akan sangat penting untuk memberikan siswa umpan balik korektif sehingga
siswa tahu apakah mereka secara efektif menggunakan problemsolving yang
rutin dan mencari solusi yang tepat. Mereka berharap bahwa dengan
siswa kuartal musim semi akan secara otomatis memonitor dan mengevaluasi
pekerjaan mereka karena mereka menjawab pertanyaan-pertanyaan.
Selama tiga tahun terakhir, Navarro Sekolah Tengah telah menerapkan
rencana dukungan seluruh sekolah untuk mempersiapkan siswa dan orang tua
untuk tes taks. Rencana ini memiliki empat komponen utama.
Pertama, guru dan administrator memastikan bahwa sekolah
kalender instruksional sejajar dengan jadwal pengujian negara.
Mereka menyelaraskan lingkup dan urutan standar isi
di setiap mata pelajaran sehingga konsep-konsep penting dan pelajaran
diajarkan sebelum tes diberikan.
Kedua, Navarro menawarkan berbagai pengayaan setelah sekolah
program, seperti olahraga, seni, dan musik, yang memotivasi siswa
dan melibatkan mereka dalam kegiatan koperasi yang berarti.
Guru mengamati tingkat kehadiran siswa yang lebih tinggi dan lebih baik
fokus pada belajar akademik selama schoolday dengan pengenalan
klub setelah-sekolah.
Ketiga, selama kuartal musim semi, lembaga sekolah yang
jam "Ya! Kita bisa melakukannya "test-persiapan pada hari Jumat pagi. selama
ini jam, siswa ulasan strategi ujian, menerapkannya
tes latihan singkat, dan kemudian meninjau tes dan mereka menggunakan
strategi sebagai sebuah kelas. Siswa menyelesaikan tes praktek di
kelas yang sama dengan guru yang sama dan kelompok siswa
dengan siapa mereka akan mengikuti tes taks. Siswa yang ditunjuk
sebagai LEP dan mereka yang memiliki IEPs menerima akomodasi,
sehingga para siswa dan guru yang akrab dengan bagaimana
Tes taks akan diberikan.
Keempat, sekolah mengkomunikasikan semua informasi yang berhubungan dengan pengujian
kepada orang tua dalam bahasa Spanyol dan Inggris. Mereka menyediakan penerjemah
pada pertemuan orangtua-guru dan pertemuan sekolah sehingga
orang tua baik informasi tentang tes dan umpan balik pada mereka
kemajuan anak. Fakultas di Navarro menemukan bahwa ini komprehensif
rencana dukungan membantu semua siswa mereka, dan khususnya LEP mereka
siswa, bersiaplah untuk menunjukkan keterampilan yang telah mereka kuasai.
APLIKASI DAN REFLEKSI PERTANYAAN
Jawablah pertanyaan berikut dengan menggunakan informasi yang diambil
langsung dari kasus ini. Untuk setiap respon, pastikan Anda mendasarkan
jawaban Anda pada teori-teori psikologi pendidikan yang relevan dan
penelitian.
1 Apakah ada tipe tes standar yang dibahas dalam
kasus (aptitude, prestasi, diagnostik, kesiapan) dan
apa fungsinya masing-masing?
2 Bagaimana guru menerapkan masing-masing dari penilaian
langkah siklus (persiapan, administrasi, evaluasi,
komunikasi)?
3 Manakah dari prinsip-prinsip pengujian standar dari
Kelas Tips: Cara Mendukung Standar Efektif
Pengujian yang diterapkan dalam kasus ini dan bagaimana?
4. Apakah guru menunjukkan kesadaran siswa
keragaman?
5. Mengevaluasi keefektifan dari praktik guru
dengan memasukkan kedua kekuatan dan kelemahan.

Anda mungkin juga menyukai