Validasi
Proses pengumpulan bukti untuk mendukung (atau gagal mendukung) interpretasi tertentu
dari nilai tes disebut sebagai validasi. Kami membutuhkan bukti untuk menetapkan bahwa
kesimpulan, yang dibuat berdasarkan hasil tes, adalah tepat. Sejumlah penelitian mungkin
diperlukan untuk membangun bukti tentang validitas interpretasi berbasis skor ini. Standards
for Educational and Psychological Testing mendaftarkan tiga kategori bukti yang digunakan
untuk menetapkan validitas interpretasi berbasis skor, yaitu: : (1) evidence based on content,
(2) evidence based on relations to a criterion, dan (3) construct-related evidence of
validity. Menggunakan kategori-kategori ini tidak berarti bahwa ada jenis validitas yang
berbeda tetapi, sebaliknya, bahwa berbagai jenis bukti dapat dikumpulkan untuk mendukung
tujuan penggunaan tes. Kategori-kategori ini saling melengkapi dan semua sangat penting
untuk konsep kesatuan validitas.
1. Evidence Based on Test Content
Bukti berdasarkan konten tes, melibatkan isi tes dan hubungannya dengan konstruk
yang ingin diukur. peneliti harus mencari bukti bahwa tes yang akan digunakan
mewakili sampel yang seimbang dan memadai dari semua pengetahuan, keterampilan,
dan dimensi yang relevan yang membentuk domain konten. Validasi tes prestasi,
misalnya, akan mempertimbangkan kesesuaian konten tes dengan total area konten
yang akan diukur serta seberapa memadai sampel uji domain total. Seseorang tidak
akan mencoba mengukur pengetahuan siswa kimia tentang oksidasi, misalnya, hanya
dengan dua pertanyaan.
Reliabilitas
Reliabilitas dari suatu alat ukur adalah derajat konsistensi dengan apa alat itu mengukur
apapun yang diukurnya. Kualitas ini sangat penting dalam setiap jenis pengukuran. Pada
tingkat teoretis, reliabilitas berkaitan dengan pengaruh kesalahan pada konsistensi
skor. Di dunia ini pengukuran selalu melibatkan beberapa kesalahan. Ada dua jenis
kesalahan:
kesalahan pengukuran acak dan kesalahan sistematis pengukuran. Kesalahan acak adalah
kesalahan yang disebabkan oleh kebetulan murni. Kesalahan pengukuran acak dapat
meningkatkan atau menekan skor mata pelajaran apa pun dengan cara yang tidak terduga.
Kesalahan sistematis, di sisi lain, meningkatkan atau menekan skor kelompok yang dapat
diidentifikasi dengan cara yang dapat diprediksi. Kesalahan sistematis adalah akar dari
masalah validitas; kesalahan acak adalah akar dari masalah reabilitas.
Jika sebuah tes terlalu mudah dan semua orang tahu sebagian besar jawabannya, skor relatif
siswa sekali lagi hanya bergantung pada beberapa pertanyaan dan keberuntungan merupakan
faktor utama. Jika pertanyaannya ambigu, peserta ujian yang "beruntung" merespons dengan
cara yang diinginkan oleh penguji, sedangkan subjek yang "tidak beruntung" menjawab
dengan cara lain yang sama benarnya, tetapi jawaban mereka dinilai salah.