X=T+E
X = Skor pengukuran
T = Skor sebenarnya (True score)
E = Kesalahan (Error)
Teori dasar sampling mengenai kesalahan acak:
Distribusi kesalahan sampling berbentuk lonceng
Pusat distribusi skor = skor sebenarnya
Sebaran di sekitar rerata menunjukkan
distribusi kesalahan sampling
Skor sebenarnya dapat diperkirakan dg
mencari
rerata skor
Teori Tes Klasik:
True score individu tidak akan berubah dg
pemberian tes yg sama secara berulang
Kesalahan acak dapat menyebabkan pemberian
tes yg sama secara berulang menghasilkan skor
yg berbeda
Misal:
Jika kita ingin mengevaluasi kemampuan pengejaan
bahasa inggris. Teknik yg paling tepat adalah melihat
kamus & meminta anda mengeja setiap kata &
menentukan presentase pengejaan yg benar. Tapi
pengukuran tsb memakan waktu.
Reliabilitas -> perbandingan antara varians skor
pengukuran dari tes yg lebih singkat & varians skor
sebenarnya
Semakin besar jumlah sampel -> semakin akurat
mewakili domain (populasi)
Semakin tinggi jumlah item -> semakin tinggi reliabilitas
Setiap item merupakan sample kemampuan
perilaku yg akan diukur
Setiap item harus mewakili secara
seimbang
kemampuan yg diteliti
Reliabilitas dapat diperkirakan dari korelasi antara skor
pengukuran & skor sebenarnya
Skor sebenarnya hampir tidak mungkin ditemukan
Komputer digunakan untuk fokus pada rentang kesulitan
item yg membantu memeriksa level kemampuan individu.
Kelebihan
Perkiraan kemampuan lebih terpercaya
Tes dg item lebih singkat
Kekurangan
Memerlukan bank item yg telah dievaluasi scr sistematis
tingkat kesulitannya
Perlu software yg kompleks
Umumnya koef reliabilitas = korelasi
Koefisien reliabilitas
Perbandingan (rasio) antara varians skor sebenarnya dg
varians skor pengukuran -> merupakan presentase.
Misal:
Reliabilitas tes = 0,40 dibandingkan dengan kenyataan
40% variasi dari hasil tes dapat dilihat dalam kenyataan
60% sisanya perbedaan hasil tes & kenyataan berasal dari
faktor lain
Skor pengukuran ≠ skor sebenarnya
Sumber error:
Situasi saat tes
Faktor kesehatan subjek
Item tes tidak mewakili domain
dll
Model-model Reliabilitas
dianggap error
Klasik
Membandingkan 2 bentuk tes yg ekuivalen (sepadan)
mengukur hal yg sama, dengan item berbeda & peraturan
pemilihan item dari level kesulitan yg sama.
Kelebiha
n
Cara Pembagian:
Membagi setengah bagian pertama & kedua
Membagi item menjadi 2 bagian secara acak
Sistem ganjil-genap -> jika tingkat kesulitan
soal
semakin meningkat
Mencari reliabilitas dg korelasi kedua bagian
Reliabilitas yg diperoleh dapat lebih rendah dari yg
sebenarnya karena masing2 subtes hanya
setengah dari panjang tes yg utuh
Korelasi antara 2 bagian jika setiap bagian memiliki
panjang seperti keseluruhan tes untuk
meningkatkan perkiraan reliabilitas -> Rumus
Spearman-Brown
Jika varians item tidak seimbang -> koefisien
alpha Cronbach
Permasalahan yg Muncul:
Pembagian tes -> varians bisa berbeda
Penilaian secara terpisah -> pekerjaan
bertambah
Kuder-Richardson 20
Teknik menghitung reliabilitas yang secara
simultan memperhitungkan semua cara yg
mungkin untuk membagi item.
Koreksi
Pengurangan
Menurut model domain sampling, semakin besar
jumlah sample item, semakin mungkin tes mewakili
karakteristik yg sebenarnya
Keputusan menambah jumlah item tes merupakan
proses yg memakan biaya & waktu