RELIABILITAS DAN
MODEL PENILAIAN KLASIK
Penyusun:
Deborah Stephanie Rajagukguk
1803548
BAB I
PENDAHULUAN
Model penilaian klasik yang benar adalah salah satu masalah yang
paling signifikan dari daya tarik psikolog Inggris Charles Spearman dengan
konsep korelasi. Dari 1904-1913 ia menerbitkan argumen logis dan
matematis yang Penilaian tes adalah langkah-langkah keliru sifat manusia,
dan dengan demikian korelasi yang diamati antara nilai tes keliru lebih
rendah dari korelasi antara "nilai obyektif benar" mereka (Spearman, 1904).
Dalam berulang kali mencoba untuk menjelaskan istilah tindakan keliru
dan nilai-nilai obyektif benar, Spearman (1907, 1913) meletakkan dasar
untuk model Penilaian klasik benar. Banyak penulis, terutama Guilford
(1936), Gulliksen (1950), Magnusson (1967), dan Tuhan dan Novick (1968),
telah disajikan kembali dan diuraikan model ini ke dalam bentuk yang
dijelaskan di sini.
Inti dari Model Spearman adalah bahwa setiap nilai ujian diamati
dapat dibayangkan sebagai gabungan dari dua komponen-hipotetis
Penilaian yang benar dan kesalahan acak komponen-diekspresikan dalam
bentuk
X=T+E (6.1)
X=7-2=5
X=4+3=7
Akhirnya, Ralph tahu jawaban atas 8 item, merindukan item dengan salah
membaca pertanyaan, tapi tebakan benar pada item yang dia tidak tahu.
kesalahan positif dan negatif nya membatalkan satu sama lain sehingga
Penilaiannya adalah
X=8+0=8
Contoh-contoh numerik menggambarkan efek aditif dari kesalahan
pengukuran positif dan negatif, tetapi tidak benar untuk menyimpulkan
bahwa peserta ujian "Skor Benar" seperti yang didefinisikan dalam model
Penilaian klasik benar, adalah beberapa nomor yang tepat dari item yang
diuji dapat menjawab.
Uji Penilaian sebagai Variabel Acak
Variabel adalah kuantitas yang mungkin menganggap salah satu dari satu
set nilai. Sebuah variabel acak dapat longgar didefinisikan sebagai variabel
yang mengasumsikan nilai-nilai sesuai dengan seperangkat probabilitas.
Sebagai contoh, anggaplah bahwa Anda akan melempar dadu bersisi enam.
Jumlah titik yang akan muncul pada wajah atas die dapat dianggap sebagai
variabel acak. Variabel ini dapat mengambil nilai-nilai dari 1 sampai 6
menurut seperangkat probabilitas. Pada lemparan tunggal mati, hanya satu
nilai terjadi. Nilai ini disebut realisasi variabel acak. Meskipun variabel acak
ini mungkin menganggap hanya enam nilai yang mungkin, jumlah realisasi
dari variabel acak tidak terbatas karena Anda bisa membayangkan
melempar dadu lagi dan lagi tanpa mempengaruhi itu. Hal ini
menyebabkan cara kedua konseptualisasi variabel acak: Variabel acak
dalam contoh dapat dilihat sebagai distribusi hipotetis hasil dari lemparan
dari mati. Sebuah lemparan tunggal dapat dianggap sebagai sampel acak
dari satu hasil dari distribusi ini hasil yang mungkin. Penting untuk dicatat
bahwa probabilitas yang tepat dari terjadinya masing-masing nilai saya
untuk 6 tidak diketahui dan tidak dapat diketahui. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Sebuah lemparan tunggal
dapat dianggap sebagai sampel acak dari satu hasil dari distribusi ini hasil
yang mungkin. Penting untuk dicatat bahwa probabilitas yang tepat dari
terjadinya masing-masing nilai saya untuk 6 tidak diketahui dan tidak
dapat diketahui. Kita tidak bisa hanya menegaskan bahwa probabilitas
masing-masing nilai adalah seperenam. Bahkan jika mati yang diproduksi
untuk menjadi adil, tidak ada jaminan bahwa itu adalah persis adil. Jika
Anda mencoba untuk menentukan probabilitas empiris dengan melempar
mati sejumlah besar kali, Anda dapatkan, di terbaik, perkiraan probabilitas.
Dengan setiap lemparan baru dari mati, perkiraan ini akan berubah sedikit.
Sebuah lemparan tunggal dapat dianggap sebagai sampel acak dari satu
hasil dari distribusi ini hasil yang mungkin. Penting untuk dicatat bahwa
probabilitas yang tepat dari terjadinya masing-masing nilai saya untuk 6
tidak diketahui dan tidak dapat diketahui. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit.
Setiap kali sebuah ujian mengambil tes, Penilaian pada tes yang
juga dapat dianggap sebagai realisasi dari variabel acak. Mengapa
Penilaian tes dikonseptualisasikan dengan cara ini? Catatan pertama
bahwa tes terdiri dari sejumlah tertentu dari item. Jika tes memiliki 50 item
Penilaian peserta ujian mungkin jatuh di mana saja antara 0 dan 50 (sama
seperti hasil dari lemparan kisaran die antara 1 dan 6). Sebelum ujian
mengambil ujian, kita tidak bisa tahu apakah ia akan memiliki contoh
sedikit atau banyak kekurangan perhatian, tebakan beruntung atau tidak
beruntung, salah membaca item, dan sebagainya. Jadi (sebelum
administrasi pemeriksaan) kita dapat melihat Penilaian tes ini individu
sebagai kemungkinan asumsi salah satu dari beberapa nilai menurut
beberapa set yang tidak diketahui probabilitas. Distribusi ini Penilaian
potensi peserta ujian individu dapat dianggap sebagai variabel acak, dan
Penilaian benar-benar diperoleh ketika ujian mengambil tes adalah realisasi
bahwa variabel acak. Untuk membayangkan bagaimana mendapatkan
perkiraan distribusi hipotetis ini Penilaian untuk ujian, bayangkan
administrasi tes ini berulang kali untuk terperiksa, menghipnotis peserta
ujian dan menginstruksikan peserta ujian untuk melupakan pengujian
sebelumnya, kemudian mengulangi proses ini berkali-kali. Jelas Penilaian
yang diamati diperoleh dari pengujian yang berulang dari individu ini akan
berfluktuasi karena kesalahan pengukuran dibahas sebelumnya. Distribusi
frekuensi Penilaian yang diperoleh bisa memberikan perkiraan probabilitas
yang akan mengatur Penilaian ujian pada setiap kesempatan pengujian
tertentu. Dalam hal ini, nilai ujian yang diamati, seperti lemparan mati,
dapat dianggap sebagai realisasi dari variabel acak.
(Catatan bahwa ini adalah ilustrasi hipotetis karena probabilitas ini tidak
pernah secara langsung diamati.) Menurut dua distribusi probabilitas ini,
kami akan mempertimbangkan Susan sebagai lebih "mampu" terperiksa
karena probabilitas menunjukkan bahwa ia mungkin untuk mendapatkan
Penilaian yang lebih tinggi daripada Elaine ketika kita sampel hanya satu
nilai secara acak dari masing-masing distribusi.
Definisi Penilaian Benar
µ = ∑ 𝑿𝒌 𝒑 𝒌
𝒌=𝟏
(6.2)
di mana Xk adalah nilai k variabel random bisa berasumsi, dan pk adalah
probabilitas dari nilai tersebut. Untuk contoh mati, jika mati persis adil,
nilai yang diharapkan akan
𝟔
µ = ∑ 𝑿𝒌 𝒑𝒌
𝒌=𝟏
Selama dua peserta ujian pada Tabel 6.1, nilai-nilai yang diharapkan dari
nilai ujian mereka (menggunakan Persamaan 6.2) adalah 3,13 untuk Susan
dan 1,77 untuk Elaine. Untuk setiap ujian nilai yang diharapkan ini dapat
dianggap rata-rata semua nilai tes yang diuji dapat mencapai untuk
mengambil tes. Kemudian, Penilaian benar terperiksa dapat diartikan
sebagai rata-rata Penilaian yang diamati diperoleh melalui jumlah tak
terbatas pencobaan diulang dengan tes yang sama.
Mengingat definisi ini penting untuk dicatat perbedaan antara nilai
yang benar pada variabel psikologis dan Penilaian yang benar mutlak pada
variabel biologis atau fisik. Anggaplah, misalnya, dokter mencurigai bahwa
pasien memiliki penyakit hati kronis. Pada variabel ini pasien memiliki
Penilaian yang benar mutlak. Dia baik memiliki penyakit atau dia tidak.
Bahkan dengan Penilaian yang benar mutlak, masih mungkin untuk
kesalahan pengukuran terjadi. Tes laboratorium yang digunakan untuk
mendeteksi penyakit ini (analisis isoenzim) dapat menghasilkan hasil yang
berbeda ketika diulang untuk pasien yang sama. Namun demikian,
Penilaian sejati pasien mutlak ada secara independen dari hasil tes ini. Kami
tidak pernah akan mengatakan bahwa keadaan hati pasien ditentukan oleh
nilai rata-rata hasil tes. Selanjutnya, tidak peduli berapa banyak jenis tes
dijalankan, pasien masih akan hanya memiliki satu nilai yang benar mutlak
pada variabel ini. Sebaliknya, Penilaian benar pasien pada tes psikologis
benar-benar tergantung pada proses pengukuran yang digunakan. Setiap
kesalahan sistematis atau biasing aspek dari tes tertentu bagi seorang
individu berkontribusi Penilaian benar psikologis orang itu pada tes itu.
Jadi jika Penilaian diamati individu pada Skala Intelijen Wechsler
mengalami depresi secara konsisten karena gangguan pendengaran atau
cacat bahasa, nilai benar (sebagai Nilai-nilai tersebut diamati) akan
diturunkan. Selain itu, jika kita mengukur kecerdasan dengan nonverbal
Raven Progressive Matrices dan skala Wechsler, yang memiliki komponen
verbal, individu ini akan memiliki nilai benar berbeda untuk setiap tes.
Definisi Kesalahan
Menurut model Penilaian klasik benar, kesalahan pengukuran adalah
perbedaan antara nilai peserta ujian ini diamati uji dan atau Penilaian yang
sebenarnya. Kesalahan dalam Penilaian untuk ujian j, (Ej), dengan
demikian didefinisikan sebagai
Ej= Xj - Tj (6.4)
Kesalahan, Ej, adalah variabel acak karena perbedaan antara Xj, variabel
acak, dan Tj, sebuah konstanta untuk diuji j. Mean dari distribusi kesalahan
untuk diuji j adalah nilai yang diharapkan
Kedua, nilai yang diharapkan dari sebuah konstanta hanya itu konstan;
sehingga untuk ujian j,
€Ej = Tj - Tj = 0 (6.8)
Ketiga prinsip menggambarkan sifat dasar nilai yang benar dan Penilaian
kesalahan yang memungkinkan kita untuk menerapkan model Penilaian
klasik benar untuk studi reliabilitas Penilaian tes. Deskripsi informal dasar
logis untuk setiap prinsip yang disajikan di sini. Pembaca tertarik pada
derivasi formal harus melihat Tuhan dan Novick (1968, pp. 37-38).
Misalkan sekelompok peserta ujian telah mengambil tes. Seperti yang telah
kita pelajari, masing-masing peserta ujian j memiliki satu nilai Penilaian
yang benar (Tj), yang rata-rata yang diamati Penilaian peserta ujian akan
mendapatkan lebih banyak pencobaan diulang pada instrumen ini atau
instrumen paralel. Akibatnya, dalam teori, ujian j memiliki seperangkat
kemungkinan Penilaian yang diamati pada tes ini sehingga
Tj = eXj
(6.9)
Notasi harapan ganda ini setara dengan mengatakan bahwa rata-rata
Penilaian berlaku untuk populasi yang diuji adalah sama dengan rata-rata
semua nilai yang diamati yang mungkin diterima oleh semua peserta ujian
lebih banyak pencobaan berulang, atau yang
𝝁𝑻 = 𝝁𝑿 (6.10)
Untuk menemukan nilai error rata-rata untuk kelompok μE, Kita mengikuti
prosedur yang sama:
(6.11)
Namun, kita sudah tahu bahwa €Ej = 0, dan dengan demikian
Karena nilai yang diharapkan dari sebuah konstanta adalah bahwa konstan
berikut bahwa
𝝁𝑬 = 0 (6.12)
Hal ini penting untuk diingat bahwa prinsip ini tidak menjamin bahwa
setiap kali tes diberikan, rata-rata kesalahan peserta ujian pada tes yang akan
menjadi nol. Secara kolektif Ej untuk semua peserta ujian merupakan
penduduk kesalahan, dengan nilai yang diharapkan (atau rata-rata populasi)
dari nol. Penyelenggara tes tunggal untuk kelompok 200 peserta ujian setara
dengan memilih sampel Ej ini nilai-nilai dengan menggambar satu nilai
secara acak dari nilai error dari masing-masing peserta ujian. Rerata sampel
ini Penilaian kesalahan mungkin atau mungkin tidak nol.
Bayangkan sebuah situasi di mana kita tahu nilai benar dan semua
nilai kesalahan untuk setiap peserta ujian dalam suatu populasi. Kami
menggunakan Penilaian tersebut untuk membangun sebuah sebar dengan
skala Penilaian kesalahan pada sumbu vertikal dan skala Penilaian yang
benar pada sumbu horisontal. Perhatikan bahwa karena setiap diuji
memiliki banyak nilai kesalahan, tetapi hanya satu nilai benar, akan ada
jumlah yang cukup besar poin untuk setiap nilai Penilaian benar diterima.
Misalkan kita menemukan Penilaian yang benar termurah untuk diuji
dalam kelompok. Akan ada satu atau lebih peserta ujian dengan Penilaian
sejati ini. Untuk setiap peserta ujian dalam populasi, dan akibatnya untuk
setiap ujian dengan Penilaian yang benar ini, μEj= 0. Jadi mean Penilaian
kesalahan untuk semua peserta ujian di Penilaian benar ini akan menjadi
nol. Jika kita menemukan semua Penilaian kesalahan untuk Penilaian yang
benar ini, mereka akan diplot sekitar rata-rata nol. Kemudian misalkan kita
menemukan nilai terendah benar berikutnya dan ulangi proses ini. Sekali
lagi Penilaian kesalahan akan diplot sekitar rata-rata nol, dan seterusnya
untuk setiap nilai Penilaian yang benar. Gambar 6. 1 (a) menunjukkan plot
tersebut untuk lima nilai terendah dari T. Plot untuk semua kemungkinan
T-nilai akan muncul seperti pada Gambar 6.1 (b). Dari plot ini kita dapat
melihat bahwa korelasi antara benar dan kesalahan Penilaian harus nol
untuk populasi semua pengamatan mungkin bagi semua peserta ujian. Ini
berarti bahwa tidak ada hubungan antara "kemampuan" peserta ujian dan
kesalahan pengukuran yang mempengaruhi Penilaian mengamati ujian
pada setiap kesempatan pengujian. Dengan demikian kovarians antara
Penilaian yang benar dan Penilaian kesalahan adalah nol, sehingga total
varian Penilaian yang diamati hanya jumlah yang benar Penilaian dan
kesalahan varians. Pengetahuan tentang hubungan ini akan nantinya
berguna dalam bab ini.
Penilaian pada tes yang diberikan adalah sampel acak dari salah seorang
dari seluruh distribusi Penilaian kesalahan dengan rata-rata nol. Sebagai
hasil dari random sampling, tidak ada hubungan antara nilai-nilai dua nilai
kesalahan, dipilih dari dua distribusi independen. Karena ini berlaku untuk
setiap ujian, sebuah sebar menunjukkan titik untuk setiap kemungkinan
kombinasi nilai kesalahan dari tes pertama dan kedua akan sama dengan
yang dibangun pada Gambar 6.1 (b). Jadi kita melihat bahwa korelasi
antara kesalahan dari pencobaan yang berbeda adalah nol. Kesalahan
pengukuran acak yang mempengaruhi nilai peserta ujian pada satu
kesempatan tidak berhubungan dengan kesalahan pengukuran untuk ujian
ini sama pada pengujian lain.
x=t+e
atau
∑𝒕𝟐 ∑𝒕𝒆
ρXT = + (6.14)
𝑵𝝈 𝑿 𝝈 𝑻 𝑵𝝈 𝑿 𝝈 𝑻
𝝈𝟐𝑻
ρXT =
𝝈𝑿 𝝈𝑻
1Sebenarnya, itu tidak benar untuk menggunakan penjumlahan (Σ) notasi sini. Notasi
penjumlahan hanya sesuai untuk populasi terbatas dan tidak ada alasan untuk membatasi
presentasi untuk populasi yang terbatas. Sementara notasi harapan lebih umum,
penggunaannya di sini akan membutuhkan penjelasan tentang harapan ganda, yang dapat
membingungkan bagi para pemula. Tuhan dan Novick (1968, bab. 2 dan 3) membahas
model Penilaian benar klasik dengan pendekatan harapan ganda.
2 Sejak
∑𝒕𝒆 ∑𝒕𝒆 𝝈𝑻 𝝈𝑬
= ( )
𝑵𝝈 𝑿 𝝈 𝑻 𝑵𝝈 𝑿 𝝈 𝑻 𝝈𝑻 𝝈𝑬
∑𝒕𝒆 𝝈𝑻 𝝈𝑬
( )( )
𝑵𝝈𝑻𝝈𝑬 𝝈𝑻 𝝈𝑬
Kuantitas pertama dalam ekspresi sekarang mewakili ρTE, yang sama dengan nol.
Tes tersebut akan, sebagai akibatnya, memiliki sarana yang sama dan
varians yang sama. Hal ini juga cukup masuk akal (meskipun secara
statistik tidak diperlukan) untuk menganggap bahwa tes paralel akan
dicocokkan dalam konten.
Mari Penilaian deviasi peserta ujian pada dua tes paralel dinyatakan
sebagai x1 dan x2. Menurut model, rute Penilaian diamati dapat dinyatakan
sebagai
x1= t1 + e1
dan
x2 = t2 + e2
Rumus Penilaian deviasi untuk korelasi antara diamati nilai tes X1 dan X2
adalah
∑ 𝒙𝟏 𝒙𝟐
ρ𝒙𝟏 𝒙𝟐 =
𝑵𝝈𝒙𝟏 𝝈𝒙𝟐
∑𝒕𝟐𝟏
ρ𝒙𝟏 𝒙𝟐 =
𝑵𝝈𝟐𝑿
𝟏
atau
𝝈𝟐𝑻
ρ𝒙𝟏 𝒙𝟐 = (6.16)
𝝈𝟐𝑿
dan kita melihat bahwa koefisien reliabilitas dapat matematis didefinisikan
sebagai rasio varians Penilaian benar untuk diamati Penilaian varians (atau
persegi indeks Reliabilitas). Dalam menafsirkan informasi Reliabilitas,
penting untuk dicatat perbedaan antara:
C=A+B
Bagaimana menentukan Reliabilitas Penilaian Komposit (ρCC')? Perhatikan
bahwa pada titik ini menjadi agak melingkar untuk menunjukkan bahwa
pengembang tes harus membuat dua bentuk tambahan tes untuk
memberikan bentuk sejajar dengan Penilaian komposit pertama. Bahkan
jika hal itu bisa dilakukan, pertanyaan ini masih bisa muncul: Apa
reliabilitas gabungan dari keempat subyek? Oleh karena itu akan berguna
untuk memiliki metode untuk menentukan Reliabilitas komposit dalam hal
sifat statistik dari komponen internal. Pada bagian ini, kita akan
mempertimbangkan dua cara di mana Reliabilitas komposit dapat
dinyatakan dalam hal sifat statistik dari komponen-komponennya. Metode
pertama, yang menggunakan prosedur yang disebut nubuat Spearman
Brown, memungkinkan kita untuk memperkirakan Reliabilitas gabungan
dari tes paralel bila Reliabilitas salah satu tes yang dikenal. Metode kedua,
yang menggunakan prosedur yang dikenal sebagai alpha Cronbach,
memungkinkan kita untuk memperkirakan Reliabilitas komposit ketika
kita tahu varians Penilaian komposit dan covariances antara semua
komponennya. Untuk mempermudah dalam diskusi ini, kita akan
mengasumsikan bahwa kita mulai dengan satu set tes komponen paralel.
Kemudian, kami akan mempertimbangkan bagaimana hasil kami akan
terpengaruh jika tes komponen tidak ketat paralel.
C = A + B +. . . + K (6.17)
Penilaian varians yang diamati dari komposit ini kemudian
(6.18)
Dimana adalah jumlah k (k - 1) istilah kovarians, dan i dan j
𝜎𝐴 = 𝜎𝐵 = . . . = 𝜎𝑖 = 𝜎𝑗
Kami akan menggunakan ungkapan ini tak lama sebagai denominator dari
Reliabilitas komposit.
(6.21)
Karena Penilaian berlaku untuk setiap peserta ujian harus sama pada
langkah-langkah paralel i dan j, 𝝆𝑻𝒊 𝑻𝒋 = 1,00 untuk semua tes. Selain itu,
karena kita memiliki tes paralel,
Menggunakan ekspresi untuk 𝝈𝟐𝑻𝑪 (dari persamaan 6.22) dan 𝝈𝟐𝑪 (dari
Persamaan 6.20), kita sekarang dapat menulis persamaan untuk 𝜌CC'
sebagai
𝑘 2 𝜎𝑇2
𝑖
𝜌𝐶𝐶′ =
𝑘𝜎𝑇2 [1+(𝑘−1)𝜌𝑖𝑖′ ]
𝑖
𝜎𝑇2𝑖 = 𝜎𝑇𝑖 𝑇𝑗
Dari titik 3 (di awal bagian ini), 𝜎𝑇𝑖 𝑇𝑗 = 𝜎𝑖𝑗 , Dan dengan demikian dengan
substitusi,
Jika kita menggunakan ekspresi yang terakhir ini sebagai varians Penilaian
sejati komposit, kita dapat menuliskan ungkapan Reliabilitas komposit
sebagai
𝒌𝟐 𝝈𝒊𝒋
𝝆𝑪𝑪′ = (6.27)
𝝈𝟐𝑪
(6.28)
Jumlah yang kovarians di sisi kanan ketidaksamaan dapat dikombinasikan
menjadi fraksi tunggal sebagai berikut:
(6.29)
dimana ∑𝝈𝒊𝒋 adalah jumlah k (k -1) covariances tes yang mungkin tidak
ketat paralel. Jika kita membagi setiap sisi Persamaan 6.29 oleh 𝜎𝐶2 , kita
memiliki
yang sama dengan
𝒌 ∑𝝈𝟐𝑻
𝝆𝑪𝑪′ ≥ (𝟏 − ) (6.30)
𝒌−𝟏 𝝈𝟐𝑪
𝜎𝑇2 𝜎𝐸2
2 + 2 =1
𝜎𝑋 𝜎𝑋
Perhatikan bahwa istilah pertama dalam ekspresi kiri adalah definisi ρxx' begitu
𝜎𝐸2
ρxx' + 2 =1
𝜎𝑋
𝜎𝐸2
2 = 1 - ρxx'
𝜎𝑋
dan
𝝈𝑬 = 𝝈𝑿 √𝟏 − 𝝆𝑿𝑿′ (6.31)
Jadi jika deviasi standar untuk satu set nilai tes yang diamati diketahui 10
poin dan koefisien reliabilitas tes adalah ρxx'= 0,91, nilai kesalahan standar
pengukuran dapat dihitung sebagai berikut:
𝜎𝐸 = 10√1 − 0,91 = 3,0
Misalkan kita menunjuk satu set secara acak dari item sebagai ujian untuk
g. kemudian Xga mewakili ujian Penilaian yang diamati pada bentuk tes g.
Jelas membentuk g hanya salah satu dari banyak bentuk tes mungkin bisa
saja dihasilkan dari item kolam renang. Jadi ada distribusi frekuensi
kemungkinan nilai tes untuk ujian, mengakibatkan dari bentuk-bentuk tes
yang berbeda, yang didistribusikan secara acak di sekitar Ta. Standard error
dari pengukuran untuk diuji didefinisikan sebagai deviasi standar dari
distribusi teoritis ini mungkin nilai yang diamati di sekitar terperiksa
sebuah Penilaiannya benar.
nPa = 100(0,75) = 75
4Sebenarnya distribusi binomial akan membutuhkan item kolam renang tak terbatas.
Dengan mengingat bahwa 𝜌̂𝑔𝑎 = 𝑋𝑔𝑎 /𝑛 dan 𝑄̂𝑔𝑎 = 1 -𝜌̂𝑔𝑎 , kami tiba di ,
𝑿𝒈𝒂 (𝒏−𝑿𝒈𝒂 )
̂𝒂 = √
𝝈 (6.35)
𝒏−𝟏
80(100−80)
𝜎̂𝑎 = √ = 4.02
99
Untuk ujian lain, yang mencetak 50 poin pada 100-item tes secara acak
paralel dari bank item yang sama, perkiraan kesalahan standar pengukuran
akan 5,02. Hasil dua contoh ini menggambarkan perbedaan penting antara
standard error binomial pengukuran dan bahwa dari model Penilaian
klasik benar. Dengan model Penilaian klasik benar, biasanya hanya satu
kesalahan standar pengukuran diperkirakan, tapi kesalahan standar
binomial yang berbeda diperkirakan untuk Penilaian benar berbeda.
kesalahan standar binomial lebih besar untuk Penilaian yang benar di
tengah-tengah kemungkinan rentang Penilaian dan lebih kecil untuk
Penilaian pada ekstrem. (Standard error binomial adalah terbesar ketika Pa
= 0,50.) Karena perbedaan ini berbeda model kesalahan pengukuran
mungkin lebih sesuai dalam konteks praktis daripada yang lain.
A. SIMPULAN
Reliabilitas mengacu pada konsistensi kinerja relatif peserta ujian
lebih administrasi berulang tes yang sama atau bentuk paralel tes. Sumber
utama dari inkonsistensi dalam kinerja tes individu adalah kesalahan
pengukuran acak. Adalah kewajiban pengembang tes dan uji pengguna
untuk mencoba untuk menentukan sejauh mana kesalahan pengukuran
acak mempengaruhi hasil tes. Model Penilaian klasik benar memberikan
kerangka teoritis untuk pengembangan penyelidikan Reliabilitas praktis.
B. IMPLIKASI
𝜎𝑇21 = 𝜎𝑖𝑗
B. Apakah pengetahuan tentang hubungan ini memiliki penggunaan
praktis dalam pengembangan tes?
TABEL 6.2. Data yang hipotetis dari Manual Prestasi Battely Penggunaan
Dalam latihan 8
Subtes Jumlah
1 2 3 4 5 6 7
Nama Subtes
Kosa kata 1 1.00 0,66 0,63 0,68 0,69 0,65 0,69
Keterampilan Serangan
2 1.00 0,87 0,85 0,61 0,61 0,55
kata
Pemahaman membaca 3 1.00 0,83 0,57 0,59 0,53
Bahasa 4 1.00 0,62 0,62 0,55
Konsep matematika 5 1.00 0,72 0,64
Konsep Ilmu 6 1.00 0,61
Penelitian sosial 7 1.00
Standar Deviasi 6.67 8.79 8.39 10.12 4.97 6.65 4.33
Berarti 19,8 22.0 18.0 37,7 16.7 15,6 16.0
Bentuk Reliabilitas
0,87 0,95 0,95 0,94 0,81 0,90 0,81
alternatif
Allen, M.J. & Yen, W.M. (1979). Introduction to measurement theory. Montere:
Brooks/Cole Publising Company.
Anastasi, A. (2007). Tes psikologi (Edisi ketujuh, terjemahan). Jakarta: Indeks.
Arifin, Z. (2013). Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya.
Crocker, L & Algina, J. (2005). Introduction to Classical and Modern Test
Theory. Florida: Harcourt Brace Jovanovich College Publishers.
Gruijter, D.N. & Kamp. L.J. (2008). Statistical Test Theory for Behavioral
Sciences. New York: Chapman & Hall/CRC.
Guilford, J. P. (1956). Fundamental Statistics in Psychology and Education. New
York: Mc Graw-Hill Book Co. Inc.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of
item response theory. London: Sage Publications, Inc.
Harvill, L.M. (1991). Standard Error of Measurement. Educational
Measurement: Issues and Practice, 10(2), hlm. 33-41. doi:
http://dx.doi.org/ 10.1111/j.1745-39921991.tb00195.x
Kane, M. (2010). Errors of Measurement, Theory and Public Policy. New Jersey:
Educational Testing Service.
Kartowagiran, B. (2009). Pengantar Teori Tes Klasik. Makalah Pelatihan
penulisan analisis butir dengan pendekatan TTK dan TRB tanggal 11 – 12
April 2009 di Lemlit UNY Kerjasama Pascasarjana UNY dan Dinas
Pendidikan Prov DIY.
Lord, F.M. (1980). Application of item response theory to practical testing
problems. Hllsdale, NJ: Lawrence Erlbaum Associates, Publisher.
Murphy, Kevin R. & Davidshofer, Charles O. (2003). Psychological testing:
Principles and application. New Jersey: Prentice-Hall Inc.
Retnawati, Heri. (2015). Reliabilitas. Handout program studi matematika.
Yogyakarta: FPMIPA Universitas Negeri Yogyakarta.
Sugiyono. (2007). Metoda Penelitian Administrasi dilengkapi dengan Metode
R&D. Bandung. Alfabeta.
Sumintono, B. & Widhiarso, W. (2014). Aplikasi Model Rasch untuk Penelitian
Ilmu-Ilmu Sosial. Cimahi: Trim Komunikata Publishing House.
Suryabrata, S. (2000). Pengembangan Alat Ukur Psikologis. Yogyakarta: Andi.
Suwarto. (2011). Teori Tes Klasik dan Teori Tes Modern. Jurnal Widyatama,
20, 1, hlm. 69-78.