Anda di halaman 1dari 37

Bab 6

RELIABILITAS DAN
MODEL PENILAIAN KLASIK

Penyusun:
Deborah Stephanie Rajagukguk
1803548
BAB I
PENDAHULUAN

Setiap kali tes diberikan, pengguna tes ingin beberapa jaminan


bahwa hasil dapat direplikasi jika individu yang sama, diuji lagi di bawah
kondisi yang sama. Ini konsistensi yang diinginkan (atau reproduktifitas)
dari nilai tes yang disebut reliabilitas. Secara praktis, istilah reliabilitas
adalah tingkat nilai penyimpangan individu, atau Penilaian z, tetap relatif
konsisten selama pemberian berulang dari tes yang sama atau bentuk tes
lain. (Definisi yang lebih teknis akan disajikan segera). Semua jenis
pengukuran psikologis mungkin dapat dikatakan tidak reliable akibat
adanya kesalahan pengukuran. Sebagai contoh, jika tes bakat diberikan
kepada sekelompok orang dewasa dan mereka melakukan tes ulang dua
minggu kemudian, tidak mungkin setiap orang akan mendapat Penilaian
yang sama pada dua kesempatan pengujian atau mempertahankan urutan
peringkat yang sama dalam tes. Demikian pula jika bentuk-bentuk
alternatif dari pemeriksaan geometri diberikan kepada kelas siswa pada
hari yang sama, para siswa ini mungkin tidak akan mencetak gol dalam
urutan yang sama pada dua bentuk tes. Maka dari itu, hal ini tidak dapat
digunakan dalam sekali pengamatan yang menjadi perhatian bagi setiap
pengguna tes dan pembuat tes.
Apa yang membuat Penilaian tes tidak dapat diandalkan? Setiap
kali peserta uji mengerjakan serangkai item tes atau Penilaian nya hanya
sampai batas sampel perilaku-tanggapan terhadap satu item dari banyak
item pada bagian yang diberikan, diperoleh satu dari banyak kesempatan.
Akibatnya Penilaian yang diperoleh di rendah, tidak sempurna dan
terdapat kesalahan pengukuran. Kesalahan pengukuran dapat
dikategorikan sebagai acak atau sistematis. Kesalahan pengukuran
sistematis adalah mereka yang secara konsisten mempengaruhi Penilaian
individu karena beberapa karakteristik tertentu dari orang atau tes yang
tidak ada hubungannya dengan konstruk yang diukur. Sebagai contoh,
pada beberapa tes membaca untuk anak-anak, pemeriksa mengucapkan
kata dan anak tersebut harus mengucapkan ulang kata yang telah
diucapkan tadi. Seorang anak dengan gangguan pendengaran merasa sulit
mendengar ketika pemeriksa mengatakan hewan peliharaan dan anal
merespon dengan salah. Jika tes diulang, anak akan membuat kesalahan
yang sama, dan Penilaian anak ini akan konsisten rendah di setiap
pengujian. Kesalahan sistematis pengukuran diilustrasikan juga oleh
responden yang selalu menandai "Tidak setuju ketika ia menemukan item
skala sikap ambigu. Karena kecenderungan tersebut selalu terjadi secara
berulang dengan instrumen yang sama dan mempengaruhi Penilaian
peserta ujian secara konstan, itu adalah kesalahan sistematis pengukuran.
Sebaliknya, kesalahan pengukuran secara acak mempengaruhi
Penilaian individu karena tejadi hasil yang murni. Mereka dapat
mempengaruhi nilai peserta ujian kearah yang positif atau negatif. Sumber
kesalahan termasuk menebak jawaban, gangguan situasi saat pengujian
berlangsung, kesalahan administrasi, konten sampling, kesalahan
penilaian, dan perubahan pemeriksaan di negara individu. Perubahan
perilaku individu mungkin cukup umum untuk mempengaruhi kinerja tes
secara keseluruhan (seperti ketika sakit kepala mempengaruhi kinerja
peserta ujian), atau waktu pengerjaan mungkin sangat singkat dan spesifik
(salah membaca pertanyaan, masalah hitungan, atau lupa jawaban). Stanley
(1971) menyajikan kategorisasi rinci sumber-sumber individu variasi acak.
Jika ujian itu untuk mengulang pemeriksaan yang sama, kesalahan acak
yang mempengaruhi Penilaian nya pada kesempatan pertama mungkin
tidak akan terulang, meskipun kesalahan acak lainnya pasti akan terjadi.
Kedua kesalahan acak dan sistematis merupakan sumber
keprihatinan dalam penafsiran Penilaian. Kesalahan pengukuran yang
sistematis tidak menghasilkan pengukuran tidak konsisten, tapi mereka
dapat menyebabkan nilai ujian tidak akurat dan dengan demikian
mengurangi utilitas praktis mereka. Kesalahan acak mengurangi baik
konsistensi dan kegunaan dari Penilaian tes. Ini akan menjadi tidak logis
untuk mengharapkan pengukuran akan berguna jika kita tidak memiliki
keyakinan bahwa mereka konsisten. Jadi pengembang tes memiliki
tanggung jawab untuk menunjukkan Reliabilitas Penilaian yang diperoleh
dari tes mereka. Demonstrasi tersebut membutuhkan studi empiris, yang
biasanya didasarkan pada model teoritis untuk menjelaskan sejauh mana
kesalahan acak mempengaruhi Penilaian. Dalam bab ini kita akan
menjelaskan seperti model teoritis, yang memiliki aplikasi luas untuk
mempelajari uji reliabilitas.
BAB II
RELIABILITAS DAN MODEL PENILAIAN KLASIK

MODEL PENILAIAN KLASIK

Model penilaian klasik yang benar adalah salah satu masalah yang
paling signifikan dari daya tarik psikolog Inggris Charles Spearman dengan
konsep korelasi. Dari 1904-1913 ia menerbitkan argumen logis dan
matematis yang Penilaian tes adalah langkah-langkah keliru sifat manusia,
dan dengan demikian korelasi yang diamati antara nilai tes keliru lebih
rendah dari korelasi antara "nilai obyektif benar" mereka (Spearman, 1904).
Dalam berulang kali mencoba untuk menjelaskan istilah tindakan keliru
dan nilai-nilai obyektif benar, Spearman (1907, 1913) meletakkan dasar
untuk model Penilaian klasik benar. Banyak penulis, terutama Guilford
(1936), Gulliksen (1950), Magnusson (1967), dan Tuhan dan Novick (1968),
telah disajikan kembali dan diuraikan model ini ke dalam bentuk yang
dijelaskan di sini.

Inti dari Model Spearman adalah bahwa setiap nilai ujian diamati
dapat dibayangkan sebagai gabungan dari dua komponen-hipotetis
Penilaian yang benar dan kesalahan acak komponen-diekspresikan dalam
bentuk

X=T+E (6.1)

di mana X merupakan nilai tes yang diamati; T, Penilaian benar individu;


dan E, komponen kesalahan acak. Sebagai contoh, pada tes 10-item, John
mungkin benar-benar tahu jawaban atas 7 item tapi kebetulan mismark 2
jawaban benar, sehingga Penilaian yang diamati nya menjadi

X=7-2=5

Sarah, bagaimanapun, tahu jawaban atas hanya 4 item tetapi membuat 3


tebakan beruntung, sehingga Penilaian nya

X=4+3=7

Akhirnya, Ralph tahu jawaban atas 8 item, merindukan item dengan salah
membaca pertanyaan, tapi tebakan benar pada item yang dia tidak tahu.
kesalahan positif dan negatif nya membatalkan satu sama lain sehingga
Penilaiannya adalah

X=8+0=8
Contoh-contoh numerik menggambarkan efek aditif dari kesalahan
pengukuran positif dan negatif, tetapi tidak benar untuk menyimpulkan
bahwa peserta ujian "Skor Benar" seperti yang didefinisikan dalam model
Penilaian klasik benar, adalah beberapa nomor yang tepat dari item yang
diuji dapat menjawab.
Uji Penilaian sebagai Variabel Acak

Variabel adalah kuantitas yang mungkin menganggap salah satu dari satu
set nilai. Sebuah variabel acak dapat longgar didefinisikan sebagai variabel
yang mengasumsikan nilai-nilai sesuai dengan seperangkat probabilitas.
Sebagai contoh, anggaplah bahwa Anda akan melempar dadu bersisi enam.
Jumlah titik yang akan muncul pada wajah atas die dapat dianggap sebagai
variabel acak. Variabel ini dapat mengambil nilai-nilai dari 1 sampai 6
menurut seperangkat probabilitas. Pada lemparan tunggal mati, hanya satu
nilai terjadi. Nilai ini disebut realisasi variabel acak. Meskipun variabel acak
ini mungkin menganggap hanya enam nilai yang mungkin, jumlah realisasi
dari variabel acak tidak terbatas karena Anda bisa membayangkan
melempar dadu lagi dan lagi tanpa mempengaruhi itu. Hal ini
menyebabkan cara kedua konseptualisasi variabel acak: Variabel acak
dalam contoh dapat dilihat sebagai distribusi hipotetis hasil dari lemparan
dari mati. Sebuah lemparan tunggal dapat dianggap sebagai sampel acak
dari satu hasil dari distribusi ini hasil yang mungkin. Penting untuk dicatat
bahwa probabilitas yang tepat dari terjadinya masing-masing nilai saya
untuk 6 tidak diketahui dan tidak dapat diketahui. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Sebuah lemparan tunggal
dapat dianggap sebagai sampel acak dari satu hasil dari distribusi ini hasil
yang mungkin. Penting untuk dicatat bahwa probabilitas yang tepat dari
terjadinya masing-masing nilai saya untuk 6 tidak diketahui dan tidak
dapat diketahui. Kita tidak bisa hanya menegaskan bahwa probabilitas
masing-masing nilai adalah seperenam. Bahkan jika mati yang diproduksi
untuk menjadi adil, tidak ada jaminan bahwa itu adalah persis adil. Jika
Anda mencoba untuk menentukan probabilitas empiris dengan melempar
mati sejumlah besar kali, Anda dapatkan, di terbaik, perkiraan probabilitas.
Dengan setiap lemparan baru dari mati, perkiraan ini akan berubah sedikit.
Sebuah lemparan tunggal dapat dianggap sebagai sampel acak dari satu
hasil dari distribusi ini hasil yang mungkin. Penting untuk dicatat bahwa
probabilitas yang tepat dari terjadinya masing-masing nilai saya untuk 6
tidak diketahui dan tidak dapat diketahui. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit. Kita tidak bisa hanya
menegaskan bahwa probabilitas masing-masing nilai adalah seperenam.
Bahkan jika mati yang diproduksi untuk menjadi adil, tidak ada jaminan
bahwa itu adalah persis adil. Jika Anda mencoba untuk menentukan
probabilitas empiris dengan melempar mati sejumlah besar kali, Anda
dapatkan, di terbaik, perkiraan probabilitas. Dengan setiap lemparan baru
dari mati, perkiraan ini akan berubah sedikit.

Setiap kali sebuah ujian mengambil tes, Penilaian pada tes yang
juga dapat dianggap sebagai realisasi dari variabel acak. Mengapa
Penilaian tes dikonseptualisasikan dengan cara ini? Catatan pertama
bahwa tes terdiri dari sejumlah tertentu dari item. Jika tes memiliki 50 item
Penilaian peserta ujian mungkin jatuh di mana saja antara 0 dan 50 (sama
seperti hasil dari lemparan kisaran die antara 1 dan 6). Sebelum ujian
mengambil ujian, kita tidak bisa tahu apakah ia akan memiliki contoh
sedikit atau banyak kekurangan perhatian, tebakan beruntung atau tidak
beruntung, salah membaca item, dan sebagainya. Jadi (sebelum
administrasi pemeriksaan) kita dapat melihat Penilaian tes ini individu
sebagai kemungkinan asumsi salah satu dari beberapa nilai menurut
beberapa set yang tidak diketahui probabilitas. Distribusi ini Penilaian
potensi peserta ujian individu dapat dianggap sebagai variabel acak, dan
Penilaian benar-benar diperoleh ketika ujian mengambil tes adalah realisasi
bahwa variabel acak. Untuk membayangkan bagaimana mendapatkan
perkiraan distribusi hipotetis ini Penilaian untuk ujian, bayangkan
administrasi tes ini berulang kali untuk terperiksa, menghipnotis peserta
ujian dan menginstruksikan peserta ujian untuk melupakan pengujian
sebelumnya, kemudian mengulangi proses ini berkali-kali. Jelas Penilaian
yang diamati diperoleh dari pengujian yang berulang dari individu ini akan
berfluktuasi karena kesalahan pengukuran dibahas sebelumnya. Distribusi
frekuensi Penilaian yang diperoleh bisa memberikan perkiraan probabilitas
yang akan mengatur Penilaian ujian pada setiap kesempatan pengujian
tertentu. Dalam hal ini, nilai ujian yang diamati, seperti lemparan mati,
dapat dianggap sebagai realisasi dari variabel acak.

Adalah penting untuk menyadari bahwa Penilaian masing-masing


peserta ujian dalam situasi pengujian merupakan variabel acak yang
berbeda. Artinya, peluang mendapatkan nilai tes yang diberikan secara
independen perolehan ditentukan dari distribusi yang berbeda untuk
setiap ujian. Tabel 6.1 menggambarkan fakta ini selama dua peserta ujian
yang mengambil tes lima-item.
TABEL 6.1. Probabilitas Uji Penilaian untuk Dua Peserta ujian pada
Pengujian Tunggal
Probabilitas Probabilitas
Uji Penilaian
untuk Susan untuk Elaine
0 .00 0,15
1 0,02 0,20
2 0,18 .40
3 .50 0,23
4 0,25 0,02
5 .05 .00
Σ(X) PSusan = (0)(. 00) + (1)(. 02) + (2)(. 18) + (3)(. 50) + (4)(. 25) + (5)( 0,05) = 3,13
Σ(X) PElaine = (0)(. 15) + (1)(. 20) + (2)(. 40) + (3)(. 23) + (4)(. 02) + (5)( 0,00) = 1,77

(Catatan bahwa ini adalah ilustrasi hipotetis karena probabilitas ini tidak
pernah secara langsung diamati.) Menurut dua distribusi probabilitas ini,
kami akan mempertimbangkan Susan sebagai lebih "mampu" terperiksa
karena probabilitas menunjukkan bahwa ia mungkin untuk mendapatkan
Penilaian yang lebih tinggi daripada Elaine ketika kita sampel hanya satu
nilai secara acak dari masing-masing distribusi.
Definisi Penilaian Benar

Sekarang kita melihat bagaimana variabel acak merupakan distribusi


probabilitas, adalah mungkin untuk berbicara tentang mean dari distribusi
tersebut. Nilai yang diharapkan dari variabel acak adalah nama lain untuk
mean dari variabel acak. Ketika variabel acak, dilambangkan dengan X,
mengasumsikan jumlah terbatas nilai-nilai diskrit, nilai yang diharapkan
dari X didefinisikan sebagai
𝑲

µ = ∑ 𝑿𝒌 𝒑 𝒌
𝒌=𝟏
(6.2)
di mana Xk adalah nilai k variabel random bisa berasumsi, dan pk adalah
probabilitas dari nilai tersebut. Untuk contoh mati, jika mati persis adil,
nilai yang diharapkan akan
𝟔

µ = ∑ 𝑿𝒌 𝒑𝒌
𝒌=𝟏

= 1 (1/6) + 2 (1/6) + 3 (1/6) + 4 (1/6) + 5 (1/6) + 6 (1/6)


= 3,5

Jika variabel acak dapat mengasumsikan jumlah tak terbatas nilai-nilai,


Persamaan 6.2 tidak dapat digunakan untuk menentukan nilai yang
diharapkan. (Simbol-simbol aljabar dan proses yang digunakan dalam
Persamaan 6.2 akan digantikan oleh prosedur kalkulus dikenal sebagai
integrasi.) Dalam kedua kasus, nilai yang diharapkan dari variabel acak X
dinotasikan dengan €(X).
Ketika kita mempertimbangkan nilai tes yang diamati sebagai
variabel acak, Xj, Penilaian benar untuk diuji j didefinisikan sebagai

Tj = €xj = μxj (6.3)

Selama dua peserta ujian pada Tabel 6.1, nilai-nilai yang diharapkan dari
nilai ujian mereka (menggunakan Persamaan 6.2) adalah 3,13 untuk Susan
dan 1,77 untuk Elaine. Untuk setiap ujian nilai yang diharapkan ini dapat
dianggap rata-rata semua nilai tes yang diuji dapat mencapai untuk
mengambil tes. Kemudian, Penilaian benar terperiksa dapat diartikan
sebagai rata-rata Penilaian yang diamati diperoleh melalui jumlah tak
terbatas pencobaan diulang dengan tes yang sama.
Mengingat definisi ini penting untuk dicatat perbedaan antara nilai
yang benar pada variabel psikologis dan Penilaian yang benar mutlak pada
variabel biologis atau fisik. Anggaplah, misalnya, dokter mencurigai bahwa
pasien memiliki penyakit hati kronis. Pada variabel ini pasien memiliki
Penilaian yang benar mutlak. Dia baik memiliki penyakit atau dia tidak.
Bahkan dengan Penilaian yang benar mutlak, masih mungkin untuk
kesalahan pengukuran terjadi. Tes laboratorium yang digunakan untuk
mendeteksi penyakit ini (analisis isoenzim) dapat menghasilkan hasil yang
berbeda ketika diulang untuk pasien yang sama. Namun demikian,
Penilaian sejati pasien mutlak ada secara independen dari hasil tes ini. Kami
tidak pernah akan mengatakan bahwa keadaan hati pasien ditentukan oleh
nilai rata-rata hasil tes. Selanjutnya, tidak peduli berapa banyak jenis tes
dijalankan, pasien masih akan hanya memiliki satu nilai yang benar mutlak
pada variabel ini. Sebaliknya, Penilaian benar pasien pada tes psikologis
benar-benar tergantung pada proses pengukuran yang digunakan. Setiap
kesalahan sistematis atau biasing aspek dari tes tertentu bagi seorang
individu berkontribusi Penilaian benar psikologis orang itu pada tes itu.
Jadi jika Penilaian diamati individu pada Skala Intelijen Wechsler
mengalami depresi secara konsisten karena gangguan pendengaran atau
cacat bahasa, nilai benar (sebagai Nilai-nilai tersebut diamati) akan
diturunkan. Selain itu, jika kita mengukur kecerdasan dengan nonverbal
Raven Progressive Matrices dan skala Wechsler, yang memiliki komponen
verbal, individu ini akan memiliki nilai benar berbeda untuk setiap tes.

Definisi Kesalahan
Menurut model Penilaian klasik benar, kesalahan pengukuran adalah
perbedaan antara nilai peserta ujian ini diamati uji dan atau Penilaian yang
sebenarnya. Kesalahan dalam Penilaian untuk ujian j, (Ej), dengan
demikian didefinisikan sebagai

Ej= Xj - Tj (6.4)

Kesalahan, Ej, adalah variabel acak karena perbedaan antara Xj, variabel
acak, dan Tj, sebuah konstanta untuk diuji j. Mean dari distribusi kesalahan
untuk diuji j adalah nilai yang diharapkan

μEj = €Ej = €(Xj - Tj) (6.5)

Untuk menyederhanakan ekspresi lebih lanjut kami harus mempekerjakan


dua aturan dasar untuk operasi dengan nilai-nilai yang diharapkan.
Pertama, nilai yang diharapkan dari perbedaan antara dua variabel adalah
perbedaan nilai-nilai mereka diharapkan. Oleh karena itu, Persamaan 6.5
dapat ditulis sebagai

€Ej = €Xj - €Tj (6.6)

Kedua, nilai yang diharapkan dari sebuah konstanta hanya itu konstan;
sehingga untuk ujian j,

€Ej = €Xj - Tj (6.7)


Sekarang, karena €Xj = Tj (dari Persamaan 6.3),

€Ej = Tj - Tj = 0 (6.8)

Sebuah interpretasi longgar adalah bahwa rata-rata Penilaian kesalahan


untuk diuji lebih banyak pencobaan diulang harus nol.
Sifat Benar dan Kesalahan Penilaian

Dari definisi sebelumnya adalah mungkin untuk menurunkan


beberapa prinsip dasar dari model penilaian klasik yang benar sering
disebut asumsi model. Prinsip-prinsip ini

1. Rerata Penilaian kesalahan untuk populasi peserta ujian adalah nol


(μE = 0).
2. Korelasi antara benar dan kesalahan Penilaian untuk populasi
peserta ujian adalah nol (ρTE = 0,00).
3. Ketika peserta ujian mengambil dua tes terpisah dan Penilaian
masing-masing peserta ujian pada dua tes (atau dua pengujian
kesempatan dengan bentuk yang sama) diasumsikan dipilih secara
acak dari dua distribusi independen dari kemungkinan Penilaian
yang diamati, korelasi antara Penilaian kesalahan dari dua
pencobaan adalah nol (ρE1E2 = 0,00).

Ketiga prinsip menggambarkan sifat dasar nilai yang benar dan Penilaian
kesalahan yang memungkinkan kita untuk menerapkan model Penilaian
klasik benar untuk studi reliabilitas Penilaian tes. Deskripsi informal dasar
logis untuk setiap prinsip yang disajikan di sini. Pembaca tertarik pada
derivasi formal harus melihat Tuhan dan Novick (1968, pp. 37-38).

Arti Benar dan Salah Penilaian

Misalkan sekelompok peserta ujian telah mengambil tes. Seperti yang telah
kita pelajari, masing-masing peserta ujian j memiliki satu nilai Penilaian
yang benar (Tj), yang rata-rata yang diamati Penilaian peserta ujian akan
mendapatkan lebih banyak pencobaan diulang pada instrumen ini atau
instrumen paralel. Akibatnya, dalam teori, ujian j memiliki seperangkat
kemungkinan Penilaian yang diamati pada tes ini sehingga
Tj = eXj

Mean Penilaian berlaku untuk semua peserta ujian dalam kelompok


dilambangkan sebagai

dimana j subscript pada€menunjukkan bahwa nilai yang diharapkan


diambil alih semua orang dalam kelompok. Dengan demikian kita dapat
mendefinisikan μT, rata Penilaian benar kelompok, sebagai

(6.9)
Notasi harapan ganda ini setara dengan mengatakan bahwa rata-rata
Penilaian berlaku untuk populasi yang diuji adalah sama dengan rata-rata
semua nilai yang diamati yang mungkin diterima oleh semua peserta ujian
lebih banyak pencobaan berulang, atau yang
𝝁𝑻 = 𝝁𝑿 (6.10)

Untuk menemukan nilai error rata-rata untuk kelompok μE, Kita mengikuti
prosedur yang sama:

(6.11)
Namun, kita sudah tahu bahwa €Ej = 0, dan dengan demikian

Karena nilai yang diharapkan dari sebuah konstanta adalah bahwa konstan
berikut bahwa
𝝁𝑬 = 0 (6.12)

Hal ini penting untuk diingat bahwa prinsip ini tidak menjamin bahwa
setiap kali tes diberikan, rata-rata kesalahan peserta ujian pada tes yang akan
menjadi nol. Secara kolektif Ej untuk semua peserta ujian merupakan
penduduk kesalahan, dengan nilai yang diharapkan (atau rata-rata populasi)
dari nol. Penyelenggara tes tunggal untuk kelompok 200 peserta ujian setara
dengan memilih sampel Ej ini nilai-nilai dengan menggambar satu nilai
secara acak dari nilai error dari masing-masing peserta ujian. Rerata sampel
ini Penilaian kesalahan mungkin atau mungkin tidak nol.

Hubungan Antara Benar dan Salah Penilaian

Bayangkan sebuah situasi di mana kita tahu nilai benar dan semua
nilai kesalahan untuk setiap peserta ujian dalam suatu populasi. Kami
menggunakan Penilaian tersebut untuk membangun sebuah sebar dengan
skala Penilaian kesalahan pada sumbu vertikal dan skala Penilaian yang
benar pada sumbu horisontal. Perhatikan bahwa karena setiap diuji
memiliki banyak nilai kesalahan, tetapi hanya satu nilai benar, akan ada
jumlah yang cukup besar poin untuk setiap nilai Penilaian benar diterima.
Misalkan kita menemukan Penilaian yang benar termurah untuk diuji
dalam kelompok. Akan ada satu atau lebih peserta ujian dengan Penilaian
sejati ini. Untuk setiap peserta ujian dalam populasi, dan akibatnya untuk
setiap ujian dengan Penilaian yang benar ini, μEj= 0. Jadi mean Penilaian
kesalahan untuk semua peserta ujian di Penilaian benar ini akan menjadi
nol. Jika kita menemukan semua Penilaian kesalahan untuk Penilaian yang
benar ini, mereka akan diplot sekitar rata-rata nol. Kemudian misalkan kita
menemukan nilai terendah benar berikutnya dan ulangi proses ini. Sekali
lagi Penilaian kesalahan akan diplot sekitar rata-rata nol, dan seterusnya
untuk setiap nilai Penilaian yang benar. Gambar 6. 1 (a) menunjukkan plot
tersebut untuk lima nilai terendah dari T. Plot untuk semua kemungkinan
T-nilai akan muncul seperti pada Gambar 6.1 (b). Dari plot ini kita dapat
melihat bahwa korelasi antara benar dan kesalahan Penilaian harus nol
untuk populasi semua pengamatan mungkin bagi semua peserta ujian. Ini
berarti bahwa tidak ada hubungan antara "kemampuan" peserta ujian dan
kesalahan pengukuran yang mempengaruhi Penilaian mengamati ujian
pada setiap kesempatan pengujian. Dengan demikian kovarians antara
Penilaian yang benar dan Penilaian kesalahan adalah nol, sehingga total
varian Penilaian yang diamati hanya jumlah yang benar Penilaian dan
kesalahan varians. Pengetahuan tentang hubungan ini akan nantinya
berguna dalam bab ini.

Hubungan Antara Kesalahan Penilaian

Bayangkan bahwa dua tes diberikan kepada setiap peserta ujian


dalam suatu populasi dan bahwa kita tahu nilai error untuk setiap peserta
ujian dari kedua pencobaan. Misalkan peserta ujian memiliki Penilaian
kesalahan positif tinggi pada tes pertama. Jika Anda diminta untuk
menebak nilai Penilaian kesalahan ini ujian pada tes kedua, akan Anda
menebak bahwa hal itu juga akan tinggi dan positif? Anda akan menebak
bahwa itu akan menjadi negatif dalam nilai (penalaran bahwa kesalahan
pengukuran harus mengimbangi, bahkan untuk sejumlah pencobaan)?
Jawabannya adalah "tidak" dalam setiap kasus. Ingat bahwa kesalahan
masing-masing individu
GAMBAR 6.1 Contoh scatterplots Benar dan Kesalahan Penilaian untuk
kelompok besar Peserta ujian Menanggapi Test 10-ltem

Penilaian pada tes yang diberikan adalah sampel acak dari salah seorang
dari seluruh distribusi Penilaian kesalahan dengan rata-rata nol. Sebagai
hasil dari random sampling, tidak ada hubungan antara nilai-nilai dua nilai
kesalahan, dipilih dari dua distribusi independen. Karena ini berlaku untuk
setiap ujian, sebuah sebar menunjukkan titik untuk setiap kemungkinan
kombinasi nilai kesalahan dari tes pertama dan kedua akan sama dengan
yang dibangun pada Gambar 6.1 (b). Jadi kita melihat bahwa korelasi
antara kesalahan dari pencobaan yang berbeda adalah nol. Kesalahan
pengukuran acak yang mempengaruhi nilai peserta ujian pada satu
kesempatan tidak berhubungan dengan kesalahan pengukuran untuk ujian
ini sama pada pengujian lain.

INDEKS RELIABILITAS DAN RELIABILITAS KOEFISIEN


Mengingat definisi yang benar dan kesalahan Penilaian, tampak
jelas bahwa ketika guru, peneliti, atau dokter memberikan ujian, mereka
tahu hanya Penilaian yang diamati meskipun mereka benar-benar akan
lebih tertarik pada nilai yang benar. Jadi pertanyaan penting adalah,
seberapa dekat terkait adalah peserta ujian yang benar dan diamati
Penilaian? Satu indeks hubungan ini adalah korelasi antara kedua variabel.
Koefisien korelasi yang mengungkapkan derajat hubungan antara
Penilaian yang benar dan yang diamati pada tes yang dikenal sebagai
indeks Reliabilitas. Ingat bahwa Penilaian mengamati ujian ini dapat
dinyatakan sebagai
X=T+E
dan di deviasi Penilaian sebagai

x=t+e

Bila menggunakan nilai deviasi kita dapat menuliskan ungkapan indeks


Reliabilitas sebagai
∑𝒙𝒕
ρXT = (6.13)
𝑵𝝈 𝑿 𝝈 𝑻

Dengan menggantikan x, ungkapan ini menjadi


∑(𝒕+𝒆)𝒕
ρXT =
𝑵𝝈𝑿 𝝈𝑻

atau
∑𝒕𝟐 ∑𝒕𝒆
ρXT = + (6.14)
𝑵𝝈 𝑿 𝝈 𝑻 𝑵𝝈 𝑿 𝝈 𝑻

Karena korelasi antara benar dan kesalahan Penilaian diasumsikan nol,


∑𝒕𝟐
istilah terakhir di Persamaan 6.14 dapat dihilangkan,2 dan karena 𝜎𝑇2 = .
𝑁

𝝈𝟐𝑻
ρXT =
𝝈𝑿 𝝈𝑻
1Sebenarnya, itu tidak benar untuk menggunakan penjumlahan (Σ) notasi sini. Notasi
penjumlahan hanya sesuai untuk populasi terbatas dan tidak ada alasan untuk membatasi
presentasi untuk populasi yang terbatas. Sementara notasi harapan lebih umum,
penggunaannya di sini akan membutuhkan penjelasan tentang harapan ganda, yang dapat
membingungkan bagi para pemula. Tuhan dan Novick (1968, bab. 2 dan 3) membahas
model Penilaian benar klasik dengan pendekatan harapan ganda.
2 Sejak

∑𝒕𝒆 ∑𝒕𝒆 𝝈𝑻 𝝈𝑬
= ( )
𝑵𝝈 𝑿 𝝈 𝑻 𝑵𝝈 𝑿 𝝈 𝑻 𝝈𝑻 𝝈𝑬

dengan rekombinasi istilah. kita dapat menulis

∑𝒕𝒆 𝝈𝑻 𝝈𝑬
( )( )
𝑵𝝈𝑻𝝈𝑬 𝝈𝑻 𝝈𝑬
Kuantitas pertama dalam ekspresi sekarang mewakili ρTE, yang sama dengan nol.

yang menyederhanakan untuk


𝝈𝑻
ρXT = (6.15)
𝝈𝑿

Jadi kita melihat bahwa indeks Reliabilitas dapat dinyatakan


sebagai rasio standar deviasi dari Penilaian benar untuk standar deviasi
dari Penilaian yang diamati. Perhatikan bahwa ini adalah korelasi antara
Penilaian yang benar dan semua nilai yang diamati mungkin dari berbagai
pencobaan berulang. Ungkapan ini akan muncul untuk memiliki nilai
praktis sedikit karena nilai sejati tidak langsung diamati dan kita tidak bisa
mendapatkan semua nilai yang diamati mungkin untuk setiap ujian.
Namun demikian, adalah masuk akal untuk membayangkan menguji
sekelompok peserta ujian pada dua kesempatan dengan tes yang sama atau
dengan dua bentuk tes. Ketika dua tes memenuhi persyaratan untuk tes
paralel, adalah mungkin untuk membangun hubungan matematis antara
ρXT, korelasi antara Penilaian benar dan diamati, dan ρXX, korelasi antara
Penilaian yang diamati pada dua tes paralel.

1. Setiap peserta ujian memiliki Penilaian benar sama pada kedua


bentuk tes, dan
2. Varians kesalahan untuk dua bentuk yang sama.

Tes tersebut akan, sebagai akibatnya, memiliki sarana yang sama dan
varians yang sama. Hal ini juga cukup masuk akal (meskipun secara
statistik tidak diperlukan) untuk menganggap bahwa tes paralel akan
dicocokkan dalam konten.

Koefisien reliabilitas dapat didefinisikan sebagai korelasi antara Penilaian


pada bentuk tes paralel. Ketika koefisien reliabilitas didefinisikan dengan
cara ini, hubungan antara indeks Reliabilitas dan koefisien reliabilitas dapat
digambarkan secara matematis.

Mari Penilaian deviasi peserta ujian pada dua tes paralel dinyatakan
sebagai x1 dan x2. Menurut model, rute Penilaian diamati dapat dinyatakan
sebagai

x1= t1 + e1

dan
x2 = t2 + e2

Rumus Penilaian deviasi untuk korelasi antara diamati nilai tes X1 dan X2
adalah
∑ 𝒙𝟏 𝒙𝟐
ρ𝒙𝟏 𝒙𝟐 =
𝑵𝝈𝒙𝟏 𝝈𝒙𝟐

Dengan substitusi persamaan ini menjadi


∑(𝒕𝟏 +𝒆𝟏 )(𝒕𝟐 +𝒆𝟐 )
ρ 𝒙𝟏 𝒙𝟐 =
𝑵𝝈𝒙𝟏 𝝈𝒙𝟐

Melalui aljabar ekspansi, ekspresi menjadi

∑ 𝒕𝟏 𝒕𝟐 ∑𝒕𝟏 𝒆𝟐 ∑𝒕𝟐 𝒆𝟏 ∑𝒆𝟏 𝒆𝟐


ρ𝒙𝟏 𝒙𝟐 = +++𝑵
𝑵𝝈𝒙𝟏 𝝈𝒙𝟐 𝝈𝒙𝟏 𝝈𝒙𝟐 𝑵𝝈𝒙𝟏 𝝈𝒙𝟐 𝑵𝝈𝒙𝟏 𝝈𝒙𝟐

Di bawah asumsi dari model Penilaian klasik benar, masing-masing dari


tiga istilah terakhir di ekspresi dapat ditampilkan dengan nol sama. 3
Karena nilai-nilai Penilaian berlaku untuk setiap individu yang
diasumsikan sama lebih kesempatan pengujian, t1 = t2, dan 𝜎𝑋1 = 𝜎𝑋2 dengan
definisi tes paralel. Demikian

∑𝒕𝟐𝟏
ρ𝒙𝟏 𝒙𝟐 =
𝑵𝝈𝟐𝑿
𝟏

atau

𝝈𝟐𝑻
ρ𝒙𝟏 𝒙𝟐 = (6.16)
𝝈𝟐𝑿
dan kita melihat bahwa koefisien reliabilitas dapat matematis didefinisikan
sebagai rasio varians Penilaian benar untuk diamati Penilaian varians (atau
persegi indeks Reliabilitas). Dalam menafsirkan informasi Reliabilitas,
penting untuk dicatat perbedaan antara:

1. ρ𝑥1 𝑥2 −proporsi varians Penilaian diamati yang mungkin dikaitkan


dengan variasi dalam nilai yang benar ujian
2. (ρ𝑥1 𝑥2 )2 −proporsi varians Penilaian yang diamati pada satu tes
paralel yang bisa diprediksi dari varians Penilaian yang diamati
pada tes paralel kedua
3. ρXT−korelasi antara Penilaian yang benar dan Penilaian yang
diamati

Misalkan tes manual melaporkan koefisien reliabilitas ρ𝒙𝟏 𝒙𝟐 = 0,81.


Penafsiran berikut akan sesuai. Pertama, kita dapat mengatakan bahwa
81% dari varians Penilaian yang diamati disebabkan varians Penilaian
berlaku untuk kelompok ujian ini. Dengan demikian 𝝈𝟐𝑻 = 0,81𝝈𝟐𝑿 . Jika
standar deviasi dari Penilaian yang diamati adalah 4 poin, kami akan
memprediksi bahwa deviasi standar dari distribusi Penilaian teramati
benar akan 𝜎𝑇 = √(.81)(16), atau 3,6 poin. Kedua, kita dapat mengatakan
bahwa (0,81)2, atau 65%, dari nilai varians diamati pada tes kedua bisa
diprediksi dengan varians dari Penilaian yang diamati pada tes pertama.
Akhirnya, kita dapat mengatakan bahwa korelasi antara Penilaian diamati
dan Penilaian yang benar adalah, √. 81 atau 0,90, untuk ujian ini.

Pada titik ini penting untuk dicatat bahwa koefisien reliabilitas


untuk satu set nilai tes adalah konsep murni teoritis. Ini adalah jumlah yang
akan diperoleh jika kita bisa yakin memiliki tes yang benar-benar paralel.
Dalam Bab 7, kita akan mengatasi masalah dengan menggunakan Penilaian
tes yang sebenarnya untuk memperkirakan kuantitas teoritis ini. Untuk
saat ini, namun, kami hanya akan menunjukkan bahwa ketika nilai tes yang
sesungguhnya harus diganti untuk pengukuran ketat paralel, adalah
mungkin untuk merancang pengumpulan data dengan cara yang berbeda.
Pertama, kami akan berusaha mendekati memperoleh pengukuran paralel
dengan pemberian bentuk yang sama dari tes pada dua kesempatan
terpisah untuk kelompok yang sama peserta ujian. Korelasi antara
Penilaian tes dalam hal ini sering disebut koefisien stabilitas. Juga kita bisa
mencoba untuk mendekati pengukuran paralel dengan pemberian dua
bentuk yang berbeda dari tes, berdasarkan isi yang sama, pada satu
kesempatan untuk peserta ujian yang sama. Dalam hal ini, koefisien
korelasi dikenal sebagai koefisien kesetaraan. Kita bahkan bisa mengelola
dua bentuk tes alternatif pada kesempatan pengujian terpisah,
menghasilkan koefisien stabilitas dan kesetaraan. Masing-masing koefisien
ini, bagaimanapun, mungkin akan meremehkan koefisien reliabilitas
teoritis yang akan diperoleh dari pengukuran yang benar-benar paralel.
Coombs (1950a) ditandai kuantitas teoritis ini sebagai koefisien presisi,
didefinisikan sebagai korelasi antara nilai tes saat ujian menanggapi item
tes yang sama berulang-ulang dan tidak ada perubahan dalam ujian waktu
ke waktu, atau sebagai Cronbach (1951) lebih suka untuk menggambarkan
hal itu .
3Dengan menggunakan proses aljabar sama seperti dalam catatan kaki 1, istilah kedua dan
ketiga masing-masing dapat ditunjukkan untuk ρTE sama; istilah terakhir sama ρ𝐸1 𝐸2

Ketika tujuan utama pengembang tes ini adalah untuk


memperkirakan koefisien presisi dari satu set nilai tes yang sesungguhnya,
koefisien konsistensi internal kadang-kadang dihitung untuk Penilaian
yang diperoleh dari administrasi tunggal. Sejumlah metode praktis yang
berbeda untuk memperoleh koefisien konsistensi internal dijelaskan dalam
Bab 7, tetapi memahami asal sebagian besar metode ini memerlukan
beberapa pengetahuan tentang Reliabilitas gabungan dari nilai ujian.
RELIABILITAS GABUNGAN

Dalam Bab 5 komposit didefinisikan sebagai total Penilaian


didasarkan pada dua atau lebih Penilaian subtes. Mari kita bayangkan
bahwa pengembang tes telah menciptakan dua bentuk paralel tes
dilambangkan sebagai bentuk A dan bentuk B. Jika bentuk-bentuk ini
secara ketat paralel, koefisien reliabilitas baik bentuk diberikan oleh ρAB. (A
notasi yang umum digunakan untuk menunjukkan reliabilitas ρAB' atau
ρBB'). Misalkan, bagaimanapun, pengguna tes keinginan untuk mengelola
kedua bentuk dan menghitung Penilaian total untuk masing-masing
peserta ujian berdasarkan nilai komposit:

C=A+B
Bagaimana menentukan Reliabilitas Penilaian Komposit (ρCC')? Perhatikan
bahwa pada titik ini menjadi agak melingkar untuk menunjukkan bahwa
pengembang tes harus membuat dua bentuk tambahan tes untuk
memberikan bentuk sejajar dengan Penilaian komposit pertama. Bahkan
jika hal itu bisa dilakukan, pertanyaan ini masih bisa muncul: Apa
reliabilitas gabungan dari keempat subyek? Oleh karena itu akan berguna
untuk memiliki metode untuk menentukan Reliabilitas komposit dalam hal
sifat statistik dari komponen internal. Pada bagian ini, kita akan
mempertimbangkan dua cara di mana Reliabilitas komposit dapat
dinyatakan dalam hal sifat statistik dari komponen-komponennya. Metode
pertama, yang menggunakan prosedur yang disebut nubuat Spearman
Brown, memungkinkan kita untuk memperkirakan Reliabilitas gabungan
dari tes paralel bila Reliabilitas salah satu tes yang dikenal. Metode kedua,
yang menggunakan prosedur yang dikenal sebagai alpha Cronbach,
memungkinkan kita untuk memperkirakan Reliabilitas komposit ketika
kita tahu varians Penilaian komposit dan covariances antara semua
komponennya. Untuk mempermudah dalam diskusi ini, kita akan
mengasumsikan bahwa kita mulai dengan satu set tes komponen paralel.
Kemudian, kami akan mempertimbangkan bagaimana hasil kami akan
terpengaruh jika tes komponen tidak ketat paralel.

Nubuat Spearman Brown


Untuk memulai derivasi ini, mari kita meninjau beberapa
hubungan sederhana yang telah kita pelajari (atau yang dapat secara logis
berasal dari apa telah kita pelajari):

1. Reliabilitas komposit dapat didefinisikan sebagai ρCC' = 𝜎𝑇2𝐶 /.𝜎𝐶2


2. Semua pengukuran paralel dapat terbukti memiliki sarana yang
sama, deviasi standar yang sama, dan varian yang sama. Selain itu,
ketika ada k pengukuran paralel, korelasi antara setiap pasangan
pengukuran ini paralel akan sama dengan korelasi antara setiap
pasangan lainnya.
3. Jika ada k komponen dalam komposit, varians dari komposit ini
akan menjadi jumlah dari istilah k varians dan k(k - 1) istilah
kovarians.

Sekarang kita siap untuk menurunkan rumus untuk reliabilitas komposit.


Mari kita mendefinisikan gabungan dari tes paralel k sehingga

C = A + B +. . . + K (6.17)
Penilaian varians yang diamati dari komposit ini kemudian

(6.18)
Dimana adalah jumlah k (k - 1) istilah kovarians, dan i dan j

menunjukkan sepasang setiap tes dari A ke K. Karena semua tes yang


paralel, semua ρij adalah sama, dan

𝜎𝐴 = 𝜎𝐵 = . . . = 𝜎𝑖 = 𝜎𝑗

Oleh karena itu kita dapat menulis ulang Persamaan 6.18:

𝜎𝐶2 = k𝜎𝑖2 + k(k - 1)ρij𝜎𝑖2

Dengan anjak keluar 𝑘𝜎𝑖2 dari setiap istilah, kita memiliki

𝝈𝟐𝑪 = k𝝈𝟐𝒊 [1 + (k - 1)ρij] (6.19)

Akhirnya kami mencatat bahwa karena i dan j adalah langkah-langkah


paralel, ρij sebenarnya dapat dianggap koefisien reliabilitas tes i; dan
Persamaan 6.19 dapat ditulis

𝝈𝟐𝑪 = k𝝈𝟐𝒊 [1 + (k - 1)ρii'] (6.20)

Kami akan menggunakan ungkapan ini tak lama sebagai denominator dari
Reliabilitas komposit.

Sekarang mari kita kembali ke varians Penilaian benar untuk


komposit C, yang merupakan

(6.21)
Karena Penilaian berlaku untuk setiap peserta ujian harus sama pada
langkah-langkah paralel i dan j, 𝝆𝑻𝒊 𝑻𝒋 = 1,00 untuk semua tes. Selain itu,
karena kita memiliki tes paralel,

𝜎𝑇𝐴 = = = 𝜎𝑇𝐵 𝜎𝑇𝑖 𝜎𝑇𝑗

Oleh karena itu dengan k varians dan k (k - 1) istilah kovarian dalam


komposit Penilaian yang benar ini, kita memiliki

𝜎𝑇2𝐶 = k2𝜎𝑇2𝑖 + k(k - 1)𝜎𝑇2𝑖

Ini dapat lebih disederhanakan untuk

𝝈𝟐𝑻𝑪 = k2𝝈𝟐𝑻𝒊 (6.22)

Menggunakan ekspresi untuk 𝝈𝟐𝑻𝑪 (dari persamaan 6.22) dan 𝝈𝟐𝑪 (dari
Persamaan 6.20), kita sekarang dapat menulis persamaan untuk 𝜌CC'
sebagai
𝑘 2 𝜎𝑇2
𝑖
𝜌𝐶𝐶′ =
𝑘𝜎𝑇2 [1+(𝑘−1)𝜌𝑖𝑖′ ]
𝑖

Karena 𝝈𝟐𝑻𝒊 /𝝈𝟐𝒊 = 𝝆𝒊𝒊′ , fraksi ini dapat disederhanakan


𝒌𝝆𝒊𝒊′
𝝆𝒄𝒄′ = (6.23)
𝟏+(𝒌−𝟏)𝝆𝒊𝒊′

Persamaan 6.23 adalah bentuk umum dari Spearman Brown nubuatan


rumus, menunjukkan bahwa Reliabilitas komposit dapat dinyatakan
sebagai fungsi Reliabilitas komponen tunggal (dengan asumsi bahwa
semua tes komponen sejajar). Kegunaan penting dari formula ini dalam
estimasi Reliabilitas dan pengembangan tes praktek akan dibahas dalam
Bab 7.

Reliabilitas komposit dengan Koefisien Alpha


Tujuan keseluruhan dari bagian ini adalah untuk menunjukkan
bahwa Reliabilitas komposit dapat dinyatakan sebagai fungsi dari varians
dari Penilaian komposit dan covariances tes yang membentuk komposit itu.
Rumus yang akan diturunkan di sini umumnya dikenal sebagai koefisien
alpha (Cronbach, 1951). Poin-poin berikut akan membantu pembaca dalam
memahami derivasi ini:

1. Untuk setiap pasangan tes i dan j, kovarians untuk tes ini


dilambangkan sebagai 𝜎𝑖𝑗 , atau
𝜎𝑖𝑗 = 𝜌𝑖𝑗 𝜎𝑖 𝜎𝑗
2. Ketika tes i dan j secara ketat paralel, varians Penilaian sebenarnya
dari tes saya sama kovarians dengan Penilaian yang benar pada tes
j, atau

𝜎𝑇2𝑖 = 𝜎𝑇𝑖 𝑇𝑗

3. Untuk setiap pasangan tes i dan j, benar kovarians penilaian sama


diamati Penilaian kovarians, atau
𝜎𝑇𝑖 𝑇𝑗 = 𝜎𝑖𝑗

Berbekal informasi ini, mari kita lagi mendefinisikan sebuah komposit C


sebagai jumlah Penilaian subtes k paralel; C = A + B +. . . + K; komposit
Penilaian yang benar juga adalah TC = TA + TB +. . . + TK. Ingat bahwa varians
dari komposit Penilaian benar ini

di mana i dan j adalah setiap pasangan subyek dan adalah jumlah


k (k - 1) istilah. Karena semua langkah k paralel memiliki varians yang sama
dan covariances sama dengan satu sama lain,

𝝈𝟐𝑻𝑪 = 𝒌𝝈𝟐𝑻𝒊 + k (k - 1)𝝈𝑻𝒊 𝑻𝒋 (6.24)

yang dapat disederhanakan

𝝈𝟐𝑻𝑪 = k2𝝈𝑻𝒊 𝑻𝒋 (6,25)

Dari titik 3 (di awal bagian ini), 𝜎𝑇𝑖 𝑇𝑗 = 𝜎𝑖𝑗 , Dan dengan demikian dengan
substitusi,

𝝈𝟐𝑻𝑪 = k2𝝈𝒊𝒋 (6.26)

Jika kita menggunakan ekspresi yang terakhir ini sebagai varians Penilaian
sejati komposit, kita dapat menuliskan ungkapan Reliabilitas komposit
sebagai
𝒌𝟐 𝝈𝒊𝒋
𝝆𝑪𝑪′ = (6.27)
𝝈𝟐𝑪

ketika semua tes adalah tindakan paralel.

Dalam situasi pengujian nyata, namun, kami tidak pernah yakin


bahwa semua tes di komposit secara ketat paralel. Dalam hal ini, adalah
mungkin untuk menggunakan. jumlah covariances tes dan varians
komposit untuk memperkirakan batas bawah dari Reliabilitas komposit.
Sebuah batas bawah untuk Reliabilitas adalah koefisien yang harus lebih
kecil dari koefisien reliabilitas. Untuk menunjukkan ini, kita harus
membangun tiga ketidaksetaraan:

1. Ketika subyek k komposit mungkin tidak ketat paralel, akan ada


setidaknya satu subtes (subtes g) yang Penilaian benar varians lebih
besar dari atau sama dengan kovarians dengan setiap subtes lain,
atau
𝜎𝑇2𝑔 ≥ 𝜎𝑖𝑔
2. Untuk setiap dua tes yang mungkin tidak ketat paralel, jumlah
Penilaian sejati mereka varians lebih besar dari atau sama dengan
dua kali kovarians mereka, atau
𝜎𝑇2𝑖 + 𝜎𝑇2𝑗 ≥ 2𝜎𝑖𝑗
3. Jumlah k Penilaian benar varians untuk tes nonparallel akan lebih
besar dari atau sama dengan jumlah semua k(k - 1) covariances
dibagi dengan (k - 1), atau

Ketidaksamaan terakhir adalah hasil dari memperluas logika poin 2 di atas


tes k. langkah aljabar rinci diberikan dalam Tuhan dan Novick (1968, p. 89)
untuk pembaca yang tertarik. Menambahkan jumlah dari covariances
untuk setiap sisi ketimpangan yang kita miliki

(6.28)
Jumlah yang kovarians di sisi kanan ketidaksamaan dapat dikombinasikan
menjadi fraksi tunggal sebagai berikut:

Selain itu, sisi kiri ketidaksamaan adalah pernyataan 𝝈𝟐𝑻𝑪 , jadi

(6.29)

dimana ∑𝝈𝒊𝒋 adalah jumlah k (k -1) covariances tes yang mungkin tidak
ketat paralel. Jika kita membagi setiap sisi Persamaan 6.29 oleh 𝜎𝐶2 , kita
memiliki
yang sama dengan

𝒌 ∑𝝈𝟐𝑻
𝝆𝑪𝑪′ ≥ (𝟏 − ) (6.30)
𝒌−𝟏 𝝈𝟐𝑪

Ekspresi di sisi kanan Persamaan 6.30 umumnya dikenal sebagai koefisien


alpha. Untuk meringkas, koefisien reliabilitas teoritis dapat dicirikan
sebagai koefisien presisi (yaitu, korelasi yang akan diperoleh antara dua
bentuk sempurna paraliel tes jika tidak ada perubahan dalam ujian antara
pencobaan). Ketika tes komposit terdiri dari subyek nonparallel, kita dapat
memperkirakan batas bawah dari koefisien presisi dengan menggunakan
koefisien alpha. Perhitungan ini mengharuskan kita tahu jumlah subyek,
varians dari Penilaian komposit, dan jumlah dari semua covariances subtes.
Kegunaan hubungan ini akan lebih jelas jika kita ingat bahwa tes apapun
dapat dianggap sebagai komposit dan setiap item sebagai subtes a. Dengan
demikian, seperti yang akan kita lihat dalam Bab 7.

UKURAN TINGKAT KESALAHAN


Reliabilitas adalah konsep yang memungkinkan pengguna tes
untuk menggambarkan proporsi varians Penilaian benar dalam nilai tes
mengamati kelompok. Dalam banyak situasi, namun, pengguna tes lebih
mementingkan bagaimana kesalahan pengukuran mempengaruhi
interpretasi Penilaian individu. Meskipun tidak pernah mungkin untuk
menentukan jumlah yang tepat dari kesalahan dalam nilai tertentu, teori tes
klasik menyediakan metode untuk menggambarkan variasi diharapkan
Penilaian diamati setiap individu peserta ujian tentang nilai sejati peserta
ujian. Ingat bahwa nilai sejati telah didefinisikan sebagai mean, atau
diharapkan nilai, Penilaian mengamati ujian yang diperoleh dari sejumlah
besar pencobaan berulang. Gambar 6.2 menggambarkan distribusi dari
beberapa peserta ujian Penilaian diamati mungkin sekitar Penilaian sejati
mereka dalam distribusi yang lebih besar dari Penilaian untuk kelompok
total pada pengujian tunggal. Sama seperti kelompok keseluruhan
memiliki standar deviasi, secara teoritis distribusi pribadi masing-masing
peserta ujian ini Penilaian yang diamati mungkin sekitar Penilaian benar
terperiksa memiliki standar deviasi. Ketika standar deviasi error individu
ini rata-rata untuk kelompok, hasilnya disebut standard error dari
pengukuran dan dilambangkan sebagai. Ekspresi untuk kesalahan standar
pengukuran dapat diturunkan dengan menggunakan hubungan Ketika
standar deviasi error individu ini rata-rata untuk kelompok, hasilnya
disebut standard error dari pengukuran dan dilambangkan sebagai.
Ekspresi untuk kesalahan standar pengukuran dapat diturunkan dengan
menggunakan hubungan Ketika standar deviasi error individu ini rata-rata
untuk kelompok, hasilnya disebut standard error dari pengukuran dan
dilambangkan sebagai. Ekspresi untuk kesalahan standar pengukuran
dapat diturunkan dengan menggunakan hubungan𝜎𝐸

𝜎𝑇2 +𝜎𝐸2 = 𝜎𝑋2

Membagi kedua sisi persamaan ini dengan,𝜎𝑋2

𝜎𝑇2 𝜎𝐸2
2 + 2 =1
𝜎𝑋 𝜎𝑋

GAMBAR 62 Ilustrasi hipotetis dari Berbagai Peserta ujian Distribusi


Penilaian Diamati Sekitar Penilaian Benar mereka

Perhatikan bahwa istilah pertama dalam ekspresi kiri adalah definisi ρxx' begitu

𝜎𝐸2
ρxx' + 2 =1
𝜎𝑋

Untuk memecahkan, perhatikan bahwa 𝜎𝐸

𝜎𝐸2
2 = 1 - ρxx'
𝜎𝑋

dan

𝝈𝑬 = 𝝈𝑿 √𝟏 − 𝝆𝑿𝑿′ (6.31)

Jadi jika deviasi standar untuk satu set nilai tes yang diamati diketahui 10
poin dan koefisien reliabilitas tes adalah ρxx'= 0,91, nilai kesalahan standar
pengukuran dapat dihitung sebagai berikut:
𝜎𝐸 = 10√1 − 0,91 = 3,0

Dengan asumsi bahwa kesalahan acak pengukuran terdistribusi secara


normal, kita akan mengharapkan sekitar 68% dari nilai diamati peserta
ujian untuk berbaring di interval, T ± 1𝜎𝐸 , dan sekitar 95% dari nilai diamati
terperiksa untuk berbaring di interval, T ± 1,96𝜎𝐸 , atau dengan pembulatan,
T ± 2𝜎𝐸 .

Dalam kebanyakan situasi pengujian, terperiksa diuji sekali, dan


hanya satu nilai yang diamati diperoleh. Jadi bahkan jika kita memiliki
perkiraan kesalahan standar pengukuran untuk ujian, kita tidak bisa benar-
benar membangun selang seperti di sekitar Penilaian benar sebuah ujian
karena nilai sebenarnya dari nilai yang sebenarnya tidak diketahui.
Sebaliknya, kita menggunakan nilai estimasi standard error untuk
membuat interval kepercayaan sekitar Penilaian diamati peserta ujian
dalam bentuk X ± 1𝜎𝐸 . Kita bisa 68% yakin bahwa nilai sebenarnya terletak
dalam interval ini. Pada awalnya mungkin tampak bahwa beberapa sulap
telah dipanggil untuk menggantikan Penilaian diamati untuk Penilaian
benar dalam selang kepercayaan, tapi ini tidak benar-benar terjadi.
Misalkan Jan' s Penilaian yang benar pada skala sikap aktivisme politik
adalah 50 dan kesalahan standar pengukuran diperkirakan 5 poin. Secara
teoritis jika Jan dapat diuji 100 kali, sekitar 68 dari mereka Penilaian diamati
akan terletak dalam 5 poin dari Penilaian yang benar, antara 45 dan 55,
namun sekitar 32 Penilaian akan berada di luar interval 45 sampai 55.
Jika kita menghasilkan interval kepercayaan sekitar masing-masing 100
nilai Penilaian yang diamati Jan ini, sekitar 68 dari interval ini akan
dihasilkan sekitar diamati Penilaian antara 45 dan 55 dan masing-masing
interval ini akan berisi nilai benar Jan ini. Pengujian Jan hanya sekali
(seperti yang kita akan lakukan dalam kehidupan nyata) analog dengan
menggambar Penilaian diamati tunggal secara acak dari kolam ini dari 100
kemungkinan Penilaian yang diamati. Pada pengujian tunggal, ada 68%
kemungkinan bahwa kita akan mendapatkan salah satu kemungkinan
Penilaian diamati bahwa terletak pada kisaran 45 sampai 55. Ketika kita
menghasilkan 5-point interval kepercayaan sekitar salah satu nilai-nilai ini,
selang yang akan mencakup 50 , nilai Penilaian yang benar. Jika kita cukup
beruntung untuk menarik salah satu dari 32 Penilaian yang diamati yang
terletak di luar 45 sampai 55 interval interval 5-point yang dihasilkan
sekitar yang diamati Penilaian tidak akan berisi nilai Penilaian yang benar.
Untuk alasan ini, penting untuk diingat bahwa setiap Penilaian yang
diamati tunggal mungkin perkiraan miskin Penilaian sejati individu.
Standard error dari pengukuran ini berguna untuk memberikan perkiraan
seberapa jauh Penilaian yang benar mungkin terletak dari Penilaian yang
diamati untuk diuji rata-rata dalam populasi, tetapi tidak ada jaminan
mutlak bahwa Penilaian benar individu benar-benar jatuh dalam interval
kepercayaan yang dihasilkan sekitar Penilaian yang diamati. Selain itu,
perlu dicatat bahwa nilai 𝜎𝐸 mencerminkan rata-rata banyak kesalahan
standar individu peserta ujian. Mungkin tidak realistis untuk menganggap
bahwa kesalahan standar ini sama untuk semua peserta ujian. Panduan
lebih spesifik untuk menggunakan kesalahan pengukuran standar dalam
interpretasi skor akan disajikan pada Bab 7.

DEFINISI ALTERNATIF DARI BENAR DAN SALAH PENILAIAN


Sampai saat ini, Penilaian benar sebuah ujian telah ditafsirkan
sebagai rata-rata dari sejumlah besar Penilaian diamati diterima oleh
peserta ujian yang di pencobaan berulang pada tes yang sama atau pada
bentuk ketat paralel tes. Namun demikian, teori-teori alternatif Penilaian
yang benar dan kesalahan pengukuran yang menggunakan asumsi lainnya.
Salah satu alternatif terkenal melibatkan situasi pengujian di mana kita
menganggap tes yang diberikan hanya sebagai salah satu dari banyak
bentuk tes mungkin bisa saja terdiri dari kolam yang lebih besar dari item.
Dalam kasus tersebut, pengukuran diperoleh Penilaian peserta ujian pada
bentuk tes tunggal, tetapi pengukuran bunga adalah bagaimana peserta
ujian akan dilakukan pada lebih besar kolam renang barang. Tuhan (1955,
1957, dan 1959b) mendefinisikan kembali nilai benar dan kesalahan
pengukuran dalam konteks ini, yang dapat digambarkan sebagai berikut.
Pertimbangkan kolam besar item dichotomously mencetak gol. Dua bentuk
tes atau lebih dapat dibangun dengan menggambar item secara acak dari
kolam ini. bentuk tes secara acak paralel seperti tidak perlu memiliki sarana
yang sama atau varian yang sama, juga tidak item harus dicocokkan erat
dalam konten dari bentuk ke bentuk. Diuji sebuah Penilaiannya benar
dapat dianggap sebagai jumlah item di kolam renang ini yang terperiksa
bisa menjawab dengan benar, tetapi biasanya lebih mudah untuk
menentukan nilai benar sebagai proporsi item di kolam renang yang
terperiksa dapat menjawab dengan benar (Pa). Jika kita ingin menentukan
nilai benar untuk diuji pada tes panjang tetap, di mana n adalah jumlah
item, maka
Ta = nPa

Misalkan kita menunjuk satu set secara acak dari item sebagai ujian untuk
g. kemudian Xga mewakili ujian Penilaian yang diamati pada bentuk tes g.
Jelas membentuk g hanya salah satu dari banyak bentuk tes mungkin bisa
saja dihasilkan dari item kolam renang. Jadi ada distribusi frekuensi
kemungkinan nilai tes untuk ujian, mengakibatkan dari bentuk-bentuk tes
yang berbeda, yang didistribusikan secara acak di sekitar Ta. Standard error
dari pengukuran untuk diuji didefinisikan sebagai deviasi standar dari
distribusi teoritis ini mungkin nilai yang diamati di sekitar terperiksa
sebuah Penilaiannya benar.

Untuk menerapkan konsep ini dalam situasi pengujian tertentu,


bayangkan item komputer bank 1.000 item tes tertulis untuk menutupi isi
kursus dalam psikologi pengantar. Misalkan diuji Alice Doe bisa menjawab
750 item dalam bank item. Untuk Alice, Pa= 0,75. Ketika Alice mengambil
ujian akhir nya, bentuk tes 100 item akan dihasilkan secara acak untuknya.
Penilaian sejati pada tes dari 100 item akan

nPa = 100(0,75) = 75

Pada formulir g, bagaimanapun, Alice bisa menjawab 80 item dengan


benar; Formulir h, dia mungkin menjawab 73 item dengan benar; dan
seterusnya. Secara teoritis kita bisa menghitung standard error Alice
pengukuran dengan menguji berkali-kali di semua kemungkinan bentuk
100-item dan menghitung standar deviasi dari Penilaian tersebut. Pada
kenyataannya kita tidak bisa melakukan ini. Sebaliknya, prosedur praktis
untuk memperkirakan kesalahan ini standar pengukuran didasarkan pada
kenyataan bahwa distribusi frekuensi Penilaian Alice pada semua tes 100-
item secara acak paralel mungkin mendekati sebuah distribution.4
binomial
Sebuah distribusi binomial adalah jenis distribusi frekuensi yang
relevan ketika kita mempertimbangkan kemungkinan memperoleh dari 50
koin lemparan 1 kepala dan 49 ekor, 2 kepala dan 48 ekor, 3 ekor dan 47
ekor, dan sebagainya. Kita tahu bahwa hanya ada dua hasil yang mungkin
untuk setiap melemparkan, dan ada kemungkinan memperoleh hasil baik.
Rumus umum untuk distribusi binomial adalah
𝒏!
ƒ(X) = PxQn-X (6.32)
𝑿!(𝒏−𝑿)!

di mana, di koin-melemparkan contoh, X mewakili jumlah kali koin muncul


kepala, n merupakan jumlah lemparan, P merupakan peluang
mendapatkan kepala pada pelemparan, dan Q peluang mendapatkan ekor
pada satu kali lemparan. Tiga sifat dari distribusi binomial yang akan
berguna dalam situasi pengujian kami

1. Mean dari distribusi binomial diberikan oleh rumus


𝜇 = nP
2. Varians dari distribusi binomial diberikan oleh rumus
𝜎 2 = nPQ
3. Ketika varians dari distribusi harus diestimasi dari data dari sampel,
rumus untuk varians sampel
̂ 𝟐 = n𝑷
𝝈 ̂𝑸̂( 𝒏 ) (6.33)
𝒏−𝟏
𝑛
dimana 𝑃̂ dan 𝑄̂ probabilitas dari data sampel, dan merupakan
𝑛−1
koreksi untuk memperoleh perkiraan berisi varians populasi.

4Sebenarnya distribusi binomial akan membutuhkan item kolam renang tak terbatas.

Dalam contoh kita, distribusi Penilaian tes mungkin Alice mirip


dengan distribusi binomial karena pemilihan setiap item untuk bentuk tes
seperti lemparan koin: Seperti setiap item yang dipilih, itu baik akan
menjadi salah satu item yang Alice dapat menjawab dengan benar atau
tidak. Selanjutnya probabilitas 0,75 bahwa itu akan menjadi item yang Alice
bisa menjawab; probabilitas 0,25 item yang dipilih akan menjadi salah satu
item dia tidak bisa menjawab. Penilaian total Alice di tes adalah jumlah
item yang dipilih yang dia bisa menjawab dengan benar. Hal ini langsung
analog dengan jumlah lemparan koin yang datang "kepala". Frekuensi
setiap Penilaian total tes tertentu dapat ditentukan dari rumus binomial
dalam Persamaan 6.32.

Dalam situasi pengujian yang sebenarnya Alice akan mengambil


hanya salah satu bentuk tes. Dengan demikian kita akan tahu hanya
Penilaian yang diamati dia di tes itu, 𝑋𝑔𝑎′ dan proporsi mengamati dia
benar, 𝜌̂𝑔𝑎 . Bagaimana informasi ini dapat digunakan untuk
memperkirakan standard error nya pengukuran? Jika kita menganggap
proporsi nya diamati benar, 𝜌̂𝑔𝑎 , sebagai perkiraan nilai populasi nya Pa,
kita dapat menggunakan Persamaan 6.33 untuk memperkirakan varians
Penilaian Alice pada semua bentuk tes yang mungkin:
𝒏
̂ 𝟐𝒂 = n(𝝆
𝝈 ̂ 𝒈𝒂 )(
̂𝒈𝒂 𝑸 ) (6.34)
𝒏−𝟏

Dengan mengingat bahwa 𝜌̂𝑔𝑎 = 𝑋𝑔𝑎 /𝑛 dan 𝑄̂𝑔𝑎 = 1 -𝜌̂𝑔𝑎 , kami tiba di ,

𝑿𝒈𝒂 (𝒏−𝑿𝒈𝒂 )
̂𝒂 = √
𝝈 (6.35)
𝒏−𝟏

Persamaan 6.35 adalah formula komputasi untuk standard error dari


pengukuran tes secara acak paralel. Untuk Alice Doe, yang mencetak 80
poin pada bentuk g, yang terdiri dari 100 item, estimasi standard error nya
pengukuran akan

80(100−80)
𝜎̂𝑎 = √ = 4.02
99
Untuk ujian lain, yang mencetak 50 poin pada 100-item tes secara acak
paralel dari bank item yang sama, perkiraan kesalahan standar pengukuran
akan 5,02. Hasil dua contoh ini menggambarkan perbedaan penting antara
standard error binomial pengukuran dan bahwa dari model Penilaian
klasik benar. Dengan model Penilaian klasik benar, biasanya hanya satu
kesalahan standar pengukuran diperkirakan, tapi kesalahan standar
binomial yang berbeda diperkirakan untuk Penilaian benar berbeda.
kesalahan standar binomial lebih besar untuk Penilaian yang benar di
tengah-tengah kemungkinan rentang Penilaian dan lebih kecil untuk
Penilaian pada ekstrem. (Standard error binomial adalah terbesar ketika Pa
= 0,50.) Karena perbedaan ini berbeda model kesalahan pengukuran
mungkin lebih sesuai dalam konteks praktis daripada yang lain.

Konteks teori tes klasik adalah pengukuran perbedaan individu


menggunakan instrumen yang sama untuk mengukur semua peserta ujian.
Standard error dari pengukuran dari teori tes klasik jelas berguna dalam
konteks ini. Namun, jika tes yang berbeda digunakan untuk mengukur
perbedaan individu (seperti dalam tes yang dihasilkan komputer, yang
berbeda untuk peserta ujian yang berbeda) atau jika interpretasi absolut
dari nilai (bukan interpretasi komparatif) adalah kepentingan, jenis-jenis
kesalahan standar akan lebih tepat. Dengan item dichotomously mencetak,
standard error binomial sesuai untuk dua situasi yang baru saja dijelaskan.
Sebagai tambahan, model binomial dikembangkan oleh Keats dan Lord
(1962) dan model binomial senyawa yang dikembangkan oleh Lord (1965)
dapat digunakan untuk mengatasi masalah-masalah yang tidak dapat
diselesaikan dengan model Penilaian klasik benar. Sebagai contoh, model
binomial dapat digunakan untuk memperkirakan tingkat konsistensi
antara klasifikasi peserta ujian berdasarkan Penilaian yang diamati dan
yang didasarkan pada nilai yang benar. Hal ini berpotensi penting dalam
pengujian kriteria-referenced. The binomial senyawa dapat digunakan
untuk menguji apakah dua instrumen mengukur sifat yang sama. Ini akan
memiliki potensi kegunaan untuk penyelidikan validitas Penilaian tes.
Aplikasi ini, bagaimanapun, dibeli dengan harga asumsi lebih kuat dari
yang dibuat dalam teori tes klasik. Untuk alasan ini,
BAB III
SIMPULAN DAN IMPLIKASI

A. SIMPULAN
Reliabilitas mengacu pada konsistensi kinerja relatif peserta ujian
lebih administrasi berulang tes yang sama atau bentuk paralel tes. Sumber
utama dari inkonsistensi dalam kinerja tes individu adalah kesalahan
pengukuran acak. Adalah kewajiban pengembang tes dan uji pengguna
untuk mencoba untuk menentukan sejauh mana kesalahan pengukuran
acak mempengaruhi hasil tes. Model Penilaian klasik benar memberikan
kerangka teoritis untuk pengembangan penyelidikan Reliabilitas praktis.

Model Penilaian klasik benar didasarkan pada konseptualisasi nilai


ujian individu sebagai variabel acak. Penilaian peserta ujian pada tes
tertentu dipandang sebagai sampel acak dari salah satu dari banyak nilai
tes mungkin bahwa seseorang bisa mendapatkan di bawah administrasi
berulang tes yang sama (atau bentuk ketat paralel tes itu). Setiap nilai tes
diamati dapat dianggap sebagai jumlah dari nilai yang sebenarnya
terperiksa dan komponen kesalahan acak. Penilaian benar didefinisikan
sebagai nilai yang diharapkan dari nilai ujian peserta ujian selama
bertahun-pencobaan diulang dengan tes yang sama. Dari definisi tersebut
tiga sifat penting dari benar dan kesalahan Penilaian dapat disimpulkan:

1. Mean dari kesalahan untuk populasi diuji adalah nol.


2. Korelasi antara benar dan kesalahan Penilaian adalah nol.
3. Korelasi antara kesalahan pada pengukuran yang berbeda adalah
nol.

Menggunakan model Penilaian klasik benar, koefisien reliabilitas


didefinisikan sebagai korelasi antara langkah-langkah paralel. Koefisien ini
(𝜌𝑋𝑋 ') dapat ditunjukkan untuk sama rasio 𝜎𝑇2 /𝜎𝑋2 , proporsi varians
Penilaian diamati karena varians Penilaian yang benar. Korelasi antara
Penilaian yang benar dan diamati pada ukuran tunggal disebut indeks
Reliabilitas dan setara dengan 𝜎𝑇 /𝜎𝑋 .

Menggunakan data uji, adalah mungkin untuk memperkirakan


koefisien reliabilitas untuk instrumen dalam beberapa cara berbeda oleh
dua administrasi tes menghasilkan koefisien stabilitas, kesetaraan, atau
stabilitas dan kesetaraan. Reliabilitas perkiraan dari satu tes administrasi
diperoleh dengan menggunakan rumus untuk Reliabilitas komposit. Ketika
elemen komposit dapat dianggap pengukuran sempurna paralel, koefisien
reliabilitas dapat didefinisikan dalam hal varians komponen dan
covariances. Ketika komponen tidak sempurna paralel, batas bawah dari
koefisien reliabilitas untuk komposit dapat didefinisikan dalam hal varians
komponen dan covariances.

Standard error dari pengukuran didefinisikan sebagai 𝜎𝐸 =


𝜎𝑋 √1 − 𝜌𝑋𝑋′ dan dapat dianggap sebagai rata-rata standar deviasi dari
distribusi kesalahan individu peserta ujian untuk sejumlah besar
pencobaan berulang. Standard error dari pengukuran ini berguna untuk
menghasilkan interval kepercayaan sekitar nilai ujian diamati yang
memiliki probabilitas yang diketahui mengandung nilai sejati peserta ujian.
Standard error klasik pengukuran memiliki satu nilai untuk semua peserta
ujian dalam populasi. Ini telah berguna dalam banyak konteks saat
pengukuran perbedaan individu yang diinginkan. Sebuah pendekatan
alternatif untuk kesalahan standar pengukuran telah diusulkan oleh Lord
(1955) untuk digunakan ketika bentuk tes yang dihasilkan secara acak
sampel item dari domain yang terdefinisi dengan baik. standard error
binomial ini adalah fungsi dari nilai benar sebuah ujian dan jumlah item
pada tes. Akibatnya kesalahan ini standar pengukuran berbeda untuk
peserta ujian dengan tingkat kemampuan yang berbeda. Seperti indeks
mungkin berlaku dalam situasi di mana peserta ujian yang berbeda
mengambil bentuk yang berbeda tes yang diambil dari kolam item yang sama.

B. IMPLIKASI

Di Indonesia penggunaan model teori klasik masih menjadi


primadona. Hal ini dikarenakan penggunaan teori modern masih kurang
diterima keberadaannya oleh sebagian besar orang di dunia pendidikan
dan psikologi, terutama di Indonesia. Dewasa ini belum banyak soft ware
yang dapat digunakan oleh masyarakat untuk mengestimasi parameter
butir soal berdasarkan teori modern.
Di sisi lain, reliabilitas alat ukur menunjukkan sejauh mana hasil
pengukuran dengan alat tersebut dapat dipercaya, yang ditunjukkan oleh
taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat
yang sama atau minimal setara, dalam kondisi yang berbeda. Hal ini
menjadi amat penting dalam pengembangan alat ukur psikologis seseorang
khususnya di Indonesia.
Pengukuran psikologis individual cocok memanfaatkan standard error
of measurement terutama pada tes yang menghitung skor-skor setiap
individu. Pada dasarnya setiap nilai pengukuran ada skor benar dan
kesalahan pengukuran. Skor benar bisa dijadikan skor harapan dari
partisipan tes dan SEM memprediksi kemungkinan skor partisipan apabila
melakukan tes ulang. Ada 2 kemungkinan yang terjadi dalam suatu tes atau
pengamatan yakni dengan melakukan tes berkala untuk memprediksi
skor-skor individu sehingga perubahan pada hasil setiap pengukuran atau
dengan cara mengenaralisasi kemungkinan pratisipan tes menggunakan
perhitungan SEM.
Jika peneliti telah menulis bentuk eksperimental skala untuk
mengukur tes kecemasan. Responden akan menjawab setiap item dalam
format setuju-tidak setuju sehingga item dapat dikotomotasikan. Peneliti
berhipotesis bahwa kecemasan tes adalah konstruk dimana ada perbedaan
individu yang penting dan karenanya menginginkan skala kecemasan yang
menghasilkan variansi nilai substansial.. Mengingat faktor-faktor yang
menentukan varians skor tes total, seharusnya pertanyaan berikut dijawab
1. Apakah varians uji cenderung meningkat jika jumlah item meningkat?
Dalam kebanyakan kasus, item ke tes harus meningkatkan varians uji
total. Untuk setiap item yang ditambahkan, varians uji total akan
ditingkatkan dengan jumlah varians item itu dan kovariannya dengan
semua item lainnya dalam pengujian.
2. Berapakah perpaduan item yang optimal untuk memaksimalkan varians
uji? Pertanyaan ini sebenarnya memiliki dua unsur. "Pertama, apakah
lebih baik menulis barang yang hampir sama dalam kesulitan atau item
yang memiliki campuran kesulitan tinggi, rendah, dan menengah?
Pertimbangkan sejenak fakta bahwa kovarian item akan lebih besar saat
barang berkorelasi tinggi.
3. Haruskah barang yang ditambahkan ke tes serupa dengan konten yang sudah
disertakan jika barang-barang ini mencoba untuk menutupi area konten baru?
Pengembangan uji suara memerlukan kumpulan item awal untuk
mencakup seperangkat spesifikasi atau tujuan domain yang
didefinisikan dengan baik. Dalam mencoba mengembangkan konten
untuk item baru, pengembang uji mungkin tergoda untuk memperluas
domain materi yang tercakup dalam pengujian dengan harapan
meningkatkan varians total daripada mencoba mengembangkan item
tambahan berdasarkan konten yang sudah tercakup.
4. Apakah varians skor tes itu sendiri merupakan indeks kualitas tes? Bahkan
pada tes di mana pengukuran perbedaan individu sangat penting,
memaksimalkan varians skor total bukanlah satu-satunya pertimbangan
dalam konstruksi uji. Pengguna uji potensial, membandingkan dua tes
yang dirancang untuk memenuhi tujuan yang sama, harus memilih tes
yang menghasilkan skor dengan reliabilitas dan validitas yang lebih
besar.
Penguji perlu menentukan sejauh mana kesalahan pengukuran
berpengaruh pada tes sehingga dapat meminimalisir inkonsistensi
kesalahan acak dalam pengukuran sehingga dapat mencapai reliabilitas.
Model klasik skor benar adalah kerangka yang digunakan untuk
pengembangan reliabilitas yang berdasarkan nilai individu sebagai
variabel acak, dari salah satu kemungkinan nilai yang diperoleh seseorang
pada alat tes yang sama dan berulang, skor benar sebagai nilai yang
diharapkan dari nilai tes yang berulang dan sama memiliki sifat: rata-rata
skor kesalahan populasi sama dengan nol, korelasi antara skor benar dan
salah sama dengan nol, korelasi antara kesalahan pengukuran yang
berbeda sama dengan nol.
Latihan
1. Dalam setiap situasi menunjukkan apakah acara tersebut dijelaskan
memberikan kontribusi untuk kesalahan pengukuran acak atau
sistematis dalam Penilaian tes peserta ujian ini.
A. Sebuah perilaku konseling Peringkat pengamat selama wawancara
konselor-klien cenderung menilai konselor perempuan lebih tinggi
dibandingkan laki-laki pada item berurusan dengan hubungan
klien.
B. Sebuah ujian mengambil tes matematika terganggu oleh kebisingan
di lorong terdekat dan akibatnya membuat kesalahan dalam
menghitung jawabannya.
C. Jane sering menjadi begitu cemas selama pengujian situasi yang dia
sering meninggalkan banyak item yang belum terjawab.
D. Seorang siswa kelas membaca tes esai melompati satu kalimat, yang
membuat sisa respon siswa ambigu.
E. Seorang siswa di kelas psikologi miscopies pernyataan dari kuliah
instruktur dan kemudian salah menjawab item berdasarkan
informasi yang keliru ini.
2. Sebuah tes tiga item untuk diberikan kepada penduduk empat peserta
ujian. Tabel berikut menunjukkan distribusi proporsional hipotetis
Penilaian tes untuk setiap peserta ujian lebih banyak pencobaan
diulang.
Penempuh Penilaian
Ujian 0 1 2 3
1 0,5 0,5 0 0
2 0,25 0,25 0,25 0,25
3 0 0 0,5 0,5
4 0 0,5 0,5 0
A. Apa Penilaian berlaku untuk ujian 3?
B. Apa Penilaian berlaku untuk ujian 2?
C. Apa varians Penilaian yang benar pada tes ini?
D. Apa Penilaian kesalahan varians untuk ujian 3?
E. Apa Penilaian kesalahan varians untuk ujian 2?
F. Apa koefisien reliabilitas untuk tes ini?
G. Jika Anda memberikan tes ini pada dua kesempatan, memberikan
contoh dua set kemungkinan Penilaian yang mungkin diperoleh
selama empat peserta ujian tersebut.
H. Dalam situasi pengujian yang sebenarnya, apakah mungkin untuk
menentukan uji Penilaian reliabilitas dengan metode yang
digunakan dalam F? Mengapa?
3. Sebuah penelitian psikolog diberikan tiga bentuk paralel tes standar
untuk subyek dalam penelitian. Lembaran respon dicetak dengan
scanner optik. Kemudian peneliti diberitahu bahwa pemindai sudah
rusak, memperkenalkan kesalahan mencetak sesekali pada interval
acak pada hari tes mencetak gol. Karena peneliti telah menggunakan
hanya Penilaian rata-rata untuk setiap mata pelajaran rata-rata selama
tiga tes, peneliti tidak melihat kebutuhan untuk memiliki tes rescored
sejak dampak dari kesalahan acak seharusnya "rata-rata keluar" ke nol
selama tiga tes. Apakah ini interpretasi yang benar dari asumsi bahwa
rata Penilaian kesalahan pengukuran harus sama dengan nol?
4. John telah mengambil tes sekelompok bakat akademik, mendapatkan
Penilaian deviasi IQ 135 poin. Dia kemudian diuji dengan tes bakat
individual, mendapatkan IQ deviasi dari 110 poin. guru Yohanes
mencatat bahwa perbedaan antara nilai ini jauh lebih besar daripada
kesalahan standar pengukuran untuk tes baik. instruktur tidak
mengerti bagaimana ini bisa terjadi dan juga bertanya-tanya yang tes
adalah ukuran yang lebih baik dari "nilai benar" John. Bagaimana Anda
menjelaskan hal ini, menggunakan teori Penilaian klasik yang benar?
5. Menunjukkan bahwa kovarians antara Penilaian diamati pada dua tes
setara dengan kovarians antara Penilaian mereka yang sebenarnya;
dengan kata lain, membuktikan bahwa
𝜎𝑋1𝑋2 = 𝜎𝑇1𝑇2
∑𝑋1 𝑋2
(Remember that 𝜎𝑋1 𝑋2 = )
𝑁

6. A. Tunjukkan bahwa ketika tes i dan j secara ketat paralel

𝜎𝑇21 = 𝜎𝑖𝑗
B. Apakah pengetahuan tentang hubungan ini memiliki penggunaan
praktis dalam pengembangan tes?

7. Seorang psikolog personil ingin membuat variabel (Y) dengan


menambahkan bersama-sama Penilaian mentah manajemen trainee
pada ukuran motivasi berprestasi (X1) dan bakat pengawasan (X2).
Dalam panduan tes psikolog menemukan informasi tentang
reliabilities dan varians untuk X1 dan X2 dan korelasi antara X1 dan X2.
Turunkan formula untuk mengekspresikan Reliabilitas Y dalam hal
parameter ini.
8. Tabel 6.2 melaporkan korelasi antara semua pasangan subyek pada
baterai prestasi dan sarana, standar deviasi, dan reliabilitas bentuk
lainnya untuk subyek dari suatu administrasi kepada siswa pada awal
kelas dua. Gunakan meja untuk menjawab qllestions berikut.
A. Apa korelasi antara Firman Serangan Keterampilan dan Sosial
Studies?
B. Apa kovarians antara kedua variabel?
C. Penilaian membaca total dapat dibentuk dengan menambahkan
nilai dari Word Attack dan Pemahaman Membaca. Apa varians
dari Penilaian total membaca?
D. Apa Reliabilitas total Penilaian membaca?
E. Seorang psikolog kognitif membentuk variabel dengan
menambahkan bersama-sama Kosakata, Bahasa, dan Ilmu Sosial.
Apa korelasi antara variabel baru ini dan total Penilaian membaca?

TABEL 6.2. Data yang hipotetis dari Manual Prestasi Battely Penggunaan
Dalam latihan 8
Subtes Jumlah
1 2 3 4 5 6 7
Nama Subtes
Kosa kata 1 1.00 0,66 0,63 0,68 0,69 0,65 0,69
Keterampilan Serangan
2 1.00 0,87 0,85 0,61 0,61 0,55
kata
Pemahaman membaca 3 1.00 0,83 0,57 0,59 0,53
Bahasa 4 1.00 0,62 0,62 0,55
Konsep matematika 5 1.00 0,72 0,64
Konsep Ilmu 6 1.00 0,61
Penelitian sosial 7 1.00
Standar Deviasi 6.67 8.79 8.39 10.12 4.97 6.65 4.33
Berarti 19,8 22.0 18.0 37,7 16.7 15,6 16.0
Bentuk Reliabilitas
0,87 0,95 0,95 0,94 0,81 0,90 0,81
alternatif

F. Jika peserta ujian mendapatkan Penilaian 22 pada Konsep Ilmu


subtes, dalam apa yang interval yang bisa kita menjadi 68% yakin
bahwa nilai sebenarnya nya terletak?
G. Di bawah asumsi dari model Penilaian klasik yang benar, apa yang
harus sebuah sebar dari Penilaian kesalahan pada matematika dan
sains subyek terlihat seperti?
DAFTAR PUSTAKA

Allen, M.J. & Yen, W.M. (1979). Introduction to measurement theory. Montere:
Brooks/Cole Publising Company.
Anastasi, A. (2007). Tes psikologi (Edisi ketujuh, terjemahan). Jakarta: Indeks.
Arifin, Z. (2013). Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya.
Crocker, L & Algina, J. (2005). Introduction to Classical and Modern Test
Theory. Florida: Harcourt Brace Jovanovich College Publishers.
Gruijter, D.N. & Kamp. L.J. (2008). Statistical Test Theory for Behavioral
Sciences. New York: Chapman & Hall/CRC.
Guilford, J. P. (1956). Fundamental Statistics in Psychology and Education. New
York: Mc Graw-Hill Book Co. Inc.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of
item response theory. London: Sage Publications, Inc.
Harvill, L.M. (1991). Standard Error of Measurement. Educational
Measurement: Issues and Practice, 10(2), hlm. 33-41. doi:
http://dx.doi.org/ 10.1111/j.1745-39921991.tb00195.x
Kane, M. (2010). Errors of Measurement, Theory and Public Policy. New Jersey:
Educational Testing Service.
Kartowagiran, B. (2009). Pengantar Teori Tes Klasik. Makalah Pelatihan
penulisan analisis butir dengan pendekatan TTK dan TRB tanggal 11 – 12
April 2009 di Lemlit UNY Kerjasama Pascasarjana UNY dan Dinas
Pendidikan Prov DIY.
Lord, F.M. (1980). Application of item response theory to practical testing
problems. Hllsdale, NJ: Lawrence Erlbaum Associates, Publisher.
Murphy, Kevin R. & Davidshofer, Charles O. (2003). Psychological testing:
Principles and application. New Jersey: Prentice-Hall Inc.
Retnawati, Heri. (2015). Reliabilitas. Handout program studi matematika.
Yogyakarta: FPMIPA Universitas Negeri Yogyakarta.
Sugiyono. (2007). Metoda Penelitian Administrasi dilengkapi dengan Metode
R&D. Bandung. Alfabeta.
Sumintono, B. & Widhiarso, W. (2014). Aplikasi Model Rasch untuk Penelitian
Ilmu-Ilmu Sosial. Cimahi: Trim Komunikata Publishing House.
Suryabrata, S. (2000). Pengembangan Alat Ukur Psikologis. Yogyakarta: Andi.
Suwarto. (2011). Teori Tes Klasik dan Teori Tes Modern. Jurnal Widyatama,
20, 1, hlm. 69-78.

Anda mungkin juga menyukai