Test-Retest Reliability adalah sebuah pendekatan untuk mengukur reliabilitas, dimana koefisien reliabilitas ini
diperoleh dengan pemberian tes yang sama menguji individu yang sama pada dua kesempatan terpisah. Dua
kesempatan itu biasanya jarak satu hari hingga satu bulan
2. Inter-Scorer Reliability
Pendekatan ini dipakai untuk menilai kesepakatan antar rater dalam menilai suatu individu. Dengan demikian reliabilitas tersebut
melekat pada skor yang diberikan, bukan pada alat ukurnya. Misalkan dalam suatu kompetisi lompat indah, dua juri menilai seberapa
indah lompatan atlet tersebut. Jika kedua juri tersebut memiliki penilaian yang hampir sama, maka ada kesepakatan penilaian, yang
berarti reliabilitasnya tinggi. Namun sebaliknya, jika juri pertama menilai lompatannya sangat indah sedangkan juri kedua menilai
lompatannya biasa saja, maka tidak ada kesepakatan.
Ada dua teknik untuk estimasi reliabilitas antar rater yang dapat digunakan, yakni dengan koefisien Kappa dari Cohen dan Intraclass
Correlation Coefficients (ICC).
3. Alternate Form Reliability (Reliabilitas Bentuk Alternatif)
Salah satu metode mendapatkan reliabilitas tes adalah dengan reliabilitas bentuk alternatif dimana diberikan dua
buah tes yang paralel atau setara pada kelompok atau individu yang sama namun pada waktu yang berbeda.
Syarat-syarat yang harus dipenuhi di kedua tes pararel adalah kriteria yang digunakan kedua tes sama,
masing-masing tes dikonstruksikan tersendiri, jumlah item isi, dan corak sama, tingkat kesukaran sama, petunjuk
waktu yang disediakan untuk mengerjakan tes, dan contoh-contoh juga sama.
internal-consistent reliability yaitu mengukur dua atau lebih konsep yang sama pada waktu yang bersamaan. Selain
itu, internal-consistent reliability juga dapat membandingkan untuk melihat tingkat kesetujuan responden. Ada tiga
jenis cara internal-consistent reliability, yaitu Split-Half Reliability, Kuder-Richardson Formulas dan Coefficient
Alpha:
a. Split-Half Reliability
Rumus Uji Reliabilitas Teknik Belah Dua dilakukan dengan cara membagi tes menjadi dua bagian yang relatif sama
(banyaknya soal sama), sehingga masing-masing test mempunyai dua macam skor, yaitu skor belahan pertama (awal
/ soal nomor ganjil) dan skor belahan kedua (akhir / soal nomor genap). Koefisien reliabilitas belahan tes dinotasikan
dengan r1/2 1/2 dan dapat dihitung dengan menggunakan rumus yaitu korelasi angka kasar Pearson. Selanjutnya
koefisien reliabilitas keseluruhan tes dihitung menggunakan formula Spearman-Brown, yaitu:
Rumus:
b. Kuder-Richardson Formulas
Serangkaian rumus yang dikembangkan oleh G.Fredrick Kuder dan MW Richardson (1937) memberikan ukuran lain
dari internal consistency. Dua rumus ini, angka 20 dan 21, biasa disebut sebagai KR-20 dan KR-21:
Cronbach’s alpha digunakan untuk mengukur keandalan indikator-indikator yang digunakan dalam kuesioner
penelitian. Cronbach’s Alpha merupakan sebuah ukuran keandalan yang memiliki nilai berkisar dari nol
sampai satu. Menurut Eisingerich dan Rubera (2010: 27) nilai tingkat keandalan Cronbach’s Alpha minimum
adalah 0,70.
Berikut Rumus Cronbach’s alpha:
Pertama, panjang tes itu penting. Secara umum, semakin lama pengujiannya, semakin dapat diandalkan. Tes yang
sangat singkat seringkali tidak dapat diandalkan. Dalam kasus yang membatasi waktu hampir selalu memiliki keandalan
yang cukup terbatas. Sebagai aturan umum, untuk meningkatkan keandalan, dibutuhkan rentang waktu pengujian yang
lama..
Kedua, adalah bahwa reliabilitas dimaksimalkan dengan persentase peserta ujian menanggapi dengan benar dalam
tes kemampuan kognitif atau menanggapi dalam suatu arah (misalnya, "Ya") dalam tes non kognitif yang mendekati
0,50. Perhatikan bahwa pq sudah maksimal ketika p ¼ .50; pq menurun saat p menjauh dari, 50. Inilah alasannya tes
standar dalam domain kognitif seringkali tampak begitu sulit. Pengembang uji sedang mencoba memaksimalkan
keandalan. Sebenarnya, dengan mempertimbangkan efek menebak jawaban yang benar, nilai target p untuk item
biasanya ditetapkan agak di atas 0,50, tetapi masih pada tingkat yang sulit. Namun, Thorndike (1982) menunjukkan
bahwa sedikit keandalan yang dikorbankan berangkat secara substansial dari p ¼ .50.
Ketiga, korelasi antar item itu penting. Amati efek rata-ratakorelasi antar item pada Tabel 4.10. Pelajaran praktis
yang bisa dipetik adalah: Mendapatkan keandalan konsistensi internal yang baik, gunakan item yang mengukur sifat
yang terdefinisi dengan baik.
6. The Standard Error of Measurement (Kesalahan standar Pengukuran)
Untuk interpretasi praktis, bergantung pada kesalahan standar pengukuran, biasanya disingkat SEM. SEM
dirumuskan sebagai:
SEM= SDx√1-Rxx
dimana r xx adalah reliabilitas tes dan SD x adalah standar deviasi tes untuk grup dimana r ditentukan.
SEM adalah deviasi standar dari jumlah yang diperoleh secara hipotetis tak terbatas skor di sekitar skor sebenarnya
orang tersebut.
SEM harus dinyatakan dalam unit skor yang digunakan untuk interpretasi. Uji manual seringkali memberikan SEM
hanya pada unit skor mentah. Jika interpretasi menggunakan skor bernorma, maka SEM skor mentah harus
dikonversi ke skor bernorma. Ini bisa dengan mudah dilakukan untuk skor bernorma yang merupakan konversi linier
dari skor mentah, seperti linier skor standar. Tugasnya jauh lebih rumit untuk konversi nonlinier.
Kesalahan standar pengukuran dengan kasus membandingkan dua skor dapat dipecahkan dengan rumus:
7. Standard Errors: Three Types (Tiga Jenis: Kesalahan standar)
Kesalahan standar pengukuran adalah simpangan baku dari hipotesis populasi skor yang diamati di distribusikan di
sekitar skor sebenarnya untuk individu. Adapun tiga jenis kesalahan standar antara lain:
1.Kesalahan Standar Pengukuran:Indeks kesalahan karena tidak dapat diandalkan
2.Kesalahan Standar Rata-rata:Indeks kesalahan karena pengambilan sampel acak
3.Kesalahan Standar Perkiraan:Indeks kesalahan dalam memprediksi Y dari X
Gambaran ● Analisis sederhana dan ● Disebut juga sebagai tes psikometri modern/ tes teori modern
Umum banyak digunakan ● Prinsip: Relativitas vs Probabilitas
● Fokus pada tes secara ● Asumsi: Unidimensi, Independensi Lokal, Invariansi
keseluruhan ● Item Response Function (IRF),
● X=T+E Item Characteristics Curve (ICC),
Item Information Function (IIF),
Test Informastion Function (TIF) ->Butir/item tes,
subjek/responnya, isi respon subjek)
Teori Generalisasi (TG)
Gambaran
Umum ● Teori ini bisa dipandang sebagai perpanjangan dari teori klasik
melalui aplikasi prosedur analisis varians tertentu (ANOVA)
untuk masalah pengukuran. Dalam prosesnya, teori G mampu
menyajikan koefisien yang menunjukkan reliabitlitas, yang
disebut dengan koefisien generalisasi
● Tahap: (a) studi generalisasi, (b) studi keputusan (decision)
● Universe Score: detail dari situasi pengujian tertentu yang
mencakup: (1) jumlah soal dalam tes, (2) jumlah pelatihan yang
dimiliki penguji, (3) tujuan penyelenggaraan tes
Tes Teori Klasik Teori Respon Aitem (TRA) Teori Generalisasi
(TTK) (TG)
Kelebihan ● Analisis lebih ● Parameter butir dan peserta tes ● Mampu menganalisa
sederhana, mudah tidak saling mempengaruhi, berbagai macam
dipahami sehingga memungkinkan melihat error/kesalahan yang
● Pemahamannya kontribusi sewaktu butir tsb terjadi dalam suatu
tidak menuntut ditambahkan atau dikurangi pada pengukuran dan
pengetahuan suatu perangkat dianalisa dalam satu
mendalam ● Memungkinkan peneliti untuk waktu
mengenai fungsi melakukan pengukuran yang
distribusi statistik sangat cermat pada
dan model-model kelompok-kelompok yang
matematiknya ekuivalen namun berbeda kultur
● Sampel yang sehingga dapat diketahui ada
diperlukan bisa bias atau tidak pada hasil
lebih sedikit pengukuran tsb.
dibandingkan
dengan TRA
Tes Teori Klasik Teori Respon Aitem Teori Generalisasi (TG)
(TTK) (TRA)