Reliabilitas

Dalam pengukuran psikologis, akan selalu
ada ketidaktepatan (dg derajat ttt) dlm

pengukuran
 Tes yg reliabel (dapat dipercaya)

Tes yg relatif terbebas dari kesalahan
pengukuran.
Pengukuran dalam psikologi sulit karena:
 Sifat-sifat yg kompleks
 Sesuatu yg tidak bisa dilihat & disentuh
Pengukuran psikologis = pengukuran karet
Rawan kesalahan dalam pengukuran

Kesalahan pengukuran wajar dlm bidang
apapun
Mengharuskan
pemberian item yg
Teori Tes Klasik sama pada setiap
Metode orang
Pemeriksaan
Reliabilitas Komputer
digunakan untuk
Teori Respons Item fokus pada rentang
kesulitan item
Teori Tes Klasik:
 Setiap orang memiliki skor yg sebenarnya (true score),
bila tidak terdapat kesalahan dlm pengukuran
 Alat ukur tidak ada yg sempurna, shg skor pengukuran
setiap orang akan selalu berbeda dg true score
 Kesalahan pengukuran bersifat acak
X=T+E
X = Skor pengukuran
T = Skor sebenarnya (True score)
E = Kesalahan (Error)
Teori dasar sampling mengenai kesalahan acak:
 Distribusi kesalahan sampling berbentuk lonceng
 Pusat distribusi skor = skor sebenarnya
 Sebaran di sekitar rerata menunjukkan
distribusi kesalahan sampling
 Skor sebenarnya dapat diperkirakan dg
mencari
rerata skor
Teori Tes Klasik:
 True score individu tidak akan berubah dg
pemberian tes yg sama secara berulang
 Kesalahan acak dapat menyebabkan pemberian
tes yg sama secara berulang menghasilkan skor
yg berbeda
Kesalahan Standar Pengukuran (Standard Error of

Measurement)
 Simpangan baku kesalahan = derajat kesalahan
pengukuran
• Simpangan baku = rata2 deviasi di
sekitar rerata
Teoretis • Kesalahan standar pengukuran =
rata2 variasi skor hasil pengukuran
dari skor sebenarnya
• Simpang baku skor pengukuran

r&eliabilitas tes -> untuk
Praktis memperkirakan kesalahan standar
pengukuran
Mempertimbangkan masalah yg terbentuk dg
menggunakan jumlah item yg terbatas untuk
mewakili konstruk yg lebih luas & kompleks.
Misal:
Jika kita ingin mengevaluasi kemampuan pengejaan
bahasa inggris. Teknik yg paling tepat adalah melihat
kamus & meminta anda mengeja setiap kata &
menentukan presentase pengejaan yg benar. Tapi
pengukuran tsb memakan waktu.
 Reliabilitas -> perbandingan antara varians skor
pengukuran dari tes yg lebih singkat & varians skor
sebenarnya
 Semakin besar jumlah sampel -> semakin akurat
mewakili domain (populasi)
 Semakin tinggi jumlah item -> semakin tinggi reliabilitas
 Setiap item merupakan sample kemampuan
perilaku yg akan diukur
 Setiap item harus mewakili secara
seimbang
kemampuan yg diteliti
 Reliabilitas dapat diperkirakan dari korelasi antara skor
pengukuran & skor sebenarnya
 Skor sebenarnya hampir tidak mungkin ditemukan
Komputer digunakan untuk fokus pada rentang kesulitan
item yg membantu memeriksa level kemampuan individu.
Kelebihan
 Perkiraan kemampuan lebih terpercaya
 Tes dg item lebih singkat
Kekurangan
 Memerlukan bank item yg telah dievaluasi scr sistematis
tingkat kesulitannya
 Perlu software yg kompleks
 Umumnya koef reliabilitas = korelasi
Koefisien reliabilitas
Perbandingan (rasio) antara varians skor sebenarnya dg
varians skor pengukuran -> merupakan presentase.
Misal:
Reliabilitas tes = 0,40 dibandingkan dengan kenyataan
40% variasi dari hasil tes dapat dilihat dalam kenyataan
60% sisanya perbedaan hasil tes & kenyataan berasal dari
faktor lain
Skor pengukuran ≠ skor sebenarnya
Sumber error:
 Situasi saat tes
 Faktor kesehatan subjek
 Item tes tidak mewakili domain
 dll
Model-model Reliabilitas
Melihat konsistensi hasil tes

Test-Retest ketika diberikan pada waktu
yg berbeda
Mengevaluasi tes dari

Parallel Forms berbagai bentuk tes yg
berbeda
Bagaimana performa sso

Internal Consistency pada sekelompok item serupa
yg dipilih dari bentuk
pengukuran yg sama
 Mengevaluasi kesalahan yg berhub
dg administrasi tes pada 2 waktu yg berbeda
 Bermanfaat untuk mengukur karakteristik yg tetap,
misal: inteligensi.
 Administrasi tes yg sama pada 2 waktu
yg berbeda, kemudian dikorelasikan
 Carryover Effect -> tes sesi 1 mempengaruhi tes sesi
2, ada efek latihan
 Cenderung meningkatkan perkiraan reliabilitas yg
sesungguhnya
 Interval waktu penting dlm test-retest
 Tes tsb memiliki reliabilitas rendah
 Ada perubahan karakteristik yg diukur
 Kombinasi alasan di atas
Jika koef
rendah
 Kecenderungan perilaku bersifat konstan

 Jika karkteristik yg diukur
mengalami perubahan -> variansi tsb
Asumsi Tes
dianggap error
Klasik
Membandingkan 2 bentuk tes yg ekuivalen (sepadan)
mengukur hal yg sama, dengan item berbeda & peraturan
pemilihan item dari level kesulitan yg sama.
 Kedua bentuk tes diberikan kpd sekelompok org yg

sama -> menggunakan korelasi Pearson Product
Moment
 Jika kedua tes diberikan pada hari yg sama -> sumber
varisi adalah kesalahan acak & perbedaan bentuk
kedua tes
 Jika kedua tes diberikan pada hari yg berbeda ->
kesalahan yg berhub dg sampling waktu termasuk
 Pemeriksaan reliabilitas yg kuat &
sering digunakan
Kelebiha
n
 Pengembang tes tidak mau

membuat 2
Kekurangan
tes berbeda yg mengukur hal yg sama

 Sulit mengetes kembali kelompok individu
yg sama
Memeriksa sumber variasi yg berbeda
dalam tes tunggal dg membagi tes dalam
sub-sub komponen.
Sebuah tes diberikan & dibagi ke dlm 2 bagian
yg diskor secara terpisah
Cara Pembagian:
 Membagi setengah bagian pertama & kedua
 Membagi item menjadi 2 bagian secara acak
 Sistem ganjil-genap -> jika tingkat kesulitan
soal
semakin meningkat
 Mencari reliabilitas dg korelasi kedua bagian
 Reliabilitas yg diperoleh dapat lebih rendah dari yg
sebenarnya karena masing2 subtes hanya
setengah dari panjang tes yg utuh
 Korelasi antara 2 bagian jika setiap bagian memiliki
panjang seperti keseluruhan tes untuk
meningkatkan perkiraan reliabilitas -> Rumus
Spearman-Brown
 Jika varians item tidak seimbang -> koefisien
alpha Cronbach
Permasalahan yg Muncul:
 Pembagian tes -> varians bisa berbeda
 Penilaian secara terpisah -> pekerjaan
bertambah
Kuder-Richardson 20
Teknik menghitung reliabilitas yang secara
simultan memperhitungkan semua cara yg
mungkin untuk membagi item.
Teknik ini khusus untuk menghitung item

dikotomi (skor 0 &1 -> benar/salah)
Permasalahan yg Muncul:
 Memerlukan anda untuk mencari
proporsi individu yg menjawab item dg
“benar” (lihat rumus)
 Ada berbagai jenis tes, yg tidak memiliki

jawaban benar-salah -> seperti skala
sikap & kepribadian.
Kuder-Richardson 21
Teknik menghitung reliabilitas dengan asumsi
semua item sama tingkat kesulitannya (level
kesulitan 50%).
Teknik ini khusus untuk menghitung item

dikotomi (skor 0 &1 -> benar/salah)
Praktiknya -> asumsi jarang terpenuhi, shg

merendahkan perkiraan reliabilitas split half.
 Metode paling umum untuk perkiraan reliabilitas
melalui konsistensi internal -> bisa untuk bentuk tes
benar-salah, maupun yg lain.
 Menyediakan perkiraan reliabilitas yg paling
rendah yg dapat diperkirakan (batas bawah
reliabilitas)
 Koefisien alpha tinggi -> reliabilitas tes
dapat diterima
 Reliabilitas sebenarnya dapat lebih tinggi
 Tidak dapat memberi informasi bahwa tes
tidak reliabel
 Semua pengukuran konsistensi internal
mengevaluasi keseluruhan tes ketika item
yg berbeda pada tes mengukur
kemampuan/sifat yg sama.
 Perkiraan reliabilitas akan rendah jika tes

mengukur beberapa sifat
 Ketika item tidak mengukur karakteristik yg

sama -> tes tidak akan konsisten secara
internal
 Metode yg digunakan ketika tes mengukur
beberapa karakteristik yg berbeda.
 Metode ini membagi item menjadi

beberapa subkelompok, masing2 memiliki
konsistensi internal.
 Subkelompok item tidak berhub satu sama

lain
Berupa perbedaan antara 2 performa dalam suatu waktu.
Misal perbedaan skor sebelum & sesudah pelatihan.
Mengacu kembali ke rumus X = T + E, dlm skor pembeda:

 E lebih besar karena menyerap eror dari dua skor
 T lebih kecil dari E krn apapun yg umum dlm
kedua pengukuran dihapuskan ketika skor pembenda
terbentuk
 Reliabilitas skor pembeda diperkirakan lebih rendah
dari reliabilitas kedua skor berasak
 Jika tes mengukur sifat yg sama, maka skor
perbedaan memiliki reliabilitas 0
 Karena skor reliabilitas rendah, maka tidak bisa diandalkan
untuk interpretasi
 Sistem observasi perilaku tidak luput dari kesalahan
 Pengamat tidak mungkin mengamati terus-menerus ->

sumber kesalahan sampling waktu
 Perbedaan skor sebenarnya dg skor yg

dicatat pengamat -> sumber kesalahan pengamat
 Perbedaan skor antar pengamat -> sumber kesalahan

pengamat
Relibilitas pengamat -> memperhitungkan konsistensi
antara pengamat yg berbeda dlm mengevaluasi TL
yg sama.
Dengan mencatat presentase frekuensi 2/lebih

pengamat sependapat
Kelemahan:
 Tidak memperhatikan level kesepakatan
karena probabilitas
 Presentase seharusnya tidak dimanipulasi
secara matematis
Statistik Kappa
Metode yg paling baik untuk memeriksa level
kesepakatan di antara beberapa pengamat,
dengan memberikan peringkat sejumlah
objek menggunakan skala nominal.
Skor Kappa bervariasi antara 1 (kesepakatan

mutlak) sampai -1 (ketidaksepakatan mutlak)
Sumber Contoh Metode Cara Mengukur
Kesalahan
Pemilihan Waktu Tes yg sama Test-retest Korelasi antara
diberikan pada 2 nilai yg diperoleh
waktu yg pada dua
berbeda waktu
Pemilihan Item Item-item yg Parallel Forms Korelasi antara
berbeda bentuk tes yg
digunakan untuk setara namun
mengukur memiliki item yg
atribut yg sama berbeda
Konsistensi Konsistensi item- 1. Split half 1. Korelasi yg
Internal item dalam tes yg 2. KR20 diperbaiki antara
sama 3. Alpha setengah
bagian tes
Penguji tes yg Perbedaan Statistik Kappa
berbeda catatan oleh
penguji
 Semakin besar standard error of measurement, semakin
tidak dipertanyakan keakuratan atribut yg diukur,
begitu juga sebaliknya
 Standard error of measurement digunakan untuk

menentukan interval kepercayaan (confidence
interval)
 Semakin besar standard error of measurement, semakin

besar interval kepercayaan -> kesimpulan semakin
tidak tepat
 Nilai reliabilitas 0,70 – 0,80 -> cukup baik
 Meninggikan reliabilitas di atas kriteria cukup dg
memperbaiki instrumen dianggap sebagian peneliti
sebagai pemborosan waktu, usaha & biaya
 Reliabilitas tinggi dapat dicapai pada tes yg sangat
terfokus
 Dalam ruang lingkup klinis, reliabilitas sangat tinggi

adalah penting karena menyangkut pengambilan
keputusan terkait masa depan org lain
 Penguji harus berusaha mendapatkan reliabilitas yg
lebih besar dari 0,95
Menambah Jumlah
Item
Cara meningkatkan Analisis Item &

Reliabilitas Analisis
Faktor
Koreksi
Pengurangan
 Menurut model domain sampling, semakin besar
jumlah sample item, semakin mungkin tes mewakili
karakteristik yg sebenarnya
 Keputusan menambah jumlah item tes merupakan
proses yg memakan biaya & waktu
Rumus prediksi Spearman-Brown (Spearman-Brown

Prophecy) -> dapat memperkirakan berapa banyak item
yg harus ditambah agar suatu tes memperoleh reliabilitas
yg dapat diterima.
 Probabilitas kesalahan pada item yg ditambah adalah
sama dg probabilitas kesalahan item asal
 Tetapi menambah item baru dapat menjadi sumber
kesalahan baru
Reliabilitas tes bergantung pada sejauh mana seluruh
item mengukur karakteristik yg sama. Seringkali beberapa
item tidak mengukur konstruk yg diberikan
• Tes akan reliabel jika

unidimensional
bersifat
Analisis • Satu faktor harus dapat menjelaskan
Faktor banyak varians dibandingkan dg faktor
lainnya
Analisis Item • Menguji korelasi antara setiap item dg

skor total tes
-> Analisis • Jika korelasi rendah, maka item tsb bisa
Daya jadi mengukur hal yg berbeda, terlalu
mudah / terlalu sulit -> harus dibuang
Diskriminasi
Reliabilitas yg rendah:
 Menurunkan peluang mendapatkan
korelasi yg signifikan dlm pengukuran
 Informasi ygdiperoleh menjadi tidak
bermanfaat
Koreksi Pengurangan (correction for

attenuation)
Memperkirakan berapa korelasi yg
mungkin didapat bila diukur tanpa adanya
kesalahan.

Reliabilitas

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Reliabilitas

Diunggah oleh

Hak Cipta:

Format Tersedia

Dalam pengukuran psikologis, akan selalu

ada ketidaktepatan (dg derajat ttt) dlm

 Tes yg reliabel (dapat dipercaya)

Pengukuran psikologis = pengukuran karet

Rawan kesalahan dalam pengukuran

Kesalahan Standar Pengukuran (Standard Error of

• Simpang baku skor pengukuran

Melihat konsistensi hasil tes

Mengevaluasi tes dari

Bagaimana performa sso

 Kecenderungan perilaku bersifat konstan

 Kedua bentuk tes diberikan kpd sekelompok org yg

 Pengembang tes tidak mau

tes berbeda yg mengukur hal yg sama

Teknik ini khusus untuk menghitung item

 Ada berbagai jenis tes, yg tidak memiliki

Teknik ini khusus untuk menghitung item

Praktiknya -> asumsi jarang terpenuhi, shg

 Perkiraan reliabilitas akan rendah jika tes

 Ketika item tidak mengukur karakteristik yg

 Metode ini membagi item menjadi

 Subkelompok item tidak berhub satu sama

Mengacu kembali ke rumus X = T + E, dlm skor pembeda:

 Pengamat tidak mungkin mengamati terus-menerus ->

 Perbedaan skor sebenarnya dg skor yg

 Perbedaan skor antar pengamat -> sumber kesalahan

Dengan mencatat presentase frekuensi 2/lebih

Skor Kappa bervariasi antara 1 (kesepakatan

 Standard error of measurement digunakan untuk

 Semakin besar standard error of measurement, semakin

 Dalam ruang lingkup klinis, reliabilitas sangat tinggi

Cara meningkatkan Analisis Item &

Rumus prediksi Spearman-Brown (Spearman-Brown

• Tes akan reliabel jika

Analisis Item • Menguji korelasi antara setiap item dg

Koreksi Pengurangan (correction for

Anda mungkin juga menyukai