Kelompok 3 RELIABILITAS

MAKALAH
ESTIMASI RELIABILITAS TES
Disusun untuk Memenuhi Tugas Mata Kuliah Assessment Pembelajaran matematika

Dosen Pengampu: Dr. Jailani
Oleh
HUSNUL LAILI
11709251003
SITI NASIAH
11709251015
NELLY RHOSYIDA
11709251016
UNIVERSITAS NEGERI YOGYAKARTA

2012
A. DEFINISI UMUM
Reliabilitas adalah derajat kekonsistenan hasil/nilai siswa pada
pemberian penilaian yang berulang (Nitko, Anthony J. & Susan M.
B. 2011 : 64). Konsistensi merupakan konsep penting untuk
memutuskan
seberapa
besar
derajat
kepercayaan
dari
hasil
penilaian terhadap siswa. Makna lain reliabilitas dalam terminologi

stabilitas adalah subjek yang dikenai pengukuran akan menempati
ranking yang relatif sama pada testing yang terpisah dengan alat
tes yang ekuivalen (Singh, 1986; Thorndike, 1991).
Kaitannya dengan validitas, Nitko, Anthony J.
& Susan M. B
menjelaskan bahwa validitas berhubungan dengan interpretasi
hasil penilaian
terhadap siswa
dalam penggunaannya
untuk
membuat keputusan. Interpretasi tersebut tidak valid apabila hasil

penilaian terhadap siswa tidak konsisten. Dengan kata lain, derajat
reliabilitas dari hasil penilaian (tes) membatasi derajat validitasnya.
Meskipun derajat validitas yang tinggi membutuhkan reliabilitas
yang tinggi, tapi tidak berlaku untuk kebalikannya. Reliabilitas yang
tinggi tidak menjamin validitasnya.
Menurut Mary J. Allen & Wendy M. Yen, ada beberapa cara
mendefinisikan dan menginterpretasikan reliabilitas tes. Contohnya,
suatu tes reliabel jika skor amatan (X) berkorelasi tinggi dengan
skor sebenarnya (T). Hal ini terjadi jika skor amatan dan skor
sebenarnya dapat di peroleh setiap
peserta ujian dalam
tes.
Kuadrat korelasi antara skor amatan dengan skor sebenarnya
2
XT
) disebut koefisien reliabilitas untuk tes tersebut. Atau
reliabilitas dapat di tunjukan sebagai korelasi koefisien antara skor

pengamatan pada dua tes yang paralel. Jika dua tes yang paralel
diberikan pada populasi peserta ujian dan
skor amatan yang
dihasilkan dikorelasikan, korelasi ini (disimbolkan
xx'
dimana X
dan X adalah skor amatan untuk dua tes yang paralel) adalah
koefisien reliabilitas.
Berikut ini adalah enam cara Alternatif untuk menginterpretasikan

Koefisien reliabilitas:
xx'
1.
korelasi antara skor amatan pada tes parallel.
Bahwa reliabilitas tes sama dengan korelasi antara skor amatan
pertama dengan skor amatan kedua dalam tes parallel. Jika
masing-masing peserta ujian memperoleh skor amatan yang
sama ketika dites dengan bentuk parallel dan ada beberapa
varians dalam skor amatan pada masing-masing tes, tes
memiliki reliabilitas sempurna, (
xx' =1
). Jika peserta ujian
mempunyai skor amatan pada satu tes yang tidak berkolerasi

dengan skor amatan lainnya pada tes parallel (
xx' =0
), suatu
tes sepenuhnya tidak reliabel

2
2. xx perbandingan dari variansi X yang berhubungan linier
'
dengan X
Interpretasi ini merupakan interpretasi Standar untuk koefisien
korelasi Pearson, yang dijelaskan pada bab 2.8. korelasi kuadrat
dapat selalu di interpretasikan sebagai perbandingan pada
variansi dalam satu variable yang dijelaskan dengan hubungan
2
linear dengan variable lain. Sehingga, xx
'
dapat ditinjau
sebagai perbandingan variansi dalam skor satu tes pada tes

parallel.
2
2
3. xx' = T / X
Bahwa koefisien reliabilitas adalah rasio dari variansi skor
sebenarnya dengan variansi skor amatan. Untuk reliable tes
2
yang sempurna,
skor
amatan
xx' =1
, maka
mencerminkan
dibandingkan variansi errornya. Jika
T
=1 , dan semua variansi
2
X
variansi
xx' =1
skor
sebenarnya
, adanya perbedaan
antara skor amatan peserta perbedaan antara skor sebenarnya.

2T = 2X , maka
Jika
2E
(E) = 0 maka
pasti 0. karena
semua error harus sama dengan 0 ketika

xx' =1
ketika
kesalahan
pengukurannya
(error).
bahwa
smua
skor
xx' <1
Ketika
pengukurannya. Ketika
xx' =0
dibuat
,
, maka
mencerminkan
2E=0 . Sehingga
tanpa
ada
error
2T = 2E
error
membuat
dalam
, yang berarti
saja.
Untuk
itu,
perbedaan antara skor amatan peserta ujian mencerminkan

error acak dari pada perbedaan skor sebenarnya.
Ketika reliabilitas tes meningkat, varian skor error menjadi
relative lebih kecil, skor amatan dari peserta ujian semakin
mendekati nilai skor sebenarnya. Bagaimanapun juga ketika
varian eror itu relative besar maka skor amatan memberikan
estimasi yang rendah atau buruk dari skor sebenarnya. Gambar
4.1
mengilustrasikan
hubungan
tersebut.
Kurva
mewakili
distribusi menurut teori dari skor amatan untuk satu skor

sebenarnya yang tetap, yaitu distribusi skor amatan satu
peserta ujian. skor sebenarnya peserta ujian
di tunjukkan
dengan T pada gambar. Ingat, ketika skor sebenarnya tetap atau

konstan,
2T =0 , dan variansi skor amatan sama dengan
variansi kesalahan (error). Pada kurva A dimana mempunyai

variansi kesalahan (error) yang lebih kecil, sebagian besar skor
amatan dekat dengan T, sedangkan pada kurva B yang
mempunyai variansi kesalahan (error)
lebih besar, banyaknya
skor yang diuji sangat jauh dari T.

2
4. xx' = XT
Menunjukan koefisiean reliabilitas sebagai kuadrat korelasi
antara skor amatan dan skor sebenarnya. Contohnya, jika
4
xx' =0,81
, maka
XT
0,9 ;
jika
xx' =0,25
, maka
XT =0,5
Hubungan ini adalah diilustrasikan pada gambar 4.2. kapanpun

0< xx ' < 1
, kita dapat melihat bahwa
XT > xx '
, skor amatan
akan lebih tinggi korelsinya dengan skor sebenarnya dari pada

dengan skor pengamatan pada tes parallel. Ketika skor tes tidak
dapat berkolerasi lebih tinggi dengan setiap variabel lain
dibandingkan dengan skor sebenarnya, korelasi maksimum
antara skor amatan dan variabel lainnya adalah
xx ' = XT
, jika
sebuah tes, X, digunakan untuk memprediksi sebuah kriteria ,Y,

XY
maka
disebut koefisien validitas. Karena
lebih besar dari
xx '
oleh
XT
karena
XY
XY
tidak bisa
juga tidak bisa lebih besar dari
itu,ketidak
reliabelan
mempengaruhi
validitas. Meskipun koefisien validitas tidak dapat lebih tinggi

dari akar kuadrat koefisien reliabilitas, koefisien validitas dapat
lebih besar dari koefisien reliabilitas itu sendiri. Contohnya, jika
xx'
0,49 ,
maka
XT=0,7 .
Dalam
situasi
XY
(koefisien validitas) dapat sebesar 0,7 dan oleh karena itu, dapat
lebih tinggi dari koefisien reliabilitas.
'
2
5. x x =1 XE
Bahwa koefisien reliabilitas adalah 1 dikurang kuadrat korelasi
antara skor pengamatan dan skor kesalahan. Secara ideal,
XE
seharusnya 0, tapi
Hubungan antara
XE
XE=0
x x '
dan
4.3.
'
2
2
6. x x =1 E / X
hanya jika
'
x x =1 .
di ilustrasikan pada gambar
Menghubungkan reliabilitas ke variansi skor kesalahan dan

variansi skor pengamatan. Sebagaimana diuraikan terdahulu,
ketika
'
x x =1
maka
2E=0
dan ketika
'
x x =0
maka
2T = 2X . Tingkat heterogenitas (variansi) pada skor hasil yang

diamati untuk kelompok peserta ujian mempunyai pengaruh
yang penting pada reliabilitas. Jika tes diberikan untuk populasi
dengn jarak yang dibatasi pada skor pengamatan (contohnya,
jika kita berikan tes IQ untuk kelompok orang yang pertumbuhan
2
mental yang terhambat),

kesalahan
sama
dalam
akan dikurangi. Jika variansi
kelompok
yang
dibatasi
sebagai
kelompok yang lebih heterogen, maka reliabilitas akan lebih kecil

untuk kelompok yang dibatasi. Dengan kata lain, perkiraan
reliabilitas didasarkan pada kelompok heterogen akan cenderung
lebih tinggi dari perkiraan awal pada kelompok yang lebih
homogen .
Kesimpulannya ,
ketika
x x ' =1 , maka :
1. Pengukuran yang dibuat tanpa kesalahan ( semua E = 0)

2. X = T untuk semua yang diuji
3. Semua variansi skor pengamatan mewakili variansi
sebenarnya
skor
2X = 2T
4. Semua perbedaan antara skor pengamatan mewakili perbedaan

skor sebenarnya
5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 1 (
XT =1 ) dan
6. Korelasi antara skor pengamatan dan skor kesalahan adalah 0 (
XE=0 )
ketika
x x ' =0 , maka :
1. Hanya kesalahan acak yang termasuk dalam pengukuran

2. X = E untuk semua yang diuji
3. Semua variansi yang diamati mewakili variansi kesalahan (
2X = 2E )
4. Semua perbedaan antara skor mewakili kesalahan pengukuran
5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 0 (
XT =0 ) dan
6. Korelasi antara skor pengamatan dan skor kesalahan adalah 1 (
XE=1 )
0 x x' 1 , maka :
Ketika
1. Pengukuran dapat mengandung beberapa kesalahan

2. X = T + E
3. Variansi skor yang
diamati mengandung variansi
skor
2
2
2
sebenarnya dan beberapa variansi skor kesalahan ( X = T + E )
4. Perbedaan antara skor pengamatan dapat mewakili kesalahan

pengukuran seperti perbedaan skor sebenarnya.
5. Korelasi antara skor pengamatan dan skor sebenarnya,
sama dengan
x x '
6. Korelasi antara skor pengamatan dan skor kesalahan,

sama dengan
XT
XE
1x x '
7. Reliabilitas adalah proporsi variansi skor pengamatan adalah

variansi skor sebenarnya
x x
8.
'
x x ' = 2T / 2X
terbesar adalah lebih pasti kita memperkirakan T dari X,
karena variansi kesalahan akan relatif kecil.

B. ESTIMASI RELIABILITAS
Pada kebanyakan kasus, skor sebenarnya (T) tidak dapat diperoleh,
dan tidak mungkin untuk memeriksa bahwa kedua tes tersebut
parallel. Untuk itu reliabilitas harus diestimasi dengan metode yang
lain.
7
1. Metode Tes/Retest
Estimasi reliabilitas dengan test/retest merupakan
metode
yang berdasarkan pada tes yang diberikan pada peserta ujian

yang sama dan dengan tes yang sama diberikan dua kali dan
mengkorelasikan hasilnya. Jika setiap peserta ujian memperoleh
skor amatan
yang tepat sama pada tes kedua seperti yang
didapat pada tes pertama dan jika variansi dalam skor amatan
diantara peserta uji korelasinya adalah 1.0 maka menunjukan
reliabilitas sempurna. Tapi, jika himpunan skor dari tes pertama
tidak
berhubungan
estimasinya
xx' =
dengan
himpunan
skor
tes
kedua,
0.
Untuk memperoleh reliabilitas dengan metode ini, kita perlu

membuat sebuah instrument tes dan menentukan subjeknya.
Kemudian tes diberikan sebanyak dua kali pada subjek yang
sama namun diberikan pada waktu yang berbeda. Dengan
demikian, kita akan memperoleh dua himpunan skor dari tes
pertama dan kedua. Estimasi reliabilitas kita peroleh dari
korelasi skor pertama dan kedua.
Masalah yang ditemukan dalam estimasi reliabilitas dengan
metode ini adalah :
a. Carry-Over Effects antara Tes
Ada kemungkinan tes pertama berpengaruh pada tes kedua.
Kontaminasi skor ini dapat terjadi dalam berbagai cara.
Peserta tes mungkin mengingat jawaban pada tes pertama
dan
mengulangnya.
r XX '
melakukannya,
Jika
sebagian
besar
akan overestimate
peserta
xx'
tes
atau pada
beberapa tes, carry over effects di sebabkan oleh pengaruh

latihan. Contohnya, kebanyakan orang cenderung untuk
meningkatkan
nilai
ketangkasan dan
dengan
tes
berulang
pada
tes
tes kemampuan. Jika beberapa orang
nilainya telah meningkat lebih dari yang lain, korelasi skor
amatan dari dua tes itu kemungkinan akan underestimate,

xx'
kecuali derajat peningkatan korelasinya tinggi dengan
skor pada tes pertama atau kedua

b. lamanya waktu antara pemberian kedua tes.
Selang waktu yang sangat singkat akan menimbulkan carry
over effects
yang disebabkan oleh ingatan, latihan, atau
suasana hati. Selang waktu yang lama akan memberikan

pengaruh karena perubahan informasi atau suasana. Jika sifat
tes
yang
mengukur
dengan
variasi
waktu,
seperti
kemampuan kognitif anak, selang yang lama akan cenderung

mengarah kepada underestimate pada reliabilitas tes pada
suatu
kesempatan.
mempengaruhi
Perbedaan
estimasi
lama
reliabillitas
waktu
dengan
dapat
cara
yang
berbeda, kadang kadang overestimate dan kadang kadang

underestimate
prosedur
dari
reliabilitas
sebenarnya.
Contohnya,
tes/retest tepat untuk mengestimasi reliabilitas
tugas diskriminasi sensorik (seperti tes ketajaman visual dan

audio).
2. Metode Bentuk Alternatif/Paralel
Estimasi reliabilitas bentuk paralel adalah korelasi,
r xx'
, antara
skor amatan pada dua tes paralel. Prakteknya, biasanya tidak

mungkin untuk memerikasa bahwa dua tes paralel. Dan bentuk
tes alternatif sering digunakan pada bentuk tes paralel. Bentuk
tes alternatif adalah bentuk dua tes yang telah
sebagai usaha
mempunyai
dikonstruksikan
membuatnya paralel, dan keduanya mungkin
kesamaan
(atau
sangat
mirip)
ratarata
skor
amatan, variansi dan korelasi dengan pengukuran lainnya.

Namun, namun, tidak ada bukti yang tersedia bahwa bentuk
alternatif
adalah paralel. Korelasi antar skor amatan pada
bentuk tes alternatif,

dari
bentuk
r xz
alternatif.
adalah estimasi reliabilitas salah satu

Korelasi
9
ini
akan
mencerminkan
bagaimana reliabel tes tersebut, sebaik
bagaimana keduanya
parallel.
Untuk memperoleh reliabilitas dengan metode ini, kita perlu
membuat dua buah instrument tes yang diberikan pada subjek
yang sama namun pada waktu yang berbeda. Dengan demikian,
kita akan memperoleh dua himpunan skor dari tes pertama dan
kedua. Estimasi reliabilitas kita peroleh dari korelasi skor
pertama dan kedua.
Namun, menggunakan estimasi reliabilitas bentuk alternatif atau
paralel tidak selalu menghilangkan kemungkinan carry over
effect khususnya yang berhubungan dengan gaya respon,
suasana hati atau sikap. Seperti
estimasi reliabilitas dengan
tes/retest, carry over effects ini mungkin akan memberikan nilai

yang overestimate atau underestimate dari
zz'
dari
xx'
atau
. Pemilihan waktu juga merupakan masalah. Jangka waktu
yang pendek antara dua tes
memungkinkan kontaminasi skor
perolehan yang disebabkan oleh ingatan, latihan atau suasana

hati; pada jangka waktu yang panjang trait yang berubah seiring
waktu .
Ketika bentuk tes alternatif, X dan Z, tidak paralel,
umum akan menjadi estimasi tidak akurat dari
x x
'
r xz
secara
atau
z z .
'
contohnya, diketahui X = TX + EX dan Z = TZ + EZ. Jika TX = TZ

tapi
X > Z , kemudian X kurang reliabel dari Z. Korelasi
akan cenderung overestimate
x x
'
, dan underestimate
rxx
'
z z
'
Jika TX TZ , mungkin tes mengukur trate yang berbeda, dan

rxx
'
akan cenderung underestimasi baik
x x
'
dan
z z
'
Contohnya, jika X adalah skor pada tes komputasi matematika

10
r xz
dan Z adalah skor tes penalaran matematika,
adalah
korelasi antara komputasi matematika dan skor penalaran. dan

tidak perlu estimasi reliabilitas yang bagus dari tes yang lain.
Kesimpulannya, korelasi antara skor pengamatan pada bentuk
alternatif
akan
reliabilitas
menghasilkan
tes
jika
bentuk
estimasi
alternatifnya
yang
bagus
paralel
dari
atau
jika
keduanya fungsi linear dari skor tes paralel dan jika carry over
effects dan perubahan skor karena waktu tidak mempengaruhi
korelasi.
3. Metode Konsistensi Internal : Split Halves
Reliabilitas konsistensi internal diestimasi menggunakan satu
bentuk tes yang hanya diberikan sekali dan untuk menghindari
masalah yang ditimbulkan pada tes berulang. Metode ini lebih
dikenal sebagai estimasi reliabilitas dengan metode split half
(metode belah dua). Tes ini dibagi menjadi dua bagian, yang
merupakan
bentuk
alternatif
dari
masing-masing,
dan
diusahakan untuk memilih bagian-bagian
tersebut sehingga
menjadi parallel atau pada essentially
equivalent
(lihat
bagian 3.1). Jika bagian dari tes ini parallel, reliabilitas dari
keseluruhan
tes
diestimasi
dengan
menggunakan
rumus
Spearman-Brown. Jika bagian-bagiannya merupakan essentially

equivalent
koefisien
dapat
digunakan
untuk
menghitung reliabilitas keseluruhan tes.

Ada 3 metode yang biasa digunakan dalam membagi tes.
a. Metode genap/ganjil
mengklasifikasikan item dengan cara membagi mana yang
genap dan mana yang ganjil dalam suatu tes. Setiap peserta
ujian memperoleh skor untuk item bernomor genap dan item
bernomor ganjil.
b. Metode Urutan
11
Membentuk bagiannya dalam urutan, tiap peserta ujian

memperoleh skor bagian pertama dari tes dan skor bagian
kedua dari tes. Secara umum, pembentukan bagian tes
dengan metode urutan kurang sesuai dibandingkan dengan
metode genap/ganjil, karena beberapa peserta ujian mungkin
memperbaiki dengan latihan (menaikkan skor bagian kedua)
dan
beberapa
menyelesaikan
peserta
tes
ujian
mungkin
(menurunkan
skor
tidak
dapat
bagian
kedua).
Bagaimanapun juga, masalah bagi beberapa peserta ujian

dapat diatasi dengan dengan memisahkan waktu dari dua
bagian. Yaitu, peserta ujian diberikan beberapa menit ntuk
menyelesaikan bagian pertama dari tes dan ketika waktu
habis, semua peserta ujian menyelesaikan bagian kedua dari
tes.
Peserta
ujian
diberi
waktu
yang
sama
untuk
menyelesaikan tes bagian dua dengan tes bagian pertama.

Tipe tes belah dua sama dengan memberikan
dua bentuk
alternate singkat, dengan hanya memberikan selang waktu

yang singkat antar keduanya.
c. Metode Matched Random Subsets
Metode ini lebih bagus dibandingkan
sebelumnya.
Pertama,
Metode
dua
ini
statistic
melibatkan
dihitung
dua
metode
beberapa
langkah.
untuk
masing-masing
itemnya : (1) proporsi peserta ujian yang lulus item (tingkat

kesukaran item) dan (2) biserial atau korelasi biserial titik
antara skor item dan skor total tes (lihat bagian 2.11).
kemudian
masing-masing
item
diplotkan
pada
grafik
menggunakan dua statistic tersebut. Item-item yang saling

berdekatan dipasangkan. Dan satu item pada masing-masing
pasangan dipilih secara acak untuk setengah bagian tes. Item
sisanya
membentuk
setengah
bagian
yang
lainnya.
Contohnya, gambar 4.4 menunjukkan 6 item yang telah

diplotkan dan digrupkan menjadi pasangan. Jika item A dipilih
untuk setengah bagian pertama, item B akan menjadi
12
setengah bagian kedua, dan seterusnya. Pengelompokan yag

mungkin adalah ACE dan BDF, ADE dan BCF, ACF dan BDE,
dan seterusnya. Metode
ini membantu meyakinkan bahwa
kedua bagian memiliki tingkat kesukaran yang sama dan

mengukur hal yang sama (sehingga menghasilkan nilai
sebenarnya yang sama).
Gambar 4.4 seleksi matched random subsets dengan grafik

Untuk mengestimasi reliabilitasnya, kita menggunakan rumusrumus sebagai berikut.
a. Rumus Spearman-Brown
Rumus Spearman-Brown dapat digunakan untuk menentukan
reliabilitas dari keseluruhan tes jika bagian-bagiannya paralel.
Skor dari bagian tes yang parallel (ditulis
dikorelasikan, menghasilkan
Y Y
'
dan
Y' )
. Korelasi ini akan menjadi
ukuran yang wajar dari reliabilitas satu bagian tes. Reliabilitas

X =Y + Y ' , akan lebih besar dari
dari keseluruhan tes,

reliabilitas
per
bagian.
Rumus
Spearman-Brown,
yang
merupakan reliabilitas dari keseluruhan tes, adalah

X X =
'
2 Y Y
1+ Y Y
'
(4.1)
'
13
Seperti yang ditunjukkan pada table 4.1,

lebih besar daripada
keseluruhan tes dan
Y Y
X X
, karena
'
Y Y
'
'
X X
biasanya
'
adalah reliabilitas
adalah hanya reliabilitas per
bagian tes.
Y Y
Tabel 4.1 Korelasi antara bagian tes yang parallel (

X X
Y Y
'
0.00
0.33
0.57
0.75
0.89
1.00
'
'
0.00
0.20
0.40
0.60
0.80
1.00
b. Koefisien
Rumus ini digunakan pada tes yang skor bagiannya memiliki

varians yang tidak sama atau ada indikasi bahwa tidak
parallel. Rumus ini dapat digunakan untuk mengestimasi
reliabilitas keseluruhan tes. Jika bagian-bagiannya (tulis
dan
Y2
equivalent , koefisien
tes. Jika bagian-bagiannya bukan
akan
memberian
batas
Y1
merupakan reliabilitas
equivalent , koefisien
bawah
dari
reliabilitas
keseluruhan tes. (Sehingga, reliabilitas tes pasti lebih besar

atau sama dengan hasil yang diberikan pada rumus koefisien
).
Jika koefisien
menghasilkan nilai yang tinggi, kita tahu
bahwa reliabilitas tes pasti tinggi; jika koefisien
rendah,
kita mungkin tidak tahu apakah sebenarnya tes tersebut

14
memiliki reliabilitas yang rendah atau apakah bagian dari tes

equivalent . Rumus koefisien
bukan merupakan
untuk
metode belah dua adalah

2
X X =
dan
2X
X =Y 1+Y 2
'
Dimana
2 [ X ( Y + Y ) ]
2Y
(4.2)
2
X
dan
2Y
adalah varians skor dua bagian tes,
adalah varians skor dari keseluruhan tes, dengan

.
Nilai yang dihasilkan oleh koefisien
dan rumus Spearman
Brown akan lebih besar jika bagian tes berkorelasi tinggi dan
akan bernilai kecil jika sebaliknya. Bagian tes akan berkorelasi
tinggi hanya jika mengukur trait yang sama atau yang
berkorelasi tinggi; sehingga, reliabilitas
Brown dan koefisien
rumus Spearman
merupakan indeks konsistensi
internal tes atau homogenitas.

Jika varians dari skor amatan dari bagian tes sama, rumus
Spearman Brown dan koefisien
sama. Jika varians dari
skor amatan dari bagian tes sama, tapi bagiannya tidak

equivalent , baik rumus Spearman Brown dan koefisien
akan memperkecil reliabilitas tes. Jika varians dari skor
amatan
dari
bagian
tes
sama,
dengan
bagiannya
equivalent , baik rumus Spearman Brown dan koefisien
akan memiliki reliabilitas yang sama.
Penggunaan metode belah dua untuk estimasi reliabilitas dapat

diilustrasikan dalam sebuah contoh. anggap bahwa korelasi
15
antara skor kedua bagiannya adalah 0.5. varians skor per bagian
adalah 7 dan 5, dan varians skor total adalah 17.9. dengan
menggunakan
rumus
Spearman
Brown
(persamaan
4.1),
reliabilitas skor total diestimasi menjadi

rXX =
'
2(0.5)
=0.67
1+0.5
Reliabilitas
skor
total
diestimasi
dengan
koefisien
(persamaan 4.2) menjadi

r X X =
'
2 [17.9( 7+5 ) ]
=0.66
17.9
Dalam contoh ini, estimasi dengan koefisien

nilai
yang
lebih
kecil
dibandingkan
menghasilkan
menggunakan
rumus
Spearman Brown.
Manfaat terbesar estimasi reliabilitas konsistensi internal adalah
tes hanya perlu diberikan sekali untuk dapat mengestimasi
relibilitasnya. Bagaimanapun juga, metode konsistensi internal
ini tidak terpenuhi ketika tes tidak dapat dibagi menjadi
beberapa bagian yang parallel atau
equivalent
dasar atau
ketika tes tidak memiliki item yang independen yang dapat

dipisah.
Estimasi reliabilitas dengan metode split half
harusnya tidak
boleh digunakan pada tes kecepatan, karena akan memberikan

nilai estimasi yang tidak wajar. Pada tes kecepatan murni
kebanyakan orang dapat menjawab tiap item dengan benar,
maka jika sesorang menyelesaikan 30 item, skor bagian genap
dan ganjil
masing-masing 15 item. Secara umum skor genap
dan ganjil tiap peserta uji bisa jadi hampir identik, akibatnya
nilai estimasi reliabilitas mendekati 1. Dan jika estimasi dengan
split half berdasarkan korelasi setengah bagian pertama dan
bagian kedua, nilai estimasi bias jadi mendekati 0, ketika
sebagian besar peserta uji mendapatkan nilai tinggi pada bagian
16
pertama dan nilai rendah pada bagian kedua. Pada kasus ini,
korelasi antara bagian-bagiannya mencerminkan error antara
bagian pertama dan kecepatan pada bagian kedua. Metode
matched random subsets tidak lagi sesuai untuk tes kecepatan,
karena item yang sulit dan korelasi item akan menjadi fungsi
dari tes daripada fungsi sifat-sifat item itu sendiri.
KASUS UMUM RELIABILITAS INTERNAL KONSISTENSI
Teknik membagi tes menjadi dua bagian dengan metode
sebelumnya dapat digeneralisasikan untuk membagi tes menjadi
lebih dari dua bagian. Contohnya, metode genap dan ganjil
dapat dimodifikasi dengan membuat pertiga untuk tes dengan
sembilan item dengan memasukkan item pertama, keempat,
dan ketujuh ke dalam sepertiga bagian pertama, item kedua,
kelima, dan kedelapan dalam sepertiga bagian kedua, serta item
ketiga, keenam, dan kesembilan dalam bagian ketiga. Metode
matched random subsets
akan melibatkan pembentukan triplet
(kembar tiga) dengan metode grafik yang diilustrasikan pada

gambar 4.4 dan secara acak dipilih satu item dari masingmasing triplet untuk dimasukkan ke dalam tiga bagian tes
tersebut.
Bagian
ini
mengasumsikan
bahwa
tes
dibagi
menjadi
komponen. Variansi skor dari komponen-komponen tersebut dan

varians dari skor total digunakan untuk mengestimasi reliabilitas
tes. Jika komponennya (misalnya item atau himpunan item)
semuanya
equivalent . rumus pada bagian ini menghasilkan
reliabilitas tes; jika komponennya tidak
equivalent
, rumus
ini akan menghasilkan reliabilitas tes yang underestimate. Di sisi

lain, rumus ini akan menghasilkan estimasi yang bagus hanya
ketika tes mengukur satu trait yaitu ketika isinya homogen.
Contohnya, sebuah tes yang mengukur penalaran aljabar
17
mungkin homogen, tapi tes tipe intelegensi, yang mengukur

kemampuan verbal, spasial, dan kuantitatif, akan heterogen.
Pengukuran reliabilitas dengan internal konsistensi tidak cocok
digunakan pada tes yang heterogen. Selain itu juga tidak cocok
untuk tes kecepatan karena konsistensi internal komponen
tesnya bukan indikasi yang baik dari reliabilitas tes.
Rumus untuk reliabilitas konsistensi internal pada kasus umum
adalah
a. koefisien
Rumus
koefisien
digunakan
untuk
mengestimasi
reliabilitas tes yang komponen-komponennya parallel.
X X =
'
N
N1
[ 2X 2Y ]
i=1
2
X
(4.3)
Dimana
X = skor amatan yang dibentuk dari mengkombinasikan N
N
X = Y
komponen,
i=1
2X = varians populasi X
2Y = varians populasi dari komponen ke-I , Yi
i
N = banyaknya komponen yang dikombinasikan ke bentuk X,

contohnya jika N = 3, skor tes, X, berdasarkan 3 komponen.
Kuder- Richardson 20 (KR20)
Jika setiap komponen tes, Yi ,item dikotomi, persamaan 4.3
diberikan pada bentuk khusus berikut.
X X KR20=
'
N
N1
[ 2X pi (1 pi )]
i=1
(4.4)
18
pi
Dimana
adalah
mendapatkan i
proporsi
peserta
ujian
yang
item benar, yang mengukur kesulitan item.
Persamaan 4.4 mencerminkan fakta bahwa varians skor pada

item i, ketika skor pada item ini dapat mengambil nilai 0 atau
pi (1 pi )
1, sama dengan
dimana
pi
adalah proporsi
peserta ujian dalam sebuah populasi yang mendapat skor 1

pada item (yang artinya lulus item tersebut). Persamaan 4.4
sering disebut Rumus Kuder-Richardson 20, disingkat KR20,
karena ini adalah rumus ke- 20 yang diberikan Kuder dan
Richardson (1937). Nama lain dari rumus ini adalah koefisien
(20) .
-20 , disingkat
Rumus Kuder-Richardson 21
Rumus Kuder-Richardson yang lain yang sangat berguna
ketika setiap Yi merupakan item dikotomi adalah
[ ]
X X KR21=
'
N
N 1
[ 2X N p (1 p )]
i=1
(4.5)
Dimana
p
adalah rata-rata tingkat kesukaran item. Karena
lebih mudah untuk dihitung dengan
p= ( X )/ N
persamaan 4.5 dapat dihitung dari rata-rata dan varians tes

dengan N-item. Persamaan 4.5 adalah kasus khusus dari
KR20 dan biasanya ditulis KR21 atau
(21) , selanjutnya
KR20 KR21
(4.6)
Kedua rumus tersebut akan sama jika tingkat kesukaran item

semuanya sama. Jika tidak, KR21 akan kurang dari KR20 dan
akan menimbulkan reliabilitas yang underestimate.
19
Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan

kurang dari atau samadengan reliabilitas tes dan akan sama
equivalent
dengan reliabilitas tes jika Yi
(yaitu, pada
dasarnya sama dengan skor sebenarnya). KR21 akan sama

dengan reliabiltas tes hanya jika tiap item memiliki tingkat
kesukaran
yang
sama
equivalent .
dan
Nilai
yang
dihasilkan pada persamaan 4.3 dan 4.4 akan besar jika

komponen penyusunnya memiliki interkorelasi yang tinggi,
dan juga sebaliknya. Komponennya akan berinterkorelasi
tinggi hanya jika mengukur trait yang sama atau trait yang
berkorelasi
tinggi.
Sehingga
rumus
pada
bagian
ini
mengindikasikan konsistensi internal tes atau homogenitas.

Contoh berikut mengilustrasikan penggunaan rumus untuk
estimasi reliabilitas konsistensi internal. (Dalam prakteknya,
mengestimasi
kesukaran item,
varians
^pi
komponen-komponennya,
, dan varians tes,
s 2X
s 2Y ,
i
pada persamaan
4.3,4.4, dan 4.5)

1. Tes kreatifitas dibagi menjadi 3 bagian.
2
Varians bagian pertama = s Y =5.2
1
Varians bagian kedua =
s 2Y =4.8
Varians bagian ketiga =
s 2Y =5.2
Jumlah ketiga varians = 15

2
Varians skor total = s X =25
Estimasi batas bawah reliabilitas tesnya (dari persamaan
4.3) =
[ ][
3 [2515]
=0.6 .
2
25
Jika ketiga bagian tes essentially

merupakan estimasi reliabilitas tes.
20
equivalent
, 0.6
2. 5 item tes autonomy diberikan pada kelompok guru SD.

s 2X =3
Varians skor amatan,

Rata-rata skor amatan,
X =2
Proporsi guru yang lulus item ( ^p
adalah 0.3, 0.4, 0.7,
0.5, dan 0.1

Jumlah
skor
varians
item,
^p ( 1 ^p )=0.21+ 0.24+0.21+ 0.25+ 0.09=1.00

i=1
Dengan menggunakan persamaan 4.4,

estimasi batas bawah reliabilitas tes =
jika itemnya
[ ][
5
4
[31]
= 0.833
3
equivalent , estimasi reliabilitasnya sama
dengan 0.833. Batas bawah juga bias diperoleh dengan
rumus KR21. Rata-rata tingkat kesukaran,
2
^p= =0.4 , dan
5
N ^p ( 1 ^p )=1.2 .
Estimasi batas
[ ][
5
4
KR21
bawah dengan persamaan 4.5 yaitu
[31.2]
=0.75 .
3
menghasilkan
estimasi
batas
bawah
lebih
kecil
dibandingkan KR20 karena item-itemnya memiliki tingkat

kesukatan yang tidak sama.
b. Rumus Spearman-Brown
Rumus Spearman-Brown digunakan
untuk
mengestimasi
reliabilitas tes yang komponen-komponennya parallel. Bentuk

umum rumus ini adalah
N Y Y
X X =
1+( N1) Y Y
'
(4.7)
'
'
21
Dimana
X
skor
amatan
total
yang
dibentuk
dengan
N
mengkombinasikan N komponen yang parallel,
Yi
i=1
Y i = komponen skor tes

X X
Y Y
=reliabilitas populasi X
'
= reliabilitas populasi
'
Yi
N = banyaknya skor tes parallel yang dikombinasikan menjadi

X
Catatan bahwa
X X Y Y
'
X X
'
disebut juga a stepped-up
'
reliability, karena merupakan penyesuaian ke atas dari

reliabilitas yang lebih pendek.
Persamaan 4.7 dapat juga digunakan untuk menentukan
Y Y
jika N dan
'
N XX
Y Y =
1
1+( 1) X X
N
X X
'
diketahui.
'
'
'
(4.8)
Dan jika diketahui
X X
dan
'
Y Y
'
, maka rumus tersebut
dapat digunakan untuk mengetahui N, yaitu

N=
X X (1Y Y )
Y Y (1 X X )
'
'
'
'
(4.9)
Berikut
contoh
aplikasi
persamaan-persamaan
tersebut.
Menggunakan rumus Spearman Brown, untuk mengestimasi
22
reliabilitas (
populasi (
rXX
X X
'
dan
Y Y
dan
'
rY Y
'
'
) menggantikan nilai reliabilitas
).
1. Kita punya tes lima menit dengan reliabilitasnya 0.6. jika kita
melakukan tes tiga kali dengan menambahkan komponen
yang pararel, maka berapa estimasi reliabilitas tes yang lebih
panjang?
N = 3 dan
rXX =
'
r Y Y =0.6
, maka diperoleh
'
3(0.6)
=0.82
1+2.( 0.6)
2. Kita punya tes dengan 50 item dengan estimasi reliabilitas

0.9. jika kita menghilangkan 10 item, berapa estimasi
reliabilitas tes dengan sepuluh item tersebut? N = 5 , dan
r X X =0.9
'
1
(0.9)
5
rY Y =
=0.64
1
1+ 1 0.9
5
'
( )
3. Kita punya tes dengan sepuluh item dengan estimasi

reliabilitasnya 0.8. berapa banyak item tes diberikan untuk
mendapatkan reliabilitas 0.9?
r X X =0.9
r =0.8
dan Y Y
'
N=
'
0.9(10.8)
=2.25
0.8(10.9)
C. STANDARD ERROR OF MEASUREMENT (SEM)

Standar error pengukuran,
, adalah standar deviasi dari skor
error untuk peserta ujian khusus dalam pengetesan berulang yang

independen dengan tes yang sama atau tes yang parallel.
23
Pada gambar 4.6, Misalkan berlaku asumsi teori klasik skor

sebenarnya dan distribusi skor amatan peserta uji dalam tes
independen
berulang
dengan
tes
yang
sama
atau
parallel.
Distribusinya berpusat pada T, dan memiliki standar deviasi,

yang merupakan SEM. Jika
sama
dengan
skor
=0
, maka skor amatan akan tepat
sebenarnya.
Gambar
4.6
menunjukkan
pendekatan distribusi normal skor amatan, dimana akan berada

pada interval T-
hingga T+
, atau
Jika skor amatan, x, berada pada interval

tidak akan
, maka skornya
lebih jauh dari T. Standar eror ini dapat diestimasi
dari standar deviasi skor amatan dan reliabilitas yang diestimasi

pada kelompok peserta uji, menggunakan rumus
^ =s X 1r X X
'
Jika diasumsikan
sama untuk semua peserta uji. Dengan
membuat beberapa asumsi, standar error pengukuran dapat

digunakan untuk mengestimasi interval kepercayaan dari skor
sebenarnya. Asumsi yang perlu dipenuhi yaitu,
1. Asumsi teori klasikal skor sebenarnya (bagian 3.1)
2. Asumsi bahwa error of measurement berdistribusi normal.
24
3. Asumsi bahwa
sama untuk semua peserta uji.
Jika ketiga asumsi tersebut dipenuhi maka interval kepercayaan

untuk skor sebenarnya adalah
xz c s E T x + z c s E
Dimana
X = skor amatan peserta uji
sE
=estimasi standar error pengukuran,
s E =s X 1r X X
'
z c = nilai kritik deviasi standar normal yang diperoleh dari table

normal.
D. CARA MENINGKATKAN RELIABILITAS
Adapun cara untuk meningkatkan nilai reliabilitas menurut Nitko,
Anthony J. & Susan M. B. (2011:81) adalah sebagai berikut.
1. Memperpanjang prosedur penilaian. Seperti praktis, beri lebih
banyak waktu, gunakan banyak pertanyaan-pertanyaan, lebih
2.
3.
4.
5.
6.
7.
8.
banyak observasi dan lain-lain.

Perluas dari keleluasaan prosedur.
Tingkatkan obyektivitas.
Gunakan penilaian yang beragam.
Bandingkan hasil-hasil dari beberapa penilaian.
Memberikan waktu lebih kepada siswa.
Ajari siswa tentang bagaimana kinerja mereka bisa lebih baik.
Cocokkan tingkatan kemampuan siswa terhadap penilaian yang
berbeda.
9. Seleksi tugas-tugas penilaian yang dikerjakan dengan baik dari
perbedaan siswa-siswa yang berprestasi terhadap siswa-siswa
yang kurang mampu
E. KESIMPULAN
Reliabilitas (
xx'
) adalah derajat kekonsistenan hasil/nilai siswa
pada pemberian penilaian yang berulang. Konsistensi merupakan

konsep
penting
untuk
memutuskan
seberapa
besar
derajat
kepercayaan dari hasil penilaian terhadap siswa. Reliabilitas dapat

diestimasi dengan tiga cara yaitu, (1) test/retest, (2) bentuk
25
alternative/parallel, dan (3) internal konsistensi (rumus koefisien
dan Spearman-Brown). Standar error pengukuran,
, adalah
standar deviasi dari skor error untuk peserta ujian khusus dalam
pengetesan berulang yang independen dengan tes yang sama atau
tes yang parallel. Standar eror ini dapat diestimasi dari standar
deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok
peserta uji, menggunakan rumus
^ =s X 1r X X
'
REFERENSI
Nitko, Anthony J. & Susan M. B. 2011. Educational Assessment of
Students 6th Edition. USA : Pearson Education, Inc.
Mary J. Allen & Wendy M. Yen. 1979. Introduction to Measurement
Theory. California: A Division of Wadsworth, Inc.
Singh, Arun Kumar. 1986. Tests, Measurement and Research Methods
in Behavioral Sciences. New Delhi: Tata McGraw Hill.
26

Kelompok 3 RELIABILITAS

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kelompok 3 RELIABILITAS

Diunggah oleh

Hak Cipta:

Format Tersedia

MAKALAH

ESTIMASI RELIABILITAS TES

Disusun untuk Memenuhi Tugas Mata Kuliah Assessment Pembelajaran matematika

UNIVERSITAS NEGERI YOGYAKARTA

penilaian terhadap siswa. Makna lain reliabilitas dalam terminologi

membuat keputusan. Interpretasi tersebut tidak valid apabila hasil

peserta ujian dalam

Kuadrat korelasi antara skor amatan dengan skor sebenarnya

) disebut koefisien reliabilitas untuk tes tersebut. Atau

reliabilitas dapat di tunjukan sebagai korelasi koefisien antara skor

skor amatan yang

dihasilkan dikorelasikan, korelasi ini (disimbolkan

Berikut ini adalah enam cara Alternatif untuk menginterpretasikan

). Jika peserta ujian

mempunyai skor amatan pada satu tes yang tidak berkolerasi

tes sepenuhnya tidak reliabel

sebagai perbandingan variansi dalam skor satu tes pada tes

dibandingkan variansi errornya. Jika

antara skor amatan peserta perbedaan antara skor sebenarnya.

semua error harus sama dengan 0 ketika

perbedaan antara skor amatan peserta ujian mencerminkan

distribusi menurut teori dari skor amatan untuk satu skor

dengan T pada gambar. Ingat, ketika skor sebenarnya tetap atau

2T =0 , dan variansi skor amatan sama dengan

variansi kesalahan (error). Pada kurva A dimana mempunyai

lebih besar, banyaknya

skor yang diuji sangat jauh dari T.

Hubungan ini adalah diilustrasikan pada gambar 4.2. kapanpun

, kita dapat melihat bahwa

akan lebih tinggi korelsinya dengan skor sebenarnya dari pada

sebuah tes, X, digunakan untuk memprediksi sebuah kriteria ,Y,

disebut koefisien validitas. Karena

lebih besar dari

juga tidak bisa lebih besar dari

validitas. Meskipun koefisien validitas tidak dapat lebih tinggi

di ilustrasikan pada gambar

Menghubungkan reliabilitas ke variansi skor kesalahan dan

2T = 2X . Tingkat heterogenitas (variansi) pada skor hasil yang

mental yang terhambat),

akan dikurangi. Jika variansi

kelompok yang lebih heterogen, maka reliabilitas akan lebih kecil

1. Pengukuran yang dibuat tanpa kesalahan ( semua E = 0)

4. Semua perbedaan antara skor pengamatan mewakili perbedaan

1. Hanya kesalahan acak yang termasuk dalam pengukuran

1. Pengukuran dapat mengandung beberapa kesalahan

4. Perbedaan antara skor pengamatan dapat mewakili kesalahan

6. Korelasi antara skor pengamatan dan skor kesalahan,

7. Reliabilitas adalah proporsi variansi skor pengamatan adalah

terbesar adalah lebih pasti kita memperkirakan T dari X,

karena variansi kesalahan akan relatif kecil.

yang berdasarkan pada tes yang diberikan pada peserta ujian

yang tepat sama pada tes kedua seperti yang

Untuk memperoleh reliabilitas dengan metode ini, kita perlu

beberapa tes, carry over effects di sebabkan oleh pengaruh

tes kemampuan. Jika beberapa orang

nilainya telah meningkat lebih dari yang lain, korelasi skor

amatan dari dua tes itu kemungkinan akan underestimate,

kecuali derajat peningkatan korelasinya tinggi dengan

skor pada tes pertama atau kedua

yang disebabkan oleh ingatan, latihan, atau

suasana hati. Selang waktu yang lama akan memberikan

kemampuan kognitif anak, selang yang lama akan cenderung