Anda di halaman 1dari 26

MAKALAH

ESTIMASI RELIABILITAS TES

Disusun untuk Memenuhi Tugas Mata Kuliah Assessment Pembelajaran matematika


Dosen Pengampu: Dr. Jailani

Oleh
HUSNUL LAILI

11709251003

SITI NASIAH

11709251015

NELLY RHOSYIDA

11709251016

UNIVERSITAS NEGERI YOGYAKARTA


2012

A. DEFINISI UMUM
Reliabilitas adalah derajat kekonsistenan hasil/nilai siswa pada
pemberian penilaian yang berulang (Nitko, Anthony J. & Susan M.
B. 2011 : 64). Konsistensi merupakan konsep penting untuk
memutuskan

seberapa

besar

derajat

kepercayaan

dari

hasil

penilaian terhadap siswa. Makna lain reliabilitas dalam terminologi


stabilitas adalah subjek yang dikenai pengukuran akan menempati
ranking yang relatif sama pada testing yang terpisah dengan alat
tes yang ekuivalen (Singh, 1986; Thorndike, 1991).
Kaitannya dengan validitas, Nitko, Anthony J.
& Susan M. B
menjelaskan bahwa validitas berhubungan dengan interpretasi
hasil penilaian

terhadap siswa

dalam penggunaannya

untuk

membuat keputusan. Interpretasi tersebut tidak valid apabila hasil


penilaian terhadap siswa tidak konsisten. Dengan kata lain, derajat
reliabilitas dari hasil penilaian (tes) membatasi derajat validitasnya.
Meskipun derajat validitas yang tinggi membutuhkan reliabilitas
yang tinggi, tapi tidak berlaku untuk kebalikannya. Reliabilitas yang
tinggi tidak menjamin validitasnya.
Menurut Mary J. Allen & Wendy M. Yen, ada beberapa cara
mendefinisikan dan menginterpretasikan reliabilitas tes. Contohnya,
suatu tes reliabel jika skor amatan (X) berkorelasi tinggi dengan
skor sebenarnya (T). Hal ini terjadi jika skor amatan dan skor
sebenarnya dapat di peroleh setiap

peserta ujian dalam

tes.

Kuadrat korelasi antara skor amatan dengan skor sebenarnya

2
XT

) disebut koefisien reliabilitas untuk tes tersebut. Atau

reliabilitas dapat di tunjukan sebagai korelasi koefisien antara skor


pengamatan pada dua tes yang paralel. Jika dua tes yang paralel
diberikan pada populasi peserta ujian dan

skor amatan yang

dihasilkan dikorelasikan, korelasi ini (disimbolkan

xx'

dimana X

dan X adalah skor amatan untuk dua tes yang paralel) adalah
koefisien reliabilitas.

Berikut ini adalah enam cara Alternatif untuk menginterpretasikan


Koefisien reliabilitas:
xx'
1.
korelasi antara skor amatan pada tes parallel.
Bahwa reliabilitas tes sama dengan korelasi antara skor amatan
pertama dengan skor amatan kedua dalam tes parallel. Jika
masing-masing peserta ujian memperoleh skor amatan yang
sama ketika dites dengan bentuk parallel dan ada beberapa
varians dalam skor amatan pada masing-masing tes, tes
memiliki reliabilitas sempurna, (

xx' =1

). Jika peserta ujian

mempunyai skor amatan pada satu tes yang tidak berkolerasi


dengan skor amatan lainnya pada tes parallel (

xx' =0

), suatu

tes sepenuhnya tidak reliabel


2
2. xx perbandingan dari variansi X yang berhubungan linier
'

dengan X
Interpretasi ini merupakan interpretasi Standar untuk koefisien
korelasi Pearson, yang dijelaskan pada bab 2.8. korelasi kuadrat
dapat selalu di interpretasikan sebagai perbandingan pada
variansi dalam satu variable yang dijelaskan dengan hubungan
2
linear dengan variable lain. Sehingga, xx

'

dapat ditinjau

sebagai perbandingan variansi dalam skor satu tes pada tes


parallel.
2
2
3. xx' = T / X
Bahwa koefisien reliabilitas adalah rasio dari variansi skor
sebenarnya dengan variansi skor amatan. Untuk reliable tes
2

yang sempurna,
skor

amatan

xx' =1

, maka

mencerminkan

dibandingkan variansi errornya. Jika

T
=1 , dan semua variansi
2
X
variansi
xx' =1

skor

sebenarnya

, adanya perbedaan

antara skor amatan peserta perbedaan antara skor sebenarnya.


2T = 2X , maka

Jika

2E

(E) = 0 maka

pasti 0. karena

semua error harus sama dengan 0 ketika


xx' =1

ketika
kesalahan

pengukurannya

(error).

bahwa

smua

skor

xx' <1

Ketika

pengukurannya. Ketika

xx' =0

dibuat
,

, maka

mencerminkan

2E=0 . Sehingga
tanpa

ada

error

2T = 2E

error

membuat
dalam

, yang berarti

saja.

Untuk

itu,

perbedaan antara skor amatan peserta ujian mencerminkan


error acak dari pada perbedaan skor sebenarnya.
Ketika reliabilitas tes meningkat, varian skor error menjadi
relative lebih kecil, skor amatan dari peserta ujian semakin
mendekati nilai skor sebenarnya. Bagaimanapun juga ketika
varian eror itu relative besar maka skor amatan memberikan
estimasi yang rendah atau buruk dari skor sebenarnya. Gambar
4.1

mengilustrasikan

hubungan

tersebut.

Kurva

mewakili

distribusi menurut teori dari skor amatan untuk satu skor


sebenarnya yang tetap, yaitu distribusi skor amatan satu
peserta ujian. skor sebenarnya peserta ujian

di tunjukkan

dengan T pada gambar. Ingat, ketika skor sebenarnya tetap atau


konstan,

2T =0 , dan variansi skor amatan sama dengan

variansi kesalahan (error). Pada kurva A dimana mempunyai


variansi kesalahan (error) yang lebih kecil, sebagian besar skor
amatan dekat dengan T, sedangkan pada kurva B yang
mempunyai variansi kesalahan (error)

lebih besar, banyaknya

skor yang diuji sangat jauh dari T.


2
4. xx' = XT
Menunjukan koefisiean reliabilitas sebagai kuadrat korelasi
antara skor amatan dan skor sebenarnya. Contohnya, jika
4

xx' =0,81

, maka

XT

0,9 ;

jika

xx' =0,25

, maka

XT =0,5

Hubungan ini adalah diilustrasikan pada gambar 4.2. kapanpun


0< xx ' < 1

, kita dapat melihat bahwa

XT > xx '

, skor amatan

akan lebih tinggi korelsinya dengan skor sebenarnya dari pada


dengan skor pengamatan pada tes parallel. Ketika skor tes tidak
dapat berkolerasi lebih tinggi dengan setiap variabel lain
dibandingkan dengan skor sebenarnya, korelasi maksimum
antara skor amatan dan variabel lainnya adalah

xx ' = XT

, jika

sebuah tes, X, digunakan untuk memprediksi sebuah kriteria ,Y,


XY

maka

disebut koefisien validitas. Karena

lebih besar dari

xx '

oleh

XT

karena

XY

XY

tidak bisa

juga tidak bisa lebih besar dari

itu,ketidak

reliabelan

mempengaruhi

validitas. Meskipun koefisien validitas tidak dapat lebih tinggi


dari akar kuadrat koefisien reliabilitas, koefisien validitas dapat
lebih besar dari koefisien reliabilitas itu sendiri. Contohnya, jika
xx'

0,49 ,

maka

XT=0,7 .

Dalam

situasi

XY

(koefisien validitas) dapat sebesar 0,7 dan oleh karena itu, dapat
lebih tinggi dari koefisien reliabilitas.
'
2
5. x x =1 XE
Bahwa koefisien reliabilitas adalah 1 dikurang kuadrat korelasi
antara skor pengamatan dan skor kesalahan. Secara ideal,
XE

seharusnya 0, tapi

Hubungan antara

XE

XE=0
x x '

dan

4.3.
'
2
2
6. x x =1 E / X

hanya jika

'

x x =1 .

di ilustrasikan pada gambar

Menghubungkan reliabilitas ke variansi skor kesalahan dan


variansi skor pengamatan. Sebagaimana diuraikan terdahulu,
ketika

'

x x =1

maka

2E=0

dan ketika

'

x x =0

maka

2T = 2X . Tingkat heterogenitas (variansi) pada skor hasil yang


diamati untuk kelompok peserta ujian mempunyai pengaruh
yang penting pada reliabilitas. Jika tes diberikan untuk populasi
dengn jarak yang dibatasi pada skor pengamatan (contohnya,
jika kita berikan tes IQ untuk kelompok orang yang pertumbuhan
2

mental yang terhambat),


kesalahan

sama

dalam

akan dikurangi. Jika variansi

kelompok

yang

dibatasi

sebagai

kelompok yang lebih heterogen, maka reliabilitas akan lebih kecil


untuk kelompok yang dibatasi. Dengan kata lain, perkiraan
reliabilitas didasarkan pada kelompok heterogen akan cenderung
lebih tinggi dari perkiraan awal pada kelompok yang lebih
homogen .
Kesimpulannya ,
ketika

x x ' =1 , maka :

1. Pengukuran yang dibuat tanpa kesalahan ( semua E = 0)


2. X = T untuk semua yang diuji
3. Semua variansi skor pengamatan mewakili variansi
sebenarnya

skor

2X = 2T

4. Semua perbedaan antara skor pengamatan mewakili perbedaan


skor sebenarnya
5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 1 (
XT =1 ) dan
6. Korelasi antara skor pengamatan dan skor kesalahan adalah 0 (
XE=0 )

ketika

x x ' =0 , maka :

1. Hanya kesalahan acak yang termasuk dalam pengukuran


2. X = E untuk semua yang diuji
3. Semua variansi yang diamati mewakili variansi kesalahan (
2X = 2E )
4. Semua perbedaan antara skor mewakili kesalahan pengukuran
5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 0 (
XT =0 ) dan
6. Korelasi antara skor pengamatan dan skor kesalahan adalah 1 (
XE=1 )

0 x x' 1 , maka :

Ketika

1. Pengukuran dapat mengandung beberapa kesalahan


2. X = T + E
3. Variansi skor yang
diamati mengandung variansi

skor

2
2
2
sebenarnya dan beberapa variansi skor kesalahan ( X = T + E )

4. Perbedaan antara skor pengamatan dapat mewakili kesalahan


pengukuran seperti perbedaan skor sebenarnya.
5. Korelasi antara skor pengamatan dan skor sebenarnya,
sama dengan

x x '

6. Korelasi antara skor pengamatan dan skor kesalahan,


sama dengan

XT

XE

1x x '

7. Reliabilitas adalah proporsi variansi skor pengamatan adalah


variansi skor sebenarnya
x x

8.

'

x x ' = 2T / 2X

terbesar adalah lebih pasti kita memperkirakan T dari X,

karena variansi kesalahan akan relatif kecil.


B. ESTIMASI RELIABILITAS
Pada kebanyakan kasus, skor sebenarnya (T) tidak dapat diperoleh,
dan tidak mungkin untuk memeriksa bahwa kedua tes tersebut
parallel. Untuk itu reliabilitas harus diestimasi dengan metode yang
lain.
7

1. Metode Tes/Retest
Estimasi reliabilitas dengan test/retest merupakan

metode

yang berdasarkan pada tes yang diberikan pada peserta ujian


yang sama dan dengan tes yang sama diberikan dua kali dan
mengkorelasikan hasilnya. Jika setiap peserta ujian memperoleh
skor amatan

yang tepat sama pada tes kedua seperti yang

didapat pada tes pertama dan jika variansi dalam skor amatan
diantara peserta uji korelasinya adalah 1.0 maka menunjukan
reliabilitas sempurna. Tapi, jika himpunan skor dari tes pertama
tidak

berhubungan

estimasinya

xx' =

dengan

himpunan

skor

tes

kedua,

0.

Untuk memperoleh reliabilitas dengan metode ini, kita perlu


membuat sebuah instrument tes dan menentukan subjeknya.
Kemudian tes diberikan sebanyak dua kali pada subjek yang
sama namun diberikan pada waktu yang berbeda. Dengan
demikian, kita akan memperoleh dua himpunan skor dari tes
pertama dan kedua. Estimasi reliabilitas kita peroleh dari
korelasi skor pertama dan kedua.
Masalah yang ditemukan dalam estimasi reliabilitas dengan
metode ini adalah :
a. Carry-Over Effects antara Tes
Ada kemungkinan tes pertama berpengaruh pada tes kedua.
Kontaminasi skor ini dapat terjadi dalam berbagai cara.
Peserta tes mungkin mengingat jawaban pada tes pertama
dan

mengulangnya.
r XX '

melakukannya,

Jika

sebagian

besar

akan overestimate

peserta
xx'

tes

atau pada

beberapa tes, carry over effects di sebabkan oleh pengaruh


latihan. Contohnya, kebanyakan orang cenderung untuk
meningkatkan

nilai

ketangkasan dan

dengan

tes

berulang

pada

tes

tes kemampuan. Jika beberapa orang

nilainya telah meningkat lebih dari yang lain, korelasi skor

amatan dari dua tes itu kemungkinan akan underestimate,


xx'

kecuali derajat peningkatan korelasinya tinggi dengan

skor pada tes pertama atau kedua


b. lamanya waktu antara pemberian kedua tes.
Selang waktu yang sangat singkat akan menimbulkan carry
over effects

yang disebabkan oleh ingatan, latihan, atau

suasana hati. Selang waktu yang lama akan memberikan


pengaruh karena perubahan informasi atau suasana. Jika sifat
tes

yang

mengukur

dengan

variasi

waktu,

seperti

kemampuan kognitif anak, selang yang lama akan cenderung


mengarah kepada underestimate pada reliabilitas tes pada
suatu

kesempatan.

mempengaruhi

Perbedaan

estimasi

lama

reliabillitas

waktu

dengan

dapat

cara

yang

berbeda, kadang kadang overestimate dan kadang kadang


underestimate
prosedur

dari

reliabilitas

sebenarnya.

Contohnya,

tes/retest tepat untuk mengestimasi reliabilitas

tugas diskriminasi sensorik (seperti tes ketajaman visual dan


audio).
2. Metode Bentuk Alternatif/Paralel
Estimasi reliabilitas bentuk paralel adalah korelasi,

r xx'

, antara

skor amatan pada dua tes paralel. Prakteknya, biasanya tidak


mungkin untuk memerikasa bahwa dua tes paralel. Dan bentuk
tes alternatif sering digunakan pada bentuk tes paralel. Bentuk
tes alternatif adalah bentuk dua tes yang telah
sebagai usaha
mempunyai

dikonstruksikan

membuatnya paralel, dan keduanya mungkin

kesamaan

(atau

sangat

mirip)

ratarata

skor

amatan, variansi dan korelasi dengan pengukuran lainnya.


Namun, namun, tidak ada bukti yang tersedia bahwa bentuk
alternatif

adalah paralel. Korelasi antar skor amatan pada

bentuk tes alternatif,


dari

bentuk

r xz

alternatif.

adalah estimasi reliabilitas salah satu


Korelasi
9

ini

akan

mencerminkan

bagaimana reliabel tes tersebut, sebaik

bagaimana keduanya

parallel.
Untuk memperoleh reliabilitas dengan metode ini, kita perlu
membuat dua buah instrument tes yang diberikan pada subjek
yang sama namun pada waktu yang berbeda. Dengan demikian,
kita akan memperoleh dua himpunan skor dari tes pertama dan
kedua. Estimasi reliabilitas kita peroleh dari korelasi skor
pertama dan kedua.
Namun, menggunakan estimasi reliabilitas bentuk alternatif atau
paralel tidak selalu menghilangkan kemungkinan carry over
effect khususnya yang berhubungan dengan gaya respon,
suasana hati atau sikap. Seperti

estimasi reliabilitas dengan

tes/retest, carry over effects ini mungkin akan memberikan nilai


yang overestimate atau underestimate dari
zz'

dari

xx'

atau

. Pemilihan waktu juga merupakan masalah. Jangka waktu

yang pendek antara dua tes

memungkinkan kontaminasi skor

perolehan yang disebabkan oleh ingatan, latihan atau suasana


hati; pada jangka waktu yang panjang trait yang berubah seiring
waktu .
Ketika bentuk tes alternatif, X dan Z, tidak paralel,
umum akan menjadi estimasi tidak akurat dari

x x

'

r xz

secara

atau

z z .
'

contohnya, diketahui X = TX + EX dan Z = TZ + EZ. Jika TX = TZ


tapi

X > Z , kemudian X kurang reliabel dari Z. Korelasi

akan cenderung overestimate

x x

'

, dan underestimate

rxx

'

z z

'

Jika TX TZ , mungkin tes mengukur trate yang berbeda, dan


rxx

'

akan cenderung underestimasi baik

x x

'

dan

z z

'

Contohnya, jika X adalah skor pada tes komputasi matematika


10

r xz

dan Z adalah skor tes penalaran matematika,

adalah

korelasi antara komputasi matematika dan skor penalaran. dan


tidak perlu estimasi reliabilitas yang bagus dari tes yang lain.
Kesimpulannya, korelasi antara skor pengamatan pada bentuk
alternatif

akan

reliabilitas

menghasilkan

tes

jika

bentuk

estimasi

alternatifnya

yang

bagus

paralel

dari

atau

jika

keduanya fungsi linear dari skor tes paralel dan jika carry over
effects dan perubahan skor karena waktu tidak mempengaruhi
korelasi.
3. Metode Konsistensi Internal : Split Halves
Reliabilitas konsistensi internal diestimasi menggunakan satu
bentuk tes yang hanya diberikan sekali dan untuk menghindari
masalah yang ditimbulkan pada tes berulang. Metode ini lebih
dikenal sebagai estimasi reliabilitas dengan metode split half
(metode belah dua). Tes ini dibagi menjadi dua bagian, yang
merupakan

bentuk

alternatif

dari

masing-masing,

dan

diusahakan untuk memilih bagian-bagian

tersebut sehingga

menjadi parallel atau pada essentially

equivalent

(lihat

bagian 3.1). Jika bagian dari tes ini parallel, reliabilitas dari
keseluruhan

tes

diestimasi

dengan

menggunakan

rumus

Spearman-Brown. Jika bagian-bagiannya merupakan essentially


equivalent

koefisien

dapat

digunakan

untuk

menghitung reliabilitas keseluruhan tes.


Ada 3 metode yang biasa digunakan dalam membagi tes.
a. Metode genap/ganjil
mengklasifikasikan item dengan cara membagi mana yang
genap dan mana yang ganjil dalam suatu tes. Setiap peserta
ujian memperoleh skor untuk item bernomor genap dan item
bernomor ganjil.
b. Metode Urutan

11

Membentuk bagiannya dalam urutan, tiap peserta ujian


memperoleh skor bagian pertama dari tes dan skor bagian
kedua dari tes. Secara umum, pembentukan bagian tes
dengan metode urutan kurang sesuai dibandingkan dengan
metode genap/ganjil, karena beberapa peserta ujian mungkin
memperbaiki dengan latihan (menaikkan skor bagian kedua)
dan

beberapa

menyelesaikan

peserta
tes

ujian

mungkin

(menurunkan

skor

tidak

dapat

bagian

kedua).

Bagaimanapun juga, masalah bagi beberapa peserta ujian


dapat diatasi dengan dengan memisahkan waktu dari dua
bagian. Yaitu, peserta ujian diberikan beberapa menit ntuk
menyelesaikan bagian pertama dari tes dan ketika waktu
habis, semua peserta ujian menyelesaikan bagian kedua dari
tes.

Peserta

ujian

diberi

waktu

yang

sama

untuk

menyelesaikan tes bagian dua dengan tes bagian pertama.


Tipe tes belah dua sama dengan memberikan

dua bentuk

alternate singkat, dengan hanya memberikan selang waktu


yang singkat antar keduanya.
c. Metode Matched Random Subsets
Metode ini lebih bagus dibandingkan
sebelumnya.
Pertama,

Metode

dua

ini

statistic

melibatkan
dihitung

dua

metode

beberapa

langkah.

untuk

masing-masing

itemnya : (1) proporsi peserta ujian yang lulus item (tingkat


kesukaran item) dan (2) biserial atau korelasi biserial titik
antara skor item dan skor total tes (lihat bagian 2.11).
kemudian

masing-masing

item

diplotkan

pada

grafik

menggunakan dua statistic tersebut. Item-item yang saling


berdekatan dipasangkan. Dan satu item pada masing-masing
pasangan dipilih secara acak untuk setengah bagian tes. Item
sisanya

membentuk

setengah

bagian

yang

lainnya.

Contohnya, gambar 4.4 menunjukkan 6 item yang telah


diplotkan dan digrupkan menjadi pasangan. Jika item A dipilih
untuk setengah bagian pertama, item B akan menjadi
12

setengah bagian kedua, dan seterusnya. Pengelompokan yag


mungkin adalah ACE dan BDF, ADE dan BCF, ACF dan BDE,
dan seterusnya. Metode

ini membantu meyakinkan bahwa

kedua bagian memiliki tingkat kesukaran yang sama dan


mengukur hal yang sama (sehingga menghasilkan nilai
sebenarnya yang sama).

Gambar 4.4 seleksi matched random subsets dengan grafik


Untuk mengestimasi reliabilitasnya, kita menggunakan rumusrumus sebagai berikut.
a. Rumus Spearman-Brown
Rumus Spearman-Brown dapat digunakan untuk menentukan
reliabilitas dari keseluruhan tes jika bagian-bagiannya paralel.
Skor dari bagian tes yang parallel (ditulis
dikorelasikan, menghasilkan

Y Y

'

dan

Y' )

. Korelasi ini akan menjadi

ukuran yang wajar dari reliabilitas satu bagian tes. Reliabilitas


X =Y + Y ' , akan lebih besar dari

dari keseluruhan tes,


reliabilitas

per

bagian.

Rumus

Spearman-Brown,

yang

merupakan reliabilitas dari keseluruhan tes, adalah


X X =
'

2 Y Y
1+ Y Y
'

(4.1)

'

13

Seperti yang ditunjukkan pada table 4.1,


lebih besar daripada
keseluruhan tes dan

Y Y

X X

, karena

'

Y Y

'

'

X X

biasanya

'

adalah reliabilitas

adalah hanya reliabilitas per

bagian tes.
Y Y

Tabel 4.1 Korelasi antara bagian tes yang parallel (


X X

Y Y

'

0.00
0.33
0.57
0.75
0.89
1.00

'

'

0.00
0.20
0.40
0.60
0.80
1.00

b. Koefisien

Rumus ini digunakan pada tes yang skor bagiannya memiliki


varians yang tidak sama atau ada indikasi bahwa tidak
parallel. Rumus ini dapat digunakan untuk mengestimasi
reliabilitas keseluruhan tes. Jika bagian-bagiannya (tulis
dan

Y2

equivalent , koefisien

tes. Jika bagian-bagiannya bukan

akan

memberian

batas

Y1

merupakan reliabilitas
equivalent , koefisien

bawah

dari

reliabilitas

keseluruhan tes. (Sehingga, reliabilitas tes pasti lebih besar


atau sama dengan hasil yang diberikan pada rumus koefisien
).
Jika koefisien

menghasilkan nilai yang tinggi, kita tahu

bahwa reliabilitas tes pasti tinggi; jika koefisien

rendah,

kita mungkin tidak tahu apakah sebenarnya tes tersebut


14

memiliki reliabilitas yang rendah atau apakah bagian dari tes


equivalent . Rumus koefisien

bukan merupakan

untuk

metode belah dua adalah


2

X X =

dan

2X

X =Y 1+Y 2

'

Dimana

2 [ X ( Y + Y ) ]

2Y

(4.2)

2
X

dan

2Y

adalah varians skor dua bagian tes,

adalah varians skor dari keseluruhan tes, dengan


.

Nilai yang dihasilkan oleh koefisien

dan rumus Spearman

Brown akan lebih besar jika bagian tes berkorelasi tinggi dan
akan bernilai kecil jika sebaliknya. Bagian tes akan berkorelasi
tinggi hanya jika mengukur trait yang sama atau yang
berkorelasi tinggi; sehingga, reliabilitas
Brown dan koefisien

rumus Spearman

merupakan indeks konsistensi

internal tes atau homogenitas.


Jika varians dari skor amatan dari bagian tes sama, rumus
Spearman Brown dan koefisien

sama. Jika varians dari

skor amatan dari bagian tes sama, tapi bagiannya tidak


equivalent , baik rumus Spearman Brown dan koefisien

akan memperkecil reliabilitas tes. Jika varians dari skor

amatan

dari

bagian

tes

sama,

dengan

bagiannya

equivalent , baik rumus Spearman Brown dan koefisien

akan memiliki reliabilitas yang sama.

Penggunaan metode belah dua untuk estimasi reliabilitas dapat


diilustrasikan dalam sebuah contoh. anggap bahwa korelasi
15

antara skor kedua bagiannya adalah 0.5. varians skor per bagian
adalah 7 dan 5, dan varians skor total adalah 17.9. dengan
menggunakan

rumus

Spearman

Brown

(persamaan

4.1),

reliabilitas skor total diestimasi menjadi


rXX =
'

2(0.5)
=0.67
1+0.5

Reliabilitas

skor

total

diestimasi

dengan

koefisien

(persamaan 4.2) menjadi


r X X =
'

2 [17.9( 7+5 ) ]
=0.66
17.9

Dalam contoh ini, estimasi dengan koefisien


nilai

yang

lebih

kecil

dibandingkan

menghasilkan

menggunakan

rumus

Spearman Brown.
Manfaat terbesar estimasi reliabilitas konsistensi internal adalah
tes hanya perlu diberikan sekali untuk dapat mengestimasi
relibilitasnya. Bagaimanapun juga, metode konsistensi internal
ini tidak terpenuhi ketika tes tidak dapat dibagi menjadi
beberapa bagian yang parallel atau

equivalent

dasar atau

ketika tes tidak memiliki item yang independen yang dapat


dipisah.
Estimasi reliabilitas dengan metode split half

harusnya tidak

boleh digunakan pada tes kecepatan, karena akan memberikan


nilai estimasi yang tidak wajar. Pada tes kecepatan murni
kebanyakan orang dapat menjawab tiap item dengan benar,
maka jika sesorang menyelesaikan 30 item, skor bagian genap
dan ganjil

masing-masing 15 item. Secara umum skor genap

dan ganjil tiap peserta uji bisa jadi hampir identik, akibatnya
nilai estimasi reliabilitas mendekati 1. Dan jika estimasi dengan
split half berdasarkan korelasi setengah bagian pertama dan
bagian kedua, nilai estimasi bias jadi mendekati 0, ketika
sebagian besar peserta uji mendapatkan nilai tinggi pada bagian
16

pertama dan nilai rendah pada bagian kedua. Pada kasus ini,
korelasi antara bagian-bagiannya mencerminkan error antara
bagian pertama dan kecepatan pada bagian kedua. Metode
matched random subsets tidak lagi sesuai untuk tes kecepatan,
karena item yang sulit dan korelasi item akan menjadi fungsi
dari tes daripada fungsi sifat-sifat item itu sendiri.
KASUS UMUM RELIABILITAS INTERNAL KONSISTENSI
Teknik membagi tes menjadi dua bagian dengan metode
sebelumnya dapat digeneralisasikan untuk membagi tes menjadi
lebih dari dua bagian. Contohnya, metode genap dan ganjil
dapat dimodifikasi dengan membuat pertiga untuk tes dengan
sembilan item dengan memasukkan item pertama, keempat,
dan ketujuh ke dalam sepertiga bagian pertama, item kedua,
kelima, dan kedelapan dalam sepertiga bagian kedua, serta item
ketiga, keenam, dan kesembilan dalam bagian ketiga. Metode
matched random subsets

akan melibatkan pembentukan triplet

(kembar tiga) dengan metode grafik yang diilustrasikan pada


gambar 4.4 dan secara acak dipilih satu item dari masingmasing triplet untuk dimasukkan ke dalam tiga bagian tes
tersebut.
Bagian

ini

mengasumsikan

bahwa

tes

dibagi

menjadi

komponen. Variansi skor dari komponen-komponen tersebut dan


varians dari skor total digunakan untuk mengestimasi reliabilitas
tes. Jika komponennya (misalnya item atau himpunan item)
semuanya

equivalent . rumus pada bagian ini menghasilkan

reliabilitas tes; jika komponennya tidak

equivalent

, rumus

ini akan menghasilkan reliabilitas tes yang underestimate. Di sisi


lain, rumus ini akan menghasilkan estimasi yang bagus hanya
ketika tes mengukur satu trait yaitu ketika isinya homogen.
Contohnya, sebuah tes yang mengukur penalaran aljabar
17

mungkin homogen, tapi tes tipe intelegensi, yang mengukur


kemampuan verbal, spasial, dan kuantitatif, akan heterogen.
Pengukuran reliabilitas dengan internal konsistensi tidak cocok
digunakan pada tes yang heterogen. Selain itu juga tidak cocok
untuk tes kecepatan karena konsistensi internal komponen
tesnya bukan indikasi yang baik dari reliabilitas tes.
Rumus untuk reliabilitas konsistensi internal pada kasus umum
adalah

a. koefisien
Rumus

koefisien

digunakan

untuk

mengestimasi

reliabilitas tes yang komponen-komponennya parallel.

X X =
'

N
N1

[ 2X 2Y ]
i=1
2
X

(4.3)
Dimana
X = skor amatan yang dibentuk dari mengkombinasikan N
N

X = Y

komponen,

i=1

2X = varians populasi X
2Y = varians populasi dari komponen ke-I , Yi
i

N = banyaknya komponen yang dikombinasikan ke bentuk X,


contohnya jika N = 3, skor tes, X, berdasarkan 3 komponen.
Kuder- Richardson 20 (KR20)
Jika setiap komponen tes, Yi ,item dikotomi, persamaan 4.3
diberikan pada bentuk khusus berikut.

X X KR20=
'

N
N1

[ 2X pi (1 pi )]
i=1

(4.4)
18

pi

Dimana

adalah

mendapatkan i

proporsi

peserta

ujian

yang

item benar, yang mengukur kesulitan item.

Persamaan 4.4 mencerminkan fakta bahwa varians skor pada


item i, ketika skor pada item ini dapat mengambil nilai 0 atau
pi (1 pi )

1, sama dengan

dimana

pi

adalah proporsi

peserta ujian dalam sebuah populasi yang mendapat skor 1


pada item (yang artinya lulus item tersebut). Persamaan 4.4
sering disebut Rumus Kuder-Richardson 20, disingkat KR20,
karena ini adalah rumus ke- 20 yang diberikan Kuder dan
Richardson (1937). Nama lain dari rumus ini adalah koefisien

(20) .

-20 , disingkat

Rumus Kuder-Richardson 21
Rumus Kuder-Richardson yang lain yang sangat berguna
ketika setiap Yi merupakan item dikotomi adalah

[ ]

X X KR21=
'

N
N 1

[ 2X N p (1 p )]
i=1

(4.5)
Dimana
p

adalah rata-rata tingkat kesukaran item. Karena

lebih mudah untuk dihitung dengan

p= ( X )/ N

persamaan 4.5 dapat dihitung dari rata-rata dan varians tes


dengan N-item. Persamaan 4.5 adalah kasus khusus dari
KR20 dan biasanya ditulis KR21 atau

(21) , selanjutnya

KR20 KR21

(4.6)

Kedua rumus tersebut akan sama jika tingkat kesukaran item


semuanya sama. Jika tidak, KR21 akan kurang dari KR20 dan
akan menimbulkan reliabilitas yang underestimate.
19

Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan


kurang dari atau samadengan reliabilitas tes dan akan sama
equivalent

dengan reliabilitas tes jika Yi

(yaitu, pada

dasarnya sama dengan skor sebenarnya). KR21 akan sama


dengan reliabiltas tes hanya jika tiap item memiliki tingkat
kesukaran

yang

sama

equivalent .

dan

Nilai

yang

dihasilkan pada persamaan 4.3 dan 4.4 akan besar jika


komponen penyusunnya memiliki interkorelasi yang tinggi,
dan juga sebaliknya. Komponennya akan berinterkorelasi
tinggi hanya jika mengukur trait yang sama atau trait yang
berkorelasi

tinggi.

Sehingga

rumus

pada

bagian

ini

mengindikasikan konsistensi internal tes atau homogenitas.


Contoh berikut mengilustrasikan penggunaan rumus untuk
estimasi reliabilitas konsistensi internal. (Dalam prakteknya,
mengestimasi
kesukaran item,

varians
^pi

komponen-komponennya,

, dan varians tes,

s 2X

s 2Y ,
i

pada persamaan

4.3,4.4, dan 4.5)


1. Tes kreatifitas dibagi menjadi 3 bagian.
2
Varians bagian pertama = s Y =5.2
1

Varians bagian kedua =

s 2Y =4.8

Varians bagian ketiga =

s 2Y =5.2

Jumlah ketiga varians = 15


2
Varians skor total = s X =25
Estimasi batas bawah reliabilitas tesnya (dari persamaan

4.3) =

[ ][

3 [2515]
=0.6 .
2
25

Jika ketiga bagian tes essentially


merupakan estimasi reliabilitas tes.

20

equivalent

, 0.6

2. 5 item tes autonomy diberikan pada kelompok guru SD.


s 2X =3

Varians skor amatan,


Rata-rata skor amatan,

X =2

Proporsi guru yang lulus item ( ^p

adalah 0.3, 0.4, 0.7,

0.5, dan 0.1


Jumlah

skor

varians

item,

^p ( 1 ^p )=0.21+ 0.24+0.21+ 0.25+ 0.09=1.00


i=1

Dengan menggunakan persamaan 4.4,


estimasi batas bawah reliabilitas tes =
jika itemnya

[ ][
5
4

[31]
= 0.833
3

equivalent , estimasi reliabilitasnya sama

dengan 0.833. Batas bawah juga bias diperoleh dengan

rumus KR21. Rata-rata tingkat kesukaran,

2
^p= =0.4 , dan
5

N ^p ( 1 ^p )=1.2 .
Estimasi batas

[ ][
5
4

KR21

bawah dengan persamaan 4.5 yaitu

[31.2]
=0.75 .
3

menghasilkan

estimasi

batas

bawah

lebih

kecil

dibandingkan KR20 karena item-itemnya memiliki tingkat


kesukatan yang tidak sama.
b. Rumus Spearman-Brown
Rumus Spearman-Brown digunakan

untuk

mengestimasi

reliabilitas tes yang komponen-komponennya parallel. Bentuk


umum rumus ini adalah
N Y Y
X X =
1+( N1) Y Y
'

(4.7)

'

'

21

Dimana
X

skor

amatan

total

yang

dibentuk

dengan
N

mengkombinasikan N komponen yang parallel,

Yi
i=1

Y i = komponen skor tes


X X
Y Y

=reliabilitas populasi X

'

= reliabilitas populasi

'

Yi

N = banyaknya skor tes parallel yang dikombinasikan menjadi


X
Catatan bahwa

X X Y Y
'

X X

'

disebut juga a stepped-up

'

reliability, karena merupakan penyesuaian ke atas dari


reliabilitas yang lebih pendek.
Persamaan 4.7 dapat juga digunakan untuk menentukan
Y Y

jika N dan

'

N XX
Y Y =
1
1+( 1) X X
N

X X

'

diketahui.

'

'

'

(4.8)
Dan jika diketahui

X X

dan

'

Y Y

'

, maka rumus tersebut

dapat digunakan untuk mengetahui N, yaitu


N=

X X (1Y Y )
Y Y (1 X X )
'

'

'

'

(4.9)
Berikut

contoh

aplikasi

persamaan-persamaan

tersebut.

Menggunakan rumus Spearman Brown, untuk mengestimasi

22

reliabilitas (
populasi (

rXX

X X

'

dan

Y Y

dan

'

rY Y

'

'

) menggantikan nilai reliabilitas

).

1. Kita punya tes lima menit dengan reliabilitasnya 0.6. jika kita
melakukan tes tiga kali dengan menambahkan komponen
yang pararel, maka berapa estimasi reliabilitas tes yang lebih
panjang?
N = 3 dan
rXX =
'

r Y Y =0.6

, maka diperoleh

'

3(0.6)
=0.82
1+2.( 0.6)

2. Kita punya tes dengan 50 item dengan estimasi reliabilitas


0.9. jika kita menghilangkan 10 item, berapa estimasi
reliabilitas tes dengan sepuluh item tersebut? N = 5 , dan
r X X =0.9
'

1
(0.9)
5
rY Y =
=0.64
1
1+ 1 0.9
5
'

( )

3. Kita punya tes dengan sepuluh item dengan estimasi


reliabilitasnya 0.8. berapa banyak item tes diberikan untuk
mendapatkan reliabilitas 0.9?
r X X =0.9
r =0.8
dan Y Y
'

N=

'

0.9(10.8)
=2.25
0.8(10.9)

C. STANDARD ERROR OF MEASUREMENT (SEM)


Standar error pengukuran,

, adalah standar deviasi dari skor

error untuk peserta ujian khusus dalam pengetesan berulang yang


independen dengan tes yang sama atau tes yang parallel.

23

Pada gambar 4.6, Misalkan berlaku asumsi teori klasik skor


sebenarnya dan distribusi skor amatan peserta uji dalam tes
independen

berulang

dengan

tes

yang

sama

atau

parallel.

Distribusinya berpusat pada T, dan memiliki standar deviasi,


yang merupakan SEM. Jika
sama

dengan

skor

=0

, maka skor amatan akan tepat

sebenarnya.

Gambar

4.6

menunjukkan

pendekatan distribusi normal skor amatan, dimana akan berada


pada interval T-

hingga T+

, atau

Jika skor amatan, x, berada pada interval


tidak akan

, maka skornya

lebih jauh dari T. Standar eror ini dapat diestimasi

dari standar deviasi skor amatan dan reliabilitas yang diestimasi


pada kelompok peserta uji, menggunakan rumus
^ =s X 1r X X

'

Jika diasumsikan

sama untuk semua peserta uji. Dengan

membuat beberapa asumsi, standar error pengukuran dapat


digunakan untuk mengestimasi interval kepercayaan dari skor
sebenarnya. Asumsi yang perlu dipenuhi yaitu,
1. Asumsi teori klasikal skor sebenarnya (bagian 3.1)
2. Asumsi bahwa error of measurement berdistribusi normal.

24

3. Asumsi bahwa

sama untuk semua peserta uji.

Jika ketiga asumsi tersebut dipenuhi maka interval kepercayaan


untuk skor sebenarnya adalah
xz c s E T x + z c s E
Dimana
X = skor amatan peserta uji
sE

=estimasi standar error pengukuran,

s E =s X 1r X X

'

z c = nilai kritik deviasi standar normal yang diperoleh dari table


normal.
D. CARA MENINGKATKAN RELIABILITAS
Adapun cara untuk meningkatkan nilai reliabilitas menurut Nitko,
Anthony J. & Susan M. B. (2011:81) adalah sebagai berikut.
1. Memperpanjang prosedur penilaian. Seperti praktis, beri lebih
banyak waktu, gunakan banyak pertanyaan-pertanyaan, lebih
2.
3.
4.
5.
6.
7.
8.

banyak observasi dan lain-lain.


Perluas dari keleluasaan prosedur.
Tingkatkan obyektivitas.
Gunakan penilaian yang beragam.
Bandingkan hasil-hasil dari beberapa penilaian.
Memberikan waktu lebih kepada siswa.
Ajari siswa tentang bagaimana kinerja mereka bisa lebih baik.
Cocokkan tingkatan kemampuan siswa terhadap penilaian yang

berbeda.
9. Seleksi tugas-tugas penilaian yang dikerjakan dengan baik dari
perbedaan siswa-siswa yang berprestasi terhadap siswa-siswa
yang kurang mampu
E. KESIMPULAN
Reliabilitas (

xx'

) adalah derajat kekonsistenan hasil/nilai siswa

pada pemberian penilaian yang berulang. Konsistensi merupakan


konsep

penting

untuk

memutuskan

seberapa

besar

derajat

kepercayaan dari hasil penilaian terhadap siswa. Reliabilitas dapat


diestimasi dengan tiga cara yaitu, (1) test/retest, (2) bentuk
25

alternative/parallel, dan (3) internal konsistensi (rumus koefisien

dan Spearman-Brown). Standar error pengukuran,

, adalah

standar deviasi dari skor error untuk peserta ujian khusus dalam
pengetesan berulang yang independen dengan tes yang sama atau
tes yang parallel. Standar eror ini dapat diestimasi dari standar
deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok
peserta uji, menggunakan rumus

^ =s X 1r X X

'

REFERENSI
Nitko, Anthony J. & Susan M. B. 2011. Educational Assessment of
Students 6th Edition. USA : Pearson Education, Inc.
Mary J. Allen & Wendy M. Yen. 1979. Introduction to Measurement
Theory. California: A Division of Wadsworth, Inc.
Singh, Arun Kumar. 1986. Tests, Measurement and Research Methods
in Behavioral Sciences. New Delhi: Tata McGraw Hill.

26

Anda mungkin juga menyukai