Reliabilitas Evaluasi Reliability of Eva

A.
Konsep Reliabilitas
Suatu mistar terbuat dari kayu dipakai untuk mngukur panjang pensil, dilihat pada
skalanya menunjukkan angka 30 cm. mistar digunakan oleh orang lain untuk mengukur
pekurannya tidak akan tetap sama. Tergantung dari kekuatan meregangnsil yang sama dan
hasilnya tetap yaitu 30 cm. begitu pula jika pengukuran itu dilakukan pada waktu dan tempat
berbeda, hasil tetap sama. Kondisi ini dikatakan mistar itu sebagai alat ukur panjang yang
reliable, tetapi jika mistar itu terbuat dari karet, hasil pengukuran akan berbeda tergantuk dari
kekuatan meregangkan karet itu. Untuk hal ini dikatakan mistar itu tidak reliable, hingga kita
tidak dapat mempercayai hasil pengukurannya
Reliabilitas suatu alat ukur atau alat evaluasi dimaksudkan sebagai suatu alat yang
memberikan hasil yang tetap sama/konsisten. Hasil pengukurannya tetap sama jika
pengukurannya diberikan pada subyek yang sama meskipun dilakukan oleh orang, waktu,
dan tempat yang berbeda.
Berkenaan dengan evaluasi, suatu alat evaluasi (tes dan non-tes) disebut reliabel jika
hasil evaluasi tersebut relatif tetap jika digunakan untuk subyek yang sama. Istilah relative
tetap disini dimaksudkan tidak tepat sama, tetapi mengalami perubahan yang tidak berarti dan
bias diabaikan. Perubahan hasil evalasi disebabkan adanya unsur pengalaman dari peserta tes,
dan juga kondisi lainnya.
Kita hampir tidak pernah mendapatkan alat evaluasi matematika yang memiliki
reliabilitas sempurna, yaitu hasil evaluasi yang memebrikan hasil yang tepat sama. Skor yang
diperoleh seorang subyek secara berulang dan alat evaluasi itu selalu terdapat
kekeliruan/galat. Maka diperoleh,
xt x xe
Keterangan :
xt
: skor actual (hasil yang didapat)
x
: skor murni (mean dari hasil evaluasi yang berkali-kali terhadap seorang subyek)
xe
: galat/error (kekeliruan proses evaluasi; dapat benilai positif atau negatif )
1
xt x xe
Menurut statistika, dari kesamaan
akan dihasilkan persamaan
t2 2 e2
atau varians total = varians murni + varians galat
Proporsi varians total dengan varians murni disebut reliabilitas, sehingga konsepsi reliabilitas
adalah
2
r11 2
e
t2 2 e2
Ubah persamaan
menjadi
r11
Sehingga diperoleh
2 t2 e2
t2 e2
t2
r11 1
e2
t2
atau
B. Tes untuk Menentukan Reliabilitas

Untuk mengestimasi reliabilitas suatu alat evaluasi, ada tiga cara yang paling banyak
digunakan :
a. Tes tunggal
Tes yang terdiri dari suatu perangkat (satu set) yang dikenakan pada sekelompok subyek
dalam satu kali pelaksanaan. Dengan demikian hasil evaluasi ini hanya terdapat satu
kelompok data berupa skor hasil evaluasi itu. Dari kelompok data ini, ditentukan
reliabilitas alat evaluasi tersebut
b. Tes Ulang
Tes ulang adalah tes yang terdiri dari seperangkat tes yang dikenakan terhadap
sekelompok subyek sebanyak dua kali. Reliabilitasnya dihitung dengan cara mengkorelasi
hasil evaluasi yang pertama dengan yang kedua.
c. Tes Ekuivalen
Tes yang terdiri dari dua perangkat dimana soal-soal pada perangkat pertama ekuivalen
dengan soal-soal pada perangkat kedua.
Kedua perangkat tes tersebut diberikan kepada sekelompok subyek secara berturut-turut.
Untuk menentukan reliabilitasnya, dihitung dengan cara mengkorelasi hasil tes untuk soal
perangkat pertama dengan hasil tes dari perangkat kedua.
C. Sumber Varians Reliabilitas
Tinggi rendahnya reliabilitas tergantung pada proporsi varians murni dengan varians total,
makin besar proporsi tersebut, makin tinggi pula reliabilitasnya. Besarnya proporsi yang
tergantung dari varians murni juga dipengaruhi oleh varians galat. Makin besar galat, makin
kecil nilai varians murninya.
Kita perlu mengetahui sumber varians reliabilitas karena adanya kemungkinan bagian
varians pada metode tertentu dapat digolongkan pada varians murni, tetapi untuk metode lain
bisa saja varians bagian varians tersebut masuk dalam varians galat.
Untuk mengungkapkan hal diatas kiranya perlu dijelaskan factor-faktor yang merupakan
sumber varians total. Sumber varians total dapat dibagi dua, yaitu sumber yang berupa factor
yang sifatnya umum dan yang sifatnya khusus. Kedua faktor itu bisa bersifat temporer
maupun non-temporer. Contoh factor non-temporer antara lain kecakapan dalam menangkap
petunjuk-petunjuk dalam soal, kemampuan berfikir sistematik, keterampilan berbahasa dan
menulis. Sedangkan faktor yang bersifat temporer adalah kelelahan, pengalaman, gangguan
kesehatan, pemusatan perhatian, dll
Pada tes ulang faktor-faktor non-temporer akan mempengaruhi tampilan subyek, baik
pada evaluasi pertama maupun kedua. Karena faktor non-temporer ini subyek yang
mempunyai nilai tinggi pada evaluasi pertama cenderung mendapat nilai tinggi pula pada
evaluasi kedua. Dengan demikian kedudukan subyek pada kelompok relatif tetap, sehingga
faktr non-temporer cenderung merupakan konstributor terhadap varians murni. Sebaliknya
faktor-faktor yang sifatnya temporer merupakan kostributor terhadap varians galat. Faktor
temporer dapat mengakibatkan subyek mendapat skor yang jauh berbeda dari hasil tes
pertama. Perbedaan ini pada umumnya bagi subyek yang satu berbeda dengan subyek yang
lain. Hal ini mengakibatkan berubahnya reliabilitas. Sehingga reliabilitas menurun.
Pada tes tunggal, yang merupakan varians murni adalah faktor umum, baik faktor
temporer maupun non-temporer. Varians antara skor subyek yang satu dengan yang lainnya
terutama disebabkan oleh kemampuan individu dan kondisi-kondisi pada saat tes dilakukan.
Dan yang merupakan sumber varians galat dalah faktor khusus. Hal ini terjadi karena tes
terdiri dari bermacam-macam butir soal yang masing-masing membutuhkan cara
penyelesaian yang berlainan. Sumber varians murni dan galat pada tes tunggal cenderung
sama dengan tes ekuivalen
Dari uraian di atas, jelas bahwa faktor-faktor yang merupakan sumber varians murni
antara tes yang satu dengan tes lainnya berbeda. Karena itu, dalam mengolah atau
menghitung reliabilitas suatu alat evaluasi sangat dianjurkan untuk mencantumkan teknik
perhitungan reliabilitas yang digunakan. Hal ini dimaksudkan untuk menghindari interpretasi
yang keliru dari pemakai tes yang bersangkutan.
D. Pendekatan Tes Tunggal

3
Pendekatan tes tunggal merupakan ini merupakan pendekatan ynag paling banyak dipakai
untuk menentukan reliabilitas dan mendapat perhatian dari kalangan pakar psikologis karena
mempunyai beberapa kelebihan:
a. Waktu dan biaya, lebih bersifat ekonomik daripada pendekatan yang lainnya
b. Testi dan Pihak Sekolah , palaksanaa uji coba yang membutuhkan waktu yang lebih
banyak akan lebih banyak pula mengganggu program sekolah sehingga pihak sekolah
keberatan.
c. Pada pengguna tes ulang dan tes ekuivalen faktor yang sifatnya temporer lebih
memungkinkan untuk muncul, seperti faktor pengalaman dalam te pertama, faktor
kelelahan, dan faktor situasi dan kondisi yang berbeda
d. Jika dibandingkan dengan tes ekuivalen, membuat alat tes tunggal jauh lebih mudah.
e. Teknik perhitungan untuk tes tunggal banyak variasi
Analisis data untuk pendekatan tes tunggal dibagi menjadi 2 teknik, yaitu Teknik Belah-Dua
dan Teknik Non Belah-Dua.
1. Teknik Belah-Dua
Untuk menentukan reliabilitas suatu perangkat tes dengan Teknik Belah Dua ini
dilakukan dengan jalan membelah alat evaluasi tersebut menjadi 2 bagian yang sama.
Karena kedua belahan harus sama maka jumlah soal dalam perangkat tes tersebut harus
genap., supaya kedua bagian itu mempunyai jumlah soal yang sama.
Teknik belah-dua ini bisa dilakukan dengan 2 cara, yaitu pembelahan menurut nomor soal
(ganjil dan genap) yang kemudian disebut Metode Ganjil-Genap dan Metode Awal-Akhir.
Tolak ukur untuk menginterpretasikan derajat reliabilitas alat evaluasi dapat digunakan
tolak ukur yang dibuat oleh J.P Guilford (1956:145) sebagai berikut
r 11 0,20
0,20<r 11 0,40
0,40<r 11 0,70
0,70<r 11 0,90
0,90<r 11 1,00
Terdapat 3 macam teknik perhitungan untuk menentukan koefisien reliabilitas suatu alat
evaluasi dengan teknik belah dua, yaitu Spearman Brown, Formula Flanagan, dan Formula
Rulon, namun pembahasan ini hanya mengenai Formula Spearman-Brown
Formula Spearman-Brown
Prinsip penggunaan Formula Spearman-Brown adalah dengan menghitung koefisien korelasi

diantara kedua belah sebagai koefisien reliabilitas bagian (setengah) dari alat evaluasi
tersebut, yang dinotasikan dengan r11/22. Dimana Karl Pearson menyatakan
n x 1 x 2( x 1 )( x 2 )
r 11 =
2
2
22
n x 21( x1 ) n x21 ( x 2 )
)(
Dengan n = banyak subyak,

X1 = kelompok data belahan pertama, dan
X2 = kelompok data belahan kedua
Untuk menghitung koefisien reliabilitas alat evaluasi keseluruhan (satu perangkat), Spearman
Brown mengemukakan rumus
2+r 11
r 11 =
22
1+r 11
, syarat yang harus dipenuhi dalam menggunakan rumus ini adalah
22
i.
ii.
Butir soal pada kedua belahan harus setara.

Butir diatas hanya berlaku untuk Power Test dan tidak diperuntukkan bagi Speed
Test.
Sebagai contoh untuk perhitungan koefisien reliabilitas dengan menggunakan
formula Spearman-Brown adalah sebagai berikut
Kelompok skor dengan Metode Ganjil Genap
Subyek
Skor Nomor Ganjil (X1)
X1X2
5
4
4
3
4
2
2
3
3
1
25
20
20
15
16
10
6
3
3
2
5
5
5
5
4
5
3
1
1
2
A
B
C
D
E
F
G
H
I
J
r 11 =
Skor Nomor
Genapl(X2)
X 1=36
X 2=31
X 1 X 2 =120
X 21=156
X 22=109
10 ( 120 )( 36 )(31)
(10 ( 156 ) 36 ) (10 ( 109 )31 )

2
r 11 =
84
( 264 ) (129)
r 11 =0,455179262
Jadi koefisien reliabilitas seluruh tes adalah
2(0,455179262)
r 11 =
1+0,455179262
r 11 =0,63
Jika kita hitung dengan teknik belah dua metode Awal-Akhir, akan diperoleh dua
kelompok data seperti pada table di bawah ini.
Kelompok skor dengan Metode Awal-Akhir
Subyek
Skor Nomor Ganjil (X1)
Skor Nomor
Genapl(X2)
X1X2
A
B
C
D
E
F
G
H
I
J
6
5
5
4
6
4
4
3
3
3
4
4
4
4
2
3
1
1
1
0
24
20
20
16
12
12
4
3
33
0
X 1=43
X 2=24
X 21=197
X 22=80
X 1 X 2 =114
Koefisien reliabiliats setengah bagian tes dapat dihitung seperti di bawah ini
r 11 =
22
r 11 =
22
10 ( 114 )( 43 ) (24)
(10 ( 197 )43 ) (10 ( 80 )24 )

2
108
( 121 ) (224)
r 11 =0, 656 004 866

22
Jadi koefisien reliabilitas seluh tes adalah
r 11 =
2(0,656 004 866)

1+0, 656 004 866
r 11 =0,79
Dari kedua contoh perhitungan diatas ternyata hasilnya ada perbedaan, tetapi jika dirujuk
pada tolak ukur reliabilitas, keduanya menunjukkan derajat reliabilitas yang sama, yaitu
tergolong tinggi. Jadi reliabilitas soal tes tersebut adalah tinggi atau baik.
2. Teknik Non Belah-Dua
Teknik Non Belah-Dua ini dikemukakan oleh Kuder dan Richardson. Berbagai percobaan
telah dilakukan oleh Kuder dan Richardson dalam menghitung koefisien reliabilitas. Dari
rumus-rumus yang telah dicobanya ada dua rumus yang paling mendekati tingkat kecermatan
yang ideal, yaitu rumus ke 20 dan rumus ke-21 yang disingkat dengan rumus KR-20 dan KR21
i)
ii)
Asumsi untuk penggunaan rumus Kuder-Richardson adalah :

Soal-soal evaluasi harus Homogen (setara)
Jenis evaluasi harus merupakan Power Test dan bukan Speed Test
( )(
n
Rumus KR-20 adalah r 11 = n1
s 21 pi qi
s 2t
Dengan n = banyak butir soal

Pi = proporsi banyak subjek yang menjawab benar pada butir soal ke-i
qi = proporsi banyak subjek yang menjawa bsalah pada butir soal ke-i, jadi qi = 1 - pi
s 2t = varian skor total
Tabel Persiapan Penggunaan Rumus KR-20
N
o
1
2
3
4
5
6
Subye
k
A
B
C
D
E
F
1
1
1
1
1
1
1
2
1
1
1
1
1
0
3
1
1
1
1
1
1
4
1
1
1
0
1
1
5
1
1
1
1
1
1
Nomor Soal
6
7
8
1
1
1
0
1
1
0
1
1
0
1
1
1
0
0
0
1
0
9
1
1
0
0
1
0
10
11
12
Total
7
8
9
10
Np
G
H
I
J
Nq
pi
qi
pi qi
1
1
1
1
1
0
0
1
1
1
0
8
1
0
0
1
8
0
0
0
0
5
0
0
0
0
6
1
1
1
1
6
0
0
0
0
5
0
0
0
0
4
1
0
0
0
4
x t =67
x 2t =505
1
0
.8
.2
.8
.2
.5
.5
.6
.4
.6
.4
.5
.5
.4
.6
.4
.6
.6
.4
.3
.7
.2
.8
.
16
.
25
.
16
.
24
.
24
.
24
.
25
.
24
.
24
.
16
pt q i=2,39
.
21
Baris Np diisi dengan bilangan yang menyatakan banyaknya subyek yang menjwab
benar untuk setiap butir soal. Baris N q diis dengan bilanngan yang menyatakan banyaknya
subyek yang menjawab salah pada setiap butir soal. Baris p i diisi dengan bilangan yang
menyatakan proporsi atau rasio banyak subyek yang menjawab benar pada butir ke-i.
misalkan untuk butir soal nomor 2, banyak subyek yang menjawab benar sebanyak 8 orang.
Sedangkan seluruh subyek ada 10 orang. Jadi proporsi subyek yang menjawab benar untuk
butir no 2 adalah
p2=
N p2 8
= =0,8
N
10
Baris qi = 1- pi, jadi q2 = 1 0,8 = 0,2. Baris piqi diisi dengan bilangan hasil kali nilai pi dengan
qi, dan
pi qi
adalah jumlah hasil kali pi dengan qi

st2 5.61
st2
Karena nilai varians total (
) telah diperoleh pada uraian terdahulu, yaitu
maka kita bisa langsung menggunakan rumus KR-20, yaitu :
n
r11
n 1
st2 pi qi
st2
12 5.61 2.39
5.61
11
r11
r11 0.63
Jika dirujuk pada tolak ukur reliabilitas di atas tergolong tinggi.
Rumus KR-21 berbentuk
xt n xt
n
1
nst2
n 1
r11
Ket :
: banyak butir soal
xt
: rerata skor total
St2
: skor varians total

Menurut pengalaman empiric perhitungan koefisien reliabilitas dengan menggunakan
rumus KR-21 memberikan hasil yang kurang teliti jika dibandingkan dengan rumus KR-20.
Keuntungan penggunaan rumus KR-21 adalah kemudahan dalam membuat table persiapan
karena data nilai yang dibutuhkan hanyalah rerata dan varians skor total.
E. Mencari Koefisien Reliabilitas Tes Berbentuk Uraian
pada soal berbentuk subyektif, kita tidak bias memberikan skor benar 1 dan skor salah 0
(seperti pada tipe soal obyektif), karena penilaian tidak hanya diberikan pada hasil akhir
melainkan diakukan pula terhadap proses pengerjaannya. Pemberian skor tergantung dari
hasil pekerjaan siswa pada setiap langkah. Rumus yang digunakan untuk mencari koefisien
si2
n
r11
1 2
st
n 1
reliabilitas soal berbentuk uraian dikenal dengan rumus alpha, yaitu

Dengan
: banyak butir soal
si2
: jumlah varians skor tiap item

st2
:varians skor total
Contoh :
Hitunglah koefisien reliabilitas soal tes berbentuk uraian yang terdiri dari 5 item dan diikuti
oleh 6 siswa.
xt
Nomor Soal
Subyek
Skor total
1
10
10
8
7
9
5
2
10
8
5
3
8
5
3
20
15
10
12
18
10
4
25
18
12
10
20
15
5
35
25
18
10
20
30
100
76
53
42
75
65
49
39
85
100
138
411
419
287
1293
1818
3574
30199
si
1.77
2.36
3.85
5.02
8.16
18.46
si2
3.14
5.58
14.81
25.22
66.67
340.92
A
B
C
D
E
F
xi
2
i
Diketahui n=5
2
i
3.14 5.58 14.81 25.22 66.67 115.42
st2 340.92
Dimasukkan ke dalam rumus
n 1
r11
si2
st2
Diperoleh
115.42
5
r11 1
340.92
4
r11 0.83
Koefisien reliabilitas tersebut menyatakan bahwa soal yang dibuat reliabilitasnya tinggi
10
F. Faktor-Faktor yang Mempengaruhi Reliabilitas

Faktor-faktor yang dapat mempengaruhi reliabilitas alat evaluasi adalah :
a. Panjang Tes
Makin panjang tes (makin banyak butir soal), makin tinggi reliabilitasnya. Karena tes
yang mengandung banyak butir soal akan memuat cukup banyak kemampuan kognitif
siswa yang dapat diungkapkan.
b. Kondisi peserta tes
Suatu tes yang dicobakan pada kelompok testi yang beraneka ragam kemampuannya
akan menghasilkan skor yang heterogen sehingga varians skor yang diperoleh akan
besar. Hal ini mempengaruhi nilai koefisien reliabilitas sehingga menjadi lebih tinggi.
c. Kesukaran Tes
Materi tes yang terlalu mudah atau terlalu sulit cenderung akan merendahkan
reliabilitas karena skor yang diperoleh siswa untuk soal yang terlalu sulit atau terlalu
mudah berkelompok pada skor tinggi atau skor rendah, jadi sebaran skornya terbatas.
Dalam kondisi ini perbedaan individu kecil, sehingga varians skor yang diperoleh
kecil, sehingga koefisien reliabilitas rendah.
d. Pelaksanaan Tes
Hal ini berkaitan dengan petunjuk mengerjakan, suasana, dan faktor obyektivitas
dalam pemeriksaan hasil tes.
11

Reliabilitas Evaluasi Reliability of Eva

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Reliabilitas Evaluasi Reliability of Eva

Diunggah oleh

Hak Cipta:

Format Tersedia

A.

akan dihasilkan persamaan

B. Tes untuk Menentukan Reliabilitas

D. Pendekatan Tes Tunggal

Prinsip penggunaan Formula Spearman-Brown adalah dengan menghitung koefisien korelasi

Dengan n = banyak subyak,

, syarat yang harus dipenuhi dalam menggunakan rumus ini adalah

Butir soal pada kedua belahan harus setara.

Skor Nomor Ganjil (X1)

(10 ( 156 ) 36 ) (10 ( 109 )31 )

Skor Nomor Ganjil (X1)

(10 ( 197 )43 ) (10 ( 80 )24 )

r 11 =0, 656 004 866

Jadi koefisien reliabilitas seluh tes adalah

2(0,656 004 866)

Asumsi untuk penggunaan rumus Kuder-Richardson adalah :

Dengan n = banyak butir soal

adalah jumlah hasil kali pi dengan qi

Karena nilai varians total (

) telah diperoleh pada uraian terdahulu, yaitu

maka kita bisa langsung menggunakan rumus KR-20, yaitu :

: banyak butir soal

: skor varians total

reliabilitas soal berbentuk uraian dikenal dengan rumus alpha, yaitu

: banyak butir soal

: jumlah varians skor tiap item

:varians skor total

3.14 5.58 14.81 25.22 66.67 115.42

Dimasukkan ke dalam rumus

F. Faktor-Faktor yang Mempengaruhi Reliabilitas

Anda mungkin juga menyukai