Anda di halaman 1dari 13

166

Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes


Menurut Teori Tes Klasik
Suwarto
Program Studi Pendidikan Biologi -FKIP
Universitas Veteran Bangun Nusantara Sukoharjo
Jl. Sujono Humardani No. 1 Jombor Sukoharjo
Abstract. The theory of classic test is used to a long time ago, and dominated
standard in scientists and psychology. Mostly all the formula is used to count the
reliability and validity are developed based on the theory. This theory is
composed based on the assumptions. The characteristic of class ic test in cludes
level of difficulty number and number of different capacity test validity includes:
content validity criteria of relation validity, construction validity. Test reliability
includes; internal consistency, that is consisted reliability esti mation divided in
two (Spearman-Brown and Guttmann and reliability estimation based on variant
number (coeficiency reliability Kuder -Richardson neither KR-20 nor KR-21,
Alpha coeficiency rater consistency neither intra -rater realibility nor inter-rater
realibility), stability (test -retest realibility), and equivalency (realibility of
parallel form).
Keywords: teori tes klasik, karakteristik butir, validitas, reliabilitas.
Teori tes klasik ini telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan
asumsi-asumsi. Berikut ini asumsi -asumsi teori tes klasik disarikan dar i Allen
& Yen (1979).
Asumsi-asumsi Teori Tes Klasik
Asumsi utama teori ini adalah skor amatan seorang peserta tes adalah
jumlah dari skor sebenarnya dengan sekor kesalahannya. X = T + E; dimana: X
adalah skor amatan (nilai pretasi); T skor yang sebenarny a dan E skor
kesalahan. Skor kesalahan adalah melesetnya skor perolehan dari keadaan yang
sebenarnya dan terjadi secara rambang (Suryabrata, 1984).
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 167
Asumsi kedua dalam teori tes klasik adalah nilai rata -rata populasi dari
nilai amatan merupakan nilai indepe nden yang sama dengan skor sebenarnya
untuk setiap peserta tes pada tes yang sama. [E(X)=T] Maksudnya skor
sebenarnya itu merupakan nilai skor rata -rata perolehan teoritis sekiranya
dilakukan pengukuran secara berulang dengan mengunakan alat ukur yang
sama.
Asumsi ketiga; skor sebenarnya dan skor kesalahan yang dicapai dalam
suatu populasi pada suatu tes tidak berkorelasi. [ 0 =
ET
]. Asumsi ini
memberikan pengertian bahwa tidak ada korelasi antara skor sebenarnya
dengan skor kesalahan. Seorang peserta tes yang memiliki nilai sebenarnya
tinggi tidak musti memiliki skor kesalahan yang tinggi, demikian juga terhadap
peserta yang memiliki skor sebenarnya yang rendah belum tentu memiliki skor
kesalahan yang tinggi.
Tidak Asumsi keempat; korelasi antara skor kesalahan pada tes pertama
dan skor kesalahan pada tes kedua adalah nol; [ 0
2 1
=
E E
]. Artinya peserta tes
yang memiliki skor kesalahan yang tinggi pada tes pertama belum tentu
mendapat nilai skor kesalahan pada tes kedua. Hal ini memberikan pengertian
bahwa rentang pelaksanaan tes pertama dan kedua dapat dipengaruhi oleh
situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang mengukur atribut yang sama, skor
kesalahan pada tes pertama tidak berkorelasi dengan skor seb enarnya pada tes
kedua. Asumsi-asumsi ini (pertama sampai kelima) memberikan penafsiran
yang sangat sederhana tentang nilai hasil ujian. Sehingga karakteristik tes dan
bahkan peserta tes berdasarkan hasil ujian dalam kelornpok. Dan kesalahan
secara sistematik tidak dapat disebut sebagai kesalahan pengukuran (Allen &
Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama,
dimana menghasilkan skor perolehan X , dan skor sebenarnya T
1
dan T
2
, dan
varian skor
2
1
dan
2
2
, kedua perangkat ini dikatakan tes paralel jika T
1
= T
2
dan
2
1
=
2
2
dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test) jika pada setiap populasi peserta tes skor
perolehan dari tes pertama (X
1
) sama dengan skor perolehan tes kedua yang
ditambahkan dengan suatu konstanta (C), [ X
1
= X
2
+C
I2
].
Meskipun didasari oleh asumsi yang lengkap, namun para pengembang
tes menemukan kekurangan yang sangat mendasar dari teori ini. Keterbatasan
168 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
utama teori ini adalah karena karakteristik uji tes didasarkan pada kelompok uji
tes (sample bound). Ciri yang dikandung dalam sebuah tes, baik berkenaan
dengan tingkat kesukarannya, daya beda, maupun tingkat konsistensinya
disebut dengan karakteristik tes, didasarkan pada kelompok uji tes. Besar
kecilnya nilai kelompok berpengaruh pada nilai setiap individu, demikian juga
halnya dengan karakteristik butir yang dikandungnya.
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan
b, sering juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai
perbandingan antara jumlah jawaban benar dengan jumlah peserta tes. Atau
dapat dituliskan dalam bentuk rumus matematik:
_
=
N
B
p (1)
Keterangan: p = indek kesukaran soal
B= jumlah jawaban benar
N = jumlah peserta tes
(Catatan: lambang p akan digunakan dala m pembahasan ini).
Jadi taraf kesukaran butir ditentukan berdasarkan proporsi jawaban benar
dengan jumlah peserta tes, sehingga semakin banyak peserta yang menjawab
benar maka proporsi itu juga besar. Dan ini berarti butir semakin mudah.
Sebaliknya makin sedikit peserta uji tes yang menjawab dengan benar suatu
butir, maka makin sulit butir itu. Sehingga tingkat kesukaran ini biasa juga
disebut dengan tingkat kemudahan butir (Naga, 1992).
Nilai batasan tingkat kesukaran soal teletak antara 0 dan 1, karena
merupakan perbandingan antara jumlah jawaban benar dengan juml ah soal,
dapat dituliskan dalam bentuk matematika berikut ini:
1 0 s s p (2)
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal d isebut
indeks kesukaran (Arikunto, 1999). Batas -batas tingkat kesukaran ini dapat
dilihat dalam tabel berikut ini (Hayat, 1997):
Tabel 1. Skala Tingkat Kesukaran Butir
Indek kesukaran (b) Kategori soal
p > 0,70 Mudah
0,30 < p < 0,70 Sedang
p < 0,30 Sukar
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 169
Penyusun soal dapat mempertimbangkan besarnya perbandingan soal
ujian pada tiga tingkatan nilai b tersebut. Misalnya dapat menentukan 10
persen untuk soal sukar, 60 persen untuk soal sedang, dan 30 persen soal ujian
yang mudah. Atau dapat pula menentukan perbandingan tingkat kesukaran soal
dengan menyamakan jumlah soal yang sukar dan mudah. Soal -soal yang terlalu
sukar atau terlalu mudah bukan berarti tidak akan digunakan. Penentuan
jumlah perbandingan soal mudah, sedang dan sukar dapat didasarkan pada
prakiraan kemampuan peserta tes, atau didasarkan pada tingkat kemampuan
yang akan diterima (Arikunto, 1999). Oleh Allen & Yen (1979) soal ujian
harus memiliki 10 persen soal yang sulit untuk tes seleksi pada perguruan
tinggi.
Karakteristik daya beda (a=daya pembeda) butir, didefinisikan sebagai
kemampuan butir untuk membedakan antara kelompok yang pintar dan
kelompok yang bodoh. Pengertian yang lain adalah kesesuaian soal itu dengan
keseluruhan tes (kumpulan soal) dalam membedakan antara mereka yang
tinggi kemampuannya dan mereka yang rendah kemampuannya dalam hal -hal
yang diukur oleh tes yang bersangku tan (Suryabrata, 1984; Sudijono, 2001).
Jika dalam suatu kelompok peserta uji tes dibagi pada dua kelompok,
kelompok X dan Y maka daya beda soal adalah kemampuan soal itu
membedakan antara kelompok X dan Y. Bentuk formula yang dapat digunakan
untuk menghitung indek daya pembeda adalah: (Allen & Yen, 1979):
i
i
x
i
bis
q
p
s
X X
r

= (3)
Keterangan: r
bis
= koefisien biserial
X
i
= rata-rata sekor pada butir ke-i
X = rata-rata sekor total
s
x
= standar deviasi sekor total
p
i
= probabilitas jawaban benar
q
i
= probabiltas jawaban salah (1 - p
i
)
Batasan nilai daya pembeda butir terbentang d ari -1 sampai +1.
Nilai negatif menunjukkan kalau butir tersebut tidak berfungsi dengan baik.
Nilai positif berarti butir tersebut dapat membedakan antara peserta tes yang
memiliki kemampuan rendah dengan peserta yang memiliki kemampuan
tinggi. Nilai negatif menandakan kemampuan peserta tes memiliki korelasi
negatif dengan hasil pekerjaannya. Berarti soal belum mampu memberikan
170 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
dukungan untuk membedakan peserta yang memiliki kemampuan yang rendah
dan tinggi.
Rentang korelasi skor buti r dengan skor peserta, yang baik adalah antara
0,40-0,70, sedangkan yang memiliki <0,2 harus dibu ang, dan yang memiliki
daya pembeda > 0,70 disebut sangat baik (Sudijono, 2001). Nilai negatif berarti
daya bedanya tidak berfungsi. Lebih lengkap disajikan pada tebel 2.
Tabel 2. Interval daya pembeda butir (a)
Interval a Klasifikasi Interpretasi
a < 0,20 Jelek Daya pembeda jelek
0,20 < a < 0,40 Memuaskan Memiliki daya pembeda yang cukup
0,41 < a < 0,70 Baik Memiliki daya pembeda yang baik
0,71 < a < 1,00 Sangat baik Memiliki daya pembeda yang sangat baik
Pada dasarnya batasan nilai a pada tabel 2 menunjukkan batasan yang
cukup baik setelah dilakukan perbaikan pada batas -batas intervalnya. kedua
batas kiri dan batas kanan dari setiap kelas interval tidak saling terkait satu
dengan yang lain. Dengan kata lain, batas interval indeks daya pembeda jelas.
Batasan lain dibedkan oleh Naga (1992), yang disajikan pada tabel 3.
Perbedaan keduanya terletak pada batas -batas interval dengan kriteria dari
masing-masing batas interval tersebut.
Tabel 3. Interval nilai daya pembeda (a)
Interval Interpretasi
a > 0,40 Cukup memuaskan
0,30 < a < 0,39 Sedikit atau tanpa revisi
0,20 < a < 0,29 Perbatasan atau perlu revisi
a < 0,19 Dibuang atau direvisi total
Jadi, parameter-parameter item seperti indeks kesukaran dan indeks
diskriminasi marupakan karakteriskik yang bergantung pada kelompok Sampel
yang digunakan untuk menghitungnya (Azwar, 1999; Suryabrata, 1984). Jika
kelompok uji tes itu memiliki kemampuan yang tinggi maka indeks kesukaran
butir tes akan rendah. Namun sebaliknya, jika kelompok uji tes itu memiliki
kemampuan yang rendah, maka indeks kesukaran butir tes akan tinggi.
Demikian juga pada karakteristik butir tes lain. Sehingga nilai karakteristik
soal akan dipengaruhi oleh tingkat kemampuan satu kelompok peserta tes.
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 171
Validitas Tes
Menurut Bachman (1990) , syarat paling penting yang harus
dipertimbangkan dalam pengembangan, penginterpretasian, dan penggunaan
suatu tes adalah validitas yang dapat dia rtikan sebagai konsep terpadu yang
terkait dengan kelayakan dan ketepatan metode yang kita gunakan untuk
menginterpretasikan dan menggunakan skor tes. Validitas suatu tes
ditampilkan pada kesesuaian antara dua upaya untuk mengukur trait yang sama
melalui metode yang berbeda.
Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas
bila tes tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai
dengan berbagai cara, tergantung pada tes dan maksud penggunaannya. Ada
tiga tipe utama validitas yang meliputi validitas isi ( content validity), validitas
yang terkait dengan kriteria ( criterion-related validity), dan validitas konstruk
(contruct validity). Hal ini sejalan dengan apa yang dikemukakan oleh
Kerlinger (1973) bahwa ada tiga tipe utama validitas yaitu validitas isi ,
validitas relasi-kriteria, dan validitas konstruk.
Validitas isi atau muatan adalah kerepresentatifan yang terdapat dalam
muatan suatu instrumen pengukur. Validitas isi dinilai melalui analisis rasional
mengenai isi suatu tes dan penentuannya didasarkan pada penilaian ( judgment)
individual yang subjektif. Ada dua jenis utama validitas isi: validitas tampilan
(face validity) dan validitas logis (logical validity). Suatu tes dikatakan
memiliki validitas tampilan apabila ol eh penilaianya dinyatakan bahwa tes
tersebut mengukur trait yang relevan. Sementara itu, validitas logis adalah
versi yang lebih rumit dari validitas tampilan. Validitas logis melibatkan
definisi yang cermat mengenai ranah perilaku yang harus diukur oleh s uatu tes
dan desain logis dari butir -butir untuk mencakup seluruh aspek penting dari
ranah ini. Validitas logis terutama penting bagi pengembang tes prestasi.
Oleh karena validitas isi didasarkan pada penilaian yang subjektif,
penentuan tipe validitas ini memiliki peluang terjadinya kekeliruan yang lebih
besar dibandingkan dengan tipe -tipe validitas yang lain. Tetapi, umumnya,
menentukan validitas isi merupakan hal yang paling utama dalam
pengembangan seluruh jenis tes dan butir -butir ditulis untuk memenuhi
persyaratan validitas isi. Melalui teknik analisis butir statistik, suatu tes dapat
direvisi dan diperbaiki untuk menjamin bahwa aspek -aspek pengukuran lain
yang baik terpenuhi.
Validitas Relasi-Kriteria digunakan bila skor-skor tes dapat dihubungkan
untuk kepentingan prediksi. Dengan demikian validitas relasi -kriteria dikaji
172 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
dengan cara membandingkan skor tes atau skala dengan satu atau lebih
variabel ekstra (variabel eksternal) atau kriteria yang diketahui (atau diyakini)
merupakan pengukur atribut yang sedang dikaji. Biasanya validitas relasi -
kriteria ditampilkan sebagai koefisien korelasi, yaitu korelasi antara skor tes
(prediktor) dan skor kriteria. Korelasi ini disimbulkan sebagai
xy
, dimana x
merupakan skor tes dan y skor keiteri a. Koefisien validitas,
xy
, diestimasi
dengan salah satu diantara dua cara yang menghasilkan estimasi validitas
prediksi ataupun validitas konkuren.
Validitas prediktif melibatkan penggunaan skor tes untuk mempre-
diksikan perilaku dimasa mendatang. Koefisien validitas prediktif diperoleh
dengan memberikan tes kepada seluruh orang yang rele van, menunggu
beberapa saat, mengumpulkan skor kriteria, dan mengkal kulasi koefisien
validitasnya. Bila tes digunakan untuk memprediksikan perilaku pa da masa
mendatang, validitas pr ediktif harus ditentukan. Alter natif lainnya adalah
menggunakan koefisien validitas konkuren. Koefisien validitas konkuren
merupakan korelasi antara skor tes dan skor kriteria jika kedua pengukuran
dilaksanakan pada waktu yang bersamaan. Tetapi hal ini menyebabkan
validitas konkuren cenderung menghasilkan estimasi yang kurang tepat bagi
koefisiek validitas prediktif.
Validitas konstruk merupakan bentuk pengembangan validitas yang
terbaru dibandingkan dengan tipe-tipe validitas yang lain. Validitas konstruk
suatu tes adalah sejauh mana suatu tes mengukur konstruk teoretis atau trait
yang didesain untuk diukur. Validitas konstruk ini merupakan kemajuan ilmiah
yang penting dalam teori dan praktek pengukuran karena menghubungkan
gagasan dan praktek psikometrik disatu pihak, dengan gagasan teoretis dipihak
lain. Para pakar dibidang pengukuran, ketika menelaah vali ditas konstruk suatu
tes, biasanya ingin mengetahui suatu sifat (atau sifat -sifat) psikologis atau
lainnya yang dapat menjelaskan varian tes itu.
Hal ini sangat penting dalam validitas konstruk yang membedakannya
dengan tipe-tipe validitas yang lain adalah perhatian yang terutama dicurahkan
pada teori, konstruk, teoris, dan telaah empiris ilmiah yang meliputi pengujian
relasi yang dihipotesiskan. Dengan berdasarkan teori terbaru mengenai trait
yang sedang diukur, pengembang tes membuat prediksi me ngenai bagaimana
skor tes harus menunj ukkan apa yang diukur dalam ber bagai situasi. Walaupun
pengujian validitas konstruk biasanya memerlukan teknik analisis statistika
yang lebih kompleks dari pada teknik -teknik yang dipakai pada pengujian
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 173
validitas empirik lainnya, akan tetapi hasil esti masi validitas konstruk tidak
dinyatakan dalam bentuk koefisien validitas.
Magnusson (1967) menyatakan bahwa dukungan terhadap adanya
validitas konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi
mengenai perbedaan diantara kelompok -kelompok yang menurut teori harus
berbeda, (2) studi mengenai pengaruh perubahan yang terjadi dalam dir i
individu dan lingkungannya terhadap hasil tes, (3) studi mengenai korelasi
diantara berbagai variabel yang menurut teori mengukur aspek yang sama, dan
(4) studi mengenai korelasi antar butir atau antar belahan tes. Sejalan dengan
hal itu, Kerlinger (1973) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah
ukuran yang tidak begitu banyak, yang disebut faktor-faktor, dengan
menyingkapkan faktor-faktor mana saja yang setujuan (yang ukuranny a
mengukur hal yang sama) serta relasi antar kelompok -kelompok ukuran yang
setujuan itu, merupakan metode yang kuat dan sangat perlu untuk validasi
konstruk. Jadi akan sangat t epat bila seorang peneliti melakukan analisis faktor
bila ingin mengetahui validitas konstruk butir-butir soal dalam suatu perangkat
tes.
Reliabilitas
Reliabilitas dapat didefinisikan dalam berbagai cara, seperti proporsi
varian skor yang diperoleh terhadap varia n skor sebenarnya, korelasi kua drat
antara skor sebenarnya dengan skor ya ng diperoleh, atau korelasi antar skor
yang diperoleh pada dua tes paralel (Allen & Yen, 1979).
Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaian antara
dua upaya yang dilakukan untuk mengukur trait yang sama melalui metode
yang sangat serupa. Ada tiga pendekatan untuk mengestimasi reliabilitas suatu
tes meliputi: (1) estimasi konsist ensi internal, (2) estimasi stabilitas, dan (3)
estimasi ekuivalensi. Estimasi konsistensi internal sangat berkait dengan
sources of error di dalam prosedur tes dan skoring, estimasi stabilitas
menunjukkan konsistensi skor tes dari waktu ke waktu, sedangkan estimasi
ekuivalensi menunjukkan sejauh mana skor pada berbagai bentuk dari suatu tes
ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan tersebut
disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi per -
formasi peserta tes pada berbagai bagian tes. Konsistensi internal meliputi:
a. Estimasi Reliabilitas Belah-dua (Split-half Reliability)
174 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
Untuk mengestimasi reliabilitas dengan metode ini kita harus membelah tes
menjadi dua dan menentukan sejauh mana skor pada dua belahan ini konsisten
satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang ber arti bahwa rerata dan varian
kedua tes tersebut sama. Di samping itu harus diasumsikan pula bahwa kedua
tes tersebut independen satu sama lain dalam artian bahwa performasi
seseorang pada satu belahan tidak mempengaruhi performasinya pada belahan
yang lain. Estimasi dengan cara ini meliputi:
1. Estimasi Belah-Dua Spearman-Brown
Koefisien reliabilitas pada estimasi belah -dua Spearman-Brown dapat
diperoleh melalui formula:
'
'
'
1
2
hh
hh
xx
r
r
r
+
= (4)
Keterangan:
'
hh
r merupakan korelasi yang diperoleh antara dua belahan tes.
2. Estimasi Belah-Dua Guttman
Koefisien korelasi belah-dua pada metode ini didasarkan pada rasio jumlah
total varian pada kedua tes terhadap varian tes secara keseluruhan:
|
|

'
+
=
x
xx
s
h s h s
r
2
2
2
1
2
1 2
'
(5)
Keterangan:
1
2
h s , dan
2
2
h s merupakan varian pada kedua tes.
b. Estimasi Reliabilitas Berdasarkan Varian Butir
Koefisien reliabilitas pada metode ini diperoleh melalui beberapa cara yaitu:
1. Koefisien Reliabilitas Kuder -Richardson
Koefisien reliabilitas Kuder -Richardson diperoleh melalui rumus KR-20 dan
KR-21. Rumus KR-20 adalah:
|
|

'

=
_
x
xx
s
pq
k
k
r
2
1
1
'
(6)
Keterangan: k adalah jumlah butir tes,
_
pq adalah jumlah varian butir, dan
x s
2
, adalah varian skor tes total. Sementara itu rumus KR21 adalah:
, ,
, , x
x
xx
s k
x k x ks
r
2
2
1
'


= (7)
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 175
2. Koefisien Alpha
Cronbach (1951) mengembangkan suat u rumus unt uk mengest i masi
konsistensi internal yang disebutnya sebagai koefisien Alpha atau yang
dikenal sebagai Cronbachs Alpha:
|
|

'

=
_
x
i
s
s
k
k
2
2
1
1
(8)
Keterangan: k adalah jumlah butir tes,
_
i s
2
adalah nilai varian pada berbagai
bagian tes yang berbeda, dan x s
2
, adalah varian skor tes total.
3. Konsistensi Rater
Ada dua macam konsistensi rater yaitu intra-rater reliability dan inter-rater
reliability.
a. Intra-rater Reliability
Reliabilitas pada metode ini melaui penilaian oleh seorang penilai .
Untuk mencari reliabilitas nilai yang diberikan oleh seorang rater, kita harus
memperoleh setidaknya dua penilaian yang independen oleh rater tersebut
untuk masing-masing sampel yang dinilai. Ini diperoleh dengan menilai sampel
satu kali dan kemudian menilainya kembali pada waktu yang berbeda. Setelah
nilai diperoleh maka reliabilitasnya dapat diperoleh melalui dua cara. Cara
yang pertama adalah: dengan memperlakukan dua set hasil penilaian tersebut
sebagai skor dari dua tes par alel dan menghitung korelasi keduannya,
selanjutnya hasil ini diinterpretasikan sebagai estimasi reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing -
masing nilai dengan rumus:
|
|

'

=
+ 2 1
2
2
2
1
2
1
1 r r s
r s r s
k
k
(9)
Keterangan: 1
2
r s dan 2
2
r s adalah varian dari masing-masing penilai dan
2 1
2
r r s + adalah varian dari dua penilai yang dijumlahkan.
b. Inter-rater Reliability
Untuk mencari koefisien inter-rater, pada dasarnya kita dapat menggunakan
pendekatan yang sama seperti pada konsistensi intra-rater. Kita dapat
menghitung korelasi antar dua rater yang berbeda dan menginterpretasikannya
sebagai estimasi reliabilitas. Jika lebih dari dua rater yang terlibat maka cara
yang digunakan adalah cara yang direkomendasikan oleh Ebel (1979) yaitu
menjumlah hasil penilaian oleh rater yang berbeda dan kemudian
176 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
mengestimasi reliabilitas jumlah rating tersebut dengan menghitung koefisien
Alpha dimana k adalah jumlah rater, i s
2
adalah varian hasil penilaian oleh
seorang rater, dan
_
i s
2
adalah jumlah toal varian hasil penilaian oleh masing-
masing rater, dan x s
2
adalah varian dari hasil penilaian yang dijumlahkan.
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes
memberikan suatu tes dua kali pada sekelompok individu dan kemudian
menghitung koreasi antara dua perangkat skor. Korelasi ini dapat
diinterpretasikan sebagai indikasi sejauh mana stabilitas s kor dari waktu ke
waktu. Hal yang diutamakan pada pendekatan ini adalah memastikan bahwa
peserta tes tidak berubah begitu saja secara sistematis diantara kedua tes.
Dalam hal ini pemberi tes harus dapat memastikan bahwa baik practice-effect
maupun learning-effect setara antara individu maupun random. Untuk itu
pemberi tes harus dapat mencari tenggang waktu yang tepat untuk semaksimal
mungkin mengurangi practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguaka n
untuk mengestimasi reliabilitas suatu tes dengan mencari ekuivalensi skor yang
diperoleh dari berbagai bentuk tes yang berbeda. Sama halnya dengan
pendekatan test-retest, metode inimerupakan sarana yang tepat untuk menges -
timasi reliabilitasb tes bila es timasi dengan konsistensi inter nal tdak tepat atau
tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin
memberikan suatu tes kepada seluruh p eserta es pada waktu yang bersamaan,
dan ia tidak ingin peserta tes yang pertama membocorkan informasi mengenai
tes tersebut kepada peserta tes kedua. Pada situasi yang lain seorang pemberi
tes mungkin ingin mengukur kemampuan bahasa seseorang berulangkali se-
lama waktu tertentu dan ingin memastikan bahwa perubahan pada performansi
yang terjadi bukan disebabkan oleh practice-effect sehingga ia menggunakan
berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes harus dapat me -
mastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen, khusus -
nya dalam hal tingkat kesul itan dan deviasi standarnya.
PENUTUP
Teori tes klasik telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik 177
asumsi-asumsi. Asumsi utama teori ini adalah skor amatan seorang peserta tes
adalah jumlah dari skor sebenarnya dengan skor kesalahannya. Asumsi kedua
dalam teori tes klasik adalah nilai rata -rata populasi dari nilai amatan
merupakan nilai independen yang sama dengan skor sebenarnya untuk setiap
peserta tes pada tes yang sama. Asumsi ketiga; skor sebenarnya dan skor
kesalahan yang dicapai dalam suatu populasi pada suatu tes tidak berkorelasi.
Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol. Asumsi kelima; pada tes yang mengukur
atribut yang sama, skor kesalahan pada tes pertama tidak berkorelasi dengan
skor sebenarnya pada tes kedua. Asumsi keenam; dua p erangkat dikatakan tes
paralel jika T
1
= T
2
dan
2
1
=
2
2
dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test).
Karakteristik tes klasik mel iputi tingkat kesulitan butir dan daya beda
butir. Validitas tes meliputi: validitas isi, validitas relasi -kriteria, validitas
konstruk. Reliabilitas tes meliputi: konsistensi internal yang terdiri dari
estimasi reliabilitas belah-dua (Sperman-Brown maupun Guttman) dan
estimasi reliabilitas berdasarkan varian butir (koefisien reliabilitas Kuder -
Richardson baik KR-20 maupun KR-21, koefisien Alpha, konsistensi rater
baik intra-rater reliability maupun inter-rater reliability), stabilitas (test-retest
reliability), dan ekuivalensi (reliabilitas bentuk paralel).
DAFTAR RUJUKAN
Allen, M. J. & Yen, W. M. 1979. Introduction to Measurement Theory.
Monterey: Books/Cole Publishing Company.
Azwar, S. 1999. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.
Bachman, L. F. 1990. Fundamental Considerations in Language Testing .
Oxford: Oxford University Press.
Ebel, R. L. 1979. Essential of Educational Measurements. London: Prentice-
Hall Inc, Englewood Cliffs.
Hayat, B. 1997. Manual Item and Test Analysis (Iteman): Pedoman
Penggunaan Iteman. Jakarta: Depdibud Balitbang Publitbang Sisjan.
Kerlinger, F. N. 1973. Foundations of Behaioral Research. New York: New
York University Press.
Naga, D. S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.
Jakarta: Gunadarma.
178 JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007
Suryabrata, S. 1984. Psikologi Pendidikan. Jakarta: CV Rajawali.