Anda di halaman 1dari 14

Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes

Menurut Teori Tes Klasik


Suwarto
Program Studi Pendidikan Biologi-FKIP
Universitas Veteran Bangun Nusantara
Sukoharjo Jl. Sujono Humardani No. 1 Jombor
Sukoharjo
Abstract. The theory of classic test is used to a long time ago, and dominated
standard in scientists and psychology. Mostly all the formula is used to count the
reliability and validity are developed based on the theory. This theory is
composed based on the assumptions. The characteristic of class ic test in cludes
level of difficulty number and number of different capacity test validity includes:
content validity criteria of relation validity, construction validity. Test reliability
includes; internal consistency, that is consisted reliability esti mation divided in
two (Spearman-Brown and Guttmann and reliability estimation based on variant
number (coeficiency reliability Kuder -Richardson neither KR-20 nor KR-21,
Alpha coeficiency rater consistency neither intra -rater realibility nor inter-rater
realibility), stability (test-retest realibility), and equivalency (realibility of
parallel form).
Keywords: teori tes klasik, karakteristik butir, validitas, reliabilitas.

Teori tes klasik ini telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan asumsiasumsi. Berikut ini asumsi-asumsi teori tes klasik disarikan dar i Allen
& Yen (1979).
Asumsi-asumsi Teori Tes Klasik
Asumsi utama teori ini adalah skor amatan seorang peserta tes adalah
jumlah dari skor sebenarnya dengan sekor kesalahannya. X = T + E; dimana: X
adalah skor amatan (nilai pretasi); T skor yang sebenarny a dan E skor
kesalahan. Skor kesalahan adalah melesetnya skor perolehan dari keadaan yang
sebenarnya dan terjadi secara rambang (Suryabrata, 1984).

166

JURNAL PENDIDIKAN, JILID 16, NOMOR 2,JULI 2007

Asumsi kedua dalam teori tes klasik adalah nilai rata -rata populasi dari
nilai amatan merupakan nilai indepe nden yang sama dengan skor sebenarnya
untuk setiap peserta tes pada tes yang sama. [E(X)=T] Maksudnya skor
sebenarnya itu merupakan nilai skor rata -rata perolehan teoritis sekiranya
dilakukan pengukuran secara berulang dengan mengunakan alat ukur yang
sama.
Asumsi ketiga; skor sebenarnya dan skor kesalahan yang dicapai dalam
suatu populasi pada suatu tes tidak berkorelasi. [ 0 ]. Asumsi ini
ET

memberikan pengertian bahwa tidak ada korelasi antara skor sebenarnya


dengan skor kesalahan. Seorang peserta tes yang memiliki nilai sebenarnya
tinggi tidak musti memiliki skor kesalahan yang tinggi, demikian juga
terhadap peserta yang memiliki skor sebenarnya yang rendah belum tentu
memiliki skor kesalahan yang tinggi.
Tidak Asumsi keempat; korelasi antara skor kesalahan pada tes pertama
dan skor kesalahan pada tes kedua adalah nol; [ E 0 ]. Artinya peserta tes
1 2

yang memiliki skor kesalahan yang tinggi pada tes pertama belum tentu
mendapat nilai skor kesalahan pada tes kedua. Hal ini m emberikan pengertian
bahwa rentang pelaksanaan tes pertama dan kedua dapat dipengaruhi oleh
situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang mengukur atribut yang sama, skor
kesalahan pada tes pertama tidak berkorelasi dengan skor seb enarnya pada tes
kedua. Asumsi-asumsi ini (pertama sampai kelima) memberikan penafsiran
yang sangat sederhana tentang nilai hasil ujian. Sehingga karakteristik tes dan
bahkan peserta tes berdasarkan hasil ujian dalam kelornpok. Dan kesalahan
secara sistematik tidak dapat disebut sebagai kesalahan pengukuran (Allen &
Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama,
dimana menghasilkan skor perolehan X , dan skor sebenarnya T 1 dan T2, dan
2
2
varian skor 1 dan 2, kedua perangkat ini dikatakan tes paralel jika T 1= T2
2
2
dan 1= 2 dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test) jika pada setiap populasi peserta tes skor
perolehan dari tes pertama (X 1) sama dengan skor perolehan tes kedua
yang ditambahkan dengan suatu konstanta (C), [ X 1 = X2+CI2 ].
Meskipun didasari oleh asumsi yang lengkap, namun para pengembang
tes menemukan kekurangan yang sangat mendasar dari teori ini. Keterbatasan

utama teori ini adalah karena karakteristik uji tes didasarkan pada kelompok
uji tes (sample bound). Ciri yang dikandung dalam sebuah tes, baik
berkenaan dengan tingkat kesukarannya, daya beda, maupun tingkat
konsistensinya disebut dengan karakteristik tes, didasarkan pada kelompok uji
tes. Besar kecilnya nilai kelompok berpengaruh pada nilai setiap individu,
demikian juga halnya dengan karakteristik butir yang dikandungnya.
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan
b, sering juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai
perbandingan antara jumlah jawaban benar dengan jumlah peserta tes. Atau
dapat dituliskan dalam bentuk rumus matematik:
p B

(1)

Keterangan: p = indek kesukaran soal


B= jumlah jawaban benar
N = jumlah peserta tes
(Catatan: lambang p akan digunakan dala m pembahasan
ini).
Jadi taraf kesukaran butir ditentukan berdasarkan proporsi jawaban benar
dengan jumlah peserta tes, sehingga semakin banyak peserta yang menjawab
benar maka proporsi itu juga besar. Dan ini berarti butir semakin mudah.
Sebaliknya makin sedikit peserta uji tes yang menjawab dengan benar suatu
butir, maka makin sulit butir itu. Sehingga tingkat kesukaran ini biasa juga
disebut dengan tingkat kemudahan butir (Naga, 1992).
Nilai batasan tingkat kesukaran soal teletak antara 0 dan 1, karena
merupakan perbandingan antara jumlah jawaban benar dengan juml ah soal,
dapat dituliskan dalam bentuk matematika berikut ini:
0 p 1
(2)
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal d isebut
indeks kesukaran (Arikunto, 1999). Batas -batas tingkat kesukaran ini dapat
dilihat dalam tabel berikut ini (Hayat, 1997):

Tabel 1. Skala Tingkat Kesukaran Butir


Indek kesukaran (b)
p > 0,70
0,30 < p < 0,70
p < 0,30

Kategori soal
Mudah
Sedang
Sukar

Penyusun soal dapat mempertimbangkan besarnya perbandingan soal


ujian pada tiga tingkatan nilai b tersebut. Misalnya dapat menentukan 10
persen untuk soal sukar, 60 persen untuk soal sedang, dan 30 persen soal ujian
yang mudah. Atau dapat pula menentukan perbandingan tingkat kesukaran soal
dengan menyamakan jumlah soal yang sukar dan mudah. Soal -soal yang
terlalu sukar atau terlalu mudah bukan berarti tidak akan digunakan.
Penentuan jumlah perbandingan soal mudah, sedang dan sukar dapat
didasarkan pada prakiraan kemampuan peserta tes, atau didasarkan pada
tingkat kemampuan yang akan diterima (Arikunto, 1999). Oleh Allen &
Yen (1979) soal ujian harus memiliki 10 persen soal yang sulit untuk tes
seleksi pada perguruan tinggi.
Karakteristik daya beda (a=daya pembeda) butir, didefinisikan sebagai
kemampuan butir untuk membedakan antara kelompok yang pintar dan
kelompok yang bodoh. Pengertian yang lain adalah kesesuaian soal itu dengan
keseluruhan tes (kumpulan soal) dalam membedakan antara mereka yang
tinggi kemampuannya dan mereka yang rendah kemampuannya dalam hal -hal
yang diukur oleh tes yang bersangku tan (Suryabrata, 1984; Sudijono, 2001).
Jika dalam suatu kelompok peserta uji tes dibagi pada dua kelompok,
kelompok X dan Y maka daya beda soal adalah kemampuan soal itu
membedakan antara kelompok X dan Y. Bentuk formula yang dapat digunakan
untuk menghitung indek daya pembeda adalah: (Allen & Yen, 1979):

rbis X i X p i
sx
qi
Keterangan:

(3)

rbis = koefisien biserial


Xi = rata-rata sekor pada butir ke-i
X = rata-rata sekor total
sx = standar deviasi sekor total
pi = probabilitas jawaban
benar
qi = probabiltas jawaban salah (1 - pi)

Batasan nilai daya pembeda butir terbentang d ari -1 sampai +1.


Nilai negatif menunjukkan kalau butir tersebut tidak berfungsi dengan baik.
Nilai positif berarti butir tersebut dapat membedakan antara peserta tes yang
memiliki kemampuan rendah dengan peserta yang memiliki kemampuan
tinggi. Nilai negatif menandakan kemampuan peserta tes memiliki korelasi
negatif dengan hasil pekerjaannya. Berarti soal belum mampu memberikan

Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik

dukungan untuk membedakan peserta yang memiliki kemampuan yang rendah


dan tinggi.
Rentang korelasi skor butir dengan skor peserta, yang baik adalah
antara 0,40-0,70, sedangkan yang memiliki <0,2 harus dibu ang, dan yang
memiliki daya pembeda > 0,70 disebut sangat baik (Sudijono, 2001). Nilai
negatif berarti daya bedanya tidak berfungsi. Lebih lengkap disajikan pada
tebel 2.

Tabel 2. Interval daya pembeda butir (a)


Interval a
a < 0,20
0,20 < a < 0,40
0,41 < a < 0,70
0,71 < a < 1,00

Klasifikasi
Jelek
Memuaskan
Baik
Sangat baik

Interpretasi
Daya pembeda jelek
Memiliki daya pembeda yang
cukup
Memiliki daya pembeda yang baik

Pada dasarnya batasan nilai a pada tabel 2 menunjukkan batasan yang


cukup baik setelah dilakukan perbaikan pada batas -batas intervalnya. kedua
batas kiri dan batas kanan dari setiap kelas interval tidak saling terkait satu
dengan yang lain. Dengan kata lain, batas interval indeks daya pembeda jelas.
Batasan lain dibedkan oleh Naga (1992), yang disajikan pada tabel 3.
Perbedaan keduanya terletak pada batas -batas interval dengan kriteria dari
masing-masing batas interval tersebut.

Tabel 3. Interval nilai daya pembeda (a)


Interval
a > 0,40
0,30 < a < 0,39
revisi
0,20 < a < 0,29
a < 0,19

Interpretasi
Cukup memuaskan
Sedikit atau tanpa
Perbatasan atau perlu revisi
Dibuang atau direvisi total

Jadi, parameter-parameter item seperti indeks kesukaran dan indeks


diskriminasi marupakan karakteriskik yang bergantung pada kelompok Sampel
yang digunakan untuk menghitungnya (Azwar, 1999; Suryabrata, 1984). Jika
kelompok uji tes itu memiliki kemampuan yang tinggi maka indeks kesukaran
butir tes akan rendah. Namun sebaliknya, jika kelompok uji tes itu memiliki
kemampuan yang rendah, maka indeks kesukaran butir tes akan tinggi.
Demikian juga pada karakteristik butir tes lain. Sehingga nilai karakteristik
soal akan dipengaruhi oleh tingkat kemampuan satu kelompok peserta tes.

Validitas Tes
Menurut Bachman (1990), syarat paling penting yang harus
dipertimbangkan dalam pengembangan, penginterpretasian, dan penggunaan
suatu tes adalah validitas yang dapat dia rtikan sebagai konsep terpadu yang
terkait dengan kelayakan dan ketepatan metode yang kita gunakan untuk
menginterpretasikan dan menggunakan skor tes. Validitas suatu
tes
ditampilkan pada kesesuaian antara dua upaya untuk mengukur trait yang sama
melalui metode yang berbeda.
Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas
bila tes tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai
dengan berbagai cara, tergantung pada tes dan maksud penggunaannya. Ada
tiga tipe utama validitas yang meliputi validitas isi ( content validity), validitas
yang terkait dengan kriteria ( criterion-related validity), dan validitas konstruk
(contruct validity). Hal ini sejalan dengan apa yang dikemukakan oleh
Kerlinger (1973) bahwa ada tiga tipe utama validitas yaitu validitas isi ,
validitas relasi-kriteria, dan validitas konstruk.
Validitas isi atau muatan adalah kerepresentatifan yang terdapat dalam
muatan suatu instrumen pengukur. Validitas isi dinilai melalui analisis rasional
mengenai isi suatu tes dan penentuannya didasarkan pada penilaian ( judgment)
individual yang subjektif. Ada dua jenis utama validitas isi: validitas tampilan
(face validity) dan validitas logis (logical validity). Suatu tes dikatakan
memiliki validitas tampilan apabila ol eh penilaianya dinyatakan bahwa tes
tersebut mengukur trait yang relevan. Sementara itu, validitas logis adalah
versi yang lebih rumit dari validitas tampilan. Validitas logis melibatkan
definisi yang cermat mengenai ranah perilaku yang harus diukur oleh s uatu tes
dan desain logis dari butir-butir untuk mencakup seluruh aspek penting dari
ranah ini. Validitas logis terutama penting bagi pengembang tes prestasi.
Oleh karena validitas isi didasarkan pada penilaian yang subjektif,
penentuan tipe validitas ini memiliki peluang terjadinya kekeliruan yang lebih
besar dibandingkan dengan tipe -tipe validitas yang lain. Tetapi, umumnya,
menentukan validitas isi merupakan hal yang paling utama dalam
pengembangan seluruh jenis tes dan butir -butir ditulis untuk memenuhi
persyaratan validitas isi. Melalui teknik analisis butir statistik, suatu tes dapat
direvisi dan diperbaiki untuk menjamin bahwa aspek -aspek pengukuran lain
yang baik terpenuhi.
Validitas Relasi-Kriteria digunakan bila skor-skor tes dapat dihubungkan
untuk kepentingan prediksi. Dengan demikian validitas relasi -kriteria dikaji

dengan cara membandingkan skor tes atau skala dengan satu atau lebih
variabel ekstra (variabel eksternal) atau kriteria yang diketahui (atau diyakini)
merupakan pengukur atribut yang sedang dikaji. Biasanya validitas relasi kriteria ditampilkan sebagai koefisien korelasi, yaitu korelasi antara skor tes
(prediktor) dan skor kriteria. Korelasi ini disimbulkan sebagaixy ,
dimana x merupakan skor tes dan y skor keiteri a. Koefisien
validitasxy , diestimasi

xy , dimana x
xy , diestimasi

,
dengan salah satu diantara dua cara yang menghasilkan estimasi validitas
prediksi ataupun validitas konkuren.
Validitas prediktif melibatkan penggunaan skor tes untuk memprediksikan perilaku dimasa mendatang. Koefisien validitas prediktif diperoleh
dengan memberikan tes kepada seluruh orang yang rele van, menunggu
beberapa saat, mengumpulkan skor kriteria, dan mengkal kulasi koefisien
validitasnya. Bila tes digunakan untuk memprediksikan perilaku pa da masa
mendatang, validitas prediktif harus ditentukan. Alternatif lainnya adalah
menggunakan koefisien validitas konkuren. Koefisien validitas konkuren
merupakan korelasi antara skor tes dan skor kriteria jika kedua pengukuran
dilaksanakan pada waktu yan g bersamaan. Tetapi hal ini menyebabkan
validitas konkuren cenderung menghasilkan estimasi yang kurang tepat bagi
koefisiek validitas prediktif.
Validitas konstruk merupakan bentuk pengembangan validitas yang
terbaru dibandingkan dengan tipe -tipe validitas yang lain. Validitas konstruk
suatu tes adalah sejauh mana suatu tes mengukur konstruk teoretis atau trait
yang didesain untuk diukur. Validitas konstruk ini merupakan kemajuan ilmiah
yang penting dalam teori dan praktek pengukuran karena menghubungkan
gagasan dan praktek psikometrik disatu pihak, dengan gagasan teoretis dipihak
lain. Para pakar dibidang pengukuran, ketika menelaah vali ditas konstruk
suatu tes, biasanya ingin mengetahui suatu sifat (atau sifat -sifat) psikologis
atau lainnya yang dapat menjelaskan varian tes itu.
Hal ini sangat penting dalam validitas konstruk yang membedakannya
dengan tipe-tipe validitas yang lain adalah perhatian yang terutama dicurahkan
pada teori, konstruk, teoris, dan telaah empiris ilmiah yang meliputi pengujian
relasi yang dihipotesiskan. Dengan berdasarkan teori terbaru mengenai trait
yang sedang diukur, pengembang tes membuat prediksi me ngenai bagaimana
skor tes harus menunjukkan apa yang diukur dalam berbagai situasi. Walaupun
pengujian validitas konstruk biasanya memerlukan teknik analisis statistika
yang lebih kompleks dari pada teknik -teknik yang dipakai pada pengujian

validitas empirik lainnya, akan tetapi hasil esti masi validitas konstruk tidak
dinyatakan dalam bentuk koefisien validitas.
Magnusson (1967) menyatakan bahwa dukungan terhadap adanya
validitas konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi
mengenai perbedaan diantara kelompok -kelompok yang menurut teori harus
berbeda, (2) studi mengenai pengaruh perubahan yang terjadi dalam dir i
individu dan lingkungannya terhadap hasil tes, (3) studi mengenai korelasi
diantara berbagai variabel yang menurut teori mengukur aspek yang sama, dan
(4) studi mengenai korelasi antar butir atau antar belahan tes. Sejalan dengan
hal itu, Kerlinger (1973 ) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah
ukuran yang tidak begitu banyak, yang disebut faktor-faktor, dengan
menyingkapkan faktor-faktor mana saja yang setujuan (yang ukuranny a
mengukur hal yang sama) serta relasi antar kelompok -kelompok ukuran yang
setujuan itu, merupakan metode yang kuat dan sangat perlu untuk validasi
konstruk. Jadi akan sangat tepat bila seorang peneliti melakukan analisis faktor
bila ingin mengetahui validitas konstruk butir-butir soal dalam suatu perangkat
tes.
Reliabilitas
Reliabilitas dapat didefinisikan dalam berbagai cara, seperti proporsi
varian skor yang diperoleh terhadap varia n skor sebenarnya, korelasi kua
drat antara skor sebenarnya dengan skor ya ng diperoleh, atau korelasi antar
skor yang diperoleh pada dua tes paralel (Allen & Yen, 1979).
Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaian antara
dua upaya yang dilakukan untuk mengukur trait yang sama melalui metode
yang sangat serupa. Ada tiga pendekatan untuk mengestimasi relia bilitas suatu
tes meliputi: (1) estimasi konsist ensi internal, (2) estimasi stabilitas, dan (3)
estimasi ekuivalensi. Estimasi konsistensi internal sangat berkait dengan
sources of error di dalam prosedur tes dan skoring, estimasi stabilitas
menunjukkan konsistensi skor tes dari waktu ke waktu, sedangkan estimasi
ekuivalensi menunjukkan sejauh mana skor pada berbagai bentuk dari suatu tes
ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan tersebut
disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi per formasi peserta tes pada berbagai bagian tes. Konsistensi internal meliputi:
a. Estimasi Reliabilitas Belah-dua (Split-half Reliability)

Untuk mengestimasi reliabilitas dengan metode ini kita harus membelah tes
menjadi dua dan menentukan sejauh mana skor pada dua belahan ini konsisten
satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang ber arti bahwa rerata dan varian
kedua tes tersebut sama. Di samping itu harus diasumsikan pula bahwa kedua
tes tersebut independen satu sama lain dalam artian bahwa performasi
seseorang pada satu belahan tidak mempengaruhi performasinya pada belahan
yang lain. Estimasi dengan cara ini meliputi:
1. Estimasi Belah-Dua Spearman-Brown
Koefisien reliabilitas pada estimasi belah -dua Spearman-Brown dapat
diperoleh melalui formula:
2r '
(4)
hh
r '
xx
1 r '
hh

Keterangan: r ' merupakan korelasi yang diperoleh antara dua belahan tes.
hh

2. Estimasi Belah-Dua Guttman


Koefisien korelasi belah-dua pada metode ini didasarkan pada rasio jumlah
total varian pada kedua tes terhadap varian tes secara keseluruhan:
2
2
(5)

s h
s
2

2
1
1
' 2
rxx

Keterangan: h1 , dan h2 merupakan varian pada kedua tes.


s
s
b. Estimasi Reliabilitas Berdasarkan Varian Butir
Koefisien reliabilitas pada metode ini diperoleh melalui beberapa cara yaitu:
1. Koefisien Reliabilitas Kuder-Richardson
Koefisien reliabilitas Kuder-Richardson diperoleh melalui rumus KR -20 dan
KR-21. Rumus KR-20 adalah:
k

(6)
r 1 pq
xx'

k 1

Keterangan: k adalah jumlah butir tes,


s

pq adalah jumlah varian butir,

, adalah varian skor tes total. Sementara itu rumus KR21


adalah:
2
ks x x k x

r
(7)
x
'
k 1s x2

dan

2. Koefisien Alpha
Cronbach (1951) mengemban gkan suatu rumus untuk mengesti masi
konsistensi internal yang disebutnya sebagai koefisien Alpha atau yang
dikenal sebagai Cronbachs Alpha:
(8)
k
s2 i
1

k 1

Keterangan: k adalah jumlah butir tes,

adalah nilai varian pada berbagai

2
bagian tes yang berbeda,
s x , adalah varian skor tes total.
dan
3. Konsistensi Rater
Ada dua macam konsistensi rater yaitu intra-rater reliability dan inter-rater
reliability.
a. Intra-rater Reliability
Reliabilitas pada metode ini melaui penilaian oleh seorang penilai.
Untuk mencari reliabilitas nilai yang diberikan oleh seorang rater, kita harus
memperoleh setidaknya dua penilaian yang independen oleh rater tersebut
untuk masing-masing sampel yang dinilai. Ini diperoleh dengan menilai sampel
satu kali dan kemudian menilainya kembali pada waktu yang berbeda. Setelah
nilai diperoleh maka reliabilitasnya dapat diperoleh melalui dua cara. Cara
yang pertama adalah: dengan memperlakukan dua set hasil penilaian tersebut
sebagai skor dari dua tes paralel dan menghitung korelasi keduannya,
selanjutnya hasil ini diinterpretasikan sebagai estimasi reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing
- masing nilai dengan rumus:
2
k

s r1 r2
s2
1
2

(9)
s r1r 2

1
k

Keterangan:
2

s
r1

dan s 2 r adalah varian dari masing-masing penilai dan


2

s r1r 2 adalah varian dari dua penilai yang dijumlahkan.


b. Inter-rater Reliability
Untuk mencari koefisien inter-rater, pada dasarnya kita dapat menggunakan
pendekatan yang sama seperti pada konsistensi intra-rater. Kita dapat
menghitung korelasi antar dua rater yang berbeda dan menginterpretasikannya
sebagai estimasi reliabilitas. Jika lebih dari dua rater yang terlibat maka cara
yang digunakan adalah cara yang direkomendasikan oleh Ebel (1979) yaitu

menjumlah

hasil penilaian

oleh

rater

yang

berbeda

dan kemudian

mengestimasi reliabilitas jumlah rating tersebut dengan menghitung koefisien


Alpha dimana k adalah jumlah

rater, s 2 adalah varian hasil penilaian oleh


i

seorang rater, dan

adalah jumlah toal varian hasil penilaian oleh

masing2
masing rater,
s adalah varian dari hasil penilaian yang dijumlahkan.
x
dan
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes
memberikan suatu tes dua kali pada sekelompok individu dan kemudian
menghitung koreasi antara dua perangkat skor. Korelasi ini dapat
diinterpretasikan sebagai indikasi sejauh mana stabilitas s kor dari waktu ke
waktu. Hal yang diutamakan pada pendekatan ini adalah memastikan bahwa
peserta tes tidak berubah begitu saja secara sistematis diantara kedua tes.
Dalam hal ini pemberi tes harus dapat memastikan bahwa baik practice-effect
maupun learning-effect setara antara individu maupun random. Untuk itu
pemberi tes harus dapat mencari tenggang waktu yang tepat untuk semaksimal
mungkin mengurangi practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguaka n
untuk mengestimasi reliabilitas suatu tes dengan mencari ekuivalensi skor yang
diperoleh dari berbagai bentuk tes yang berbeda. Sama halnya dengan
pendekatan test-retest, metode inimerupakan sarana yang tepat untuk menges timasi reliabilitasb tes bila estimasi dengan konsistensi internal tdak tepat atau
tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin
memberikan suatu tes kepada seluruh p eserta es pada waktu yang bersamaan,
dan ia tidak ingin peserta tes yang p ertama membocorkan informasi mengenai
tes tersebut kepada peserta tes kedua. Pada situasi yang lain seorang pemberi
tes mungkin ingin mengukur kemampuan bahasa seseorang berulangkali selama waktu tertentu dan ingin memastikan bahwa perubahan pada performansi
yang terjadi bukan disebabkan oleh practice-effect sehingga ia menggunakan
berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes harus dapat me mastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen, khusus nya dalam hal tingkat kesulitan dan deviasi standarnya.

PENUTUP
Teori tes klasik telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan

asumsi-asumsi. Asumsi utama teori ini adalah skor amatan seorang peserta tes
adalah jumlah dari skor sebenarnya dengan skor kesalahannya. Asumsi kedua
dalam teori tes klasik adalah nilai rata -rata populasi dari nilai amatan
merupakan nilai independen yang sama dengan skor sebenarnya untuk setiap
peserta tes pada tes yang sama. Asumsi ketiga; skor sebenarnya dan skor
kesalahan yang dicapai dalam suatu populasi pada suatu tes tidak berkorelasi.
Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol. Asumsi kelima; pada tes yang mengukur
atribut yang sama, skor kesalahan pada tes pertama tidak berkorelasi dengan
skor sebenarnya pada tes kedua. Asumsi keenam; dua p erangkat dikatakan tes
2
2
paralel jika T1= T2 dan 1= 2 dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test).
Karakteristik tes klasik meliputi tingkat kesulitan butir dan daya beda
butir. Validitas tes meliputi: validitas isi, validitas relasi -kriteria, validitas
konstruk. Reliabilitas tes meliputi: konsistensi internal yang terdiri dari
estimasi reliabilitas belah-dua (Sperman-Brown maupun Guttman)
dan
estimasi reliabilitas berdasarkan varian butir (koefisien reliabilitas Kuder Richardson baik KR-20 maupun KR-21, koefisien Alpha, konsistensi rater
baik intra-rater reliability maupun inter-rater reliability), stabilitas (test-retest
reliability), dan ekuivalensi (reliabilitas bentuk paralel).
DAFTAR RUJUKAN
Allen, M. J. & Yen, W. M. 1979. Introduction to Measurement Theory.
Monterey: Books/Cole Publishing Company.
Azwar, S. 1999. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.
Bachman, L. F. 1990. Fundamental Considerations in Language Testing .
Oxford: Oxford University Press.
Ebel, R. L. 1979. Essential of Educational Measurements. London: PrenticeHall Inc, Englewood Cliffs.
Hayat, B. 1997. Manual Item and Test Analysis (Iteman):
Pedoman Penggunaan Iteman. Jakarta: Depdibud Balitbang Publitbang
Sisjan.
Kerlinger, F. N. 1973. Foundations of Behaioral Research. New York: New
York University Press.
Naga, D. S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.
Jakarta: Gunadarma.

Suryabrata, S. 1984. Psikologi Pendidikan. Jakarta: CV Rajawali.

Anda mungkin juga menyukai