Suwarto
Abstrak
Pendahuluan
69
No.1 / Volume 20 / 2011 WIDYATAMA
pengertian bahwa tidak ada korelasi antara skor sebenarnya dengan skor kesalahan.
Seorang peserta tes yang memiliki nilai sebenarnya tinggi tidak musti memiliki skor
kesalahan yang tinggi, demikian juga terhadap peserta yang memiliki skor sebenarnya
yang rendah belum tentu memiliki skor kesalahan yang tinggi.
Tidak Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol; [ E1E2 0 ]. Artinya peserta tes yang memiliki skor
kesalahan yang tinggi pada tes pertama belum tentu mendapat nilai skor kesalahan pada
tes kedua. Hal ini memberikan pengertian bahwa rentang pelaksanaan tes pertama dan
kedua dapat dipengaruhi oleh situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang meng ukur atribut yang sama, skor kesalahan pada
tes pertama tidak berkorelasi dengan skor sebenarnya pada tes kedua. Asumsi-asumsi ini
(pertama sampai kelima) memberikan penafsiran yang sangat sederhana tentang nilai
hasil ujian. Sehingga karakteristik tes dan bahkan peserta tes berdasarkan hasil ujian
dalam kelornpok. Dan kesalahan secara sistematik tidak dapat
disebut sebagai kesalahan pengukuran (Allen & Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama, dimana
2
menghasilkan skor perolehan X , dan skor sebenarnya T 1 dan T2, dan varian skor σ 1 dan
2 2
σ2 2, kedua perangkat ini dikatakan tes paralel jika T 1= T2 dan σ 1= σ 2 dan memenuhi
asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk mengukur
trait yang sama dan memenuhi asumsi pertama sampai kelim a, dikatakan tes setara
(equivalent test) jika pada setiap populasi peserta tes skor perolehan dari tes pertama (X
1) sama dengan skor perolehan tes kedua yang ditambahkan dengan suatu konstanta (C),
[X 1 = X2+CI2].
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan b, sering
juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai perbandingan
antara jumlah jawaban benar dengan jumlah peserta tes. Atau dapat dituliskan dalam
B
bentuk rumus matematik: p N (1)
p = indek kesukaran soal
∑ B= jumlah jawaban benar
N = jumlah peserta tes
(Catatan: lambang p akan digunakan dalam pembahasan ini).
Nilai batasan tingkat kesukaran soal teletak antara 0 dan 1, karen a merupakan perbandingan
antara jumlah jawaban benar dengan jumlah soal, dapat
dituliskan dalam bentuk matematika berikut ini: 0p1 (2)
Tabel 1 Skala Tingkat Kesukaran Butir
Indek kesukaran (p) Kategori soal
p > 0,70 Mudah
0,30 < p < 0,70 Sedang
p < 0,30 Sukar
Karakteristik daya beda (a=daya pembeda) butir, didefinisikan sebagai
kemampuan butir untuk membedakan antara kelompok yang pintar dan kelompok
70 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern
72
73
70
74
X
71
pi
qi
yang bodoh. Pengertian yang lain adalah kesesuaian soal itu dengan keselu ruhan tes
(kumpulan soal) dalam membedakan antara mereka yang tinggi kemampuannya dan
mereka yang rendah kemampuannya dalam hal -hal yang diukur oleh tes yan g
bersangkuan (Suryabrata, 1984 ). Jika dalam suatu kelompok peserta tes dibagi pada dua
kelompok , kelompok X dan Y maka daya beda soal adalah kemampuan soal itu
membedakan antara kelompok X dan Y. Bentuk formula yang dapat digunakan untuk
menghitung indek daya pembeda adalah: (Allen & Yen, 1979):
p
r Xi X i (3)
bis
sx qi
dimana rbis = koefisien biserial
= rata-rata sekor pada butir ke
-i = rata-rata sekor total
= standar deviasi sekor total
= probabilitas jawaban benar
= probabiltas jawaban salah (1 - pi)
Rentang korelasi skor butir dengan skor peserta, yang baik adalah antara 0,40 -
0,70, sedangkan yang memiliki <0,2 harus dibuang, dan yang memiliki daya pembeda >
0,70 disebut sangat baik (Sudijono, 2001). Nilai negatif berarti daya bedanya tidak
berfungsi. Lebih lengkap disajikan pada Tebel 2.
Validitas Tes
Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas bila tes
tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai dengan berbagai
cara, tergantung pada tes dan maksud penggunaannya. (a) Content Validity.Validitas isi
atau muatan adalah kerepresentatifan yang terdapat dalam muatan suatu instrumen
pengukur. Validitas isi dinilai melalui analisis rasional mengenai isi suatu tes dan
penentuannya didasarkan pada penilaian (judgment) individual yang subjektif. Ada dua
jenis utama validitas isi: validitas tampilan ( face validity) dan validitas logis ( logical
validity ) . (b). Criterion-Related Validity. Validitas Relasi-Kriteria digunakan bila
71
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA
skor - skor tes d apat dihubungkan untuk kepentingan prediksi. Dengan demikian validitas
relasi-kriteria dikaji dengan cara membandingkan skor tes atau skala dengan satu atau lebih
variabel ekstra (variabel eksternal) atau kriteria yang diketahui (atau diyakini) merupakan
pengukur atribut yang sedang dikaji. Biasanya validitas relasi - kriteria ditampilkan sebagai
koefisien korelasi, yaitu korelasi antara skor tes (prediktor) dan skor kriteria. Korelasi ini
disimbulkan sebagai xy , dimana x merupakan skor t es dan
y skor kriteria. Koefisien validitas, xy , diestimasi dengan salah satu diantara dua cara
yang menghasilkan estimasi validitas prediksi ataupun validitas konkuren. (c). Contruct
Validity. Validitas konstruk merupakan bentuk penge mbangan validitas yang terbaru
dibandingkan dengan tipe -tipe validitas yang lain. Validitas konstruk suatu tes adalah
sejauh mana suatu tes mengukur konstruk teoretis atau trait yang didesain untuk diukur.
Validitas konstruk ini merupakan kemajuan ilmiah y ang penting dalam teori dan praktek
pengukuran karena menghubungkan gagasan dan praktek psikometrik disatu pihak,
dengan gagasan teoretis dipihak lain. Para pakar dibidang pengukuran, ketika menelaah
validitas konstruk suatu tes, biasanya ingin mengetahui suatu sifat (atau sifat-sifat)
psikologis atau lainnya yang dapat ”menjelaskan” varian tes itu.
Magnusson (1967) menyatakan bahwa dukungan terhadap adanya validitas
konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi mengenai perbedaan
diantara kelompok-kelompok yang menurut teori harus berbeda, (2) studi mengenai
pengaruh perubahan yang terjadi dalam diri individu dan lingkungannya terhadap hasil
tes, (3) studi mengenai korelasi diantara berbagai variabel yang menurut teori mengukur
aspek yang sama, dan (4) studi mengenai korelasi antar butir atau antar belahan tes.
Sejalan dengan hal itu, Kerlinger (1973) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah ukuran yang
tidak begitu banyak, yang disebut faktor - faktor, dengan menyingkapkan faktor - faktor
mana saja yang ”setujuan” (yang ukurannya mengukur hal yang sama) serta relasi
antar kelompok-kelompok ukuran yang setujuan itu, merupakan metode yang kuat dan
sangat perlu untuk validasi konstruk. Jadi akan sangat tepat bila seorang peneliti
melakukan analisis faktor bila ingin mengetahui validitas konstruk butir -butir soal dalam
suatu perangkat tes.
Reliabilitas Tes
Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaia n antara dua
upaya yang dilakukan untuk mengukur trait yang sama melalui metode yang sangat
serupa. Ada tiga pendekatan untuk mengestimasi reliabilitas suatu tes meliputi: (1)
estimasi konsistensi internal, (2) estimasi stabilitas, dan (3) estimasi ekuival ensi.
Estimasi konsistensi internal sangat berkait dengan sources of error di dalam prosedur tes
dan skoring, estimasi stabilitas menunjukkan konsistensi skor tes dari waktu ke waktu,
sedangkan estimasi ekuivalensi menunjukkan sejauh mana skor pada berbaga i bentuk
dari suatu tes ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan
tersebut disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi performasi peserta
tes pada berbagai bagian tes. Konsiste nsi internal meliputi: (1) Estimasi Reliabilitas
Belah-dua (Split-half Reliability). Untuk mengestimasi reliabilitas dengan metode ini kita
harus membelah tes menjadi dua dan menentukan sejauh mana skor pada dua belahan ini
72 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern
konsisten satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang berarti bahwa rerata dan varian kedua tes
tersebut sama.
Di samping itu harus diasumsikan pula bahwa kedua tes tersebut independen satu
sama lain dalam artian bahwa performasi seseorang pada satu belahan tidak
mempengaruhi performasinya pada belahan yang lain. Estimasi dengan cara ini meliputi:
(2) Estimasi Belah-Dua Spearman-Brown. Koefisien reliabilitas pada estimasi belah -dua
Spearman-Brown dapat diperoleh melalui formula: rxx' 2rhh
'
(4)
1 rhh'
Dimana rhh' merupakan korelasi yang diperoleh antara dua belahan tes.
(3) Estimasi Belah-Dua Guttman. Koefisien korelasi belah -dua pada metode ini didasarkan pada rasio
jumlah total varian pada kedua tes terhadap varian tes secara
s 2 h s 2 h 2
keseluruhan: r 21 1
(5)
2
'
xx
s x
2 2
Dimana s h1 , dan s h2 merupakan varian pada kedua tes.
(4) Estimasi Reliabilitas Berdasarkan Varian Butir . Koefisien reliabilitas pada metode ini
diperoleh melalui beberapa cara yaitu:
Koefisien Reliabilitas Kuder -Richardson.
Koefisien reliabilitas Kuder -Richardson diperoleh melalui rumus KR -20 dan KR-21.
k pq
Rumus KR-20 adalah: r ' 1 (6)
xx k 1 s2x
Dimana k adalah jumlah butir tes, pq adalah jumlah varian butir, dan s 2 x , adalah
varian skor tes total. Sementara itu rumus KR21 adalah: r
ks 2 x x k x
(7)
k 1s
'
xx 2
x
Koefisien Alpha
Cronbach (1951) mengembangkan suatu rumus untuk mengestimasi konsistensi
internal yang disebutnya sebagai ’koefisien Alpha’ atau yang dikenal sebagai
k s2i
’Cronbach’s Alpha’: 1 (8)
k1
s2x
73
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA
reliabilitasnya dapat diperoleh melalui dua cara. Cara yang pertama adalah: dengan
memperlakukan dua set hasil penilaian tersebut sebagai skor dari dua tes paralel dan
menghitung korelasi keduannya, selanjutnya hasil ini diinterpretasikan sebagai estimasi
reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing -masing
k s2r s2r
nilai dengan rumus: 1 1 2
(9)
2
k1 s r1r 2
Dimana s 2 r1 dan s 2 r 2 adalah varian dari masing -masing penilai dan s 2 r1r 2 adalah varian
dari dua penilai yang dijumlahkan.
b. Inter-rater Reliability
Untuk mencari koefisien inter-rater, pada dasarnya kita dapat menggunakan
pendekatan yang sama seperti pada konsistensi i n t r a - r a t e r . Kita dapat menghitung
korelasi antar dua rater yang berbeda dan menginterpretasikannya sebagai estimasi
reliabilitas. Jika lebih dari dua rater yang terlibat maka cara yang digunakan adalah cara
yang direkomendasikan oleh Ebel (1979) yaitu menjumlah hasil penilaian oleh r a t e r
yang berbeda dan kemudian mengestimasi reliabilitas jumlah rating tersebut dengan
menghitung koefisien Alpha dimana k adalah jumlah rater, s 2 i adalah varian hasil
penilaian oleh seorang rater, dan s 2 i adalah jumlah toal varian hasil
penilaian oleh masing-masing rater, dan s 2 x adalah varian dari hasil penilaian yang
dijumlahkan.
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes memberikan
suatu tes dua kali pada sekelompok individu dan kemudian menghitung koreasi antara
dua perangkat skor. Korelasi ini dapat diinterpretasikan sebagai indikasi sejauh mana
stabilitas skor dari waktu ke waktu. Hal yang diutamakan pa da pendekatan ini adalah
memastikan bahwa peserta tes tidak berubah begitu saja secara sistematis diantara kedua
tes. Dalam hal ini pemberi tes harus dapat memastikan bahwa baik practice-effect
maupun learning-effect setara antara individu maupun random. Untuk itu pemberi tes
harus dapat mencari tenggang waktu yang tepat untuk semaksimal mungkin mengurangi
practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguakan untuk
mengestimasi reliabilitas suatu tes deng an mencari ekuivalensi skor yang diperoleh dari
berbagai bentuk tes yang berbeda. Sama halnya dengan pendekatan test - retest , metode
inimerupakan sarana yang tepat untuk mengestimasi reliabilitasb tes bila estimasi dengan
konsistensi internal tdak tepat ata u tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin memberikan
suatu tes kepada seluruh peserta es pada waktu yang bersamaan, dan ia tidak ingin
peserta tes yang pertama membocorkan informasi mengenai tes tersebut kepada peserta
tes kedua. Pada situasi yang lain seorang pemberi tes mungkin ingin mengukur
kemampuan bahasa seseorang berulangkali selama waktu tertentu dan ingin memastikan
bahwa perubahan pada performansi yang terjadi bukan disebabkan oleh practice-effect
sehingga ia menggunakan berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes
harus dapat memastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen,
khususnya dalam hal tingkat kesulitan dan deviasi standarnya.
74 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern
75
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA
berbeda. Hal ini juga berarti bahwa kemampuan yang dinyatakan dalam model adalah
sau-satunya faktor yang mempengaruhi respon peserta tes pada butir-butir soal.
Model-model dalam Teori Tes Modern Unidemensional
Dalam model logistik (teori tes modern) yang menggunakan 1 parameter, tingkat
kesukaran butir didefinisikan sebagai nilai skala kemampuan peserta tes yang memiliki
probabilitas 0,50 untuk menjawab dengan benar pada butir tertentu (Hambleton, 1989:
154). Jadi pada dasarnya b = θ sehingga dalam kurva karakteristik (Lord, 1980: 14):
bi , terletak pada Pi 0,5 1 ci (10)
76 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern
Persamaan fungsi karakteristik bitir pada persamaan (12 ) dapat ditulis dalam
bentuk lain sebagai berikut: Pi 1 ; i 1,2,3,..., n (13)
1 e Da b
i i
berikut: Pi ci 1 c i
; i 1,2,3,..., n (14)
1 e Di ai bi
Pi peluang seseorang dengan kemampuan menjawab butir soal ke -i dengan
benar ai parameter daya pembeda untuk biutir soal ke -i
bi parameter tingkat kesulitan untuk butir soal ke -i
ci parameter tebakan (pseudo-guessing) untuk butir soal ke-i
n banyaknya butir soal dalam tes
e dan D sama seperti pada model logistik dua parameter
Model logistik tiga parameter memperbolehkan adanya asimtot bawah yang tidak
nol, yang berarti model ini mengijinkan adanya faktor tebakan, seperti yang terjadi pada
tes pilihan ganda. Dua butir soal pada gambar 3 mempunyai daya pembeda yang sama
namun mempunyai unsur tebakan yang ber beda. Butir soal nomor 1 mempunyai fakor
tebakan yang lebih besar (c=0,1) dibandingkan faktor tebakan pada butir soal nomor 2
(c=0). Persamaan 14 dapat ditulis sebagai berikut:
P i c i 1 ci ; i 1,2,3,..., n (15)
1 e Da b
i i
77
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA
fungsi informasi), dan (4) besarnya koefisien reliabilitas suatu tes dan nilai parameter
suatu butir soal tidak tergantung kepada peserta tes yang dikenai suatu tes. Namun
demikian, penggunaan teori tes modern mengandung sejumlah kelemahan, anatara lain,
adalah: (1) memerlukan sampel besar untuk dapat menghasilkan parameter yang stabil,
sehingga konsep teori modern tidak dapat diterapkan pada tingkat kelas, (2) diperlukan
soft ware (program komputer) yang andal untuk dapat melakukan estimasi parameter
yang akurat, dan (3) belum diterima keberadaannya oleh sebagian besar orang yang
berkecimpung di dunia pendidikan dan psikologi, terutama di Indonesia. Dewasa ini
belum banyak soft ware yang dapat digunakan oleh masyarakat untuk mengestimasi
parameter butir soal berdasarkan teori modern.
Penutup
Pengukuran dalam pendidikan meliputi pengukuran kemampuan peserta tes dan
pengukuran karakteristik alat ukur yang digunakan. Ada dua teori pengukuran yang
sampai saat ini masih berkembang, yaitu teori tes klasik dan teori tes modern. Teori tes
yang digunakan di Indonesia saat ini adalah teori tes klasik. Teori tes modern sudah
berkembang di negara yang sudah maju . Teori tes modern dalam proses perhitungan skor
peserta tes sangat rumit sehingga memerlukan bantuan komputer. Sema kin banyak
komputer yang digunakan di dalam pengukuran pendidikan, maka semakin berkembang
teori tes modern digunakan di dunia pendidikan.
Daftar Rujukan
Allen, M.J. & Yen, W.M. 1979. Introduction to measurement theory . Montere:
Brooks/Cole Publising Com pany.
Bachman, Lyle F. 1990. Fundamental considerations in language testing . Oxford:
Oxford University Press.
Cronbach, L. J. 1970. Essentials of psychological testing (Ed.6). New York: Harper &
Row.
Hambleton, R.K., & Swaminathan, H.. 1985. Item response theory principles
and applications. Boston: Kluwer-Nijhoff Publishing.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. 1991. Fundamentals of
item response theory. London: Sage Publication.
Suryabrata, S. 1982. Psikologi belajar: Materi dasar pendidikan program bimbingan
dan konseling di perguruan tinggi . Jakarta: Ditjen Pendidikan Tinggi.
Suryabrata, S. 2000. Pengembangan alat ukur psikologis . Yogyakarta: Andi.
78 WIDYATAMA