14 22 1 SM

69
Teori Tes Klasik dan Teori Tes Modern

Suwarto
Program Studi Pendidikan Biologi FKIP
Universitas Veteran Bangun Nusantara Sukoharjo
Jl. Sujono Humardani No. 1 Jombor Sukoharjo,
e-mail: suwartowarto@yahoo.com
Abstrak
Pengukuran dalam pendidikan tidak dapat dipisahkan dari pengukuran
kemampuan peserta didik. Kemampuan peserta didik dapat diukur dengan
menggunakan alat ukur (tes). Seorang pendidik sebaiknya mengetahui teori
penskoran yang digunakan untuk meng ukur kemampuan peserta didik. Teori
penskoran meliputi teori tes klasik dan teori tes modern. Masing -masing teori
tes ini memiliki kelebihan dan kekurangan. Teori tes yang berkembang di
Indonesia saat ini adalah teori tes klasik. Teori tes modern sudah ber kembang
dibeberapa negara yang sudah maju. Kemajuan teknologi seperti
ditemukannya komputer telah memberikan dampak dalam pengembangan
teori tes modern. Proses penghitungan hasil penskoran peserta tes dengan
menggunakan teori tes modern lebih kompleks dari pada menggunakan tes
klasik.
Kata-kata Kunci: teori tes klasik, teori tes modern
Pendahuluan
Pengukuran dalam pendidikan meliputi pengukuran k emampuan peserta tes dan
pengukuran karakteristik alat ukur yang digunakan. Ada dua teori pengukuran yang
sampai saat ini masih dikembangkan, yaitu teori tes klasik dan teori tes modern. Teori tes
klasik disebut juga classical test theory (CTT), sedang teori tes modern disebut juga item
response theory (IRT).
Teori Tes Klasik (Classical Test Theory)
Teori ini disusun berdasarkan asumsi -asumsi. Berikut ini asumsi -asumsi teori tes
klasik disarikan dari Allen & Yen (1979).
Asumsi-asumsi Teori Tes Klasik
Asumsi utama teori ini adalah skor amatan seorang peserta tes adalah jumlah dari
skor sebenarnya dengan sekor kesal ahannya. X = T + E; dimana: X adalah skor amatan
(nilai pretasi); T skor yang sebenarnya dan E skor kesalahan. Skor kesalahan
adalah melesetnya skor perolehan dari keadaan yang sebenarnya dan terjadi secara
rambang ( Suryabrata, 1984).
Asumsi kedua dalam t eori tes klasik adalah nilai rata-rata populasi dari nilai
amatan merupakan nilai independen yang sama dengan skor sebenarnya untuk setiap
peserta tes pada tes yang sama. [E(X)=T] Maksudnya skor sebenarnya itu merupakan
nilai skor rata-rata perolehan teoritis sekiranya dilakukan pengukuran secara berulang
dengan mengunakan alat ukur yang sama.
Asumsi ketiga; skor sebenarnya dan skor kesalahan yang dicapai dalam suat u
popul asi pada suat u t es t i dak berkorel asi . [ 0 =
ET
]. Asurnsi ini memberikan
No.1 / Volume 20 / 2011
WIDYATAMA
WIDYATAMA
70
pengertian bahwa tidak ada korelasi antara skor sebenarnya dengan skor kesalahan.
Seorang peserta tes yang memiliki nilai sebenarnya tinggi tidak musti memiliki skor
kesalahan yang tinggi, demikian juga terhadap peserta yang memiliki skor sebenarnya
yang rendah belum tentu memiliki skor kesalahan yang tinggi.
Tidak Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol; [ 0
2 1
=
E E
]. Artinya peserta tes yang memiliki skor
kesalahan yang t i nggi pada t es pert ama bel um t ent u mendapat nilai skor kesalahan
pada tes kedua. Hal ini memberikan pengertian bahwa rentang pelaksanaan tes pertama
dan kedua dapat di pengaruhi ol eh situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang mengukur at ri but yang sama, skor
kesalahan pada tes pertama tidak berkorelasi dengan skor sebenarnya pada tes kedua.
Asumsi-asumsi ini (pertama sampai kelima) memberikan penafsiran yang sangat
sederhana tentang nilai hasil ujian. Sehingga karakteristik tes dan bahkan peserta tes
berdasarkan hasil ujian dalam kelornpok. Dan kesalahan secara sistematik tidak dapat
disebut sebagai kesalahan pengukuran (Allen & Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama, dimana
menghasilkan skor perolehan X , dan skor sebenarnya T
1
dan T
2
, dan varian skor
2
1
dan
2
2
, kedua perangkat ini dikatakan tes paralel jika T
1
= T
2
dan
2
1
=
2
2
dan memenuhi
asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk mengukur
trait yang sama dan memenuhi asumsi pertama sampai kelim a, dikatakan tes setara
(equivalent test) jika pada setiap populasi peserta tes skor perolehan dari tes pertama (X
1
)
sama dengan skor perolehan tes kedua yang ditambahkan dengan suatu konstanta (C), [X
1
= X
2
+C
I2
].
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan b, sering
juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai perbandingan
antara jumlah jawaban benar dengan jumlah peserta tes. Atau dapat dituliskan dalam
bentuk rumus matematik:
_
=
N
B
p (1)
p = indek kesukaran soal
B= jumlah jawaban benar
N = jumlah peserta tes
(Catatan: lambang p akan digunakan dalam pembahasan ini).
Nilai batasan tingkat kesukaran soal t el et ak ant ara 0 dan 1, karen a
merupakan perbandingan antara jumlah jawaban benar dengan jumlah soal, dapat
dituliskan dalam bentuk matematika berikut ini: 1 0 s s p (2)
Tabel 1 Skala Tingkat Kesukaran Butir
Indek kesukaran (p) Kategori soal
p > 0,70 Mudah
0,30 < p < 0,70 Sedang
p < 0,30 Sukar
Karakteristik daya beda (a=daya pembeda) butir, didefinisikan sebagai
kemampuan butir untuk membedakan antara kel ompok yang pi nt ar dan kelompok
Suwarto, Teori Tes Klasik dan Teori Tes Modern
WIDYATAMA
71
yang bodoh. Pengertian yang lain adalah kesesuaian soal itu dengan keselu ruhan tes
(kumpulan soal) dalam membedakan ant ara mereka yang tinggi kemampuannya dan
mereka yang rendah kemampuannya dalam hal -hal yang diukur oleh tes yang
bersangkuan (Suryabrata, 1984). Jika dalam suatu kelompok pesert a t es di bagi pada
dua kel ompok, kelompok X dan Y maka daya beda soal adal ah kemampuan
soal i t u membedakan antara kelompok X dan Y. Bentuk formula yang dapat digunakan
untuk menghitung indek daya pembeda adalah: (Allen & Yen, 1979):
i
i
x
i
bis
q
p
s
X X
r

= (3)
dimana r
bis
= koefisien biserial
X
i
= rata-rata sekor pada butir ke-i
X = rata-rata sekor total
s
x
= standar deviasi sekor total
p
i
= probabilitas jawaban benar
q
i
= probabiltas jawaban salah (1 - p
i
)
Rentang korelasi skor butir dengan skor peserta, yang baik adalah antara 0,40 -
0,70, sedangkan yang memiliki <0,2 harus dibuang, dan yang memiliki daya pembeda >
0,70 disebut sangat baik (Sudijono, 2001). Nilai negatif berarti daya bedanya tidak
berfungsi. Lebih lengkap disajikan pada Tebel 2.
Tabel 2 Interval Daya Pembeda Butir (a)
Interval a Klasifikasi Interpretasi
a < 0,20 Jelek Daya pembeda jelek
0,20 < a < 0,40 Memuaskan Memiliki daya pembeda yang cukup
0,41 < a < 0,70 Baik Memiliki daya pembeda yang baik
0,71 < a < 1,00 Sangat baik Memiliki daya pembeda yang sangat baik
Pada dasarnya batasan nilai a pada Tabel 2 menunjukkan batasan yang cukup baik
setelah dilakukan perbaikan pada batas -batas intervalnya. kedua batas kiri dan batas
kanan dari setiap kelas interval tidak saling terkait satu dengan yang lain.
Validitas Tes
Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas bila tes
tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai dengan berbagai
cara, tergantung pada tes dan maksud penggunaannya. (a) Content Validity.Validitas isi
atau muatan adalah kerepresentatifan yang terdapat dalam muatan suatu instrumen
pengukur. Validitas isi dinilai melalui analisis rasional mengenai isi suatu tes dan
penentuannya didasarkan pada penilaian (judgment) individual yang subjektif. Ada dua
jenis utama validitas isi: validitas tampilan ( face validity) dan val i di t as l ogi s ( l ogi cal
val i di t y). (b). Criterion-Related Validity. Validitas Relasi-Kriteria di gunakan bi l a
No.1 / Volume 20 / 2011
WIDYATAMA
WIDYATAMA
72
skor -skor t es dapat dihubungkan untuk kepentingan prediksi. Dengan demikian
validitas relasi-kriteria dikaji dengan cara membandingkan skor tes atau skala dengan
satu atau lebih variabel ekstra (variabel eksternal) atau kri t eri a yang di ket ahui (atau
diyakini) merupakan pengukur atribut yang sedang dikaji. Biasanya validitas relasi -
kriteria ditampilkan sebagai koefisien korelasi, yaitu korelasi antara skor tes (prediktor)
dan skor kriteria. Korelasi ini disimbulkan sebagai
xy
, dimana x merupakan skor t es dan
y skor kriteria. Koefisien validitas,
xy
, diestimasi dengan salah satu diantara dua cara
yang menghasilkan estimasi validitas prediksi ataupun validitas konkuren. (c). Contruct
Validity. Validitas konstruk merupakan bentuk penge mbangan validitas yang terbaru
dibandingkan dengan tipe-tipe validitas yang lain. Validitas konstruk suatu tes adalah
sejauh mana suatu tes mengukur konstruk teoretis atau trait yang didesain untuk diukur.
Validitas konstruk ini merupakan kemajuan ilmiah y ang penting dalam teori dan praktek
pengukuran karena menghubungkan gagasan dan praktek psikometrik disatu pihak,
dengan gagasan teoretis dipihak lain. Para pakar dibidang pengukuran, ketika menelaah
validitas konstruk suatu tes, biasanya ingin mengetahui suatu sifat (atau sifat -sifat)
psikologis atau lainnya yang dapat menjelaskan varian tes itu.
Magnusson (1967) menyatakan bahwa dukungan t erhadap adanya validitas
konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi mengenai perbedaan
diantara kelompok-kelompok yang menurut teori harus berbeda, (2) studi mengenai
pengaruh perubahan yang terjadi dalam diri individu dan lingkungannya terhadap hasil
tes, (3) studi mengenai korelasi diantara berbagai variabel yang menurut teori mengukur
aspek yang sama, dan (4) studi mengenai korelasi antar butir atau antar belahan tes.
Sejalan dengan hal itu, Kerlinger (1973) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah ukuran yang
tidak begitu banyak, yang di sebut fakt or -fakt or, dengan menyingkapkan faktor-
faktor mana saja yang setujuan (yang ukurannya mengukur hal yang sama) serta relasi
antar kelompok-kelompok ukuran yang setujuan itu, merupakan metode yang kuat dan
sangat perlu untuk validasi konstruk. Jadi akan sangat tepat bila seorang peneliti
melakukan analisis faktor bila ingin mengetahui validitas konstruk butir -butir soal dalam
suatu perangkat tes.
Reliabilitas Tes
Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaia n antara dua
upaya yang dilakukan untuk mengukur trait yang sama melalui metode yang sangat
serupa. Ada tiga pendekatan untuk mengestimasi reliabilitas suatu tes meliputi: (1)
estimasi konsistensi internal, (2) estimasi stabilitas, dan (3) estimasi ekuival ensi. Estimasi
konsistensi internal sangat berkait dengan sources of error di dalam prosedur tes dan
skoring, estimasi stabilitas menunjukkan konsistensi skor tes dari waktu ke waktu,
sedangkan estimasi ekuivalensi menunjukkan sejauh mana skor pada berbaga i bentuk
dari suatu tes ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan
tersebut disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi performasi peserta
tes pada berbagai bagian tes. Konsiste nsi internal meliputi: (1) Estimasi Reliabilitas
Belah-dua (Split-half Reliability). Untuk mengestimasi reliabilitas dengan metode ini kita
harus membelah tes menjadi dua dan menentukan sejauh mana skor pada dua belahan ini
WIDYATAMA
73
konsisten satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang berarti bahwa rerata dan varian kedua tes
tersebut sama.
Di samping itu harus diasumsikan pula bahwa kedua tes tersebut independen satu
sama lain dalam artian bahwa performasi seseorang pada satu belahan tidak
mempengaruhi performasinya pada belahan yang lain. Estimasi dengan cara ini meliputi:
(2) Estimasi Belah-Dua Spearman-Brown. Koefisien reliabilitas pada estimasi belah -dua
Spearman-Brown dapat diperoleh melalui formula:
'
'
'
1
2
hh
hh
xx
r
r
r
+
= (4)
Dimana
'
hh
r merupakan korelasi yang diperoleh antara dua belahan tes.
(3) Estimasi Belah-Dua Guttman. Koefisien korelasi belah-dua pada metode ini
didasarkan pada rasio jumlah total varian pada kedua tes terhadap varian tes secara
keseluruhan:
|
|
'
+
=
x
xx
s
h s h s
r
2
2
2
1
2
1 2
'
(5)
Dimana
1
2
h s , dan
2
2
h s merupakan varian pada kedua tes.
(4) Estimasi Reliabilitas Berdasarkan Varian Butir. Koefisien reliabilitas pada metode ini
diperoleh melalui beberapa cara yaitu:
Koefisien Reliabilitas Kuder-Richardson.
Koefisien reliabilitas Kuder -Richardson diperoleh melalui rumus KR-20 dan KR-21.
Rumus KR-20 adalah:
|
|
'
=
_
x
xx
s
pq
k
k
r
2
1
1
'
(6)
Dimana k adalah jumlah butir tes,
_
pq adalah jumlah varian butir, dan x s
2
, adalah
varian skor tes total. Sementara itu rumus KR21 adalah:
, ,
, , x
x
xx
s k
x k x ks
r
2
2
1
'

= (7)
Koefisien Alpha
Cronbach (1951) mengembangkan suat u rumus unt uk mengest i masi konsistensi
internal yang disebutnya sebagai koefisien Alpha atau yang dikenal sebagai
Cronbachs Alpha:
|
|
'
=
_
x
i
s
s
k
k
2
2
1
1
(8)
Dimana k adalah jumlah but ir tes,
_
i s
2
adalah nilai varian pada berbagai bagian tes
yang berbeda, dan x s
2
, adalah varian skor tes total.
Konsistensi Rater
a. Intra-rater Reliability
Reliabilitas pada metode i ni mel al ui peni l ai an ol eh seorang
peni l ai . Untuk mencari reliabilitas nilai yang diberikan oleh seorang rater, kita harus
memperoleh setidaknya dua penilaian yang independen oleh rater tersebut untuk masing-
masing sampel yang dinilai. Ini diperoleh dengan menilai sampel satu kali dan kemudian
menilainya kembali pada waktu yang berbeda. Setelah nilai diperoleh maka
No.1 / Volume 20 / 2011
WIDYATAMA
WIDYATAMA
74
reliabilitasnya dapat diperoleh melalui dua cara. Cara yang pertama adalah: dengan
memperlakukan dua set hasil penilaian tersebut sebagai skor dari dua tes paralel dan
menghitung korelasi keduannya, selanjutnya hasil ini diinterpretasikan sebagai estimasi
reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing -masing
nilai dengan rumus:
|
|
'

=
+ 2 1
2
2
2
1
2
1
1 r r s
r s r s
k
k
(9)
Dimana 1
2
r s dan 2
2
r s adalah varian dari masing-masing penilai dan 2 1
2
r r s + adalah varian
dari dua penilai yang dijumlahkan.
b. Inter-rater Reliability
Untuk mencari koefisien inter-rater, pada dasarnya kita dapat menggunakan
pendekatan yang sama sepert i pada konsi st ensi i nt ra-rat er. Kita dapat
menghitung korelasi antar dua rater yang berbeda dan menginterpretasikannya sebagai
estimasi reliabilitas. Jika lebih dari dua rater yang terlibat maka cara yang digunakan
adalah cara yang direkomendasikan oleh Ebel (1979) yaitu menjumlah hasi l peni l ai an
ol eh rat er yang berbeda dan kemudian mengestimasi reliabilitas jumlah rating
tersebut dengan menghitung koefisien Alpha dimana k adalah jumlah rater, i s
2
adalah
varian hasil penilaian oleh seorang rater, dan
_
i s
2
adalah jumlah toal varian hasil
penilaian oleh masing-masing rater, dan x s
2
adalah varian dari hasil penilaian yang
dijumlahkan.
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes memberi kan
suat u t es dua kal i pada sekel ompok i ndi vi du dan kemudian menghitung
koreasi ant ara dua perangkat skor. Korelasi ini dapat diinterpretasikan sebagai
indikasi sejauh mana stabilitas skor dari waktu ke waktu. Hal yang diutamakan pa da
pendekatan ini adalah memastikan bahwa peserta tes tidak berubah begi t u saj a secara
si st emat i s di ant ara kedua tes. Dalam hal ini pemberi tes harus dapat memastikan
bahwa baik practice-effect maupun learning-effect setara antara individu maupun
random. Untuk itu pemberi tes harus dapat mencari tenggang waktu yang tepat untuk
semaksimal mungkin mengurangi practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguakan untuk
mengestimasi reliabilitas suatu tes deng an mencari ekuivalensi skor yang diperoleh dari
berbagai bentuk tes yang berbeda. Sama hal nya dengan pendekat an t est -ret est ,
met ode inimerupakan sarana yang tepat untuk mengestimasi reliabilitasb tes bila
estimasi dengan konsistensi internal tdak tepat ata u tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin memberikan
suatu tes kepada seluruh peserta es pada waktu yang bersamaan, dan ia tidak ingin peserta
tes yang pertama membocorkan informasi mengenai tes tersebut kepada peserta tes
kedua. Pada situasi yang lain seorang pemberi tes mungkin ingin mengukur kemampuan
bahasa seseorang berul angkal i sel ama wakt u t ert ent u dan ingin memastikan
bahwa perubahan pada performansi yang terjadi bukan disebabkan oleh practice-effect
sehingga ia menggunakan berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes
harus dapat memastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen,
khususnya dalam hal tingkat kesulitan dan deviasi standarnya.
WIDYATAMA
75
Teori Tes Modern (Item Response Theory)
Untuk mengatasi kelemahan-kelemahan yang ada pada teori klasik, para ahli
pengukuran berusaha untuk mencari alternatif. Model yang diinginkan harus mempunyai
sifat-sifat: (1) karakteristik butir tidak tergantung kepada kelompok peserta tes yang
dikenai butir soal tersebut, (2) skor yang menyatakan kemampuan peserta tes tidak
tergantung pada tes, (3) model dinyatakan dalam tingkatan (level) butir soal, tidak dalam
tingkatan tes, (4) model tingkat tidak memerlukan tes paralel untuk menghitung koefisien
reliabilitas, dan (5) model menyediakan ukuran yang tepat untuk setiap skor kemampuan
(Hambleton, Swaminathan, & Rogers, 1991: 5). Model alternatif yang dapat mempunyai
ciri-ciri itu adalah model pengukuran yang disebut teori respon butir ( Item Response
Theory).
Teori tes modern atau biasa disebut dengan teori respon butir ( item response
theory) dikembangkan oleh para ahli pengukuran bidang psikologi dan pendidikan
sebagai upaya meminimalkan kekurangan -kekurangan yang ada dalam teori tes klasik.
Perhitungan dalam analisis butir berdasarkan teori ini dapat dilakukan dengan
menggunakan bantuan program komputer.
Sebagaimana halnya dalam teori klasik, dalam teori respon butir juga didasari
oleh postulat dasar. Ada dua postulat dasar dari teori tes mo dern (Hambelton,
Swaminathan & Rogers, 1991: 7), yaitu: (1) hasil kerja seorang peserta tes pada suatu
butir soal dapat diprediksikan (atau dijelaskan) dari suatu jenis faktor -faktor yang disebut
sifat-sifat, sifat-sifat laten, atau kemampuan; (2) hubungan antara hasil kerja peserta tes
pada suatu butir tes dengan sifat -sifat yang mendasarinya dapat dideskripsikan oleh
fungsi yang meningkat yang bersifat monotonic yang disebut dengan fungsi karakteristik
butir (item characteristic function atau item characteristic curve-ICC). Fungsi ini
menje1askan, jika taraf sifat -sifat (kemampuan) meningkat, maka probabilitas menjawab
benar pada suatu butir tes juga meningkat.
Asumsi-asumsi Teori Tes Modern
Sebagaimana halnya dalam teori tes klasik, dalam teori respon but ir juga
mengandung asumsi-asumsi yang mendasarinya, yaitu: (a) Unidemensionalitas, (b)
Independensi lokal, dan (c) Fungsi karakteristik butir menyatakan hubungan yang
sebenarnya antara variabel yang tak terobservasi (yaitu kemampuan) dengan variabel
terobservasi (yaitu respon butir) (Hambleton., Swaminathan, & Rogers, 1991: 9;
Surabrata, 2000: 28). Asumsi unidemensionalitas dan independensi lokal dapat
dijelaskan sebagai berikut.
Asumsi unidemensionalitas menyatakan bahwa hanya satu kemampuan yang
diukur oleh sekumpulan butir-butir soal dalam suatu tes. Asumsi ini pada praktik sukar
dipenuhi, sebab terdapat banyak faktor yang dapat mempengaruhi hasil suatu tes. Faktor -
faktor tersebut antara lain tingkat motivasi, kecemasan, kemampuan untuk bekerja cepat,
dan keterampilan kognitif lain diluar kemampuan yang diukur oleh sekumpulan butir soal
dalam suatu tes. Hal yang dimaksud dengan unidemensionalitas dalam hal ini adalah
adanya faktor-faktor dominan yang mempengaruhi hasil suatu tes. Faktor -faktor dominan
itulah yang disebut kemampuan yang diukur oleh suatu tes.
Asumsi independensi lokal menyatakan bahwa sikap kemampuan yang
mempengaruhi suatu tes adalah konstan, maka respon peserta tes pada setiap pasang butir
soal adalah independen secara statistik. Dengan k ata lain, asumsi independensi lokal
menyatakan bahwa tidak ada korelasi antara respon peserta tes pada butir soal yang
No.1 / Volume 20 / 2011
WIDYATAMA
WIDYATAMA
76
berbeda. Hal ini juga berarti bahwa kemampuan yang dinyatakan dalam model adalah
sau-satunya faktor yang mempengaruhi respon peserta tes pada butir-butir soal.
Model-model dalam Teori Tes Modern Unidemensional
Dalam model logistik (teori tes modern) yang menggunakan 1 parameter, tingkat
kesukaran butir didefinisikan sebagai nilai skala kemampuan peserta tes yang memiliki
probabilitas 0,50 untuk menjawab dengan benar pada butir tertentu (Hambleton, 1989:
154). Jadi pada dasarnya b = sehingga dalam kurva karakteristik (Lord, 1980: 14):
=
i
b , terletak pada , , , ,
i i
c P + + = 1 5 , 0 (10)
Model Logistik Satu Parameter
Model logistik satu parameter sering disebut juga dengan model Rasch, sebagai
penghargaan kepada penemunya. Fungsi karakteristik butir untuk model logistik satu
parameter ditentukan dengan persamaan (Hambleton, Swaminathan & Rog ers, 1991: 12):
, ,
, ,
n i
e
e
Pi
i
i
b
b
,..., 3 , 2 , 1 ;
1
) ( =
+
=

(11)
, , =
i
P peluang seseorang dengan kemampuan menjawab butir soal ke-i dengan benar.
=
i
b parameter tingkat kesulitan untuk butir soal ke-i
= n banyaknya butir soal dalam tes.
= e bilangan pokok logaritma natural, yang nilainya adalah 2,718, jika dibulatkan
ketiga angka dibelakang koma.
Parameter tingkat kesulitan, yaitu b, untuk sebuah butir soal adalah titik pada skala
kemampuan, pada titik itu peluang menjawab benar butir tersebut sebesar 0,5
(Hambleton, Swaminathan & Rogers, 1991: 13).
Model Logisik Dua Parameter
Pada tahun 1952, Lord mengemba ngkan model respon butir dua parameter
dengan mendasarkan pada Ogive distribusi normal. Lord dipandang sebagai orang yang
pertama mengembangkan model respon butir dua parameter (Hambleton, Swaminathan
& Rogers, 1991: 14). Kemudian, pada tahun 1968, Birnbau m mengembangkannya
menjadi model logistik dua parameter dengan persamaan berikut (Hambleton,
Swaminathan & Rogers, 1991: 15): , ,
, ,
, ,
n i
e
e
P
i i i
i i i
b a D
b a D
i
,..., 3 , 2 , 1 ;
1
=
+
=

(12)
, , =
i
P peluang seseorang dengan kemampuan menjawab butir soal ke-i dengan benar
=
i
a parameter daya pembeda untuk butir soal k -i
=
i
b parameter tingkat kesulitan soal k-i
= n banyaknya butir soal dalam tes
= e bilangan pokok logaritma natural, yang nilainya adalah 2,718, jika dibulatkan
ketiga angka dibelakang koma.
= D faktor skala, yang nilainya diambil sebesar 1,7, yaitu simpangan baku distribusi
logistik yang paling mendekati distribusi normal.
WIDYATAMA
77
Persamaan fungsi karakt eristik bitir pada persamaan (12) dapat ditulis dalam
bentuk lain sebagai berikut: , ,
, ,
n i
e
P
i i
b Da
i
,..., 3 , 2 , 1 ;
1
1
=
+
=

(13)
Persamaan 13 diperoleh dari persamaan 12 dengan mengalikan pembilang dan penyebut
ruas kanan persamaan 13 dengan
, ,
i i
b Da
e

.
Model logistik Tiga Parameter
Persamaan fungsi karakteristik butir untuk model logistik tiga parameter adalah sebagai
berikut: , , , ,
, ,
, ,
n i
e
e
c c P
i i i
i i i
b a D
b a D
i i i
,..., 3 , 2 , 1 ;
1
1 =
)
`
+
+ =

(14)
, , =
i
P peluang seseorang dengan kemampuan menjawab butir soal ke-i dengan benar
=
i
a parameter daya pembeda untuk biutir soal ke -i
=
i
b parameter tingkat kesulitan untuk butir soal ke -i
=
i
c parameter tebakan (pseudo-guessing) untuk butir soal ke-i
= n banyaknya butir soal dalam tes
e dan D sama seperti pada model logistik dua parameter
Model logistik tiga parameter memperbolehkan adanya asimtot bawah yang tidak
nol, yang berarti model ini mengijinkan adanya faktor tebakan, seperti yang terjadi pada
tes pilihan ganda. Dua butir soal pada gambar 3 mempunyai daya pembeda yang sama
namun mempunyai unsur tebakan yang ber beda. Butir soal nomor 1 mempunyai fakor
tebakan yang lebih besar (c=0,1) dibandingkan faktor tebakan pada butir soal nomor 2
(c=0). Persamaan 14 dapat ditulis sebagai berikut:
, ,
, ,
n i
e
c
c P
i i
b Da
i
i i
,..., 3 , 2 , 1 ;
1
1
=
+

+ =

(15)
Persamaan (15) diperoleh dari persamaan 14 dengan mengalikan pembilang dan penyebut
suku kedua ruas kanan persamaan 14 dengan
, ,
i i
b Da
e

.
Perbandingan Teori Tes Klasik dan Teori Tes Modern
Teori tes klasik memuat berbagai keunggulan dan kelemahan. Keunggulan teori
tes klasik, antar lain: (1) menggunakan konsep yang sederhana untuk menentukan
kemampuan peserta tes, (2) menggunakan konsep yang sederhana dalam menghitung
koefisien validitas dan reliabilitas tes serta menghitung nilai parameter butir soal, (3)
dapat digunakan pada sampel kecil, misalnya pada tingkat kelas, (4) sudah digunakan
dalam praktis pengukuran dan pengujian dalam kurun waktu yang lama, sehingga telah
diketahui dan dipahami oleh sebagian besar orang yang berkecimpung atau terkait dengan
dunia pendidikan dan pskologi. Di sisi lain, seperti telah disebutan di muka, kelemahan
teori tes klasik, antara lain, adalah: (1) kemampuan peserta tes dinyatakan dalam variabel
yang deskrit, dan (2) besarnya koefisien validitas dan koefisien reliabilitas suatu tes s erta
nilai parameter suatu butir soal tergantung kepada peserta tes yang dikenai suatu tes.
Karena munculnya teori tes modern dimaksudkan untuk menutup kelemahan -
kelemahan yang ada pada teori tes klasik, maka keunggulan teori tes modern, antara lain,
adalah: (1) lebih baik landasan teorinya dibandingkan dengan teori tes klasik,
(2)kemampan peserta tes dinyatakan dalam variabel yang kontinu, (3) tidak diperlukan
tes paralel untuk menghitung koefisien reliabilitas (yang dalam teori tes modern disebut
No.1 / Volume 20 / 2011
WIDYATAMA
WIDYATAMA
78
fungsi informasi), dan (4) besarnya koefisien reliabilitas suatu tes dan nilai parameter
suatu butir soal tidak tergantung kepada peserta tes yang dikenai suatu tes. Namun
demikian, penggunaan teori tes modern mengandung sejumlah kelemahan, anatara lain,
adalah: (1) memerlukan sampel besar untuk dapat menghasilkan parameter yang stabil,
sehingga konsep teori modern tidak dapat diterapkan pada tingkat kelas, (2) diperlukan
soft ware (program komputer) yang andal untuk dapat melakukan estimasi parameter
yang akurat, dan (3) belum diterima keberadaannya oleh sebagian besar orang yang
berkecimpung di dunia pendidikan dan psikologi, terutama di Indonesia. Dewasa ini
belum banyak soft ware yang dapat digunakan oleh masyarakat untuk mengestimasi
parameter butir soal berdasarkan teori modern.
Penutup
Pengukuran dalam pendidikan meliputi pengukuran kemampuan peserta tes dan
pengukuran karakteristik alat ukur yang digunakan. Ada dua teori pengukuran yang
sampai saat ini masih berkembang, yaitu teori tes klasik dan teori tes modern. Teori tes
yang digunakan di Indonesia saat ini adalah teori tes klasik. Teori tes modern sudah
berkembang di negara yang sudah maju . Teori tes modern dalam proses perhitungan skor
peserta tes sangat rumit sehingga memerlukan bantuan komputer. Sema kin banyak
komputer yang digunakan di dalam pengukuran pendidikan, maka semakin berkembang
teori tes modern digunakan di dunia pendidikan.
Daftar Rujukan
Allen, M.J. & Yen, W.M. 1979. Introduction to measurement theory . Montere:
Brooks/Cole Publising Company.
Bachman, Lyle F. 1990. Fundamental considerations in language testing . Oxford:
Oxford University Press.
Cronbach, L. J. 1970. Essentials of psychological testing (Ed.6). New York: Harper &
Row.
Hambleton, R.K., & Swaminathan, H.. 1985. Item response theory principles and
applications. Boston: Kluwer-Nijhoff Publishing.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. 1991. Fundamentals of item
response theory. London: Sage Publication.
Suryabrata, S. 1982. Psikologi belajar: Materi dasar pendidikan program bimbingan
dan konseling di perguruan tinggi . Jakarta: Ditjen Pendidikan Tinggi.
Suryabrata, S. 2000. Pengembangan alat ukur psikologis . Yogyakarta: Andi.

14 22 1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

14 22 1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

69

Teori Tes Klasik dan Teori Tes Modern

Anda mungkin juga menyukai