Anda di halaman 1dari 11

Teori Tes Klasik dan Teori Tes Modern

Suwarto

Program Studi Pendidikan Biologi FKIP


Universitas Veteran Bangun Nusantara Sukoharjo
Jl. Sujono Humardani No. 1 Jombor Sukoharjo,
e-mail: suwartowarto@yahoo.com

Abstrak

Pengukuran dalam pendidikan tidak dapat dipisahkan dari pengukuran


kemampuan peserta didik. Kemampuan peserta didik dapat diukur dengan
menggunakan alat ukur (tes). Seorang pendidik sebaiknya mengetahui teori
penskoran yang digunakan untuk meng ukur kemampuan peserta didik .
Teori penskoran meliputi teori tes klasik dan teori tes modern. Masing
-masing teori tes ini memiliki kelebihan dan kekurangan. Teori tes yang
berkembang di Indonesia saat ini adalah teori tes klasik. Teori tes modern
sudah ber kembang dibeberapa negara yang sudah maju. Kemajuan teknologi
seperti ditemukannya komputer telah memberikan dampak dalam
pengembangan teori tes modern. Proses penghitungan hasil penskoran
peserta tes dengan menggunakan teori tes modern lebih kompleks dari pada
menggunakan tes klasik.

Kata-kata Kunci: teori tes klasik, teori tes modern

Pendahuluan

Pengukuran dalam pendidikan meliputi pengukuran k emampuan peserta tes dan


pengukuran karakteristik alat ukur yang digunakan. Ada dua teori pengukuran yang
sampai saat ini masih dikembangkan, yaitu teori tes klasik dan teori tes modern. Teori tes
klasik disebut juga classical test theory (CTT) , sedang teori tes modern disebut juga item
response theory (IRT).
Teori Tes Klasik (Classical Test Theory)
Teori ini disusun berdasarkan asumsi -asumsi. Berikut ini asumsi -asumsi teori tes
klasik disarikan dari Allen & Yen (1979).
Asumsi-asumsi Teori Tes Klasik
Asumsi utama teori ini adalah skor amatan seorang peserta tes adalah jumlah dari
skor sebenarnya dengan sekor kesal ahannya. X = T + E; dimana: X adalah skor amatan
(nilai pretasi); T skor yang sebenarn ya dan E skor kesalahan. Skor kesalahan adalah
melesetnya skor perolehan dari keadaan yang sebenarnya dan terjadi secara rambang
( Suryabrata, 1984).
Asumsi kedua dalam teori tes klasik adalah nilai rata -rata populasi dari nilai
amatan merupakan nilai independen yang sama dengan skor sebenarnya untuk setiap
peserta tes pada tes yang sama. [E(X)=T] Maksudnya skor sebenarnya itu merupakan
nilai skor rata-rata perolehan teoritis sekiranya dilakukan pengukuran secara berulang
dengan mengunakan alat ukur yang sama.
Asumsi ketiga; skor sebenarnya dan skor kesalahan yang dicapai dalam suatu
populasi pada suatu tes tidak berkorelasi . [ ET  0 ]. Asurnsi ini memberikan

69
No.1 / Volume 20 / 2011 WIDYATAMA

pengertian bahwa tidak ada korelasi antara skor sebenarnya dengan skor kesalahan.
Seorang peserta tes yang memiliki nilai sebenarnya tinggi tidak musti memiliki skor
kesalahan yang tinggi, demikian juga terhadap peserta yang memiliki skor sebenarnya
yang rendah belum tentu memiliki skor kesalahan yang tinggi.
Tidak Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol; [ E1E2  0 ]. Artinya peserta tes yang memiliki skor
kesalahan yang tinggi pada tes pertama belum tentu mendapat nilai skor kesalahan pada
tes kedua. Hal ini memberikan pengertian bahwa rentang pelaksanaan tes pertama dan
kedua dapat dipengaruhi oleh situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang meng ukur atribut yang sama, skor kesalahan pada
tes pertama tidak berkorelasi dengan skor sebenarnya pada tes kedua. Asumsi-asumsi ini
(pertama sampai kelima) memberikan penafsiran yang sangat sederhana tentang nilai
hasil ujian. Sehingga karakteristik tes dan bahkan peserta tes berdasarkan hasil ujian
dalam kelornpok. Dan kesalahan secara sistematik tidak dapat
disebut sebagai kesalahan pengukuran (Allen & Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama, dimana
2
menghasilkan skor perolehan X , dan skor sebenarnya T 1 dan T2, dan varian skor σ 1 dan
2 2
σ2 2, kedua perangkat ini dikatakan tes paralel jika T 1= T2 dan σ 1= σ 2 dan memenuhi
asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk mengukur
trait yang sama dan memenuhi asumsi pertama sampai kelim a, dikatakan tes setara
(equivalent test) jika pada setiap populasi peserta tes skor perolehan dari tes pertama (X
1) sama dengan skor perolehan tes kedua yang ditambahkan dengan suatu konstanta (C),
[X 1 = X2+CI2].
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan b, sering
juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai perbandingan
antara jumlah jawaban benar dengan jumlah peserta tes. Atau dapat dituliskan dalam
B
bentuk rumus matematik: p N (1)
p = indek kesukaran soal
∑ B= jumlah jawaban benar
N = jumlah peserta tes
(Catatan: lambang p akan digunakan dalam pembahasan ini).

Nilai batasan tingkat kesukaran soal teletak antara 0 dan 1, karen a merupakan perbandingan
antara jumlah jawaban benar dengan jumlah soal, dapat
dituliskan dalam bentuk matematika berikut ini: 0p1 (2)
Tabel 1 Skala Tingkat Kesukaran Butir
Indek kesukaran (p) Kategori soal
p > 0,70 Mudah
0,30 < p < 0,70 Sedang
p < 0,30 Sukar
Karakteristik daya beda (a=daya pembeda) butir, didefinisikan sebagai

kemampuan butir untuk membedakan antara kelompok yang pintar dan kelompok

70 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern

72
73
70
74
X
71
pi
qi

yang bodoh. Pengertian yang lain adalah kesesuaian soal itu dengan keselu ruhan tes
(kumpulan soal) dalam membedakan antara mereka yang tinggi kemampuannya dan
mereka yang rendah kemampuannya dalam hal -hal yang diukur oleh tes yan g
bersangkuan (Suryabrata, 1984 ). Jika dalam suatu kelompok peserta tes dibagi pada dua
kelompok , kelompok X dan Y maka daya beda soal adalah kemampuan soal itu
membedakan antara kelompok X dan Y. Bentuk formula yang dapat digunakan untuk
menghitung indek daya pembeda adalah: (Allen & Yen, 1979):

p
r  Xi X i (3)
bis
sx qi
dimana rbis = koefisien biserial
= rata-rata sekor pada butir ke
-i = rata-rata sekor total
= standar deviasi sekor total
= probabilitas jawaban benar
= probabiltas jawaban salah (1 - pi)

Rentang korelasi skor butir dengan skor peserta, yang baik adalah antara 0,40 -
0,70, sedangkan yang memiliki <0,2 harus dibuang, dan yang memiliki daya pembeda >
0,70 disebut sangat baik (Sudijono, 2001). Nilai negatif berarti daya bedanya tidak
berfungsi. Lebih lengkap disajikan pada Tebel 2.

Tabel 2 Interval Daya Pembeda Butir (a)

Interval a Klasifikasi Interpretasi


a < 0,20 Jelek Daya pembeda jelek
0,20 < a < 0,40 Memuaskan Memiliki daya pembeda yang cukup
0,41< a < 0,70 Baik Memiliki daya pembeda yang baik
0,71< a < 1,00 Sangat baik Memiliki daya pembeda yang sangat baik
Pada dasarnya batasan nilai a pada Tabel 2 menunjukkan batasan yang cukup
baik setelah dilakukan perbaikan pada batas -batas intervalnya. kedua batas kiri dan batas
kanan dari setiap kelas interval tidak saling terkait satu dengan yang lain.

Validitas Tes

Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas bila tes
tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai dengan berbagai
cara, tergantung pada tes dan maksud penggunaannya. (a) Content Validity.Validitas isi
atau muatan adalah kerepresentatifan yang terdapat dalam muatan suatu instrumen
pengukur. Validitas isi dinilai melalui analisis rasional mengenai isi suatu tes dan
penentuannya didasarkan pada penilaian (judgment) individual yang subjektif. Ada dua
jenis utama validitas isi: validitas tampilan ( face validity) dan validitas logis ( logical
validity ) . (b). Criterion-Related Validity. Validitas Relasi-Kriteria digunakan bila

71
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA

skor - skor tes d apat dihubungkan untuk kepentingan prediksi. Dengan demikian validitas
relasi-kriteria dikaji dengan cara membandingkan skor tes atau skala dengan satu atau lebih
variabel ekstra (variabel eksternal) atau kriteria yang diketahui (atau diyakini) merupakan
pengukur atribut yang sedang dikaji. Biasanya validitas relasi - kriteria ditampilkan sebagai
koefisien korelasi, yaitu korelasi antara skor tes (prediktor) dan skor kriteria. Korelasi ini
disimbulkan sebagai  xy , dimana x merupakan skor t es dan
y skor kriteria. Koefisien validitas,  xy , diestimasi dengan salah satu diantara dua cara
yang menghasilkan estimasi validitas prediksi ataupun validitas konkuren. (c). Contruct
Validity. Validitas konstruk merupakan bentuk penge mbangan validitas yang terbaru
dibandingkan dengan tipe -tipe validitas yang lain. Validitas konstruk suatu tes adalah
sejauh mana suatu tes mengukur konstruk teoretis atau trait yang didesain untuk diukur.
Validitas konstruk ini merupakan kemajuan ilmiah y ang penting dalam teori dan praktek
pengukuran karena menghubungkan gagasan dan praktek psikometrik disatu pihak,
dengan gagasan teoretis dipihak lain. Para pakar dibidang pengukuran, ketika menelaah
validitas konstruk suatu tes, biasanya ingin mengetahui suatu sifat (atau sifat-sifat)
psikologis atau lainnya yang dapat ”menjelaskan” varian tes itu.
Magnusson (1967) menyatakan bahwa dukungan terhadap adanya validitas
konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi mengenai perbedaan
diantara kelompok-kelompok yang menurut teori harus berbeda, (2) studi mengenai
pengaruh perubahan yang terjadi dalam diri individu dan lingkungannya terhadap hasil
tes, (3) studi mengenai korelasi diantara berbagai variabel yang menurut teori mengukur
aspek yang sama, dan (4) studi mengenai korelasi antar butir atau antar belahan tes.
Sejalan dengan hal itu, Kerlinger (1973) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah ukuran yang
tidak begitu banyak, yang disebut faktor - faktor, dengan menyingkapkan faktor - faktor
mana saja yang ”setujuan” (yang ukurannya mengukur hal yang sama) serta relasi
antar kelompok-kelompok ukuran yang setujuan itu, merupakan metode yang kuat dan
sangat perlu untuk validasi konstruk. Jadi akan sangat tepat bila seorang peneliti
melakukan analisis faktor bila ingin mengetahui validitas konstruk butir -butir soal dalam
suatu perangkat tes.
Reliabilitas Tes

Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaia n antara dua
upaya yang dilakukan untuk mengukur trait yang sama melalui metode yang sangat
serupa. Ada tiga pendekatan untuk mengestimasi reliabilitas suatu tes meliputi: (1)
estimasi konsistensi internal, (2) estimasi stabilitas, dan (3) estimasi ekuival ensi.
Estimasi konsistensi internal sangat berkait dengan sources of error di dalam prosedur tes
dan skoring, estimasi stabilitas menunjukkan konsistensi skor tes dari waktu ke waktu,
sedangkan estimasi ekuivalensi menunjukkan sejauh mana skor pada berbaga i bentuk
dari suatu tes ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan
tersebut disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi performasi peserta
tes pada berbagai bagian tes. Konsiste nsi internal meliputi: (1) Estimasi Reliabilitas
Belah-dua (Split-half Reliability). Untuk mengestimasi reliabilitas dengan metode ini kita
harus membelah tes menjadi dua dan menentukan sejauh mana skor pada dua belahan ini

72 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern

konsisten satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang berarti bahwa rerata dan varian kedua tes
tersebut sama.
Di samping itu harus diasumsikan pula bahwa kedua tes tersebut independen satu
sama lain dalam artian bahwa performasi seseorang pada satu belahan tidak
mempengaruhi performasinya pada belahan yang lain. Estimasi dengan cara ini meliputi:
(2) Estimasi Belah-Dua Spearman-Brown. Koefisien reliabilitas pada estimasi belah -dua
Spearman-Brown dapat diperoleh melalui formula: rxx'  2rhh
'

(4)
1  rhh'
Dimana rhh' merupakan korelasi yang diperoleh antara dua belahan tes.

(3) Estimasi Belah-Dua Guttman. Koefisien korelasi belah -dua pada metode ini didasarkan pada rasio
jumlah total varian pada kedua tes terhadap varian tes secara
 s 2 h  s 2 h 2
keseluruhan: r  21  1
 (5)
2
'
xx  

  s x

2 2
Dimana s h1 , dan s h2 merupakan varian pada kedua tes.
(4) Estimasi Reliabilitas Berdasarkan Varian Butir . Koefisien reliabilitas pada metode ini
diperoleh melalui beberapa cara yaitu:
Koefisien Reliabilitas Kuder -Richardson.
Koefisien reliabilitas Kuder -Richardson diperoleh melalui rumus KR -20 dan KR-21.
k   pq 
Rumus KR-20 adalah: r '  1   (6)
xx k  1 s2x 
 
Dimana k adalah jumlah butir tes,  pq adalah jumlah varian butir, dan s 2 x , adalah
varian skor tes total. Sementara itu rumus KR21 adalah: r 
 ks 2 x  x k  x 
(7)
k  1s
'

xx 2
x

Koefisien Alpha
Cronbach (1951) mengembangkan suatu rumus untuk mengestimasi konsistensi
internal yang disebutnya sebagai ’koefisien Alpha’ atau yang dikenal sebagai
k  s2i 
’Cronbach’s Alpha’:  1   (8)
k1

s2x 
 

Dimana k adalah jumlah but ir tes,


s2 i
adalah nilai varian pada berbagai bagian tes
2
yang berbeda, dan s x , adalah varian skor tes total.
Konsistensi Rater
a. Intra-rater Reliability
Reliabilitas pada metode ini melalui penilaian oleh seorang penilai . Untuk
mencari reliabilitas nilai yang diberikan oleh seorang rater, kita harus memperoleh
setidaknya dua penilaian yang independen oleh rater tersebut untuk masing-masing
sampel yang dinilai. Ini diperoleh dengan menilai sampel satu kali dan kemudian
menilainya kembali pada waktu yang berbeda. Setelah nilai diperoleh maka

73
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA

reliabilitasnya dapat diperoleh melalui dua cara. Cara yang pertama adalah: dengan
memperlakukan dua set hasil penilaian tersebut sebagai skor dari dua tes paralel dan
menghitung korelasi keduannya, selanjutnya hasil ini diinterpretasikan sebagai estimasi
reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing -masing
k  s2r  s2r 
nilai dengan rumus:  1  1 2
 (9)
 2 

k1 s r1r 2 
Dimana s 2 r1 dan s 2 r 2 adalah varian dari masing -masing penilai dan s 2 r1r 2 adalah varian
dari dua penilai yang dijumlahkan.
b. Inter-rater Reliability
Untuk mencari koefisien inter-rater, pada dasarnya kita dapat menggunakan
pendekatan yang sama seperti pada konsistensi i n t r a - r a t e r . Kita dapat menghitung
korelasi antar dua rater yang berbeda dan menginterpretasikannya sebagai estimasi
reliabilitas. Jika lebih dari dua rater yang terlibat maka cara yang digunakan adalah cara
yang direkomendasikan oleh Ebel (1979) yaitu menjumlah hasil penilaian oleh r a t e r
yang berbeda dan kemudian mengestimasi reliabilitas jumlah rating tersebut dengan
menghitung koefisien Alpha dimana k adalah jumlah rater, s 2 i adalah varian hasil
penilaian oleh seorang rater, dan  s 2 i adalah jumlah toal varian hasil
penilaian oleh masing-masing rater, dan s 2 x adalah varian dari hasil penilaian yang
dijumlahkan.
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes memberikan
suatu tes dua kali pada sekelompok individu dan kemudian menghitung koreasi antara
dua perangkat skor. Korelasi ini dapat diinterpretasikan sebagai indikasi sejauh mana
stabilitas skor dari waktu ke waktu. Hal yang diutamakan pa da pendekatan ini adalah
memastikan bahwa peserta tes tidak berubah begitu saja secara sistematis diantara kedua
tes. Dalam hal ini pemberi tes harus dapat memastikan bahwa baik practice-effect
maupun learning-effect setara antara individu maupun random. Untuk itu pemberi tes
harus dapat mencari tenggang waktu yang tepat untuk semaksimal mungkin mengurangi
practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguakan untuk
mengestimasi reliabilitas suatu tes deng an mencari ekuivalensi skor yang diperoleh dari
berbagai bentuk tes yang berbeda. Sama halnya dengan pendekatan test - retest , metode
inimerupakan sarana yang tepat untuk mengestimasi reliabilitasb tes bila estimasi dengan
konsistensi internal tdak tepat ata u tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin memberikan
suatu tes kepada seluruh peserta es pada waktu yang bersamaan, dan ia tidak ingin
peserta tes yang pertama membocorkan informasi mengenai tes tersebut kepada peserta
tes kedua. Pada situasi yang lain seorang pemberi tes mungkin ingin mengukur
kemampuan bahasa seseorang berulangkali selama waktu tertentu dan ingin memastikan
bahwa perubahan pada performansi yang terjadi bukan disebabkan oleh practice-effect
sehingga ia menggunakan berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes
harus dapat memastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen,
khususnya dalam hal tingkat kesulitan dan deviasi standarnya.

74 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern

Teori Tes Modern (Item Response Theory)


Untuk mengatasi kelemahan -kelemahan yang ada pada teori klasik, para ahli
pengukuran berusaha untuk mencari alternatif. Model yang diinginkan harus mempunyai
sifat-sifat: (1) karakteristik butir tidak tergantung kepada kelompok peserta tes yang
dikenai butir soal tersebut, (2) skor yang menyatakan kemampuan peserta tes tidak
tergantung pada tes, (3) model dinyatakan dalam tingkatan (level) butir soal, tidak dalam
tingkatan tes, (4) model tingkat tidak memerlukan tes paralel untuk menghitung koefisien
reliabilitas, dan (5) model menyediakan ukuran yang tepat untuk setiap skor kemampuan
(Hambleton, Swaminathan, & Rogers, 1991: 5). Model alternatif yang dapat mempunyai
ciri-ciri itu adalah model pengukuran yang disebut teori respon butir ( Item Response
Theory).
Teori tes modern atau biasa disebut dengan teori respon butir ( item response
theory) dikembangkan oleh para ahli pengukuran bidang psikologi dan pendidikan
sebagai upaya meminimalkan kekurangan -kekurangan yang ada dalam teori tes klasik.
Perhitungan dalam analisis butir berdasarkan teori ini dapat dilakukan dengan
menggunakan bantuan program komputer.
Sebagaimana halnya dalam teori klasik, dalam teori respon butir juga didasari
oleh postulat dasar. Ada dua postulat dasar dari teori tes mo dern (Hambelton,
Swaminathan & Rogers, 1991: 7), yaitu: (1) hasil kerja seorang peserta tes pada suatu
butir soal dapat diprediksikan (atau dijelaskan) dari suatu jenis faktor -faktor yang disebut
sifat-sifat, sifat-sifat laten, atau kemampuan; (2) hubungan antara hasil kerja peserta tes
pada suatu butir tes dengan sifat -sifat yang mendasarinya dapat dideskripsikan oleh
fungsi yang meningkat yang bersifat monotonic yang disebut dengan fungsi karakteristik
butir (item characteristic function atau item characteristic curve-ICC). Fungsi ini
menje1askan, jika taraf sifat -sifat (kemampuan) meningkat, maka probabilitas menjawab
benar pada suatu butir tes juga meningkat.
Asumsi-asumsi Teori Tes Modern
Sebagaimana halnya dalam teori tes klasik, dalam teori respon but ir juga
mengandung asumsi-asumsi yang mendasarinya, yaitu: (a) Unidemensionalitas, (b)
Independensi lokal, dan (c) Fungsi karakteristik butir menyatakan hubungan yang
sebenarnya antara variabel yang tak terobservasi (yaitu kemampuan) dengan variabel
terobservasi (yaitu respon butir) (Hambleton., Swaminathan, & Rogers, 1991: 9;
Surabrata, 2000: 28). Asumsi unidemensionalitas dan independensi lokal dapat dijelaskan
sebagai berikut.
Asumsi unidemensionalitas menyatakan bahwa hanya satu kemampuan yang
diukur oleh sekumpulan butir-butir soal dalam suatu tes. Asumsi ini pada praktik sukar
dipenuhi, sebab terdapat banyak faktor yang dapat mempengaruhi hasil suatu tes. Faktor -
faktor tersebut antara lain tingkat motivasi, kecemasan, kemampuan untuk bekerja cepat,
dan keterampilan kognitif lain diluar kemampuan yang diukur oleh sekumpulan butir soal
dalam suatu tes. Hal yang dimaksud dengan unidemensionalitas dalam hal ini adalah
adanya faktor-faktor dominan yang mempengaruhi hasil suatu tes. Faktor -faktor
dominan itulah yang disebut kemampuan yang diukur oleh suatu tes.
Asumsi independensi lokal menyatakan bahwa sikap kemampuan yang
mempengaruhi suatu tes adalah konstan, maka respon peserta tes pada setiap pasang butir
soal adalah independen secara statistik. Dengan k ata lain, asumsi independensi lokal
menyatakan bahwa tidak ada korelasi antara respon peserta tes pada butir soal yang

75
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA

berbeda. Hal ini juga berarti bahwa kemampuan yang dinyatakan dalam model adalah
sau-satunya faktor yang mempengaruhi respon peserta tes pada butir-butir soal.
Model-model dalam Teori Tes Modern Unidemensional
Dalam model logistik (teori tes modern) yang menggunakan 1 parameter, tingkat
kesukaran butir didefinisikan sebagai nilai skala kemampuan peserta tes yang memiliki
probabilitas 0,50 untuk menjawab dengan benar pada butir tertentu (Hambleton, 1989:
154). Jadi pada dasarnya b = θ sehingga dalam kurva karakteristik (Lord, 1980: 14):
bi   , terletak pada Pi    0,5  1  ci  (10)

Model Logistik Satu Parameter


Model logistik satu parameter sering disebut juga dengan model Rasch, sebagai
penghargaan kepada penemunya. Fungsi karakteristik butir untuk model logistik satu
parameter ditentukan dengan persamaan (Hambleton, Swaminathan & Rog ers, 1991: 12):
e  bi 
Pi( )   b  ; i  1,2,3,..., n (11)
1
e i
Pi    peluang seseorang dengan kemampuan  menjawab butir soal ke -i dengan
benar. bi  parameter tingkat kesulitan untuk butir soal ke -i
n  banyaknya butir soal dalam tes.
e  bilangan pokok logaritma natural, yang nilainya adalah 2,718, jika
dibulatkan ketiga angka dibelakang koma.
Parameter tingkat kesulitan, yaitu b, untuk sebuah butir soal adalah titik pada skala
kemampuan, pada titik itu peluang menjawab benar butir tersebut sebesar 0,5
(Hambleton, Swaminathan & Rogers, 1991: 13).
Model Logisik Dua Parameter
Pada tahun 1952, Lord mengemba ngkan model respon butir dua parameter
dengan mendasarkan pada Ogive distribusi normal. Lord dipandang sebagai orang yang pertama
mengembangkan model respon butir dua parameter (Hambleton, Swaminathan
& Rogers, 1991: 14). Kemudian, pada tahun 1968, Birnbau m mengembangkannya
menjadi model logistik dua parameter dengan persamaan berikut (Hambleton,
D a  b 
Swaminathan & Rogers, 1991: 15): Pi    e i i i ; i  1,2,3,..., n (12)
1  e Di ai  bi 
Pi    peluang seseorang dengan kemampuan  menjawab butir soal ke -i dengan
benar ai  parameter daya pembeda untuk butir soal k -i
bi  parameter tingkat kesulitan soal k -i
n  banyaknya butir soal dalam tes
e  bilangan pokok logaritma natural, yang nilainya adalah 2,718, jika
dibulatkan ketiga angka dibelakang koma.
D  faktor skala, yang nilainya diambil sebesar 1,7, yaitu simpangan baku
distribusi logistik yang paling mendekati distribusi normal.

76 WIDYATAMA
Suwarto, Teori Tes Klasik dan Teori Tes Modern

Persamaan fungsi karakteristik bitir pada persamaan (12 ) dapat ditulis dalam
bentuk lain sebagai berikut: Pi    1 ; i  1,2,3,..., n (13)
1  e Da  b 
i i

Persamaan 13 diperoleh dari persamaan 12 dengan mengalikan pembilang dan


 
penyebut ruas kanan persamaan 13 dengan e  Da  b .i i

Model logistik Tiga Parameter


Persamaan fungsi karakteristik butir untuk model logistik tiga parameter adalah sebagai

      e D a  b  
i i i

berikut: Pi ci 1 c i
; i  1,2,3,..., n (14)
 1  e Di ai  bi  
Pi    peluang seseorang dengan kemampuan  menjawab butir soal ke -i dengan
benar ai  parameter daya pembeda untuk biutir soal ke -i
bi  parameter tingkat kesulitan untuk butir soal ke -i
ci  parameter tebakan (pseudo-guessing) untuk butir soal ke-i
n  banyaknya butir soal dalam tes
e dan D sama seperti pada model logistik dua parameter
Model logistik tiga parameter memperbolehkan adanya asimtot bawah yang tidak
nol, yang berarti model ini mengijinkan adanya faktor tebakan, seperti yang terjadi pada
tes pilihan ganda. Dua butir soal pada gambar 3 mempunyai daya pembeda yang sama
namun mempunyai unsur tebakan yang ber beda. Butir soal nomor 1 mempunyai fakor
tebakan yang lebih besar (c=0,1) dibandingkan faktor tebakan pada butir soal nomor 2
(c=0). Persamaan 14 dapat ditulis sebagai berikut:
P i    c i  1  ci ; i  1,2,3,..., n (15)
1  e  Da  b 
i i

Persamaan (15) diperoleh dari persamaan 14 dengan mengalikan pembilang dan


 
penyebut suku kedua ruas kanan persamaan 14 dengan e  Da  b . i i

Perbandingan Teori Tes Klasik dan Teori Tes Modern


Teori tes klasik memuat berbagai keunggulan dan kelemahan. Keunggulan teori tes
klasik, antar lain: (1) menggunakan konsep yang sederhana untuk menentukan kemampuan
peserta tes, (2) menggunakan konsep yang sederhana dalam menghitung koefisien validitas
dan reliabilitas tes serta menghitung nilai parameter butir soal, (3) dapat digunakan pada
sampel kecil, misalnya pada tingkat kelas, (4) sudah digunakan dalam praktis pengukuran
dan pengujian dalam kurun waktu yang lama, sehingga telah diketahui dan dipahami oleh
sebagian besar orang yang berkecimpung atau terkait dengan dunia pendidikan dan pskologi.
Di sisi lain, seperti telah disebutan di muka, kelemahan teori tes klasik, antara lain, adalah:
(1) kemampuan peserta tes dinyatakan dalam variabel yang deskrit, dan (2) besarnya
koefisien validitas dan koefisien reliabilitas suatu tes s erta nilai parameter suatu butir soal
tergantung kepada peserta tes yang dikenai suatu tes.
Karena munculnya teori tes modern dimaksudkan untuk menutup kelemahan -
kelemahan yang ada pada teori tes klasik, maka keunggulan teori tes modern, antara lain,
adalah: (1) lebih baik landasan teorinya dibandingkan dengan teori tes klasik,
(2)kemampan peserta tes dinyatakan dalam variabel yang kontinu, (3) tidak diperlukan
tes paralel untuk menghitung koefisien reliabilitas (yang dalam teori tes modern disebut

77
WIDYATAMA
No.1 / Volume 20 / 2011 WIDYATAMA

fungsi informasi), dan (4) besarnya koefisien reliabilitas suatu tes dan nilai parameter
suatu butir soal tidak tergantung kepada peserta tes yang dikenai suatu tes. Namun
demikian, penggunaan teori tes modern mengandung sejumlah kelemahan, anatara lain,
adalah: (1) memerlukan sampel besar untuk dapat menghasilkan parameter yang stabil,
sehingga konsep teori modern tidak dapat diterapkan pada tingkat kelas, (2) diperlukan
soft ware (program komputer) yang andal untuk dapat melakukan estimasi parameter
yang akurat, dan (3) belum diterima keberadaannya oleh sebagian besar orang yang
berkecimpung di dunia pendidikan dan psikologi, terutama di Indonesia. Dewasa ini
belum banyak soft ware yang dapat digunakan oleh masyarakat untuk mengestimasi
parameter butir soal berdasarkan teori modern.

Penutup
Pengukuran dalam pendidikan meliputi pengukuran kemampuan peserta tes dan
pengukuran karakteristik alat ukur yang digunakan. Ada dua teori pengukuran yang
sampai saat ini masih berkembang, yaitu teori tes klasik dan teori tes modern. Teori tes
yang digunakan di Indonesia saat ini adalah teori tes klasik. Teori tes modern sudah
berkembang di negara yang sudah maju . Teori tes modern dalam proses perhitungan skor
peserta tes sangat rumit sehingga memerlukan bantuan komputer. Sema kin banyak
komputer yang digunakan di dalam pengukuran pendidikan, maka semakin berkembang
teori tes modern digunakan di dunia pendidikan.

Daftar Rujukan
Allen, M.J. & Yen, W.M. 1979. Introduction to measurement theory . Montere:
Brooks/Cole Publising Com pany.
Bachman, Lyle F. 1990. Fundamental considerations in language testing . Oxford:
Oxford University Press.
Cronbach, L. J. 1970. Essentials of psychological testing (Ed.6). New York: Harper &
Row.
Hambleton, R.K., & Swaminathan, H.. 1985. Item response theory principles
and applications. Boston: Kluwer-Nijhoff Publishing.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. 1991. Fundamentals of
item response theory. London: Sage Publication.
Suryabrata, S. 1982. Psikologi belajar: Materi dasar pendidikan program bimbingan
dan konseling di perguruan tinggi . Jakarta: Ditjen Pendidikan Tinggi.
Suryabrata, S. 2000. Pengembangan alat ukur psikologis . Yogyakarta: Andi.

78 WIDYATAMA

Anda mungkin juga menyukai