3b.teori Valid
3b.teori Valid
Teori tes klasik ini telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan asumsiasumsi. Berikut ini asumsi-asumsi teori tes klasik disarikan dar i Allen
& Yen (1979).
Asumsi-asumsi Teori Tes Klasik
Asumsi utama teori ini adalah skor amatan seorang peserta tes adalah
jumlah dari skor sebenarnya dengan sekor kesalahannya. X = T + E; dimana: X
adalah skor amatan (nilai pretasi); T skor yang sebenarny a dan E skor
kesalahan. Skor kesalahan adalah melesetnya skor perolehan dari keadaan yang
sebenarnya dan terjadi secara rambang (Suryabrata, 1984).
166
Asumsi kedua dalam teori tes klasik adalah nilai rata -rata populasi dari
nilai amatan merupakan nilai indepe nden yang sama dengan skor sebenarnya
untuk setiap peserta tes pada tes yang sama. [E(X)=T] Maksudnya skor
sebenarnya itu merupakan nilai skor rata -rata perolehan teoritis sekiranya
dilakukan pengukuran secara berulang dengan mengunakan alat ukur yang
sama.
Asumsi ketiga; skor sebenarnya dan skor kesalahan yang dicapai dalam
suatu populasi pada suatu tes tidak berkorelasi. [ 0 ]. Asumsi ini
ET
yang memiliki skor kesalahan yang tinggi pada tes pertama belum tentu
mendapat nilai skor kesalahan pada tes kedua. Hal ini m emberikan pengertian
bahwa rentang pelaksanaan tes pertama dan kedua dapat dipengaruhi oleh
situasi dan kondisi obyektif peserta tes.
Asumsi kelima; pada tes yang mengukur atribut yang sama, skor
kesalahan pada tes pertama tidak berkorelasi dengan skor seb enarnya pada tes
kedua. Asumsi-asumsi ini (pertama sampai kelima) memberikan penafsiran
yang sangat sederhana tentang nilai hasil ujian. Sehingga karakteristik tes dan
bahkan peserta tes berdasarkan hasil ujian dalam kelornpok. Dan kesalahan
secara sistematik tidak dapat disebut sebagai kesalahan pengukuran (Allen &
Yen, 1979).
Asumsi keenam; dua buah perangkat tes yang mengukur trait yang sama,
dimana menghasilkan skor perolehan X , dan skor sebenarnya T 1 dan T2, dan
2
2
varian skor 1 dan 2, kedua perangkat ini dikatakan tes paralel jika T 1= T2
2
2
dan 1= 2 dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test) jika pada setiap populasi peserta tes skor
perolehan dari tes pertama (X 1) sama dengan skor perolehan tes kedua
yang ditambahkan dengan suatu konstanta (C), [ X 1 = X2+CI2 ].
Meskipun didasari oleh asumsi yang lengkap, namun para pengembang
tes menemukan kekurangan yang sangat mendasar dari teori ini. Keterbatasan
utama teori ini adalah karena karakteristik uji tes didasarkan pada kelompok
uji tes (sample bound). Ciri yang dikandung dalam sebuah tes, baik
berkenaan dengan tingkat kesukarannya, daya beda, maupun tingkat
konsistensinya disebut dengan karakteristik tes, didasarkan pada kelompok uji
tes. Besar kecilnya nilai kelompok berpengaruh pada nilai setiap individu,
demikian juga halnya dengan karakteristik butir yang dikandungnya.
Karakteristik Tes
Karakteristik taraf kesukaran butir, selanjutnya dilambangkan dengan
b, sering juga dituliskan sebagai proportion of correct (p) didefinisikan sebagai
perbandingan antara jumlah jawaban benar dengan jumlah peserta tes. Atau
dapat dituliskan dalam bentuk rumus matematik:
p B
(1)
Kategori soal
Mudah
Sedang
Sukar
rbis X i X p i
sx
qi
Keterangan:
(3)
Suwarto, Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik
Klasifikasi
Jelek
Memuaskan
Baik
Sangat baik
Interpretasi
Daya pembeda jelek
Memiliki daya pembeda yang
cukup
Memiliki daya pembeda yang baik
Interpretasi
Cukup memuaskan
Sedikit atau tanpa
Perbatasan atau perlu revisi
Dibuang atau direvisi total
Validitas Tes
Menurut Bachman (1990), syarat paling penting yang harus
dipertimbangkan dalam pengembangan, penginterpretasian, dan penggunaan
suatu tes adalah validitas yang dapat dia rtikan sebagai konsep terpadu yang
terkait dengan kelayakan dan ketepatan metode yang kita gunakan untuk
menginterpretasikan dan menggunakan skor tes. Validitas suatu
tes
ditampilkan pada kesesuaian antara dua upaya untuk mengukur trait yang sama
melalui metode yang berbeda.
Allen dan Yen (1979), menyatakan bahwa suatu tes memiliki validitas
bila tes tersebut mengukur apa yang seharusnya diukur. Validitas dapat dinilai
dengan berbagai cara, tergantung pada tes dan maksud penggunaannya. Ada
tiga tipe utama validitas yang meliputi validitas isi ( content validity), validitas
yang terkait dengan kriteria ( criterion-related validity), dan validitas konstruk
(contruct validity). Hal ini sejalan dengan apa yang dikemukakan oleh
Kerlinger (1973) bahwa ada tiga tipe utama validitas yaitu validitas isi ,
validitas relasi-kriteria, dan validitas konstruk.
Validitas isi atau muatan adalah kerepresentatifan yang terdapat dalam
muatan suatu instrumen pengukur. Validitas isi dinilai melalui analisis rasional
mengenai isi suatu tes dan penentuannya didasarkan pada penilaian ( judgment)
individual yang subjektif. Ada dua jenis utama validitas isi: validitas tampilan
(face validity) dan validitas logis (logical validity). Suatu tes dikatakan
memiliki validitas tampilan apabila ol eh penilaianya dinyatakan bahwa tes
tersebut mengukur trait yang relevan. Sementara itu, validitas logis adalah
versi yang lebih rumit dari validitas tampilan. Validitas logis melibatkan
definisi yang cermat mengenai ranah perilaku yang harus diukur oleh s uatu tes
dan desain logis dari butir-butir untuk mencakup seluruh aspek penting dari
ranah ini. Validitas logis terutama penting bagi pengembang tes prestasi.
Oleh karena validitas isi didasarkan pada penilaian yang subjektif,
penentuan tipe validitas ini memiliki peluang terjadinya kekeliruan yang lebih
besar dibandingkan dengan tipe -tipe validitas yang lain. Tetapi, umumnya,
menentukan validitas isi merupakan hal yang paling utama dalam
pengembangan seluruh jenis tes dan butir -butir ditulis untuk memenuhi
persyaratan validitas isi. Melalui teknik analisis butir statistik, suatu tes dapat
direvisi dan diperbaiki untuk menjamin bahwa aspek -aspek pengukuran lain
yang baik terpenuhi.
Validitas Relasi-Kriteria digunakan bila skor-skor tes dapat dihubungkan
untuk kepentingan prediksi. Dengan demikian validitas relasi -kriteria dikaji
dengan cara membandingkan skor tes atau skala dengan satu atau lebih
variabel ekstra (variabel eksternal) atau kriteria yang diketahui (atau diyakini)
merupakan pengukur atribut yang sedang dikaji. Biasanya validitas relasi kriteria ditampilkan sebagai koefisien korelasi, yaitu korelasi antara skor tes
(prediktor) dan skor kriteria. Korelasi ini disimbulkan sebagaixy ,
dimana x merupakan skor tes dan y skor keiteri a. Koefisien
validitasxy , diestimasi
xy , dimana x
xy , diestimasi
,
dengan salah satu diantara dua cara yang menghasilkan estimasi validitas
prediksi ataupun validitas konkuren.
Validitas prediktif melibatkan penggunaan skor tes untuk memprediksikan perilaku dimasa mendatang. Koefisien validitas prediktif diperoleh
dengan memberikan tes kepada seluruh orang yang rele van, menunggu
beberapa saat, mengumpulkan skor kriteria, dan mengkal kulasi koefisien
validitasnya. Bila tes digunakan untuk memprediksikan perilaku pa da masa
mendatang, validitas prediktif harus ditentukan. Alternatif lainnya adalah
menggunakan koefisien validitas konkuren. Koefisien validitas konkuren
merupakan korelasi antara skor tes dan skor kriteria jika kedua pengukuran
dilaksanakan pada waktu yan g bersamaan. Tetapi hal ini menyebabkan
validitas konkuren cenderung menghasilkan estimasi yang kurang tepat bagi
koefisiek validitas prediktif.
Validitas konstruk merupakan bentuk pengembangan validitas yang
terbaru dibandingkan dengan tipe -tipe validitas yang lain. Validitas konstruk
suatu tes adalah sejauh mana suatu tes mengukur konstruk teoretis atau trait
yang didesain untuk diukur. Validitas konstruk ini merupakan kemajuan ilmiah
yang penting dalam teori dan praktek pengukuran karena menghubungkan
gagasan dan praktek psikometrik disatu pihak, dengan gagasan teoretis dipihak
lain. Para pakar dibidang pengukuran, ketika menelaah vali ditas konstruk
suatu tes, biasanya ingin mengetahui suatu sifat (atau sifat -sifat) psikologis
atau lainnya yang dapat menjelaskan varian tes itu.
Hal ini sangat penting dalam validitas konstruk yang membedakannya
dengan tipe-tipe validitas yang lain adalah perhatian yang terutama dicurahkan
pada teori, konstruk, teoris, dan telaah empiris ilmiah yang meliputi pengujian
relasi yang dihipotesiskan. Dengan berdasarkan teori terbaru mengenai trait
yang sedang diukur, pengembang tes membuat prediksi me ngenai bagaimana
skor tes harus menunjukkan apa yang diukur dalam berbagai situasi. Walaupun
pengujian validitas konstruk biasanya memerlukan teknik analisis statistika
yang lebih kompleks dari pada teknik -teknik yang dipakai pada pengujian
validitas empirik lainnya, akan tetapi hasil esti masi validitas konstruk tidak
dinyatakan dalam bentuk koefisien validitas.
Magnusson (1967) menyatakan bahwa dukungan terhadap adanya
validitas konstruk dapat dicapai melalui beberapa cara, antara lain (1) studi
mengenai perbedaan diantara kelompok -kelompok yang menurut teori harus
berbeda, (2) studi mengenai pengaruh perubahan yang terjadi dalam dir i
individu dan lingkungannya terhadap hasil tes, (3) studi mengenai korelasi
diantara berbagai variabel yang menurut teori mengukur aspek yang sama, dan
(4) studi mengenai korelasi antar butir atau antar belahan tes. Sejalan dengan
hal itu, Kerlinger (1973 ) menyatakan bahwa analisis faktor, suatu metode
untuk meringkas atau mengurangi sejumlah besar ukuran menjadi sejumlah
ukuran yang tidak begitu banyak, yang disebut faktor-faktor, dengan
menyingkapkan faktor-faktor mana saja yang setujuan (yang ukuranny a
mengukur hal yang sama) serta relasi antar kelompok -kelompok ukuran yang
setujuan itu, merupakan metode yang kuat dan sangat perlu untuk validasi
konstruk. Jadi akan sangat tepat bila seorang peneliti melakukan analisis faktor
bila ingin mengetahui validitas konstruk butir-butir soal dalam suatu perangkat
tes.
Reliabilitas
Reliabilitas dapat didefinisikan dalam berbagai cara, seperti proporsi
varian skor yang diperoleh terhadap varia n skor sebenarnya, korelasi kua
drat antara skor sebenarnya dengan skor ya ng diperoleh, atau korelasi antar
skor yang diperoleh pada dua tes paralel (Allen & Yen, 1979).
Menurut Bachman (1990), reliabilitas suatu tes adalah kesesuaian antara
dua upaya yang dilakukan untuk mengukur trait yang sama melalui metode
yang sangat serupa. Ada tiga pendekatan untuk mengestimasi relia bilitas suatu
tes meliputi: (1) estimasi konsist ensi internal, (2) estimasi stabilitas, dan (3)
estimasi ekuivalensi. Estimasi konsistensi internal sangat berkait dengan
sources of error di dalam prosedur tes dan skoring, estimasi stabilitas
menunjukkan konsistensi skor tes dari waktu ke waktu, sedangkan estimasi
ekuivalensi menunjukkan sejauh mana skor pada berbagai bentuk dari suatu tes
ekuivalen. Estimasi reliabilitas yang dihasilkan oleh ketiga pendekatan tersebut
disebut koefisien reliabilitas.
Konsistensi Internal berkaitan dengan sejauh mana konsistensi per formasi peserta tes pada berbagai bagian tes. Konsistensi internal meliputi:
a. Estimasi Reliabilitas Belah-dua (Split-half Reliability)
Untuk mengestimasi reliabilitas dengan metode ini kita harus membelah tes
menjadi dua dan menentukan sejauh mana skor pada dua belahan ini konsisten
satu sama lain. Kedua tes tersebut diperlakukan sebagai tes paralel dan harus
dipastikan bahwa keduanya ekuivalen yang ber arti bahwa rerata dan varian
kedua tes tersebut sama. Di samping itu harus diasumsikan pula bahwa kedua
tes tersebut independen satu sama lain dalam artian bahwa performasi
seseorang pada satu belahan tidak mempengaruhi performasinya pada belahan
yang lain. Estimasi dengan cara ini meliputi:
1. Estimasi Belah-Dua Spearman-Brown
Koefisien reliabilitas pada estimasi belah -dua Spearman-Brown dapat
diperoleh melalui formula:
2r '
(4)
hh
r '
xx
1 r '
hh
Keterangan: r ' merupakan korelasi yang diperoleh antara dua belahan tes.
hh
s h
s
2
2
1
1
' 2
rxx
(6)
r 1 pq
xx'
k 1
r
(7)
x
'
k 1s x2
dan
2. Koefisien Alpha
Cronbach (1951) mengemban gkan suatu rumus untuk mengesti masi
konsistensi internal yang disebutnya sebagai koefisien Alpha atau yang
dikenal sebagai Cronbachs Alpha:
(8)
k
s2 i
1
k 1
2
bagian tes yang berbeda,
s x , adalah varian skor tes total.
dan
3. Konsistensi Rater
Ada dua macam konsistensi rater yaitu intra-rater reliability dan inter-rater
reliability.
a. Intra-rater Reliability
Reliabilitas pada metode ini melaui penilaian oleh seorang penilai.
Untuk mencari reliabilitas nilai yang diberikan oleh seorang rater, kita harus
memperoleh setidaknya dua penilaian yang independen oleh rater tersebut
untuk masing-masing sampel yang dinilai. Ini diperoleh dengan menilai sampel
satu kali dan kemudian menilainya kembali pada waktu yang berbeda. Setelah
nilai diperoleh maka reliabilitasnya dapat diperoleh melalui dua cara. Cara
yang pertama adalah: dengan memperlakukan dua set hasil penilaian tersebut
sebagai skor dari dua tes paralel dan menghitung korelasi keduannya,
selanjutnya hasil ini diinterpretasikan sebagai estimasi reliabilitas.
Cara yang lain adalah dengan menghitung koefisien Alpha dari masing
- masing nilai dengan rumus:
2
k
s r1 r2
s2
1
2
(9)
s r1r 2
1
k
Keterangan:
2
s
r1
menjumlah
hasil penilaian
oleh
rater
yang
berbeda
dan kemudian
masing2
masing rater,
s adalah varian dari hasil penilaian yang dijumlahkan.
x
dan
Stabilitas (Test-retest Reliability), pada pendekatan ini pemberi tes
memberikan suatu tes dua kali pada sekelompok individu dan kemudian
menghitung koreasi antara dua perangkat skor. Korelasi ini dapat
diinterpretasikan sebagai indikasi sejauh mana stabilitas s kor dari waktu ke
waktu. Hal yang diutamakan pada pendekatan ini adalah memastikan bahwa
peserta tes tidak berubah begitu saja secara sistematis diantara kedua tes.
Dalam hal ini pemberi tes harus dapat memastikan bahwa baik practice-effect
maupun learning-effect setara antara individu maupun random. Untuk itu
pemberi tes harus dapat mencari tenggang waktu yang tepat untuk semaksimal
mungkin mengurangi practice-effect maupun learning-effect.
Ekuivalensi (Reliabilitas Bentuk Paralel), pendekatan ini diguaka n
untuk mengestimasi reliabilitas suatu tes dengan mencari ekuivalensi skor yang
diperoleh dari berbagai bentuk tes yang berbeda. Sama halnya dengan
pendekatan test-retest, metode inimerupakan sarana yang tepat untuk menges timasi reliabilitasb tes bila estimasi dengan konsistensi internal tdak tepat atau
tidak mungkn dilakukan.
Metode ini dilakukan bila situasi tertentu pemberi tes tidak mungkin
memberikan suatu tes kepada seluruh p eserta es pada waktu yang bersamaan,
dan ia tidak ingin peserta tes yang p ertama membocorkan informasi mengenai
tes tersebut kepada peserta tes kedua. Pada situasi yang lain seorang pemberi
tes mungkin ingin mengukur kemampuan bahasa seseorang berulangkali selama waktu tertentu dan ingin memastikan bahwa perubahan pada performansi
yang terjadi bukan disebabkan oleh practice-effect sehingga ia menggunakan
berbagai bentuk tes. Pada kedua situasi tersebut pemberi tes harus dapat me mastikan bahwa berbagai bentuk tes yang digunakan untuk ekuivalen, khusus nya dalam hal tingkat kesulitan dan deviasi standarnya.
PENUTUP
Teori tes klasik telah dipakai dalam waktu yang cukup lama, dan
mendominasi pengukuran bidang pendidikan dan psikologi. Hampir semua
rumus yang digunakan dalam menghitung realibilitas dan validitas
dikembangkan berdasarkan teori ini. Teori ini disusun berdasarkan
asumsi-asumsi. Asumsi utama teori ini adalah skor amatan seorang peserta tes
adalah jumlah dari skor sebenarnya dengan skor kesalahannya. Asumsi kedua
dalam teori tes klasik adalah nilai rata -rata populasi dari nilai amatan
merupakan nilai independen yang sama dengan skor sebenarnya untuk setiap
peserta tes pada tes yang sama. Asumsi ketiga; skor sebenarnya dan skor
kesalahan yang dicapai dalam suatu populasi pada suatu tes tidak berkorelasi.
Asumsi keempat; korelasi antara skor kesalahan pada tes pertama dan skor
kesalahan pada tes kedua adalah nol. Asumsi kelima; pada tes yang mengukur
atribut yang sama, skor kesalahan pada tes pertama tidak berkorelasi dengan
skor sebenarnya pada tes kedua. Asumsi keenam; dua p erangkat dikatakan tes
2
2
paralel jika T1= T2 dan 1= 2 dan memenuhi asumsi pertama sampai kelima.
Asumsi ketujuh; jika dua buah perangkat tes yang dimaksudkan untuk
mengukur trait yang sama dan memenuhi asumsi pertama sampai kelima,
dikatakan tes setara (equivalent test).
Karakteristik tes klasik meliputi tingkat kesulitan butir dan daya beda
butir. Validitas tes meliputi: validitas isi, validitas relasi -kriteria, validitas
konstruk. Reliabilitas tes meliputi: konsistensi internal yang terdiri dari
estimasi reliabilitas belah-dua (Sperman-Brown maupun Guttman)
dan
estimasi reliabilitas berdasarkan varian butir (koefisien reliabilitas Kuder Richardson baik KR-20 maupun KR-21, koefisien Alpha, konsistensi rater
baik intra-rater reliability maupun inter-rater reliability), stabilitas (test-retest
reliability), dan ekuivalensi (reliabilitas bentuk paralel).
DAFTAR RUJUKAN
Allen, M. J. & Yen, W. M. 1979. Introduction to Measurement Theory.
Monterey: Books/Cole Publishing Company.
Azwar, S. 1999. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.
Bachman, L. F. 1990. Fundamental Considerations in Language Testing .
Oxford: Oxford University Press.
Ebel, R. L. 1979. Essential of Educational Measurements. London: PrenticeHall Inc, Englewood Cliffs.
Hayat, B. 1997. Manual Item and Test Analysis (Iteman):
Pedoman Penggunaan Iteman. Jakarta: Depdibud Balitbang Publitbang
Sisjan.
Kerlinger, F. N. 1973. Foundations of Behaioral Research. New York: New
York University Press.
Naga, D. S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.
Jakarta: Gunadarma.