Anda di halaman 1dari 7

BUKTI DIGUNAKAN UNTUK MENDUKUNG VALIDITAS

  Kesesuaian penggunaan skor tes untuk membuat interpretasi atau keputusan tertentu
harus dinilai dari bukti yang dikumpulkan dan disajikan oleh pengguna tes. Ada berbagai bukti yang
mungkin disajikan untuk mendemonstrasikan penggunaan yang valid dari serangkaian skor, dan
sebagian besar dapat dikelompokkan ke dalam salah satu kategori berikut: terkait konten, terkait
kriteria, dan terkait konstruksi. Ini bukan jenis bukti validitas. Jenis konten berkaitan dengan
seberapa baik konten pengujian mewakili domain kemampuan yang coba diukur oleh
pengguna. jenis kriteria biasanya berkaitan dengan hubungandiwakili oleh koefisien korelasi, antara
skor tes dan skor pada beberapa ukuran kriteria kemampuan yang relevan. Akhirnya, tipe konstruk
berkaitan dengan arti keseluruhan skor, apa arti kumpulan tanggapan terhadap item individu (skor
total) sebagai konstruk psikologis.

              Lebih mudah untuk membahas ketiga jenis bukti secara terpisah, tetapi hal itu
menyampaikan kesan yang salah bahwa ini adalah gagasan independen dan bahwa salah satu dari m
dapat digunakan, dengan sendirinya, untuk mendukung penilaian validitas. Faktanya, bukti terkait
konstruksi menggabungkan dua lainnya: bukti terkait konten dan kriteria diperlukan untuk
mendukung makna yang harus dilampirkan ke serangkaian skor tertentu.

              Proses pengumpulan bukti disebut validasi. Tujuan validasi adalah untuk memberikan bukti
untuk interpretasi tertentu dan terhadap masing-masing dari beberapa interpretasi lainnya yang
bersaing. Artinya, validasi harus menunjukkan bahwa skor mencerminkan
pencapaian keterampilan tertentu yang relevan dan bahwa skor tersebut tidak terlalu dipengaruhi
oleh keterampilan atau sifat tertentu yang tidak relevan atau tidak relevan dari peserta tes, terlebih
lagi, jika skor akan digunakan untuk membuat keputusan (seleksi , penempatan, promosi, dan
sebagainya) tentang peserta ujian, validasi harus mencakup pengumpulan bukti untuk mendukung
kesesuaian dari setiap penggunaan yang direncanakan. Perhatikan bahwa istilah "validasi uji" sama
tidak tepat dengan "validitas uji". Validasi adalah nilai tes dan penggunaannya, bukan instrumen.

              Penting untuk disadari bahwa validasi skor dapat berubah seiring waktu karena bukti
berubah atau metode penggunaan skor berubah. Misalkan, misalnya, Acme Industries
mempekerjakan sekretaris sebagian berdasarkan nilai tes pengetikan yang diperoleh dari semua
pelamar. (Departemen personalia di Acme telah menentukan beberapa tahun yang lalu bahwa ada
korelasi 0,60 antara skor mengetik dan peringkat supervisor terhadap kecepatan dan akurasi
mengetik saat bekerja). Saat ini semua sekretaris Acme menggunakan komputer mikro untuk
operator pengolah kata, dan keyboard serta metode koreksi kesalahan yang digunakan jauh berbeda
dari yang terkait dengan mesin tik. Faktanya, jika Acme terus menggunakan tes pengetikannya,
kemungkinan besar akan melewatkan beberapa operator pengolah kata yang berpotensi sangat
baik. Perhatikan bahwa arti dari skor mengetik tidak berubah, tetapi kesesuaian penggunaannya
untuk pemilihan telah berubah. Masalah serupa juga terjadi dalam penggunaan skor yang terdapat
dalam folder catatan kumulatif sekolah atau nilai yang ditempatkan pada transkrip perguruan
tinggi. Seiring bertambahnya usia data ini, kebermaknaannya untuk saat ini berubah dan nilainya
untuk membuat kesimpulan tentang kinerja masa depan juga dapat berubah.

Bukti Validasi terkait Konten

              Semua interpretasi nilai ujian mengharuskan dibuatnya kesimpulan. Tes biasanya hanya


berisi sampel dari semua item yang mungkin dapat digunakan untuk mengukur
pencapaian pengetahuan di bidang minat konten. Interpretasi skor apakah norma yang
direferensikan atau kriteria yang direferensikan didasarkan pada semesta item yang bersifat
hipotetis, bukan hanya sampel yang digunakan dalam tes. Kami menyimpulkan  bahwa seorang siswa
yang menjawab dengan benar 75 persen dari item pada tes kemungkinan akan menjawab 75 persen
dari item di alam semesta. Untuk tes prestasi sekolah, apakah kesimpulan tersebut sesuai? Jika kami
maksudkan bahwa 75 persen adalah perkiraan yang lebih akurat daripada 80 atau 70, misalnya,
inferensi didasarkan pada realibilitas skor. Pada set item lain yang berbeda tetapi serupa dari
populasi tersebut, kami mengharapkan siswa menjawab sekitar 75 persen item dengan benar.

              Namun, jenis inferensi lain harus dibuat yang berkaitan dengan jenis bukti validasi
lain. Misalnya, dengan tes SIM tertulis, kami ingin menyimpulkan bahwa mereka yang mendapat
skor lebih tinggi pada tes akan lebih aman dan lebih bertanggung jawab daripada mereka yang
mendapat skor lebih rendah. Untuk membenarkan kesimpulan tersebut, konten tes harus
didasarkan pada definisi eksplisit dari "kemampuan mengemudi yang aman", penggambaran
pengetahuan, keterampilan, dan pemahaman yang diperlukan untuk mengemudi dengan
aman. Contoh dari beberapa pernyataan yang mungkin ditawarkan untuk mengembangkan definisi
pengemudi yang aman adalah:

1. Bedakan arti rambu jalan dengan warna berbeda.


2. Jelaskan fungsi karburator.
3. Jelaskan prosedur untuk mendapatkan kendali atas sebuah mobil yang mulai
tergelincir di atas es atau salju.
4. Temukan jarak terpendek antara dua kota menggunakan peta jalan raya.
5. Identifikasi makna yang terkait dengan tanda-tanda berbagai bentuk geometris.
6. Jelaskan prosedur mengganti ban kempes.

Beberapa pernyataan dapat dikecualikan dari definisi karena mewakili keterampilan yang
berguna, tetapi keterampilan tidak penting untuk menyelamatkan mengemudi. Pernyataan
bernomor genap mungkin masuk dalam kategori ini. Di sisi lain, definisi tersebut kemungkinan besar
akan dianggap tidak lengkap tanpa menyertakan pernyataan seperti "Membedakan antara arti garis
yang terjual dan garis putus-putus yang menentukan jalur mengemudi. “Setelah definisi dibuat
eksplisit, dimungkinkan untuk membandingkan konten item tes dengan definisi untuk menilai
relevansi item. Jika item telah ditulis agar sesuai dengan definisi domain dengan tepat, kesimpulan
yang ingin kami buat tentang mengemudi yang aman dan bertanggung jawab bisa sangat valid. Dari
sudut pandang ini, sebagian besar jawaban atas pertanyaan validitas melekat dalam proses
pengembangan tes. Artinya, bukti terkait konten disempurnakan bersamaan dengan aktivitas
pengembangan pengujian. Definisi domain (batasan konten yang akan dimasukkan), penilaian
tentang relevansi item tes, dan langkah yang diambil untuk mencapai keterwakilan konten melayani
tujuan ganda untuk memandu pengembangan tes dan mendokumentasikan bukti validasi.

Dokumentasi tertulis dari spesifikasi domain, sifat dari tugas tes, dan alasan untuk
menggunakan tugas tersebut memberikan bukti validitas rasional intrinsik (Ebel, 1983). Buktinya
bersifat intrinsik karena dibangun ke dalam pengujian. Ini rasional "karena diturunkan dari
kesimpulan rasional tentang jenis tugas yang akan mengukur kemampuan yang diinginkan"
(p.7). Jika pembuat tes juga merupakan pengguna tes, bukti penggunaan skor yang sesuai
dimasukkan ke dalam produk; Artinya, baik spesifikasi untuk konstruksi pengujian dan item itu
sendiri merupakan bukti yang diperlukan untuk proses validasi.

Sebagian besar pembuat tes, termasuk guru, bertujuan untuk menghasilkan tes yang
menunjukkan bukti validitas rasional intrinsik, tetapi mereka jarang mengakui tujuan ini secara
eksplisit. Mereka jarang menganggap proses konstruksi pengujian sebagai proses validasi; mereka
jarang mendokumentasikan secara tertulis alasan keputusan tertentu dalam pengembangan
tes. Dokumentasi tertulis yang berguna untuk mendukung validitas rasional intrinsik memberikan
jawaban atas pertanyaan-pertanyaan ini.
1. Tentang kumpulan kemampuan apa kesimpulan yang harus dibuat?  Sebagai bagian
dari deskripsi ini, terkadang berguna untuk mencatat kemampuan asing tertentu yang
harus sengaja dikeluarkan dari kemampuan utama yang diminati. Misalnya, dalam tes
pemecahan masalah kimia, kemampuan membaca harus diminimalkan.
2. Domain pengetahuan, keterampilan, atau tugas apa yang memberikan dasar untuk
kesimpulan semacam itu?  Diperlukan garis besar konten yang menjelaskan tugas-tugas
yang menarik. Garis besar harus mencakup seluruh semesta konten yang akan diukur,
bukan hanya konten yang direfleksikan oleh item tes tertentu yang mungkin
dikembangkan. Terkadang judul bab dalam teks merupakan titik awal yang baik untuk
mendefinisikan domain.
3. Apa kepentingan relatif dari subdomain yang membentuk definisi domain?  Apakah
ada serangkaian tugas terkait yang lebih penting daripada yang lain? Jika demikian,
rencana pengembangan pengujian harus mencerminkan perbedaannya sehingga lebih
banyak item pengujian akan disertakan untuk subdomain yang lebih penting. Satu
subdomain mungkin menerima bobot 10 persen, misalnya, sementara yang lebih penting
diberikan 25 persen.
4. Jenis item pengujian apa yang memiliki properti yang memungkinkan pengujian
pencapaian elemen domain?  Misalnya, mengingat tugas yang diuraikan di langkah 2,
apakah esai atau item jawaban singkat lebih sesuai daripada item pilihan
ganda? Mengapa?
5. Apakah item tes cukup mencerminkan pengetahuan domain, keterampilan, dan
tugas?  Pertanyaan ini berkaitan dengan kecocokan antara konten item pengujian dan
konten yang ditentukan dalam garis besar domain. Seberapa baik penulis item
menerjemahkan deskripsi tugas ke dalam item tes?
6. Apakah subsel item pengujian secara memadai mewakili domain dalam hal
kepentingan relatif subdomain?  Apakah bobot konten dalam pengujian konsisten dengan
keputusan yang dibuat di langkah 3?
7. Domain atau subdomain apa, di luar domain yang diminati, yang ada dalam
pengujian?  Apakah ada faktor asing yang dapat mengganggu interpretasi skor yang ingin
dibuat pengguna? Apakah kemampuan membaca, tingkat kosa kata, atau keterampilan
komputasi, melebihi yang dimaksudkan, diperlukan untuk menjawab item dengan benar?

Tampaknya bukti validitas rasional intrinsik cukup untuk validasi tes prestasi, tetapi
sebenarnya tidak. Bukti tersebut berfokus pada pengujian domainnya, relevansi itemnya, dan
keterwakilan isinya. Namun selama faktor selain tes dapat mempengaruhi besarnya skor, bukti di
luar konten tes diperlukan untuk mendukung interpretasi skor yang valid. Bukti terkait konten saja
tidak cukup karena gagal memperhitungkan konsistensi respons (keandalan) atau aspek lain dari
lingkungan pengujian yang mungkin memengaruhi interpretasi skor. Misalnya, item tes interpretasi
yang mengacu pada norma yang gagal untuk membedakan antara yang berprestasi tinggi dan
rendah mungkin kontennya relevan dan memadai secara teknis. Tetapi item seperti itu tidak akan
membantu untuk menghasilkan urutan peringkat skor yang akan memungkinkan interpretasi yang
mengacu pada norma yang berguna untuk tujuan seleksi atau klasifikasi. Karena nilai tes yang
diperoleh akan agak rendah reliabilitasnya, maka juga akan kurang dalam hal validitasnya.

Bukti terkait konten untuk tes prestasi juga harus dilengkapi dengan informasi tentang
ketentuan administrasi, kriteria penilaian, dan sifat ujian. Contoh sebelumnya telah menunjukkan
bagaimana administrator tes dapat memberikan petunjuk tentang jawaban yang benar dan salah
dan bagaimana aturan penilaian dapat mendistorsi arti skor. Namun, selain faktor-faktor tersebut,
karakteristik peserta ujian selain prestasi dapat menyebabkan skor menjadi lebih tinggi atau lebih
rendah dari yang seharusnya . Sebagai contoh, messick (1989) mendaftar penjelasan alternatif ini
untuk nilai tes prestasi yang rendah: kurangnya pengetahuan yang cukup, kecemasan tinggi,
gangguan penglihatan, tingkat motivasi yang rendah, kemampuan bahasa Inggris yang terbatas, dan
tingkat konsentrasi yang rendah. Meskipun pencapaian rendah mungkin merupakan penjelasan yang
paling masuk akal untuk skor rendah, beban ada pada pengguna untuk menunjukkan bahwa faktor-
faktor lain ini tidak terlalu memengaruhi skor. Bukti semacam itu tidak dapat ditemukan dalam
ujian; Bukti validitas rasional intrinsik harus dilengkapi dengan informasi yang ditemukan dalam
tanggapan peserta ujian, dalam kondisi pengujian, dan dalam proses penilaian.

Kami telah lama mengetahui bahwa validitas bergantung pada tujuan penggunaan skor tes,
kelompok yang menggunakan tes, dan keadaan di mana tes tersebut digunakan. Validitas lebih
bergantung pada kualitas tes. Tanggung jawab pengembang pengujian adalah menjelaskan sejelas
mungkin tentang apa yang diukur dan menghasilkan pengujian daripada mengukur seakurat
mungkin. Tanggung jawab pengguna tes adalah membuat keputusan yang valid dengan
menggunakan skor tes dan semua informasi relevan lainnya yang tersedia, termasuk dokumentasi
yang disediakan oleh pengembang tes.

Bukti Validasi terkait kriteria

              Ukuran kriteria adalah standar yang diterima yang dibandingkan dengan beberapa tes untuk
memvalidasi penggunaan tes sebagai prediktor. Misalnya, skor pada tes dikte adalah ukuran
pencapaian ejaan yang diterima secara umum. Jika kita membuat dan memberikan tes ejaan benar-
salah, kita mungkin membandingkan skor benar-salah dengan skor yang diperoleh pada tes dikte
yang sebanding untuk menunjukkan bahwa benar-salah adalah ukuran pencapaian ejaan yang dapat
diterima. Tes dikte adalah standar yang kami gunakan untuk perbandingan dalam mencoba
menetapkan keabsahan tes ejaan baru.

              Bukti terkait kriteria mengambil salah satu dari dua bentuk, satu terkait dengan penentuan
posisi saat ini pada ukuran kriteria dan yang lainnya terkait dengan memprediksi kinerja masa depan
pada ukuran kriteria. Jenis bukti yang diperlukan untuk situasi tertentu bergantung pada bagaimana
skor dari tes tersebut dimaksudkan untuk digunakan. Misalnya, tes ejaan benar-salah yang dirujuk di
atas dimaksudkan untuk digunakan sebagai pengganti tes dikte karena peningkatan efisiensi dalam
penilaian yang diberikan oleh tes benar-salah. Bukti serentak akan berguna untuk menunjukkan
bahwa siswa muncul dalam urutan peringkat relatif yang sama pada dua ukuran. Koefisien korelasi
0,80, misalnya, dapat dianggap sebagai bukti konkuren yang dapat diterima.

              Ketika skor tes digunakan untuk memilih individu untuk penerimaan, pekerjaan, kesempatan
pendidikan yang luar biasa, dan sejenisnya, diperlukan bukti prediktif. Ada kebutuhan untuk
menunjukkan bahwa ada hubungan positif antara skor pada tes (prediktor) dan skor pada beberapa
ukuran yang dapat diterima dari kinerja masa depan ((kriteria). Misalnya, skor tes skrining
perkembangan dapat digunakan untuk memprediksi lima yang mana tahun kemungkinan besar akan
berhasil di taman kanak-kanak. Jika ukuran kriteria untuk "sukses" adalah "peringkat guru dari
perkembangan sosial, emosional, dan akademik di akhir taman kanak-kanak," bukti validitas penting
mungkin termasuk korelasi antara skor tes skrining dan guru Jika korelasi, katakanlah, 0,60
diperoleh, kita dapat menyimpulkan bahwa tes tersebut adalah prediktor yang berguna untuk
kinerja masa depan, yaitu, ada dukungan untuk menggunakan skor untuk memprediksi keberhasilan
di taman kanak-kanak.

              Korelasi antara tes dan skor kriteria telah dianggap oleh banyak orang sebagai bukti terbaik
untuk mendukung penggunaan tes prestasi yang valid. Korelasi tersebut tampaknya memberikan
validasi objektif yang independen dari penilaian dan keputusan subjektif yang harus dibuat selama
pengembangan tes. Tetapi validitas skor dari tes prestasi akademik yang banyak digunakan jarang
didukung dengan bukti terkait kriteria yang mengesankan; ini bisa berarti bahwa tes tersebut
hanyalah tes yang buruk. Tetapi penjelasan yang lebih masuk akal adalah bahwa seberapa baik suatu
tes mengukur apa yang dimaksudkan untuk diukur tidak dapat disampaikan oleh korelasi antara skor
tes dan skor pada ukuran kriteria. Mengapa demikian?
              Dalam beberapa kasus, ukuran kriteria yang tepat tidak tersedia. Apa yang harus digunakan
sebagai ukuran kriteria untuk tes kemampuan aritmatika kelas lima atau tes kemampuan memahami
urusan kontemporer? Ujian itu sendiri biasanya dimaksudkan untuk menjadi ukuran terbaik dari
kemampuan-kemampuan ini yang dapat dirancang. Jika ukuran yang lebih baik tersedia untuk
menjalankan peran kriteria, tindakan tersebut juga harus lebih valid daripada pengujian yang sedang
divalidasi. Banyak pengembang tes yang gagal menyajikan bukti empiris yang meyakinkan bahwa
validitas skor dari tes mereka bukanlah karena kurangnya perhatian, upaya, atau keterampilan. Itu
karena bukti korelasional untuk validitas skor dari sebagian besar tes prestasi pada dasarnya tidak
dapat dihasilkan. Hal yang sama dapat dikatakan tentang skor yang diperoleh dari sebagian besar
ujian lisensi profesional (Kane, 1982)

              Dalam banyak kasus, kriteria yang tepat ternyata sulit atau hampir tidak mungkin diukur
secara akurat. Di tempat kerja, kinerja harus menjadi kriteria yang tepat untuk tes seleksi
karyawan. Tetapi untuk pekerjaan apa pun kecuali yang paling sederhana, apa yang merupakan
kinerja yang memuaskan sulit untuk didefinisikan, mahal untuk dinilai, dan sulit untuk diukur secara
tidak memihak. Relevansi peringkat kinerja sebagai kriteria validitas tes tertulis juga terbuka untuk
dipertanyakan. Tes tertulis tidak mungkin mengukur banyak karakteristik yang berkontribusi pada
peringkat tinggi untuk kinerja pekerjaan. Pengujian seperti itu, bagaimanapun, dapat mengukur
karakteristik yang diinginkan yang tidak mungkin muncul dengan jelas pada peringkat kinerja. Dalam
situasi seperti ini, ada sedikit pembenaran untuk menyajikan bukti tentang korelasi dengan kriteria
sebagai bukti utama validitas.

              Masalah utama dengan validasi uji empiris adalah validitas skor kriteria yang tidak sempurna
atau tidak pasti. Skor kriteria itu sendiri harus menjadi ukuran yang sangat valid dari kemampuan
yang diuji. Ini juga berarti skor kriteria ini harus cukup reliabel, dan koefisien reliabilitas harus
dimasukkan sebagai bukti validitas. Lagipula, standar yang digunakan untuk menilai validitas nilai tes
tentunya harus setidaknya sama validnya dengan skor yang dinilai terhadap standar itu. Validitas
skor dari ukuran kriteria perlu ditangani seketat dan selengkap validitas skor tes yang
dipermasalahkan.

              Prosedur korelasi tidak menjanjikan untuk memberikan bukti utama validitas, tetapi
prosedur tersebut mungkin berguna dalam memberikan bukti sekunder yang menguatkan. Jika
kemampuan A terkait dalam beberapa derajat dengan kemampuan B, C, dan D, maka skor dari tes A
harus berkorelasi sampai tingkat tertentu dengan skor dari B, C, dan, D. Jika ya, keyakinan bahwa tes
mengukur kemampuan A meningkat.

              Penting untuk dicatat bahwa bukti kemampuan sekunder tersebut tidak dapat menggantikan
bukti validitas terkait konten. Ukuran tes A sebagian besar ditentukan oleh tugas yang termasuk di
dalamnya. Seseorang tidak dapat menemukan apa yang diukur oleh tes A hanya dengan
mempelajari korelasi skor dari tes A dengan skor dari tes B, C, dan D. Bagaimana kita tahu apa yang
diukur oleh tes lain ini? Kami perlu memeriksa tugas yang termasuk di dalamnya, kondisi di mana
mereka diberikan, sifat peserta ujian, dan prosedur penilaian. Jika ini adalah dasar untuk arti nilai
dari tes B, C, dan D, bukankah itu seharusnya menjadi dasar untuk arti nilai dari tes A juga?

              Bukti bersamaan dan prediktif keduanya membutuhkan data korelasi dan akibatnya, kedua
situasi diganggu oleh masalah dalam mendapatkan ukuran kriteria yang sesuai. Prediksi nilai rata-
rata siswa baru perguruan tinggi menggunakan skor ACT menggambarkan dilema. Kedua ukuran
tersebut mencerminkan kemampuan untuk melakukan pekerjaan tingkat kolase, tetapi yang pasti
ukuran kriteria, nilai rata-rata nilai, dipengaruhi oleh banyak faktor penting lainnya - sifat penyebab,
upaya dan motivasi siswa, kebijakan penilaian dalam kursus, dan kemampuan untuk membangun
dukungan. hubungan sosial di antara teman sebaya. Dan ukuran kriteria akan merepresentasikan
prestasi dalam bahasa Inggris, matematika, dan sains hanya sejauh kausework di area tersebut
diambil oleh setiap siswa dalam sampel validasi. Korelasi antara skor komposit ACT dan rata-rata
poin kelas akhir tahun cenderung sekitar 0,50. Ada banyak kesamaan dari kedua ukuran
ini. Dapatkah kriteria yang lebih memuaskan diidentifikasi, yang praktis untuk diterapkan dan adil
bagi siswa terlepas dari pola mata kuliah yang diambil di tahun pertama mereka? Masalah kriteria
menunjukkan perlunya bukti validitas tambahan untuk melengkapi informasi yang diberikan oleh
bukti korelasional, yang dengan sendirinya didasarkan pada kriteria validitas yang
dipertanyakan. Berbagai bukti, yang semuanya mengarah pada kesimpulan yang sama tentang
validitas skor, merupakan justifikasi yang paling meyakinkan untuk penggunaan skor tes.

Bukti Validasi Terkait Konstruk

              Istilah konstruk mengacu pada konstruksi psikologis, sebuah konseptualisasi teoretis tentang
aspek perilaku manusia yang tidak dapat diukur atau diamati secara langsung. Contoh konstruknya
adalah kecerdasan, motivasi berprestasi, kecemasan, prestasi, sikap, dominasi, dan pemahaman
bacaan. Validasi konstruksi adalah proses mengumpulkan bukti untuk mendukung anggapan bahwa
tes yang diberikan memang mengukur konstruksi psikologis yang ingin diukur oleh pembuatnya,
tujuannya adalah untuk menentukan makna skor dari tes tersebut, untuk memastikan bahwa skor
tersebut berarti apa yang kita inginkan. berharap mereka berarti.

              Jika tujuan kita adalah untuk mengukur pencapaian pemecahan masalah matematika,
misalnya, tujuan dari validasi konstruk adalah untuk mengumpulkan bukti yang akan menunjukkan
bahwa tugas-tugas dalam tes membutuhkan kemampuan pemecahan masalah matematika. Definisi
konstruksi yang digunakan untuk pengembangan pengujian mendefinisikan konstruksi. Dalam hal ini,
dalam definisi menunjukkan bahwa keempat operasi aritmatika dapat dimasukkan dan bahwa
semua masalah harus memerlukan setidaknya dua langkah penyelesaian, kemudian setiap item tes
perlu ditinjau untuk kesesuaian. Karena baik pemahaman bacaan maupun perhitungan matematika
tidak akan diukur (mereka adalah konstruksi terpisah), validasi kami harus menyertakan bukti bahwa
konstruksi ini tidak memiliki dampak yang berarti pada besaran skor. Penilaian oleh pengulas dan
korelasi antara skor pemecahan masalah dan (1) skor membaca dan (2) skor komputasi akan
menjadi bukti yang berguna akan diperlukan untuk menunjukkan bahwa kesalahan acak karena
karakteristik peserta ujian atau kondisi administrasi tidak terlalu berpengaruh dalam skor. Selain itu,
kriteria penilaian harus ditinjau untuk menentukan kesesuaiannya, dan kunci penilaian harus ditinjau
untuk memeriksa keakuratannya. Seharusnya jelas dari ilustrasi ini bahwa bukti terkait konstruksi
menggabungkan berbagai konten terkait dan bukti terkait kriteria karena arti dari skor yang
ditetapkan terkait dengan keduanya.

              Ancaman utama terhadap validitas konstruk telah dirujuk oleh Messick (1989) sebagai
konstruk di bawah representasi dan varian uji yang tidak relevan. Gagasan di bawah representasi
berarti bahwa beberapa keterampilan, atau aspek tertentu dari kemampuan (konstruksi), tidak
diukur secara menyeluruh oleh tes, jika tes pemecahan masalah kita seharusnya memiliki beberapa
masalah yang membutuhkan penjumlahan dan perkalian, tetapi tidak ada, tes tersebut "kurang
merepresentasikan" domain pemecahan masalah yang kami definisikan. Gagasan tentang varian uji
yang tidak relevan berarti bahwa faktor-faktor asing, selain konstruk, menyebabkan skor berbeda
dari yang seharusnya. Banyak variabel yang berkontribusi pada reliabilitas rendah termasuk dalam
kategori ini. Beberapa faktor ini membuat tes lebih mudah dari yang seharusnya - tes kebijaksanaan,
menebak-nebak, petunjuk, dalam item, jawaban salah yang tidak masuk akal - dan beberapa faktor
membuat tes lebih sulit dari yang seharusnya - kebutuhan untuk keterampilan membaca atau
menulis yang berkembang dengan baik, baik ketajaman visual, ucapan kacau oleh administrator tes,
kecemasan karena harapan yang tidak masuk akal. Dalam contoh pemecahan masalah, varian tes
yang tidak relevan dapat diperkenalkan oleh kesulitan perhitungan yang diperlukan, penggunaan
pengaturan masalah baru yang membutuhkan pengetahuan unik sebelumnya, batas waktu yang
parah, atau kata-kata item yang ambigu.
              Perhatian terhadap validitas konstruk adalah inti dari pertanyaan seperti "Mengapa siswa ini
mendapat skor tinggi dalam tes ini?" atau "mengapa semua skor sangat rendah?" pertanyaan-
pertanyaan ini menimbulkan keraguan tentang apakah skor adalah ukuran dari konstruksi yang ada
dalam pikiran pembuat tes atau apakah faktor asing telah melebihi pencapaian sebenarnya atau
kurang mewakili. Pertanyaan validasi konstruk tidak selalu diajukan dengan skor dari tes
prestasi. Tapi yang jelas, seharusnya begitu. Arti skor dari tes apa pun harus ditetapkan sebelum skor
digunakan untuk membuat keputusan tentang peserta ujian. Kemudian pertanyaan tentang
penggunaan yang valid dapat diangkat, dan bukti untuk penggunaan yang diusulkan harus
dikumpulkan.

              Seperti yang awalnya dipahami, validitas konstruk berkaitan dengan validitas konstruk
hipotetis konon diukur dengan tes tertentu (Gronbach dan Meehl, 1995). Ide ini diterapkan
terutama pada variabel psikologis atau inventaris kepribadian daripada tes prestasi. Metode yang
digunakan dulu, dan masih, dimaksudkan untuk menunjukkan bahwa konstruksi yang diteliti terkait
dengan cara yang dapat diprediksi dengan konstruksi lain, seperti yang dijelaskan oleh beberapa
teori. Beberapa dari metode ini dan penggunaannya dijelaskan dan diilustrasikan oleh Messick
(1989) dalam perlakuan komprehensifnya terhadap validitas.

              Pertanyaan tentang validitas konstruk selalu diajukan ketika tampaknya ada perbedaan
antara apa yang seharusnya diukur oleh tes dan apa yang tampaknya diukur. Apakah ini ujian
pemahaman prinsip-prinsip ilmiah, seperti yang tersirat dalam judulnya, ataukah ini benar-benar
kecerdasan atau memang ukuran fasilitas verbal? Beberapa pembuat tes menamai tes mereka dan
menjelaskan apa yang diukur oleh tes mereka, bukan dalam hal tugas yang mereka masukkan, tetapi
dalam istilah sifat yang mereka ukur. Itulah mengapa kami menguji kekakuan, kecerdasan,
ketekunan, kreativitas, toleransi, hubungan spasial, dan banyak ciri lainnya. Untuk pengujian seperti
ini, pertanyaan tentang apakah pengujian tersebut benar-benar mengukur apa yang diklaim untuk
diukur memang muncul, sebagaimana mestinya. Apakah tugas menyelesaikan analogi angka
mengukur kecerdasan? Apakah kemampuan untuk membuat daftar penggunaan yang tidak
konvensional untuk kreativitas ukuran batu bata?

Anda mungkin juga menyukai