pertanyaan memiliki dampak negatif pada keandalan tes. Seperti yang Anda ingat, sebuah tes
hanya dapat mengambil sampel dari seluruh domain item yang mungkin, dan, dengan demikian,
sampel harus cukup besar untuk dapat diandalkan. Maka mengikuti bahwa semakin banyak item
tes mengandung, semakin dapat diandalkan itu kemungkinan. Ini segera menempatkan
pertanyaan terbuka pada kerugian karena mereka membutuhkan lebih banyak waktu menjawab.
Jadi, esai umumnya kurang dapat diandalkan per jam waktu pengujian daripada pertanyaan
jawaban pendek.
Di mana keandalan adalah masalah yang cukup mudah dalam penilaian tertulis, validitas jauh
lebih kompleks. Ada beberapa kepercayaan populer tentang validitas berbagai jenis pertanyaan.
Sebagai contoh, sering dianggap bahwa pertanyaan terbuka menguji keterampilan kognitif
tingkat tinggi dan bahwa pertanyaan pilihan ganda hanya dapat menguji pengetahuan faktual.
Ini adalah kesalahpahaman yang tersebar luas: format pertanyaan sangat tidak penting
sehubungan dengan validitas, sedangkan konten pertanyaan sangat penting [22-24]. Jadi, apa
yang Anda tanyakan itu penting, bukan bagaimana Anda mencatat jawabannya. Tentu saja,
beberapa konten tidak sesuai dengan format tertentu. Yang terbaik adalah tidak menanyakan
item yang membutuhkan kemungkinan spontan dan kreatif dalam format pilihan ganda,
sementara item yang membutuhkan seleksi dari daftar opsi realistis yang terbatas sebaiknya
tidak ditanyakan dalam format terbuka.
Jadi, pertimbangan konten yang cermat sangat penting. Perbedaan lebih lanjut dan penting
terkait dengan konteks. Barang-barang yang kaya konteks mengandung deskripsi kasus dan
pertanyaan yang meminta keputusan (penting) atau evaluasi masalah. Contoh khas dari ini
adalah item pencocokan diperluas atau item pendekatan fitur kunci [33-35]. Item bebas konteks
tidak memiliki deskripsi kasus dan hanya meminta pengetahuan umum. Pendekatan yang kaya
konteks menguji aplikasi pengetahuan dan pemecahan masalah, tetapi item bebas konteks tidak
[36]. Namun, keduanya dapat menjadi aspek yang sama pentingnya untuk dinilai; satu tidak lebih
baik dari yang lain.
Gagasan bahwa pertanyaan terbuka menguji kemampuan kognitif yang superior atas pertanyaan
pilihan ganda juga tersebar luas di kalangan siswa. Meskipun ini mungkin tidak benar, itu masih
akan mempengaruhi persepsi siswa dan pembelajaran mereka. Menggunakan berbagai metode
mengirimkan pesan yang jelas kepada siswa bahwa mereka harus menguasai materi pelajaran,
terlepas dari format penilaian.
Aspek lain dari dampak pendidikan adalah pengaruh penilaian terhadap pembuat tes. Jika,
misalnya, semua tes harus dalam format pilihan ganda, penguji hanya dapat membuat item yang
sesuai dengan format ini, dan pertanyaan yang memerlukan jawaban spontan dapat diwakili
dengan kurang baik. Di sisi lain, jika semua item adalah format terbuka, penguji mungkin dibebani
dengan beban kerja yang tinggi dari tes koreksi dan mungkin mulai mengajukan pertanyaan
sederhana yang mudah untuk dinilai, yang juga berarti bahwa aspek-aspek penting dapat
diabaikan.
Penggunaan penilaian berbasis pilihan ganda sangat efektif dari segi biaya. Mereka mungkin
sedikit lebih sulit untuk diproduksi, tetapi penggunaan pemindai Membaca Tanda Optik tentu
membuat mereka lebih mudah untuk mencetak gol. Saat ini, perangkat lunak tersedia untuk
menilai secara online. Ini adalah pertimbangan yang sangat relevan di sekolah kedokteran
dengan sejumlah besar siswa per tahun. Setiap pound, euro, atau dolar bisa jadi
menghabiskan hanya sekali; oleh karena itu, uang yang dihabiskan untuk metode penilaian mahal
yang tidak perlu tidak dapat dihabiskan untuk meningkatkan pendidikan. Jadi, dari sudut pandang
efisiensi biaya, yang terbaik adalah menggunakan pertanyaan terbuka hanya jika format yang
lebih efisien tidak cukup.
Mungkin ada banyak literatur ilmiah yang membuktikan bahwa format tes tidak penting, tetapi
kadang-kadang keyakinan mungkin begitu kuat sehingga para pemangku kepentingan tidak
dapat diyakinkan. Dalam kasus-kasus seperti itu, argumen akan digunakan untuk mengklaim
bahwa penilaian pilihan ganda terlalu mudah, membuat siswa malas, dan tidak layak untuk
lingkungan akademik, dan bahwa kehidupan nyata dan praktik nyata bukan sekadar pertanyaan
tentang memilih opsi dari daftar. Argumen semacam itu mungkin kelihatannya tidak benar dari
sudut pandang psikometrik / rasionalis belaka, tetapi mereka mungkin sangat kuat tertanam
dalam nilai-nilai inti guru dan lembaga. Penelitian tentang bagaimana apa yang disebut
kepercayaan naif dibentuk dan dipelihara menunjukkan bahwa mereka sangat sulit untuk
berubah dan meskipun penelitian ini awalnya terkait dengan konsep fisika (gravitasi misalnya) itu
memang memiliki keterkaitan dengan kepercayaan sekitar pendidikan juga [37-39 ] Jadi, penting
untuk mempertimbangkan apakah berguna untuk bertentangan dengan mereka. Terkadang
nilai-nilai ini sangat kuat, dan mungkin lebih baik untuk menargetkan tingkat penerimaan yang
tinggi dari sistem penilaian terlebih dahulu, dan untuk menunda 'pertempuran'. Energi mungkin
lebih baik dihabiskan untuk pengajaran yang baik dan penilaian yang cukup baik, dan, yang lebih
penting, tes apa pun dapat valid hanya jika digunakan dengan benar. Untuk ini, itu harus dapat
diterima oleh semua pemegang saham. Anda dapat membaca lebih lanjut tentang penilaian
tertulis di Bab 21.
Sayangnya, OSCE sangat mahal untuk dijalankan. Mereka membutuhkan sumber daya yang luas
dan logistik yang baik. Oleh karena itu penting untuk menggunakan OSCE secara efektif, dan
menggunakan sebagian besar waktu OSCE untuk mengeksplorasi pengetahuan umum tidak
efisien. Ini tidak berarti bahwa tidak ada pengetahuan yang harus diuji dalam OSCE, tetapi bahwa
pengetahuan yang diuji harus menjadi latar belakang pengetahuan dan harus memiliki hubungan
langsung dengan kasus ini.
OSCE diterima secara luas dan populer di seluruh dunia. Satu-satunya ancaman terhadap
penerimaan mereka adalah ketika OSCE digunakan untuk menguji keterampilan yang sangat
teknis dengan daftar periksa yang sangat rinci. Mereka kemudian cenderung menjadi trik
monyet, dan penguji mungkin merasa bahwa keahlian mereka tidak digunakan atau dihargai.
Eksplorasi OSCE yang lebih terperinci dan penilaian kompetensi klinis terstruktur lainnya dapat
ditemukan di Bab 23.
Pertanyaan tes pilihan ganda, juga dikenal sebagai item, dapat menjadi cara yang efektif dan
efisien untuk menilai hasil pembelajaran. Item tes pilihan ganda memiliki beberapa potensi
keuntungan:
Reliabilitas: Reliabilitas didefinisikan sebagai sejauh mana suatu tes secara konsisten mengukur
hasil belajar. Item tes pilihan ganda lebih mudah ditebak daripada pertanyaan benar / salah,
menjadikannya alat penilaian yang lebih andal. Keandalan ditingkatkan ketika jumlah item MC
yang difokuskan pada satu tujuan pembelajaran meningkat. Selain itu, penilaian objektif yang
terkait dengan item tes pilihan ganda membebaskan mereka dari masalah dengan
ketidakkonsistenan pencetak skor yang dapat mengganggu skor pertanyaan esai.
Validitas: Validitas adalah sejauh mana tes mengukur hasil belajar yang hendak diukur. Karena
siswa biasanya dapat menjawab item pilihan ganda jauh lebih cepat daripada pertanyaan esai,
tes berdasarkan item pilihan ganda biasanya dapat fokus pada representasi materi kursus yang
relatif luas, sehingga meningkatkan validitas penilaian.
Kunci untuk mengambil keuntungan dari kekuatan ini, bagaimanapun, adalah konstruksi barang
pilihan ganda yang baik.
Item pilihan ganda terdiri dari masalah, yang dikenal sebagai batang, dan daftar solusi yang
disarankan, yang dikenal sebagai alternatif. Alternatif terdiri dari satu alternatif yang benar atau
terbaik, yang merupakan jawabannya, dan alternatif yang salah atau lebih rendah, yang dikenal
sebagai distraktor.
2. Batang tidak boleh mengandung bahan yang tidak relevan, yang dapat menurunkan keandalan
dan validitas skor tes (Haldyna dan Downing 1989)
3. Batang harus dinyatakan secara negatif hanya ketika hasil belajar yang signifikan
membutuhkannya. Siswa sering mengalami kesulitan memahami item dengan ungkapan negatif
(Rodriguez 1997). Jika hasil belajar yang signifikan membutuhkan ungkapan negatif, seperti
identifikasi laboratorium atau praktik klinis yang berbahaya, elemen negatif harus ditekankan
dengan huruf miring atau huruf besar.
4. Batang harus pertanyaan atau kalimat parsial. Batang pertanyaan lebih disukai karena
memungkinkan siswa untuk fokus pada menjawab pertanyaan daripada memegang kalimat
parsial dalam memori kerja dan secara berurutan melengkapinya dengan setiap alternatif
(Statman 1988). Beban kognitif meningkat ketika batang dibangun dengan inisial awal atau
interior, sehingga konstruksi ini harus dihindari.
3. Alternatif harus saling eksklusif. Alternatif dengan konten yang tumpang tindih dapat dianggap
sebagai item “trik” oleh peserta tes, penggunaan berlebihan yang dapat mengikis kepercayaan
dan rasa hormat untuk proses pengujian.
4. Alternatif harus homogen dalam konten. Alternatif yang heterogen dalam isinya dapat
memberikan isyarat kepada siswa tentang jawaban yang benar.
5. Alternatif harus bebas dari petunjuk tentang respons mana yang benar. Peserta tes yang
canggih waspada terhadap petunjuk yang tidak sengaja untuk jawaban yang benar, seperti
perbedaan dalam tata bahasa, panjang, pemformatan, dan pilihan bahasa dalam alternatif.
Karena itu penting bahwa alternatif
memiliki tata bahasa yang konsisten dengan batang.
berbentuk paralel.
sama panjangnya.
menggunakan bahasa yang mirip (mis., semua tidak seperti bahasa buku teks atau semua bahasa
buku teks sejenis).
6. Alternatif "semua yang di atas" dan "tidak ada di atas" tidak boleh digunakan. Ketika "semua
hal di atas" digunakan sebagai jawaban, peserta tes yang dapat mengidentifikasi lebih dari satu
alternatif sebagai benar dapat memilih jawaban yang benar bahkan jika tidak yakin tentang
alternatif lain. Ketika "tidak ada yang di atas" digunakan sebagai alternatif, peserta tes yang dapat
menghilangkan satu opsi dengan demikian dapat menghilangkan opsi kedua. Dalam kedua kasus,
siswa dapat menggunakan pengetahuan parsial untuk sampai pada jawaban yang benar.
7. Alternatif harus disajikan dalam urutan logis (mis., Alfabet atau angka) untuk menghindari bias
terhadap posisi tertentu.