Anda di halaman 1dari 7

SWANWICK

pertanyaan memiliki dampak negatif pada keandalan tes. Seperti yang Anda ingat, sebuah tes
hanya dapat mengambil sampel dari seluruh domain item yang mungkin, dan, dengan demikian,
sampel harus cukup besar untuk dapat diandalkan. Maka mengikuti bahwa semakin banyak item
tes mengandung, semakin dapat diandalkan itu kemungkinan. Ini segera menempatkan
pertanyaan terbuka pada kerugian karena mereka membutuhkan lebih banyak waktu menjawab.
Jadi, esai umumnya kurang dapat diandalkan per jam waktu pengujian daripada pertanyaan
jawaban pendek.
Di mana keandalan adalah masalah yang cukup mudah dalam penilaian tertulis, validitas jauh
lebih kompleks. Ada beberapa kepercayaan populer tentang validitas berbagai jenis pertanyaan.
Sebagai contoh, sering dianggap bahwa pertanyaan terbuka menguji keterampilan kognitif
tingkat tinggi dan bahwa pertanyaan pilihan ganda hanya dapat menguji pengetahuan faktual.
Ini adalah kesalahpahaman yang tersebar luas: format pertanyaan sangat tidak penting
sehubungan dengan validitas, sedangkan konten pertanyaan sangat penting [22-24]. Jadi, apa
yang Anda tanyakan itu penting, bukan bagaimana Anda mencatat jawabannya. Tentu saja,
beberapa konten tidak sesuai dengan format tertentu. Yang terbaik adalah tidak menanyakan
item yang membutuhkan kemungkinan spontan dan kreatif dalam format pilihan ganda,
sementara item yang membutuhkan seleksi dari daftar opsi realistis yang terbatas sebaiknya
tidak ditanyakan dalam format terbuka.
Jadi, pertimbangan konten yang cermat sangat penting. Perbedaan lebih lanjut dan penting
terkait dengan konteks. Barang-barang yang kaya konteks mengandung deskripsi kasus dan
pertanyaan yang meminta keputusan (penting) atau evaluasi masalah. Contoh khas dari ini
adalah item pencocokan diperluas atau item pendekatan fitur kunci [33-35]. Item bebas konteks
tidak memiliki deskripsi kasus dan hanya meminta pengetahuan umum. Pendekatan yang kaya
konteks menguji aplikasi pengetahuan dan pemecahan masalah, tetapi item bebas konteks tidak
[36]. Namun, keduanya dapat menjadi aspek yang sama pentingnya untuk dinilai; satu tidak lebih
baik dari yang lain.
Gagasan bahwa pertanyaan terbuka menguji kemampuan kognitif yang superior atas pertanyaan
pilihan ganda juga tersebar luas di kalangan siswa. Meskipun ini mungkin tidak benar, itu masih
akan mempengaruhi persepsi siswa dan pembelajaran mereka. Menggunakan berbagai metode
mengirimkan pesan yang jelas kepada siswa bahwa mereka harus menguasai materi pelajaran,
terlepas dari format penilaian.
Aspek lain dari dampak pendidikan adalah pengaruh penilaian terhadap pembuat tes. Jika,
misalnya, semua tes harus dalam format pilihan ganda, penguji hanya dapat membuat item yang
sesuai dengan format ini, dan pertanyaan yang memerlukan jawaban spontan dapat diwakili
dengan kurang baik. Di sisi lain, jika semua item adalah format terbuka, penguji mungkin dibebani
dengan beban kerja yang tinggi dari tes koreksi dan mungkin mulai mengajukan pertanyaan
sederhana yang mudah untuk dinilai, yang juga berarti bahwa aspek-aspek penting dapat
diabaikan.
Penggunaan penilaian berbasis pilihan ganda sangat efektif dari segi biaya. Mereka mungkin
sedikit lebih sulit untuk diproduksi, tetapi penggunaan pemindai Membaca Tanda Optik tentu
membuat mereka lebih mudah untuk mencetak gol. Saat ini, perangkat lunak tersedia untuk
menilai secara online. Ini adalah pertimbangan yang sangat relevan di sekolah kedokteran
dengan sejumlah besar siswa per tahun. Setiap pound, euro, atau dolar bisa jadi
menghabiskan hanya sekali; oleh karena itu, uang yang dihabiskan untuk metode penilaian mahal
yang tidak perlu tidak dapat dihabiskan untuk meningkatkan pendidikan. Jadi, dari sudut pandang
efisiensi biaya, yang terbaik adalah menggunakan pertanyaan terbuka hanya jika format yang
lebih efisien tidak cukup.
Mungkin ada banyak literatur ilmiah yang membuktikan bahwa format tes tidak penting, tetapi
kadang-kadang keyakinan mungkin begitu kuat sehingga para pemangku kepentingan tidak
dapat diyakinkan. Dalam kasus-kasus seperti itu, argumen akan digunakan untuk mengklaim
bahwa penilaian pilihan ganda terlalu mudah, membuat siswa malas, dan tidak layak untuk
lingkungan akademik, dan bahwa kehidupan nyata dan praktik nyata bukan sekadar pertanyaan
tentang memilih opsi dari daftar. Argumen semacam itu mungkin kelihatannya tidak benar dari
sudut pandang psikometrik / rasionalis belaka, tetapi mereka mungkin sangat kuat tertanam
dalam nilai-nilai inti guru dan lembaga. Penelitian tentang bagaimana apa yang disebut
kepercayaan naif dibentuk dan dipelihara menunjukkan bahwa mereka sangat sulit untuk
berubah dan meskipun penelitian ini awalnya terkait dengan konsep fisika (gravitasi misalnya) itu
memang memiliki keterkaitan dengan kepercayaan sekitar pendidikan juga [37-39 ] Jadi, penting
untuk mempertimbangkan apakah berguna untuk bertentangan dengan mereka. Terkadang
nilai-nilai ini sangat kuat, dan mungkin lebih baik untuk menargetkan tingkat penerimaan yang
tinggi dari sistem penilaian terlebih dahulu, dan untuk menunda 'pertempuran'. Energi mungkin
lebih baik dihabiskan untuk pengajaran yang baik dan penilaian yang cukup baik, dan, yang lebih
penting, tes apa pun dapat valid hanya jika digunakan dengan benar. Untuk ini, itu harus dapat
diterima oleh semua pemegang saham. Anda dapat membaca lebih lanjut tentang penilaian
tertulis di Bab 21.

Pemeriksaan klinis terstruktur obyektif


dan Pasien Simulasi
Objective Structured Clinical Examinations (OSCE) dan pemeriksaan berbasis pasien yang
disimulasikan telah menjadi sangat populer untuk penilaian keterampilan (praktis) [40, 41].
Keduanya didasarkan pada serangkaian kasus terstruktur yang harus ditangani oleh kandidat.
Dalam OSCE, seorang kandidat memasuki serangkaian kamar atau stasiun yang berbeda secara
berurutan. Di setiap kamar ada tugas tertentu (mis. Melakukan resusitasi atau mengukur tekanan
darah), pasien simulasi atau manikin, dan pemeriksa dengan daftar periksa atau skala penilaian.
Kandidat harus menyelesaikan tugas dan kinerjanya dinilai terhadap daftar periksa atau skala
peringkat. Setelah periode waktu tertentu, sebuah sinyal diberikan dan kandidat melanjutkan ke
stasiun berikutnya.
OSCE dan pemeriksaan berbasis SP dikembangkan sebagai respons terhadap pengamatan yang
tidak terstruktur dalam praktik. Mereka dikembangkan secara cerdik dalam hal mereka
mengatasi ketidaktergantungan yang melekat dari praktik yang diamati dalam tiga cara. Pertama,
dengan menambahkan beberapa struktur pada pengamatan, mereka menjadi lebih andal. Kedua,
dengan menjaga setiap pengamatan singkat (OSCE asli memiliki stasiun 5 menit), banyak
pengamatan yang berbeda dapat dilakukan per jam, sehingga memungkinkan pengambilan
sampel yang lebih luas dan lebih efektif. Ketiga, dengan meminta kandidat pindah dari satu
stasiun ke stasiun lainnya, penilaian semacam itu juga sampel di berbagai penguji. 'Elang' akan
dikompensasi oleh 'merpati', atau lebih baik semua kandidat akan diperiksa oleh panel penguji
yang sama. Bagian kedua dari masalah ini - yaitu pengambilan sampel di banyak kasus - adalah
yang paling penting, karena ancaman terbesar terhadap keandalan adalah memiliki sampel yang
terlalu kecil. Banyak penelitian reliabilitas pada OSCE telah menunjukkan hal ini berulang kali.
Salah satu implikasi praktisnya adalah bahwa lebih baik memiliki lebih banyak stasiun dengan
satu penguji per stasiun daripada lebih sedikit stasiun dengan dua penguji per stasiun [42].
Terlepas dari pendekatan keandalan yang cerdas, sebagai aturan praktis, OSCE masih
membutuhkan rata-rata minimum setidaknya 2-3 jam pengujian per calon untuk mencapai
keandalan yang dapat diterima untuk keputusan sumatif.
Sehubungan dengan validitas, ada dua masalah yang sangat penting: panjang stasiun dan
penggunaan daftar periksa versus skala peringkat global. Orang mungkin cenderung berpikir
bahwa stasiun yang lebih lama, yaitu, lebih lama dari 5 menit, mungkin lebih (konten) valid tetapi
kurang dapat diandalkan, tetapi ini tidak selalu demikian. Kasus yang lebih panjang berisi
informasi lebih banyak daripada yang lebih pendek, dan tampaknya ada keseimbangan optimal
antara panjang dan jumlah kasus dalam OSCE. Oleh karena itu, umumnya yang terbaik adalah
menyesuaikan panjang stasiun dengan isi case, sehingga durasi stasiun dapat dirancang
bervariasi dari 5 hingga 20 menit [43].
Daftar periksa adalah daftar perilaku yang terperinci, dan mereka menggambarkan dengan tepat
tindakan yang harus diambil - misalnya, "mencuci tangan", "meletakkan tangan kiri pada tulang
dada pasien"; sedangkan skala penilaian memungkinkan untuk lebih banyak interpretasi oleh
pemeriksa, yang menjelaskan secara luas hanya keterampilan yang harus dilakukan - misalnya,
'mengeksplorasi kekhawatiran pasien', 'sampai pada kesimpulan yang benar'. Jadi haruskah
daftar periksa atau skala penilaian digunakan?
Orang akan cenderung berpikir bahwa karena daftar periksa lebih terstruktur mereka akan lebih
dapat diandalkan, tetapi ini tidak selalu terjadi [44]. Pilihan apakah akan menggunakan daftar
periksa atau skala penilaian harus dibuat terutama berdasarkan jenis keterampilan yang akan
dinilai. Keterampilan teknis, seperti mengambil tekanan darah atau melakukan resusitasi, dapat
dengan mudah diuji dengan daftar periksa, sedangkan keterampilan yang lebih rumit, seperti
kontak pasien pendek, tampaknya lebih baik diuji dengan skala penilaian [45]. Banyak sekolah
kedokteran menggunakan stasiun pendek dengan daftar periksa untuk keterampilan teknis di
kelompok yang lebih junior, dan mengintegrasikan stasiun yang lebih panjang dengan skala
penilaian di tahun-tahun yang lebih senior.
Secara umum, OSCE dianggap sangat serius oleh siswa dan berdampak besar pada perilaku
belajar siswa. Ini memberikan risiko dan peluang. Risiko dilengkapi dengan daftar periksa
terperinci. Bahkan jika mereka tidak dibagikan secara resmi, 'pasar gelap' dalam daftar periksa
lama dapat berkembang, dan menghafal ini mungkin merupakan strategi studi yang berhasil bagi
siswa. Menghafal skala penilaian kurang bermanfaat. Penggunaan skala penilaian dalam OSCE
menginduksi perilaku studi yang lebih ditujukan untuk mempraktikkan keterampilan, dan
peluang di sini adalah untuk memberikan waktu - sekitar 2 menit - di akhir setiap stasiun untuk
umpan balik tertentu. Ketika OSCE semata-mata untuk tujuan sertifikasi, ini tidak diinginkan.
Dalam kasus seperti itu, mengoptimalkan keandalan (dan dengan demikian sampel) lebih
penting. Namun, sebagian besar OSCE diadakan di lingkungan pendidikan sekolah kedokteran
dan dapat memberikan kesempatan yang baik untuk belajar.

Sayangnya, OSCE sangat mahal untuk dijalankan. Mereka membutuhkan sumber daya yang luas
dan logistik yang baik. Oleh karena itu penting untuk menggunakan OSCE secara efektif, dan
menggunakan sebagian besar waktu OSCE untuk mengeksplorasi pengetahuan umum tidak
efisien. Ini tidak berarti bahwa tidak ada pengetahuan yang harus diuji dalam OSCE, tetapi bahwa
pengetahuan yang diuji harus menjadi latar belakang pengetahuan dan harus memiliki hubungan
langsung dengan kasus ini.
OSCE diterima secara luas dan populer di seluruh dunia. Satu-satunya ancaman terhadap
penerimaan mereka adalah ketika OSCE digunakan untuk menguji keterampilan yang sangat
teknis dengan daftar periksa yang sangat rinci. Mereka kemudian cenderung menjadi trik
monyet, dan penguji mungkin merasa bahwa keahlian mereka tidak digunakan atau dihargai.
Eksplorasi OSCE yang lebih terperinci dan penilaian kompetensi klinis terstruktur lainnya dapat
ditemukan di Bab 23.
Pertanyaan tes pilihan ganda, juga dikenal sebagai item, dapat menjadi cara yang efektif dan
efisien untuk menilai hasil pembelajaran. Item tes pilihan ganda memiliki beberapa potensi
keuntungan:

Reliabilitas: Reliabilitas didefinisikan sebagai sejauh mana suatu tes secara konsisten mengukur
hasil belajar. Item tes pilihan ganda lebih mudah ditebak daripada pertanyaan benar / salah,
menjadikannya alat penilaian yang lebih andal. Keandalan ditingkatkan ketika jumlah item MC
yang difokuskan pada satu tujuan pembelajaran meningkat. Selain itu, penilaian objektif yang
terkait dengan item tes pilihan ganda membebaskan mereka dari masalah dengan
ketidakkonsistenan pencetak skor yang dapat mengganggu skor pertanyaan esai.

Validitas: Validitas adalah sejauh mana tes mengukur hasil belajar yang hendak diukur. Karena
siswa biasanya dapat menjawab item pilihan ganda jauh lebih cepat daripada pertanyaan esai,
tes berdasarkan item pilihan ganda biasanya dapat fokus pada representasi materi kursus yang
relatif luas, sehingga meningkatkan validitas penilaian.
Kunci untuk mengambil keuntungan dari kekuatan ini, bagaimanapun, adalah konstruksi barang
pilihan ganda yang baik.

Item pilihan ganda terdiri dari masalah, yang dikenal sebagai batang, dan daftar solusi yang
disarankan, yang dikenal sebagai alternatif. Alternatif terdiri dari satu alternatif yang benar atau
terbaik, yang merupakan jawabannya, dan alternatif yang salah atau lebih rendah, yang dikenal
sebagai distraktor.

Membangun Batang yang Efektif


1. Batang harus bermakna dengan sendirinya dan harus menyajikan masalah yang pasti. Batang
yang menyajikan masalah yang pasti memungkinkan fokus pada hasil pembelajaran. Akan tetapi,
sebuah batang yang tidak menghadirkan masalah yang jelas, dapat menguji kemampuan siswa
untuk menarik kesimpulan dari deskripsi yang tidak jelas dan lebih berfungsi sebagai tes yang
lebih langsung terhadap pencapaian hasil belajar siswa.

2. Batang tidak boleh mengandung bahan yang tidak relevan, yang dapat menurunkan keandalan
dan validitas skor tes (Haldyna dan Downing 1989)

3. Batang harus dinyatakan secara negatif hanya ketika hasil belajar yang signifikan
membutuhkannya. Siswa sering mengalami kesulitan memahami item dengan ungkapan negatif
(Rodriguez 1997). Jika hasil belajar yang signifikan membutuhkan ungkapan negatif, seperti
identifikasi laboratorium atau praktik klinis yang berbahaya, elemen negatif harus ditekankan
dengan huruf miring atau huruf besar.

4. Batang harus pertanyaan atau kalimat parsial. Batang pertanyaan lebih disukai karena
memungkinkan siswa untuk fokus pada menjawab pertanyaan daripada memegang kalimat
parsial dalam memori kerja dan secara berurutan melengkapinya dengan setiap alternatif
(Statman 1988). Beban kognitif meningkat ketika batang dibangun dengan inisial awal atau
interior, sehingga konstruksi ini harus dihindari.

Membangun Alternatif Efektif


1. Semua alternatif harus masuk akal. Fungsi dari alternatif yang salah adalah berfungsi sebagai
pengacau, yang harus dipilih oleh siswa yang tidak mencapai hasil belajar tetapi diabaikan oleh
siswa yang memang mencapai hasil belajar. Alternatif yang tidak masuk akal tidak berfungsi
sebagai pengganggu fungsional dan karenanya tidak boleh digunakan. Kesalahan umum siswa
memberikan sumber pengacau terbaik.
2. Alternatif harus dinyatakan dengan jelas dan singkat. Item yang terlalu bertele-tele menilai
kemampuan membaca siswa daripada pencapaian tujuan pembelajaran mereka

3. Alternatif harus saling eksklusif. Alternatif dengan konten yang tumpang tindih dapat dianggap
sebagai item “trik” oleh peserta tes, penggunaan berlebihan yang dapat mengikis kepercayaan
dan rasa hormat untuk proses pengujian.

4. Alternatif harus homogen dalam konten. Alternatif yang heterogen dalam isinya dapat
memberikan isyarat kepada siswa tentang jawaban yang benar.

5. Alternatif harus bebas dari petunjuk tentang respons mana yang benar. Peserta tes yang
canggih waspada terhadap petunjuk yang tidak sengaja untuk jawaban yang benar, seperti
perbedaan dalam tata bahasa, panjang, pemformatan, dan pilihan bahasa dalam alternatif.
Karena itu penting bahwa alternatif
memiliki tata bahasa yang konsisten dengan batang.
berbentuk paralel.
sama panjangnya.
menggunakan bahasa yang mirip (mis., semua tidak seperti bahasa buku teks atau semua bahasa
buku teks sejenis).

6. Alternatif "semua yang di atas" dan "tidak ada di atas" tidak boleh digunakan. Ketika "semua
hal di atas" digunakan sebagai jawaban, peserta tes yang dapat mengidentifikasi lebih dari satu
alternatif sebagai benar dapat memilih jawaban yang benar bahkan jika tidak yakin tentang
alternatif lain. Ketika "tidak ada yang di atas" digunakan sebagai alternatif, peserta tes yang dapat
menghilangkan satu opsi dengan demikian dapat menghilangkan opsi kedua. Dalam kedua kasus,
siswa dapat menggunakan pengetahuan parsial untuk sampai pada jawaban yang benar.

7. Alternatif harus disajikan dalam urutan logis (mis., Alfabet atau angka) untuk menghindari bias
terhadap posisi tertentu.

Anda mungkin juga menyukai