Anda di halaman 1dari 19

Jurnal Komputerisasi Adaptive Testing

Volume 3 Nomor 1 Oktober 2015 Aplikasi dan Implementasi


CAT Menerapkan CAT: The AMC Pengalaman
John J. Barnard
DOI 10,7333 / 15100301001

The Journal of Komputerisasi Adaptive Testing diterbitkan oleh Asosiasi


Internasional untuk Computerized Adaptive Testing www.iacat .org / jcat
ISSN: 2165-6592 2015 oleh Penulis. Seluruh hak cipta. Publikasi ini dapat direproduksi dengan tanpa
biaya untuk penggunaan akademis atau penelitian. Semua reproduksi lainnya memerlukan izin dari
penulis; jika penulis tidak dapat dihubungi, izin dapat diminta dari IACAT.
Editor David J. Weiss, University of Minnesota, USA
Asosiasi Associate Editor Editor G. Gage Kingsbury
Psikometri Konsultan, USA
Bernard P. Veldkamp
University of Twente, Belanda
Consulting Editor John Barnard
EPEC, Australia
Wim J. van der Linden
CTB / McGraw hill, USA Juan Ramn Barrada
Universidad de Zaragoza, Spanyol
Alan D. Mead
Illinois Institute of Technology, Amerika Kirk
A. Becker
Pearson VUE, USA
Mark D. Reckase
Michigan State University, USA Barbara G.
Dodd
University of Texas di Austin, Amerika Serikat
Barth Riley
University of Illinois di Chicago, Amerika
Serikat Theo Eggen
Cito dan University of Twente, Belanda
Otto B. Walter
Universitas Bielefeld, Jerman Andreas Frey
Universitas Friedrich Schiller Jena, Jerman
Wen-Chung Wang
Hong Kong Institute of Education Kyung T.
Han
Graduate Dewan Penerimaan manajemen, USA
Steven L. Wise
Northwest Evaluasi Association, USA
Teknis Editor Barbara L. Camm
Journal of Computerized Adaptive Testing
Volume 3, Nomor 1, Oktober 2015
DOI 10,7333 / 15100301001
ISSN 2165-6592

Aplikasi dan Implementasi CAT


Menerapkan CAT: The AMC Pengalaman
John J. Barnard EPEC Pty Ltd, Australia
Makalah ini memberikan gambaran dari program penilaian dengan lulusan medis yang terlatih di luar negeri yang
ingin praktek kedokteran di Australia . Sebuah diskusi non-teknis bagaimana program itu bermigrasi dari format
kertas dan pensil melalui administrasi online untuk pengujian adaptif terkomputerisasi (CAT) lebih ap- proxima 15
tahun mencakup berbagai aspek praktis yang dihadapi dan bagaimana mereka ditangani. Meskipun aspek CAT
teoritis secara singkat disebutkan seluruh, fokusnya adalah pada beberapa panduan dan pengalaman yang mungkin
berguna untuk praktisi.
Kata kunci: Penilaian, online, komputer, adaptif, pengujian, medis
The Australian Medical Council (AMC) adalah badan standar nasional independen yang, di antara kegiatan lain,
menilai dokter yang terlatih di luar negeri yang ingin praktek kedokteran di Australia. Pertanyaan pilihan ganda
(MCQs atau item) telah digunakan dalam penilaian komponen pengetahuan medis dari pemeriksaan sejak tahun
1978. MCQ ujian dirancang untuk menutupi pengetahuan selama lima disiplin ilmu, disebut sebagai kelompok
pasien: Dewasa Kesehatan, Kesehatan Perempuan, Kesehatan anak (Pediatrics), Kesehatan Mental (Psikiatri), dan
Kesehatan Penduduk. Dewasa Kesehatan dibagi lagi menjadi dua domain utama, yaitu, Kedokteran dan Bedah;
sementara Kesehatan Perempuan dibagi menjadi Obstetri dan Ginekologi. Untuk memastikan bahwa berbagai jenis
item yang termasuk dalam setiap ujian, item juga diberi label dalam hal tugas klinis, termasuk Pengumpulan Data,
Data Interpretasi, dan Manajemen Data. Melalui pencocokan quirements ulang konten untuk setiap kelompok pasien
dan jenis item, matriks dua dimensi dikembangkan untuk mengidentifikasi item untuk setiap pemeriksaan, disebut
cetak biru itu.
Selain perubahan dalam jumlah dan jenis soal pilihan ganda yang digunakan selama bertahun-tahun (misalnya,
Haladyna, 2004; Barnard, 2012), 1998 menandai perubahan signifikan dalam proses penilaian untuk AMC, terutama
dalam hal analisis pemeriksaan. Sebelum tahun 1998, kedua tipe A (jawaban yang benar) dan Jenis J (pola respon
yang benar beberapa) yang digunakan dalam ujian MCQ. Sejak tahun 1998, hanya tipe A soal pilihan ganda dengan
lima pilihan dan pilihan tunggal yang benar memiliki
1 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
telah digunakan. Pada tahun yang sama, Rasch pengukuran (misalnya, Barnard, 2012; Obligasi & Fox, 2007;
Andrich, 1988; Wright, 1977) menggantikan teori tes klasik (CTT, misalnya, Crocker & Algina, 1986) sebagai
kerangka pengukuran yang mendasari. Selain kedatangan pendek terdokumentasi dengan baik CTT (misalnya,
Hambleton & Swaminathan, 1985), model Rasch dianggap untuk properti pengukuran dan untuk jumlah yang relatif
kecil dari calon (rata-rata sekitar 300 calon per ujian) yang mengambil ujian untuk kalibrasi yang kuat. Ia telah
mengemukakan bahwa ketika mempertimbangkan berisiko tinggi situasi seperti sertifikasi dan licen- yakin
pemeriksaan, perhatian harus diberikan untuk memanfaatkan metode psikometri seperti kerangka pengukuran Rasch
daripada CTT dalam rangka untuk lebih menginformasikan keputusan tingkat item (Petrillo, Cano , McLeod, &
Coon, 2015).
Bentuk setara yang berbeda dari ujian itu diperlukan karena ujian diberikan di seluruh dunia dalam zona waktu
yang berbeda dan ada peningkatan permintaan untuk ujian Quent lebih fre-. Perubahan lebih lanjut dilakukan pada
tahun 2005, yaitu, pergeseran dari format kertas dan pensil untuk pengujian komputerisasi. Hal ini memungkinkan
kemudahan penjadwalan dan kemampuan untuk accom- modate lebih tanggal dan waktu untuk meningkatkan
jumlah calon. Manfaat lainnya, seperti pelaporan lebih cepat dari hasil resmi, juga diaktifkan (misalnya, Bodmann,
2004). Hasil yang sama juga terlihat pada transisi dari kertas dan pensil untuk pengujian komputerisasi untuk Ujian
Dewan Lisensi Nasional (NCLEX) pada tahun 1994 di Amerika Serikat, dan pemeriksaan untuk Dewan Sertifikasi
Perawat Dokter-dokter anestesi (CCNA) di 1996 (Vrabel, 2004).
Administrasi acak item dalam ujian tetap-panjang tidak hanya bertemu tuntutan pada waktu untuk AMC, tetapi
format elektronik dari item juga menghasilkan gambar yang lebih baik kualitas, menangkap detil dari stroke kunci,
dan keuntungan lain yang terkait dengan secara online waktu melahirkan ery (misalnya, Mills, Potenza, Fremer, &
Ward, 2002).
Menggunakan item yang Rasch-dikalibrasi terkait dengan skala umum, fungsi informasi dapat digunakan untuk
membangun bentuk setara yang berbeda dari tes yang memenuhi tuntutan cetak biru dan kriteria psikometri
(misalnya, Wagner-Menghin & Masters, 2013; Kolen & Brennan, 2004; Samejima, 1977) untuk administrasi
internasional. Studi untuk memastikan bahwa calon di sekitar yang sama di laboratorium komputer tidak diberikan
item yang sama pada waktu yang sama yang dilakukan. Disimpulkan bahwa ini bukan faktor penting karena untuk
pengacakan item.
Namun, peningkatan lebih lanjut dalam jumlah kandidat menempatkan lebih banyak tekanan pada devel-opment
dari jumlah yang memadai bentuk pemeriksaan paralel yang berbeda untuk mengatasi jumlah kusut in administrasi.
Dua ujian kertas dan pensil awal diberikan an- nually meningkat secara substansial dari waktu ke waktu; dan
permintaan pada pengembangan kapasitas item, menghubungkan, dan menyamakan dan infrastruktur manajemen
mendorong pencarian solusi yang lebih baik. Komputerisasi pengujian adaptif (CAT) dianggap saat ini. Dalam
CAT, pengalaman pengujian didasarkan pada prinsip bahwa bank item yang ada di mana barang yang bisa dipilih
berdasarkan jawaban dari pertanyaan sebelumnya (Vrabel, 2004). Peserta ujian awalnya AD- dilayani item dengan
tingkat kesulitan moderat dari bank item, di mana item yang dikalibrasi oleh tingkat kesulitan. Jika menjawab
dengan benar, item berikutnya diberikan akan lebih sulit; dan jika menjawab salah, item lebih mudah akan dipilih
(Vrabel, 2004). Hal ini memungkinkan perkiraan yang sangat tepat dari kemampuan peserta ujian ini. CAT
memungkinkan untuk pemeriksaan alized dan disesuaikan lebih individualisme untuk setiap ujian. Alih-alih
administrasi set berbeda item sebagai bentuk pemeriksaan terpisah, bank item dapat digunakan untuk
mengkompilasi binations com- unik ujian untuk ujian individu (misalnya, WAINER, 2000; Van der Linden & Glas,
2003; Reckase, 2003). Pendekatan ini ditujukan bukan masalah keamanan hanya di tempat yang sama dan lebih
zona waktu untuk meningkatkan keamanan, tetapi juga meningkatkan penggunaan item (misalnya, Chang & Ansley,
2003) dan memungkinkan untuk meningkatkan administrasi. Sejak Februari 2011, CAT dilaksanakan untuk
komponen pengetahuan medis dari proses pemeriksaan AMC. Sampai saat ribuan inees exam- telah berhasil
dievaluasi dalam mode ini pemeriksaan.
Dalam pemeriksaan berisiko tinggi diberikan dari waktu ke waktu, itu diharapkan bahwa beberapa item
mungkin kebocoran ketika ujian menjadi akrab dengan barang yang biasa digunakan. Penyelenggara set yang
berbeda dari item untuk individu dari bank item, bagaimanapun, membuat menghafal dari
2 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
beberapa item latihan yang agak sulit, sebagai individu menerima pemeriksaan disesuaikan.
Proses seleksi item cerdas, spesifik untuk setiap ujian, dapat menghasilkan pasangan esti- tepat dari kemampuan
mereka (misalnya, Weiss, 2011). Mungkin yang paling penting, efisiensi ditingkatkan melalui pemberian item yang
lebih sedikit untuk semua calon tanpa mengorbankan pengukuran presisi (misalnya, Weiss, 1982; Wang & Vispoel,
1998). Hal ini tidak hanya disingkat ujian dras- tically untuk ujian AMC tetapi juga mengurangi paparan item dalam
rangka untuk mengurangi bocornya item.

Pilot Evaluasi Trials


Sementara ujian konvensional diberikan secara online antara tahun 2005 dan 2010, uji coba CAT dilakukan
dengan mahasiswa kedokteran sukarela. Pada bulan Juni 2008, sidang dengan 71 fifth- mahasiswa tahun terutama
bertujuan untuk menguji platform CAT dan membandingkan sebuah CAT terpadu (memilih item adaptif dari bank
lengkap) dengan kucing berurutan (memilih item di set dengan disiplin).
Para siswa dibagi menjadi empat kelompok (18 siswa di masing-masing tiga kelompok dan 17 siswa dalam
kelompok keempat). Semua siswa diberikan 175 item dalam tiga jam: pertama, 30-item tidak dibatasi CAT dari
seluruh bank yang terdiri dari 979 item, diikuti dengan CAT 22- item dari Medicine saja; 20-item CAT dari Bedah
saja; empat 15-item kucing masing-masing dari empat disiplin yang tersisa; dan, akhirnya, 43-item acak tes
konvensional. Setiap kelompok siswa diberikan versi yang berbeda. Dua tes umum selama empat versi menjabat tiga
tujuan utama, yaitu, untuk menghubungkan empat versi; untuk mengeksplorasi bility KEMUNGKINAN dari
termasuk percontohan, atau baru, item untuk kalibrasi dalam kondisi ujian; dan untuk membandingkan perkiraan
kemampuan berasal dari tes non-umum dalam empat versi dengan perkiraan kemampuan berasal dari yang pertama
sepenuhnya tak terbatas CAT. Tes umum 30-item pertama sehingga diberikan dalam format yang sama di semua
empat versi, tapi dengan item yang dipilih adaptif sehingga siswa tidak diberikan item yang sama; dalam tes 43-item
umum kedua, para siswa diberikan set item dalam urutan acak.
Dalam semua empat versi, item dipilih melalui informasi Fisher maksimal tetapi berbeda dalam item awal
(fixed dibandingkan dari dalam jangkauan) dan metode estimasi kemampuan. Pada versi pertama, masing-masing
dari enam kucing non-umum dimulai dengan item yang sama di setiap disiplin, dan kemungkinan estimasi
maksimum (MLE) digunakan untuk memperkirakan kemampuan. Dalam versi kedua, item tetap sama seperti pada
versi pertama digunakan untuk memulai setiap tes, tetapi sebuah metode Bayesian (EAP) digunakan untuk
memperkirakan kemampuan. Versi ketiga adalah mirip dengan versi pertama, tapi item pertama yang dipilih secara
acak dari dalam rentang [-1; 1] logits. Versi keempat adalah mirip dengan versi kedua, dengan item pertama yang
dipilih secara acak dari dalam rentang [-1; 1] logits. String tanggapan yang beragam dipaksa melalui pemberian
sangat mudah dan barang yang sangat sulit dalam versi MLE. Tujuh (CAT) tindakan kemampuan dengan demikian
diturunkan untuk setiap siswa. Enam tindakan-tindakan kemampuan disiplin ditimbang dengan kebalikan dari
kesalahan standar mereka dan dikombinasikan untuk menghasilkan ukuran tunggal. Langkah ini dibandingkan
dengan ukuran berasal dari CAT umum pertama, dan hasil yang menjanjikan ditemukan. (Karena sampel kecil dan
karakter sukarela persidangan, korelasi tidak dilaporkan.) Meskipun perbedaan antara item awal tetap dan acak yang
diabaikan, ternyata bahwa MLEs untuk ini tes singkat kurang bias. Perkiraan kemampuan berada dalam kisaran -2,5
sampai 2,5 logits (kesalahan standar kurang dari 0,4 logits), dan berarti perbedaan antara kemampuan secara
keseluruhan dan subtes kemampuan rata-rata berasal berkisar antara 0,081 dan 0,102 logits untuk empat kelompok
siswa. Hasil ini menunjukkan bahwa ujian berpotensi menjadi (unidimensionality asumsi) inte- parut CAT atau
serangkaian kucing berurutan oleh kelompok pasien bisa diberikan untuk menghasilkan lebih tepat sub-langkah di
samping ukuran keseluruhan. Ditemukan, dalam keterbatasan, bahwa langkah-langkah bagian berasal dari kucing
berurutan lebih kuat dan tepat daripada ketika berasal dari CAT terintegrasi.
Pada bulan Agustus 2008, sidang kedua selesai dengan 108 sukarela tahun kelima medis penyok stu- dari
universitas lain. Sedangkan Juni 2008 percobaan dirancang untuk mengeksplorasi berbeda
3 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
mulai pilihan item, metode estimasi kemampuan, dan terintegrasi dibandingkan kucing berurutan, sidang Agustus
dirancang untuk lebih mengeksplorasi yang terakhir. Fisher (satu titik) informasi di estimasi saat digunakan untuk
seleksi item, dan MLE digunakan untuk mencetak gol di semua kucing. Dua versi utama dari kucing yang
dikompilasi untuk sidang ini. Dalam versi utama pertama, 54 siswa menyelesaikan 150-item tidak dibatasi CAT.
Versi kedua, yang diberikan kepada 54 siswa lain, menjelajahi dua cara mendefinisikan kucing bagian, yaitu, dengan
disiplin dan dengan tugas klinis. Dua puluh tujuh siswa secara acak dialokasikan untuk masing-masing dua versi ini.
Dalam versi disiplin, enam kucing berurutan terdiri antara 13 dan 39 item ad- dilayani, dengan item yang dipilih
secara proporsional dan sesuai dengan cetak biru dari enam disiplin ilmu-terlepas dari tiga tugas klinis. Dalam versi
tugas klinis, tiga kucing berurutan disusun, yaitu, pengumpulan data, interpretasi data, dan manajemen data. Untuk
enam Kucing berbasis disiplin, relatif langkah-langkah yang tepat diperoleh, dengan kesalahan standar mulai 0,212-
0,350 logits. Meskipun kucing klinis-tugas umum menghasilkan kesalahan kecil standar (berkisar antara 0,200 dan
0,295 logits), dan langkah-langkah sehingga lebih tepat karena tes lagi, kucing berurutan berdasarkan disiplin-yang
disukai oleh penguji AMC dari sudut pandang konten pandang.
Sebuah sidang ketiga dilakukan pada bulan November 2008 dengan 188 kandidat medis. Setelah diskusi
panjang, keputusan dibuat bahwa ujian terintegrasi lebih disukai. Percobaan ini, oleh karena itu, dirancang untuk
membandingkan versi online konvensional ujian dengan CAT konten-terkendala terintegrasi. Percobaan ini
dilakukan sebagai ujian formal. Bagian konvensional adalah ujian AMC standar di mana skor cut telah ditentukan.
Sebuah korelasi yang tinggi yang signifikan secara statistik dari 0,816 (N = 188) yang ditemukan antara dua versi,
yang diimbangi agar administrasi. Menggunakan berasal skor cut konvensional di bagian CAT, analisis regresi
logistik menunjukkan bahwa 86,7% dari melewati yang benar memprediksi dari CAT seperti yang diamati dalam
ujian konvensional. Hasil ini sesuai dengan banyak studi yang membandingkan ujian konvensional dengan ujian
online dan kucing, dan dianggap menjanjikan untuk pelaksanaan kucing dalam ujian AMC. Misalnya, Kings-
mengubur dan Houser (1988) menyimpulkan bahwa skor dari CAT dan kertas dan pensil tes dapat dianggap
sebagai dipertukarkan sebagai skor dari dua tes kertas dan pensil akan; sedangkan Olsen, Maynes, Slawson, dan Ho
(1989) melaporkan bahwa analisis mereka menunjukkan tingginya tingkat perbandingan antara tes kertas diberikan,
tes komputer diberikan, dan kucing, dengan korelasi berkisar antara 0,81 dan 0,91. Hasil ini sesuai dengan banyak
penelitian terbaru yang lebih (misalnya, Puhan, Boughton, & Kim, 2007).

Simulasi
Setelah keputusan dibuat bahwa konten-dibatasi (dengan disiplin) kucing terpadu itu harus dilaksanakan dalam
ujian AMC, uji coba lebih lanjut yang dilakukan pada tahun 2009 dan 2010 untuk mendapatkan informasi yang
lebih rinci. Post-hoc simulasi (real-data) dan monte carlo juga digunakan untuk lebih mengeksplorasi isu-isu seperti
aturan awal, penggunaan item dan eksposur, review item, uji tumpang tindih, dan piloting item baru.
Fungsi informasi untuk item, kolam renang (himpunan bagian dari bank item), atau seluruh bank yang dapat
digunakan untuk memeriksa ketepatan pengukuran diharapkan pada setiap titik pada kemampuan contin- UUM.
Fungsi informasi target sangat penting untuk pelaksanaan kucing, karena akan memberikan indikasi dari pengukuran
presisi, yang terutama penting di skor dipotong.
Untuk meminimalkan keanehan, pembibitan acak yang berbeda digunakan di 20 ulangan dari persyaratan yang
sama. Simulasi didasarkan pada 120 item dan 335 calon. 120 item yang ditentukan sebagai jumlah item mencetak
dimaksud dalam kucing, dan 335 calon berasal sebagai jumlah rata-rata indikasi calon per ujian. Masa lalu AMC
ams mantan mengindikasikan bahwa kemampuan calon jarang jatuh di luar rentang -2 logits untuk 2 logits; dengan
demikian, kisaran ini digunakan. Dalam simulasi menggunakan CATSim (Weiss & Guyer, 2012), alpha dan beta
nilai yang digunakan untuk mengontrol distribusi beta untuk meniru distribusi normal yang sebenarnya sedekat
mungkin. Selama 10 simulasi pertama, alpha dan beta keduanya ditetapkan pada 5.0; dan dalam 10 simulasi kedua,
alpha dan beta keduanya ditetapkan pada 1,0. Awal kemampuan () memperkirakan
4 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
ditetapkan pada nilai dekat dengan skor potongan nol logits. diperkirakan dengan MLE seperti yang diterapkan
dalam algoritma CAT disukai, dan item berikutnya dipilih oleh informasi Fisher maksimum pada estimasi saat ini.
Sebuah pemutusan variabel ditetapkan pada standard error maksimum (SEM) dari 0,20 untuk mengeksplorasi
jumlah barang yang dibutuhkan untuk sion preci- ditentukan. Tingkat presisi jauh lebih tinggi daripada yang
disarankan oleh Wagner-Menghin & Masters (2013), yang merekomendasikan 20 item per tingkat kesulitan untuk
mencapai SEM 0,39 jika kira--kira 30 item yang diberikan adaptif.
Dalam satu studi, delapan simulasi diselesaikan: dua dengan s positif dan kesulitan item (antara 0 dan 2 logits),
dua dengan s negatif dan kesulitan item (antara -2 dan 0 logits), dua dengan s positif (0-2 logits) dan barang
kesulitan negatif (-2 ke 0 logits), dan dua dengan s negatif (-2 ke 0 logits) dan kesulitan item yang positif (0-2
logits) sekitar skor dipotong. Ditemukan bahwa untuk 99,6% dari calon simulasi, SEM 0,20 atau kurang dicapai
dalam waktu 120 item. Simulasi lanjut, menghapus baik kriteria SEM atau jumlah maksimum item kriteria (120
item), menghasilkan hasil yang sama. Sebagai contoh, dalam beberapa kasus SEM kurang dari 0,20 yang dicapai
untuk semua calon dengan 71 atau lebih sedikit item, sedangkan simulasi lain yang diperlukan sedikit lebih dari 120
item untuk mencapai tingkat set presisi dari SEM 0,2 logits atau kurang. Kisaran kesulitan barang dan / atau s calon
dimodifikasi untuk [-2,5; 2,5] dan juga untuk [-3; 3], sehingga barang-barang sedikit lebih diperlukan untuk
sejumlah kecil item untuk mencapai SEM 0,20 atau kurang. Dari hasil simulasi tersebut, disimpulkan bahwa kucing
presisi tinggi dapat diharapkan jika 120 item adaptif diberikan dari bank 1.800 item untuk kondisi serupa dengan
yang disimulasikan. Hasil ini juga vali- tanggal melalui post-hoc (real-data) simulasi CAT yang memperkirakan
berasal dari ujian online diberikan antara tahun 2005 dan 2010 yang digunakan dan hasil yang sama ditemukan.

Cetak Biru dan Ujian


bank item AMC terdiri dari ribuan item dikalibrasi dan dibagi menjadi bank dari 1.800 item masing-masing.
Hanya satu bank aktif setiap saat untuk keamanan dan alasan lainnya. Item di masing-masing bank yang terletak di
sel matriks dua dimensi dengan enam kelompok pasien (disiplin) sebagai kolom dan tiga tugas klinis sebagai baris.
Setiap calon diberikan 35 Medicine, 25 Bedah, Kesehatan 15 Perempuan, 15 Kesehatan Anak, 15 Kesehatan Mental,
dan 15 item Kesehatan Penduduk yang mencetak gol. Pengacakan digunakan untuk menyeimbangkan tugas klinis.
Selain 120 item mencetak, 30 item percontohan termasuk dalam ujian sehingga setiap calon diberikan 150 item.
Setelah data yang cukup telah dikumpulkan pada item percontohan, mereka dikalibrasi dan terkait dengan skala
dibangun untuk digunakan sebagai masa depan mencetak item. Uji coba menunjukkan bahwa mengizinkan 1,4
menit per item memadai sehingga ujian bisa diselesaikan dalam 3,5 jam, dibandingkan dengan 7 jam dalam ujian
konvensional diberikan sebelumnya.
Ujian demikian merupakan konten-terkendala tetap-panjang CAT. Variabel-panjang kucing ini- tially dianggap
tetapi tidak lebih dipertimbangkan karena mereka tidak dapat menjamin pencocokan cetak biru yang tepat dan
meminjamkan diri untuk kritik dan kemungkinan tuduhan ketidakadilan jika beberapa kandidat diberikan lebih atau
item yang lebih sedikit daripada yang lain, dan karena itu diferensial con- cakupan tenda.

Dimensi
Tidak ada tes bisa sempurna unidimensional. Asumsi harus dibuat bahwa itu adalah unidi- mensional cukup
jika item covary ke mana diterima untuk mengukur sesuatu yang sama. Asumsi ini dibuat untuk ujian MCQ AMC di
mana konstruk didefinisikan sebagai pengetahuan medis dan terdiri dari enam kelompok pasien utama. The
unidimensionality-asumsi tion diuji secara luas melalui faktor analitik analisis menggunakan korelasi tetrakorik,
menerapkan metode Bejar (misalnya, Liou, 1988), dengan menggunakan tes t berdasarkan komponen utama
residual, dan mengevaluasi indeks fit (misalnya, Hambleton & Swaminathan, 1985).
5 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
Hubungan antara estimasi keseluruhan (sebagai variabel dependen) dan perkiraan disci- pline / kelompok
pasien (sebagai prediktor) adalah dieksplorasi. Hasil regresi standar biasanya mengakibatkan R2S dari 0,95,
menunjukkan bahwa sekitar 95% dari varians dalam ukuran keseluruhan dijelaskan oleh model. Ini adalah hasil
yang sangat signifikan (p <0,0005). Koefisien standar menunjukkan bahwa Medicine membuat kontribusi yang
unik terkuat untuk menjelaskan keseluruhan, diikuti oleh Surgery. Analisis komponen utama juga dilakukan. The
Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO) nilai-nilai yang tanpa pengecualian lebih besar dari 0,6
dan Uji Barlett dari nilai kebulatan signifikan (p <0,0005). Menggunakan kriteria Kaiser, hanya satu komponen
memiliki nilai eigen dari 1 atau lebih besar. Plot scree jelas menunjukkan perubahan dalam bentuk plot, dan karena
itu hanya salah satu komponen diekstraksi. Loadings dari variabel menunjukkan bahwa semua enam kelompok
pasien dimuat kuat (di atas 0.40) pada komponen diekstraksi. Dari hasil penelitian ini, dapat disimpulkan bahwa
asumsi unidimensionality berlaku sejauh bahwa kelompok pasien yang berbeda diukur pengetahuan konstruk-medis
umum.

Sebuah Barang Dikalibrasi Bank


Pelaksana dan mengelola program CAT membutuhkan pertimbangan hati-hati dan beberapa tuntutan teknis dan
psikometri. Persyaratan pertama adalah ketersediaan bank barang dikalibrasi, karena algoritma untuk pemilihan
barang mengharuskan perkiraan peserta ujian dan barang kesulitan harus berada pada skala yang sama. Meskipun
dimungkinkan untuk mendasarkan kucing di CTT (Rudner, 2002), sampel tergantung statistik barang dan terutama
kurangnya hubungan-kapal antara item yang kesulitan dan skor orang membuat ini pilihan yang kurang layak. Oleh
karena itu pengukuran Rasch dilaksanakan untuk mencapai sifat pengukuran yang diinginkan dan ac- commodate
nomor relatif kecil calon.
Dalam setiap program CAT yang masuk akal yang sedang berlangsung, seluruh bank item tidak dimanfaatkan
secara keseluruhan. Bank AMC dibagi menjadi bank dari 1.800 item masing-masing, yang diputar sekali item telah
mencapai frekuensi penggunaan tertentu. Prosedur ini tidak hanya meningkatkan keamanan, tetapi juga memastikan
pemaparan diterima item. Bank-bank yang terkait sehingga kinerja dan standar mempertahankan maknanya atas
bank. Kesetaraan bank dipastikan melalui pencocokan jumlah item dalam sel-sel cetak biru dan juga dengan overlay
fungsi informasi bank.
Karena ujian terutama ditujukan untuk membuat lulus / gagal keputusan, sebagian besar item memiliki kesulitan
sekitar skor potongan nol logits. Item untuk masing-masing bank dengan demikian dipilih untuk memiliki fungsi
informasi bank normal untuk menghasilkan langkah-langkah yang tepat, terutama untuk pertunjukan derline bor-.
Sekitar 2% dari item memiliki kesulitan kurang dari -2 logits dan sekitar 2% dari item memiliki kesulitan lebih besar
dari 2 logits. Gambar 1 menunjukkan fungsi informasi bank yang khas.
Perlu dicatat bahwa jumlah item di bank bukanlah satu-satunya persyaratan untuk administrasi baik kucing.
Kesulitan Item juga harus span kontinum kesulitan dengan lebih item mana penggunaan diharapkan menjadi tinggi
biasanya sekitar skor dipotong.
Setiap program CAT bergantung pada generasi dan penambahan item baru. Item pilot diunggulkan secara acak
dalam ujian, dan tanggapan diakumulasi sampai cukup data telah diperoleh untuk kalibrasi dan menghubungkan ke
skala bank. Perkiraan kesulitan untuk item percontohan diperoleh dengan menggunakan perkiraan calon sebagai
berasal melalui item mencetak gol.

Penggunaan, Exposure, dan Tumpang tindih


Bagi banyak aplikasi CAT, penggunaan item tidak yang terpenting. Namun, itu menjadi masalah jika kucing
tidak berfungsi cukup baik untuk aplikasi tertentu dan / atau ada motivasi untuk peserta ujian untuk mendapatkan
akses ke barang-barang untuk mempelajari jawaban. Dalam ujian-taruhan tinggi seperti ujian MCQ AMC ini, yang
terakhir ini mungkin menjadi masalah; dan, karena itu, perangkat pemantauan penggunaan item penting.
6 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
Gambar 1. Khas Informasi BankFungsi
penggunaanBarang adalah fungsi sendi ukuran Bank, struktur informasi bank, dan distribusi perkiraan calon .
Perhatikan penggunaan yang memiliki dua makna: Produk tidak boleh terlalu dimanfaatkan; di sisi lain, barang-
barang tidak boleh kurang dimanfaatkan, karena hal ini akan berarti bahwa bank tidak digunakan secara efektif.
Dalam program AMC, penggunaan item dimonitor melalui merencanakan frekuensi dari item yang digunakan
selama kontinum kesulitan terhadap jumlah item yang tersedia di bank. Ditemukan bahwa jika algoritma
administrasi tetap tidak berubah, pola penggunaan item tidak berubah secara signifikan selama ujian dan waktu.
Paparan barang secara langsung terkait dengan penggunaan item dan juga memiliki setidaknya dua arti, yaitu,
dalam konteks uji tumpang tindih dan dalam hal paparan barang umum. Mantan mengacu pada persentase item
umum antara ujian diberikan kepada dua atau lebih calon dalam sesi yang sama, sedangkan yang terakhir mengacu
pada tingkat di mana item diberikan. Formula yang berbeda dari matematika diskrit digunakan untuk
mengeksplorasi tes tumpang tindih antara pasangan AMS mantan, dan disimpulkan bahwa rasio 10: 1 sudah cukup
untuk memastikan bahwa tes tumpang tindih tidak faktor. (AMC menerapkan rasio 15:. 1)
Metode Sympson-Hetter (Sympson & Hetter, 1985) mungkin metode yang paling populer diterapkan untuk
mengontrol paparan item pada kucing. Metode ini dan beberapa modifikasi yang awalnya dipertimbangkan untuk
ujian AMC; tapi cobaan dan implemen- tasi penuh untuk ribuan calon hingga saat ini telah menunjukkan bahwa
paparan bisa ditangani dengan efektif melalui algoritma CAT seperti yang diterapkan pada kucing AMC ini.
Over-penggunaan item mungkin mengakibatkan pergeseran item, yaitu, perbedaan dalam nilai-nilai parameter
item yang dari waktu ke waktu. Karena pelaksanaan proses stokastik, variasi kecil yang diharapkan; tapi perbedaan
yang signifikan mungkin disebabkan karena item menjadi dikompromikan melalui mulai dikenal atau faktor-faktor
lain yang perlu diawasi secara ketat. Metode yang berbeda dapat digunakan untuk ini. Sebuah tes item-berorientasi
global untuk pergeseran parameter menggunakan multiplier Lagrange () didasarkan pada evaluasi fungsi kuadrat
dari derivatif parsial dari fungsi log-kemungkinan model umum dievaluasi pada perkiraan kemungkinan maksimum
model parameter (misalnya, Bock, Muraki, & Pfeiffenberger, 1988; Suarez-Falcon & Glas, 2010). Atau, metode
ditargetkan pada parameter melayang akibat pengungkapan item yang dapat digunakan. Metode yang terakhir ini
7 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
alamat hipotesis satu sisi bahwa item ini menjadi lebih mudah dan kehilangan daya ination discrim- nya. Apakah
statistik mendukung deteksi pelanggaran model spesifik atau kumulatif jumlah statistik yang digunakan, penting
untuk memantau parameter drift. Sampai saat ini, pergeseran belum terdeteksi sebagai masalah pada kucing AMC
ini.

Mulai Rule, Seleksi Item, dan Scoring


Secara teoritis, CAT dapat dimulai pada setiap tingkat kesulitan. Untuk meminimalkan eksposur, satu item
biasanya tidak diidentifikasi sebagai item pertama untuk diberikan kepada semua kandidat. Dalam program AMC,
pilihan acak dari item pertama terbatas pada kisaran kesulitan tertentu di sekitar skor dipotong. Tujuan dari mulai
sekitar skor dipotong adalah untuk fokus estimasi di daerah ini awal sehingga dapat dengan cepat ditentukan
apakah calon lulus atau gagal ujian. Menggunakan distribusi sebelum Bayesian, item awal dipilih secara acak dari
item yang tersedia dalam kisaran yang ditetapkan untuk meminimalkan varians posterior Bayesian. Maksimum
posterior presisi (MPP) item pilihan dilanjutkan sampai setidaknya satu benar dan satu respon yang salah diperoleh,
setelah pengemudi switch untuk kemungkinan maksimum scor- algoritma ing dan algoritma item pilihan informasi
maksimum.
Item yang berurutan dipilih secara acak dari daerah konten dari mana item yang menghasilkan sebagian besar
(Fisher) informasi yang dipilih menggunakan faktor randomesque empat (misalnya, Kingsbury & Zara, 1989;
Featherman, Subhiyah, & Hadadi, 1996). Ditemukan bahwa faktor empat cukup acak item dan bahwa hilangnya
informasi itu diabaikan bahkan untuk item memberikan informasi paling dari empat item. From a certain item
position, the content area with the greatest divergence from the target is given priority in order to also meet the
content constraint. This process ensures content balancing and minimizes overlap while ensuring that the exam
remains integrated.
One of the main advantages of CATs over conventional tests is control of measurement precision. It has been
widely reported that a CAT can yield at least the same precision of measures with half or fewer the number of items
included in a conventional test (eg, Babcock & Weiss, 2012). From a Rasch perspective, measurement precision is
conditional on the trait being measured and is not a constant for a set of measurements that depends on the cohort, as
is the case in CTT. Precision in the Rasch model depends on an individual interacting with a set of items and not on
a cohort, thus allowing it to vary and to be evaluated at the candidate level.
The AMC's 120-item CATs yield SEMs of about 0.185 logits on average. This can be inter- preted as classical
reliabilities well above 0.95 for each candidate (eg, Thissen, 2000). When compared to the conventional exams
comprising 240 scored items, the Spearman-Brown prophecy formula indicates that this precision would require
more than 600 scored items administered conventionally, as compared to the 120 items administered in the CATs.
For each exam, the response patterns of candidates are closely inspected and pathway figures of their
estimates are plotted. An example of such a pathway figure is shown in Figure 2. The estimate is shown as a circle,
and the vertical lines show the decreasing standard error range for every provisional estimate. Note the
convergence from around the 30th item, after which the estimate changed by less than 0.15 logits, while the SEM
band was increasingly reduced.
In a CAT, a candidate's is re-estimated after each response, and the next item to be administered is determined
by the most current estimate. In principle, this implies that previous responses cannot be changed in the process.
However, since likelihood estimation is implemented, changes in responses can be accommodated and estimates
can be derived from final responses. In the AMC CATs, candidates have to respond to each item until the end of the
exam (item 150) has been reached, after which responses to any item(s) can be re- viewed and changed in the
available time. Then, using the item difficulties of the items ad- ministered and the final responses, final is
estimated. Initial and final responses are rec- orded and Pearson correlations between initial and final abilities of
approximately 0.993, on
8 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
Figure 2. Pathway Display of Estimates
average, were found over multiple exams. Thus, although there might be differences between final and initial
estimates for some individual candidates, it can be concluded that, generally, it does not matter if candidates are
allowed to revise and change some responses. Allowing candidates to change responses is thus more a policy
decision than a psychometric issue.

Incomplete Exams
A candidate is allowed 3.5 hours to complete 150 items (120 scored and 30 pilot items), which gives an average
of 1.4 minutes per item. The pilot items are administered randomly throughout the exam. If a candidate does not
finish the exam in the available time, it means that the candidate had an advantage of more time per item, on
average.
In order to maintain fairness, candidates who do not complete an exam are penalized; and the penalty should
be a function of the number of scored items to which the candidate has not responded. In other words, the penalty
should be more severe for a candidate who completed only (say) 102 scored items than for a candidate who
completed (say) 114 scored items. A penalty procedure was derived from an equation for scoring items to which the
can- didates have not responded. This index is used together with the candidate's last estimate and SEM in the
penalty. In addition to having results that match the blueprint, the main purpose of implementing this procedure is to
discourage candidates from not completing the exam and thereby having a possible advantage over candidates who
do complete the exam.

Repeat Candidates
In an ongoing program such as the AMC's examination, it is inevitable that there will be candidates who take
the exam more than once after a failed attempt. Candidates who take the exam again after an unsuccessful first
attempt to pass are administered a CAT in which previously administered items are masked (temporarily excluded
from items available for administration). The exam is otherwise exactly the same as if it were a first attempt. Irre-
spective of where the candidates' exams start, they will converge to the same location unless the candidates actively
increased their knowledge through studies, bridging courses, etc.
9 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
Feedback
In CATs all examinees theoretically answer about 50% of the items correctly. However, a candidate
administered more difficult items will have a higher estimate than a candidate who was administered easier items.
It is thus evident that performance cannot be reported in terms of number-correct scores but should be based on
estimates. The estimates are commonly in the range of 2 to 2 logits and computed to at least three decimal places.
For AMC reporting purposes, the estimates are converted to a scale with a mean of 250 and a standard deviation of
50. This conversion serves multiple purposes. First, the results are given as positive whole numbers; and, second,
they cannot be confused with number-correct scores or percentages.
Currently, only the overall performance is used to determine whether a candidate passed or failed the exam.
Because each exam is content constrained and includes at least 15 items from each patient group, diagnostic
feedback is also provided in terms of descriptors of per- formance for each patient group.

Discussion and Conclusions


Migrating a paper-and-pencil exam to an online exam and CAT requires trials, simulations, and psychometric
considerations. Before the program is implemented, bank size, estimation algorithms, constraints, and other
important aspects of an examination program can be in- vestigated through the trials and simulations. Once
implemented, CATs have many ad- vantages over conventional testing, including security, measurement precision,
and effi- ciency.

References
Andrich, D. (1988). Rasch models for measurement. Newbury Park, CA: Sage. Babcock B., & Weiss, DJ (2012).
Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective
measurement? Journal of Computer- ized Adaptive Testing, 1(1), 1-18. CrossRef Barnard, JJ (2012). A primer on
measurement theory. Melbourne, Australia: Excel Psycho-
logical and Educational Consultancy. Bock, RD, Muraki, E., & Pfeiffenberger, W. (1988). Item pool
maintenance in the presence
of item parameter drift. Journal of Educational Measurement, 25(4), 275-285. CrossRef Bodmann, SM (2004).
Speed and performance differences among computer-based and pa-
per-pencil tests. Journal of Educational Computing Research, 31(1), 51-60. CrossRef Bond, TG, & Fox, CM (2007).
Applying the Rasch model: Fundamental measurement in the
human sciences (2nd ed.). London, England: Lawrence Erlbaum. Chang S.-W., & Ansley, TN (2003). A
comparative study of item exposure control methods in computerized adaptive testing. Journal of Educational
Measurement, 40 (1), 71-103. CrossRef Crocker, LM, & Algina, J. (1986). Introduction to classical and modern test
theory. New York,
NY: Holt, Rinehart and Winston Inc. Featherman, CM, Subhiyah, RG, & Hadadi, A. (1996, April). Effects of
randomesque item selection on CAT item exposure rates and proficiency estimation under 1- and 2-PL mod- els.
Paper presented at the annual meeting of the American Educational Research Associ- ation, New York, NY.
Haladyna, TM (2004). Developing and validating multiple-choice test items (3rd ed.). London,
England: Lawrence Erlbaum. Hambleton, RK, & Swaminathan, H. (1985). Item response theory: Principles and
applica-
tions. Boston, MA: Kluwer-Nijhoff. CrossRef Liou, M. (1988). Unidimensionality versus statistical accuracy: A
note on Bejar's method for
10 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
detecting dimensionality of achievement tests. Retrieved from the University of Minnesota Digital Conservancy,
http://purl.umn.edu/104313. CrossRef Kingsbury, GG, & Houser, RL (1988, April). A comparison of achievement
level estimates from computerized adaptive testing and paper-and-pencil testing. Paper presented at the annual
meeting of the American Educational Research Association, New Orleans, LA. Kingsbury, GG, & Zara, AR (1989).
Procedures for selecting items for computerized adap-
tive tests. Applied Measurement in Education, 2(4), 359-375. CrossRef Kolen, MJ, & Brennan, RL (2004). Test
equating, scaling, and linking. Methods and prac-
tices (2nd ed.). New York, NY: Springer. CrossRef Mills, CN, Potenza, M., Fremer, JJ, & Ward, WC (Eds.).
(2002). Computer-based testing: Building the foundation for future assessments. London, England: Lawrence
Erlbaum. Olsen, JB, Maynes, DD, Slawson, D., & Ho, K. (1989), Comparisons of paper-administered, computer-
administered and computerized adaptive achievement tests. Journal of Educa- tional Computing Research, 5(3),
311-326. CrossRef Petrillo, J., Cano, SJ, McLeod, LD, & Coon, CD (2015). Using classical test theory, item
response theory, and Rasch measurement theory to evaluate patient-reported outcome measures: A comparison of
worked examples. Journal of the International Society for Pharmacoeconomics and Outcomes Research, 18(1), 25-
34. CrossRef Puhan, P., Boughton, K., & Kim, S. (2007). Examining differences in examinee performance in paper
and pencil and computerized testing. Journal of Technology, Learning, and As- sessment 6(3), 4-20. Reckase, MD
(2003, April). Item pool design for computerized adaptive tests. Paper pre- sented at the annual meeting of the
National Council on Measurement in Education, Chi- cago, IL. Rudner, LM (2002, April). An examination of
decision-theory adaptive testing procedures. Paper presented at the annual meeting of the American Educational
Research Association, New Orleans, LA. Samejima, F. (1977). A use of the information function in tailored testing.
Applied Psycholog-
ical Measurement, 1(2), 233-247. CrossRef Suarez-Falcon, JC, & Glas, CAW (2010). Evaluation of global
testing procedures for item fit to the Rasch model. British Journal of Mathematical and Statistical Psychology. 56(1),
127-143. CrossRef Sympson, JB, & Hetter, RD (1985). Controlling item-exposure rates in computerized adap- tive
testing. Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973-977). San Diego, CA:
Personnel Research and Development Center. Thissen, D. (2000). Reliability and measurement precision. In H.
Wainer (Ed), Computerized
Adaptive Testing: A primer (2nd ed., 159-183). Mahwah, NJ: Lawrence Erlbaum. Van der Linden, WJ, & Glas,
CAW (Eds.). (2003). Computerized adaptive testing: Theory
and practice. Dordrecht, Netherlands: Kluwer. Vrabel, M. (2004). Computerized versus paperandpencil testing
methods for a nursing cer- tification examination: A review of the literature. CIN Computers, Informatics, Nursing
22(2), 94-98. CrossRef Wagner-Menghin, MM, & Masters, GN (2013). Adaptive testing for psychological assess-
ment: How many items are enough to run an adaptive testing algorithm? Journal of Ap- plied Measurement, 14(2),
1-12. Wainer, H. (Ed.). (2000). Computerized adaptive testing: A primer (2nd ed.). London, Eng-
land: Lawrence Erlbaum. Wang, T., & Vispoel, WP (1998). Properties of ability estimation methods in
computerized
adaptive testing. Journal of Educational Measurement, 35 (2), 109-135. CrossRef Weiss, DJ (2011). Better data from
better measurements using computerized adaptive test-
ing. Journal of Methods and Measurement in the Social Sciences, 2(1), 1-27. Weiss, DJ (1982). Improving
measurement quality and efficiency with adaptive testing. Ap-
plied Psychological Measurement, 6 (4), 473-492. CrossRef
11 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
Weiss, DJ, & Guyer, R. (2012). Manual for CATSim: Comprehensive simulation of comput-
erized adaptive testing. St. Paul, MN: Assessment Systems Corporation. Wright, BD (1977). Solving
measurement problems with the Rasch model. Journal of Edu-
cational Measurement, 14(2), 97-166. CrossRef

Author Addresses
John J. Barnard, EPEC Pty Ltd., PO Box 3147, Doncaster East, VIC, 3109, Australia; Medical School, University of
Sydney, Edward Ford Building A27, Sydney, NSW, 2006, Australia. Web- site: www.epecat.com; Email:
John@EPECat.com ,
12 | JCAT Vol. 3 No. 1 October 2015

Anda mungkin juga menyukai