Simulasi
Setelah keputusan dibuat bahwa konten-dibatasi (dengan disiplin) kucing terpadu itu harus dilaksanakan dalam
ujian AMC, uji coba lebih lanjut yang dilakukan pada tahun 2009 dan 2010 untuk mendapatkan informasi yang
lebih rinci. Post-hoc simulasi (real-data) dan monte carlo juga digunakan untuk lebih mengeksplorasi isu-isu seperti
aturan awal, penggunaan item dan eksposur, review item, uji tumpang tindih, dan piloting item baru.
Fungsi informasi untuk item, kolam renang (himpunan bagian dari bank item), atau seluruh bank yang dapat
digunakan untuk memeriksa ketepatan pengukuran diharapkan pada setiap titik pada kemampuan contin- UUM.
Fungsi informasi target sangat penting untuk pelaksanaan kucing, karena akan memberikan indikasi dari pengukuran
presisi, yang terutama penting di skor dipotong.
Untuk meminimalkan keanehan, pembibitan acak yang berbeda digunakan di 20 ulangan dari persyaratan yang
sama. Simulasi didasarkan pada 120 item dan 335 calon. 120 item yang ditentukan sebagai jumlah item mencetak
dimaksud dalam kucing, dan 335 calon berasal sebagai jumlah rata-rata indikasi calon per ujian. Masa lalu AMC
ams mantan mengindikasikan bahwa kemampuan calon jarang jatuh di luar rentang -2 logits untuk 2 logits; dengan
demikian, kisaran ini digunakan. Dalam simulasi menggunakan CATSim (Weiss & Guyer, 2012), alpha dan beta
nilai yang digunakan untuk mengontrol distribusi beta untuk meniru distribusi normal yang sebenarnya sedekat
mungkin. Selama 10 simulasi pertama, alpha dan beta keduanya ditetapkan pada 5.0; dan dalam 10 simulasi kedua,
alpha dan beta keduanya ditetapkan pada 1,0. Awal kemampuan () memperkirakan
4 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
ditetapkan pada nilai dekat dengan skor potongan nol logits. diperkirakan dengan MLE seperti yang diterapkan
dalam algoritma CAT disukai, dan item berikutnya dipilih oleh informasi Fisher maksimum pada estimasi saat ini.
Sebuah pemutusan variabel ditetapkan pada standard error maksimum (SEM) dari 0,20 untuk mengeksplorasi
jumlah barang yang dibutuhkan untuk sion preci- ditentukan. Tingkat presisi jauh lebih tinggi daripada yang
disarankan oleh Wagner-Menghin & Masters (2013), yang merekomendasikan 20 item per tingkat kesulitan untuk
mencapai SEM 0,39 jika kira--kira 30 item yang diberikan adaptif.
Dalam satu studi, delapan simulasi diselesaikan: dua dengan s positif dan kesulitan item (antara 0 dan 2 logits),
dua dengan s negatif dan kesulitan item (antara -2 dan 0 logits), dua dengan s positif (0-2 logits) dan barang
kesulitan negatif (-2 ke 0 logits), dan dua dengan s negatif (-2 ke 0 logits) dan kesulitan item yang positif (0-2
logits) sekitar skor dipotong. Ditemukan bahwa untuk 99,6% dari calon simulasi, SEM 0,20 atau kurang dicapai
dalam waktu 120 item. Simulasi lanjut, menghapus baik kriteria SEM atau jumlah maksimum item kriteria (120
item), menghasilkan hasil yang sama. Sebagai contoh, dalam beberapa kasus SEM kurang dari 0,20 yang dicapai
untuk semua calon dengan 71 atau lebih sedikit item, sedangkan simulasi lain yang diperlukan sedikit lebih dari 120
item untuk mencapai tingkat set presisi dari SEM 0,2 logits atau kurang. Kisaran kesulitan barang dan / atau s calon
dimodifikasi untuk [-2,5; 2,5] dan juga untuk [-3; 3], sehingga barang-barang sedikit lebih diperlukan untuk
sejumlah kecil item untuk mencapai SEM 0,20 atau kurang. Dari hasil simulasi tersebut, disimpulkan bahwa kucing
presisi tinggi dapat diharapkan jika 120 item adaptif diberikan dari bank 1.800 item untuk kondisi serupa dengan
yang disimulasikan. Hasil ini juga vali- tanggal melalui post-hoc (real-data) simulasi CAT yang memperkirakan
berasal dari ujian online diberikan antara tahun 2005 dan 2010 yang digunakan dan hasil yang sama ditemukan.
Dimensi
Tidak ada tes bisa sempurna unidimensional. Asumsi harus dibuat bahwa itu adalah unidi- mensional cukup
jika item covary ke mana diterima untuk mengukur sesuatu yang sama. Asumsi ini dibuat untuk ujian MCQ AMC di
mana konstruk didefinisikan sebagai pengetahuan medis dan terdiri dari enam kelompok pasien utama. The
unidimensionality-asumsi tion diuji secara luas melalui faktor analitik analisis menggunakan korelasi tetrakorik,
menerapkan metode Bejar (misalnya, Liou, 1988), dengan menggunakan tes t berdasarkan komponen utama
residual, dan mengevaluasi indeks fit (misalnya, Hambleton & Swaminathan, 1985).
5 | JCAT Vol. 3 No. 1 Oktober 2015
Journal of Computerized Adaptive Testing John J. Barnard - Menerapkan CAT di AMC
Hubungan antara estimasi keseluruhan (sebagai variabel dependen) dan perkiraan disci- pline / kelompok
pasien (sebagai prediktor) adalah dieksplorasi. Hasil regresi standar biasanya mengakibatkan R2S dari 0,95,
menunjukkan bahwa sekitar 95% dari varians dalam ukuran keseluruhan dijelaskan oleh model. Ini adalah hasil
yang sangat signifikan (p <0,0005). Koefisien standar menunjukkan bahwa Medicine membuat kontribusi yang
unik terkuat untuk menjelaskan keseluruhan, diikuti oleh Surgery. Analisis komponen utama juga dilakukan. The
Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO) nilai-nilai yang tanpa pengecualian lebih besar dari 0,6
dan Uji Barlett dari nilai kebulatan signifikan (p <0,0005). Menggunakan kriteria Kaiser, hanya satu komponen
memiliki nilai eigen dari 1 atau lebih besar. Plot scree jelas menunjukkan perubahan dalam bentuk plot, dan karena
itu hanya salah satu komponen diekstraksi. Loadings dari variabel menunjukkan bahwa semua enam kelompok
pasien dimuat kuat (di atas 0.40) pada komponen diekstraksi. Dari hasil penelitian ini, dapat disimpulkan bahwa
asumsi unidimensionality berlaku sejauh bahwa kelompok pasien yang berbeda diukur pengetahuan konstruk-medis
umum.
Incomplete Exams
A candidate is allowed 3.5 hours to complete 150 items (120 scored and 30 pilot items), which gives an average
of 1.4 minutes per item. The pilot items are administered randomly throughout the exam. If a candidate does not
finish the exam in the available time, it means that the candidate had an advantage of more time per item, on
average.
In order to maintain fairness, candidates who do not complete an exam are penalized; and the penalty should
be a function of the number of scored items to which the candidate has not responded. In other words, the penalty
should be more severe for a candidate who completed only (say) 102 scored items than for a candidate who
completed (say) 114 scored items. A penalty procedure was derived from an equation for scoring items to which the
can- didates have not responded. This index is used together with the candidate's last estimate and SEM in the
penalty. In addition to having results that match the blueprint, the main purpose of implementing this procedure is to
discourage candidates from not completing the exam and thereby having a possible advantage over candidates who
do complete the exam.
Repeat Candidates
In an ongoing program such as the AMC's examination, it is inevitable that there will be candidates who take
the exam more than once after a failed attempt. Candidates who take the exam again after an unsuccessful first
attempt to pass are administered a CAT in which previously administered items are masked (temporarily excluded
from items available for administration). The exam is otherwise exactly the same as if it were a first attempt. Irre-
spective of where the candidates' exams start, they will converge to the same location unless the candidates actively
increased their knowledge through studies, bridging courses, etc.
9 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
Feedback
In CATs all examinees theoretically answer about 50% of the items correctly. However, a candidate
administered more difficult items will have a higher estimate than a candidate who was administered easier items.
It is thus evident that performance cannot be reported in terms of number-correct scores but should be based on
estimates. The estimates are commonly in the range of 2 to 2 logits and computed to at least three decimal places.
For AMC reporting purposes, the estimates are converted to a scale with a mean of 250 and a standard deviation of
50. This conversion serves multiple purposes. First, the results are given as positive whole numbers; and, second,
they cannot be confused with number-correct scores or percentages.
Currently, only the overall performance is used to determine whether a candidate passed or failed the exam.
Because each exam is content constrained and includes at least 15 items from each patient group, diagnostic
feedback is also provided in terms of descriptors of per- formance for each patient group.
References
Andrich, D. (1988). Rasch models for measurement. Newbury Park, CA: Sage. Babcock B., & Weiss, DJ (2012).
Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective
measurement? Journal of Computer- ized Adaptive Testing, 1(1), 1-18. CrossRef Barnard, JJ (2012). A primer on
measurement theory. Melbourne, Australia: Excel Psycho-
logical and Educational Consultancy. Bock, RD, Muraki, E., & Pfeiffenberger, W. (1988). Item pool
maintenance in the presence
of item parameter drift. Journal of Educational Measurement, 25(4), 275-285. CrossRef Bodmann, SM (2004).
Speed and performance differences among computer-based and pa-
per-pencil tests. Journal of Educational Computing Research, 31(1), 51-60. CrossRef Bond, TG, & Fox, CM (2007).
Applying the Rasch model: Fundamental measurement in the
human sciences (2nd ed.). London, England: Lawrence Erlbaum. Chang S.-W., & Ansley, TN (2003). A
comparative study of item exposure control methods in computerized adaptive testing. Journal of Educational
Measurement, 40 (1), 71-103. CrossRef Crocker, LM, & Algina, J. (1986). Introduction to classical and modern test
theory. New York,
NY: Holt, Rinehart and Winston Inc. Featherman, CM, Subhiyah, RG, & Hadadi, A. (1996, April). Effects of
randomesque item selection on CAT item exposure rates and proficiency estimation under 1- and 2-PL mod- els.
Paper presented at the annual meeting of the American Educational Research Associ- ation, New York, NY.
Haladyna, TM (2004). Developing and validating multiple-choice test items (3rd ed.). London,
England: Lawrence Erlbaum. Hambleton, RK, & Swaminathan, H. (1985). Item response theory: Principles and
applica-
tions. Boston, MA: Kluwer-Nijhoff. CrossRef Liou, M. (1988). Unidimensionality versus statistical accuracy: A
note on Bejar's method for
10 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
detecting dimensionality of achievement tests. Retrieved from the University of Minnesota Digital Conservancy,
http://purl.umn.edu/104313. CrossRef Kingsbury, GG, & Houser, RL (1988, April). A comparison of achievement
level estimates from computerized adaptive testing and paper-and-pencil testing. Paper presented at the annual
meeting of the American Educational Research Association, New Orleans, LA. Kingsbury, GG, & Zara, AR (1989).
Procedures for selecting items for computerized adap-
tive tests. Applied Measurement in Education, 2(4), 359-375. CrossRef Kolen, MJ, & Brennan, RL (2004). Test
equating, scaling, and linking. Methods and prac-
tices (2nd ed.). New York, NY: Springer. CrossRef Mills, CN, Potenza, M., Fremer, JJ, & Ward, WC (Eds.).
(2002). Computer-based testing: Building the foundation for future assessments. London, England: Lawrence
Erlbaum. Olsen, JB, Maynes, DD, Slawson, D., & Ho, K. (1989), Comparisons of paper-administered, computer-
administered and computerized adaptive achievement tests. Journal of Educa- tional Computing Research, 5(3),
311-326. CrossRef Petrillo, J., Cano, SJ, McLeod, LD, & Coon, CD (2015). Using classical test theory, item
response theory, and Rasch measurement theory to evaluate patient-reported outcome measures: A comparison of
worked examples. Journal of the International Society for Pharmacoeconomics and Outcomes Research, 18(1), 25-
34. CrossRef Puhan, P., Boughton, K., & Kim, S. (2007). Examining differences in examinee performance in paper
and pencil and computerized testing. Journal of Technology, Learning, and As- sessment 6(3), 4-20. Reckase, MD
(2003, April). Item pool design for computerized adaptive tests. Paper pre- sented at the annual meeting of the
National Council on Measurement in Education, Chi- cago, IL. Rudner, LM (2002, April). An examination of
decision-theory adaptive testing procedures. Paper presented at the annual meeting of the American Educational
Research Association, New Orleans, LA. Samejima, F. (1977). A use of the information function in tailored testing.
Applied Psycholog-
ical Measurement, 1(2), 233-247. CrossRef Suarez-Falcon, JC, & Glas, CAW (2010). Evaluation of global
testing procedures for item fit to the Rasch model. British Journal of Mathematical and Statistical Psychology. 56(1),
127-143. CrossRef Sympson, JB, & Hetter, RD (1985). Controlling item-exposure rates in computerized adap- tive
testing. Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973-977). San Diego, CA:
Personnel Research and Development Center. Thissen, D. (2000). Reliability and measurement precision. In H.
Wainer (Ed), Computerized
Adaptive Testing: A primer (2nd ed., 159-183). Mahwah, NJ: Lawrence Erlbaum. Van der Linden, WJ, & Glas,
CAW (Eds.). (2003). Computerized adaptive testing: Theory
and practice. Dordrecht, Netherlands: Kluwer. Vrabel, M. (2004). Computerized versus paperandpencil testing
methods for a nursing cer- tification examination: A review of the literature. CIN Computers, Informatics, Nursing
22(2), 94-98. CrossRef Wagner-Menghin, MM, & Masters, GN (2013). Adaptive testing for psychological assess-
ment: How many items are enough to run an adaptive testing algorithm? Journal of Ap- plied Measurement, 14(2),
1-12. Wainer, H. (Ed.). (2000). Computerized adaptive testing: A primer (2nd ed.). London, Eng-
land: Lawrence Erlbaum. Wang, T., & Vispoel, WP (1998). Properties of ability estimation methods in
computerized
adaptive testing. Journal of Educational Measurement, 35 (2), 109-135. CrossRef Weiss, DJ (2011). Better data from
better measurements using computerized adaptive test-
ing. Journal of Methods and Measurement in the Social Sciences, 2(1), 1-27. Weiss, DJ (1982). Improving
measurement quality and efficiency with adaptive testing. Ap-
plied Psychological Measurement, 6 (4), 473-492. CrossRef
11 | JCAT Vol. 3 No. 1 October 2015
Journal of Computerized Adaptive Testing John J. Barnard Implementing a CAT at the AMC
Weiss, DJ, & Guyer, R. (2012). Manual for CATSim: Comprehensive simulation of comput-
erized adaptive testing. St. Paul, MN: Assessment Systems Corporation. Wright, BD (1977). Solving
measurement problems with the Rasch model. Journal of Edu-
cational Measurement, 14(2), 97-166. CrossRef
Author Addresses
John J. Barnard, EPEC Pty Ltd., PO Box 3147, Doncaster East, VIC, 3109, Australia; Medical School, University of
Sydney, Edward Ford Building A27, Sydney, NSW, 2006, Australia. Web- site: www.epecat.com; Email:
John@EPECat.com ,
12 | JCAT Vol. 3 No. 1 October 2015