Anda di halaman 1dari 20

TUGAS PSIKOMETRIKA

Review Artikel/disertasi
EFFECTS OF DIFFERENT COMPUTERIZED ADAPTIVE TESTING STRATEGIES
ON RECOVERY OF ABILITY

OLEH

ALONA DWINATA (G161190031)


RISWAN (G161190101)
ARIS YAMAN (G151190071)

PASCASARJANA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2019
IDENTITAS ARTIKEL

Judul artikel : EFFECTS OF DIFFERENT COMPUTERIZED ADAPTIVE TESTING


STRATEGIES ON RECOVERY OF ABILITY
Jenis Artikel : Disertasi
Tahun : 2011
Penulis : Ilker Kalender
Penerbit : Middle East Technical University
Instansi Penulis : Middle East Technical University

URAIAN SINGKAT/ABSTRAK
Secara sederhana, artikel ini berusaha menyelidiki administrasi pengujian adaptif
komputer dari perspektif yang berbeda telah menjadi sangat populer. Penting untuk dicatat
bahwa hasil penelitian ini menunjukkan bahwa CAT adalah teknik yang tepat untuk mengukur
individu dengan item yang lebih sedikit dan keandalan yang lebih tinggi dibandingkan dengan
format kertas dan pensil. Di sisi lain, tidak ada penelitian yang terkait dengan penerapan aplikasi
tes adaptif komputer di Turki.

PENDAHULUAN
Tes yang diadministrasikan dalam format kertas dan pensil memiliki kendala dalam
menyesuaikan tingkat kesulitan item dengan kemampuan siswa. Memberikan tes yang tak sesuai
kepada peserta ujian dalam hal tingkat kemampuan mereka dapat menghasilkan item yang tidak
sehat dan parameter tes dan skor tes yang tidak dapat diandalkan. Setiap peserta ujian diberikan
item yang sama dalam tes format kertas dan pensil, sangat mungkin untuk menerima item yang
terlalu mudah atau terlalu sulit. Item yang tidak cocok untuk level peserta ujian memberikan
sedikit informasi tentang tingkat kemampuannya. Oleh karena itu, banyak item diperlukan untuk
mendapatkan estimasi kemampuan yang andal. Juga, memberikan item yang tidak pantas dalam
kesulitan kepada peserta ujian dapat membuat mereka bosan, lelah, dan dapat membuang-buang
waktu. Selain itu, peserta ujian dapat melakukan tebakan karena hal-hal yang sulit ini, pada
akhirnya meningkatkan kesalahan estimasi kemampuan.
Tetapi dalam situasi ini, sebuah paradoks tampaknya muncul: jika seorang pemeriksa
mengetahui tingkat kemampuan peserta ujian, maka tidak perlu untuk mengujinya. Di sisi lain,
jika tingkat kemampuan tidak diketahui, bagaimana menyusun tes yang dirancang untuk tingkat
kemampuan peserta ujian. Sebagai solusi untuk situasi ini yang dapat disebut paradoks desain
tes, telah disarankan bahwa untuk menentukan tingkat kemampuan peserta ujian, tanggapan yang
sebelumnya diberikan dalam tes dapat digunakan untuk memilih item yang sesuai berikutnya
untuk peserta ujian (Weiss, 1983)
Computerized Adaptive Testing
Dalam tes Tailored/khusus (atau tes adaptif yang disarankan oleh Lord [1980]), item
dipilih secara dinamis setelah setiap respons menggunakan respons yang diberikan oleh peserta
ujian dan item berikutnya dipilih yang paling cocok untuk menguji tingkat kemampuan dari bank
item. Oleh karena itu peserta ujian menerima item yang paling sesuai dengan tingkat kemampuan
mereka. Walaupun pendekatan ini sulit secara teori, aplikasi praktis dapat dibatasi karena
persyaratan kecepatan dan waktu. Di sisi lain, menggunakan komputer untuk tes adaptif dapat
memberikan solusi.
Sebelum sampai pada istilah pengujian adaptif terkomputerisasi (CAT), pengembangan
historis pengujian adaptif dimulai dengan gagasan pengujian adaptif. Ide pengujian adaptif
pertama kali muncul oleh Tes IQ Alfred Binet (Binet & Simon, 1905). Tes ini merupakan contoh
pertama untuk tes adaptif dengan semua fitur penting. Friedrich Lord dari Educational Testing
Service memberikan kontribusi signifikan pada literatur pengujian adaptif. Sangat menarik untuk
mengamati bahwa proporsi yang signifikan dari ide-ide perkembangan tentang pengujian adaptif
berasal dari studi Angkatan Laut Amerika (Weiss, 1983). Dengan kemajuan teknologi komputer,
konsep pengujian adaptif memiliki transformasi ke ide pengujian adaptif terkomputerisasi
Ide dasar di balik pengujian adaptif terkomputerisasi adalah untuk memberikan item peserta
ujian hanya disesuaikan atau disesuaikan dengan tingkat kemampuan mereka. Dengan cara ini,
beberapa keuntungan dapat diperoleh seperti pengurangan signifikan dalam jumlah item yang
diberikan. Di antara kelebihan CAT dibandingkan pengujian konvensional, Betz dan Weiss
(1974) menyatakan bahwa mereka (i) lebih pendek dan (ii) memberikan perkiraan kemampuan
yang dapat diandalkan dari peserta ujian.
Embretson (1996) menyatakan bahwa administrasi CAT membutuhkan lebih sedikit item,
menghasilkan pengalaman pengukuran yang lebih valid daripada tes kertas dan pensil yang
mencakup lebih banyak item. Juga Rudman (1987) menyebut CAT sebagai metode pengukuran
abad ke-21.
Keuntungan dan kerugian Tes Adaptif Komputer dapat dicantumkan sebagai berikut
(Cikrikci-Demirtasli, 1999; Hambleton & Swaminathan, 1984; Lord & Stocking, 1968; Rudner,
1998; Sands, Waters & McBride, 1997):
• Waktu yang diperlukan untuk implementasi tes menjadi lebih sedikit,
• Setiap peserta ujian menerima tes yang sesuai dengan tingkat kemampuannya,
• Keamanan meningkat karena lembar pertanyaan yang dicetak tidak digunakan walaupun
dibagikan.
• Penilaian dapat dilakukan segera setelah pengujian,
• Tes dapat diberikan setiap saat,
• Kebutuhan untuk kertas dan pensil berkurang,
• Pembaruan kumpulan item dan penyertaan atau pengecualian item mudah,
• Uji standardisasi tercapai,
• Fleksibilitas mengenai pemilihan item meningkat,
 Format item yang tidak memungkinkan untuk dikirim dalam tes kertas dan pensil dapat
digunakan termasuk multimedia, animasi, interaksi pengguna, dll.
Selain kelebihannya, aplikasi CAT memiliki beberapa kelemahan:
• Perlu menggunakan komputer dalam sesi pengujian membuat orang dengan kecemasan
komputer merasa tidak nyaman,
• Keterbatasan perangkat keras komputer dan biaya dapat menjadi masalah,
• Kegagalan untuk memenuhi kriteria unidimensionality of trait yang diukur
(Unidimensionality berarti bahwa sifat yang diukur memiliki faktor tunggal yang
memengaruhinya),
• Kebutuhan untuk kumpulan item yang besar.

Kecemasan komputer secara khusus dapat dianggap penting karena keterkaitannya dengan
karakteristik manusia. Namun, Legg dan Buh (1992) melaporkan tidak ada perbedaan yang
signifikan antara sikap dan tingkat kecemasan terhadap CAT untuk subkelompok termasuk
tingkat sosial-budaya yang berbeda.
Juga ada beberapa masalah potensial yang dapat muncul ketika bekerja dengan CAT:
• Hanya satu item yang ditampilkan pada waktu tertentu,
• Untuk melewati item yang diberikan itu diperlukan untuk memberikan respons,
• Bergerak di antara item tidak diperbolehkan kecuali respons disediakan
CAT Administrations
Ada beberapa program pengujian skala besar termasuk administrasi CAT.
• GRE (Graduate Record Examination) adalah ujian, yang hasilnya digunakan untuk
masuk ke sekolah pascasarjana di AS. GRE dikembangkan dan dilakukan oleh
Educational Testing Service (a.k.a. ETS). Pemeriksaan serupa dengan GRE adalah
GMAT (The Graduate Management Admission Test). Ini adalah tes standar termasuk
item matematika dan bahasa Inggris dan dikembangkan di bawah pengawasan Graduate
Management Admission Council (GMAC) untuk digunakan oleh sekolah bisnis. GMAT
terutama diberikan dalam format CAT di mana dimungkinkan. Juga TOEFL (Test Bahasa
Inggris sebagai Bahasa Asing), tes untuk pengukuran tingkat kemahiran bahasa Inggris
penutur bahasa Inggris non-asli, telah diberikan dalam format adaptif melalui sejarahnya
(GMAT, 2010; GRE, 2010; TOEFL, 2010).
• Program CAT juga digunakan untuk pengujian prestasi. Sebagai contoh, Papanastasiou
(2003) menyatakan bahwa CAT sebagai pengalaman pengukuran berbasis komputer yang
paling efisien dan menguntungkan untuk sains. Ukuran Kemajuan Akademik (MAP)
(Northwest Evaluation Association [NWEA], 2010) untuk Sains termasuk dimensi
konsep, proses dan sains umum untuk siswa tingkat dasar. Penilaian Matematika untuk
Pembelajaran dan Pengajaran (MALT, 2010) diberikan pada siswa 5 hingga 14 tahun
untuk diagnosis penilaian Matematika. Tes lain adalah Inventarisasi Matematika
Skolastik (SMI, 2010) yang digunakan untuk menentukan keterampilan matematika
peserta ujian. Ini semua adalah program pengukuran yang dikelola CAT.
• Untuk Turki, negara di mana program pengujian skala besar dilakukan secara luas,
administrasi CAT dapat menjadi solusi potensial untuk masalah yang terkait dengan
menggunakan tes kertas dan pensil.
• SSE mencakup satu sub-bagian kualitatif dan satu sub-kuantitatif. Pada bagian kualitatif
terdapat subtes Turki, sejarah, geografi dan filsafat, sedangkan bagian kuantitatif terdiri
dari subtes matematika, fisika, kimia, dan biologi. Item SSE terkait dengan pemahaman
bacaan dalam bahasa Turki, dan kemampuan berpikir menggunakan konsep dan prinsip
dasar dalam matematika dan sains. Meskipun item dikembangkan berdasarkan
kurikulum, SSE terutama menilai kemampuan berpikir tingkat tinggi yang tercakup
dalam kursus di sekolah menengah (Student Selection and Placement Center, 2010),
• Menggunakan administrasi CAT untuk SSE dapat memberikan sejumlah keuntungan.
Pertama, setiap peserta ujian yang mengikuti SSE menerima tes yang cocok dengan
tingkat kemampuannya. Dengan cara ini, parameter item dengan kualitas baik dan skor
tes yang andal akan diperoleh. Dalam format kertas dan pensil SSE, item tidak cocok
dengan tingkat kemampuan peserta ujian dan parameter item berkualitas rendah.
Memberikan respons yang benar untuk setiap item dapat mengubah pemesanan peserta
ujian secara signifikan. Jika peserta ujian memberikan respons yang benar terhadap suatu
item dengan menebak-nebak dia dapat menerima skor yang lebih tinggi daripada yang
seharusnya karena parameter item yang buruk. CAT memberi setiap peserta ujian ujian
yang disesuaikan dengan tingkat kemampuan mereka dan peserta ujian menerima item
yang sesuai dalam kesulitan. Oleh karena itu, peserta ujian menunjukkan perilaku
pengujian menyimpang kurang seperti kecurangan, kecemasan yang timbul dari kesulitan
tes, dll. Juga keterbatasan format kertas dan pensil dalam hal format item dapat diatasi
oleh administrasi CAT. Format item baru seperti item interaktif, item multimedia, dll.
Dapat secara efektif digunakan dalam administrasi CAT. Skor ujian dibuat secara instan
dan oleh karena itu tidak perlu menjawab proses membaca lembaran. Juga masalah
keamanan dan transportasi buklet uji dihilangkan. Deteksi penyalinan juga dilakukan
dengan mudah oleh administrasi CAT karena komputer mencatat banyak data untuk
setiap peserta ujian. Ada metode penyalinan atau kolusi yang diterapkan untuk
administrasi CAT (van der Linden, 2008; Wise & Kong, 2005).

CAT Studies

Koklu (1990) membuat perbandingan antara format adaptif dan kertas dan pensil
sehubungan dengan validitas dan reliabilitas. Koklu melaporkan tidak ada perbedaan yang
signifikan secara statistik antara estimasi keandalan format adaptif dan konvensional. Di sisi lain,
Koklu menyatakan bahwa meskipun perbedaannya tidak tinggi, administrasi adaptif memberikan
hasil yang lebih baik
Kaptan (1993) membandingkan perkiraan kemampuan yang diperoleh dari tes kertas dan
pensil dan tes adaptif komputer. Dalam studinya, tes dibentuk menggunakan item matematika
dan peserta ujian menerima tes kertas dan pensil 50 item dan tes adaptif terkomputerisasi 14
item. Estimasi kemampuan dilakukan dengan menggunakan metode estimasi kemungkinan
maksimum oleh program komputer yang dikembangkan oleh peneliti dan hasilnya menunjukkan
tingkat pengurangan 70% dalam item yang dikelola oleh format CAT. Juga tidak ada perbedaan
signifikan yang dilaporkan antara dua metode dalam estimasi kemampuan oleh peneliti
Ada beberapa dimensi administrasi CAT yang memengaruhi output. Diantaranya adalah
pemilihan item, kontrol eksposur item, dan, estimasi kemampuan dan aturan pemberhentian test.
Prosedur pemilihan item berarti metode untuk memilih item berikutnya untuk diberikan kepada
peserta ujian. Kontrol eksposur item mencakup pendekatan yang menyeimbangkan proporsi item
dari subdomain yang berbeda untuk menjaga validitas konten. Metode estimasi kemampuan
meliputi pendekatan untuk memperkirakan kemampuan peserta ujian. Ada empat pendekatan
yang ada untuk estimasi kemampuan dalam literatur:
(i) Estimasi Kemungkinan Maksimum (MLE) (Birnbaum, 1958),
(ii) Estimasi Owes Bayesian (OWEN) (Owen, 1969),
(iii) Perkiraan Estimasi Posteriori (EAP) (Bock & Aitken, 1981),
(iv) Estimasi maksimum a Posteriori (MAP) (Samejima, 1969).
Diantaranya MLE dan EAP memperoleh popularitas.

Aturan penghentian tes adalah dimensi lain yang dipelajari dalam literatur CAT. Untuk
mengakhiri sesi CAT, ada beberapa kriteria yang dinyatakan dalam literatur (Simms & Clark,
2005):
(i) jumlah item tetap (De Ayala, 1992)
(ii) ambang kesalahan standar,
(iii) informasi suatu item di bawah nilai yang telah ditentukan,
(iv) penggunaan gabungan dari aturan sebelumnya.
Dari aturan ini, jumlah item tetap dan ambang kesalahan standar adalah metode yang banyak
digunakan dalam administrasi CAT (Gushta, 2003; Weiss, 1983). Menggunakan ambang
kesalahan standar keberatan dengan beberapa alasan aturan ini bias. (Chang & Ansley, 2003; Yi,
Wang, & Ban, 2001). Di sisi lain, Babcock dan Weiss (2009) menemukan bahwa aturan ini tidak
bias daripada aturan berdasarkan administrasi item nomor tetap kepada peserta ujian.
Jumlah item yang tetap mengakhiri sesi setelah jumlah item yang ditentukan diberikan
kepada peserta ujian. Pendekatan ini mendukung validitas konten karena pasti yang memeriksa
sejumlah item. Namun, reliabilitas tes tidak dijamin dalam pendekatan ini. Setelah semua item
diberikan kepada peserta ujian, kesalahan standar mungkin masih terlalu tinggi untuk dapat
diandalkan. Untuk mengatasi ini, ambang kesalahan standar dapat didefinisikan sebelum
administrasi CAT. Dengan cara ini, dapat dipastikan bahwa estimasi kemampuan untuk semua
peserta ujian dapat diandalkan. Tetapi pendekatan ini dapat melanggar validitas konten karena
pengujian dapat diakhiri tanpa item dari beberapa subdomain diberikan. Atau lebih serius lagi,
karena siswa yang memberikan pola respons yang menyimpang (respons yang benar untuk item
yang sangat sulit bagi peserta ujian dengan kemampuan rendah, atau sebaliknya) kesalahan
standar tidak pernah mencapai tingkat yang ditentukan sebagai apriori. Untuk ulasan tentang
aturan penghentian tes, Hambleton, Zaal dan Pieters (1991) dapat diselidiki.

Tujuan dari penelitian ini adalah untuk membandingkan hasil tes CAT dan format
kertas dan pensil dalam subtest sains SSE melalui simulasi dan studi nyata dengan
mempertimbangkan metode estimasi kemampuan yang berbeda (MLE dan EAP) dan aturan
terminasi (jumlah item tetap vs tes SE tetap ). Pertama menggunakan teknik simulasi post-hoc
berdasarkan tanggapan peserta ujian terhadap Ujian Seleksi Mahasiswa sebelumnya, estimasi
kemampuan diperoleh dan estimasi ini dibandingkan dengan skor peserta ujian dari subtest ilmu
pengetahuan kertas dan pensil SSE. Kemudian lansung menggunakan aplikasi CAT nyata
dilakukan dengan menggunakan bank item termasuk item sains masa lalu SSE sehingga estimasi
kemampuan siswa nyata dari tes kertas dan pensil dan administrasi CAT dibandingkan. Fase
pengujian langsung sangat penting untuk penelitian ini. Dalam fase simulasi post-hoc tanggapan
peserta ujian yang diberikan ke format kertas dan format pensil SSE sains subtes digunakan.
Tanggapan tersebut tidak disediakan terutama untuk administrasi CAT di depan komputer oleh
peserta ujian, mereka adalah tanggapan yang diberikan untuk subtes ilmu pengetahuan P&P SSE.
Oleh karena itu, tidak ada efek yang timbul dari administrasi CAT pada peserta ujian. Di sisi
lain, dengan melakukan administrasi CAT secara langsung dapat memberikan gambaran
perkiraan kemampuan yang lebih realistis. Berdasarkan alasan itu, fase pengujian CAT langsung
dimasukkan ke penelitian ini. Alasan lain untuk CAT lansung adalah bahwa ia menggunakan
bank item besar dan memberikan administrasi yang realistis. Dalam simulasi post-hoc, CAT
disimulasikan dengan bank item termasuk jumlah item yang sama dengan subtes ilmu
pengetahuan P&P SSE. Dengan demikian temuan fase simulasi terbatas dan keterbatasan dapat
diatasi dengan melakukan CAT nyata.
Untuk penelitian ini, dua metode estimasi kemampuan (MLE dan EAP) diselidiki karena
komputabilitasnya yang mudah dan kesalahan standar yang lebih rendah. Selain metode estimasi
kemampuan, dua aturan penghentian tes (SE tetap dan panjang tes tetap) juga termasuk dalam
penelitian ini. Perbandingan antara estimasi kemampuan dari CAT dan kertas dan pensil dibuat
pada sampel dari berbagai sekolah menengah (negara bagian, Anatolia, dan swasta) dan
menggunakan panjang tes yang berbeda untuk mengamati kinerja administrasi CAT pada
kelompok tes dan peserta ujian yang berbeda.
Rata-rata yang sangat rendah untuk skor total subtes ilmu SSE memimpin penelitian
untuk menyelidiki penerapan format CAT untuk subtes itu. Berarti rendah karena item yang
tidak cocok dengan tingkat kemampuan peserta ujian memberikan skor tes yang tidak dapat
diandalkan dan parameter item yang berkualitas rendah. Juga fakta bahwa tingkat yang hilang
dari subtest sains terlalu tinggi adalah faktor lain yang mengarahkan peneliti untuk menyelidiki
format CAT dari subtansi sains SSE.
Berdasarkan itu, masalah penelitian untuk penelitian ini dapat dinyatakan sebagai berikut:
1. Apakah administrasi CAT sains SSE memperkirakan tingkat kemampuan peserta ujian
dibandingkan dengan format kertas dan pensil untuk jenis sekolah yang berbeda dan panjang tes
yang berbeda?
1.1. Apakah simulasi pasca-hoc memberikan perkiraan kemampuan yang dapat diandalkan dan
sebanding dengan format kertas dan pensil?
2.1. Apakah administrasi CAT langsung memberikan perkiraan kemampuan yang dapat
diandalkan dan sebanding dengan format kertas dan pensil?
2. Apakah metode estimasi kemampuan yang berbeda (MLE vs EAP) menghasilkan perbedaan
estimasi kemampuan?
3. Apakah aturan penghentian tes yang berbeda (jumlah item tetap vs SE tetap) menghasilkan
perbedaan dalam estimasi kemampuan?

Significance of the Study


Administrasi pengujian skala besar banyak digunakan di Turki (Ujian Seleksi
Mahasiswa, Ujian Masuk Pendidikan Pascasarjana, dll). Diketahui bahwa format kertas dan
pensil dari program pengujian skala besar memiliki banyak masalah. Investigasi format CAT
untuk subtest sains SSE memberikan kontribusi yang signifikan untuk temuan alternatif format
administrasi tes untuk memilih siswa untuk transisi ke pendidikan tinggi.
Karena penelitian ini mencakup perbandingan estimasi kemampuan dan aturan terminasi tes,
output dari berbagai strategi pengujian CAT dapat dibandingkan untuk SSE. Menggunakan jenis
sekolah yang berbeda yang mewakili kelompok kemampuan yang berbeda juga memberikan
hasil penting dalam penerapan CAT untuk sub kelompok penerima SSE.
Penelitian ini (i) memberikan kontribusi pada studi yang mencari alternatif untuk metode
memilih dan menempatkan siswa ke program pendidikan tinggi dari dimensi teknik pengukuran
dan (ii) memberikan wawasan bagi orang-orang yang terkait dengan ilmu pendidikan dan
kebijakan pendidikan tentang format tes alternatif untuk SSE.
Selain itu, beberapa masalah tentang penjelasan CAT kepada publik dibahas dalam
penelitian ini. Karena sifatnya, misalnya setiap peserta ujian akan diberikan item yang berbeda
berdasarkan kesulitan, konten, dll. Dan ini cenderung menimbulkan kekhawatiran publik tentang
keandalan ujian dari pandangan mereka yang terkait dengan pemeriksaan ini seperti ujian,
keluarga, dll. Poin-poin ini harus dijelaskan dengan baik. Meskipun hanya subtes ilmu yang
menjadi fokus untuk penelitian ini, diharapkan hasil yang dapat diperoleh dapat digeneralisasi
untuk setiap pengujian skala besar yang dikelola oleh Seleksi Mahasiswa dan Pusat Penempatan
di Turki melalui analisis serupa.

LITERATUR REVIEW
Dalam bab ini, literatur yang terkait dengan prosedur CAT disajikan. Dimensi penelitian
tes adaptif komputer dapat dikelompokkan dengan beberapa cara. Salah satu kategorisasi dibuat
oleh Weiss (2010) dan mencakup dimensi berikut:
(i) Penyeimbangan Konten,
(ii) Metode Estimasi,
(iii) Aturan Pemberhentian,
(iv) Timbangan Berganda,
(v) Hak untuk Kembali Barang yang Ditanggapi ,
(vi) Web dan CAT di Seluruh Dunia, dll

Karena penelitian ini berkaitan dengan metode estimasi kemampuan dan aturan
penghentian uji dimensi yang disebutkan di atas, sisa dimensi akan menjadi tidak fokus. Weiss
(2010) juga menyatakan pendekatan penelitian yang digunakan untuk CAT. Ini adalah studi
pengujian langsung dan dua jenis simulasi: simulasi data nyata atau post hoc, dan simulasi
Monte Carlo. Pengujian langsung melibatkan implementasi tes nyata untuk peserta ujian nyata
(Weiss, 1983). Simulasi data nyata atau post hoc dilakukan untuk menentukan bagaimana jumlah
item dalam suatu tes dapat dikurangi tanpa kehilangan sifat psikometrik dari skor tes dan
menggunakan respons nyata dari peserta ujian langsung terhadap tes kertas dan pensil. Studi
Monte Carlo digunakan untuk mengevaluasi kinerja berbagai aplikasi pengujian adaptif
komputer dengan set data nyata atau simulasi (Harwell, Stone, Hsu & Kirisci, 1996).
Administrasi CAT banyak digunakan di seluruh dunia. Economides dan Roupas (2007)
mengevaluasi sistem CAT: Penerimaan Manajemen Lulusan, Tes (GMAT), Pemeriksaan Catatan
Lulusan, (GRE), Tes Bahasa Inggris sebagai Asing, Bahasa (TOEFL), Microsoft Certified,
System Engineer (MCSE), Cisco, Asosiasi Industri Teknologi Komputasi (CompTIA), dll. Para
peneliti menyatakan bahwa faktor-faktor seperti keamanan, keandalan memiliki prioritas lebih
daripada memberikan umpan balik kepada peserta ujian dan mereka memberikan beberapa saran
untuk umpan balik yang diberikan kepada peserta ujian.
CAT administrations are used in the followings (Weiss, 2010):
• GMAT (Graduate Management Admission Test)
(http://www.mba.com/mba/TaketheGMAT/TheEssentials/WhatIstheGMAT/ComputerAdaptiveF
ormatNEW.htm),
• GRE (Graduate Record Examination),
• CITO (http://www.cito.com/en.aspx)

Also,
• Adaptive Matrices Test (AMT),
• ASCP (American Society of Clinical Pathologists-Board of Registry Certification
Examinations),
• ASVAB (The Armed Services Vocational Aptitude Test Battery),
• CAT of Written English for Spanish Speakers,
• BULATS (Business Language Testing Service) Computer Test,
• CATE (Computerized Adaptive Test of English),
• COMPASS series of tests from ACT,
• LPCAT (Learning Potential CAT),
• MAP (Measures of Academic Progress),
• Microsoft Certified Professional Examination,
• NAPLEX (North American Pharmacist Licensure Examination),
• NCLEX (National Council Licensure Examinations),
• STAR Math, Reading, and Early Literacy.

CAT Administrations

Implementasi pertama tes yang disesuaikan, atau adaptif, digunakan oleh Alfred Binet
sebagai Tes IQ (Binet & Simon, 1905). Pekerjaan Binet mencakup semua karakteristik yang
diharapkan dimiliki oleh aplikasi tes adaptif: kumpulan item yang telah ditetapkan, item yang
dikelompokkan sehubungan dengan tingkat kesulitan, pilihan mulai, metodologi penilaian yang
telah ditentukan, aturan pemilihan item yang akan ditarik kumpulan item dan telah ditentukan
sebelumnya aturan penghentian. Bahkan sulit penerapan pertama CAT ini tampaknya sangat
sederhana; ini memberikan dasar untuk aplikasi lebih lanjut.
Kemudian pada 1950-an kecuali beberapa studi tidak ada kemajuan di lapangan. Pada
1960-an, Friedrich Lord dari Educational Testing Service membuat kontribusi signifikan ke
lapangan. Gagasan utama Lord adalah bahwa (1980) “tes angka-tetap tidak sesuai untuk peserta
ujian dengan tingkat kemampuan yang lebih tinggi dan lebih rendah. Jika item yang disesuaikan
dengan tingkat kemampuan peserta ujian digunakan, pengujian dapat dilakukan tanpa kehilangan
informasi. Kemudian lapangan terus berkembang dengan studi yang dilakukan oleh Angkatan
Laut Amerika (Weiss, 1983).
Weiss dan Betz (1973) membuat tinjauan penelitian tentang pengujian kemampuan
adaptif waktu mulai dari karya Binet (1905) yang dianggap sebagai yang pertama tentang
pengukuran adaptif. Para peneliti membahas kekuatan dan kelemahan pengukuran adaptif secara
rinci dan juga menyatakan potensi dan masalah yang terkait dengan pendekatan pengukuran
baru. Mereka mendaftar kelebihan administrasi pengujian adaptif sebagai berikut: lebih sedikit
item daripada pengujian konvensional, keandalan yang lebih tinggi, dan tes yang lebih valid.
Pada akhir penelitian, mereka juga menunjuk masalah potensial yang dapat timbul dengan
menggunakan pengujian adaptif. Para peneliti lebih menyukai penggunaan pengujian adaptif dan
dengan meningkatnya ketersediaan komputer, mereka menunjuk ke pengujian adaptif
terkomputerisasi.
Karena perhitungan rumit yang disinkronkan, penarikan cepat item dari bank item dan
pemilihan item berikutnya berdasarkan fungsi informasi diperlukan, baru pada tahun 1970-an
muncul gagasan Computer Adaptive Test (CAT) pada tahun-tahun itu komputer yang terjangkau
dengan kemampuan yang lebih tinggi telah tersedia. (CikrikciDemirtasli, 1999).
Betz dan Weiss (1974), dalam studi lain, menggunakan simulasi Monte-Carlo untuk menilai sifat
psikometrik dari pengujian adaptif dan membandingkan perkiraan kemampuan yang diperoleh
dari administrasi adaptif dan kertas dan pensil. Para peneliti melaporkan bahwa administrasi
pengujian adaptif menghasilkan keandalan yang lebih tinggi daripada administrasi pengujian
konvensional.
Mills dan Stocking (1996) membahas dimensi praktis CAT seperti item awal, metode
estimasi kemampuan, aturan penghentian tes, dll. Penelitian ini sangat baik menyediakan semua
masalah dasar dari perspektif praktisi. Mead dan Drasgow (1993) melakukan studi meta-analisis
untuk menyelidiki kesetaraan format CAT dan kertas dan pensil. Peneliti memeriksa 159 korelasi
(123 tes kecepatan dan 26 tes daya). Untuk korelasi uji administrasi cepat ditemukan 0,91 dan
untuk uji daya 0,72. Korelasi gabungan tanpa pemisahan tipe administrasi adalah 0,91.
Berdasarkan temuan ini, peneliti melaporkan tidak ada perbedaan dalam kesetaraan antara
menurut format administrasi tes.
McBride dan Martin (1983) membandingkan tes adaptif komputer dan tes kertas dan
pensil dalam hal validitas dan reliabilitas dan menyatakan bahwa dengan tes adaptif komputer
hasil yang sangat andal diperoleh dengan menggunakan hanya setengah dari item dalam tes
kertas dan pensil. Kalibrasi dengan sampel yang lebih besar juga memberikan hasil yang lebih
baik dan lebih valid. Sebagai hasil dari studi mereka, tes adaptif komputer 15-item menghasilkan
hasil yang sebanding dengan tes kertas dan pensil dengan panjang yang sama.
Engelhart (1986) melakukan simulasi Monte-Carlo untuk mengetahui efek dari model
IRT yang salah ditentukan untuk administrasi CAT. Untuk tujuan ini, peneliti menghasilkan
bank barang virtual dan tanggapan peserta ujian terhadap barang-barang tersebut. Item dihasilkan
agar sesuai dengan model 2-Parameter namun peneliti menggunakan model Rasch untuk
mendapatkan situasi yang tidak sesuai. Peneliti menyatakan bahwa menggunakan model
ketidakcocokan untuk administrasi CAT menghasilkan estimasi kemampuan yang bias tetapi ini
dapat diminimalkan dengan menggunakan metode estimasi kemampuan yang dimodifikasi.
Peneliti juga melaporkan peningkatan jumlah item yang diadministrasikan dalam sesi CAT tidak
memberikan kontribusi yang signifikan untuk menghilangkan atau meminimalkan estimasi
kemampuan bias.
Ben-Porath, Slutske dan Butcher (1989) melakukan simulasi data nyata untuk
menemukan tingkat pengurangan item yang diberikan dalam sesi CAT dibandingkan dengan
format kertas dan pensil Minnesota Multiphasic Personality Inventory (MMPI). Dalam studi
mereka, para peneliti menggunakan tanggapan orang-orang yang diberikan pada kertas dan
format pensil MMPI untuk pemberian CAT yang disimulasikan. Para peneliti menggunakan
strategi pengujian yang berbeda untuk mengamati efeknya dalam format CAT seperti
administrasi item klaster. Pada akhir penelitian, para peneliti melaporkan tingkat pengurangan
yang signifikan dibandingkan dengan format kertas dan pensil MMPI.

Pengujian Prestasi oleh CAT

Koklu (1990) membandingkan format adaptif dan kertas dan pensil sehubungan dengan
validitas dan reliabilitas. Koklu melaporkan tidak ada perbedaan yang signifikan secara statistik
antara estimasi keandalan format adaptif dan konvensional. Di sisi lain, peneliti menyelidiki
hubungan antara skor tes dari format adaptif dan kertas dan pensil, dan nilai kursus sains peserta
untuk menyelidiki validitas format pengujian dan menemukan koefisien korelasi masing-masing
0,88 dan 0,81 untuk masing-masing format pengujian adaptif dan konvensional. Koklu
menyatakan bahwa meskipun perbedaannya tidak tinggi, administrasi adaptif memberikan hasil
yang lebih baik.
Kaptan (1993) membuat perbandingan antara perkiraan kemampuan yang diperoleh
antara tes kertas dan pensil dan tes adaptif komputer. Dalam studinya, tes dibentuk menggunakan
item matematika. Peserta ujian menerima tes kertas dan pensil 50 item dan komputer adaptif 14
item. Estimasi kemampuan dilakukan dengan menggunakan MLE oleh program komputer yang
dikembangkan oleh peneliti dan hasilnya menunjukkan tingkat pengurangan 70% dalam item
yang dikelola oleh format CAT. Juga tidak ada perbedaan signifikan yang ditemukan antara dua
metode dalam estimasi kemampuan oleh peneliti.
Cikrikci-Demirtasli (1999) memperkenalkan sistematik CAT secara komprehensif.
Dalam studinya, peneliti memperkenalkan prinsip-prinsip CAT, berbagai bentuk CAT, dll. Dan
membahas kegunaan format CAT.
Dalam disertasinya, Iseri (2002) menggunakan kumpulan item termasuk item dari Seleksi
Siswa Sekolah Menengah dan Ujian Penempatan. Dia menyatakan bahwa tes adaptif komputer
memperkirakan tingkat pencapaian siswa menggunakan lebih sedikit item. Dalam sesi tes di
mana siswa diizinkan untuk kembali ke item yang direspon sebelumnya, estimasi untuk siswa
dengan tingkat kemampuan yang lebih tinggi lebih baik daripada yang dengan tingkat yang lebih
rendah. Metode estimasi Bayesian membuat estimasi kemampuan yang lebih baik dan aturan
penghentian menggunakan jumlah item yang tetap dan dengan kesalahan pengukuran yang tetap
menghasilkan hasil yang dapat diandalkan.
Miller (2003), dalam disertasinya, membandingkan CAT dan tes konvensional untuk
tingkat pencapaian kompetensi siswa yang dinyatakan di AS. Peneliti memberi 267 siswa format
kertas dan pensil dan CAT dari tes yang sama dan menemukan bahwa skor yang diperkirakan
oleh CAT adalah korelasi yang signifikan dengan skor P&P. Miller juga meminta siswa untuk
mengidentifikasi preferensi mereka pada format tes. Hasil menunjukkan tidak ada perbedaan
yang signifikan antara preferensi siswa untuk format tes.
Dalam disertasi oleh Yasar (1999) koefisien reliabilitas KR-20 dari CAT diselidiki.
Peneliti membandingkan korelasi yang diperoleh dari CAT dan kertas dan format pensil dari tes
yang sama. Dalam penelitian, item bank CAT hanya mencakup 61 item. Korelasi antara dua
format berbeda ditemukan signifikan dengan koefisien 0,36, menunjukkan hubungan yang
rendah. Peneliti menunjukkan beberapa alasan potensial untuk itu seperti jumlah item yang
terbatas di bank, dan aturan penghentian pengujian dengan jumlah item yang tetap.
Eggen dan Straetmans (2000) melakukan penelitian di mana CAT digunakan untuk
klasifikasi peserta ujian menjadi salah satu dari tiga kelompok di Belanda. Tujuan dari penelitian
ini adalah untuk membandingkan kualitas administrasi CAT dari tes penempatan yang digunakan
untuk siswa untuk kursus sesuai dengan tingkat kemampuan mereka. Pada akhir penelitian, para
peneliti melaporkan penurunan 22% menjadi 44% dalam jumlah item yang dibutuhkan untuk
CAT dibandingkan dengan tes kertas dan pensil.

Ability Estimation

Lord (1986) membahas teknik estimasi parameter MLE dan Bayesian dari perspektif
IRT. Lord menggarisbawahi bahwa teknik estimasi parameter Bayesian lebih baik daripada MLE
karena teknik Bayesian menggunakan lebih banyak informasi. Hal lain yang dinyatakan oleh
Lord adalah bahwa karena estimasi kemampuan yang dilakukan dengan menggunakan teknik
Bayesian menggunakan sifat psikometrik sampel yang sedang diselidiki, pola respons yang sama
yang diberikan oleh pengujian dapat menghasilkan estimasi kemampuan yang berbeda, tidak
seperti MLE yang selalu menghasilkan estimasi kemampuan yang sama untuk pola respons yang
sama. Di sisi lain, MLE tidak menghasilkan estimasi yang berbeda berdasarkan skala di mana
estimasi kemampuan diletakkan. Menyatakan bahwa estimasi Bayesian tidak menghasilkan
divergensi, Lord menyarankan menggunakan teknik Bayesian.
Birnbaum (1958) adalah yang pertama mengusulkan untuk menggunakan estimasi
kemungkinan maksimum kemampuan yaitu metode estimasi kemampuan MLE. Birnbaum juga
orang pertama yang mengusulkan item syarat dan menguji fungsi informasi. Meskipun Birnbaum
berurusan dengan dua dan tiga parameter model IRT, menggunakan temuannya untuk membuat
generalisasi untuk lebih banyak model IRT, Samejima (1969) mengusulkan penduga Bayesian.
Estimator ini didasarkan pada pemaksimalan kepadatan kemampuan posterior menggunakan
respons peserta ujian terhadap item.
Tapi itu adalah studi dari Bock dan Aitken (1981) untuk membuat perhitungan
matematika mungkin untuk menggunakan estimator yang diusulkan oleh Samejima yang tidak
menyelidiki lebih lanjut penggunaan estimator itu. Mereka mengusulkan istilah MAP dan EAP,
memperkenalkan teknik perhitungan untuk administrasi tes praktis.
Bock dan Mislevy (1982) mengevaluasi metode estimasi kemampuan EAP Bayesian dari
perspektif administrasi CAT. Mereka menyatakan keuntungan EAP dibandingkan MLE dan
MAP sebagai berikut:
• Estimasi EAP mudah dihitung. Mereka tidak memerlukan perhitungan iteratif matematika yang
panjang dan kompleks,
• Tidak seperti MAP, mereka tidak memerlukan turunan, yang membuat mereka bebas dari
asumsi distribusi sebelumnya,
• Tidak seperti MLE, mereka selalu diproduksi. Mereka bekerja dengan baik untuk situasi yang
salah dan benar semua peserta ujian,
Keuntungan bahwa metode Bayesian memiliki lebih dari MLE mengatasi masalah titik
maksimum tidak ada. Dalam setiap keadaan metode Bayesian menghasilkan estimasi
kemampuan karena itu mereka dapat digunakan dalam nol benar, situasi benar penuh dan
menyimpang respon (Hambleton, Swaminathan, & Rogers, 1991). Tetapi mereka membutuhkan
operasi komputasi yang kompleks untuk memperkirakan kemampuan daripada MLE. EAP
menghasilkan kesalahan standar terendah (yaitu, estimasi yang paling dapat diandalkan) di antara
semua prosedur estimasi kemampuan, tetapi itu bias dan membutuhkan distribusi apriori
(umumnya distribusi standar normal). Bias ini adalah alasan utama untuk tidak disukai untuk
administrasi CAT, meskipun kesalahan standar yang lebih rendah. Wang, Lau dan Hanson
(1999) menyatakan bahwa MAP menghasilkan lebih sedikit bias, di sisi lain cenderung
menghasilkan kesalahan standar yang lebih tinggi.
Metode MAP mirip dengan EAP dalam hal itu menggunakan informasi sebelumnya
tentang kemampuan distribusi peserta ujian, tetapi menggunakan mode daripada rata-rata yang
digunakan EAP. Metode OWEN tetapi informasi sebelumnya diperbarui menggunakan distribusi
normal. Wang dan Wispoel (1988) menunjukkan metode OWEN memiliki estimasi paling
buruk.
Bock dan Mislevy menyatakan (1982) menyatakan perbedaan antara metode MAP dan
EAP sebagai berikut: (i) EAP lebih mudah untuk dihitung; (ii) EAP tidak tergantung pada asumsi
distribusi yang didefinisikan apriori.
Raîche dan Blais (2002), dalam makalah mereka, mengusulkan penggunaan metode
Bayes EAP untuk administrasi CAT. Mereka menyatakan bahwa menggunakan Model Rasch
dan EAP untuk metode estimasi kemampuan, jumlah item yang diperlukan untuk administrasi
CAT berada di kisaran antara 13 dan 40 untuk mencapai kesalahan standar antara 0,40-0,20.
Namun, para peneliti juga menunjukkan bahwa pendekatan ini menghasilkan bias ketika ada
perbedaan yang signifikan antara tingkat kemampuan peserta ujian dan tingkat kemampuan
apriori. Untuk mengurangi bias yang mereka sarankan menggunakan metode koreksi seperti
koreksi adaptif untuk bias (ACB), estimasi a priori adaptif (AAP), dan menyesuaikan dan
mengadaptasi interval integrasi estimasi a priori (interval integrasi adaptif, IN). Hasilnya, mereka
melaporkan hasil yang mendukung penggunaan gabungan metode AAP dan IN untuk
mengurangi bias.
Wang (1997) mengusulkan metode estimasi a posteriori (EAP) baru yang diharapkan
untuk mengatasi keterbatasan metode estimasi kemampuan EAP yang ada seperti bias dalam
estimasi kemampuan. Indeks baru itu memiliki distribusi sebelumnya yang lebih rata daripada
standar normal yang digunakan dalam banyak sesi estimasi EAP. Dengan cara ini, distribusi
sebelumnya tidak menunjukkan distribusi kemampuan sebelumnya peserta ujian berlawanan
dengan saat ini. Para peneliti mencoba berbagai alternatif untuk distribusi sebelumnya
menggunakan teknik simulasi dan menemukan bahwa distribusi beta menghasilkan bias
minimal, bahkan kurang dari metode MLE tanpa kehilangan keunggulan SE kecilnya
dibandingkan metode estimasi kemampuan lainnya.
Test Termination

Lord and Stocking (1987) melakukan penelitian tentang penghentian aturan untuk tes
adaptif komputer dan menemukan bahwa tes dengan panjang variabel dapat mempengaruhi
estimasi kemampuan secara negatif, terutama jika tes pendek. Namun, di antara aturan
penghentian lainnya, kesalahan tetap SE yang dapat diperoleh dengan panjang uji variabel
tampaknya merupakan alternatif terbaik.
Riley, Conrad, Bezruczko dan Dennis (2007) mengeksplorasi efek menggunakan aturan
penghentian ujian pada memperpendek jumlah item yang diberikan kepada peserta ujian dalam
versi CAT Penilaian Global Skala Masalah Individu (GAIN) Skala Masalah Substansi (SPS)
untuk ujian dengan kemampuan berbeda level. GAIN mencakup sejumlah instrumen pengukuran
yang digunakan di Amerika Utara. Instrumen ini dirancang untuk diselesaikan 1 hingga 2 jam
dan digunakan untuk menentukan tingkat perlakuan penyalahgunaan zat. Para peneliti
menggunakan desain tes untuk menyelidiki efek dari aturan penghentian tes yang berbeda pada
sampel yang berbeda, mereka mendefinisikan 0,35 logit untuk tingkat kemampuan kisaran
menengah dan untuk tingkat kemampuan rendah dan tinggi nilai SEM yang mereka tetapkan
adalah 0,50, 0,60, dan 0,75 log sebagai hasil dari studi mereka, mereka menyatakan bahwa
relaksasi aturan ketat menghentikan tes untuk tingkat kemampuan yang berbeda memberikan
kontribusi yang signifikan terhadap tingkat pengurangan item yang diberikan. Mereka
melaporkan tingkat pengurangan 13% hingga 66%.
Babcock dan Weiss (2009) melakukan penelitian untuk menyelidiki kinerja berbagai
aturan penghentian tes dalam administrasi CAT. Dalam studi mereka, para peneliti
mendefinisikan beberapa aturan penghentian pengujian seperti SE, jumlah minimum informasi
minimum, perubahan tingkat kemampuan, dll. Mereka juga menggunakan bank soal dengan
karakteristik berbeda untuk menggunakan aturan penghentian pengujian. Menggunakan mereka
mensimulasikan 100 peserta ujian untuk 13 poin kemampuan pada kontinum kemampuan.
Mereka menjalankan empat belas simulasi dan hasilnya menunjukkan bahwa jumlah item tidak
tetap dalam administrasi CAT berkinerja sama untuk jumlah item tetap.
Yi, Wang, dan Ban (2001) meneliti pengaruh aturan terminasi tes pada estimasi
kemampuan dalam administrasi CAT. Mereka fokus pada tiga aturan penghentian yang berbeda:
panjang tetap, ambang SE dan ambang informasi. Mereka melakukan simulasi dan melaporkan
bias signifikan dalam estimasi kemampuan terkait dengan metode terminasi tes yang dipilih.
Mereka menyatakan bahwa terminasi tes merupakan faktor yang berpengaruh pada estimasi
kemampuan. Mereka menyarankan bahwa penggunaan ambang SE akan mengurangi efisiensi
tes.
Juga situasi yang serupa dilaporkan oleh Simms dan Clark (2005) yang mencoba
memvalidasi versi CAT dari Schedule for Nonadaptive and Adaptive Personality (SNAP) yang
merupakan kumpulan skala yang terkait dengan gangguan kepribadian. Ketika mengadaptasi
SNAP ke format CAT, mereka menggunakan aturan terminasi tes dua tahap: mereka
mendefinisikan aturan bahwa jumlah minimum item yang diberikan kepada siswa dan kemudian
menggunakan ambang SE atau ambang batas informasi (yang dicapai lebih dulu). Mereka
mengamati bahwa 82% dari peserta diberikan mendekati maksimal dalam jumlah, bahkan
beberapa peserta menerima lebih banyak barang daripada item bank. Mereka menjelaskan situasi
ini berdasarkan sifat psikometrik yang buruk dari beberapa subskala.
Di sisi lain, Babcock dan Weiss (2009), dalam penelitian mereka, melakukan analisis
komprehensif menggunakan item bank dengan karakteristik psikometrik yang berbeda untuk
menyelidiki kinerja aturan terminasi tes. Mengingat bahwa ambang SE diambil cukup rendah
untuk memberikan pengukuran yang sangat andal, kinerja metode SE tetap tidak kurang dari
aturan pemutusan panjang tetap meskipun sejumlah kecil item digunakan. Mereka melaporkan
bahwa bias yang berasal dari penggunaan terminasi tes ambang SE adalah artefak statistik.
Mereka membahas situasi yang berpotensi menyebabkan hal itu. Mereka menyarankan bahwa
penggunaan pendekatan terminasi tes gabungan yang menggabungkan SE tetap dan jumlah item
tetap mungkin menjadi solusi untuk memilih aturan terminasi tes.
Wang dan Wang (2001) melakukan studi Monte Carlo untuk membandingkan beberapa
metode estimasi kemampuan. Salah satu variabel independen yang digunakan peneliti adalah
aturan penghentian tes. Mereka mengadopsi dua pendekatan penghentian yang berbeda: panjang
uji tetap dan keandalan uji tetap. Mereka menggunakan kriteria yang berbeda untuk setiap aturan
penghentian dan memeriksa efeknya untuk menyelidiki kinerja metode estimasi kemampuan.
Sebagai produk sampingan, mereka melaporkan bahwa pengaruh aturan penghentian pengujian
pada estimasi kemampuan lebih dari pada sifat psikometrik bank barang, terutama untuk MLE.

Ringkasan

Singkatnya, menyelidiki administrasi pengujian adaptif komputer dari perspektif yang


berbeda telah menjadi sangat populer. Penting untuk dicatat bahwa hasil penelitian ini
menunjukkan bahwa CAT adalah teknik yang tepat untuk mengukur individu dengan item yang
lebih sedikit dan keandalan yang lebih tinggi dibandingkan dengan format kertas dan pensil. Di
sisi lain, tidak ada penelitian yang terkait dengan penerapan aplikasi tes adaptif komputer di
Turki.

METODOLOGI PENELITIAN
Disertasi ini membagi penelitian menjadi dua fase. Fase pertama malakukan simulasi Post
Hoc berdasar pada data test real examinee. Pada fase pertama ini menggunakan simulasi post
hoc berdasar repon examinee pada ujian SPMB terdahulu di pusat studi. Hal yang mendasari
simulasi menggunakan data real terdahulu (post hoc) yaitu diyakini bahwa ketika menduga
parameter ability pada dengan cara ini dapat merefleksikan karakteristik psikologis dari examine
dan factor lainnya seperti kecepatan dan factor menebak. Dalam hal ini jika menggunakan data
simulasi hal ini sulit digambarkan. Dugaan parameter kemampuan didapatkan melalui
perbandingan antara simulasi dan format pencil kertas test SPMB. Simulasi post hoc ini
digunakan untuk melihat hubungan antar dugaan tingkat kemampuan examinee melalui versi
CAT dan pencil kertas tes pada ujian SPMB.

Fase dua penelitian, aplikasi LIVE CAT terhadap examinee real berdasarkan bank soal
termasuk soal-soal substes science SPBM sebelumnya yang teridiri lebih dari 242 item test. Lalu
dugaan kemampuan dari real siswa dari format administrasi P&P dan CAT dibandingkan.
Metode estimasi kemampuan dan aturan terminasi diterapkan langsung pada saaat test ketika
CAT berjalan.

Data dan Sample Penelitian

Data set yang digunakan dalam penelitian ini didapatkan dari Pusat seleksi dan
penempatan siswa. Data file mencakup semua jawaban siswa dalam format dikotomus yang
dilakukan SSE pada tahun 2003, 2005, 2006 dan 2007. Data set pada tahun 200, 2001, 2002 dan
2004 hanya mengandung dugaan parameter item dengan CCT.

Data set tahun 2005 dan 2006 digunakan untuk kalibrasi dan fase simulasi post-
hoc.Untuk keperluan administrasi bank soal dari live CAT, semua items di semua tahun
digunakan.

Model data fit

Menurut Hambleton & Swaminathan (1984) uji kesesuain model dibagi menjadi tiga tahap :

1. Uji asumsi model


2. Uji fitur model harapan
3. Uji prediksi model

Tahap pertama termasuk pemeriksaan asumsi unidimensionalitas, indeks diskriminasi yang


sama, tebakan minimal, dan administrasi ujian nonspeeded. Pada tahap kedua, properti invarian
diverifikasi. Kelainan estimasi kemampuan dan invarian parameter item adalah dua fitur yang
harus diperoleh saat menggunakan model IRT. Dan untuk tahap ketiga, model prediksi diselidiki
untuk menilai penyimpangan nilai estimasi dari nilai aktual.

Pengujian model fit dilakukan terhadap set data tahun 2005 dan 2006. Ujian pada tahun yang
berebda diberikan pada siswa yang memiliki karakteristik kognitif yang sama di seluruh tahun
dan item dalam tes tidak berbeda secara signifikan dari tahun ke tahun. Oleh karena itu model
IRT yang terpilih dapat diterapkan untuk tahun-tahun lainnya.

Asumsi Model
Asumsi IRT unidimensionalitas berarti bahwa kinerja peserta ujian dapat digambarkan
oleh satu dimensi tunggal. Dan itu adalah asumsi yang harus dipenuhi. Namun, asumsi tersebut
jarang terpenuhi dalam prakteknya (Hambleton & Swaminathan, 1985). Asumsi ini dapat
diestimasi dengan menilai rasio nilai eigen pertama dan kedua, yang merupakan indeks kekuatan
dimensi pertama data (Reise & Waller, 1990). Ini menyiratkan bahwa faktor pertama
menjelaskan sebagian besar varian total, yang berarti bahwa asumsi faktor dominan telah
terpenuhi. TESTFACT (Wilson, Wood & Gibbons, 1991) digunakan untuk melakukan analisis
faktor karena menggunakan korelasi tetrachoric.
Rasio nilai eigen pertama dengan yang kedua menunjukkan bahwa tes unidimensional dengan
faktor pertama yang sangat dominan (Tabel 3.3)

Independensi lokal berarti bahwa setelah mengkondisikan kemampuan, respons peserta


ujian terhadap item-item pada tes cenderung independen (Hambleton et al, 1991). Secara umum,
ketika unidimensionality terpenuhi, asumsi independensi lokal dikatakan terpenuhi. Di sisi lain,
bahkan asumsi unidimensionality terpenuhi, kemerdekaan lokal tidak dapat dipenuhi (Lord,
1980). Investigasi korelasi antar-item antar subkelompok dalam hal tingkat kemampuan dapat
digunakan untuk memeriksa independensi lokal. Tabel 3.4 menunjukkan cara korelasi antar item
untuk seluruh kelompok, dan subkelompok kemampuan terbatas (kelompok kemampuan rendah
dan tinggi).
Equating test score
Menempatkan butir soal dalam skala yang sama merupakan sesuatu yang penting dalam
pengembangan item pools. Untuk mendapat hal ini, item yang sama dari non ekuivalen grup atau
grup acak dapat digunakan. Ujian pada tahun yang berbeda diberikan pada siswa yang memiliki
karaketristik kognitif yang sama antar tahun. Berdasar ini maka estimasi dugaan item parameter
dan kemampuan yang didapat berlaku antar tahun.

HASIL/PEMBAHASAN
Seperti dijelaskan sebelumnya, penelitian ini dibagi menjadi dua fase : 1. Simulasi Post-
hoc, pada tahap ini dilakukan pendugaan tingkat kemampuan peserta test menggunakan respons
real peserta test dan butir soal dengan format kertas pencil pada SSE sains subtes. 2.
Adiministrasi CAT secara langsung termasuk real peserta test. Pada fase ini dua metode estimasi
kemampuan yaitu MLE dan Bayesian EAP diterapkan dan dua kriteria terimanasi (fix test length
dan fixed SE) didefinisikan untuk peserta ujian daritiga tipe sekolah. Dan setelah didapat stretegi
terbaik administrasi CAT, maka hasil dari sini digunkanan untuk menguji data real administrasi
CAT, termasuk memasukan peserta test sungguhan.

Model 3PLM digunakan untuk kalibrasi item butir soal. Dugaan parameter theta pada fase
simulasi dipilih secara parallel untuk mengestimasi metode yang digunakan dalam simulasi.

Studi Simulasi
Pada penelitian ini didapati, metode EAP menghasilkan korelasi yang tinggi terhadap
CAT dan fomat test kertas pencil untuk semua panjang test dan tipe sekolah dengan nilai aturan
terimnasi yang dibuat konstan. Ketika EAP diasumsikan sebagai sebaran prior mengenai theta
peserta, hal ini dapat menghasilkan dugaan parameter theta yang lebih baik dibanding MLE.

Dengan berbgai alas an, maka metode estimasi EAP dan ambang SE (fixed SE) dipilih
untuk menduga parameter theta dan kriteria terminasi pada administrasi CAT bagian subtes
sains. Hal dianggap dapat memperoleh nilai yang reliable dan konsisten pada pendugaan theta
dengan format kertas pensil test.

Administrasi CAT live


Administrasi Live CAT dilakukan terhadap peserta tes real yang mengambil ujian SSE
subtes sains enam bulan sebelum waktu administrasi, hal ini dilakukan unutk mengkaji
bagaimana performa CAT untuk para peserta ujian.

Sebanyak tiga puluh tiga peserta berpartisipasi dalam administrasi CAT yang dibentuk
dengan metode estimasi EAP dan menetapkan aturan terminasi tes SE. didapat ambang batas
untuk SE dianggap 0,30 untuk memberikan sesi pengujian yang sangat andal.
Peserta test administrasi CAT Live sebagian besar berasal dari sekoleh dengan tipe
Anatolia. Sekolah tipe ini menggunakan seleksi sebagai prosedur penerimaan siswana. Oleh
karena itu karakter siswa tipe ini ditempatkan pada theta yang lebih tinggi. Setengah proporsi
peserta test diketahui tidak mengambil kursus yang berhubungan denga computer.

Hasil memperlihatkan bahwa semua peserta ujian menerima substes sain format pensil
kertas SSE pada tahun 2007. Respon dengan jawaban benar sebesar 93.3% dari 30 peserta tes.
Estimasi nilai theta dan SE sebesar 1.21 dan 0.22. Korelasi antara estimasi kemampuan yang
diperoleh dari CAT dan P&P SSE Science subtest ditemukan 0,736 (p <0,05).

Secara analitik dapat kita lihat bahwa format adiministrasi CAT Live menggunakan lebih
sedikit butir soal pada bank soal untuk menduga parameter theta, dan menghasilkan dugaan
parameter SE yang lebih rendah. Dengan demikian administrasi CAT memberikan pengujian
yang lebih handal.

Menguji kinerja relative SS-MIRT dan metode equating lainnya pada desain CINEG
Secara umum, dapat dilihat bahwa SMT dan SMO memiliki kecendrungan nilai
variabilitas hasil equating yang lebih kecil dibanding UT dan UO. Berdasarkan hasil kondisional
RMSE, SMT dan SMO mengungguli UT dan UO pada semua rentang score dengan sedikit
pengecualian. Secara general dapat kita urutkan berdasarkan besaran error pada hasil equating.
UT memiliki nilai error yang paling besar, diikuti UO, lalu SMO dan SMT. Sehingga dapat
disimpulkan SMT merupakan yang paling baik pada kondisi ini.

Secara umum, prosedur SMT memiliki sifat dan perilaku yang sama dengan prosedur yang
telah ada, terutama untuk SMO. Juga dapat dilihat bahwa SMT menunjukkan akurasi equating
yang lebih baik jika dibandingkan dengan Equating tradisional UIRT. Pola ini Nampak lebih
jelas ketika pada yang memiliki multidimensional, karena bias yang lebih kecil berasosiasi
dengan SMT. Kinerja lebih baik SMT dari UT secara konsisten terlihat pada tiga studi yang
mana berbeda-beda dataset. Hal ini menunjukkan keuntungan pendekatan multidimensional pada
equating.

KESIMPULAN
 Estimasi kemampuan menggunakan MLE menghasilkan korelasi yang lebih rendah terhadap
semua panjang tes dan jenis sekolah.
 Metode estimasi EAP menghasilkan estimasi kemampuan yang sangat berkorelasi dengan
subtes ilmu pengetahuan P&P SSE daripada MLE.
 Aturan terminasi uji panjang uji tetap memiliki kinerja yang lebih baik dalam hal korelasi
antara perkiraan kemampuan CAT dan subtes ilmu pengetahuan SSE P&P.
 Tidak ada perbedaan antara panjang tes yang berbeda dalam mengestimasi kemampuan.
 Metode estimasi kemampuan MLE, bahkan korelasi yang sulit antara estimasi kemampuan
meningkat dengan tingkat SE menurun, tingkat SE 0,10 tidak dapat diperkirakan dengan
baik.
 Untuk MLE ada perbedaan dalam hal estimasi kemampuan di seluruh jenis sekolah.
 Dalam EAP, jenis sekolah tidak diamati sebagai faktor yang membedakan estimasi
kemampuan.
 Metode estimasi MLE membutuhkan lebih sedikit item daripada EAP untuk memperkirakan
kemampuan peserta ujian. Seperti yang diharapkan jumlah item yang dibutuhkan meningkat
dengan tingkat SE menurun.
 Metode EAP menggunakan lebih banyak item daripada MLE untuk estimasi kemampuan.
 Tidak ada perbedaan antara korelasi dalam hal panjang tes dan jenis sekolah kecuali tingkat
SE yang lebih tinggi.
 Level SE 0,10 tidak dapat dicapai tanpa memberikan semua item SSE kepada peserta ujian.
 Untuk panjang uji tetap MLE menghasilkan nilai SE yang lebih rendah untuk memperkirakan
kemampuan. EAP, karena sifatnya, menghasilkan perkiraan SE yang lebih tinggi.
 Metode estimasi kemampuan MLE meninggalkan sekelompok peserta ujian tanpa
memperkirakan tingkat kemampuan mereka. Khusus untuk SMA negeri ukuran kelompok
yang tidak diperkirakan lebih tinggi.
 Administrasi CAT langsung menghasilkan hubungan yang kuat antara perkiraan kemampuan
peserta ujian dari CAT dan administrasi P&P subtes sains SSE.
 Estimasi kemampuan CAT lebih rendah dari pada P&P

KLAIM KELEBIHAN/INVENSI ARTIKEL


 Artikel ini memberika gambaran praktis bagaimana mengkonversi dari format P&P ke
format CAT, dari perspektif pengujian dan pengukuran
 Menjelaskan secara lengkap kelebihan dan kekurangan CAT
 Memberikan pengetahuan mengenai administrasi CAT dan proses kalibrasi bank soal
 Membandingkan metode estimasi parameter item dan theta menggunakan metode MLE dan
Bayesian
 Isi secara keseluruhan sudah cukup dalam menjelaskan butir soal yang terdeteksi sebagai DIF
serta apa pengaruh item purification dalam mendeteksi DIF

SARAN/KEKURANGAN
 Perlu Solusi kasus lain yang dapat diselesaikan dengan format CAT untuk membuat peserta
dan public familiar terhadap administrasi CAT
 Tidak diketahui berapa banyak ukuran sampel yang digunakan dan metode penarikan sampel
nya.
 Strategi pemunculan butir soal sebaiknya dikaji lebih lanjut dalam penelitian lain.
 Perlu juga dikaji dampak dari cara seleksi item yang dimunculkan pada CAT

Anda mungkin juga menyukai