Anda di halaman 1dari 10

KRITERIA-DISEBUTKAN PENGUKURAN: APLIKASI UTAMA PERUSAHAAN, MASALAH DAN TEMUAN

Wim van der Linden J.

Technische Hogeschool Twente, Postbus 217, 75 () {} AE Enschede, Belanda

ABSTRAK

Kebutuhan untuk sebuah kriteria pengukuran muncul dari pengenalan program instruksional diatur
sesuai dengan prinsip-prinsip modern dari teknologi pendidikan. Beberapa program ini dibahas, dan
ditandai untuk tujuan apa pengukuran kriteria-referenced digunakan. Tiga masalah utama pengukuran
kriteria-referenced dibedakan: Masalah kriteria • direferensikan scoring dan interpretasi skor, masalah
kriteria-referenced barang dan uji analisis, dan masalah pengujian penguasaan. Untuk masing-masing
masalah berbagai solusi dan pendekatan telah diusulkan. Ini adalah tujuan dari kertas untuk
memberikan gambaran dari ini dan untuk memperkenalkan pembaca untuk literatur asli.

Naiknya sejumlah strategi pembelajaran baru pada dasarnya telah mengubah makna pengukuran dalam
pendidikan dan membuat tuntutan baru pada pembangunan, penilaian, dan analisis tes pendidikan.
Pengukuran pendidikan memuaskan tuntutan ini biasanya disebut cr-iter-ion-r eferenced, sedangkan
pengukuran tradisional yang sering dikenal sebagai norma-direferensikan.

Fitur umum dari ini strategi pembelajaran karakter berbasis tujuan mereka. Semua mengarah ke
program instruksional yang didirikan dan dijalankan sesuai dengan didefinisikan dengan baik, tujuan
belajar yang jelas. Langkah-langkah organisasi ta ken untuk mewujudkan tujuan ini berbeda, namun.
Misalnya dalam belajar untuk penguasaan, salah satu perkembangan baru yang paling populer (Block,
1971b; Bloom, 1968; Bloom, Hastings, & Madaus, 1971, chap. 3), berikut ini
dilakukan: Pertama, tujuan pembelajaran yang terus tetap selama pelaksanaan program. Kedua,
program ini dibagi menjadi urutan unit belajar kecil, dan siswa diperbolehkan untuk melanjutkan ke unit
berikutnya hanya setelah mereka telah menguasai satu sebelumnya. Ketiga, akhir-of • unit test
diberikan menyediakan siswa dan instruktur dengan umpan balik yang cepat. Salah satu kegunaan
utama dari tes ini adalah untuk memisahkan siswa yang menguasai unit dari mereka yang tidak
(penguasaan pengujian). Keempat, ketika seorang siswa tidak menguasai unit, ia diberikan materi
pembelajaran korektif atau pengajaran remedial. Kelima, sebagai waktu belajar ekstra yang dibutuhkan
untuk pergi

97

melalui bahan-bahan ini dan instruksi, penguasaan pembelajaran memungkinkan beberapa diferensiasi
di tempo. Tidak ada perbedaan dalam tingkat, namun, karena tujuan pembelajaran yang terus tetap dan
sama dengan semua siswa. (Untuk lima sifat penguasaan pembelajaran dan penjelasan lebih lanjut dari
padanya, melihat Warries, 1977a.)

Konteks di mana penguasaan pembelajaran berupaya untuk mewujudkan tujuannya adalah r • instruksi
kelompok egular. Di setiap unit semua siswa menerima instruksi yang sama sampai akhir-of-unit uji.
Meskipun mereka memiliki banyak kesamaan dengan penguasaan pembelajaran, sistem pembelajaran
individual seperti Pittsburgh secara Ditetapkan Instruksi (IPI) (Glaser, 1968) dan Program Flanagan untuk
Belajar Menurut Kebutuhan (RENCANA) (Flanagan, 1967) berbeda dalam hal ini. Sistem ini
memungkinkan siswa untuk mencapai tujuan pembelajaran dengan cara yang berbeda. Setiap siswa
diberikan dengan rute sendiri melalui unit instruksional dan dengan materi pembelajaran yang cocok
masuk nya • perilaku ing dan bakat. Instruksi individual telah terutama didorong oleh Interaksi lihat •
titik yang mendasari Aptitude Treatment (ATI) penelitian (Cronbach & Snow, 1977), yaitu bahwa subyek
dapat bereaksi secara berbeda terhadap perawatan dan pengobatan yang terbaik rata-rata karena itu
mungkin terburuk dalam individu kasus. Metodologi yang diperlukan untuk menguji apakah ATL ini hadir
telah ditinjau oleh Cronbach dan Snow (1977, bab. 1-4) dan Plomp (1977). Aturan keputusan untuk
menugaskan siswa untuk perawatan diberikan dalam van der Linden (1980d, 1981b) dan Vijn (1980).

Yang paling jauh modus individualisasi terjadi di Computer-Aided


Instruksi (CAI) (Atkinson, 1968; Suppes, 1966; Suppes, Smith, & Beard,
1975). Dalam CAI instruksi yang interaktif dan setiap langkah berikutnya tergantung pada respon siswa
untuk satu sebelumnya, sehingga menciptakan suatu sistem di mana siswa adalah, dalam batas-batas
tertentu, memilih instruksi individu sendiri.

Dibandingkan dengan pendekatan pendidikan tradisional, salah satu sifat yang paling mencolok dari
program pengujian yang melekat dalam strategi belajar yang modern ini adalah frekuensi pengujian.
Pada beberapa titik waktu, tes yang terlibat untuk beberapa tujuan. Awal-of-unit test menggambarkan
perilaku masuk dan keterampilan siswa yang akan memulai dengan unit. Ketika unit itu sendiri
mencakup urutan tujuan, nilai pada tes ini dapat digunakan untuk memutuskan di mana untuk
menempatkan siswa dalam urutan ini. Ketika individualisasi didasarkan pada penelitian ATI, tes bakat
biasanya diberikan untuk menetapkan siswa untuk mereka perawatan yang menjanjikan hasil terbaik.

Setelah siswa telah mengambil unit, tes menengah dapat diberikan untuk memantau belajarnya.
Penggunaan utama dari tes ini adalah untuk menggambarkan aspek-aspek yang relevan dari proses
pembelajaran yang memungkinkan siswa dan instruktur untuk kembali menyesuaikan jika diperlukan.
Penggunaan menengah ini dari tes ini dikenal sebagai evaluasi formatif.

Tes juga digunakan sebagai end-of-unit test untuk menggambarkan tingkat master siswa telah mencapai
ketika ia telah menyelesaikan unit. Jika informasi dari tes ini berfungsi sebagai dasar untuk memutuskan
apakah siswa telah menguasai unit dan dapat dipindahkan ke unit berikutnya, prosedur pengujian

dikenal sebagai pengujian penguasaan. Akhir-unit test dapat digunakan untuk tujuan diagnostik juga;
maka mereka menunjukkan tujuan yang penampilan siswa miskin, dan bagian dari unit ia harus
menutupi lagi yang.
Dalam semua mode ini pengujian, skor hanya digunakan untuk tujuan instruksional. Secara khusus,
mereka tidak digunakan untuk siswa gradasi (evaluasi sumatif). Untuk itu tes terpisah biasanya diberikan
pada akhir program, meliputi isi dari unit tapi mengabaikan nilai unit test yang diberikan sebelumnya.

Untuk review lebih lanjut dari prosedur pengujian dalam strategi pembelajaran modern, merujuk Glaser
dan Nitko (1971), Hambleton (1974), Nitko dan Hsu (1974), dan Warries (1979b).

Seperti telah ditunjukkan, pengenalan strategi seperti belajar untuk penguasaan dan individual instruksi
telah menyebabkan perubahan dalam penggunaan dan interpretasi skor tes. Modus pengujian yang
diuraikan di atas semua peduli dengan deskripsi perilaku siswa. Dengan demikian, adalah mungkin untuk
mengontrol proses pembelajaran dan untuk membuat keputusan yang optimal, misalnya, pada
penempatan siswa dalam satuan pembelajaran dan akhir-of • Unit tingkat penguasaan mereka.
Prosedur pengujian tradisional, bagaimanapun, lebih cocok untuk membedakan antara subjek, dan
sebagian besar berfungsi sebagai alat untuk (fixed-kuota) seleksi. Analisis psikometrik dari tes ini
umumnya disesuaikan dengan penggunaan ini.

Upaya untuk menghapus asumsi tradisional dari pengujian pendidikan dan mengganti ini dengan asumsi
yang lebih baik disesuaikan dengan penggunaan tes dalam strategi belajar yang modern muncul pada
awal tahun enam puluhan. Sebagai hasil istilah "criterion- direferensikan pengukuran" telah diciptakan.
Di tempat lain (van der Linden, 1979) kami telah memberikan review di mana tiga masalah utama
pengukuran kriteria-referenced dibedakan, masing-masing untuk pertama kalinya sinyal yang berbeda
"sejarah" kertas. Masalah-masalah ini adalah: Masalah kriteria -referenced scoring dan skor interpretasi,
masalah kriteria-referenced barang dan uji analisis, dan masalah keputusan penguasaan. Berikut ini
adalah perkenalan singkat tiga masalah ini.

KRITERIA-DISEBUTKAN SKOR DAN SCORE INTERPRETASI

Glaser (1963), dalam makalahnya pada teknologi instruksional dan pengukuran hasil belajar, dihadapkan
dua kemungkinan penggunaan tes pendidikan dan daerah mereka dari aplikasi. Yang pertama adalah
bahwa tes dapat menyediakan pengukuran norma-direferensikan. Dalam norm- direferensikan
pengukuran kinerja mata pelajaran yang mencetak dan diinterpretasikan dengan menghormati satu
sama lain. Seperti namanya menunjukkan, selalu ada kelompok norma, dan bunga dalam berdiri relatif
dari mata pelajaran yang akan diuji dalam kelompok ini. Ini menemukan ekspresi dalam metode scoring
sebagai nilai persentil, skor dinormalisasi, dan setara usia. Tes yang dibangun sedemikian rupa sehingga
posisi relatif subyek keluar sebagai andal mungkin. Sebuah contoh luar biasa dari daerah di mana norm-

pengukuran direferensikan diperlukan adalah pengujian untuk seleksi (misalnya, pelamar pekerjaan).
Dalam aplikasi seperti tes mu st secara maksimal membedakan untuk memungkinkan majikan untuk
memilih pelamar terbaik.
Penggunaan kedua adalah bahwa tes dapat menyediakan pengukuran kriteria-referenced. Dalam
pengukuran kriteria-referenced bunga tidak dalam menggunakan skor tes untuk peringkat mata
pelajaran pada kontinum diukur dengan tes, tapi hati-hati dalam menetapkan acuan perilaku (the
"kriteria") yang berkaitan dengan nilai atau poin sepanjang kontinum ini. Pengukuran adalah norma-
direferensikan ketika mereka menunjukkan betapa jauh lebih baik atau lebih buruk kinerja subyek
individu dibandingkan dengan orang-orang dari mata pelajaran lain dalam kelompok norma; mereka
kriteria • direferensikan ketika mereka menunjukkan apa pertunjukan subjek dengan skor yang
diberikan adalah mampu melakukan, dan apa itu perilaku r • epertor • y adalah, tanpa mengacu pada
nilai mata pelajaran lainnya. Penggunaan deskriptif ini uji s es cor yang dibutuhkan dalam program
pengujian strategi pembelajaran yang disebutkan sebelumnya. Untuk penjelasan lebih lanjut dari
perbedaan antara interpretasi skor tes norma-direferensikan dan kriteria • direferensikan, kita lihat
Block (197la), Carver (1974), Ebel (1962, 1971), Flanagan (1950), Glaser dan Klaus (1962) , Glaser dan
Nitko (1971), Kaca (1978), Hambleton, Swaminathan, Algina, dan Coulson (1978), Linn (1980), Nitko
(1980), dan Popham (1978).

Bagaimana membangun hubungan antara nilai tes dan referen perilaku adalah apa yang bisa disebut
masalah interpretasi skor kriteria-referenced. Kami juga telah disebut ini masalah validitas lokal, karena
Glaser (1963) melampaui masalah validitas klasik dan tidak meminta validitas tes, yang merupakan
pertanyaan klasik, tapi untuk validitas penafsiran
skor tes. Validitas tes harus, karena itu, menjadi specifiable lokal untuk titik-titik pada kontinum yang
mendasari tes (van der Linden,
1979).

Beberapa jawaban telah diusulkan untuk masalah interpretasi skor kriteria-referenced, beberapa di
antaranya akan disebutkan di sini. Salah satunya adalah pendekatan konstruktif berdasarkan ide dari
referensi nilai tes ke domain tugas (misalnya, Hively, 1974; Hively, Maxwell, Rabehl, Sension, & Lundin,
1973; Hively, Patterson, & Page, 1968; Osburn 1968 ). Dalam pendekatan ini, tes ini sampel acak dari
domain tugas (atau mungkin dipahami seperti itu) didefinisikan oleh jelas belajar nilai obyektif dan tes
diinterpretasikan sehubungan dengan domain ini. Pengujian domain-direferensikan biasanya melibatkan
penggunaan model uji binomial dan telah menjadi cara yang paling populer dari kriteria-referensi sejauh
ini. Pendekatan lain adalah metode empiris di mana kesesuaian antara item dan tujuan ditentukan
dengan menilai seberapa sensitif item untuk instruksi berbasis objektif. Tujuan kemudian digunakan
untuk menafsirkan pertunjukan tes. Contoh dari pendekatan ini adalah Cox dan Vargas '(1966) pretest-
posttest metode, yang telah menyebabkan banyak varian dan modifikasi (untuk tinjauan, lihat Berk,
1980b; van der Linden, 1981a). Pendekatan ketiga adalah subjektif dan menggunakan spesialis konten-
materi untuk menilai kesesuaian antara item dan belajar
tujuan (Hambleton, 1980; Rovinelli & Hambleton, 1977). Namun pendekatan lain telah diikuti oleh Cox
dan Graham (1966) yang dikandung kontinum akan dirujuk sebagai skala Guttman dan digunakan
analisis scalogram untuk skala item yang berkaitan dengan urutan tujuan pembelajaran. Dengan
demikian,

mereka mampu memprediksi untuk poin sepanjang skala yang keterampilan aritmatika siswa dalam
contoh mereka mampu melakukan. Wright dan Batu (1979, chap. 5) menggunakan model Rasch untuk
menghubungkan titik-titik pada kontinum yang mendasari tes untuk perilaku. Perbedaan penting antara
analisis scalogram dan pendekatan ini adalah bahwa mantan mengasumsikan Guttman barang kurva
karakteristik dan memungkinkan hanya pernyataan deterministik tentang perilaku sedangkan
penggunaan model Rasch memerlukan interpretasi probabilistik.

Di atas lima pendekatan yang disebutkan karena mereka telah paling populer sejauh atau menunjukkan
perkembangan yang menjanjikan. Untuk review lebih lengkap, kita lihat Nitko (1980).

KRITERIA-DISEBUTKAN ITEM DAN ANALISIS UJI

Popham dan Husek ini (1969) kertas merupakan tonggak kedua dalam sejarah pengukuran kriteria-
referenced. Melampaui kertas Glaser di bahwa hal itu menambah perbedaan dalam butir dan uji analisis
dengan norma-direferensikan dan kriteria • direferensikan pengukuran. Menurut Popham dan Husek,
kedua jenis pengukuran berbeda sehingga pada dasarnya bahwa model klasik dan prosedur untuk item
dan analisis uji tidak memadai untuk pengukuran kriteria-referenced dan
hasil mereka bahkan kadang-kadang menyesatkan.

Kunci-kata dalam analisis item dan tes untuk pengukuran norma-direferensikan, dengan penekanan
pada membedakan antara subjek, adalah varian. Model klasik dan prosedur bergantung pada kehadiran
sejumlah besar variabilitas skor. Dalam pengukuran kriteria-referenced, bagaimanapun, kondisi ini akan
jarang terpenuhi karena tidak variabilitas skor yang sangat penting tapi hubungan mereka dengan
kriteria. Dalam hubungan ini, Popham dan Husek merujuk analisis reliabilitas klasik. Konsistensi, baik
secara internal dan untuk sementara, adalah properti yang diinginkan tidak hanya dari norma-
direferensikan tetapi pengukuran kriteria-referenced juga. Namun demikian, koefisien reliabilitas klasik
yang sering dan dengan demikian rendah untuk pengukuran kriteria-referenced tergantung varian.
Untuk alasan ini, mereka memohon untuk model dan prosedur untuk item dan analisis uji baru. Ini harus
model dan prosedur yang, lebih dari teori tes klasik, membuat penyisihan persyaratan khusus
pengukuran kriteria-referenced membebankan pada item con st cacian, komposisi tes, penilaian, dan
skor interpretasi.

Popham dan Husek ini permohonan telah menyebabkan berbagai proposal. Sebuah proposal untuk
beradaptasi teori tes klasik untuk digunakan dengan pengukuran kriteria-direferensikan adalah karena
Livingston (1972a). Dia berargumen bahwa dalam pengukuran kriteria-referenced kita tidak lagi tertarik
dalam memperkirakan penyimpangan dari nilai benar individu dari mean tetapi dalam perkiraan
penyimpangan dari nilai cut-off. Sentral dalam pendekatannya adalah koefisien reliabilitas kriteria-
referenced didefinisikan sebagai rasio yang benar untuk nilai yang diamati varians tentang nilai cut-off.
Usulan Livingston dirangsang orang lain untuk berkontribusi (Harris,
1972; Lovett, 1978; Shavelson, Blok, & Ravitch, 1972; lihat juga Livington,
1972b, 1972c, 1973), dan telah memiliki kebaikan membuat publik lebih besar menyadari masalah
analisis uji kriteria-referenced.

Seperti disebutkan di atas, random sampling dari tes dari barang domain telah menjadi cara yang paling
populer dari kriteria - referensi nilai tes. Namun, ketika tes sampel dan perhatian adalah dengan skor
domain dan tidak dengan skor tes yang benar, teori tes klasik tidak berlaku (kecuali semua item dalam
domain mengalami kesulitan yang sama). Brennan dan Kane (1977a) mengusulkan untuk menggunakan
teori generalizibility ketika domain pengambilan sampel berlangsung dan berubah koefisien reliabilitas
Livingston ke dalam apa yang mereka sebut indeks ketergantungan. Pada saat yang sama mereka
disajikan modifikasi dari indeks ini yang dapat diartikan sebagai rasio sinyal-noise untuk pengukuran
domain-direferensikan, saat kemudian dua koefisien kesepakatan umum yang diberikan dari yang indeks
tersebut dapat diturunkan sebagai contoh khusus (Brennan & Kane,
1977b; Kane & Brennan 1980). Ringkasan perkembangan ini diberikan dalam
Brennan (1980).

Dalam hal tersebut mendekati penekanannya adalah pada pengembangan teori tes mencerminkan
kehandalan atau ketergantungan dengan yang penyimpangan dari nilai benar atau domain individu dari
cut-off skor dapat diperkirakan. Hal ini dapat dikatakan, bagaimanapun, bahwa ketika tes kriteria-
referenced digunakan untuk keputusan penguasaan kekhawatiran tidak harus begitu banyak dengan
penyimpangan ini sebagai dengan "keandalan" dan "validitas" keputusan. Sejak pendekatan sepanjang
garis ini milik isi bagian berikutnya, kita akan menunda diskusi tentang hasil mereka sampai saat itu.

Proposal pertama dari kriteria-referenced analisis item dibuat oleh Cox dan Vargas (1966). Seperti telah
ditunjukkan dalam bagian sebelumnya, metode pretest-posttest mereka validasi item didasarkan pada
gagasan bahwa kriteria item • direferensikan harus peka terhadap instruksi obyektif berbasis. Mengukur
sensitivitas ini dengan perbedaan pada angka p-nilai sebelum dan sesudah instruksi. Alasan dari metode
ini dibahas dalam Coulson dan Hambleton (1974), Cox (1971), Edmonston dan Randall (1972),
Hambleton dan Gorth (1971), Henrysson dan Wedman (1973), Millman (1974), Roudabush (1973) ,
Rovinelli dan Hambleton (1977), dan Wedman (1973, 1974a, 1974b). Sedikit pendekatan yang berbeda
dapat ditemukan dalam Brennan dan Stolurow (1971), Harris (1976), Herbig (1975, 1976), Kosecoff dan
Klein (1974), dan Roudabush (1973). Popham (1971) menawarkan uji chi-squared untuk mendeteksi
item dengan perbedaan atipikal di p-value. (1966) korelasi Saupe antara barang dan total skor
perubahan sering dianggap sebagai mitra dari norma • korelasi direferensikan item-tes.

Sebuah tinjauan kritis dari analisis item berdasarkan metode pretest-posttest diberikan dalam van der
Linden (1981a) yang juga menawarkan alternatif yang berasal dari teori sifat laten. (Lihat juga van
Naerssen, 1977a, 1977b.) Ulasan lain prosedur analisis item kriteria-referenced diberikan dalam Berk
(1980b) dan Hambleton (1980). Untuk ulasan tentang prosedur analisis tes, kita lihat Berk (1980a),
Hambleton, Swaminathan, Algina, dan Coulson (1978), dan Linn (1979).

Popham dan diagnosis Hus ek tentang peran nilai tes varians dalam analisis pengukuran kriteria-
direferensikan telah menjadi isu hangat diperdebatkan (Haladyna, 1974a, 1974b; Millman & Popham,
1974; Simon, 1969; Woodson,
1974a, 1974b). Pendapat kita sendiri adalah bahwa, meskipun telah menimbulkan banyak

Perkembangan berharga dan datang dekat dengan masalah mendasar dalam teori tes, itu adalah keliru
sejauh model uji klasik yang bersangkutan. Terlepas dari kebutuhan varians yang terbatas, model ini
tidak mengandung asumsi apapun sehubungan dengan skor varians. (Sebuah pernyataan penuh asumsi
ini dapat ditemukan dalam, misalnya, Lord & Novick, 1968, bagian 3.1.) Variabilitas rendah dari skor tes
dalam pengukuran kriteria-referenced karena itu dapat pernah membatalkan model uji klasik. Teori sifat
laten telah meminta perhatian pada masalah yang lebih mendasar item tergantung populasi dan
parameter uji dan menawarkan model yang ini digantikan oleh parameter yang tidak hanya varians-
independen namun terlepas dari distribusi karakteristik (misalnya, Birnbaum, 1968; Tuhan, 1980; Wright
& Stone, 1979; untuk pengenalan resmi, melihat van der Linden, 1978b). Bahkan, Popham dan Husek
makalah menyinggung masalah ini tapi salah mengklaim sebagai prob eksklusif Saya em pengukuran
criterion- direferensikan.

KEPUTUSAN PENGUASAAN

Hambleton dan Novick (1973) adalah yang pertama untuk memperkenalkan pendekatan-teori
keputusan untuk kriteria-referenced pengukuran. Dalam strategi pembelajaran modern, seperti
yang sebentar diulas di atas, penggunaan utama dari kriteria • pengukuran direferensikan
sebagian besar tidak mengukur siswa tetapi membuat keputusan instruksional. Hambleton dan
Novick membandingkan penggunaan norma • direferensikan dan pengukuran kriteria-
direferensikan dengan konsep • kuota tetap dan seleksi kuota bebas (Cronbach & Gieser, 1965).

Norm- direferensikan tes ulang diperlukan untuk membedakan antara subjek untuk memilih
jumlah yang telah ditetapkan terbaik orang melakukan, terlepas dari tingkat mereka yang
sebenarnya kinerja (pilihan tetap kuota). Tes kriteria-referenced sebagian besar digunakan untuk
memilih semua orang melebihi tingkat kinerja ditetapkan sebelumnya, terlepas dari jumlah
sebenarnya (pilihan kuota bebas) mereka. Dengan tes kriteria-referenced, tingkat tetap ini kinerja
dikenal sebagai skor penguasaan, dan seleksi dengan skor ini sebagai pengujian penguasaan.

Hal ini penting untuk dicatat bahwa dalam pengujian penguasaan ada sehingga hanya satu titik
pada criterion- direferensikan kontinum yang penting: nilai penguasaan. Skor ini membagi
kontinum di daerah penguasaan dan non-penguasaan.

Ada konsepsi alternatif penguasaan yang tidak didasarkan pada model kontinum, sebagai
mantan, tapi pada model negara. Dalam konsepsi ini penguasaan dan non-penguasaan dipandang
sebagai dua negara laten, masing-masing ditandai dengan satu set yang berbeda dari probabilitas
respon sukses untuk item tes. Tidak ada negara antara penguasaan dan non-penguasaan dan tidak
perlu untuk mengatur skor penguasaan, seperti dengan model kontinum. Dengan memasang
model untuk menguji data yang diserahkan kepada alam untuk menentukan siapa yang master
dan siapa yang tidak. Referensi yang relevan dengan literatur tentang model negara yang Bergan,
Cancelli, dan Luiten (1980), Besel (1973), Dayton dan Macready (1976, 1980), Emrick (1971),
Emrick dan Adams (1969), Macready dan Dayton (1977 , 1980a, 1980b), Reulecke (1977a,
1977b), van der Linden (1980c, 1981c, 1981d, 1981e), Wilcox
104 Wim J. van der linden
(1979a), dan Wilcox dan Harris (1977). Untuk pembahasan tentang perbedaan antara kontinum
dan model negara, kita lihat Meskauskas (1976) dan van der Linden (1978a).

Meskipun penguasaan didefinisikan menggunakan nilai benar atau negara, keputusan


penguasaan dibuat dengan nilai tes yang mengandung kesalahan pengukuran. Karena ini,
kesalahan keputusan dapat dibuat, dan mahasiswa dapat salah diklasifikasikan sebagai master
(kesalahan positif palsu) atau non-master (kesalahan negatif palsu). Masalah pengujian
penguasaan penting adalah bagaimana memilih nilai cut-off pada tes sehingga keputusan dibuat
seoptimal mungkin. Masalah kedua adalah analisis psikometri keputusan penguasaan. Klasik
psikometri analisis pandangan tes sebagai instrumen untuk melakukan pengukuran, dan sudut
pandang ini telah merasuki model dan prosedur. Ketika tes digunakan untuk membuat keputusan,
ini tidak lagi benar, namun.

Hambleton dan Novick (1973) mengusulkan penggunaan teori keputusan Bayesian untuk
mengoptimalkan cut-off skor pada tes. Penting dalam menerapkan teori keputusan adalah pilihan
dari fungsi kerugian mewakili "keseriusan" dari hasil keputusan pada skala numerik. Beberapa
telah digunakan sejauh ini: hilangnya batas, kehilangan linear, dan fungsi kerugian yang normal
ogive (untuk perbandingan, lihat van der Linden, 1980a). Fungsi kerugian threshold yang
digunakan, misalnya, di Hambleton dan Novick (1973), Huynh (1976), dan Mellenbergh,
Koppelaar, dan van der Linden (1977). Livingston (1975) dan van der Linden dan Mellenbergh
(1977) menunjukkan bagaimana semi-linear, masing-masing, fungsi kerugian linear dapat
digunakan untuk memilih nilai cut-off yang optimal. Penggunaan fungsi kerugian yang normal
ogive disarankan oleh Novick dan Lindley (1978).

Semua aplikasi ini teori keputusan untuk cut-off masalah nilai optimal dapat digunakan dengan
Bayesian serta interpretasi Bayes empirik. Sepenuhnya pendekatan Bayesian disajikan dan
dibahas dalam Hambleton, Hutten, dan Swaminathan (1976), Lewis, Wang, dan Novick (1975),
dan Swaminathan, Hambleton, dan Algina (1975).

Hal ini juga memungkinkan untuk mendasarkan pembuatan keputusan penguasaan teori Neyman
• Pearson dari pengujian hipotesis statistik. Lalu ada fungsi kerugian eksplisit dipilih namun
konsekuensi dari kesalahan negatif palsu positif dan palsu dievaluasi melalui penentuan ukuran
tipe I dan tipe 11 kesalahan dari pengujian hipotesis penguasaan. Pendekatan sepanjang garis ini,
semua didasarkan pada model kesalahan binomial, dapat ditemukan di Fhaner (1974), Klauer
(1972), Kriewall (1972), Millman (1973), van den Brink dan Koele (1980), dan Wilcox (1976) .

Sebuah solusi minimax dengan cut-off masalah nilai optimal, yang menyerupai (empiris)
pendekatan Bayes di bahwa kerugian harus ditentukan secara eksplisit tetapi tidak menganggap
ketersediaan (subjektif) informasi tentang nilai benar, disajikan dalam Huynh (1980a) .

Masalah analisis keputusan penguasaan juga ditangani oleh Hambleton dan Novick (1973).
Mereka mengusulkan untuk menentukan keandalan keputusan penguasaan dengan menilai
konsistensi keputusan dari tes-tes ulang
atau administrasi tes paralel menggunakan koefisien kesepakatan. Simi la rly,

kriteria independen diukur dapat digunakan untuk penentuan keabsahan keputusan penguasaan.
Swaminathan, Hambleton, dan Algina (1974) menyarankan untuk mengganti koefisien ini, yang
sudah diusulkan untuk tujuan ini oleh Carver (1970), dengan kesempatan-dikoreksi koefisien
kappa Cohen (1960). Kedua koefisien kira ketersediaan dua administrasi tes. Kedua Huynh
(1976) dan Subkoviak (1976) disajikan metode administrasi tunggal memperkirakan koefisien,
yang diturunkan menggunakan model beta-binomial dan set setara asumsi masing-masing.
Metode lain administrasi tunggal diberikan oleh Marshall dan Haertel (1976). Semua metode ini
telah banyak diteliti dan dibandingkan satu sama lain: Algina dan Noe (1978), Berk (1980a),
Divgi (1980), Huynh (1978, 1979), Huynh dan Saunders (1980), Marshall dan Serl di (1979 ),
Peng dan Subkoviak (1980), Subkoviak (1978, 1980), Traub dan Rowley (1980), dan Wilcox
(1979e).

Gagasan bahwa "keandalan" keputusan dapat ditentukan melalui konsistensi mereka kembali ke
asumsi bahwa teori tes klasik berlaku untuk keputusan seperti halnya untuk pengukuran.
Mellenbergh dan van der Linden (1979) telah menunjukkan bahwa asumsi tidak benar dan
bahwa tes-tes ulang atau konsistensi tes paralel keputusan tidak selalu mencerminkan akurasi
mereka. Mereka merekomendasikan penggunaan koefisien delta (van der Linden & Mellenbergh,
1978) yang menunjukkan bagaimana optimal keputusan sebenarnya dibuat adalah sehubungan
dengan penguasaan yang benar dan negara-negara non-penguasaan. Pendekatan sebanding telah
dilakukan oleh de Gruijter (1978), Livingston dan Wingersky (1979), dan Wilcox (1978a).

Juga relevan dengan isu penguasaan pengaturan dengan model kontinum teknik untuk
pengaturan skor penguasaan. Teknik-teknik ini semua entah bagaimana menerjemahkan tujuan
pembelajaran menjadi skor penguasaan pada skor kontinum benar mendasari tes. Oleh karena
itu, mereka harus dibedakan dari pendekatan-teori keputusan tersebut di atas yang, setelah skor
penguasaan pada kontinum telah ditetapkan, menunjukkan bagaimana untuk secara optimal
memilih nilai cut-off pada tes. Beberapa teknik pengaturan skor penguasaan telah diusulkan.
Ulasan teknik ini diberikan, misalnya, di Glass (1978),
Hambleton (1980), Jaeger (1979), dan Shepard (1979, 1980). Pendekatan
akuntansi untuk ketidakpastian mungkin dalam standar pengaturan diberikan dalam de
Gruijter (1980).

KESIMPULAN

Dalam makalah ini kami telah menyajikan gambaran dari pengukuran kriteria-referenced cara
digunakan dalam program pembelajaran modern, apa masalah daerah utama, dan bagaimana ini
telah didekati. Tujuan dari kertas itu untuk meringkas perkembangan dan hasil dan untuk
memberikan pengenalan literatur asli.

Perlu dicatat, bagaimanapun, bahwa tidak semua aspek pengukuran kriteria-referenced telah
dipertimbangkan. Sebagai contoh, kita tidak mengacu

perkembangan di bidang kriteria-referenced barang menulis (Millman, 1980; Popham, 1980;


Roid & Haladyna, 1980), mengembangkan pedoman untuk mengevaluasi tes kriteria-referenced
dan manual mereka (Hambleton & Eignor, 1978), memperkirakan nilai domain dan binomial
parameter model (Hambleton, Hutten, & Swaminathan, 1976; Jackson, 1972; Novick, Lewis, &
Jackson, 1972; Wilcox,
1978b, 1979d), menentukan panjang tes penguasaan (Fhaner, 1974; Hsu,
1980; Klauer, 1972; Kriewall, 1972; Millman, 1973; Novick & Lewis, 1974; van den Brink &
Koele, 1980; van der Linden, 1980b; Wilcox, 1976, 1979b, 1980a,
1980b), dan memperkirakan proporsi kesalahan klasifikasi dalam pengujian penguasaan
(Huynh, 1980; Koppelaar, van der Linden, & Mellenbergh, 1977; Mellenbergh, Koppelaar, &
van der Linden, 1977; Subkoviak & Wilcox, 1978; Wilcox, 1977,
1979C). Beberapa topik ini juga dibahas dalam review oleh Hambleton et al. (1978) disebut
sebelumnya dan baru-baru ini Terapan Psikologi Pengukuran (1980) edisi khusus pada
pengukuran kriteria-referenced.

Tulisan ini telah demikian tidak menyentuh semua aspek pengukuran kriteria-referenced.
Namun, kami berharap itu telah memberikan kesan yang arah bidang pengukuran kriteria-
referenced mengambil. Tiga "sejarah" kertas telah membimbing kita dalam menjelajahi
lapangan. Kami mampu mengamati bahwa berbagai macam solusi telah dirumuskan dalam
menanggapi makalah ini. Sebagian besar solusi menjanjikan perbaikan impor-tant teknologi
pengujian pendidikan dan, dengan demikian, praktek pendidikan.

Anda mungkin juga menyukai