Anda di halaman 1dari 32

MAKALAH

PERENCANAAN TES PRESTASI

Disusun untuk Memenuhi Tugas Matakuliah Evaluasi Pembelajaran Matematika

Dosen Pembimbing: Drs ARIF DJUNAIDI

Disusun oleh:

1. Silviatul Jannah (T20197131)


2. Ilma Alfianita Manifah (T20197132)
3. Nurmalia Dwi Oktavia (T20197136)

Kelompok 5

Kelas Matematika 4

PROGAM STUDI TADRIS MATEMATIKA

FAKULTASTARBIYAH DAN ILMU KEGURUAN

INSTITUT AGAMA ISLAM NEGERI JEMBER

Maret, 2021

|1
KATA PENGANTAR

Asalamu’alaikum Wr. Wb.

Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Kuasa karena atas
kemurahan Rahmat, Inayah, Taufik dan Hidayah-Nya penulis dapat menyelesaikan
penyusunan makalah yang berjudul “Perencanaan Tes Prestasi” untuk memenuhi tugas
matakuliah Evaluasi Pembelajaran Matematika.

Makalah ini berisikan pemahaman terkait dengan perencanaan tes dalam


pembelajaran. Penulis harap agar makalah ini dapat memberi manfaat serta
menambahkan pengetahuan bagi pembaca.

Penulis menyadari makalah ini masih banyak kekurangan karena keterbatasan


pengalaman yang penulis miliki. Oleh kerena itu penulis harapkan kritik serta saran
pembaca agar menjadi pembangun penulis untuk kesempurnaan makalah ini.

Penulis ucapkan banyak terima kasih kepada semua pihak yang telah berperan
serta dalam penyusunan serta penyelesaian makalah ini sampai selesai. Semoga Tuhan
Yang Maha Kuasa meridhai segala urursan kita. Amin.

Wassalamu’alaikum Wr, Wb.

Jember, 12 Maret 2021

Penulis

|2
DAFTAR ISI

HALAMAN JUDUL.....................................................................................................1

KATA PENGANTAR ..................................................................................................2

DAFTAR ISI................................................................................................................. 3

BAB I PENDAHULUAN

A. Latar Belakang .......................................................................................................4

B. Rumusan Masalah....................................................................................................4

C. Tujuan Penulisan......................................................................................................4

BAB II PEMBAHASAN

A. Membangun Tujuan untuk Pengujian ................................................................5


B. Jenis Alternatif dari Tugas Tes............................................................................6
C. Spesifikasi tes......................................................................................................9
D. Pemilihan Format Item......................................................................................16
E. Kompleksitas Item.............................................................................................23
F. Jumlah Item.......................................................................................................26
G. Item Tes Benar-Salah........................................................................................30
H. Keuntugan dari Format yang Benar-benar Salah..............................................30

BAB III PENUTUP

A. KESIMPULAN.................................................................................................31
B. SARAN..............................................................................................................31

DAFTAR PUSTAKA...............................................................................................32

|3
BAB I

PENDAHULUAN

A. Latar Belakang

Merencanaakan tes merupakan salah satu langkah yang tidak boleh ditinggalkan
dalam perencanaan dan desain pembelajaran. Melalui evaluasi yang tepat bukan saja
kita dapat menentukan keberhasilan siswa mencapai tujuan pembelajaran, akan tetapi
juga sekaligus dapat melihat efektivitas program desain tes yang akan direncanakan.

Dalam merencanakan penyusunan tes perlu diperhatikan bahwa hasil tes belajar
harus dapat mengukur secara jelas hasil belajar peserta didik, dengan cara dan aturan-
aturan yang sudah ditentukan.

B. Rumusan Masalah
A. Apa pengertian perencanaan tes?
B. Apa saja jenis-jenis tes?
C. Apa saja spesifikasi- spesifikasi tes?
D. Apa saja pemilihan format item?
E. Apa saja jumlah item?
F. Apa saja tingkat dan distribusi kesulitan?
G. Apa saja kisi-kisi tes?

C. Tujuan
A. Untuk mengetahui perencanaan tes
B. Untuk mengetahui ketentuan pokok dalam perencanaan tes
C. Untuk mengetahui jenis-jenis tes
D. Untuk mengetahui format soal
E. Untuk mengetahui jumlah soal
F. Untuk mengetahui kisi-kisi tes

|4
BAB II

PEMBAHASAN

PERENCAANAAN UJIAN PRESTASI

A. Membangun Tujuan untuk Pengujian

Sebuah tes yang baik jarang memiliki tujuan yang sama. Tes yang dirancang
terutama untuk mengukur pencapaian mungkin juga memotivasi siswa dan mungkin
juga dapat dibimbing. Meskipun demikian, tes ditandatangani terutama untuk
memotivasi siswa untuk menelaah atau untuk melayani sebagai alat pembelajaran
kemungkinan tidak akan menjadi penilaian summatif yang baik dari pembelajaran
siswa. Sebagian besar tes buatan guru dimaksudkan untuk menyediakan langkah-
langkah pencapaian yang tepat yang dapat digunakan untuk memberikan umpan balik
kepada siswa dan untuk melaporkan kemajuan kepada orang tua mereka dan ini
hendaknya menjadi fungsi utama mereka.

Sebuah aspek penting dari menetapkan tujuan untuk pengujian adalah memutuskan
bagaimana skor harus ditafsirkan. Apa referensi yang akan digunakan untuk
mendapatkan makna dari nilai? hasil? Skor dari sebuah kelompok? Pernyataan tujuan?
Untuk tujuan pengujian kelas, jawabannya hendaknya berkaitan erat dengan sistem
penilaian (pelaporan) pada rujukan yang digunakan untuk memberikan makna pada nilai
kuartalan atau semester. Untuk pengujian kompetensi di seluruh negara bagian, skor
kemungkinan untuk referensi pada ranah konten dari mana tes dikembangkan. Untuk
pemilihan personil yang didasarkan pada perekrutan yang paling memenuhi syarat dari
mereka yang paling minimally memenuhi syarat, interpretasi norm-referenced mungkin
diperlukan. Dan, akhirnya pengujian fot sertifikasi profesional atau lisensi mungkin
membutuhkan interpretasi kriteria yang dirujuk.

Implikasi dari keputusan tentang jenis interpretasi skor yang diperlukan akan
menjadi lebih jelas ketika kita mempertimbangkan aspek-aspek terpisah dari konstruksi
uji. Tujuan pada tahap konstruksi penagkapan adalah untuk melakukan hal-hal yang
akan membantu menghasilkan distribusi skor yang paling valid, distribusi yang

|5
memiliki karakter yang memungkinkan jenis interpretasi yang kita rencanakan untuk
membuat.

B. Jenis Alternatif dari Tugas Tes

Pertama-tama, beberapa kesalahpahaman yang umum perlu diatasi.


Tidaklah benar bahwa keberuntungan adalah elemen besar dalam nilai pada satu jenis
dan hampir atau sama sekali tidak ada dalam jenis lain. Sebaliknya, semua jenis dapat
ditulis untuk menuntut banyak jenis dan tingkat kemampuan yang sama dan, jika
ditangani dengan cermat, dapat menghasilkan keterandalan dan keabsahan yang
memuaskan (Coffman, 1966; Dresel, 1978). Sebuah tes esai yang baik atau sebuah tes
obyektif yang baik dapat dipertimbangkan sehingga akan menempatkan beberapa siswa
dalam urutan yang hampir sama seperti yang diakibatkan dari tes masalah yang baik,
tetapi ini tidak berarti bahwa berbagai jenis dapat digunakan secara bersamaan dengan
kemudahan dan efektivitas yang sama. (Sce Birenbaum dan Tatsuoka, 1987, untuk
contoh dalam bidang diagnosis kesulitan belajar).

Tes esai dan masalah lebih sedikit memakan waktu untuk mempersiapkan
diri daripada tes objektif. Tetapi tes obyektif pada umumnya dapat dinilai lebih cepat
dan lebih dapat diandalkan daripada salah satu jenis lain, terutama tes esai di mana
kelompok siswa yang sangat besar harus diuji, penggunaan tes objektif memungkinkan
efisiensi yang lebih besar tanpa pengorbanan yang layak. Tetapi jika kelas-kelas kecil,
efisiensinya justru sebaliknya, dan ujian esai atau masalah sering kali lebih disukai

Tipe masalah numerik memiliki keuntungan nyata dari relevansi intrinsik


yang lebih besar — identitas yang lebih besar dengan persyaratan pekerjaan — daripada
salah satu dari jenis lain. Kadang-kadang dikatakan bahwa kemampuan untuk memilih
jawaban berbeda dari, dan kurang signifikan daripada, kemampuan untuk menghasilkan
jawaban. Tetapi, kebanyakan bukti menunjukkan bahwa kesanggupan ini berhubungan
erat (Ward, 1982; Sax dan Collet, 1968).

Karena panjangnya dan lengkapnya jawaban yang mereka butuhkan, dan


karena jawabannya harus ditulis dengan tangan, baik esai maupun tes jenis masalah

|6
tidak dapat mencoba konten ranah secara komprehensif sebagai tes objektif. Menulis
adalah proses yang jauh lebih lambat daripada membaca.

Dengan tes objektif dan tes masalah biasanya lebih banyak objektivitas,
terutama dalam menilai, daripada dengan tes esai. Siswa biasanya memiliki tugas yang
lebih definitif, dan alasan untuk memberi atau dengan memegang kredit lebih jelas bagi
semua yang bersangkutan. Akan tetapi, penting untuk menyadari bahwa bahkan tes
objektif didasarkan pada banyak keputusan subjektif mengenai apa yang harus diuji dan
bagaimana mengujinya. Untuk tes masalah di sini adalah tambahan elemen subjektivitas
dalam penilaian yang tidak hadir dalam tes obyektif. Berapa banyak pujian untuk
memberi jawaban ketidaksempurnaan dan unsur mana yang harus dipertimbangkan
dalam menilai tingkat kesempurnaan sering muncul pada saat, keputusan subjektif.
Dalam mempertimbangkan manfaat esai, masalah, dan tes objektif, penting untuk
diingat bahwa satu-satunya komponen yang berguna dari setiap skor tes adalah
komponen yang secara obyektif dapat diverifikasi. Pada tingkat bahwa skor tes
mencerminkan pribadi, subyektif, tidak dapat diverifikasi kesan dan nilai dari satu
pencetak tertentu, skor kurang dalam makna dan karenanya dalam penggunaan, kepada
siswa yang menerimanya atau kepada orang lain yang tertarik untuk menggunakannya.

Apa pun jenis yang akan diperiksa, mereka hendaknya berupaya membuat
ukuran mereka seobyektif mungkin. Pengukuran dilakukan secara objektif sejauh hal itu
dapat diteguhkan secara terpisah oleh orang-orang yang membuat berbagai kemampuan.
Hal ini dapat dipercaya bahwa pengukuran yang diperoleh dari tes esai yang baik dapat
lebih obyektif dalam arti ini daripada pengukuran yang diperoleh dari tes pilihan ganda
yang buruk. Tetapi adalah adil untuk mengatakan bahwa mereka yang menggunakan tes
esai cenderung tidak terlalu khawatir tentang ukuran mereka daripada mereka yang
menggunakan tes pilihan ganda.

Kebanyakan guru mungkin memilih jenis tes yang tampaknya paling


berguna bagi mereka atau yang mereka merasa paling kompeten untuk digunakan secara
efektif. Namun. Mungkin saja dorongan kebiasaan atau kesalahpahaman menghalangi
beberapa guru untuk mencoba jenis lain yang dapat terbukti lebih menguntungkan bagi
mereka. Praktik ujian kelas menengah dari banyak fakultas dan perguruan tinggi

|7
mungkin dapat ditingkatkan dengan tinjauan berkala mengenai jenis tes yang
digunakan.

Kinerja: proses dan produk

Untuk beberapa tujuan instruksional, alat penilaian kinerja yang paling


relevan mengharuskan siswa untuk menunjukkan pencapaian mereka melalui sarana
selain kertas dan pensil. Situasi-situasi ini sering kali melibatkan keterampilan belajar
yang mengandung satu atau lebih komponen psychomotor. Tes kinerja dapat digunakan
untuk menentukan apakah siswa dapat menerapkan pengetahuan dan keterampilan yang
telah mereka latih dan pelajari. Metode pengujian kinerja dapat dikategorikan secara
luas sebagai tugas identifikasi, produk kerja, dan simulasi.

Tes identifikasi mungkin mengharuskan siswa untuk menyebutkan benda,


membedakan antara benda yang diberi nama mereka, atau mengidentifikasi benda
menurut fungsi mereka atau hubungan mereka dengan benda lain. Yang mana dari batu-
batu ini adalah batu kapur? Atau granit? Atau batu akik? Mengingat kerangka, apa nama
tulang ini? Di mana otot dada terhubung? Untuk tujuan apa gergaji ini (point untuk
mengatasi gergaji)? Lebih berguna dari yang satu ini (arahkan ke gergaji)? Yang mana
dari jarum-jarum ini yang paling tepat untuk memberikan suntikan bawah kulit ke anak
berusia tiga tahun?

Tes produk kerja dapat digunakan untuk evaluasi prosedur yang terlibat
dalam menyelesaikan tugas atau untuk menentukan kualitas produk, guru dapat
mengevaluasi gambar dan kolagen dalam seni, lubang tombol dan suara tiupan dalam
ekonomi rumah, mesin tundan lampu meja dalam pendidikan teknik, dan keahlian
menulis atau paragraf kohesif dalam seni bahasa. Dalam setiap kasus tujuan adalah
evaluasi tinggi, bahkan jika pengamatan proses dilakukan sewaktu siswa maju menuju
penyelesaian proyek.

Simulasi, bentuk tes kinerja yang paling umum adalah situasi-situasi yang
ditetapkan untuk tujuan mengamati perilaku siswa, menilai kecepatan, keakuratan, dan
kualitas kerja, atau menentukan apakah hasil yang sesuai tercapai. Instruktur tari
mengamati siswa mereka melakukan ayunan atau polka, guru musik mendengarkan

|8
untuk catatan dan irama yang tepat, dan psikolog menonton dan mendengarkan
konseling siswa mereka dalam situasi bermain peran. Mereka yang telah disertifikasi
dalam

CPR sadar bahwa waktu, posisi, dan tahu bagaimana pentingnya, tetapi
hasilnya adalah paratmount penting.

Tes kinerja dapat melayani tujuan evaluasi yang unik, tetapi itu juga
menyajikan beberapa masalah pengukuran yang unik. Kecuali setiap siswa melakukan
tugas identifikasi dan simulasi yang sama atau mempersiapkan produk kerja yang sama,
itu mungkin tidak dapat dibandingkan. Oleh karena itu, skor yang berasal dari mereka
mungkin tidak dapat dibandingkan, perhatian yang besar harus dijalankan oleh
pengembang tes untuk memastikan pengujian yang setara bagi semua siswa di kelas jika
nilai tersebut sebanding. Skor tes kinerja cenderung cukup subjektif, bahkan ketika
panduan menilai secara eksplisit disiapkan. Tes identifikasi dan simulasi menyita waktu
untuk mempersiapkan dan melaksanakan, terutama bagi kelompok-kelompok besar.
Secara keseluruhan, tes kinerja cenderung kurang efisien daripada tes obyektif. Dalam
banyak situasi keabsahan simulasi sangat dipertanyakan, simulasi yang paling realistis
cenderung menjadi yang paling mahal untuk dikembangkan dan dilaksanakan.
Sekalipun nilai simulasi bisa sangat diandalkan, biayanya kemungkinan besar lebih
besar daripada manfaatnya. Terlepas dari kekurangan-kekurangan ini. Ada banyak
keadaan di mana kinerja pengujian yang hanya masuk akal berarti pengukuran. Petunjuk
untuk mengembangkan alat penilaian kinerja untuk menghasilkan hasil yang sangat
valid telah didetail oleh Stiggins (i987). Selain itu, pasal 14 menguraikan metode
penggunaan daftar cek dan timbangan peringkat, yang keduanya digunakan secara
menonjol dalam penilaian kinerja.

C. Spesifikasi tes

Setelah tujuan pengujian telah ditetapkan, langkah berikutnya untuk memastikan


bahwa nilai yang sangat valid akan diperoleh adalah untuk mengembangkan rencana
tes. Prosedur yang ditetapkan untuk menangani keabsahan rasional yang intrinsic

|9
hendaknya diikuti di sini menjelaskan kemampuan bunga dan ranah pengetahuan dan
keterampilan untuk dieksploitasi, memutuskan secara relatif pentingnya berbagai
subranah, dan memutuskan jenis mana yang paling baik akan memerlukan demonstrasi
pengetahuan yang relevan. Dasar yang paling tegas untuk membangun tes semacam itu
adalah serangkaian perincian eksplisit yang menunjukkan hal-hal berikut.

1. Jenis item tes yang akan digunakan


2. Jumlah item dari setiap jenis diperlukan
3. Jenis tugas benda-benda itu akan hadir
4. Jumlah tugas jenis yang diperlukan
5. Deskripsi area isi untuk percobaan
6. Jumlah barang dari setiap area yang dibutuhkan
7. Tingkat dan distribusi kesulitan item

Spesifikasi tes semacam ini berguna untuk beberapa alasan: (1) mereka membimbing
pekerjaan konstruksi uji, (2) mereka dapat menginformasikan pemeriksaan tentang
pengharapan dan bagaimana mereka dapat mempersiapkan diri, (3) mereka
menyediakan informasi kepada orang lain yang mungkin ingin memilih tes untuk
penggunaan mereka sendiri secara khusus, dan (4) mereka menyediakan dokumentasi
sebagai bukti untuk menilai keabsahan nilai yang diperoleh. (tetapi karena spesifikasi
tes menyediakan rencana untuk perkembangan tes, dasar yang paling pasti untuk
menilai kegunaan tes, atau keabsahan skornya, adalah pemeriksaan terhadap hal-hal
lainnya itu sendiri.

Menetapkan ranah isi

Secara spesifik, bagaimana isi yang harus diukur dengan suatu ujian dijelaskan?
Jawaban terhadap pertanyaan penting ini berkaitan secara paling langsung dan sangat
bergantung pada jenis interpretasi skor yang ingin dibuat pengguna. Jelas, kita perlu
membuat daftar tujuan tujuan instruksional yang jelas perhatian jika tujuan kita adalah
untuk membuat tujuan yang dirujuk penafsiran. Ketika tujuan kami adalah penafsiran
norm-referenced, konten ranah dapat didefinisikan lebih umum, tapi masih batas-batas
perlu diidentifikasi. Dalam banyak kasus, isi pasal, artikel, novel, panduan belajar, atau

| 10
materi instruksi lainnya menetapkan batas-batas untuk isi bahan yang memenuhi syarat.
Ketika kebutuhan kita adalah untuk memperkirakan berapa banyak domain konten yang
telah dipelajari, unsur-unsur terpisah yang terdiri dari ranah yang perlu dijelaskan. Ini
adalah kasus ketika interpretasi yang merujuk pada domain yang diinginkan.

Gambar 7 — aku memperlihatkan jenis perincian ranah yang mungkin disediakan untuk
setiap interpretasi skor ini. Jika tujuan utama kami adalah untuk mendapatkan norm-
dirujuk, misalnya, batas-batas konten yang diperbolehkan dapat dijelaskan agak
longgar. Jika dua orang, keduanya akrab dengan program instruksional itu, harus
membangun tes secara mandiri berdasarkan deskripsi yang disediakan, dua tes yang
sangat berbeda dapat muncul. Selanjutnya. Jika materi instruksional tertulis tidak
tersedia, sebuah garis besar isi yang dikembangkan oleh guru akan diperlukan untuk
menentukan batas isi (lebar dan kedalaman) dari materi ujian.

Spesifikasi konten untuk tes referensi ranah harus eksplisit karena tujuannya adalah
untuk memperkirakan berapa banyak bagian ranah yang diidentifikasi dipegang oleh,
diketahui oleh, atau dikendalikan oleh setiap pemeriksa. Dalam kebanyakan kasus,
ranah ini akan cukup besar sehingga hanya satu contoh dari unsur-unsur yang dapat
diuji sekaligus. Jika sampel perwakilan yang asli ingin diperoleh, elemen individu harus
didaftarkan atau dijabarkan sedemikian rupa sehingga pemilihan dapat dilakukan.
Ilustrasi dalam gambar 7-1 telah diringkas untuk menghemat ruang, tetapi seluruh
wilayah dapat diuraikan oleh ke-27 proposisi yang tertera dalam lampiran B.

Akhirnya, perincian untuk tes yang merujuk pada objek hanyalah daftar
tujuan yang bersifat instruksi dan menarik. Setiap tujuan dianggap ranah konten itu
sendiri, beberapa item akan ditulis untuk mengukur prestasi.

| 11
A. Kaidah-referensi
Konten ranah minat adalah kebugaran fisik seperti yang diuraikan oleh bab 11 dari teks kesehatan.
Area utama adalah:
1. Gerak badan dan manfaatnya.
2. Merancang program latihan.
3. Peranan tidur dalam kesehatan yang baik
B. Daerah- Referensi
Isi ranah ketertarikan adalah kebugaran fisik sebagaimana didefinisikan oleh daftar terpisah dari 27
proposisi yang berkaitan dengan ro latihan, program latihan, dan kontribusi tidur. Berikut adalah tiga
contoh proposisi, satu dari setiap subdomain. Dari ranah penuh (lampiran B):
1. Olahraga dapat meningkatkan kapasitas pembuluh darah dan meningkatkan kekuatan jantung
serta kapasitas paru-paru.
2. Manfaat olahraga aerobik menuntut minimum tiga kali sesi 20 menit setiap minggu.
3. Siklus tidur dapat terkena dampak negatif dari posisi tubuh yang buruk, terlalu banyak cahaya,
atau suara bising
C. Objek – Referensi
Ranah isi yang menarik adalah tujuan-tujuan dengan petunjuk ini mengenai kebugaran jasmani
(lampiran C):
1. Membedakan tujuan dan fitur-fitur olahraga aerobik dan anaerobik.
2. Uraikan bagaimana gizi dan olahraga yang bekerja sama mempengaruhi berat badan.
3. Perkirakan jumlah tidur yang relatif yang dibutuhkan oleh orang-orang yang berbeda-beda usia,
tingkat kegiatan, dan kondisi kesehatan secara umum.

Perencanaan terpisah tujuan, dan skor akan dilaporkan untuk setiap tujuan
instruksional. Tiga tujuan dalam bagian C dari gambar 7-1 diambil dari apendiks C
untuk menggambarkan persyaratan yang kontras untuk definisi ranah. Perhatikan tha
ketika interpretasi-yang merujuk diperlukan, sebagai lawan dari referensi ranah, tidak
ada sampling unsur terjadi dan tidak ada kesimpulan tentang konten perlu dibuat dalam
interpretasi skor. Dengan situasi yang dirujuk secara objektif, semua keterampilan atau
pengetahuan tentang bunga diuji, dan karenanya tidak ada estimasi tentang pengetahuan
yang belum teruji atau keterampilan yang mungkin dimiliki oleh para penguji.

| 12
Tabel spesifikasi

Bagian isi
Total
Kemampuan DefinisiTipe KesalahanMetode Faktor Penafsiran
Persyaratan 4 2 4 0 2 12

Informasi Faktual 2 1 2 1 0 6
Penjelasan 2 3 1 2 0 8

Prediksi 0 1 1 3 1 6
Tindakan yang
0 0 1 3 4 8
disarankan
Total 8 7 9 9 7 40
Salah satu perangkat yang sering digunakan untuk menggariskan cakupan isi tes,
sebagai bagian dari spesifikasi tes, adalah jaringan dua arah, kadang-kadang disebut
cetak biru teks atau tabel spesifikasi. Beberapa bidang utama isi yang akan ditutupi oleh
tes ditugaskan ke beberapa kolom grid. Beberapa jenis utama kemampuan yang harus
dikembangkan ditugaskan di baris depan. Kemudian, setiap benda dapat digolongkan ke
dalam salah satu sel grid. Berbagai nomor barang yang dikirim ke setiap baris dan
kolom. Dengan mengetahui proporsi benda-benda yang ditentukan untuk baris tertentu
dan untuk kolom tertentu, seseorang dapat menentukan proporsi benda-benda yang
cocok untuk sel yang dibentuk oleh baris itu dan kolom itu.

Tabel spesifikasi sampel di tabel 7-1 adalah untuk 40 item norm-referensi tes meliputi
lima aspek keandalan: definisi, jenis kesalahan, metode untuk memperkirakan, faktor-
faktor mempengaruhi, dan interpretasi koefisien.

Jenis kemampuan ujian diharapkan untuk menunjukkan dijelaskan menggunakan


kategori panduan relevansi sudut. Tabel itu memberi tahu kita, antara lain, bahwa (1)
tiga benda hendaknya membutuhkan penjelasan mengenai jenis kesalahan, (2) lima area
isi serupa dalam arti yang relatif penting, dan (3) 22 dari 40 benda itu seharusnya
membutuhkan kemampuan yang lebih rumit daripada sekadar mengidentifikasi atau
menjelaskan istilah.

| 13
Grid dua arah adalah langkah awal yang baik untuk memberikan keseimbangan dalam
ujian tapi keadaan tertentu dapat menjamin modifikasi. Untuk beberapa tes, misalnya,
skema klasifikasi satu dimensi mungkin sepenuhnya memadai. Ketika dalam proses
penentuan bentuk dasar konten, dimensi konten dan dimensi kemampuan keduanya
hadir dalam setiap pernyataan. Tabel spesifikasi di meja 7-2 menggambarkan situasi
seperti itu untuk tes referensi ranah. Tujuan yang dicatat di sini adalah mereka yang
ditemukan dalam lampiran. Meskipun masing-masing dari tiga area berisi lima tujuan
instsuctional, komposisi diproyeksikan dari tes adalah sekitar dan. Karena beberapa
tujuan instruksional merupakan pernyataan majemuk, jumlah tujuan yang terpisah
adalah 7, 7, dan 12 untuk total 26. (misalnya, sasaran 13 sebenarnya terdiri dari enam
tujuan yang terpisah.) Usia persen yang ditampilkan di meja didasarkan pada 26
pernyataan terpisah, masing-masing dianggap sama pentingnya. Cara menerapkan
perbedaan berat pada kategori ini akan dijelaskan segera.

Kategori panduan relevansi Ebel digunakan untuk menggambarkan dimensi


kemampuan di meja 7-1 karena istilah Ebel memberikan indikasi operasional jenis
kemampuan yang diperlukan. Berbagai tingkat dari taksonomi Bloom kurang berguna
karena makna dari golongan Blooim ini lebih rentan untuk misklasifikasi atau untuk
klasifikasi perselisihan antara hakim daripada yang dimiliki oleh para hakim.

Secara pribadi, dalam situasi di mana tujuan afektif atau psikomotor harus dievaluasi,
kategorinya cocok untuk digunakan untuk menggambarkan dimensi kemampuan.
Terlepas dari sistem klasifikasi yang digunakan, semua kategori sistem yang dipilih
tidak selalu digunakan untuk tes ular. Selain itu, tidak ada dasar untuk berasumsi bahwa
setiap sel yang muncul dalam daftar yang spesifik harus digunakan. Kategori mana dari
panduan relevansi telah dihilangkan dari rencana di meja 7-1? Berapa banyak hal yang
berhubungan dengan definisi akan memerlukan tindakan yang direkomendasikan? (apa
ini masuk akal?)

Tabel spesifikasi menyediakan foto kisaran isi yang akan diuji dan itu mengindikasikan
penekanan relatif untuk dialokasikan ke sub-topik. Faktor apa saja yang hendaknya
dipertimbangkan oleh si pembuat tes untuk menentukan persentase isi tes (total poin
atau total barang) yang hendaknya diwakili oleh setiap area isi tanpa tujuan yang

| 14
bersifat instruksi, penekanan relatif daerah kondusif dapat ditentukan dengan
mempertimbangkan bagian tengah

1. Jumlah isinya. Area yang dibentuk oleh delapan proposisi mungkin harus
memiliki dua kali berat area yang hanya terdiri dari empat proposisi.
2. Jumlah waktu instruksional yang dikhususkan. Sebuah topik yang untuknya enam
sesi kelas disetiakan mungkin harus memiliki tiga kali berat dari sebuah topik yang
hanya membutuhkan dua sesi kelas.
3. Peran sebagai prasyarat di masa depan, jika sebuah area dianggap sebagai latar
belakang penting untuk unit instruksional berikutnya, itu mungkin dianggap lebih
penting dan layak lebih berat, daripada daerah yang bukan syarat prasyarat.
4. Kesempatan lain untuk mengevaluasi. Ketika area konten mungkin dievaluasi
lagi, seperti pada ujian akhir komprehensif, itu mungkin dikurangi dari area yang sama
pentingnya yang tidak akan diuji lagi. Hal ini mungkin terjadi, misalnya, ketika sebuah
topik diuji oleh esai tentang ujian tengah semester tetapi ujian akhir harus sepenuhnya
obyektif item, untuk alasan praktis.
5. Kebutuhan untuk skor paling tinggi. Ketika nilai diperlukan untuk subtopik, isi
dalam subtopik harus dikurangi untuk memastikan konten yang mewakili dari subtes.
Pada intinya, ini berarti merancang tabel mini spesifikasi untuk setiap area konten yang
akan dilaporkan suatu skor.

Persentase dalam tabel spesifikasi harus dianggap sebagai persen titik tes yang akan
dialokasikan daripada item tes yang akan digunakan. Hal ini sangat penting ketika lebih
dari satu jenis barang harus digunakan dan nilai nilai nilai maksimum dapat bervariasi
di antara item. Misalnya, barang jawaban pendek yang membutuhkan definisi mungkin
bernilai 1 poin, tetapi barang jawaban pendek lainnya yang memerlukan daftar tiga
lembar informasi mungkin memiliki nilai maksimum 3 poin. Masing-masing mewakili
25 dan 75 persen, dari tes dua butir berdasarkan poin skor yang tersedia.

Untuk memandu konstruksi tes secara efektif dan untuk menginformasikan calon
pemeriksaan secara memadai, spesifikasi tes perlu cukup rinci. Untuk menjawab
pertanyaan "seberapa terperinci?", kita bisa mengajukan pertanyaan lain: jika mereka
diikuti oleh penulis pengganti yang kompeten, apakah mereka akan menghasilkan ujian

| 15
yang dapat diterima? Jelaslah, perincian hendaknya cukup terperinci untuk
menunjukkan jenis benda apa yang hendaknya ditulis pada bidang umum pembelajaran
apa, tetapi hendaknya tidak terlalu terperinci untuk memberikan pertanyaan-pertanyaan
aktual yang akan muncul pada ujian.

D. Pemilihan Format Item

Dengan spesifikasi konten di tangan, keputusan developer pengujian berikutnya terkait


dengan jenis item yang akan digunakan. Ketika tujuan instruksional membentuk basis
konten, kata kerja yang digunakan dalam setiap pernyataan menyediakan standar yang
ketat untuk jenis item untuk dipertimbangkan atau ditolak. Kata-kata seperti
mendeskripsikan, mendesain, membuat grafik, mengembangkan, dan ex-plain
memerlukan beberapa bentuk produksi dari pihak penguji, aktivitas yang tidak dapat
ditunjukkan dengan pilihan ganda, benar-salah, atau jenis item-objektif lainnya.
Seringkali prosedur pengukuran yang ideal harus dikompromikan karena pertimbangan
praktis, seperti ketika tes yang objektif dan dapat diukur mesin digunakan sebagai
pengganti sampel penulisan untuk mengukur kemampuan menulis. Pengorbanan yang
terkait dengan tes yang mudah, obyektif, dan jenis masalah akan diperiksa lebih lanjut
untuk mengungkap manfaat relatif masing-masing.

Perbandingan Esai dan Format Tujuan

Pernyataan berikut merangkum beberapa persamaan dan perbedaan tes esai dan
objektif.

1. Baik esai atau tes objektif dapat digunakan untuk mengukur hampir semua
pencapaian pendidikan penting yang dapat diukur oleh tes kertas dan pensil apa pun.
2. Baik esai atau tes objektif dapat digunakan untuk mendorong siswa belajar untuk
memahami prinsip, organisasi dan integrasi ide, dan penerapan pengetahuan untuk
solusi masalah.
3. Penggunaan salah satu tipe tersebut harus melibatkan pelaksanaan penilaian
subyektif.
4. Nilai skor dari kedua jenis tes bergantung pada objektivitas dan reliabilitasnya.

| 16
5. Sebuah pertanyaan tes esat mengharuskan siswa untuk merencanakan jawaban
mereka sendiri dan mengungkapkannya dengan kata-kata mereka sendiri. Item tes yang
objektif mengharuskan penguji untuk memilih di antara beberapa alternatif yang
ditunjuk.
6. Tes esai hanya terdiri dari sedikit. Pertanyaan yang lebih umum yang
membutuhkan jawaban rarter diperpanjang Tes obyektif biasanya terdiri dari banyak
pertanyaan yang agak spesifik yang hanya membutuhkan jawaban singkat.
7. Siswa menghabiskan sebagian besar waktunya untuk berpikir dan menulis saat
berbicara dalam tes esai. Mereka menghabiskan sebagian besar waktu mereka untuk
membaca dan berpikir ketika berbicara tentang tes objektif.
8. Kualitas tes objektif sangat ditentukan oleh keterampilan konstruktor tes. Kualitas
tes esai sangat ditentukan oleh keterampilan pencetak skor tes.
9. Ujian esai relatif mudah disiapkan tetapi agak membosankan dan sulit untuk
dinilai secara akurat. Ujian obyektif yang baik relatif membosankan dan sulit untuk
dipersiapkan tetapi relatif mudah untuk dinilai.
10. Ujian esai memberi siswa banyak kebebasan untuk mengekspresikan
individualitas mereka dalam jawaban yang mereka berikan dan banyak kebebasan bagi
penguji untuk dibimbing oleh preferensi individu dalam menilai jawaban. Ujian
obyektif memberikan banyak kebebasan bagi konstruktor untuk mengekspresikan
pengetahuan dan nilai-nilai pribadi tetapi memungkinkan siswa hanya kebebasan untuk
menunjukkan, dengan proporsi jawaban benar yang mereka berikan, seberapa banyak
atau sedikit yang mereka ketahui atau dapat lakukan.
11. Dalam soal-soal tes objektif, tugas siswa dan dasar yang menjadi dasar penguji
untuk menilai sejauh mana hal itu telah dicapai dinyatakan lebih jelas daripada dalam
tes esai.
12. Tes obyektif memungkinkan, dan terkadang mendorong, menebak-nebak. Tes esai
mengizinkan, dan terkadang mendorong, menggertak.
13. Distribusi skor numerik yang diperoleh dari tes esai dapat dikontrol hingga tingkat
tertentu oleh pemberi nilai; bahwa dari ujian obyektif hampir seluruhnya ditentukan
oleh ujian itu sendiri

| 17
Mengingat persamaan dan perbedaan ini, kapankah yang paling tepat dan
bermanfaat untuk menggunakan item esai? Tes esai disukai untuk mengukur prestasi
pendidikan ketika:

1. Grup yang diuji kecil, dan tes tidak akan digunakan kembali.
2. Pengajar ingin memberikan pengembangan keterampilan siswa dalam ekspresi
tertulis.
3. Penyusun lebih tertarik untuk mengeksplorasi sikap sudent daripada mengukur
pencapaian. (apakah instruktur harus lebih tertarik pada sikap daripada prestasi dan
apakah mereka harus mengharapkan ekspresi sikap yang jujur dalam situasi ujian
tampaknya terbuka untuk pertanyaan.)
4. Instruktur lebih yakin akan kemahirannya sebagai pembaca esai kritis daripada
sebagai penulis imajinatif dari item tes objektif yang baik.
5. Waktu yang tersedia untuk persiapan tes lebih pendek dari waktu yang tersedia
untuk penilaian tes.

Tes esai memiliki kegunaan penting dalam pengukuran pendidikan, tetapi tes tersebut
juga memiliki beberapa batasan serius. Guru harus berhati-hati terhadap nilai yang tidak
berdasar bahwa tes esai dapat mengukur “keterampilan berpikir tingkat tinggi” jika
keterampilan tersebut belum ditentukan. Mereka juga harus mempertanyakan validitas
penggunaan tes esai untuk menentukan seberapa baik siswa dapat menganalisis,
mengatur, mensintesis, dan mengembangkan ide-ide orisinal jika upaya pengajaran
tidak diarahkan ke tujuan tersebut. Sayangnya, ada kecenderungan di beberapa ruang
kelas untuk instruksi yang diarahkan untuk membangun basis pengetahuan dan evaluasi
diarahkan pada penerapan pengetahuan itu- "apa yang dapat mereka lakukan dengan
itu?" salah satu tujuan perencanaan adalah untuk mencegah terjadinya inkonsistensi
tersebut.

Perbandingan Format Tujuan

Jenis item objektif yang paling umum digunakan adalah pilihan ganda,
benar-salah, pencocokan, klasifikasi, dan jawaban singkat. Banyak varian lain telah
dijelaskan dalam perlakuan lain dari penulisan item tes objektif (wesman, 1971).

| 18
Namun, sebagian besar varietas khusus ini memiliki manfaat dan penerapan yang
terbatas. Fitur uniknya sering kali lebih banyak mengubah tampilan item atau
meningkatkan kesulitan penggunaan daripada menyempurnakan item tersebut sebagai
alat pengukur.

Butir soal pilihan ganda dan benar-salah dapat diterapkan secara luas
untuk berbagai macam tugas. Karena itu dan karena pentingnya mengembangkan
keterampilan dalam menggunakan masing-masing secara efektif, bab-bab terpisah
dikhususkan untuk format item benar-salah dan pilihan ganda nanti dalam teks ini.

Bentuk soal pilihan ganda memiliki kemampuan yang relatif tinggi untuk
membedakan siswa yang berprestasi tinggi dan rendah. Hal ini agak lebih sulit untuk
menulis daripada beberapa jenis butir soal lainnya, tetapi kelebihannya tampak begitu
jelas sehingga menjadi jenis yang paling banyak digunakan. Dalam tes yang dibuat oleh
spesialis Secara teoritis, dan ini telah diverifikasi dalam praktiknya, tes pilihan ganda
yang diberikan dapat diharapkan untuk menunjukkan reliabilitas skor sebanyak tes
benar-salah dengan jumlah item hampir dua kali lipat. Berikut adalah contoh tipe
pilihan ganda.

Petunjuk: Tuliskan nomor jawaban terbaik atas pertanyaan pada baris di sebelah
kanan pertanyaan.

Contoh: Manakah sebutan yang paling tepat untuk suatu pemerintahan yang
kontrolnya ada di tangan segelintir orang?

1. Otonomi 3. Feodalisme

2. Birokrasi 4. Ollgarchy

Item benar-salah lebih mudah disiapkan dan juga cukup mudah


beradaptasi. Ini cenderung agak kurang diskriminatif, item untuk item, daripada jenis
pilihan ganda, dan agak lebih tunduk pada ambiguitas dan salah tafsir. Meskipun secara
teoritis proporsi yang tinggi dari item benar-salah dapat dijawab secara cepat dengan
menebak-nebak, dalam prakteknya kesalahan yang dimasukkan ke dalam nilai tes
benar-salah dengan menebak-nebak cenderung kecil (Ebel, 1968). Ini benar karena

| 19
peserta ujian yang memiliki motivasi baik yang mengikuti tes yang masuk akal
melakukan sangat sedikit tebakan buta. Mereka hampir selalu merasa mungkin dan
lebih menguntungkan untuk memberikan jawaban yang rasional daripada menebak
secara membabi buta. Soal menebak soal tes benar-salah akan dibahas lebih detil pada
Bab 8. Berikut contoh format benar-salah.

Petunjuk: Jika kalimat benar benar, lingkari huruf "T" di sebelah kanan kalimat.
Jika pada dasarnya salah, lingkari huruf "F"

Contoh: Suatu zat yang berfungsi sebagai katalisator reaksi kimia dapat
dipulihkan tanpa perubahan pada akhir reaksi.

Para kritikus yang mendesak para pembuat tes untuk meninggalkan format
pilihan ganda "tradisional" dan benar-salah dan untuk menciptakan format baru untuk
mengukur rangkaian pencapaian pendidikan yang lebih bervariasi dan lebih signifikan
adalah informasi yang salah tentang dua poin penting:

1. Setiap aspek prestasi pendidikan kognitif harus diuji dengan pilihan muitiple atau
format benar-salah.
2. Apa ukuran item pilihan ganda atau benar-salah ditentukan lebih banyak oleh
isinya daripada oleh formatnya.

Jenis pencocokan efisien karena seluruh rangkaian tanggapan dapat


digunakan dengan sekelompok kata stimulus terkait: Tetapi ini juga merupakan batasan
karena terkadang sulit untuk merumuskan kelompok pertanyaan atau kata-kata stimulus
yang cukup mirip untuk digunakan set tanggapan yang sama. Lebih jauh, pertanyaan
yang jawabannya tidak lebih dari satu kata atau frase cenderung agak dangkal dan
memberi penghargaan pada pembelajaran verbalistik murni. Contoh jenis pencocokan
diberikan di sini.

Karya Sastra Penulis

b 1. Surga yang Hilang a. Matthew Arnold

b. John Mllton

| 20
e 2. The Innocents Abroad c. WIllam Shakespeare

d. Robert Louls Stavenson

d 3. Harta Istand. e. Mark Twain

Jenis klasifikasi kurang familiar dibandingkan jenis pencocokan, tetapi mungkin lebih
berguna dalam situasi tertentu. Seperti jenis pencocokan, ia menggunakan satu set
respons tetapi menerapkannya pada sejumlah besar situasi stimulus. Contoh dari jenis
klasifikasi adalah sebagai berikut.

Petunjuk: Dalam hal-hal berikut ini Anda harus mengungkapkan efek olahraga
pada berbagai proses dan zat tubuh. Asumsikan bahwa organisme tidak
mengalami perubahan kecuali karena olahraga. Untuk setiap item lingkari nomor
yang sesuai.

1. jika efek dari latihan olahraga adalah untuk meningkatkan kuantitas yang
dijelaskan dalam item
2. Jika pengaruh latihan adalah mengurangi kuantitas yang dijelaskan dalam
item
3. Jika latihan seharusnya tidak memiliki pengaruh yang berarti atau efek yang
tidak dapat diprediksi pada kuantitas yang dijelaskan dalam item

27. Denyut jantung 27. (1) 2 3


28. Tekanan darah 28. (1) 2 3

29. Jumlah glukosa dalam darah 29. 1 (2) 3


30. Jumlah alr resldual di paru-paru 30. 1 (2) 3

Item jawaban singkat, di mana siswa harus menyediakan kata, frase, angka, atau
simbol lain, sangat populer dan cenderung digunakan secara berlebihan dalam tes di
kelas. Mudah disiapkan. Di kelas dasar, di mana penekanannya adalah pada
pengembangan kosakata dan pembentukan konsep, itu dapat melayani fungsi yang

| 21
berguna, Ini memiliki keuntungan yang tampaknya mengharuskan peserta ujian untuk
memikirkan jawabannya, tetapi keuntungan ini mungkin lebih jelas daripada yang
sebenarnya . Beberapa penelitian telah menunjukkan korelasi yang sangat tinggi antara
skor pada tes yang terdiri dari item jawaban pendek paralel dan pilihan ganda, ketika
kedua anggota dari setiap pasangan item paralel dimaksudkan untuk menguji
pengetahuan atau kemampuan yang sama (Eurich, 1931: Cook.1955)

Ini berarti bahwa siswa yang paling baik dalam menghasilkan jawaban yang
benar cenderung juga paling baik dalam mengidentifikasinya di antara beberapa
alternatif. Pengukuran yang akurat tentang seberapa baik siswa dapat mengidentifikasi
jawaban yang benar cenderung agak lebih mudah didapat daripada pengukuran yang
akurat dari kemampuan mereka untuk memproduksinya. Mungkin ada situasi khusus,
tentu saja, di mana korelasinya jauh lebih rendah.

Kekurangan dari bentuk jawaban singkat adalah terbatas pada pertanyaan yang
dapat dijawab dengan kata, frase, simbol, atau angka dan penilaiannya cenderung
subyektif dan membosankan. Penulis item sering merasa kesulitan untuk membuat
pertanyaan yang bagus tentang prinsip, penjelasan, aplikasi, atau prediksi yang bisa
dijawab dengan satu kata atau frase tertentu. Berikut adalah beberapa contoh item
jawaban singkat.

Petunjuk: Di tempat kosong setelah mengikuti setiap pertanyaan, pernyataan


parsial, atau kata-kata berikut, tulislah kata atau angka yang paling sesuai

Contoh:

Berapakah valensi oksigen? -2

Bagian tengah tubuh serangga disebut dada.

Sungai besar apa yang mengalir melalui atau dekat masing-masing eltles besar
ini?

Kairo Sungai Nil

Catcutta Gangga

| 22
Orieans baru Mississippi

Paris Pukat

Quabac St Lawrence

Beberapa ahli tes menyarankan bahwa berbagai jenis itern digunakan dalam
setiap ujian untuk meragamkan tugas yang diberikan kepada peserta ujian. Mereka
menyiratkan bahwa ini akan meningkatkan validitas skor atau membuat tes lebih
menarik. Yang lain menyarankan agar konstruktor tes harus memilih jenis item tertentu
yang paling sesuai dengan materi yang ingin mereka periksa. Ada lebih banyak manfaat
dalam saran kedua daripada yang pertama, tetapi bahkan kesesuaian bentuk butir tidak
boleh diterima sebagai dorongan mutlak. Beberapa bentuk item dapat disesuaikan
secara luas. Seorang konstruktor pengujian dapat dengan aman memutuskan untuk
menggunakan terutama satu jenis item, seperti pilihan ganda, dan beralih ke salah satu
bentuk lain hanya jika sudah jelas lebih efisien untuk melakukannya. Kualitas tes di
kelas lebih bergantung pada pemberian bobot yang tepat untuk berbagai aspek
pencapaian dan pada menulis item bagus dari jenis apa pun daripada pada pilihan chis
atau jenis item itu.

E. Kompleksitas Item

Ada minat yang terus berlanjut oleh beberapa pengembang pengujian terhadap
penggunaan item yang menyajikan tugas kompleks, sering kali didasarkan pada
deskripsi yang panjang atau mendetail tentang situasi nyata atau dibuat-buat. Beberapa
memerlukan interpretasi data kompleks, diagram, atau informasi latar belakang. Gambar
7-2 menunjukkan beberapa contoh item kompleks yang disajikan oleh Bloom dan
rekan-rekannya (1956). Di beberapa bidang, hal umum untuk menggunakan item seperti
ini pada ujian tertulis lisensi dan sertifikasi, terutama jika kumpulan ujian tidak terlalu
besar.

Ada beberapa alasan mengapa barang yang rumit tampak menarik. Karena
tugas-tugas ini jelas membutuhkan penggunaan pengetahuan, mereka memberikan
jawaban kepada makhluk-makhluk yang menegaskan bahwa tamu obyektif hanya
menguji pengenalan detail faktual yang terisolasi. Selain itu, karena situasi dan materi

| 23
latar belakang yang digunakan dalam tugas bersifat kompleks, item tersebut mungkin
mengharuskan peserta ujian untuk menggunakan proses mental yang lebih tinggi.
Akhirnya, item menarik bagi mereka yang percaya bahwa pendidikan harus peduli
dengan pengembangan kemampuan siswa untuk berpikir daripada hanya perintah
pengetahuan (seolah-olah pengetahuan dan pemikiran itu mandiri pencapaian).

Namun, tugas kompleks ini memiliki beberapa fitur yang tidak diinginkan
sebagai pengujian

1) Item dimulai dengan deskripsi perselisihan di antara pemain bisbol, pemilik tim,
dan petugas Jamsostek tentang kompensasi pengangguran di luar musim untuk para
pemain, Peserta ujian ditanya apakah para pemain dibenarkan dalam tuntutan mereka,
tidak dibenarkan, atau apakah mereka membutuhkan informasi lebih lanjut sebelum
memutuskan. Kemudian, mereka ditanyai apakah masing-masing dari rangkaian
pernyataan tentang kasus tersebut mendukung penilaian mereka, menentangnya, atau
membuat mereka tidak dapat mengatakannya. (Taksonomi, hlm. 196-97)
2) Reaksi kimia yang tidak biasa dijelaskan. Peserta ujian diminta untuk
mempertimbangkan rangkaian hipotesis yang mungkin tentang reaksi yang dapat
dipertahankan dan bagaimana hipotesis yang dapat dipertahankan dapat diuji.
(Taksonomi. Hlm. 183-84)
3) Peserta ujian diberi grafik di mana pengeluaran suatu negara untuk berbagai
tujuan selama beberapa tahun telah dibuat grafiknya. Kemudian, diberikan serangkaian
pernyataan tentang bagan tersebut, mereka diminta untuk menilai seberapa banyak
kebenaran yang ada di masing-masing.(Taksonomi, hlm 118-19)

Item. Karena mereka cenderung besar dan memakan waktu, mereka membatasi
jumlah tanggapan yang dapat dibuat peserta ujian per jam dari waktu pengujian, yaitu,
mereka membatasi ukuran sampel dari perilaku yang dapat diamati. Oleh karena itu,
karena adanya penurunan keandalan, pengujian yang terdiri dari tugas-tugas kompleks
cenderung kurang efisien daripada yang diinginkan dalam hal akurasi pengukuran per
jam pengujian.

| 24
Lebih jauh lagi, semakin kompleks situasinya dan semakin tinggi tingkat proses
mental yang diperlukan untuk membuat penilaian tentang situasi tersebut, semakin sulit
untuk mempertahankan satu jawaban sebagai jawaban terbaik. Karena alasan ini, butir
tes yang kompleks cenderung membedakan dengan buruk antara yang berprestasi tinggi
dan rendah. Mereka juga cenderung sulit, kecuali penguji berhasil mengajukan
pertanyaan yang sangat mudah tentang situasi masalah yang kompleks. Bahkan
pendukung terkuat dari item tes situasional atau interpretatif yang kompleks tidak
mengklaim bahwa item bagus dari jenis ini mudah untuk ditulis.

Ketidakfisiensian item-item ini, ketidakpastian jawaban terbaik, dan kesulitan


menulis yang baik semuanya dapat ditoleransi jika itens yang kompleks benar-benar
mengukur aspek pencapaian yang lebih penting daripada yang dapat diukur dengan
jenis yang lebih sederhana Namun, tidak ada gunanya. bukti bahwa ini masalahnya.
Pertanyaan sederhana seperti, "maukah kamu menikah denganku" dapat memiliki
konsekuensi yang paling besar. Itu dapat memberikan ujian krusial seumur hidup bagi
kebijaksanaan orang yang memintanya dan bagi orang yang menjawab.

Beberapa penulis soal tertarik pada soal-soal kompleks karena mereka dianggap
membutuhkan penerapan pengetahuan. Tetapi setiap soal yang baik menguji penerapan
pengetahuan: soal-soal pilihan ganda yang baik, misalnya, membutuhkan lebih dari
sekedar mengingat. Dan beberapa item menguji pengetahuan secara tidak langsung
dengan memberikan tugas yang membutuhkan pengetahuan kepada peserta ujian.
Masalah numerik, dibahas sebelumnya, tes untuk penerapan kpowledge, seperti halnya
tes pengenalan kesalahan ejaan, tes yang mengharuskan penguji untuk menambah atau
mengoreksi tanda baca dan kapitalisasi, tes yang membutuhkan pengeditan teks, atau
yang membutuhkan pembedahan dan pelabelan bagian kalimat. Saat ujian diminta
untuk menginterpretasikan arti dari tabel, grafik, partitur musik, kartun, puisi, atau
petikan materi ujian, mereka diminta mengaplikasikan ilmunya.

Item yang membutuhkan interpretasi materi sering disebut sebagai item yang
bergantung pada konteks. (Mereka tidak memiliki arti di luar konteks materi yang
mereka tulis.) Mereka banyak digunakan dalam tes perkembangan pendidikan umum,
tes yang bertujuan untuk mengukur kemampuan siswa dengan latar belakang

| 25
pendidikan yang sangat berbeda. (Sebagian besar berhasil melakukannya dengan cukup
baik.) Namun, mereka kurang sesuai, nyaman, dan efisien dalam menguji pencapaian
dalam mempelajari materi pelajaran tertentu. Pengguna tes harus skeptis terhadap klaim
bahwa item yang bergantung pada konteks mengukur kemampuan daripada
pengetahuan. karena kemampuan yang mereka ukur hampir seluruhnya merupakan hasil
dari pengetahuan.

Banyak tes tidak langsung dari pengetahuan, melalui aplikasi khusus dari
pengetahuan atau penggunaan situasi yang kompleks, dapat disajikan dalam bentuk
benar-salah. Pilihan ganda, jawaban singkat, atau pencocokan. Beberapa lebih mudah
disajikan dalam mode terbuka, seperti meminta peserta ujian untuk membuat diagram,
sketsa, atau rangkaian arus editorial. Poin utama yang harus dibuat di sini adalah bahwa,
meskipun pencapaian dapat diuji paling tepat dengan salah satu format item umum, ada
kalanya cara lain mungkin lebih nyaman, memuaskan, atau cocok bagi mereka yang
ditugaskan untuk memberikan bukti yang valid. penggunaan skor.

F. Jumlah Item
Jumlah pertanyaan untuk dimasukkan dalam tes ditentukan sebagian besar oleh
jumlah waktu yang tersedia untuk itu Banyak tes dibatasi hingga 50 menit, lebih atau
kurang, karena itu adalah jangka waktu kelas yang dijadwalkan. Jadwal ujian khusus
mungkin menyediakan waktu 2 jam atau lebih. Secara umum, semakin lama periode dan
ujiannya, semakin dapat diandalkan skor yang didapat darinya. Namun, jarang praktis
atau diinginkan untuk menyiapkan tes kelas yang membutuhkan waktu lebih dari 3 jam.
Tujuan yang masuk akal adalah membuat tes yang mencakup sedikit pertanyaan
sehingga sebagian besar siswa memiliki waktu untuk mencoba semuanya ketika
mengerjakan dengan kecepatan normal mereka sendiri. Salah satu alasan untuk ini adalah
bahwa kecepatan respons bukanlah tujuan utama pengajaran di sebagian besar kursus K-
12 dan perguruan tinggi dan karenanya bukan merupakan indikasi pencapaian yang valid.
Di banyak bidang kemahiran, kecepatan dan keakuratan tidak berkorelasi tinggi.
Perhatikan data pada Tabel 7-3. Jumlah skor untuk sepuluh siswa pertama yang
menyelesaikan tes adalah 965. Nilai tertinggi dalam kelompok itu adalah 105. Nilai

| 26
terendah adalah 71. Dengan demikian, kisaran skor dalam kelompok itu adalah 35 unit
skor, Perhatikan bahwa, meskipun kisaran skor agak bervariasi dari satu kelompok ke
kelompok lainnya, tidak ada kecenderungan yang jelas bagi siswa untuk melakukan lebih
baik atau lebih buruk tergantung pada jumlah waktu yang dihabiskan. Dari data tersebut
dapat disimpulkan bahwa pada tes ini hampir tidak ada hubungan antara waktu yang
dihabiskan untuk mengerjakan tes dan jumlah jawaban benar yang diberikan.
Alasan kedua untuk memberi siswa waktu yang cukup untuk mengerjakan ujian
adalah bahwa kecemasan ujian, yang cukup parah bahkan dalam ujian yang tidak
ditentukan waktunya, ditekankan ketika tekanan untuk bekerja dengan cepat dan tepat
diterapkan. Ketiga adalah bahwa penggunaan yang efisien dari tes yang dibuat dengan
susah payah oleh instruktur membutuhkan sebagian besar siswa.

Urutan Selesai Rentang Skor Jumlah Skor

1-10 965 35
11-20 956 32
21-30 940 31
31-40 964 32
41-50 948 52
51-60 955 25
61-70 965 27
71-80 1010 30
81-90 942 24
91-100 968 40

Berdasarkan tes dalam pengukuran pendidikan yang terdiri dari 125 benar-salah
agar tidak diambil oleh siswa ke-100. Nilai rata-rata pada lesl adalah 961. Siswa yang
dipinjamkan selesai paling tidak setelah mengerjakan selama 50 menit. 100 siswa
menggunakan 120 menit.
Dalam beberapa situasi, tes cepat mungkin sesuai dan berharga. tetapi situasi ini
tampaknya menjadi pengecualian. bukan aturannya. Meskipun tidak ada standar mutlak
untuk menilai kecepatan, masalah khusus pengukuran telah datang untuk mengadopsi

| 27
yang satu ini: Tes dipercepat jika kurang dari 90 persen peserta tes dapat mencoba semua
item.
Jumlah pertanyaan yang dapat dijawab oleh peserta ujian per menit tergantung
pada jenis pertanyaan yang digunakan, kompleksitas proses berpikir yang diperlukan
untuk menjawabnya, dan kebiasaan kerja peserta ujian. Siswa tercepat di kelas dapat
menyelesaikan ujian setengah dari waktu yang dibutuhkan oleh siswa yang paling lambat.
Karena alasan ini, sulit untuk menentukan dengan tepat berapa banyak item yang akan
disertakan dalam tes tertentu. Aturan Seperti menggunakan satu item pilihan ganda per
menit atau "Izinkan 30 detik per item benar-salah" adalah generalisasi yang menyesatkan
dan tidak berdasar. Hanya pengalaman dengan pengujian serupa di kelas serupa yang
dapat memberikan informasi panjang pengujian yang berguna.
Terakhir, jumlah item yang dibutuhkan juga bergantung pada seberapa teliti
domain harus diambil sampelnya. Dan itu, tentu saja. tergantung pada jenis interpretasi
skor yang diinginkan. Misalnya, tes yang mencakup 10 tujuan instruksional mungkin
memerlukan minimal 30 item ketika interpretasi tujuan yang diinginkan diinginkan, tetapi
20 item mungkin cukup untuk tujuan referensi norma.
Kesalahan Pengambilan Sampel Konten
Jika jumlah tine yang tersedia untuk tes tidak menentukan lamanya sebuah tes,
akurasi yang diinginkan dalam skor harus menentukannya. Secara umum, semakin besar
jumlah item yang dimasukkan dalam sebuah tes, semakin dapat diandalkan skornya.
Dalam terminologi statistik, item-item yang menyusun tes merupakan sampel. Dari
koleksi, atau populasi, item yang jauh lebih besar yang mungkin telah digunakan dalam
pengujian itu. Tes ejaan 100 kata dapat dibuat dengan memilih setiap kata kelima dari
daftar 500 kata yang dipelajari selama semester tersebut. 500 kata merupakan populasi
dari mana sampel 100 kata dipilih. Pertimbangkan sekarang seorang siswa yang, diminta
untuk mengeja semua 500 kata, mantra 325 (65 benar untuk soal benar-salah yang ideal
dan sekitar 62,5 persen benar untuk soal pilihan ganda yang ideal. (Istilah nilai p
digunakan untuk merujuk pada tingkat kesulitan suatu item. Pendekatan kedua ini
umumnya akan menghasilkan skor yang lebih dapat diandalkan daripada yang pertama
untuk jumlah waktu pengujian yang konstan.

| 28
Seperti yang akan kita lihat di bab-bab selanjutnya tentang penulisan item, ada
beberapa metode yang penulis item dapat gunakan untuk memanipulasi tingkat kesulitan
dari item tes yang disiapkan untuk kelompok tertentu Dan untuk pengujian yang mengacu
pada norma, manipula seperti Singa harus digunakan untuk membuat item dari tingkat
kesulitan yang diinginkan. Meskipun dimungkinkan untuk menggunakan metode yang
sama untuk mengontrol kesulitan item yang ditulis untuk tes yang direferensikan kriteria,
manipulasi tersebut tidak sesuai Untuk pengukuran yang mengacu pada kriteria, kesulitan
dibangun ke dalam tugas atau deskripsi pengetahuan yang menentukan domain konten.
penulis item memanipulasi konten item untuk menyesuaikan kesulitan yang dirasakan,
mereka sebenarnya menciptakan ketidaksesuaian antara konten dasar dan definisi
domain. Ketidakcocokan ini memengaruhi relevansi konten dengan kurang
merepresentasikan konten yang sah dan dengan memperkenalkan konten yang tidak
relevan (atau kurang relevan). Singkatnya, sebagian dari alasan untuk tidak menentukan
domain konten yang merujuk pada norma terlalu tepat adalah karena hal itu memberikan
tanggung jawab kepada penulis item untuk membuat masalah dengan tingkat kesulitan
yang paling sesuai.
Beberapa instruktur percaya bahwa tes yang baik harus mencakup beberapa item
yang sulit untuk "menguji" siswa yang lebih baik dan beberapa item yang mudah untuk
memberi siswa yang lebih miskin kesempatan. Tetapi tidak satu pun dari jenis item ini
cenderung mempengaruhi urutan peringkat nilai siswa secara signifikan. umumnya akan
menjawab soal-soal yang lebih sulit dan oleh karena itu, skor lebih tinggi lagi. Hampir
semua orang akan menjawab item mudah. Efek dari item mudah adalah menambahkan
jumlah konstan ke skor setiap peserta ujian, untuk menaikkan semua skor, tetapi tanpa
memengaruhi urutan peringkat skor siswa. Untuk ukuran prestasi yang direferensikan
norma yang baik, item dengan tingkat kesulitan sedang - tidak terlalu sulit dan tidak
terlalu mudah berkontribusi paling banyak untuk membedakan antara siswa yang telah
mempelajari jumlah yang bervariasi dari isi pengajaran.
Tes yang dirancang untuk menghasilkan interpretasi skor yang mengacu pada
kriteria kemungkinan besar akan lebih mudah dalam tingkat kesulitan daripada tes
standar yang direferensikan. Saat menguji kompetensi minimum atau penguasaan,
harapannya adalah sebagian besar siswa telah mencapai tingkat minimum atau telah

| 29
mencapai penguasaan. Soal-soal dalam tes ini harus mudah bagi kebanyakan siswa, tetapi
harus sulit bagi mereka yang belum menguasai konten yang diwakili oleh soal. Harus
jelas bahwa item tes dalam isolasi tidak mudah atau sulit. Kesulitan suatu item berkaitan
dengan sifat kelompok dan tergantung pada sejauh mana mereka dalam kelompok
tersebut memiliki kemampuan yang disajikan oleh tugas.
G. Item Tes Benar-Salah
Dari satu sudut pandang, tes benar-salah tampak seperti sangat mudah daripada yang
seharusnya. Dari yang lain, seperti yang akan disaksikan banyak siswa, tes itu tampaknya
tidak perlu, sulit, tidak relevan. dan membuat frustrasi. Beberapa orang akan mengatakan
ada cara yang lebih baik untuk mengukur pencapaian daripada dengan menggunakan item
benar-salah. Namun kurangnya dukungan ini tidak dibagikan secara universal di antara
para pendidik. Beberapa, termasuk penulis buku ini, menganggap item benar-salah jauh
lebih baik (Ebel, 1975, Frisbie, 1979).
H. Keuntugan dari Format yang Benar-benar Salah
Alasan dasar untuk menggunakan soal tes benar-salah adalah bahwa mereka
menyediakan cara yang sederhana dan langsung untuk mengukur hasil penting dari
pendidikan formal. Argumen nilai item benar-salah sebagai ukuran pencapaian
pendidikan dapat diringkas dalam empat pernyataan:
1. Inti dari prestasi pendidikan adalah penguasaan pengetahuan verbal yang
bermanfaat.
2. Semua pengetahuan verbal dapat diungkapkan dalam proposisi.
3. Proposisi adalah setiap kalimat yang dapat dikatakan benar atau salah
4. Tingkat penguasaan siswa atas bidang pengetahuan tertentu ditunjukkan oleh
keberhasilan mereka dalam menilai kebenaran atau kepalsuan proposisi yang
terkait dengan yang dilakukan.

| 30
BAB III

PENUTUP

A. KESIMPULAN
Fungsi terpenting dalam tesis kelas adalah untuk mendapatkan ukuran yang tepat dari
pencapaian siswa. Bentuk tes - esai. obyektif, soal tidak memberikan indikasi pasti
tentang kemampuan yang diukur. Apapun bentuk tes agar digunakan, penguji harus
berusaha membuat pengukuran mereka seobyektif mungkin. Ketika tes kinerja dan
tujuan yang hilang dapat digunakan untuk mencapai tujuan yang pada dasarnya sama,
tes obyektif kemungkinan besar akan lebih efektif, menjadi lebih relevan dan
menghasilkan pengukuran yang lebih andal.
Tabel spesifikasi adalah pedoman perencanaan untuk memastikan representasi
yang memadai dari konten dan kemampuan dalam ujian. Kepentingan relatif dari
subdomain konten dalam file tergantung pada faktor-faktor seperti jumlah konten yang
dikandungnya dan jumlah waktu instruksional yang dikhususkan untuk itu. Sepertinya
tidak mungkin siswa belajar lebih efektif dalam persiapan untuk tes esai daripada untuk
sebuah objective. Pilihan ganda dan item benar-salah dapat digunakan untuk mengukur
aspek apa pun dari pencapaian pendidikan kognitif. Situasional pada item tes
interpretatif cenderung efisien, sulit untuk ditulis, sulit untuk "dikunci" secara objektif,
dan tidak meyakinkan sebagai ukuran dari proses mental yang lebih tinggi. Sebagian
besar tes prestasi belajar kewarganegaraan harus cukup singkat, dalam kaitannya
dengan waktu yang tersedia sehingga hampir semua siswa memiliki waktu untuk
mengubah semua istilah. Jumlah item yang akan dimasukkan dalam tes harus
dipengaruhi oleh jumlah waktu yang tersedia, akurasi yang diinginkan dalam skor dan
homogen konten yang akan disembuhkan.

B. SARAN

Penulis menyadari sepenuhnya jika makalah ini masih banyak kesalahan dan jauh dari
kata sempurna. Oleh karena itu, untuk memperbaiki makalah tersebut penulis meminta
kritik yang membangun dari pembaca.

| 31
DAFTAR PUSTAKA

L. Ebel, Robert dan A. Frisbie, David.1991. Essentials Of Educational


Measurement 5th edition. New Delhi. Eastern Economy Edition.

| 32

Anda mungkin juga menyukai