Anda di halaman 1dari 4

PROSEDUR KONSTRUKSI UJI

Bagian ini menjelaskan tahapan proses konstruksi pengujian, mulai dari penyusunan spesifikasi
pengujian awal hingga uji coba publik dan pengguna. Menurut Alderson, et al (1995: 2) proses konstruksi
pengujian harus mencakup spesifikasi pengujian, penulisan item dan moderasi atau pengeditan. pra-
pengujian atau trailing dan analisis, validasi laporan posttest. dan mengembangkan dan meningkatkan tes.

A. Spesifikasi Tes

Spesifikasi suatu tes memberikan pernyataan resmi tentang apa tes tes dan bagaimana tes itu
(Alderson, et al, 1995: 9) Spesifikasi adalah cetak biru yang harus diikuti oleh penulis tes dan item, dan
mereka juga penting dalam pembentukan validitas konstruk tes. Alderson (1995 9) lebih lanjut menjelaskan
bahwa spesifikasi pengujian adalah dokumen terperinci, dan seringkali hanya untuk keperluan internal.
Kadang-kadang rahasia untuk badan pemeriksa. Spesifikasi tes untuk pengembang dan mereka yang perlu
mengevaluasi apakah tes telah memenuhi tujuannya. pengembangan spesifikasi pengujian, oleh karena itu,
merupakan bagian sentral dan penting dari konstruksi pengujian dan proses evaluasi. Spesifikasi harus
menyediakan informasi spesifik. berikut ini dalam bentuk pertanyaan sebagai panduan, seperti yang
diusulkan oleh Alderson, et al, (199511-3):

1. Apa tujuan dari tes ini? Tes cenderung jatuh ke dalam salah satu kategori luas berikut seperti yang
disajikan pada bagian sebelumnya: penempatan, kemajuan, prestasi, kecakapan, dan diagnostik.
2. Pelajar seperti apa yang akan mengikuti ujian usia jenis kelamin, tingkat kemahiran belajar. bahasa
pertama, latar belakang budaya, tingkat dan sifat alasan pendidikan untuk mengikuti tes, dan
kemungkinan tingkat pengetahuan latar belakang?
3. Berapa banyak bagian tes yang harus memiliki berapa lama mereka seharusnya, dan bagaimana
mereka akan dibedakan - satu - ujian dua jam, empat makalah terpisah dua jam, atau satu bagian tes?
4. Situasi bahasa target apa yang dipertimbangkan untuk pengujian dan apakah ini akan disimulasikan
dengan cara tertentu dalam konten dan metode pengujian?
5. Jenis teks apa yang harus dipilih tertulis dan / atau diucapkan? Apa yang harus menjadi sumber ini,
dugaan, audiens, topik, dan tingkat keaslian? seberapa sulit atau lama mereka seharusnya? Seberapa
rumit bahasanya?
6. Keterampilan bahasa apa yang harus diuji? Apakah keterampilan mikro ditentukan, dan haruskah
benda dirancang untuk menguji ini secara individu atau secara terpadu?
7. Elemen bahasa apa yang harus diuji? Apakah ada daftar struktur / fitur gramatikal yang ditentukan?
8. Tugas macam apa yang diperlukan poin diskrit, integratif, disimulasikan 'otentik, dapat dinilai secara
objektif?
9. Berapa banyak item yang diperlukan untuk setiap bagian? Berapa berat relatif untuk setiap item
bobot yang sama, bobot tambahan untuk item yang lebih sulit?
10. Metode pengujian apa yang akan menjadi pilihan-pilihan-ganda, pencocokan pengisian celah,
transformasi. pertanyaan jawaban singkat, deskripsi gambar, permainan peran dengan kartu isyarat,
esai, penulisan terstruktur?
11. Rubrik apa yang akan digunakan sebagai instruksi untuk kandidat? Akankah diperlukan contoh
untuk membantu kandidat mengetahui apa yang diharapkan? Haruskah kriteria dimana kandidat akan
dinilai dimasukkan dalam rubrik?
12. Kriteria apa yang akan digunakan untuk penilaian? Seberapa penting akurasi, kesesuaian, ejaan,
panjang ucapan / skrip, dll.?

Spekulasi uji juga mempertimbangkan untuk memasukkan tiga komando taksonomi. Menurut
Krothwohl, et al (1973), sebagian besar tujuan yang dinyatakan oleh guru di lembaga, serta yang ditemukan
dalam literatur, dapat ditempatkan dari tiga domain utama atau klasifikasi: ranah kognitif dan domain
psikomotorik. Karena tes harus dibangun berdasarkan pada tujuan instruksional, maka mereka juga dapat
ditempatkan di tiga domain

1. Domain Kognitif

Domain kognitif adalah tujuan yang menekankan pada mengingat atau mereproduksi sesuatu yang
mungkin telah dipelajari, serta tujuan yang melibatkan penyelesaian beberapa tugas intelektual di mana
individu harus menentukan masalah esensial dan kemudian menyusun ulang materi yang diberikan
menggabungkannya dengan ide, metode, atau prosedur yang dipelajari sebelumnya. Tujuan kognitif
bervariasi dari penarikan kembali materi yang dipelajari hingga cara yang sangat orisinal dan kreatif untuk
menggabungkan dan mensintesis ide dan materi baru. Krathwohl, et al (1973) menyatakan bahwa proporsi
terbesar dari tujuan pendidikan termasuk dalam ranah kognitif. Ini mencakup tujuan yang terkait dengan
penarikan kembali atau pengakuan pengetahuan dan pengembangan keterampilan dan kemampuan
intelektual yang lebih tinggi.

2. Domain Afektif

Domain afektif adalah tujuan, yang menekankan nada perasaan, emosi, atau tingkat penerimaan atau
penolakan. Tujuan afektif bervariasi dari perhatian sederhana hingga fenomena terpilih hingga kualitas
karakter dan nurani yang kompleks namun konsisten secara internal. Sejumlah besar tujuan seperti itu dalam
literatur dinyatakan sebagai minat, sikap, penghargaan, nilai, dan set atau bias emosional.

3. Domain psikomotor

Domain psikomotor adalah tujuan, yang menekankan pada beberapa keterampilan otot atau lainnya,
beberapa manipulasi bahan dan tujuan atau beberapa tindakan yang memerlukan koordinasi neuromuskuler.

B. Uji Konstruksi dan Moderasi


Konstruksi tes, yang umumnya dikenal sebagai penulisan item, adalah langkah selanjutnya dalam
pengembangan tes setelah spesifikasi tes dirumuskan. Dalam menulis soal-soal tes, idealnya seseorang harus
menggabungkan kualifikasi profesional formal dan pengalaman mengajar yang diperlukan untuk siswa yang
sama yang ingin mengikuti tes dan bidang studi yang relevan. Pengalaman mengajar akan memberikan
wawasan tentang apa yang siswa temukan mudah dan sulit, apa yang menarik bagi mereka, latar belakang
budaya mereka, dan sebagainya. Penulisan item harus didasarkan pada spesifikasi tes.

Penting untuk menyadari bahwa metode yang digunakan untuk menguji kemampuan bahasa itu
sendiri dapat mempengaruhi nilai siswa, Sangat mungkin bahwa metode pengujian tertentu akan cocok
untuk menguji beberapa kemampuan. Contoh ekstrem yang diberikan oleh Aiderson, et al (1995) adalah
bahwa tes pilihan ganda tidak cocok untuk menguji kemampuan siswa untuk mengucapkan bahasa dengan
benar tetapi mereka cenderung baik untuk menguji pengetahuan tata bahasa siswa.

Dalam hal pengeditan atau moderasi pengujian, setiap item dan tes secara keseluruhan
dipertimbangkan untuk tingkat kesesuaian dengan spesifikasi tes, kemungkinan tingkat kesulitan,
kemungkinan masalah yang tidak terduga, ambiguitas dalam kata-kata item dan instruksi, masalah tata letak
, cocokkan antara batang dan pilihan, dan keseimbangan keseluruhan dari subtest atau kertas. dalam proses
pengeditan, kegiatan tidak hanya melibatkan membaca tes dan item-itemnya, editor harus mengambil setiap
item seolah-olah dia adalah siswa yang mengikuti tes, Item yang telah memicu respons tak terduga dari
editor atau terlalu bermasalah harus direvisi atau jatuh.

C. Uji coba

Begitupun dirancangnya suatu tes dengan baik, dan begitupun tes itu telah diedit, kemungkinan tidak
akan tahu bagaimana itu akan bekerja sampai telah diujicobakan pada siswa. Seorang penulis item tidak
dapat mengantisipasi tanggapan siswa pada berbagai tingkat kemampuan bahasa meskipun ia mungkin
berpikir ia tahu apa yang diuji item dan apa jawaban yang benar.

Kita tidak hanya perlu tahu seberapa sulit soal-soal tes, tetapi kita juga perlu tahu apakah itu
berfungsi. Ini mungkin berarti bahwa item yang dimaksudkan untuk menguji struktur tertentu benar-benar
melakukannya, atau itu mungkin berarti item tersebut berhasil membedakan antara siswa di tingkat yang
berbeda sehingga siswa yang lebih cakap dapat menjawabnya dengan lebih baik daripada yang lebih lemah.
Tidak mungkin untuk memprediksi apakah item akan berfungsi tanpa mencobanya. Kinerja Alderson item
pilihan ganda mungkin yang paling sulit untuk diprediksi karena kehadiran berbagai jawaban yang benar
dan salah memberikan banyak ruang untuk ambiguitas dan ketidaksepakatan, tetapi item terbuka dan tes
yang ditandai secara subyektif juga dapat menghasilkan kejutan. Sebagai contoh, sebuah pertanyaan terbuka
mungkin membingungkan siswa yang terbaik dan bukan yang terburuk, pada tugas esai dapat secara tidak
sengaja mendapatkan hanya sejumlah kecil bahasa dari siswa.
Jumlah siswa yang harus diujicobakan tergantung pada pentingnya dan jenis tes, dan juga
ketersediaan siswa yang sesuai. Satu-satunya aturan panduan adalah semakin banyak semakin baik karena
semakin banyak siswa, semakin sedikit efek yang akan terjadi pada hasil. Terlepas dari berapa banyak siswa
yang ada, penting bahwa sampel harus, sejauh mungkin, mewakili siswa yang dimaksud, dengan kisaran
kemampuan dan latar belakang yang sama, jika tidak, hasil uji coba mungkin tidak berguna.

D. Analisis Uji

Item tes yang telah dicoba harus dianalisis untuk melihat apakah tes berfungsi. Analisis ini akan
menunjukkan kepada kita sejauh mana setiap item bekerja. Untuk item tes objektif, secara tradisional ada
dua ukuran perhitungan nilai fasilitas dan indeks diskriminasi. Nilai fasilitas mengukur tingkat kesulitan
suatu item, dan indeks diskriminasi mengukur sejauh mana hasil dari item individual berkorelasi dengan
hasil dari keseluruhan tes, yaitu seberapa baik itu membedakan antara siswa pada tingkat kemampuan yang
berbeda.

Untuk tes yang ditandai secara subyektif meskipun analisis item tidak sesuai, seperti ringkasan, esai,
dan wawancara lisan, tes ini masih perlu dicoba untuk melihat apakah item mendapatkan sampel bahasa
yang dimaksudkan, apakah sistem penandaan, yang seharusnya telah dirancang selama tahap penulisan item,
dapat digunakan: dan apakah penguji mampu menandai secara konsisten. Mungkin tidak mungkin untuk
menguji tes tersebut dalam jumlah besar karena waktu yang diperlukan untuk menandai skrip atau
menjalankan wawancara, tetapi dengan siswa dengan berbagai latar belakang dan tingkat bahasa harus diuji
untuk memastikan bahwa sampel bahasa yang dihasilkan mengandung sebagian besar fitur yang akan
ditemukan dalam tes.

E. Validasi

Pertanyaan paling penting dari semua dalam pengujian bahasa adalah validitas. Henning (1987)
mendefinisikan validitas sebagai sesuatu yang mengacu pada kesesuaian tes yang diberikan atau bagian
komponennya sebagai ukuran dari apa yang seharusnya diukur. Suatu tes dikatakan valid sejauh mengukur
apa yang seharusnya diukur. Tes apa pun mungkin valid untuk tujuan tertentu atau untuk beberapa tujuan,
tetapi tidak untuk yang lain. Alderson, et al (1995) menyatakan bahwa salah satu masalah yang paling umum
dalam penggunaan tes adalah penyalahgunaan tes, misalnya menggunakan tes untuk tujuan yang tidak
dimaksudkan.

Anda mungkin juga menyukai