Designing Classroom Language Tests

DESIGNING CLASSROOM LANGUAGE TESTS
(MERANCANG UJI BAHASA CLASSROOM)
In this chapter, we will examine test types, and we will learn how to design
tests and revise existing ones. To start the process of designing tests, we will ask
some critical questions. The following five questions should form the basis of your
approach to designing tests for your classroom.
Dalam bab ini, kita akan memeriksa jenis tes, dan kita akan belajar
bagaimana merancang tes dan merevisi yang sudah ada. Untuk memulai proses
merancang tes, kami akan mengajukan beberapa pertanyaan kritis. Lima
pertanyaan berikut harus menjadi dasar pendekatan Anda untuk merancang tes
untuk kelas Anda.
Question 1: What is the purpose of the test?

•Why am I creating this test?
•For an evaluation of overall proficiency? (Proficiency Test)
•To place students into a course? (Placement Test)
•To measure achievement within a course? (Achievement Test)
Pertanyaan 1: Apa tujuan dari tes ini?
• Mengapa saya membuat tes ini?
• Untuk evaluasi kemahiran keseluruhan? (Tes Kecakapan)
• Untuk menempatkan siswa dalam kursus? (Tes penempatan)
• Untuk mengukur prestasi dalam suatu kursus? (Tes Prestasi)
Once you have established the major purpose of a test, you can determine its
objectives
. Setelah menetapkan tujuan utama suatu tes, Anda dapat menentukan tujuannya
Question 2: What are the objectives of the test?
•What specifically am I trying to find out?
•What language abilities are to be assessed?
• Apa yang secara spesifik saya coba cari tahu?
• Kemampuan bahasa apa yang harus dinilai?
Question 3: How will the test specifications reflect both the purpose and
objectives?
•When a test is designed, the objectives should be incorporated into a structure that
appropriately weights the various competencies being assessed.
Pertanyaan 3: Bagaimana spesifikasi pengujian akan mencerminkan tujuan dan
sasaran?
• Ketika tes dirancang, tujuan harus dimasukkan ke dalam struktur yang sesuai
dengan bobot berbagai kompetensi yang dinilai.
Question 4: How will the test tasks be selected and the separate items arranged?
•The tasks need to be practical
•They should also achieve content validity by presenting tasks that mirror those of
the course being assessed.
•They should be evaluated reliably by the teacher or scorer.
•The tasks themselves should strive for authenticity, and the progression of tasks
ought to be biased for best performance.
Pertanyaan 4: Bagaimana tugas-tugas tes akan dipilih dan item-item terpisah
diatur?
• Tugas harus praktis
• Mereka juga harus mencapai validitas konten dengan menghadirkan tugas-tugas
yang mencerminkan tugas-tugas yang sedang dinilai.
• Mereka harus dievaluasi secara andal oleh guru atau pencetak gol.
• Tugas itu sendiri harus berjuang untuk keaslian, dan perkembangan tugas
seharusnya bias untuk kinerja terbaik.
Question 5: What kind of scoring, grading, and/or feedback is expected?

•Tests vary in the form and function of feedback, depending on their purpose
•For every test, the way results are reported is an important consideration.
•Under some circumstances a letter grade or a holistic score may be appropriate;
other circumstances may require that a teacher offer substantive washback to the
learner
Pertanyaan 5: Penilaian, penilaian, dan / atau umpan balik seperti apa yang
diharapkan?
• Tes bervariasi dalam bentuk dan fungsi umpan balik, tergantung pada tujuannya
• Untuk setiap tes, cara hasilnya dilaporkan adalah pertimbangan penting.
• Dalam kondisi tertentu nilai huruf atau skor holistik mungkin sesuai; keadaan
lain mungkin mengharuskan guru menawarkan pembatalan substantif kepada
pelajar

TEST TYPES
(JENIS UJI)
Defining your purpose will help you choose the right kind of test, and it will also
help you to focus on the specific objectives of the test.
Below are the test types to be examined:
1. Language Aptitude Tests
2. Proficiency Tests
3. Placement Tests
4. Diagnostic Tests
5. Achievement Tests
Menentukan tujuan Anda akan membantu Anda memilih jenis tes yang tepat, dan
itu juga akan membantu Anda untuk fokus pada tujuan khusus tes.
Di bawah ini adalah jenis tes yang akan diperiksa:
1. Tes Kemampuan Bahasa
2. Tes Kecakapan
3. Tes Penempatan
4. Tes Diagnostik
5. Tes Prestasi
1. Language Aptitude Tests

1. They predict a person’s success prior to exposure to the second language.
2. A language aptitude test is designed to measure capacity or general ability to

learn a foreign language.
3. Language aptitude tests are ostensibly designed to apply to the classroom

learning of any language.
4. Two standardized aptitude tests have been used in the US. The Modern
Language Aptitude Test (MLAT), and the Pimsleur Language Aptitude
Battery (PLAB).
5. Tasks in MLAT includes: Number learning, phonetic script, spelling clues,

words in sentences, and paired associates.
6. There’s no unequivocal evidence that language aptitude tests predict

communicative success in a language.
7. Any test that claims to predict success in learning a language is undoubtedly
flawed because we now know that with appropriate self-knowledge, and
active strategic involvement in learning, virtually everyone can succeed
eventually.

1. Mereka memprediksi kesuksesan seseorang sebelum pemaparan ke bahasa
kedua.
2. Tes kecakapan bahasa dirancang untuk mengukur kapasitas atau
kemampuan umum untuk belajar bahasa asing.
3. Tes kecakapan bahasa seolah-olah dirancang untuk diterapkan pada
pembelajaran kelas bahasa apa pun.
4. Dua tes bakat standar telah digunakan di AS. Tes Bahasa Modern
(MLAT), dan Baterai Bahasa Pimsleur (PLAB).
5. Tugas dalam MLAT meliputi: Pembelajaran angka, skrip fonetik, petunjuk
ejaan, kata-kata dalam kalimat, dan rekan berpasangan.
6. Tidak ada bukti nyata bahwa tes kecakapan bahasa memprediksi
keberhasilan komunikatif dalam suatu bahasa.
7. Setiap tes yang mengklaim dapat memprediksi keberhasilan dalam belajar
bahasa tidak diragukan lagi cacat karena kita sekarang tahu bahwa dengan
pengetahuan diri yang tepat, dan keterlibatan strategis aktif dalam
pembelajaran, hampir setiap orang dapat berhasil pada akhirnya.
2. Proficiency Tests
1. A proficiency test is not limited to any one course, curriculum, or single
skill in the language; rather, it tests overall ability.
2. It includes: standardized multiple choice items on grammar, vocabulary,
reading comprehension, and aural comprehension. Sometimes a sample
of writing is added, and more recent tests also include oral production.
3. Such tests often have content validity weaknesses.
4. Proficiency tests are almost always summative and norm-referenced.
5. They are usually not equipped to provide diagnostic feedback.
6. Their role is to accept or to deny someone’s passage into the next stage of
a journey.
7. TOEFL is a typical standardized proficiency test.
8. Creating these tests and validating them with research is a time-consuming

and costly process. To choose one of a number of commercially available
proficiency tests is a far more practical method for classroom teachers.
2. Tes Kecakapan
1. Tes kecakapan tidak terbatas pada satu kursus, kurikulum, atau
keterampilan tunggal dalam bahasa tersebut;melainkan, ia menguji
kemampuan secara keseluruhan.
2. Ini termasuk: item pilihan ganda terstandarisasi pada tata bahasa,
kosakata, pemahaman membaca, dan pemahaman aural. Kadang-kadang
sampel tulisan ditambahkan, dan tes yang lebih baru juga mencakup
produksi oral.
3. Tes semacam itu seringkali memiliki kelemahan validitas konten.
4. Tes kecakapan hampir selalu sumatif dan mengacu pada norma.
5. Mereka biasanya tidak dilengkapi untuk memberikan umpan balik
diagnostik.
6. Peran mereka adalah untuk menerima atau menolak perjalanan
seseorang ke tahap selanjutnya dari perjalanan.
7. TOEFL adalah tes kecakapan standar yang tipikal.
8. Membuat tes ini dan memvalidasinya dengan penelitian adalah proses
yang memakan waktu dan mahal. Untuk memilih salah satu dari sejumlah
tes kecakapan yang tersedia secara komersial adalah metode yang jauh lebih
praktis untuk guru kelas.
3. Placement Tests
1. The ultimate objective of a placement test is to correctly place a student into
a course or level.
2. Certain proficient tests can act in the role of placement tests.
3. A placement test usually includes a sampling of the material to be covered

in the various courses in a curriculum.
4. In a placement test, a student should find the test material neither too easy
nor too difficult but appropriately challenging.
5. The English as a Second Language Placement Test (ESLPT) at San Francisco

State University has three parts. Part 1: students read a short article and then
write a summary essay. Part 2: students write a composition in response to an
article. Part3: multiple-choice; students read an essay and identify grammar
errors in it.
6. The ESL is more authentic but less practical , because human evaluators are
required for the first two parts.
7. Reliability problems are also present but are mitigated by conscientious

training of all evaluators of the test.
8. What is lost in practicality and reliability is gained in the diagnostic
information that the ESLPT provides.
3. Tes Penempatan
1. Tujuan akhir dari tes penempatan adalah untuk menempatkan siswa
dengan benar ke dalam kursus atau level.
2. Tes mahir tertentu dapat bertindak dalam peran tes penempatan.
3. Tes penempatan biasanya mencakup pengambilan sampel materi yang
akan dicakup dalam berbagai kursus dalam kurikulum.
4. Dalam tes penempatan, seorang siswa harus menemukan materi tes tidak
terlalu mudah atau terlalu sulit tetapi cukup menantang.
5. Bahasa Inggris sebagai Tes Penempatan Bahasa Kedua (ESLPT) di San
Francisco State University memiliki tiga bagian. Bagian 1: siswa membaca
artikel pendek dan kemudian menulis esai ringkasan. Bagian 2: siswa
menulis komposisi dalam menanggapi sebuah artikel. Bagian 3: pilihan
ganda; siswa membaca esai dan mengidentifikasi kesalahan tata bahasa di
dalamnya.
6. ESL lebih otentik tetapi kurang praktis, karena evaluator manusia
diperlukan untuk dua bagian pertama.
7. Masalah reliabilitas juga ada tetapi dimitigasi dengan pelatihan yang
cermat dari semua evaluator tes.
8.Apa yang hilang dalam kepraktisan dan keandalan diperoleh dalam
informasi diagnostik yang disediakan ESLPT.
4. Diagnostic Tests
1. A diagnostic test is designed to diagnose specified aspects of a language.
2. A diagnostic test can help a student become aware of errors and encourage
the adoption of appropriate compensatory strategies.
3. A test of pronunciation, for example, might diagnose the phonological
features of English that are difficult for learners and should therefore become
part of a curriculum. Usually such tests offer a checklist of features for the
administrator to use in pinpointing difficulties.
4. Another example: a writing diagnostic would elicit a writing sample from

students that would allow the teacher to identify those rhetorical and
linguistic features on which the course needed to focus special attention.
5. A typical diagnostic test of oral production was created by Clifford Prator

(1972) to accompany a manual of English pronunciation. In the test;
a. Test-takers are directed to read a 150-word passage while they are tape-
recorded.
b. The test administrator then refers to an inventory of phonological items for

analyzing a learner’s production.
c. After multiple listening’s, the administrator produces a checklist for errors in five
separate categories : Stress and rhythm, Intonation, Vowels, Consonants, and Other
factors.
This information can help teacher make decisions about aspects of English
phonology.
4. Tes Diagnostik
1. Tes diagnostik dirancang untuk mendiagnosis aspek tertentu dari suatu bahasa.
2. Tes diagnostik dapat membantu siswa menyadari kesalahan dan mendorong
penerapan strategi kompensasi yang sesuai.
3. Tes pelafalan, misalnya, dapat mendiagnosis fitur fonologis bahasa Inggris yang
sulit bagi pelajar dan karenanya harus menjadi bagian dari kurikulum. Biasanya tes
semacam itu menawarkan daftar fitur untuk digunakan administrator dalam
menentukan kesulitan.
4. Contoh lain: diagnostik penulisan akan memperoleh sampel tulisan dari siswa
yang memungkinkan guru mengidentifikasi ciri-ciri retorika dan linguistik di mana
pelatihan perlu memusatkan perhatian khusus.
5. Tes diagnostik khas produksi lisan dibuat oleh Clifford Prator (1972) untuk
menemani manual pengucapan bahasa Inggris. Dalam ujian;
Sebuah. Peserta tes diarahkan untuk membaca bagian 150 kata saat direkam.
b. Administrator tes kemudian merujuk pada inventaris item fonologis untuk
menganalisis produksi pelajar.
c. Setelah beberapa kali mendengarkan, administrator membuat daftar periksa
untuk kesalahan dalam lima kategori terpisah: Stres dan ritme, Intonasi, Vokal,
Konsonan, dan Faktor-faktor lainnya.
Informasi ini dapat membantu guru membuat keputusan tentang aspek fonologi
bahasa Inggris.
5. Achievement Tests
1. An achievement test is related directly to classroom lessons, units, or even a
total curriculum.
2. Achievement tests should be limited to particular material addressed in a

curriculum within a particular time frame and should be offered after a
course has focused on the objectives in question.
3. There’s a fine line of differences between a diagnostic test and an

achievement test.
a. Achievement tests analyze the extent to which students’ have acquired language
features that have already been taught.
b. Diagnostic tests should elicit information on what students need to work on in

the future.
1. The primary role of an achievement test is to determine whether course
objectives have been met – and appropriate knowledge and skills acquired
– by the end of a period of instruction.
2. Achievement tests are often summative because they are administered at the
end of a unit or term of study. But effective achievement tests can serve as
useful washback by showing the errors of students and helping those analyses
their weaknesses and strengths.
3. Achievement tests range from five- or ten-minute quizzes to three-hour

final examinations, with an almost infinite variety of item types and
formats
. 5. Tes Prestasi
1. Tes prestasi terkait langsung dengan pelajaran di kelas, unit, atau bahkan
kurikulum total.
2. Tes prestasi harus dibatasi pada materi tertentu yang dibahas dalam kurikulum
dalam jangka waktu tertentu dan harus ditawarkan setelah kursus difokuskan pada
tujuan yang dimaksud.
3. Ada garis tipis perbedaan antara tes diagnostik dan tes prestasi.
Sebuah. Tes prestasi menganalisis sejauh mana siswa telah memperoleh fitur
bahasa yang telah diajarkan.
b. Tes diagnostik harus memperoleh informasi tentang apa yang siswa perlu
kerjakan di masa depan.
1. Peran utama dari tes prestasi adalah untuk menentukan apakah tujuan kursus
telah dipenuhi - dan pengetahuan dan keterampilan yang tepat diperoleh - pada
akhir periode pengajaran.
2. Tes prestasi seringkali bersifat sumatif karena diberikan pada akhir unit atau
masa studi. Tetapi tes prestasi yang efektif dapat berfungsi sebagai kemunduran
yang bermanfaat dengan menunjukkan kesalahan siswa dan membantu mereka
menganalisis kelemahan dan kekuatan mereka.
3. Tes pencapaian berkisar dari kuis lima atau sepuluh menit hingga ujian akhir tiga
jam, dengan variasi jenis dan format item yang hampir tak terbatas.
.
IMPORTANT:
• New and innovative testing formats take a lot of effort to design and a long time to
refine through trial and error. Traditional testing techniques can, with a little
creativity, conform to the spirit of an interactive, communicative language
curriculum.
•Your best tack as a new teacher is to work within the guidelines of accepted, known,
traditional testing techniques.
•Slowly, with experience, you can get bolder in your attempts. In that spirit, then, let
us consider some practical steps in constructing classroom tests:
PENTING:
• Format pengujian baru dan inovatif membutuhkan banyak upaya untuk mendesain
dan waktu yang lama untuk disempurnakan melalui coba-coba. Teknik pengujian
tradisional dapat, dengan sedikit kreativitas, sesuai dengan semangat kurikulum
bahasa interaktif dan komunikatif.
• Cara terbaik Anda sebagai guru baru adalah bekerja dalam pedoman teknik
pengujian tradisional yang diterima dan diketahui.
• Perlahan, dengan pengalaman, Anda bisa lebih berani dalam upaya Anda. Maka,
dalam semangat itu, mari kita pertimbangkan beberapa langkah praktis dalam
membangun tes kelas:
SOME PRACTICAS STEPS ON CONSTRUCTING
BEBERAPA LANGKAH PRAKTIKAS TENTANG PEMBANGUNAN
A). Assessing Clear, Unambiguous Objectives

Before giving a test; examine the objectives for the unit you’re testing. Your first
task in designing a test, then, is to determine appropriate objectives.
“Students will recognize and produce tag questions, with the correct grammatical
form and final intonation pattern, in simple social conversations.” For more see the
original book pg. 50
A). Menilai Tujuan yang Jelas dan Tidak Jelas

Sebelum memberikan tes; periksa tujuan unit yang Anda uji. Tugas pertama Anda
dalam merancang tes, adalah menentukan tujuan yang tepat.
"Siswa akan mengenali dan menghasilkan pertanyaan tag, dengan bentuk tata
bahasa yang benar dan pola intonasi akhir, dalam percakapan sosial sederhana."
Untuk lebih lanjut lihat buku asli hal. 50
B). Drawing Up Test Specifications

Test specifications will simply comprise:
a. broad outline of the test
b. what skills you will test
c. what the items will look like
This is an example for test specifications based on the objective stated
above: “Students will recognize and produce tag questions, with the correct
grammatical form and final intonation pattern, in simple social conversations.”
B). Menyusun Spesifikasi Tes
Spesifikasi pengujian akan terdiri dari:
Sebuah. garis besar tes
b. keterampilan apa yang akan Anda uji
c. akan seperti apa barang itu
Ini adalah contoh untuk spesifikasi tes berdasarkan pada tujuan yang dinyatakan di
atas: "Siswa akan mengenali dan menghasilkan pertanyaan tag, dengan bentuk tata
Test specifications:
Speaking (5 minutes per person, previous day)
Format: oral interview, T and S
Task: T asks questions to S
Listening (10 minutes)
Format: T makes audiotape in advance, with one other voice on it
Tasks: a. 5 minimal pair items, multiple choice
b. 5 interpretation items, multiple choice
Spesifikasi pengujian:
Berbicara (5 menit per orang, hari sebelumnya)
Format: wawancara lisan, T dan S
Tugas: T mengajukan pertanyaan ke S
Mendengarkan (10 menit)
Format: T membuat rekaman audio terlebih dahulu, dengan satu suara lainnya
Tugas: a. 5 item pasangan minimal, pilihan ganda
b. 5 item interpretasi, pilihan ganda
Reading (10 minutes)

Format: cloze test items (10 total) in a story line
Tasks: fill in the blanks
Membaca (10 menit)
Format: cloze item tes (10 total) dalam alur cerita
Tugas: isi bagian yang kosong
Writing (10 minutes)

Format: prompt for a topic: why I liked/didn’t like a recent TV sitcom
Task: writing a short opinion paragraph
Menulis (10 menit)
Format: meminta topik: mengapa saya suka / tidak suka sitkom TV baru-baru ini
Tugas: menulis paragraf pendapat singkat
These informal classroom-oriented specifications give you an indication of

1. the topics(objectives) you will recover
2. the implied elicitation and response formats for items
3. the number of items in each section
4. the time to be allocated for each
Spesifikasi berorientasi kelas informal ini memberi Anda indikasi

1. topik (sasaran) yang akan Anda pulihkan
2. format pemilihan dan tanggapan tersirat untuk item
3. jumlah item di setiap bagian
4. waktu yang dialokasikan untuk masing-masing
C). Devising Test Tasks

As you devise your test items, consider such factors as:
1. how students will perceive them(face validity)
2. The extent to which authentic language and contexts are present.
3. potential difficulty caused by cultural schemata

In revising your draft, you should ask yourself some important questions:
1. Are the directions to each section absolutely clear?
2. Is there an example item for each section?
3. Does each item measure a specified objective?
4. Is each item stated in clear, simple language?
5. Does each multiple choice have appropriate distractors; that is, are the wrong items
clearly wrong and yet sufficiently “alluring” that they aren’t ridiculously easy?
6. Is the difficulty of each item appropriate for your students?
7. Is the language of each item sufficiently authentic?
8. Do the sum of the items and the test as a whole adequately reflect the learning
objectives?
C). Merancang Tugas Tes

Ketika Anda menyusun item tes Anda, pertimbangkan faktor-faktor seperti:
1. bagaimana siswa akan melihatnya (menghadapi validitas)
2. Sejauh mana bahasa dan konteks otentik hadir.
3. potensi kesulitan yang disebabkan oleh skema budaya
Dalam merevisi draft Anda, Anda harus bertanya pada diri sendiri beberapa
pertanyaan penting:
1. Apakah arah ke setiap bagian benar-benar jelas?
2. Apakah ada item contoh untuk setiap bagian?
3. Apakah setiap item mengukur tujuan yang ditentukan?
4. Apakah setiap item dinyatakan dalam bahasa yang jelas dan sederhana?
5. Apakah setiap pilihan ganda memiliki distraktor yang sesuai; yaitu, apakah
barang yang salah jelas salah dan cukup “memikat” sehingga tidak mudah?
6. Apakah kesulitan setiap item cocok untuk siswa Anda?
7. Apakah bahasa setiap item cukup otentik?
8. Apakah jumlah item dan tes secara keseluruhan cukup mencerminkan tujuan
pembelajaran?
In the final revision of your test,
1. Imagine that you are a student taking the test.
2. Go through each set of directions and all items slowly and deliberately. Time
yourself.
3. If the test should be shortened or lengthened, make the necessary adjustments.
4. Make sure your test is neat and uncluttered on the page, reflecting all the care
and precision you have put into its construction.
5. If there is an audio component, make sure that the script is clear, that your
voice and any other voices are clear, and that the equipment is in working
order before starting the test.
Dalam revisi akhir ujian Anda,

1. Bayangkan Anda seorang siswa yang mengikuti ujian.
2. Pergi melalui setiap set arah dan semua item secara perlahan dan sengaja.
Waktunya sendiri.
3. Jika tes harus dipersingkat atau diperpanjang, lakukan penyesuaian yang
diperlukan.
4. Pastikan tes Anda rapi dan tidak berantakan di halaman, mencerminkan
semua perawatan dan presisi yang Anda masukkan ke dalam konstruksinya.
5. Jika ada komponen audio, pastikan skripnya jelas, bahwa suara Anda dan
suara-suara lainnya jelas, dan bahwa peralatan sedang bekerja sebelum
memulai tes
D). Designing Multiple-Choice Test Items
There’re a number of weaknesses in multiple-choice items:
1. The technique tests only recognition knowledge.
2. Guessing may have a considerable effect on test scores.
3. The technique severely restricts what can be tested.
4. It is very difficult to write successful items.
5. Washback may be harmful.
6. Cheating may be facilitated.
D). Merancang Item Uji Pilihan Ganda

Ada beberapa kelemahan dalam item pilihan ganda:
1. Teknik ini hanya menguji pengetahuan pengenalan.
2. Menebak mungkin memiliki efek yang cukup besar pada nilai tes.
3. Teknik ini sangat membatasi apa yang dapat diuji.
4. Sangat sulit untuk menulis item yang sukses.
5. Washback mungkin berbahaya.
6. Kecurangan bisa difasilitasi.
However,
The two principles that stand out in suprt of multiple-choice formats are, of course,
practicality and reliability.
Some important jargons in Multiple-Choice Items:
1. Multiple-choice items are all receptive, or selective, that is, the test-taker
chooses from a set of responses rather than creating a response. Other
receptive item types include true-false questions and matching lists.
2. Every multiple-choice item has a stem, which presents several options

(usually between three and five) or alternatives to choose from.
3. One of those options, is the correct response, while the others serve as
distractors
. Namun,
Dua prinsip yang menonjol dalam format format pilihan ganda, tentu saja,
kepraktisan dan keandalan.
Beberapa jargon penting dalam Item Pilihan Ganda:
1. Item pilihan ganda semuanya bersifat reseptif, atau selektif, yaitu, peserta tes
memilih dari serangkaian respons daripada membuat respons. Jenis barang reseptif
lainnya termasuk pertanyaan benar-salah dan daftar yang cocok.
2. Setiap item pilihan ganda memiliki batang, yang menyajikan beberapa pilihan
(biasanya antara tiga dan lima) atau alternatif untuk dipilih.
3. Salah satu opsi itu, adalah respons yang benar, sementara yang lain berfungsi
sebagai pengacau
IMPORTANT!!!

Consider the following four guidelines for designing multiple-choice items for both
classroom-based and large-scale situations:
1. Design each item to measure a specific objective.
2. State both stem and options as simply and directly as possible. Do not use
superfluous words, and another rule of succinctness is to remove needless
redundancy from your options.
3. Make certain that the intended answer is clearly the only correct one.
Eliminating unintended possible answers is often the most difficult problem of
designing multiple-choice items. With only a minimum of context in each stem, a
wide of responses may be perceived as correct
4. Use item indices to accept, discard, or revise items: The appropriate selection and
arrangement of suitable multiple-choice items on a test can best be accomplished by
measuring items against three indices:
a) Item facility (IF), or item difficulty
b) Item discrimination (ID), or item differentiation, and
c) Distractor analysis
a) Item facility (IF)

Is the extent to which an item is easy or difficult for the proposed group of test-
takers?
Note:
Two good reasons for occasionally including a very easy item (%85 or higher) are to
build in some affective feelings of “success” among lower-ability students and to
serve as warm-up items. And very difficult items can provide a challenge to the
highest-ability students.

b) Item discrimination (ID)
is the extent to which an item differentiates between high- and low-ability test-takers.
1. An item on which high-ability students and low-ability students score equally
well would have poor ID because it did not discriminate between the two
groups.
2. An item that garners correct responses from most of the high-ability group
and incorrect responses from most of the low-ability group has good
discrimination power.
PENTING!!!
Pertimbangkan empat pedoman berikut untuk mendesain item pilihan ganda
untuk situasi berbasis kelas dan skala besar:
1. Desain setiap item untuk mengukur tujuan tertentu.
2. Nyatakan batang dan opsi sesederhana dan setepat mungkin. Jangan
menggunakan kata-kata yang berlebihan, dan aturan ringkas lainnya adalah
menghapus redundansi yang tidak perlu dari opsi Anda.
3. Pastikan bahwa jawaban yang dimaksudkan jelas satu-satunya jawaban
yang benar. Menghilangkan jawaban yang tidak diinginkan seringkali
merupakan masalah tersulit dalam mendesain item pilihan ganda. Dengan
hanya konteks minimum di setiap batang, berbagai respons dapat dianggap
benar
4. Gunakan indeks item untuk menerima, membuang, atau merevisi item:
Pemilihan dan pengaturan item pilihan ganda yang sesuai pada tes dapat
dilakukan dengan mengukur item terhadap tiga indeks:
a) Fasilitas barang (IF), atau kesulitan barang
b) Butir diskriminasi (ID), atau diferensiasi barang, dan
c) Analisis distraktor
a) Fasilitas barang (JIKA)

Apakah sejauh mana suatu item mudah atau sulit untuk kelompok peserta tes
yang diusulkan?
catatan:
Dua alasan yang baik untuk sesekali memasukkan item yang sangat mudah
(% 85 atau lebih tinggi) adalah untuk membangun perasaan afektif “sukses”
di antara siswa berkemampuan rendah dan untuk dijadikan item pemanasan.
Dan barang-barang yang sangat sulit dapat memberikan tantangan bagi
siswa dengan kemampuan tertinggi.

b) Butir diskriminasi (ID)
adalah sejauh mana item membedakan antara peserta tes kemampuan tinggi
dan rendah.
1. Item di mana siswa berkemampuan tinggi dan siswa berkemampuan
rendah memiliki skor yang sama baiknya akan memiliki ID yang buruk
karena tidak membedakan antara kedua kelompok.
2. Item yang mengumpulkan tanggapan yang benar dari sebagian besar
kelompok berkemampuan tinggi dan respons yang salah dari sebagian besar
kelompok berkemampuan rendah memiliki kekuatan diskriminasi yang baik.
Item #
Correct
Incorrect
High-ability students (top 10) 7 3
Low-ability students (bottom10) 2 8
ID: 7-2=5/ 10= 0, 50 → The result tells us that us that the item has a moderate level
of ID.
High discriminating level would approach 1.0 and no discriminating power at all
would be zero.
1. In most cases, you would want to discard an item that scored near zero.
2. As with IF, no absolute rule governs the establishment of acceptable and

unacceptable ID indices.
Item #
Benar
Salah
Siswa berkemampuan tinggi (10 teratas) 7 3
Siswa berkemampuan rendah (bawah10) 2 8
ID: 7-2 = 5/10 = 0, 50 → Hasilnya memberitahu kita bahwa item tersebut
memiliki level ID sedang.
Level diskriminasi tinggi akan mendekati 1.0 dan tidak ada kekuatan
diskriminatif sama sekali adalah nol.
1. Dalam kebanyakan kasus, Anda ingin membuang item yang nilainya
mendekati nol.
2. Seperti halnya IF, tidak ada aturan mutlak yang mengatur penetapan
indeks ID yang dapat diterima dan tidak dapat diterima.
c) Distractor efficiency (DE) is the extent to which

1. the distractors “lure” a sufficient number of test-takers, especially lower-
ability ones , and
2. Those responses are somewhat evenly distributed across all distractors.
Example:
Choices A B C* D E
High-ability students (10) 0 1 7 0 2
Low-ability students (10) 3 5 2 0 0
*Note: C is the correct response. The item might be improved in two ways:
a). Distractor D doesn’t fool anyone. Therefore it probably has no utility. Are vision
might provide a distractor that actually attracts a response or two.
b). Distractor E attracts more responses (2) from the high-ability group than the low-
ability group (0). Why are good students choosing this one? Perhaps it includes a
subtle reference that entices the high group but is “over the head” of the low group,
and therefore the latter students’ don’t even consider it.
The other two distractor (A and B) seem to be fulfilling their function of attracting
some attention from the lower-ability students.
c) Efisiensi distraktor (DE) adalah sejauh mana
1. para pengganggu “memikat” jumlah peserta tes yang cukup, terutama yang
berkemampuan rendah, dan
2. Respons tersebut didistribusikan secara merata di semua distraktor.
Contoh:
Pilihan A B C * D E
Siswa berkemampuan tinggi (10) 0 1 7 0 2
Siswa berkemampuan rendah (10) 3 5 2 0 0
* Catatan: C adalah respons yang benar. Item tersebut dapat ditingkatkan dengan
dua cara:
Sebuah). Distractor D tidak membodohi siapa pun. Karena itu mungkin tidak
memiliki utilitas. Are vision mungkin memberikan pengalih perhatian yang
sebenarnya menarik satu atau dua respons.
b). Distractor E menarik lebih banyak respons (2) dari kelompok berkemampuan
tinggi daripada kelompok berkemampuan rendah (0). Mengapa siswa yang baik
memilih yang ini? Mungkin itu termasuk referensi halus yang membujuk kelompok
tinggi tetapi "di atas kepala" kelompok rendah, dan oleh karena itu siswa yang
terakhir bahkan tidak mempertimbangkannya.
Dua distractor lainnya (A dan B) tampaknya memenuhi fungsi mereka untuk
menarik perhatian dari siswa berkemampuan rendah.
Administering the test

You have designed your test based on your carefully considered purposes, objectives,
and specs. So consider some of the measures you can take to ensure that the actual
administration of the test accomplishes everything you want it to. Here’s a list of
pointers:
Pre-test considerations (the day before the in-class essay)
1. Provide appropriate pre-test information.
2. Offer a review of components of narrative and description essays.
3. Give students a chance to ask any questions, and provide responses.
Test administration details:

4. Arrive early and see to it that the classroom conditions are conducive.
5. If audio or video or other technology is needed for administration, try everything
out in advance.
6. Have extra paper, writing instruments on hand.
7. Start on time.
8. Distribute the test itself.
9. remain quietly seated at the teacher's desk.
10. For a timed test, warn students when time is about to run out, and encourage their
completion of their work.
This is not exhaustive list, and it does not cover all possible testing situation but it
should be serve as a starting point for you as you attempt to cover all the details
involved in an administration.
Mengelola tes
Anda telah merancang tes Anda berdasarkan tujuan, sasaran, dan spesifikasi yang
dipertimbangkan dengan cermat. Jadi pertimbangkan beberapa langkah yang dapat
Anda ambil untuk memastikan bahwa administrasi tes yang sebenarnya
menyelesaikan semua yang Anda inginkan. Inilah daftar petunjuk:
Pertimbangan pra-tes (sehari sebelum esai di kelas)

1. Berikan informasi pra-tes yang sesuai.
2. Menawarkan ulasan komponen esai narasi dan deskripsi.
3. Beri siswa kesempatan untuk mengajukan pertanyaan, dan berikan tanggapan.
Detail administrasi tes:

4. Datang lebih awal dan memastikan bahwa kondisi kelas kondusif.
5. Jika audio atau video atau teknologi lain diperlukan untuk administrasi, cobalah
semuanya terlebih dahulu.
6. Memiliki kertas tambahan, alat tulis di tangan.
7. Mulai tepat waktu.
8. Bagikan tes itu sendiri.
9. tetap duduk dengan tenang di meja guru.
10. Untuk ujian berjangka waktu, beri tahu siswa ketika waktu akan habis, dan
dorong mereka menyelesaikan pekerjaan mereka.
Ini bukan daftar lengkap, dan itu tidak mencakup semua situasi pengujian yang
mungkin tetapi harus berfungsi sebagai titik awal bagi Anda ketika Anda mencoba
untuk mencakup semua detail yang terlibat dalam suatu administrasi.
SCORING, GRADING AND GIVING FEEDBACK

SKOR, PEMBERIAN DAN UMPAN BALIK
A). Scoring
As you design a classroom test, you must consider how the test will be scored and
graded. Your scoring plan reflects the relative weight that you place on each section
and items in each section.
A). Mencetak gol
Saat Anda merancang tes kelas, Anda harus mempertimbangkan bagaimana tes
akan dinilai dan dinilai. Rencana penilaian Anda mencerminkan bobot relatif yang
Anda tempatkan di setiap bagian dan item di setiap bagian.
B) Grading
Grading doesn’t mean just giving “A” for 90-100, and a “B” for 80-89. It’s not that
simple. How you assign letter grades to a test is a product of
1. the country, culture, and context of the English classroom,
2. institutional expectations (most of them unwritten),
3. explicit and implicit definitions of grades that you have set forth,
4. the relationship you have established with the class, and
5. Student expectations that have been engendered (cause) in previous tests and
quizzes in the class.
B) Grading
Grading tidak berarti hanya memberi "A" untuk 90-100, dan "B" untuk 80-89. Ini
tidak sesederhana itu. Bagaimana Anda menetapkan nilai huruf untuk suatu tes
adalah produk dari
1. negara, budaya, dan konteks kelas bahasa Inggris,
2. harapan kelembagaan (kebanyakan dari mereka tidak tertulis),
3. definisi nilai yang telah Anda tentukan secara eksplisit dan implisit,
4. hubungan yang telah Anda bangun dengan kelas, dan
5. Harapan siswa yang telah ditimbulkan (menyebabkan) dalam tes sebelumnya dan
kuis di kelas.
C) Giving Feedback
Should become beneficial washback. Those are some examples of feedback:
1. A letter grade
2. A total score
3. Four sub scores (speaking, listening, reading, and writing)
4. for the listening and reading sections’. An indication of
correct/incorrect responses. Marginal comments
5. for the oral interview
a. scores for each element being rated
b. a checklist of areas needing work
c. oral feedback after the interview
d. a post-interview conference to go over the results
6. on the essay
a. scores for each element being rated
b. a checklist of areas needing work
c. marginal and end-of-essay comments, suggestions
d. a post-test conference to go over work
e. a self-assessment
7. On all or selected parts of the test, peer checking of results
8. a whole-class discussion of results of the test
9. Individual conferences with each student to review the whole test
1. Options 1 and 2 give virtually no feedback. The feedback they present does
not become washback.
2. Option 3 gives a student a chance to see the relative strength of each skill area
and so becomes minimally useful.
3. Options 4, 5, and 6 represent the kind of response a teacher can give that
approaches maximum feedback.
C) Memberikan Umpan Balik

Harus menjadi washback yang menguntungkan. Itulah beberapa contoh
umpan balik:
1. Nilai huruf
2. Skor total
3. Empat sub skor (berbicara, mendengarkan, membaca, dan menulis)
4. untuk bagian mendengarkan dan membaca ’. Indikasi tanggapan yang
benar / salah. Komentar marjinal
5. untuk wawancara lisan
Sebuah. skor untuk setiap elemen yang dinilai
b. daftar periksa bidang-bidang yang membutuhkan pekerjaan
c. umpan balik lisan setelah wawancara
d. konferensi pasca wawancara untuk membahas hasilnya
6. di esai
c. komentar marjinal dan akhir esai, saran
d. konferensi post-test untuk membahas pekerjaan
e. penilaian diri
7. Pada semua atau bagian tes yang dipilih, rekan memeriksa hasil
8. diskusi seluruh kelas tentang hasil tes
9. Konferensi individu dengan setiap siswa untuk meninjau seluruh tes
1. Opsi 1 dan 2 hampir tidak memberikan umpan balik. Umpan balik yang
mereka berikan tidak menjadi pembatalan.
2. Opsi 3 memberi siswa kesempatan untuk melihat kekuatan relatif dari
masing-masing bidang keterampilan dan karenanya menjadi sangat
bermanfaat.
3. Opsi 4, 5, dan 6 mewakili jenis respons yang dapat diberikan guru yang
mendekati umpan balik maksimum.
MERANCANG UJI BAHASA CLASSROOM
Dalam bab ini, kita akan memeriksa jenis tes, dan kita akan belajar bagaimana
merancang tes dan merevisi yang sudah ada. Untuk memulai proses merancang tes,
kami akan mengajukan beberapa pertanyaan kritis. Lima pertanyaan berikut harus
menjadi dasar pendekatan Anda untuk merancang tes untuk kelas Anda.

• Mengapa saya membuat tes ini?
• Untuk evaluasi kemahiran keseluruhan? (Tes Kecakapan)
• Untuk menempatkan siswa dalam kursus? (Tes penempatan)
• Untuk mengukur prestasi dalam suatu kursus? (Tes Prestasi)
Setelah menetapkan tujuan utama suatu tes, Anda dapat menentukan tujuannya
.
• Apa yang secara spesifik saya coba cari tahu?
• Kemampuan bahasa apa yang harus dinilai?
Pertanyaan 3: Bagaimana spesifikasi pengujian akan mencerminkan tujuan dan

sasaran?
• Ketika tes dirancang, tujuan harus dimasukkan ke dalam struktur yang sesuai
dengan bobot berbagai kompetensi yang dinilai.
Pertanyaan 4: Bagaimana tugas-tugas tes akan dipilih dan item-item terpisah diatur?
• Tugas harus praktis
• Mereka juga harus mencapai validitas konten dengan menghadirkan tugas-tugas
yang mencerminkan tugas-tugas yang sedang dinilai.
• Mereka harus dievaluasi secara andal oleh guru atau pencetak gol.
• Tugas itu sendiri harus berjuang untuk keaslian, dan perkembangan tugas
seharusnya bias untuk kinerja terbaik.
Pertanyaan 5: Penilaian, penilaian, dan / atau umpan balik seperti apa yang
diharapkan?
• Tes bervariasi dalam bentuk dan fungsi umpan balik, tergantung pada tujuannya
• Untuk setiap tes, cara hasilnya dilaporkan adalah pertimbangan penting.
• Dalam kondisi tertentu nilai huruf atau skor holistik mungkin sesuai; keadaan lain
mungkin mengharuskan guru menawarkan pembatalan substantif kepada pelajar

JENIS UJI
Menentukan tujuan Anda akan membantu Anda memilih jenis tes yang tepat, dan itu
juga akan membantu Anda untuk fokus pada tujuan khusus tes.
Di bawah ini adalah jenis tes yang akan diperiksa:
2. Tes Kecakapan
3. Tes Penempatan
4. Tes Diagnostik
5. Tes Prestasi

1. Mereka memprediksi kesuksesan seseorang sebelum pemaparan ke bahasa kedua.
2. Tes kecakapan bahasa dirancang untuk mengukur kapasitas atau kemampuan
umum untuk belajar bahasa asing.
3. Tes kecakapan bahasa seolah-olah dirancang untuk diterapkan pada pembelajaran
kelas bahasa apa pun.
4. Dua tes bakat standar telah digunakan di AS. Tes Bahasa Modern (MLAT), dan
Baterai Bahasa Pimsleur (PLAB).
5. Tugas dalam MLAT meliputi: Pembelajaran angka, skrip fonetik, petunjuk ejaan,
kata-kata dalam kalimat, dan rekan berpasangan.
6. Tidak ada bukti nyata bahwa tes kecakapan bahasa memprediksi keberhasilan
komunikatif dalam suatu bahasa.
7. Setiap tes yang mengklaim dapat memprediksi keberhasilan dalam belajar bahasa
tidak diragukan lagi cacat karena kita sekarang tahu bahwa dengan pengetahuan diri
yang tepat, dan keterlibatan strategis aktif dalam pembelajaran, hampir setiap orang
dapat berhasil pada akhirnya.
2. Tes Kecakapan
1. Tes kecakapan tidak terbatas pada satu kursus, kurikulum, atau keterampilan
tunggal dalam bahasa tersebut; melainkan, ia menguji kemampuan secara
keseluruhan.
2. Ini termasuk: item pilihan ganda terstandarisasi pada tata bahasa, kosakata,
pemahaman membaca, dan pemahaman aural. Kadang-kadang sampel tulisan
ditambahkan, dan tes yang lebih baru juga mencakup produksi oral.
3. Tes semacam itu seringkali memiliki kelemahan validitas konten.
4. Tes kecakapan hampir selalu sumatif dan mengacu pada norma.
5. Mereka biasanya tidak dilengkapi untuk memberikan umpan balik diagnostik.
6. Peran mereka adalah untuk menerima atau menolak perjalanan seseorang ke tahap
selanjutnya dari perjalanan.
7. TOEFL adalah tes kecakapan standar yang tipikal.
8. Membuat tes ini dan memvalidasinya dengan penelitian adalah proses yang
memakan waktu dan mahal. Untuk memilih salah satu dari sejumlah tes kecakapan
yang tersedia secara komersial adalah metode yang jauh lebih praktis untuk guru
kelas.
3. Tes Penempatan
1. Tujuan akhir dari tes penempatan adalah untuk menempatkan siswa dengan benar
ke dalam kursus atau level.
2. Tes mahir tertentu dapat bertindak dalam peran tes penempatan.
3. Tes penempatan biasanya mencakup pengambilan sampel materi yang akan
dicakup dalam berbagai kursus dalam kurikulum.
4. Dalam tes penempatan, seorang siswa harus menemukan materi tes tidak terlalu
mudah atau terlalu sulit tetapi cukup menantang.
5. Bahasa Inggris sebagai Tes Penempatan Bahasa Kedua (ESLPT) di San Francisco
State University memiliki tiga bagian. Bagian 1: siswa membaca artikel pendek dan
kemudian menulis esai ringkasan. Bagian 2: siswa menulis komposisi dalam
menanggapi sebuah artikel. Part3: pilihan ganda; siswa membaca esai dan
mengidentifikasi kesalahan tata bahasa di dalamnya.
6. ESL lebih otentik tetapi kurang praktis, karena evaluator manusia diperlukan
untuk dua bagian pertama.
7. Masalah reliabilitas juga ada tetapi dimitigasi dengan pelatihan yang cermat dari
semua evaluator tes.
8. Apa yang hilang dalam kepraktisan dan keandalan diperoleh dalam informasi
diagnostik yang disediakan ESLPT.
4. Tes Diagnostik
1. Tes diagnostik dirancang untuk mendiagnosis aspek tertentu dari suatu bahasa.
2. Tes diagnostik dapat membantu siswa menyadari kesalahan dan mendorong
penerapan strategi kompensasi yang sesuai.
3. Tes pelafalan, misalnya, dapat mendiagnosis fitur fonologis bahasa Inggris yang
sulit bagi pelajar dan karenanya harus menjadi bagian dari kurikulum. Biasanya tes
semacam itu menawarkan daftar fitur untuk digunakan administrator dalam
menentukan kesulitan.
4. Contoh lain: diagnostik penulisan akan memperoleh sampel tulisan dari siswa
yang memungkinkan guru mengidentifikasi ciri-ciri retorika dan linguistik di mana
pelatihan perlu memusatkan perhatian khusus.
5. Tes diagnostik khas produksi lisan dibuat oleh Clifford Prator (1972) untuk
menemani manual pengucapan bahasa Inggris. Dalam ujian;
Sebuah. Peserta tes diarahkan untuk membaca bagian 150 kata saat direkam.
b. Administrator tes kemudian merujuk pada inventaris item fonologis untuk
menganalisis produksi pelajar.
c. Setelah beberapa kali mendengarkan, administrator membuat daftar periksa untuk
kesalahan dalam lima kategori terpisah: Stres dan ritme, Intonasi, Vokal, Konsonan,
dan Faktor-faktor lainnya.
Informasi ini dapat membantu guru membuat keputusan tentang aspek fonologi
bahasa Inggris.
5. Tes Prestasi
1. Tes prestasi terkait langsung dengan pelajaran di kelas, unit, atau bahkan
kurikulum total.
2. Tes prestasi harus dibatasi pada materi tertentu yang dibahas dalam kurikulum
dalam jangka waktu tertentu dan harus ditawarkan setelah kursus difokuskan pada
tujuan yang dimaksud.
3. Ada garis tipis perbedaan antara tes diagnostik dan tes prestasi.
Sebuah. Tes prestasi menganalisis sejauh mana siswa telah memperoleh fitur bahasa
yang telah diajarkan.
b. Tes diagnostik harus memperoleh informasi tentang apa yang siswa perlu
kerjakan di masa depan.
1. Peran utama dari tes prestasi adalah untuk menentukan apakah tujuan kursus telah
dipenuhi - dan pengetahuan dan keterampilan yang tepat diperoleh - pada akhir
periode pengajaran.
2. Tes prestasi seringkali bersifat sumatif karena diberikan pada akhir unit atau masa
studi. Tetapi tes prestasi yang efektif dapat berfungsi sebagai kemunduran yang
bermanfaat dengan menunjukkan kesalahan siswa dan membantu mereka
menganalisis kelemahan dan kekuatan mereka.
3. Tes pencapaian berkisar dari kuis lima atau sepuluh menit hingga ujian akhir tiga
jam, dengan variasi jenis dan format item yang hampir tak terbatas.
.
PENTING:
• Format pengujian baru dan inovatif membutuhkan banyak upaya untuk mendesain
dan waktu yang lama untuk disempurnakan melalui coba-coba. Teknik pengujian
tradisional dapat, dengan sedikit kreativitas, sesuai dengan semangat kurikulum
bahasa interaktif dan komunikatif.
• Cara terbaik Anda sebagai guru baru adalah bekerja dalam pedoman teknik
pengujian tradisional yang diterima dan diketahui.
• Perlahan, dengan pengalaman, Anda bisa lebih berani dalam upaya Anda. Maka,
dalam semangat itu, mari kita pertimbangkan beberapa langkah praktis dalam
membangun tes kelas:
BEBERAPA LANGKAH PRAKTIKAS TENTANG PEMBANGUNAN

SEBUAH). Menilai Tujuan yang Jelas dan Tidak Jelas
Sebelum memberikan tes; periksa tujuan unit yang Anda uji. Tugas pertama Anda
dalam merancang tes, adalah menentukan tujuan yang tepat.
"Siswa akan mengenali dan menghasilkan pertanyaan tag, dengan bentuk tata
Untuk lebih lanjut lihat buku asli hal. 50

B). Menyusun Spesifikasi Tes
Spesifikasi pengujian akan terdiri dari:
Sebuah. garis besar tes
b. keterampilan apa yang akan Anda uji
c. akan seperti apa barang itu
Ini adalah contoh untuk spesifikasi tes berdasarkan pada tujuan yang dinyatakan di
atas: "Siswa akan mengenali dan menghasilkan pertanyaan tag, dengan bentuk tata
Spesifikasi pengujian:
Berbicara (5 menit per orang, hari sebelumnya)
Format: wawancara lisan, T dan S
Tugas: T mengajukan pertanyaan ke S
Mendengarkan (10 menit)
Format: T membuat rekaman audio terlebih dahulu, dengan satu suara lainnya
Tugas: a. 5 item pasangan minimal, pilihan ganda
b. 5 item interpretasi, pilihan ganda
Membaca (10 menit)

Format: cloze item tes (10 total) dalam alur cerita
Tugas: isi bagian yang kosong
Menulis (10 menit)

Format: meminta topik: mengapa saya suka / tidak suka sitkom TV baru-baru ini
Tugas: menulis paragraf pendapat singkat
Spesifikasi berorientasi kelas informal ini memberi Anda indikasi

1. topik (sasaran) yang akan Anda pulihkan
2. format pemilihan dan tanggapan tersirat untuk item
3. jumlah item di setiap bagian
4. waktu yang dialokasikan untuk masing-masing
C). Merancang Tugas Tes

Ketika Anda menyusun item tes Anda, pertimbangkan faktor-faktor seperti:
1. bagaimana siswa akan melihatnya (menghadapi validitas)
2. Sejauh mana bahasa dan konteks otentik hadir.
3. potensi kesulitan yang disebabkan oleh skema budaya
Dalam merevisi draft Anda, Anda harus bertanya pada diri sendiri beberapa
pertanyaan penting:
1. Apakah arah ke setiap bagian benar-benar jelas?
2. Apakah ada item contoh untuk setiap bagian?
3. Apakah setiap item mengukur tujuan yang ditentukan?
4. Apakah setiap item dinyatakan dalam bahasa yang jelas dan sederhana?
5. Apakah setiap pilihan ganda memiliki distraktor yang sesuai; yaitu, apakah
barang yang salah jelas salah dan cukup “memikat” sehingga tidak mudah?
6. Apakah kesulitan setiap item cocok untuk siswa Anda?
7. Apakah bahasa setiap item cukup otentik?
8. Apakah jumlah item dan tes secara keseluruhan cukup mencerminkan tujuan
pembelajaran?
Dalam revisi akhir ujian Anda,

1. Bayangkan Anda seorang siswa yang mengikuti ujian.
2. Pergi melalui setiap set arah dan semua item secara perlahan dan sengaja.
Waktunya sendiri.
3. Jika tes harus dipersingkat atau diperpanjang, lakukan penyesuaian yang
diperlukan.
4. Pastikan tes Anda rapi dan tidak berantakan di halaman, mencerminkan semua
perawatan dan presisi yang Anda masukkan ke dalam konstruksinya.
5. Jika ada komponen audio, pastikan skripnya jelas, bahwa suara Anda dan suara-
suara lainnya jelas, dan bahwa peralatan sedang bekerja sebelum memulai tes.
D). Merancang Item Uji Pilihan Ganda

Ada beberapa kelemahan dalam item pilihan ganda:
1. Teknik ini hanya menguji pengetahuan pengenalan.
2. Menebak mungkin memiliki efek yang cukup besar pada nilai tes.
3. Teknik ini sangat membatasi apa yang dapat diuji.
4. Sangat sulit untuk menulis item yang sukses.
5. Washback mungkin berbahaya.
6. Kecurangan bisa difasilitasi.
Namun,
Dua prinsip yang menonjol dalam format format pilihan ganda, tentu saja,
kepraktisan dan keandalan.
Beberapa jargon penting dalam Item Pilihan Ganda:
1. Item pilihan ganda semuanya bersifat reseptif, atau selektif, yaitu, peserta tes
memilih dari serangkaian respons daripada membuat respons. Jenis barang reseptif
lainnya termasuk pertanyaan benar-salah dan daftar yang cocok.
2. Setiap item pilihan ganda memiliki batang, yang menyajikan beberapa pilihan
(biasanya antara tiga dan lima) atau alternatif untuk dipilih.
3. Salah satu opsi itu, adalah respons yang benar, sementara yang lain berfungsi
sebagai pengacau
.
PENTING!!!

Pertimbangkan empat pedoman berikut untuk mendesain item pilihan ganda untuk
situasi berbasis kelas dan skala besar:
1. Desain setiap item untuk mengukur tujuan tertentu.
2. Nyatakan batang dan opsi sesederhana dan setepat mungkin. Jangan
menggunakan kata-kata yang berlebihan, dan aturan ringkas lainnya adalah
menghapus redundansi yang tidak perlu dari opsi Anda.
3. Pastikan bahwa jawaban yang dimaksudkan jelas satu-satunya jawaban yang
benar. Menghilangkan jawaban yang tidak diinginkan seringkali merupakan masalah
tersulit dalam mendesain item pilihan ganda. Dengan hanya konteks minimum di
setiap batang, berbagai respons dapat dianggap benar
4. Gunakan indeks item untuk menerima, membuang, atau merevisi item: Pemilihan
dan pengaturan item pilihan ganda yang sesuai pada tes dapat dilakukan dengan
mengukur item terhadap tiga indeks:
a) Fasilitas barang (IF), atau kesulitan barang
b) Butir diskriminasi (ID), atau diferensiasi barang, dan
c) Analisis distraktor
a) Fasilitas barang (JIKA)

Apakah sejauh mana suatu item mudah atau sulit untuk kelompok peserta tes yang
diusulkan?
catatan:
Dua alasan yang baik untuk sesekali memasukkan item yang sangat mudah (% 85
atau lebih tinggi) adalah untuk membangun perasaan afektif “sukses” di antara siswa
berkemampuan rendah dan untuk dijadikan item pemanasan. Dan barang-barang
yang sangat sulit dapat memberikan tantangan bagi siswa dengan kemampuan
tertinggi.

b) Butir diskriminasi (ID)
adalah sejauh mana item membedakan antara peserta tes kemampuan tinggi dan
rendah.
1. Item di mana siswa berkemampuan tinggi dan siswa berkemampuan rendah
memiliki skor yang sama baiknya akan memiliki ID yang buruk karena tidak
membedakan antara kedua kelompok.
2. Item yang mengumpulkan tanggapan yang benar dari sebagian besar kelompok
berkemampuan tinggi dan respons yang salah dari sebagian besar kelompok
berkemampuan rendah memiliki kekuatan diskriminasi yang baik.
Item #
Benar
Salah
Siswa berkemampuan tinggi (10 teratas) 7 3
Siswa berkemampuan rendah (bawah10) 2 8
ID: 7-2 = 5/10 = 0, 50 → Hasilnya memberitahu kita bahwa item tersebut memiliki
level ID sedang.
Level diskriminasi tinggi akan mendekati 1.0 dan tidak ada kekuatan diskriminatif
sama sekali adalah nol.
1. Dalam kebanyakan kasus, Anda ingin membuang item yang nilainya mendekati
nol.
2. Seperti halnya IF, tidak ada aturan mutlak yang mengatur penetapan indeks ID
yang dapat diterima dan tidak dapat diterima.
c) Efisiensi distraktor (DE) adalah sejauh mana

1. para pengganggu “memikat” jumlah peserta tes yang cukup, terutama yang
berkemampuan rendah, dan
2. Respons tersebut didistribusikan secara merata di semua distraktor.
Contoh:
Pilihan A B C * D E
Siswa berkemampuan tinggi (10) 0 1 7 0 2
Siswa berkemampuan rendah (10) 3 5 2 0 0
* Catatan: C adalah respons yang benar. Item tersebut dapat ditingkatkan dengan
dua cara:
Sebuah). Distractor D tidak membodohi siapa pun. Karena itu mungkin tidak
memiliki utilitas. Are vision mungkin memberikan pengalih perhatian yang
sebenarnya menarik satu atau dua respons.
b). Distractor E menarik lebih banyak respons (2) dari kelompok berkemampuan
tinggi daripada kelompok berkemampuan rendah (0). Mengapa siswa yang baik
memilih yang ini? Mungkin itu termasuk referensi halus yang membujuk kelompok
tinggi tetapi "di atas kepala" kelompok rendah, dan oleh karena itu siswa yang
terakhir bahkan tidak mempertimbangkannya.
Dua distractor lainnya (A dan B) tampaknya memenuhi fungsi mereka untuk
menarik perhatian dari siswa berkemampuan rendah.
Mengelola tes
Anda telah merancang tes Anda berdasarkan tujuan, sasaran, dan spesifikasi yang
dipertimbangkan dengan cermat. Jadi pertimbangkan beberapa langkah yang dapat
Anda ambil untuk memastikan bahwa administrasi tes yang sebenarnya
menyelesaikan semua yang Anda inginkan. Inilah daftar petunjuk:
Pertimbangan pra-tes (sehari sebelum esai di kelas)

1. Berikan informasi pra-tes yang sesuai.
2. Menawarkan ulasan komponen esai narasi dan deskripsi.
3. Beri siswa kesempatan untuk mengajukan pertanyaan, dan berikan tanggapan.
Detail administrasi tes:

4. Datang lebih awal dan memastikan bahwa kondisi kelas kondusif.
5. Jika audio atau video atau teknologi lain diperlukan untuk administrasi, cobalah
semuanya terlebih dahulu.
6. Memiliki kertas tambahan, alat tulis di tangan.
7. Mulai tepat waktu.
8. Bagikan tes itu sendiri.
9. tetap duduk dengan tenang di meja guru.
10. Untuk ujian berjangka waktu, beri tahu siswa ketika waktu akan habis, dan
dorong mereka menyelesaikan pekerjaan mereka.
Ini bukan daftar lengkap, dan itu tidak mencakup semua situasi pengujian yang
mungkin tetapi harus berfungsi sebagai titik awal bagi Anda ketika Anda mencoba
untuk mencakup semua detail yang terlibat dalam suatu administrasi.
SKOR, PEMBERIAN DAN UMPAN BALIK

SEBUAH). Mencetak gol
Saat Anda merancang tes kelas, Anda harus mempertimbangkan bagaimana tes akan
dinilai dan dinilai. Rencana penilaian Anda mencerminkan bobot relatif yang Anda
tempatkan di setiap bagian dan item di setiap bagian.
B) Grading
Grading tidak berarti hanya memberi "A" untuk 90-100, dan "B" untuk 80-89. Ini
tidak sesederhana itu. Bagaimana Anda menetapkan nilai huruf untuk suatu tes
adalah produk dari
1. negara, budaya, dan konteks kelas bahasa Inggris,
2. harapan kelembagaan (kebanyakan dari mereka tidak tertulis),
3. definisi nilai yang telah Anda tentukan secara eksplisit dan implisit,
4. hubungan yang telah Anda bangun dengan kelas, dan
5. Harapan siswa yang telah ditimbulkan (menyebabkan) dalam tes sebelumnya dan
kuis di kelas.
C) Memberikan Umpan Balik

Harus menjadi washback yang menguntungkan. Itulah beberapa contoh umpan
balik:
1. Nilai huruf
2. Skor total
3. Empat sub skor (berbicara, mendengarkan, membaca, dan menulis)
4. untuk bagian mendengarkan dan membaca ’. Indikasi tanggapan yang benar /
salah. Komentar marjinal
5. untuk wawancara lisan
c. umpan balik lisan setelah wawancara
d. konferensi pasca wawancara untuk membahas hasilnya
6. di esai
c. komentar marjinal dan akhir esai, saran
d. konferensi post-test untuk membahas pekerjaan
e. penilaian diri
7. Pada semua atau bagian tes yang dipilih, rekan memeriksa hasil
8. diskusi seluruh kelas tentang hasil tes
9. Konferensi individu dengan setiap siswa untuk meninjau seluruh tes
1. Opsi 1 dan 2 hampir tidak memberikan umpan balik. Umpan balik yang mereka
berikan tidak menjadi pembatalan.
2. Opsi 3 memberi siswa kesempatan untuk melihat kekuatan relatif dari masing-
masing bidang keterampilan dan karenanya menjadi sangat bermanfaat.
3. Opsi 4, 5, dan 6 mewakili jenis respons yang dapat diberikan guru yang mendekati
umpan balik maksimum.

Designing Classroom Language Tests

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Designing Classroom Language Tests

Diunggah oleh

Hak Cipta:

Format Tersedia

DESIGNING CLASSROOM LANGUAGE TESTS

(MERANCANG UJI BAHASA CLASSROOM)

Question 1: What is the purpose of the test?

Question 5: What kind of scoring, grading, and/or feedback is expected?

2. A language aptitude test is designed to measure capacity or general ability to

3. Language aptitude tests are ostensibly designed to apply to the classroom

5. Tasks in MLAT includes: Number learning, phonetic script, spelling clues,

6. There’s no unequivocal evidence that language aptitude tests predict

1. Tes Kemampuan Bahasa

3. Such tests often have content validity weaknesses.

4. Proficiency tests are almost always summative and norm-referenced.

5. They are usually not equipped to provide diagnostic feedback.

7. TOEFL is a typical standardized proficiency test.

8. Creating these tests and validating them with research is a time-consuming

2. Certain proficient tests can act in the role of placement tests.

3. A placement test usually includes a sampling of the material to be covered

5. The English as a Second Language Placement Test (ESLPT) at San Francisco

7. Reliability problems are also present but are mitigated by conscientious

4. Another example: a writing diagnostic would elicit a writing sample from

5. A typical diagnostic test of oral production was created by Clifford Prator

b. The test administrator then refers to an inventory of phonological items for

2. Achievement tests should be limited to particular material addressed in a

3. There’s a fine line of differences between a diagnostic test and an

b. Diagnostic tests should elicit information on what students need to work on in

3. Achievement tests range from five- or ten-minute quizzes to three-hour

A). Assessing Clear, Unambiguous Objectives

A). Menilai Tujuan yang Jelas dan Tidak Jelas

B). Drawing Up Test Specifications

Reading (10 minutes)

Writing (10 minutes)

These informal classroom-oriented specifications give you an indication of

2. the implied elicitation and response formats for items

3. the number of items in each section

4. the time to be allocated for each

Spesifikasi berorientasi kelas informal ini memberi Anda indikasi

C). Devising Test Tasks

2. The extent to which authentic language and contexts are present.

3. potential difficulty caused by cultural schemata

1. Are the directions to each section absolutely clear?

2. Is there an example item for each section?

3. Does each item measure a specified objective?

4. Is each item stated in clear, simple language?

6. Is the difficulty of each item appropriate for your students?

7. Is the language of each item sufficiently authentic?

C). Merancang Tugas Tes

In the final revision of your test,

1. Imagine that you are a student taking the test.

3. If the test should be shortened or lengthened, make the necessary adjustments.

Dalam revisi akhir ujian Anda,

2. Guessing may have a considerable effect on test scores.

3. The technique severely restricts what can be tested.

4. It is very difficult to write successful items.

5. Washback may be harmful.

6. Cheating may be facilitated.

D). Merancang Item Uji Pilihan Ganda

2. Every multiple-choice item has a stem, which presents several options

a) Item facility (IF)

a) Fasilitas barang (JIKA)

2. As with IF, no absolute rule governs the establishment of acceptable and

c) Distractor efficiency (DE) is the extent to which

2. Those responses are somewhat evenly distributed across all distractors.

Administering the test

Test administration details: