Asesmen en Id

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.
com
Modul 1
Definisi dan Prinsip dari

Penilaian Bahasa
Fachrurrazy, MA, Ph.D.
PERKENALAN
T ini adalah yang pertama dari rangkaian sembilan modul Asesmen

Pengajaran Bahasa untuk mahasiswa S2 di Universitas Terbuka. Modul
pertama ini membahas definisi dan prinsip penilaian bahasa, sebagai
pengetahuan dasar untuk mempelajari semua modul lain dalam kursus ini.
Bagian pengantar modul pertama ini menyajikan tujuan, ruang lingkup, dan
panduan belajar bagi siswa. Bacalah dengan seksama, karena akan berguna
untuk membantu Anda memahami isi modul ini.
TUJUAN
Dengan mempelajari modul ini diharapkan mahasiswa mampu:

1. menentukan syarat dan tujuan penilaian,
2. mengidentifikasi tren dalam pendekatan pengujian,
3. mengidentifikasi masalah saat ini dalam pengujian, dan
4. Menjelaskan prinsip penilaian bahasa yang baik dan efektif.
CAKUPAN
Berdasarkan tujuan yang telah dikemukakan di atas, maka topik yang akan dibahas dalam
modul ini meliputi:
1. definisi tes, pengukuran, penilaian, dan evaluasi, serta hubungannya
dengan pengajaran;
2. berbagai pendekatan dalam pengujian/penilaian bahasa, yaitu pendekatan pra-
ilmiah, pendekatan psikometri-strukturalis, pendekatan integratif/pragmatis/
interaktif, dan pendekatan berbasis kinerja;
1.2 Penilaian dalam Pengajaran Bahasa -
3. isu terkini dalam pengujian kelas;

4. prinsip penilaian bahasa, yaitu kepraktisan, reliabilitas, validitas,
otentisitas, dan Washback.
PANDUAN BELAJAR
Untuk mendapatkan pemahaman yang utuh tentang isi modul ini, mahasiswa disarankan untuk
mengikuti panduan pembelajaran di bawah ini.
1. Bacalah pengantar modul ini, sehingga Anda mengetahui apa yang diharapkan
dikuasai secara umum.
2. Baca dan pelajari kegiatan satu per satu secara detail, dan kerjakan semua
latihan dan tes formatif di akhir setiap kegiatan.
3. Menyelesaikan tugas, periksa tanggapan atau jawaban Anda atas latihan dan tes
dengan kunci jawaban di bagian akhir modul ini.
4. Jika jawaban atau tanggapan Anda salah, pelajari kembali kegiatan terkait. Temukan
mengapa mereka salah, dan lakukan koreksi.
5. Selain mempelajari modul ini, Anda juga disarankan untuk memperluas dan memperdalam
pengetahuan Anda dengan membaca referensi yang disarankan yang tertera di bagian
akhir modul ini.
AKTIVITAS UTAMA
Modul ini terdiri dari empat topik utama, yaitu: (1) definisi beberapa
istilah dasar penilaian dan tujuan penilaian, (2) pendekatan dalam penilaian
bahasa, (3) isu terkini dalam penilaian bahasa, dan (4) prinsip-prinsip penilaian
bahasa yang baik dan efektif. penilaian bahasa. Keempat topik tersebut
dibahas dalam Kegiatan Pembelajaran 1 sampai 4 berikut dalam modul ini.
Perhatikan contoh dan ilustrasi yang diberikan pada setiap kegiatan karena
akan membantu Anda memahami isi modul ini dengan lebih mudah.
-MPBI5201/MODUL 1 1.3
Kegiatan Pembelajaran 1
Definisi dan Tujuan Penilaian
T Ada dua hal pokok yang dibahas dalam kegiatan ini, yaitu definisi
beberapa istilah dasar dalam penilaian bahasa dan tujuan penilaian.
Mahasiswa diharapkan mampu memahami detail dari kedua poin
tersebut di atas. Untuk itu, siswa disarankan untuk membaca penjelasan
secara seksama dan mengerjakan soal-soal latihan dan tes sumatif.
A. DEFINISI PENGUJIAN, PENGUKURAN, PENILAIAN, DAN

EVALUASI
Dalam bidang belajar mengajar, kita sering menemukan istilah-istilah

tersebuttes, pengukuran, penilaian,Danevaluasi. Dalam Program Magister
(S-2) ini, kita perlu mengetahui arti dan hubungan dari semua istilah tersebut.
Pelajari penjelasan berikut ini.
Tesadalah metode, alat atau instrumen untuk mengukur kemampuan,
penguasaan, atau pencapaian belajar siswa (Brown & Abeywickrama, 2010: 3).
Alat atau instrumen disini dapat berupa soal yang harus dijawab oleh siswa,
soal benar-salah atau soal pilihan ganda untuk dijawab siswa. Soal, soal
benar-salah, soal pilihan ganda, atau bentuk lain yang kita buat, merupakan
alat atau instrumen yang disebut tes. Tes selalu bersifat formal karena kami
menyiapkan dan menyusunnya, baik tertulis maupun lisan. Pembahasan
detail tentang berbagai jenis tes akan disajikan pada Modul 2.
Pengukuranmengacu pada kuantifikasi hasil tes. Biasanya berupa angka

atau skor (Bachman, 1990:18-20; Brown & Abeywickrama, 2010: 4-5). Misalnya,
siswa A mendapat 47, siswa B mendapat 75 dari ujian mereka. Skor 47 dan 75
merupakan hasil pengukuran, dan masih belum berarti apa-apa, karena
belum ada interpretasi apakah masing-masing skor tersebut baik atau buruk,
apakah berarti lulus atau gagal. Dalam beberapa kasus, skor disebutskor
mentah.
Istilah selanjutnya adalahpenilaianyang diklaim memiliki makna yang
lebih luas. Itu termasuktes formaldan jugates informal. Tes informalbiasanya
insidental atau tidak terencana, dan dapat berupa observasi dan/atau
komentar (Brown & Abeywickrama, 2010: 3). Saat seorang guru mendekat
siswanya saat mereka bekerja dalam kelompok, dan memberikan komentar

“Anda berada di jalur yang benar. Ayo!”, guru ini melakukan tes/penilaian
informal. Tentu saja, seorang guru juga dapat melakukan ates formaldengan
memberikan siswanya, misalnya, teks bacaan dan beberapa pertanyaan
pemahaman untuk dijawab, karena latihan atau tes ini termasuk penilaian.
Terkait dengan penilaian, kita mungkin menemukan istilahpenilaian formatif
Dan penilaian sumatif.Penilaian formatifadalah semacam penilaian kemajuan,
dimana siswa dinilai pada saat mereka masih dalam proses/proses belajar,
misalnya ulangan harian/mingguan atau ulangan tengah semester. Dalam
modul kami di sini, tes formatif mengacu pada tes setelah setiap kegiatan.
Penilaian sumatifdilakukan pada akhir kursus atau program.
Evaluasidiartikan sebagai memberikan interpretasi atau penilaian
terhadap sesuatu, yang dapat berupa nilai atau pencapaian siswa (Bachman,
1990: 22). Pada contoh pengukuran di atas, ketika kita menilai siswa A gagal
karena hanya mendapat nilai 47, dan siswa B lulus karena nilainya 75, kita
membuat penilaian atau evaluasi. Namun, kita dapat membuat evaluasi tanpa
pengukuran. Misalnya, ketika seorang siswa menjawab pertanyaan kita
dengan benar, dan kita berkata “Luar biasa!”, kita telah membuat evaluasi
non-pengukuran.
Pengajaranmerupakan proses penyampaian pengetahuan atau keterampilan
kepada siswa. Pengajaran biasanya melibatkan pengujian atau penilaian. Hal ini karena
dalam proses pengajaran kita perlu mengetahui apakah siswa sudah memahami apa
yang kita ajarkan, apakah siswa sudah mencapai target kompetensi, atau sudah sejauh
mana kemajuan siswa. Oleh karena itu, terdapat hubungan antara tes, pengukuran,
penilaian, evaluasi, dan pengajaran. Para ahli yang berbeda memiliki pandangan yang
berbeda tentang hubungan mereka.
Bachman (1990: 23), misalnya, mengusulkan hubungan tes,
pengukuran, dan evaluasi seperti pada gambar berikut.
(Diadopsi dengan sedikit penyesuaian dari Bachman, 1990: 23)

Catatan:
e = Evaluasi
T = Tes
M = Pengukuran
Seperti terlihat pada gambar di atas, Bachman tidak memasukkan

istilah penilaian, mungkin karena penilaian belum populer pada saat
itu. Hubungan tes, pengukuran dan evaluasi dalam model Bachman
menghasilkan 5 area. Area 1 adalah evaluasi tanpa tes dan
pengukuran. Hal ini dapat terjadi ketika seorang guru membuat
deskripsi kinerja siswa untuk tujuan diagnostik. Area 2 adalah evaluasi
yang melibatkan pengukuran, misalnya guru mengurutkan siswanya,
kemudian menentukan nilainya. Area 3 adalah tes yang digunakan
untuk evaluasi. Ini adalah praktik umum di sekolah kami, di mana
seorang guru menggunakan nilai tes untuk menentukan apakah
setiap siswanya mencapai tingkat ketuntasan minimum (MPL). Area 4
adalah ujian saja. Contohnya adalah tes yang diberikan kepada siswa
untuk tujuan penelitian tertentu.
Hubungan lain dari tes, penilaian, dan pengajaran dikemukakan oleh Brown
(2004: 5), dimana tes adalah bagian dari penilaian, dan penilaian, pada gilirannya,
adalah bagian dari pengajaran. Hubungan ini kemudian direvisi oleh Brown dan
Abeywickrama (2010: 6) untuk memasukkan pengukuran dan evaluasi. Gambar
berikut adalah model revisi yang dibuat oleh Brown dan Abeywickrama.
(Diadopsi dari Brown dan Abeywickrama, 2010: 6)

Catatan:
Ukuran = Pengukuran
Penilaian = Penilaian
Dari model ini dapat dilihat bahwa tes adalah bagian dari pengukuran, pengukuran
adalah bagian dari penilaian, dan penilaian adalah bagian dari pengajaran. Semua
bagian ini digunakan sebagai dasar evaluasi. Namun, ada juga yang memandang bahwa
dalam prakteknya, asesmen dan evaluasi memiliki arti yang hampir sama, dan
digunakan secara bergantian (Saukah, 2013: 3). Bedanya hanya penilaian berbentuk
deskripsi, sedangkan evaluasi bersifat menghakimi. Dalam kursus kami di sini, kami
mengakui perbedaan pandangan seperti yang disajikan di atas.
B. TUJUAN PENILAIAN
Tes atau penilaian dapat melayani beberapa tujuan, yaitu:seleksi,

skrining, penempatan, prognosis, diagnosis, penelitian, evaluasi
program, akuntabilitas, Danpencapaian. 9 tujuan penilaian ini dibahas
di bawah ini.
Yang pertama adalahpilihanpenilaian. Tujuan penilaian seleksi adalah untuk
memilih dari peserta tes sejumlah yang memenuhi kriteria tertentu. Salah satu
kriterianya adalah penggunaan kuota. Misalnya, Universitas Terbuka akan
mengambil kuota 100 mahasiswa untuk program Magister, dan kandidatnya
adalah 200. Kami membuat dan menyelenggarakan tes, kemudian skor tes dari
200 kandidat ini diurutkan dari yang tertinggi hingga yang terendah. , lalu kami
mengambil 100 pertama atau tertinggi untuk lulus ujian. Penilaian seleksi biasanya
dilakukan sebelum program dimulai.
Penyaringanpenilaian bertujuan untuk memilih peserta tes yang
dapat lulus kriteria tingkat ketuntasan minimal (MPL). Oleh karena itu,
penilaian skrining tidak berdasarkan kuota. Peserta tes yang mencapai
MPL akan lulus. Seperti halnya ujian akhir sekolah dasar, sekolah
menengah pertama, dan sekolah menengah atas di Indonesia. Jika,
misalnya, ada 300 siswa dari 12 siswathkelas satu SMA yang mengikuti
ujian akhir, dan semuanya bisa mencapai MPL, semuanya lulus. Tidak ada
batasan jumlah siswa yang boleh lulus. Penilaian skrining biasanya
dilakukan pada akhir program. Seperti pada contoh di atas, dilakukan
pada akhir kelas 12th.
Ada kemungkinan untuk menggabungkan seleksi dan penyaringan.

Seperti dalam kasus seleksi Universitas Terbuka di atas, kriterianya dapat
berupa kuota 100 mahasiswa, dengan syarat skor tidak kurang dari 75.
Dengan demikian, dari 200 kandidat kemungkinan hanya 80 kandidat yang
mencapai skor setara. atau lebih dari 75. Oleh karena itu, Universitas Terbuka
akan menerima lebih sedikit dari jumlah yang ditentukan dalam kuota karena
yang lain tidak mencapai skor 75. Namun, jika skor 75 diperoleh lebih dari 100
kandidat, biasanya kami mengambil 100 saja, berdasarkan kuota (kecuali
kuota diubah).
Penempatanpenilaian bertujuan untuk mengelompokkan siswa, dan dilakukan pada awal
program. Pengelompokan tersebut biasanya didasarkan pada kriteria tertentu, misalnya
homogenitas atau heterogenitas. Misalnya, sejumlah siswa dikelompokkan menjadi siswa
berprestasi tinggi, berprestasi sedang, dan berprestasi rendah, dan menempatkan mereka
masing-masing dalam 3 kelas terpisah. Pengelompokan tersebut biasanya untuk tujuan
kemudahan dalam perlakuan atau pengajaran, karena mereka berada dalam kelas
kemampuan yang homogen. (Ingat, kelas heterogen juga memiliki keuntungan, dapatkah
Anda memikirkannya?).
Terkadang, kita ingin tahu apakah siswa kita akan berhasil atau tidak saat
mengikuti kursus kita; jadi, kami melakukan penilaian yang disebut prognosa
penilaian. Tujuan penilaian ini adalah untuk memprediksi apakah siswa akan
berhasil atau tidak dalam mengikuti kursus kami. Seperti halnya penilaian
penempatan, penilaian prognosis ini juga dilakukan pada awal program.
Diagnosapenilaian adalah penilaian yang digunakan untuk mendeteksi
masalah siswa sehingga guru dapat memberikan perawatan atau perbaikan
yang diperlukan. Misalnya, ketika seorang guru mengajar menulis dan
mengamati bahwa siswanya mengalami kesulitan dalam menulis paragraf
sederhana. Guru melakukan penilaian untuk menemukan masalah siswa.
Ketika ditemukan masalah siswa misalnya kekurangan kosakata, maka guru
memperbaiki kosakata siswa sebelum melanjutkan latihan menulis. Penilaian
diagnosis biasanya dilakukan di tengah kursus atau program.
Penilaian juga dapat dilakukan untukrisettujuan. Seorang siswa S-2 dapat
membuat penilaian dan menyelenggarakannya di kelas siswa sekolah menengah
pertama, dan mengumpulkan beberapa data untuk menulis tesisnya. Siswa SMP
tidak mendapatkan hasil penilaian, dan hasil penilaian tidak mempengaruhi nilai
akhir mereka. Para siswa berpartisipasi dalam penilaian hanya untuk membantu
peneliti mengumpulkan data. Penilaian untuk tujuan penelitian ini dapat dilakukan
kapan saja (awal, tengah, atau akhir) dari suatu kursus atau program.
Penilaian dapat dilakukan di tengah atau akhir kursus atau program

untuk tujuan kursus/ evaluasi program. Misalnya, kami mengajar mata kuliah
Asesmen Bahasa selama satu semester. Di akhir semester, kita ingin
mengetahui apakah mata kuliah tersebut efektif atau tidak, apakah relevan
dengan mahasiswa kita atau tidak, atau sesuai atau tidak dengan level
mahasiswa kita. Kami membuat penilaian, bukan untuk mengetahui prestasi
siswa kami tetapi untuk mengevaluasi kursus kami; oleh karena itu, ini disebut
evaluasi kursus/program.
Selanjutnya adalah penilaian untuk tujuanakuntabilitas. Sebagai
contoh, Universitas Terbuka memiliki program kerja sama yang
disponsori oleh Dinas Pendidikan Provinsi untuk melatih sejumlah guru
SMP di provinsi tersebut. Sponsor dapat meminta laporan kemajuan
peserta pelatihan kepada Universitas Terbuka, dan universitas melakukan
penilaian untuk mengetahui sejauh mana kemajuan peserta pelatihan,
dan kemudian memberikan laporan kepada sponsor. Penilaian yang
dilakukan oleh universitas disebut penilaian untuk tujuan akuntabilitas.
Terakhir adalah penilaian yang bertujuan untuk mengetahui kemampuan
siswakemajuan atau prestasi. Seperti yang telah dibahas sebelumnya,
penilaian formatif digunakan untuk tujuan mengetahui kemajuan siswa
selama kursus, dan penilaian sumatif untuk mengetahui prestasi siswa di
akhir kursus. Kedua penilaian formatif dan sumatif adalah penilaian prestasi.
Tujuan penilaian yang dibahas di atas dapat diringkas seperti pada
tabel berikut.
TIDAK. Jenis Tujuan Objektif Waktu
1. Pilihan memilih sebelum suatu program
2. Penyaringan untuk menyaring akhir suatu program

3. Penempatan ke grup awal sebuah program
4. Prognosa untuk memprediksi awal sebuah program
5. Diagnosa untuk memperbaiki tengah suatu program
6. Riset untuk mengumpulkan data setiap saat selama
program
7. Evaluasi program untuk mengevaluasi suatu program pertengahan atau akhir program
8. Akuntabilitas untuk memberikan laporan pertengahan atau akhir program
9. Prestasi atau kemajuan mengetahui pencapaiannya pertengahan atau akhir program
Selain tujuan, ada tiga jenis penilaian lainnya, berdasarkan materi

atau isi yang akan dinilai. Yang pertama disebutpencapaian penilaian.
Dalam penjelasan di atas, kami telah menyebutkan prestasi
penilaian berdasarkan tujuan; sedangkan disini kita melihatnya dari segi

materi yang digunakan dalam menyusun penilaian. Disebut penilaian
prestasi bila isi penilaian didasarkan pada apa yang telah diajarkan.
Setelah mengajar selama satu semester, misalnya, seorang guru
membuat penilaian sumatif bagi siswanya berdasarkan materi yang telah
diajarkannya pada semester tersebut. Penilaian ini disebut penilaian
prestasi karena guru menggunakan isi pengajarannya untuk mengetahui
sejauh mana siswa telah mencapai apa yang diajarkan kepadanya.
Tipe kedua adalahkecakapanpenilaian. Isi penilaian ini adalah yang
dianggap memenuhi kriteria kemahiran. Misalnya, guru bahasa Inggris yang
mahir adalah guru yang memiliki penguasaan bahasa Inggris dan metodologi
pengajaran yang tinggi. Kemudian, kami membuat penilaian untuk mengukur
penguasaan bahasa Inggris guru dan metodologi pengajaran. Isi penilaian ini
bukan apa yang diajarkan atau dipelajari oleh guru sebelumnya, tetapi
berdasarkan target kemahiran yang harus dicapai seorang guru. Dalam hal
ini, tes TOEFL (Test of English as a Foreign Language) dapat digolongkan
sebagai tes kecakapan berbahasa Inggris karena didasarkan pada kriteria
kecakapan bahasa Inggris, bukan yang telah dipelajari atau diajarkan kepada
peserta tes. Kriteria kemahiran dalam TOEFL adalah penguasaan bahasa
Inggris umum yang meliputi mendengarkan, membaca, berbicara/menulis,
tata bahasa, dan kosa kata. Penilaian kemahiran terkenal lainnya adalah IELTS
(Sistem Pengujian Bahasa Inggris Internasional).
Yang ketiga adalahbakatpenilaian. Isi penilaian ini ditentukan

berdasarkan kriteria bakat. Tes bakat bahasa, misalnya, berisi soal-soal
tes untuk mengukur apakah seseorang memiliki bakat atau bakat untuk
belajar bahasa. Oleh karena itu, isi tes tersebut antara lain dapat
mengukur apakah peserta tes memiliki kepekaan terhadap perbedaan
bunyi pada pasangan minimal, atau persamaan makna dari dua
konstruksi kalimat yang berbeda.
LATIHAN 1
Untuk memeriksa pemahaman Anda tentang kegiatan pertama ini, jawab semua
pertanyaan di bawah ini.
1) Dimana letak penilaian dalam pengajaran?

2) Apa ciri khas penilaian dibandingkan dengan evaluasi?
3) Apa itu penilaian sumatif?

4) Apa perbedaan seleksi dan penilaian skrining?
5) Mengapa penilaian formatif dianggap sebagai penilaian prestasi?
RINGKASAN
Dari penjelasan di atas dapat kita simpulkan bahwa tes, pengukuran,

penilaian, dan evaluasi memiliki arti yang berbeda, namun saling
berkaitan satu sama lain. Hubungan dapat dilihat secara berbeda oleh
para ahli yang berbeda. Tes atau penilaian dapat digunakan untuk
beberapa tujuan, yaitu seleksi, penyaringan, penempatan, prognosis,
diagnosis, penelitian, evaluasi program, akuntabilitas, atau pencapaian.
Dalam klasifikasi lain, tes profisiensi, prestasi, dan bakat merupakan jenis
tes atau penilaian berdasarkan materi yang akan diujikan.
TES FORMATIF 1
Untuk memeriksa pemahaman lebih lanjut dari penjelasan dalam Kegiatan Pembelajaran
1, jawablah pertanyaan berikut.
1) Apa kelebihan dan kekurangan penggunaan TOEFL untuk ujian
akhir siswa SMA di Indonesia?
2) Tuliskan contoh deskripsi penampilan berbicara siswa untuk tujuan
diagnostik, seperti yang dinyatakan dalam area 1 model Bachman.
3) Tujuan tes penempatan adalah untuk mengelompokkan siswa dalam kelas yang homogen
atau kelas yang heterogen. Sebutkan kekuatan dan kelemahan masing-masing
pengelompokan.
4) Bagaimana sekolah bisa mendapatkan manfaat dari penilaian untuk tujuan penelitian?
5) Ketika seorang guru menggambarkan kemampuan siswa, seperti, “Untuk

kemampuan berbicara Anda, Anda cukup fasih, tidak ada masalah dengan
pengucapan Anda, tetapi Anda perlu memperhatikan tekanan kata dan
tekanan kalimat”, apakah ini a tes, penilaian, atau evaluasi? Benarkan jawaban
Anda.
Jika Anda telah menyelesaikan latihan, lihatlah kunci jawaban di bagian akhir
modul. Evaluasi jawaban Anda. Ketika Anda mendapatkan setidaknya 80% benar, Anda
dapat melanjutkan ke latihan lain, tetapi jika tidak, tinjau kembali diskusi dan contoh.
Kemudian, lakukan olahraga sekali lagi. Berikut ini adalah cara mengevaluasi latihan dan
ujian Anda.
Rumus:
Nomor jawaban reigh

Tingkat penguasaan = -100%
Jumlah item
Tingkat penguasaan: 90 - 100% = sangat bagus
80 - 89% = Bagus
70 - 79% = memadai
<70% = Tidak memadai
Tren/Pendekatan dalam Bahasa

Penilaian
T Tujuan dari kegiatan pembelajaran kedua ini adalah untuk mengidentifikasi

berbagai kecenderungan atau pendekatan dalam penilaian bahasa. Bacalah
penjelasan berikut dengan seksama dan kerjakan latihan serta tes sumatifnya.
Tampaknya tidak lengkap jika kita mempelajari penilaian bahasa
tanpa mempelajari sejarah pendekatannya. Sejarah pendekatan
penilaian bahasa, yang tidak dapat dipisahkan dari sejarah metode
pengajaran bahasa, akan memberi kita wawasan untuk memahami
perubahan metode penilaian bahasa. Oleh karena itu, kegiatan ini
difokuskan pada pembahasan kronologi pendekatan penilaian bahasa
dan kaitannya dengan pendekatan/metode pengajaran bahasa. Isi
diskusi diambil terutama dari Brown dan Abeywickrama (2010: 12-16),
Heaton (1988: 15-26) dan Weir (1990: 1-15). Mereka adalah sebagai
berikut.
A. PENDEKATAN ESAI-TERJEMAHAN
Kita mungkin telah mengetahui bahwa ada berbagai metode dalam

pengajaran bahasa Inggris sebagai bahasa asing (TEFL). Metode yang populer
antara lain Grammar Translation Method (GTM), Direct Method (DM), Audio
Lingual Method (ALM), dan Communicative Language Teaching (CLT).
Pendekatan dalam penilaian bahasa telah berkembang sejalan dengan
perkembangan metode pengajaran bahasa.
Metode pengajaran bahasa tertua yang dikenal adalah Grammar Translation
Method (GTM). Metode ini telah digunakan hingga awal abad ke-20. GTM terutama
ditandai dengan penggunaan terjemahan dalam pengajaran bahasa dan
menghafal aturan tata bahasa. Pendekatan pengujian bahasa pada saat itu
mengikuti karakteristik GTM. Itu disebut pendekatan Essaytranslation atau tahap
pengujian Pra-ilmiah. Pendekatan ini ditandai dengan penggunaan penerjemahan
kata, kalimat, atau paragraf, dari bahasa pertama (misalnya bahasa Indonesia) ke
bahasa sasaran (yaitu bahasa Inggris), atau sebaliknya; dan penggunaan analisis
gramatikal, seperti bertanya
siswa mengidentifikasi atau mendefinisikan part of speech, atau menyebutkan cara

mengubah kata benda tunggal menjadi jamak. Nilai suatu tes ditentukan oleh
penilaian subyektif guru. Guru tidak memerlukan keterampilan khusus untuk
dapat menyusun tes.
B. PENDEKATAN TITIK DISKRIT
Munculnya Audio Lingual Method (ALM), sebagai pengembangan dari Direct Method (DM), pada periode
pasca Perang Dunia II, mengubah pendekatan dalam pengajaran bahasa maupun penilaian bahasa. ALM
dipengaruhi oleh aliran Behaviorisme dalam psikologi, yaitu penggunaan Stimulus-Response-Reinforcement
sebagai strategi belajar mengajar. Dalam ALM, TEFL didefinisikan sebagai pembentukan seperangkat
kebiasaan (baru). Pengajaran tata bahasa menjadi prioritas, dan dilakukan berdasarkan gagasan analisis
kontrastif, yaitu poin-poin pengajaran harus menekankan aspek-aspek bahasa sasaran yang berbeda dengan
bahasa pertama. Di bidang penilaian, ALM menyarankan agar elemen bahasa (pelafalan, tata bahasa, dan kosa
kata) dan keterampilan bahasa (mendengarkan, berbicara, membaca, dan menulis) harus diuji secara terpisah.
ALM memegang gagasan bahwa kita harus mengajar dan juga menguji satu hal pada satu waktu. Pendekatan
pengujian pada periode ALM disebut pendekatan Psikometri-strukturalis atau pendekatan Titik-diskrit.
Pendekatan ini menekankan pada validitas, reliabilitas, dan objektivitas suatu tes, serta perhitungannya
menggunakan rumus statistik. Akibatnya, jenis tes pilihan ganda lebih disukai, karena dianggap paling objektif
dan mudah untuk perhitungan statistik. Pembahasan dan contoh soal pilihan ganda dan jenis tes objektif
lainnya disajikan secara rinci di Modul 2 mata kuliah ini. dan perhitungannya menggunakan rumus statistik.
Akibatnya, jenis tes pilihan ganda lebih disukai, karena dianggap paling objektif dan mudah untuk perhitungan
statistik. Pembahasan dan contoh soal pilihan ganda dan jenis tes objektif lainnya disajikan secara rinci di
Modul 2 mata kuliah ini. dan perhitungannya menggunakan rumus statistik. Akibatnya, jenis tes pilihan ganda
lebih disukai, karena dianggap paling objektif dan mudah untuk perhitungan statistik. Pembahasan dan
contoh soal pilihan ganda dan jenis tes objektif lainnya disajikan secara rinci di Modul 2 mata kuliah ini.
Pada tahun 1980-an, pendekatan Psikometri-strukturalis kemudian

dikritik. Ditemukan bahwa pendekatan Discrete-point ini terlalu banyak
didekontekstualisasikan, yang berarti bahwa tes tata bahasa, misalnya, tidak
boleh dicampur dengan tes pemahaman bacaan. Pada kenyataannya,
penggunaan tata bahasa sangat bergantung pada konteks bacaan. Artinya,
beberapa jenis tes menggabungkan beberapa aspek bahasa. Dalam contoh
lain, tes berbicara secara otomatis melibatkan pengucapan, tata bahasa, kosa
kata, serta kelancaran. Selain itu, ada kepercayaan bahwa keseluruhan tidak
selalu sama dengan jumlah bagian-bagiannya (teori Gestalt). Dari sinilah
muncul ide tes integratif.
C. PENDEKATAN INTEGRATIF
Tes integratif, seperti namanya, menggabungkan atau

mengintegrasikan dua atau lebih aspek bahasa, seperti dalam contoh tes
berbicara di atas. Ditemukan bahwa beberapa jenis tes, seperti tes
tertutup, dikte, wawancara lisan, jenis esai, dan terjemahan, bersifat
integratif secara inheren. Segera, tes semacam ini, terutama tes tertutup
dan dikte, menjadi tes integratif yang populer. Konstruksi dan format
beberapa tes integratif ini akan dibahas secara rinci dalam modul lain
dalam kursus ini.
Popularitas cloze dan dikte sebagai perangkat pengujian integratif menyebabkan
gagasan hipotesis kompetensi kesatuan (Weir, 1990: 5) atau hipotesis sifat
kesatuan (Brown dan Abeywickrama, 2010: 14), di mana penguasaan unsur bahasa
dan keterampilan berbahasa memiliki korelasi. Namun, bukti penelitian
selanjutnya menunjukkan bahwa hipotesis tersebut terbukti tidak benar; oleh
karena itu, hipotesis tersebut ditinggalkan (Brown dan Abeywickrama, 2010: 14).
Selain itu, penggunaan kloze dan dikte sebagai tes integratif juga dikritik, yaitu
kloze dan dikte hanya mengukur kompetensi linguistik peserta tes, dan bukan
kinerja linguistik (Weir, 1990: 6). Kinerja linguistik melibatkan kemampuan untuk
mengatakan apa, kepada siapa, di mana dan kapan.
D. PENDEKATAN PENGUJIAN KOMUNIKATIF
Perkembangan metode Communicative Language Teaching (CLT)

pada akhir tahun 1970-an mengubah pendekatan pengujian bahasa.
CLT muncul sebagai respon terhadap kelemahan ALM, dan sebagai
metode yang mengakomodir gagasan kompetensi komunikatif
(Richards dan Rodgers, 2001: 159-161). Sebagai konsep inti CLT,
Canale dan Swain (1980, dikutip dalam Richards dan Rodgers, 2001:
160) mengusulkan bahwa target pengajaran dan pembelajaran
bahasa haruslah kompetensi komunikatif. Kompetensi komunikatif ini
terdiri dari empat subkompetensi, yaitu: (1) kompetensi gramatikal,
yang mengacu pada penguasaan aspek fonologis, gramatikal, dan
leksikal; (2) kompetensi sosiolinguistik, yang mengacu pada
penggunaan bahasa yang tepat atau tidak tepat dalam masyarakat;
(3) kompetensi wacana, yang mengacu pada kemampuan
menafsirkan pesan dari konteks yang lebih luas;
E. PENDEKATAN BERBASIS KINERJA
Sesuai dengan konsep CLT, trend penilaian bahasa berubah dari

penilaian diskrit menjadi penilaian komunikatif. Penilaian komunikatif ini
berupaya untuk mengakomodasi kemungkinan korespondensi antara
kinerja tes bahasa dan aktivitas dunia nyata. Dari sini kita sampai pada
gagasan penilaian berbasis kinerja, penilaian otentik, penilaian berbasis
tugas, dan beberapa istilah lain (yang akan dijelaskan sebagai penilaian
alternatif dalam Kegiatan Pembelajaran 3 berikut). Penilaian semacam ini
mencakup “produksi lisan, produksi tertulis, tanggapan terbuka, kinerja
terintegrasi (di seluruh bidang keterampilan), kinerja kelompok, dan
tugas interaktif lainnya” (Brown dan Abeywickrama, 2010: 16).
Dalam penilaian berbasis kinerja, peserta tes diharuskan untuk melakukan tugas
tertentu, dan dinilai saat mereka sedang dalam proses mengerjakan tugas. Misalnya, seorang
peserta ujian diminta untuk menceritakan kembali sebuah cerita atau meminjam buku dari
temannya, karena dia lupa membawa bukunya. Dengan menggunakan tugas ini, kita dapat
melihat contoh penilaian autentik karena tugas tersebut meniru aktivitas kehidupan nyata.
Namun, penilaian berbasis kinerja membutuhkan waktu lebih lama dalam administrasinya,
dibandingkan dengan tes kertas dan pensil. Itu sebabnya untuk tujuan praktis, kita masih
menemukan penggunaan tes kertas dan pensil secara luas saat ini. Idealnya, kita perlu beralih
ke penilaian berbasis kinerja.
F. TUJUAN INSTRUKSIONAL KHUSUS
Setelah memelajari materi pada unit 2, Anda diharapkan dapat:

1. menunjukkan letak suatu benda pada gambar sesuai dengan informasi yang
ditampilkan.
2. mengidentifikasi kata-kata berdasarkan gambar yang sesuai dengan
deskripsi yang diutarakan secara lisan.
LATIHAN 2
1) Bagaimana strategi belajar mengajar yang dikemukakan oleh Behaviorisme?

2) Apa yang dimaksud dengan "hipotesis sifat kesatuan"?

3) Ketika seorang siswa berkata kepada gurunya “Saya ingin bertanya”, bukannya
“Saya ingin bertanya”, kompetensi komunikatif apa yang ditunjukkan oleh
siswa tersebut?
4) Seorang siswa yang mensimulasikan belanja di supermarket dan membuat dialog tawar-
menawar dianggap bukan tugas yang otentik. Mengapa?
5) Mengapa (kembali) bercerita dianggap sebagai tugas otentik?
RINGKASAN
Dalam Learning Activity 2 ini kita belajar bahwa ada berbagai pendekatan
pengujian atau penilaian, mulai dari pendekatan esai-terjemahan atau tahap
pengujian prescientific, pendekatan psikometri-strukturalis, pendekatan integratif,
pendekatan komunikatif, hingga pendekatan berbasis kinerja. Pendekatan-
pendekatan tersebut berkembang secara kronologis, dan sesuai dengan
perkembangan metode pengajaran bahasa.
UJI FORMATIF 2
Jawab pertanyaan berikut.
1) Mengapa Pendekatan titik-diskrit disebut juga pendekatan Strukturalis?

2) Berikan contoh perbedaan antara bahasa Indonesia dan bahasa Inggris dalam
aspek tata bahasa!
3) Mengapa dikte dianggap sebagai contoh tes integratif?
4) Apa yang kurang dalam kompetensi linguistik dibandingkan dengan kinerja
linguistik?
5) Kita telah memasuki era penilaian berbasis kinerja, tetapi mengapa tes kertas
dan pensil masih digunakan?
ujian Anda.
Rumus:
Nomor jawaban reigh

Jumlah item
80 - 89% = Bagus
70 - 79% = memadai
Isu Terkini dalam Penilaian Bahasa
L Earning Kegiatan 2 di atas membahas tren pendekatan penilaian

bahasa. Tren lain yang menjadi isu terkini dalam penilaian bahasa
adalah: penilaian alternatif, pengujian berbasis komputer, dan penilaian
untuk Kurikulum 2013 di Indonesia. Ketiga hal tersebut dibahas dalam
Kegiatan Pembelajaran 3 ini. Bacalah dengan seksama penjelasan berikut
dan kerjakan latihan dan tes formatif.
A. PENILAIAN ALTERNATIF
Sebelum dekade terakhir dari 20thabad, istilah yang sering digunakan

adalahpengujian,pengukuran, atauevaluasi(misalnya Bachman, 1990;
Heaton, 1988; Hughes, 1989; Oller, 1979; Popham, 1978). Mulai tahun
1990-an muncul istilah baru yaitupenilaian(misalnya Brown, 2004;
O'Malley dan Pierce, 1996). Seiring dengan munculnya istilah asesmen,
telah terjadi inovasi dalam pengujian atau asesmen bahasa, dengan
menggunakan berbagai nama. Mereka adalah: penilaian alternatif,
penilaian informal, penilaian proses, penilaian otentik, penilaian berbasis
kinerja, penilaian berbasis kelas, dan penilaian kontekstual. Pada
dasarnya, istilah-istilah tersebut mengacu pada konsep yang mirip, yaitu
gagasan bahwa tes konvensional atau objektif, seperti pilihan biner atau
pilihan ganda, tidak cukup untuk menilai penguasaan bahasa siswa.
Promosi istilah penilaian di atas juga dirangsang oleh tuntutan untuk
mencocokkan antara tugas ujian dan kegiatan kehidupan nyata di era CLT
(lihat Kegiatan Pembelajaran 2). Dalam modul ini kita diperkenalkan
dengan berbagai istilah yang menunjukkan perbedaan penekanan.
Brown dan Abeywickrama (2010:
Penilaian Tradisional Penilaian Alternatif

Ujian standar Penilaian jangka panjang yang berkelanjutan
Berwaktu, format pilihan ganda Item Tanggapan yang tidak terbatas dan terbuka
tes yang didekontekstualisasikan Tugas komunikatif yang kontekstual Umpan
Skor cukup untuk umpan balik balik individual
Penilaian Tradisional Penilaian Alternatif

Skor referensi norma Skor dengan referensi kriteria
Fokus pada jawaban Terbuka, jawaban kreatif
diskrit Sumatif Formatif
Berorientasi pada produk Berorientasi pada proses
Kinerja noninteraktif Kinerja interaktif Menumbuhkan
Menumbuhkan motivasi ekstrinsik motivasi intrinsik
Catatan: Istilah-istilah pada tabel di atas yang perlu dijelaskan adalah,

pertama,mengacu pada normaDanmengacu pada kriteriaskor. Skor yang mengacu
pada norma berarti penyebaran skor dalam bentuk persentil untuk menghasilkan
distribusi normal; dan nilai yang mengacu pada kriteria berarti nilai yang
dibandingkan dengan kriteria tertentu (misalnya tingkat kelulusan minimum),
bukan untuk membentuk distribusi normal. Istilah-istilah ini akan dijelaskan lebih
rinci dalam modul “Interpretasi Penilaian” (Modul 8). Istilah kedua adalah ekstrinsik
Danmotivasi intrinsik. Motivasi ekstrinsik adalah motivasi yang berasal dari luar diri
sendiri, misalnya seorang siswa termotivasi untuk belajar lebih giat karena orang
tuanya berjanji akan memberikan hadiah jika berhasil. Motivasi intrinsik adalah
motivasi yang berasal dari dalam diri seseorang, misalnya siswa
belajar bahasa Inggris karena dia merasa bahwa bahasa Inggris penting baginya.
Contoh penilaian alternatif adalah portofolio, catatan jurnal, konferensi,
penilaian mandiri/rekan sejawat, dll. Penjelasan rinci tentang jenis penilaian
alternatif akan dibahas dalam Modul 7 dalam mata kuliah ini.
Sebagaimana dikemukakan di atas, inovasi dalam penilaian menggunakan berbagai istilah.
Pakar yang berbeda menggunakan istilah yang berbeda untuk menunjukkan penekanan yang
berbeda. Pelajari penjelasan berikut.
Syaratalternatif dalam penilaianataupenilaian alternatifdigunakan oleh Brown dan
Abeywickrama (2010: 123) untuk menyebut jenis penilaian selain tes formal. Secara
khusus, Brown dan Hudson (1998, dikutip dalam Brown dan Abeywickrama, 2010: 123)
menyatakan bahwa alternatif dalam penilaian: 1. menuntut siswa untuk melakukan,
mencipta, menghasilkan, atau melakukan sesuatu
2. menggunakan konteks atau simulasi dunia nyata
3. tidak mengganggu karena memperluas kegiatan kelas sehari-hari
4. memungkinkan siswa untuk dinilai pada apa yang biasanya mereka lakukan di kelas setiap
hari
5. menggunakan tugas-tugas yang mewakili kegiatan instruksional yang bermakna
6. fokus pada proses serta produk
7. memanfaatkan pemikiran tingkat tinggi dan keterampilan memecahkan masalah
8. memberikan informasi tentang kelebihan dan kekurangan siswa
9. sensitif secara multikultural jika dikelola dengan benar

10. memastikan bahwa orang, bukan mesin, yang melakukan penilaian, menggunakan pertimbangan manusia
11. mendorong pengungkapan standar dan kriteria pemeringkatan secara terbuka

12. memanggil guru untuk melakukan peran instruksional dan penilaian baru
Catatan: Yang dimaksud dengan berpikir tingkat tinggi dalam kutipan di atas adalah
menganalisis, mengevaluasi, Danmenciptakandalam taksonomi Bloom (dibandingkan
dengan pemikiran tingkat rendah, yaitumengingat, memahami, Danmenerapkan).
Istilah lain,penilaian otentik, yang dikemukakan oleh O'Malley dan Pierce

(1996: 4), didefinisikan sebagai "berbagai bentuk penilaian yang
mencerminkan pembelajaran, prestasi, motivasi, dan sikap siswa pada
kegiatan kelas yang relevan secara instruksional." Brown (2004: 28)
menambahkan bahwa penilaian otentik ditandai dengan penggunaan bahasa
alami, item kontekstual, topik bermakna, organisasi tematik, dan tugas dunia
nyata. Selain penilaian otentik, O'Malley dan Pierce (1996:5) juga
memperkenalkan istilah tersebutpenilaian kinerja, yang dicirikan oleh
penggunaan tanggapan yang dibangun, pemikiran tingkat tinggi/tingkat,
tugas otentik, keterampilan bahasa yang terintegrasi, proses dan produk, dan
kedalaman versus keluasan. Burke (2009: 8) mengklaim bahwa istilah
penilaian alternatif, penilaian otentik, penilaian berbasis standar, dan
penilaian berbasis kinerja adalah sinonim. Memperkenalkan penilaian untuk
tingkat sekolah dasar, Hill, Ruptic, dan Norwick (1998) menggunakan istilah
penilaian berbasis kelas. Istilah lain yang dapat dimasukkan di sini adalah:
penilaian informal(sebagai lawan dari penilaian formal),penilaian proses(
sebagai lawan dari penilaian produk),penilaian kontekstual, Danpenilaian
berbasis tugas. Penilaian inovatif ini menantang para guru untuk menciptakan
metode penilaian yang berbeda.
B. PENGUJIAN BERBASIS KOMPUTER
Masalah kedua saat ini adalah penggunaan komputer untuk penilaian bahasa.
Kemajuan teknologi komputer dan kemudahan akses teknologi informasi
menyebabkan penggunaan komputer dan internet dalam pengajaran bahasa serta
penilaian bahasa. Kursus online, blended learning, dan computerassisted language
learning (CALL) adalah contoh penggunaan komputer dan internet dalam
pengajaran bahasa. Model pengajaran berbasis komputer ini adalah
secara otomatis diikuti dengan pengujian berbasis komputer. CBT (pengujian

berbasis komputer) dan iBT (pengujian berbasis internet) di TOEFL, serta CAT (tes
adaptif komputer) adalah contoh pengujian berbasis komputer. Dapat diprediksi
bahwa di masa depan, pengajaran dan pengujian berbasis komputer akan semakin
banyak dikembangkan.
Pengujian berbasis komputer tentunya memiliki kelebihan dan kekurangan.
Keunggulan pengujian berbasis komputer yang ditawarkan oleh Douglas dan
Hegelheimer (2008, dikutip dalam Brown dan Abeywickrama, 2010:20), yaitu:
- berbagai tes berbasis kelas yang mudah dikelola
- pengujian mandiri pada berbagai aspek bahasa (kosa kata, tata bahasa,
wacana, satu atau semua dari empat keterampilan, dll.)
- berlatih untuk tes standar berisiko tinggi yang akan datang
- beberapa individualisasi, dalam kasus CAT
- tes standar skala besar yang dapat diberikan dengan mudah ke
ribuan peserta tes di berbagai stasiun, kemudian dinilai secara
elektronik untuk pelaporan hasil yang cepat
- teknologi yang ditingkatkan (tetapi tidak sempurna) untuk evaluasi esai otomatis dan
pengenalan ucapan
Catatan: Tes berisiko tinggi adalah “instrumen yang memberikan informasi yang
menjadi dasar pengambilan keputusan signifikan tentang peserta tes” (Brown dan
Abeywickrama, 2010: 349).
Kelemahan pengujian berbasis komputer, sebagaimana juga disebutkan oleh
Douglas dan Hegelheimer (2008, dalam Brown dan Abeywickrama, 2010:20), adalah
sebagai berikut.
- Kurangnya keamanan dan kemungkinan kecurangan melekat dalam tes
komputerisasi tanpa pengawasan.
- Kuis "asli" sesekali yang muncul di situs Web tidak resmi dapat
disalahartikan sebagai penilaian yang divalidasi.
- Format pilihan ganda yang lebih disukai untuk sebagian besar tes berbasis komputer
mengandung potensi yang biasa untuk desain item yang cacat.
- Respons terbuka cenderung tidak muncul karena (a) biaya dan potensi
penilaian manusia yang tidak dapat diandalkan atau (b) kerumitan perangkat
lunak pengenalan untuk penilaian otomatis.
- Unsur interaktif manusia (terutama dalam produksi lisan) tidak ada.
- Masalah validasi berasal dari peserta tes yang mendekati tugas sebagai tugas tes
daripada sebagai penggunaan bahasa dunia nyata.
Ketika kekurangannya dapat diatasi, tentunya tes berbasis komputer

akan menggantikan atau setidaknya menjadi alternatif tes kertas dan pensil
tradisional.
C. PENILAIAN PADA KURIKULUM 2013
Masalah ketiga yang perlu diperhatikan dalam bidang penilaian adalah

Kurikulum 2013 di Indonesia. Kurikulum saat ini bercirikan penggunaan
kompetensi inti dan kompetensi dasar sebagai standar isi silabus (Kemdikbud,
2013: 53). Ada empat kompetensi inti yang harus dicapai dalam kegiatan
belajar mengajar. Keempat kompetensi inti ini adalah: kompetensi spiritual (
Kompetensi Inti 1=KI-1), kompetensi sosial (KI-2), kompetensi pengetahuan
(KI-3), dan kompetensi keterampilan (KI-4). Kompetensi spiritual berkaitan
dengan hubungan vertikal antara siswa dengan Tuhannya, seperti melakukan
ritual keagamaan atau mengagumi ciptaan Tuhan. Kompetensi sosial
berkaitan dengan hubungan horizontal antar manusia, misalnya bersikap
kooperatif, jujur, disiplin, dll. Kompetensi pengetahuan, untuk mata pelajaran
bahasa Inggris, berkaitan dengan pemahaman membaca, penguasaan tata
bahasa, penguasaan kosa kata, dll. Kompetensi keterampilan berkaitan
dengan kemampuan membuat laporan tertulis, melakukan presentasi lisan,
melaksanakan tugas proyek, dll. Masing-masing kompetensi tersebut
dijabarkan dalam kompetensi dasar. Dari kompetensi dasar, guru
menentukan indikator atau tujuan pembelajaran, isi pengajaran, proses
belajar mengajar, dan kemudian penilaian.
Dalam Kurikulum 2013, guru diwajibkan menilai tiga ranah, yakni
ranah afektif yang meliputi kompetensi spiritual (KI-1) dan kompetensi
sosial (KI-2); ranah kognitif, yaitu kompetensi pengetahuan (KI-3); dan
ranah psikomotor yaitu kompetensi keterampilan (KI-4). Perlu diingat
bahwa kompetensi keterampilan di sini TIDAK mengacu pada empat
keterampilan berbahasa (mendengarkan, berbicara, membaca, dan
menulis), meskipun memiliki istilah yang sama (yaitu keterampilan).
penilaian dan penilaian informal/alternatif. Ini adalah tantangan bagi
guru bahasa Inggris di Indonesia.
Tantangan lain dalam bidang asesmen bagi guru bahasa Inggris
adalah kemungkinan penerapan konsep gaya belajar (yaitu gaya
auditori, visual, dan kinestetik) di dalam kelas, atau penerapan konsep
kecerdasan majemuk (yaitu linguistik,
kecerdasan spasial, logis-matematis, musikal, kinestetik, natural, intra-

personal, inter-personal, dan eksistensial) bagi siswa. Ketika konsep-konsep
ini dapat diterapkan di kelas bahasa, kita harus memikirkan jenis penilaian
yang sesuai dengan gaya belajar yang berbeda atau kecerdasan yang
berbeda dari siswa kita.
LATIHAN 3
1) Kapan motivasi promosi istilah penilaian?

2) Mengapa penilaian alternatif disebut juga penilaian kinerja?
3) Brown menggunakan istilah “penilaian alternatif”, istilah apa yang digunakan oleh O'Malley
dan Pierce untuk merujuk pada ide yang sama?
4) Apa perbedaan antara pengujian berbasis komputer dan pengujian
berbasis internet?
5) Manakah dari empat kompetensi inti milik domain psikomotorik
Bloom?
RINGKASAN
Dalam Kegiatan Pembelajaran 3 ini kami membahas isu-isu terkini

yang memengaruhi penilaian. Yaitu penilaian alternatif, penilaian
berbasis komputer, penilaian dalam Kurikulum 2013 di Indonesia, dan
penilaian untuk perbedaan gaya belajar dan kecerdasan. Dalam Kegiatan
Pembelajaran ini, guru hanya diingatkan bahwa ke depan perlu dibuat
penilaian yang sesuai dengan perkembangan tersebut.
UJI FORMATIF 3
1) Pengujian berbasis komputer mengarah pada "individualisasi dalam pengujian". Apa

artinya?
2) Apa yang dimaksud dengan “konteks dunia nyata” dalam karakteristik

penilaian alternatif?
3) Sebutkan satu solusi yang mungkin untuk "kurangnya keamanan" dalam penggunaan
pengujian berbasis komputer.
4) Menurut Kurikulum 2013, “pembelajaran tata bahasa” termasuk
dalam ranah apa?
5) Apa yang dimaksud dengan gaya auditori, gaya visual, dan gaya kinestetik?
ujian Anda.
Rumus:
Nomor jawaban reigh

Jumlah item
80 - 89% = Bagus
70 - 79% = memadai
Prinsip Penilaian Bahasa
S Idealnya, setiap kali kita membuat tes, tes itu harus bagus dan efektif.
Kegiatan Pembelajaran ini memberikan pembahasan tentang cara
membuat tes yang baik dan efektif, yang meliputi kepraktisan, reliabilitas,
validitas, keaslian, dan Washback positif (Brown, 2004: 19-30; Brown &
Abeywickrama, 2010: 25-39). Karakteristik tes ini dibahas di bawah ini. Baca
dan pahami mereka.
A. PRAKTISITAS
Ciri pertama dari tes yang efektif adalahkepraktisan. Kepraktisan

berkaitan dengan pertimbangan biaya suatu tes, alokasi waktu, administrasi
tes, sumber daya manusia, konstruksi tes, dan penilaian tes (Brown, 2004: 19).
Tes yang baik harus relatif rendahbiaya. Itu harus terjangkau oleh siswa atau
peserta tes. Mengharuskan siswa SMA kami untuk mengikuti tes TOEFL (yang
biayanya lebih dari $100 per siswa) untuk tes tengah semester akan terlalu
mahal untuk kondisi keuangan orang tua di Indonesia saat ini. Tes yang
dibuat dalam bentuk power point untuk seluruh kelas dapat lebih murah
dibandingkan dengan penggunaan kertas, tetapi mungkin tidak praktis
karena sulit bagi siswa yang perlu berpikir lebih lama atau lebih cepat, atau
bagi siswa yang ingin melihat kembali lagi pada item sebelumnya. Temukan
tes yang berbiaya rendah, tetapi tidak mengorbankan kualitas tes.
Pertimbangan lain adalahalokasi waktuuntuk melakukan tes. Kira-kira,

antara setengah jam dan dua jam akan menjadi durasi waktu yang sesuai. Tes
yang harus diselesaikan oleh siswa sekolah menengah dalam 5 jam akan
terlalu lama. Para siswa mungkin lelah setelah dua jam pertama, sehingga
mereka sulit berkonsentrasi selama sisa waktu. Hilangnya konsentrasi akan
menyebabkan hasil tes yang tidak dapat diandalkan.
Berikutnya adalahadministrasidari tes. Buatlah penyelenggaraan ujian sesederhana
mungkin, misalnya menggunakan ruang kelas biasa dan fasilitas yang tersedia. Tes yang
mengharuskan siswa mengerjakannya di laboratorium komputer khusus dengan
fasilitas internet, tidak akan praktis jika ada fasilitas tersebut
belum sepenuhnya tersedia di sekolah. Ketika semua fasilitas yang dibutuhkan tersedia,
tentu saja kita dapat membangun metode uji apapun sesuka kita.
Sumber daya manusiajuga penting untuk dipertimbangkan. Penyelenggara tes harus
memiliki kemampuan untuk mempersiapkan dan mengelola tes. Jika penyelenggara atau
pengawas tes tidak memiliki keterampilan untuk menangani tes, atau mereka membutuhkan
pelatihan khusus untuk mengelola, misalnya tes berbasis internet, itu tidak praktis. Lebih baik
menggunakan administrasi tes yang lebih sederhana. Administrator tes yang merupakan
konstruktor tes harus memiliki kemampuan untuk membuat tes yang baik atau mengadopsi/
beradaptasi dari tes yang tersedia.
Untukkonstruksi tes, kita dapat, misalnya, menggunakan tes tipe esai, yang mudah
dibuat tetapi membutuhkan waktu untuk dinilai, atau menggunakan tes pilihan ganda,
yang membutuhkan waktu lebih lama untuk dibuat tetapi mudah dinilai. Dalam hal ini,
jika jumlah siswa atau peserta tes banyak, misalnya 300 siswa, tes pilihan ganda akan
lebih praktis, karena hanya membutuhkan waktu lama dalam menyusun tes tetapi
penilaiannya bisa cepat. Jika jumlah siswa atau peserta tes sedikit, misalnya kurang dari
50 siswa, dapat digunakan tes tipe esai. Dalam hal ini, pembuatan tes tipe esai tidak
memakan waktu lama, dan penilaiannya masih dapat diatur.
Pertimbangan terakhir untuk kepraktisan adalahmencetak gol. Pemberian

skor yang terlalu subyektif akan cenderung menimbulkan masalah reliabilitas.
Masalah ini dijelaskan lebih lanjut pada sub-topik reliabilitas berikut. Terkait
dengan pertimbangan kepraktisan dalam penskoran, misalnya suatu tes harus
diskor dengan mesin khusus yang tersedia jauh dari lokasi tes dan membutuhkan
waktu lama untuk proses penskoran. Ini tidak praktis. Demikian pula, jika misalnya
tes yang dilakukan hanya dalam 15 menit untuk seorang siswa, tetapi
membutuhkan 5 penilai untuk menilai, itu tidak praktis. Untuk tujuan kepraktisan,
jumlah penilai untuk contoh ini harus dikurangi.
B. KEANDALAN
Ciri kedua dari tes yang baik adalah reliabilitas. Reliabilitas berarti konsistensi, yaitu
konsistensi dalam kaitannya dengan siswa atau peserta tes, penilai atau pemberi skor,
penyelenggara tes, dan tes itu sendiri. Ada beberapa faktor yang mempengaruhi
reliabilitas penilaian.
Untuk mendapatkan skor yang dapat diandalkan daripeserta tes, kita perlu memastikan
bahwa peserta tes dalam kondisi fisik dan mental yang baik saat mengikuti tes. Peserta tes
yang tidak fit, lelah, atau dalam suasana hati yang buruk pada saat mengikuti tes,
mungkin tidak dapat berkonsentrasi, dan karena itu tidak dapat menunjukkan kinerja terbaik
atau nyatanya. Dengan kata lain, hasil tesnya mungkin tidak dapat diandalkan. Peserta tes
yang tidak terbiasa dengan prosedur mengerjakan tes juga tidak akan dapat mencapai kinerja
yang optimal dalam tes tersebut. Ini, pada gilirannya, membuat hasil tes tidak dapat
diandalkan. Hasil tes yang tidak dapat diandalkan juga dapat ditunjukkan ketika dalam
kelompok peserta tes beberapa dari mereka mengetahui prosedur tes sehingga mereka dapat
melakukan tes lebih cepat dan lebih mudah, sementara yang lain yang tidak terbiasa dengan
prosedur tes melakukan tes dengan kebingungan. dan ketidakpastian.
Itupenilaiataupencetak golsuatu tes harus memiliki reliabilitas. Mereka harus konsisten

dalam mencetak tes. Ada dua macam reliabilitas penilai, yaitu reliabilitas intrarater dan
reliabilitas antar penilai.Keandalan intra-penilaiberarti konsistensi dalam penilai/pencetak
angka itu sendiri. Jika tes tertulis yang dilakukan oleh siswa A mendapat skor 80 hari ini, dan
seminggu kemudian, penilai yang sama masih memberikan 80 (atau sedikit lebih tinggi atau
lebih rendah) saat dia memberi skor ulang pada tes yang sama untuk siswa ini, itu berarti
bahwa penilai konsisten atau memiliki reliabilitas intra-penilai. Di sisi lain, jika siswa A
mendapat skor 80 hari ini, dan seminggu kemudian dia mendapat skor 60 atau 90 oleh penilai
yang sama, kita katakan bahwa penilai tidak konsisten; dengan kata lain, penilai tidak memiliki
atau memiliki reliabilitas intra-penilai yang rendah.
Masalah reliabilitas seorang rater tidak ditemukan pada tes tipe objektif
penskoran (misalnya benar-salah, menjodohkan, atau pilihan ganda), karena sudah
ada jawaban benar/salah yang jelas, yang disediakan dalam kunci jawaban.
Penilaian dilakukan hanya dengan menghitung jumlah jawaban yang benar.
Masalah reliabilitas dapat terjadi pada penskoran jenis tes subyektif (misalnya
penilaian menulis esai atau berbicara) di mana penskoran bergantung pada
pertimbangan subyektif penilai. Hasil penskoran cenderung tidak dapat diandalkan
jika penilai lelah, harus menilai kertas ujian dalam jumlah besar, bekerja lama
tanpa istirahat, atau melakukan penskoran tanpa rubrik atau panduan untuk
jawaban yang benar. Untuk menghindari ketidakpercayaan, saat melakukan
penilaian, penilai harus bugar, sehat, dan berada di tempat yang nyaman. Jika
kertas ujian terlalu banyak, perlu ada lebih banyak penilai. Juga harus ada jeda
berkala dalam waktu mencetak gol. Jika tes berupa soal esai, harus ada kunci
jawaban atau petunjuk jawaban yang benar. Jika penilai harus menilai esai panjang
atau penampilan berbicara, dia perlu memiliki rubrik sebagai panduan penilaian.
Rubrik penilaian analitik akan lebih baik daripada rubrik penilaian holistik, karena
dalam rubrik penilaian analitik terdapat poin-poin detail dan uraiannya untuk
memandu penilaian.
Agar handal, seorang rater perlu melatih dirinya sendiri dalam menggunakan
rubrik penilaian. Dalam pelatihan, ia dapat menggunakan tolok ukur, yang merupakan
contoh kualitas standar dan skor yang disarankan untuk tanggapan tertulis peserta tes.
Penilai melatih dirinya sendiri untuk menilai sejumlah karya peserta tes dan
membandingkannya dengan tolok ukur. Semakin dekat skor dengan tolok ukur, semakin
dapat diandalkan penilai.
Cara lain untuk melatih reliabilitas penilai adalah dengan membandingkan dua set
skor yang dibuat oleh penilai yang sama. Misalnya, dengan menggunakan rubrik,
seorang penilai menilai 50 esai, dan beberapa hari kemudian dia menilai ulang 50 esai
yang sama, dengan berusaha tidak mengingat skor sebelumnya. Kemudian kedua skor
tersebut dibandingkan dengan menggunakan rumus korelasi, misalnya rumus statistik
product-moment. Hasil perhitungan statistik dapat menunjukkan bahwa kedua
rangkaian skor tersebut berkorelasi tinggi, berkorelasi sedang, atau berkorelasi rendah.
Ketika dua set skor berkorelasi tinggi, itu berarti penilai memiliki reliabilitas intrarater
yang tinggi. Ketika mereka berkorelasi rendah, itu berarti penilai memiliki reliabilitas
intra-penilai yang rendah. Dalam kasus terakhir ini, konsistensi penilai rendah. Penilai
perlu melatih dirinya lagi sampai dia mendapatkan korelasi yang tinggi.
Selain reliabilitas intra-penilai, jenis lain dari reliabilitas penilai adalah

keandalan interrater, yang berarti konsistensi antara dua atau lebih penilai.
Keandalan antar penilai diperlukan ketika dua penilai menilai kumpulan esai yang
berbeda secara mandiri. Hal ini dapat terjadi jika terdapat 100 esai, dan satu penilai
tidak dapat menilai sendirian. Penilai ini membutuhkan penilai lain untuk
membantu menilai esai. 100 esai tersebut dibagi menjadi dua; penilai A mendapat
esai 1 – 50, dan penilai B mendapat esai 51 – 100. Kemudian, kedua penilai menilai
esai secara mandiri. Kami berharap kedua rater ini memiliki persepsi yang sama
terhadap kualitas esai yang mereka nilai. Kami tidak ingin menemukan satu penilai
lebih lunak dalam memberikan skor dan yang lain lebih ketat. Dalam hal ini, kedua
penilai perlu membuat dirinya memiliki persepsi yang sama, atau memiliki
reliabilitas antar penilai.
Ada dua cara untuk mencapai persepsi yang sama atau reliabilitas antar penilai.
Pertama, kedua penilai menilai esai yang sama. Setelah itu, mereka membandingkan
dan mendiskusikan skor yang telah mereka berikan pada esai tersebut, terutama skor
yang berbeda. Mereka menganalisis apakah ada penilai yang terlalu lunak atau terlalu
ketat dalam memberikan skor. Diharapkan kedua penilai mencapai persepsi yang sama
dan memutuskan untuk setuju dengan skor tertentu. Jika latihan ini dilakukan berulang
kali, kedua penilai akan memiliki reliabilitas antar penilai. Itu
cara kedua adalah kedua penilai menilai 50 esai yang sama secara mandiri.
Kemudian, kumpulan 50 skor yang dibuat oleh rater A dibandingkan dengan
kumpulan skor yang dibuat oleh rater B, dengan menggunakan rumus korelasi,
seperti pada perhitungan statistik untuk reliabilitas intra-rater di atas. Jika hasil
menunjukkan bahwa kedua rangkaian skor tersebut memiliki korelasi yang tinggi,
berarti kedua penilai tersebut memiliki reliabilitas antar penilai yang tinggi.
Dengan kata lain, kedua penilai memiliki kesamaan persepsi; oleh karena itu,
mereka dapat menilai esai yang diberikan kepada mereka masing-masing secara
mandiri. Perlu diketahui, bagaimanapun, bahwa cara kedua ini tidak sama dengan
kasus di mana dua penilai menilai kumpulan esai yang sama, dan kemudian
mereka menggabungkan pasangan skor tersebut dan kemudian skor tersebut
dibagi dua. Misalnya, siswa X mendapat 70 dari rater A, dan 80 dari rater B. Maka
skor untuk siswa X adalah 70 + 80 dibagi 2,
Pertimbangan selanjutnya untuk keandalan adalahadministrasi tes.Suatu
administrasi tes dapat dipercaya jika tata cara penyelenggaraannya sesuai dengan apa
yang telah dirancang. Tes mendengarkan yang dilakukan dengan menggunakan suara
dari tape-recorder dapat diandalkan administrasinya jika kualitas suara yang sama dapat
didengar secara merata oleh semua peserta tes. Namun, jika suara dari rekaman dapat
didengar dengan jelas oleh beberapa peserta tes dan tidak jelas oleh beberapa peserta
tes lainnya, administrasi tes mendengarkan tidak dapat diandalkan. Contoh lain dari
administrasi tes yang tidak dapat diandalkan adalah ketika dua kelompok peserta tes
melakukan tes di tempat yang berbeda. Satu kelompok mengerjakan ujian di ruang
kelas dengan kursi dan meja yang baik, dan kelompok lain mengerjakan ujian di
auditorium yang hanya disediakan kursi dan peserta ujian terpaksa menggunakan
karton untuk menulis. Dalam contoh ini, administrasi tes tidak dapat diandalkan karena
kedua kelompok tidak diperlakukan dengan kenyamanan yang sama. Hal-hal lain yang
dapat mempengaruhi keandalan administrasi adalah kebisingan, batas waktu, kondisi
tempat duduk, suhu ruangan, kualitas kertas ujian yang disalin, perilaku pengawas, dll.
Pertimbangan terakhir reliabilitas terkait dengantesdiri. Skor yang tidak dapat

diandalkan dapat disebabkan oleh kualitas tes yang buruk, seperti: instruksi yang tidak
jelas, jawaban yang ambigu, konstruksi soal yang buruk, atau petunjuk untuk jawaban
yang benar/salah. Instruksi yang tidak jelas dapat ditemukan ketika pada item
pencocokan instruksi tidak menyatakan apakah setiap respon (pada kolom kanan) dapat
digunakan hanya sekali atau lebih dari satu kali. Jawaban ambigu terjadi ketika dalam
soal pilihan ganda terdapat dua atau lebih pilihan yang benar. Contoh konstruksi item
yang buruk adalah pertanyaan terbuka yang menanyakan tentang peserta tes
pendapat, di mana setiap jawaban bisa benar. Petunjuk jawaban yang benar ditemukan
ketika pilihan terpanjang dalam soal pilihan ganda adalah jawaban yang benar. Selain
itu semua, tentunya hasil tes yang sangat tidak reliabel dapat disebabkan oleh
kecurangan yang dilakukan oleh peserta tes saat mengerjakan tes, mengetahui jawaban
tes sebelumnya, atau praktik curang dari pengawas, yang menginformasikan jawaban
dari peserta tes. ujian kepada peserta ujian.
Selain itu, masih ada cara lain untuk mengukur suatu reliabilitas tes, yaitu
reliabilitas test-retest, reliabilitas bentuk ekuivalen, reliabilitas split-half, reliabilitas
alpha Cronbach, dan reliabilitas Kuder-Richardson (Djiwandono, 2008: 171-185).
Reliabilitas Tes Ulangdiperoleh dengan mengulang tes yang sama kepada siswa
yang sama. Dalam hal ini, kami membuat satu set tes, kemudian memberikannya
kepada sejumlah siswa, dan mencatat skornya. Setelah beberapa hari, kami
memberikan kembali tes yang sama kepada siswa yang sama, dan mencatat
nilainya. Kemudian skor dari tes pertama dan skor dari tes kedua dikorelasikan
menggunakan rumus korelasi Product-moment. Jika hasil perhitungan statistik
menunjukkan korelasi yang tinggi, berarti test set yang kita buat dapat dipercaya.
Dalam menggunakan teknik test-retest, perlu diperhatikan bahwa waktu antara
dua penyelenggaraan tes tidak boleh terlalu singkat, siswa masih mengingat
jawaban mereka pada tes pertama, dan tidak terlalu lama, sehingga siswa
mendapatkan peningkatan dalam kemampuan mereka. penguasaan bahasa.
Keandalan bentuk yang setaradiperoleh ketika kita membuat dua perangkat
tes yang sama, yaitu memiliki maksud, tujuan, ruang lingkup, jenis tes, dan jumlah
item yang sama. Kemudian, dua set tes diberikan kepada siswa, dan skornya
dikorelasikan seperti dalam prosedur tes-tes ulang yang disebutkan di atas. Jika
hasilnya berkorelasi, berarti kedua rangkaian tes tersebut reliabel.
Keandalan split-halfdapat diukur ketika kita membuat satu set tes dan
memberikannya kepada sejumlah siswa, kemudian skor dipisahkan, yaitu satu set
skor dari item yang berjumlah ganjil dan satu set skor dari item yang berjumlah
genap. Dua set skor dikorelasikan lagi seperti prosedur di atas. Jika hasil
menunjukkan adanya korelasi, berarti rangkaian tes tersebut reliabel. Teknik belah
dua ini didasarkan pada anggapan bahwa butir-butir tes dalam rangkaian tes
tersebut mengalami kesulitan bertahap; oleh karena itu, pasangan bilangan ganjil
dan genap memiliki tingkat kesulitan yang sama.
Keandalan Cronbach-alphadiukur seperti dalam prosedur split-half, tetapi alih-
alih menggunakan rumus product-moment, ia menggunakan rumus Cronbach-
alpha. Ada varian lain dari rumus Cronbach-alpha, yaitu rumus yang digunakan
untuk mengukur reliabilitas skor tes esai.
Yang terakhir adalahkeandalan Kuder-Richardson (KR).. Keandalan KR ini

membutuhkan satu administrasi tes. Jawaban yang dibuat oleh siswa yang
mengerjakan tes diberi skor secara dikotomi, yaitu jawaban benar diberi skor 1 dan
jawaban salah diberi skor 0, kemudian skor dihitung dengan menggunakan rumus
KR. Ada dua versi rumus KR, yaitu rumus K-R20 dan rumus K-R21 yang merupakan
rumus sederhana yang digunakan untuk tes buatan guru.
C.VALIDITAS
Prinsip ketiga tes yang baik dan efektif adalahkeabsahan. Validitas biasanya
diartikan sebagai tes atau penilaian yang digunakan untuk mengukur apa yang
seharusnya diukur. Bagian ini membahas beberapa aspek yang berkaitan dengan
validitas, yaitu validitas terkait isi, validitas terkait kriteria, validitas terkait konstruk,
validitas konsekuensial, dan validitas muka (Brown & Abeywickrama, 2010: 29-36).
Mereka diuraikan di bawah ini.
Validitas terkait kontenmengacu pada validitas isi tes dalam kaitannya dengan
tujuannya. Sebagai contoh, dalam proses belajar-mengajar kita mengajarkan
Language Assessment dengan menggunakan buku Heaton (1988) tentang
asesmen keterampilan berbahasa, tetapi untuk tes sumatif kita menggunakan
bahan tes dari O'Malley dan Pierce (1996) yaitu tentang asesmen otentik. maka
pengujian kami tidak valid. Ketika kami mengajarkan teks naratif kepada siswa
kami, dan kemudian materi tes berupa teks argumentatif, tes kami tidak valid.
Namun, jika kita mengajarkan legendaMalin Kundangkepada siswa kami, dan tes
menggunakan legendaTangkuban Prahu, pengujian kami masih valid, karena
kedua legenda tersebut memiliki jenis teks naratif yang sama.
Terkadang, secara tidak sadar kita melakukan kesalahan dalam validitas isi.
Misalnya, kami ingin membuat tes kosa kata dengan item berikut.
1. Anda harus mencuci tangan dengan ....
A. Sup
B. sabun mandi
C. toko
D. sop
Butir tes ini terlihat seperti tes kosa kata, tetapi sebenarnya ini adalah tes ejaan,
karena peserta tes hanya diminta untuk mengenali ejaan kata yang benar.sabun
mandi. Item tes kosa kata yang benar adalah sebagai berikut.
2. Anda harus mencuci tangan dengan ....

A. pasir
B. sabun mandi
C. lumpur
D. rumput
Pada soal ini peserta tes harus memilih kata yang maknanya sesuai
dengan konteks yang tertera pada stem; Oleh karena itu, item ini valid
sebagai tes kosa kata.
Terkait dengan validitas isi kita harus mengenal dua istilah lain, yaitu uji langsung dan uji
tidak langsung.Tes langsungadalah ketika kita menguji langsung apa yang akan diuji. Misalnya,
jika kita ingin mengetahui apakah peserta tes tahu persis posisi tekanan utama dalam kata
tersebutmengembangkan, kita harus meminta peserta tes untuk melafalkan kata tersebut dan
memeriksa apakah dia memberi tekanan dengan benar (yaitu pada suku kata kedua) atau
tidak. Namun, terkadang sulit atau tidak praktis untuk menggunakan tes langsung karena
keterbatasan waktu atau jumlah peserta tes yang banyak. Dalam hal ini, kita bisa
menggunakantes tidak langsung. Dengan contoh di atas, kita dapat membuat tes tertulis
dengan menulismengembangkan(dalam suku kata yang terpisah) dan mintalah peserta ujian
untuk menentukan apakah penekanannya ada pada suku kata pertama, kedua, atau ketiga. Ini
disebut tes tidak langsung. Tentunya, tes terbaik adalah tes langsung. Tes tidak langsung
memiliki satu kelemahan, yaitu pada contoh di atas, peserta tes mungkin mengetahui bahwa
tekanan ada pada suku kata kedua, tetapi ketika dia benar-benar melafalkan kata tersebut,
bisa saja dia mengucapkannya secara tidak sadar dengan tekanan tersebut. pada suku kata
pertama.
Validitas terkait kriteriaberkaitan dengan apakah tes mencapai kriteria
tertentu. Validitas terkait kriteria memiliki dua macam, yaitu validitas konkuren dan
validitas prediktif. Tes kami memiliki avaliditas bersamaanjika hasilnya didukung
oleh tes valid lainnya. Misalnya, sepengetahuan kami tes TOEFL adalah tes
kecakapan yang valid. Kami membuat satu set tes kecakapan, dan kemudian
diberikan kepada siswa kami, yang telah mengikuti tes TOEFL. Hasil tes kami
dibandingkan dengan hasil tes TOEFL, menggunakan rumus statistik korelasi
(misalnya product-moment). Jika terdapat korelasi yang tinggi antara kedua tes
tersebut, berarti tes yang kita buat memiliki validitas yang bersamaan (dengan tes
TOEFL).
Suatu tes memilikivaliditas prediktifjika dapat memprediksi keberhasilan peserta tes di
masa depan (lihat tujuan prognosis tes seperti yang dijelaskan dalam Kegiatan 1 dalam modul
ini). Misalnya, kami memiliki program untuk melatih guru di tingkat S-2, dan
jadi kami membuat tes dengan tujuan untuk mengetahui apakah para peserta
akan berhasil atau tidak dalam studi mereka di tingkat S-2. Tes diberikan pada
awal program S-2. Pada akhir program S-2 kami menilai keberhasilan para
peserta. Skor ini dibandingkan dengan skor tes yang kami buat dan kelola di
awal program. Jika hasil perbandingan menunjukkan adanya korelasi antara
kedua nilai tersebut, yaitu peserta yang mendapat nilai baik dari tes di awal
program juga mendapat nilai baik untuk keberhasilannya, atau sebaliknya,
maka dapat disimpulkan bahwa tes pada awal program memiliki validitas
prediktif. Ketika suatu tes memiliki validitas prediktif, kita dapat mengatakan
bahwa semakin tinggi hasil tes tersebut, semakin tinggi kemungkinan untuk
berhasil dalam program tersebut.
Berikutnya adalahvaliditas konstruksi, yang berarti bahwa tes harus valid dengan
konstruknya. Konstruksi mengacu pada teori, hipotesis, atau model dari sesuatu (Brown
& Abeywickrama, 2010: 33). Tes membaca dikatakan valid jika sesuai dengan konstruk
membaca, dan tes berbicara harus valid berdasarkan konstruknya. Sekarang apa itu
konstruksi membaca dan apa itu konstruksi berbicara? Seperti yang kita ketahui, tujuan
tes membaca adalah untuk pemahaman; dengan demikian, pemahaman bacaan harus
mencakup pemahaman gagasan utama, informasi yang dinyatakan secara eksplisit,
informasi yang tersirat, makna kosa kata, dan perangkat kohesif. Unsur-unsur
pemahaman ini merupakan konstruk membaca. Apabila suatu tes membaca telah
memasukkan semua unsur tersebut, maka dapat dikatakan bahwa tes membaca
tersebut valid secara konstruk. Hal yang sama terjadi dengan berbicara. Tujuan tes
berbicara adalah untuk mengukur penguasaan lisan yang produktif, yang merupakan
konstruk berbicara. Konstruksi berbicara ini meliputi kelancaran, pengucapan, isi,
organisasi, tata bahasa, dan diksi. Ketika tes berbicara mengukur semua ini, kita dapat
mengatakan bahwa tes tersebut valid secara konstruk. Ini juga berarti bahwa ketika kita
menguji berbicara, dan fokusnya hanya pada panjang ucapan, dapat dikatakan bahwa
tes tersebut tidak memiliki validitas konstruk.
Validitas konsekuensialmengacu pada dampak tes bagi peserta tes. Ketika kita
menetapkan bahwa ujian akhir, misalnya, harus dilakukan melalui internet,
konsekuensinya peserta ujian harus dipersiapkan untuk dapat menggunakan ujian
berbasis internet. Jika tidak, tes kami tidak akan valid karena peserta tes mungkin
terganggu oleh ketidakmampuan untuk menggunakan internet. Masalah validitas
konsekuensial juga dapat terjadi ketika kita menggunakan jenis tes tertentu, dan
beberapa peserta tes yang mampu membayar untuk pembinaan tes akan
mengerjakan tes lebih baik daripada mereka yang tidak mendapatkan pembinaan.
Dalam hal ini, tes memiliki masalah validitas konsekuensial, karena tidak adil bagi
semua peserta tes. Hal ini terjadi di Indonesia dalam menghadapi ujian nasional,
dimana sejumlah siswa yang lebih mampu secara finansial mengikuti bimbingan belajar
di lembaga belajar swasta.
Jenis validitas yang terakhir adalahmenghadapi validitas, yang menyangkut
penampilan tes. Kita mungkin berpikir bahwa tes tertulis sepertinya tidak cocok untuk
tes berbicara, atau tes tata bahasa pilihan ganda sepertinya tidak cocok untuk tes
menulis. Dalam dua contoh ini, yaitu tes tertulis untuk berbicara dan tes tata bahasa
untuk menulis, tes tersebut tidak memiliki validitas muka. Kekurangan tes terletak pada
konstruk berbicara dan menulis yang tidak lengkap. Validitas muka yang benar adalah
ketika berbicara diuji melalui berbicara dan menulis diuji melalui menulis.
D. KEASLIAN
Keaslian dapat berarti derajat kedekatan tugas tes dengan tugas

kehidupan nyata dalam bahasa sasaran (Bachman & Palmer, 1996: 23).
Mengenai ciri-cirinya, Brown dan Abeywickrama (2010: 37) menyebutkan
bahwa penilaian autentik:
1. mengandung bahasa yang sealami mungkin
2. memiliki item yang dikontekstualisasikan daripada diisolasi
3. mencakup topik yang bermakna, relevan, menarik
4. menyediakan beberapa organisasi tematik untuk item, seperti melalui alur cerita
atau episode
5. menawarkan tugas yang meniru tugas dunia nyata
Contoh daribahasa alamidalam interaksi lisan dapat dilihat pada

dialog berikut.
A.Siapa namamu?
B.Sintha
C.Dari mana asalmu?
D.Malang
Dalam dialog semacam itu, terkadang seorang guru meminta siswanya untuk menjawab
pertanyaan di atas dengan menggunakan kalimat lengkap, seperti berikut ini.
A.Siapa namamu?
B. Nama saya Sintha
C.Dari mana asalmu?
D. Saya dari Malang
Jawaban lengkap yang dibuat oleh B dalam contoh ini tidak mencerminkan bahasa Inggris
natural seperti yang digunakan oleh penutur asli. Untuk penilaian autentik kita harus menggunakan
bahasa Inggris natural, seperti yang dipersyaratkan dalam metode CLT.

Contoh darites kontekstualt adalah saat kita menguji kosa kata. Daripada
bertanya:
- Tuliskan arti kata "sepele"
lebih baik memiliki item berikut:

- “Para siswa berpikir bahwa ujian itu sulit, tetapi guru menganggapnya sebagai
remeh .” Kata yang digarisbawahi berarti ....
Item pertama menggunakan kata yang terisolasi, tetapi item kedua

dikontekstualisasikan, dan membantu peserta tes menemukan jawabannya. Contoh soal tes
kontekstual lainnya adalah ketika guru bertanya:
- Muthia, jika kamu bertemu gurumu di supermarket pada jam 7 malam, bagaimana kamu
akan menyapanya?
Item tes seharusnyaberarti. Contoh item yang bermakna adalah sebagai

berikut:
Guru :Budi, temanmu, Amelia, mengadakan pesta ulang tahun minggu lalu.
Sebenarnya, kamu ingin datang, tapi dia tidak mengundangmu. Apa yang akan kamu
katakan saat bertemu dengannya?
Jawaban yang diharapkan untuk item ini adalah:“Jika Anda mengundang saya, saya akan melakukannya
datang."
Contoh berikut tidak bermakna.
Guru : Ulangi setelah saya. “Dian dan Renza belajar bahasa Inggris.” Siswa :
Dian dan Renza belajar bahasa Inggris.
Guru : Ubah menjadi “masa lalu”.
Siswa : Dian dan Renza belajar bahasa Inggris. Guru :
Ubah menjadi “berkelanjutan”. Siswa : Dian dan Renza
sedang belajar bahasa Inggris.
Dalam contoh ini, drill tidak bermakna, karena meskipun siswa dapat menggunakan
bentuk lampau dan bentuk kontinu dengan benar, mereka mungkin tidak mengetahui
bagaimana dan kapan menggunakan bentuk kalimat. Seorang guru sering berfokus pada
bentuk daripada makna; oleh karena itu, latihan ini tidak bermakna.
Ciri keaslian selanjutnya adalahtematikorganisasi penilaian. Daripada

menggunakan kalimat yang tidak nyambung untuk menilai penggunaan tenses, lebih
baik menggunakan sebuah petikan atau cerita, yang dapat memberikan konteks
penggunaan bentuk tenses tertentu.
Fitur terakhir dari keaslian adalah bahwa tugas tes harus ditirukehidupan nyata tugas.
Dicto-comp merupakan salah satu contoh tugas di kehidupan nyata, karena dalam dicto-comp
siswa diminta untuk mendengar sesuatu yang disampaikan oleh guru sambil mencatat,
kemudian mereka menulis ulang apa yang telah diberitahukan kepada mereka. Praktek ini
meniru kehidupan nyata, di mana seorang sekretaris mencatat instruksi yang disampaikan
kepadanya, dan kemudian menulis ulang apa yang diharapkan dari instruksi tersebut. Contoh
lain dari fitur penilaian autentik dalam kehidupan nyata adalah tes membaca yang teksnya
dipilih dari isu terkini yang diadopsi atau diadaptasi dari surat kabar, majalah, brosur, dll.
E.WASHBACK
Prinsip kelima atau terakhir dari tes yang baik dan efektif adalah
washbackatau pencucian balik. Washback dapat didefinisikan sebagai
pengaruh tes atau penilaian terhadap pengajaran, pembelajaran, pembelajar,
atau pemerintah dan masyarakat. Washback bisa positif atau negatif.
Misalnya, karena ada ujian tulis dalam ujian nasional, guru yang tadinya
enggan mengajar menulis, kemudian mengajar menulis. Mengetahui bahwa
ujian selalu menantang siswa, maka siswa termotivasi untuk belajar dan
membuat persiapan ujian yang lebih baik. Ini adalah contoh washback positif.
Namun ketika guru mengetahui bahwa UN selalu menggunakan butir-butir
tes pilihan ganda, maka dalam kegiatan belajar mengajar guru melatih
siswanya bagaimana mengerjakan tes pilihan ganda, lupa mengajarkan siswa
proses belajar, ini adalah contoh negatif. washback. Atau, mengetahui ujian
pilihan ganda, siswa sibuk mempersiapkan strategi yang efektif untuk
menyontek. Ini adalah washback negatif terburuk.
Washback berbeda dengan umpan balik.Masukanadalah angka, huruf,
komentar atau saran yang diberikan terhadap hasil karya siswa agar siswa mengetahui
kualitas hasil karyanya. Namun, umpan balik yang baik bisa menjadi pembalasan yang
positif. Misalnya, ketika mengembalikan pekerjaan menulis siswa, guru menulis:“Saya
suka tulisan Anda. Konten tersebut menunjukkan bahwa Anda tahu banyak tentang
topik tersebut. Satu-satunya hal yang perlu Anda tingkatkan adalah ejaan.”Ketika umpan
balik ini mendorong siswa untuk meningkatkan penguasaan ejaannya, maka umpan
balik guru memiliki dampak positif bagi siswa.
LATIHAN 4
1) Di dalam kelasnya sendiri, apakah boleh seorang guru menjawab pertanyaan siswa
tentang ulangan? Menjelaskan.
2) Apa itu penilaian analitik?
3) Apa kendalanya ketika tes tertulis dibuat dalam bentuk menyusun ulang kalimat
menggunakan format pilihan ganda?
4) Mengapa keandalan intra-penilai penting?
5) Apa perbedaan antara washback dan umpan balik?
RINGKASAN
Dalam Kegiatan Pembelajaran ini, kita belajar bahwa penilaian yang baik
dan efektif harus ditandai dengan kepraktisan, reliabilitas, validitas, keaslian,
dan washback positif. Kepraktisan berkaitan dengan biaya tes, batas waktu
pengerjaan tes, kemudahan administrasi, sumber daya manusia, konstruksi
tes, dan kemudahan penilaian. Reliabilitas mengacu pada faktor siswa,
reliabilitas intra dan antar penilai, reliabilitas penyelenggaraan tes, dan
reliabilitas tes itu sendiri. Validitas dapat berupa validitas isi, validitas terkait
kriteria (validitas konkuren dan validitas prediktif), validitas konstruk, validitas
konsekuensial, dan validitas muka. Keaslian ditandai dengan penggunaan
bahasa alami, item tes yang dikontekstualisasikan, topik yang bermakna,
tematik, dan tugas dunia nyata. Terakhir, washback berarti dampak penilaian
pada pengajaran, pembelajaran, pembelajar, atau pemerintah dan
masyarakat. Mungkin sulit untuk memenuhi semua karakteristik ini, tetapi
disarankan agar sebuah tes mempertimbangkan sebanyak mungkin
karakteristik.
UJI FORMATIF 4
1) Mengapa hilangnya konsentrasi peserta tes dalam mengerjakan tes menyebabkan hasil tes
tidak dapat diandalkan?
2) Dalam ujian masuk perguruan tinggi, sering kali pengawas dilarang menjawab
pertanyaan peserta ujian. Mengapa?
3) Berikan contoh perilaku pengawas di ruang ujian yang menyebabkan tidak dapat
diandalkan.
4) Berikan alasan mengapa bor mekanik/substitusi dianggap tidak
bermakna.
5) Washback seperti apa yang mungkin terjadi jika guru membiarkan siswanya
mencontek dalam ujian akhir?
Catatan:
Untuk membaca lebih lanjut tentang isi modul ini, Anda disarankan untuk
membaca:
- coklat (2004)
- Coklat dan Abeywickrama (2010)
- O'Malley dan Pierce (1996)
- Bendungan (1990)
Lihat detail sumber-sumber ini dalam daftar referensi di bagian akhir modul
ini.
ujian Anda.
Rumus:
Nomor jawaban reigh

Jumlah item
80 - 89% = Bagus
70 - 79% = memadai
Kunci Jawaban
Di bawah ini adalah kunci latihan dan tes sumatif. Sangat penting dalam kunci adalah
gagasan kunci; Karena itu; jawaban Anda mungkin menggunakan kata-kata yang berbeda.
Dalam beberapa pertanyaan Anda mungkin memiliki jawaban yang berbeda. Jika Anda tidak
yakin dengan jawaban Anda, Anda dapat menghubungi tutor/instruktur di Universitas
Terbuka.
Latihan 1
1) Penilaian adalah bagian dari pengajaran.
2) Penilaian bersifat deskriptif dan evaluasi bersifat menghakimi.

3) Penilaian sumatif adalah penilaian yang dilakukan pada akhir suatu mata pelajaran
atau program, untuk mengukur pencapaian siswa.
4) Penilaian seleksi dilakukan sebelum program dimulai, untuk menyeleksi
calon yang memenuhi kuota; dan screening assessment dilakukan pada
akhir program, untuk memilih peserta tes yang lulus MPL.
5) Penilaian formatif dianggap sebagai penilaian prestasi karena
mengukur kemajuan siswa dalam mencapai tujuan pembelajaran.
Latihan 2
1) Strateginya adalah Stimulus-Response-Reinforcement.
2) Hipotesis sifat kesatuan menyatakan bahwa penguasaan unsur bahasa dan
keterampilan berbahasa berkorelasi.
3) Ini adalah kompetensi sosiolinguistik.
4) Tidak asli karena di supermarket tidak ada tawar-menawar.
5) Menceritakan atau menceritakan kembali sebuah cerita adalah praktik umum dalam situasi kehidupan nyata.
Latihan 3
1) Itu dipromosikan oleh penggunaan tes konvensional yang tidak memuaskan.
2) Karena penilaian didasarkan pada apa yang dilakukan atau dilakukan oleh
peserta tes.
3) O'Malley dan Pierce menggunakan istilah penilaian otentik dan
penilaian kinerja.
4) Pengujian berbasis komputer menggunakan program komputer, dan pengujian berbasis internet
menggunakan web internet.

5) KI-4 atau kompetensi keahlian.
Latihan 4
1) Ya, jika siswa meminta penjelasan tentang petunjuk tes atau arti dari
butir-butir tes tertentu.
2) Penskoran analitik adalah penskoran dengan menggunakan poin-poin detail dan uraiannya
untuk memandu penilai dalam menskor.
3) Memiliki masalah dengan validitas muka; Tes tulis harus menunjukkan kemampuan
peserta tes dalam menghasilkan sebuah tulisan.
4) Karena penilaian yang dilakukan oleh seorang rater harus objektif dan adil.
5) Umpan balik adalah surat, angka, komentar, atau saran yang diberikan kepada
peserta tes untuk menunjukkan kualitasnya, sedangkan washback adalah dampak
tes terhadap peserta tes, guru, proses belajar mengajar, dll.
Tes Formatif 1
1) Keuntungan: TOEFL sudah tersedia, mudah dinilai, dapat digunakan untuk
sejumlah besar siswa. Kekurangan: mahal, mungkin tidak sesuai dengan
bahan ajar.
2) Misalnya, Siswa A memiliki masalah dalam pengucapan beberapa gugus konsonan,
misalnya /-gz/, /-bd/, dan /-pt/.
3) Kelebihan kelas homogen adalah mudahnya seorang guru mengajar karena
kemampuan siswa relatif sama; namun kelemahannya adalah siswa yang
berkemampuan rendah akan merasa rendah diri atau kehilangan motivasi dalam
belajar. Kelebihan kelas heterogen adalah siswa yang berkemampuan rendah
dapat belajar dari siswa yang berkemampuan tinggi; namun kelemahannya adalah
sulit bagi seorang guru untuk mengajar siswa dengan kemampuan yang sangat
bervariasi.
4) Sekolah harus meminta peneliti untuk memberikan salinan laporan
penelitian kepada sekolah, dan guru di sekolah harus menggunakan hasil
penelitian untuk perbaikan siswanya.
5) Merupakan penilaian yang bukan tes. Ini menggambarkan kemampuan siswa dalam
berbicara. Ini bukan evaluasi, karena tidak memberikan penilaian kepada siswa.
Tes Formatif 2
1) Karena menekankan pengajaran struktur atau tata bahasa.
2) Misalnya, bahasa Inggris memiliki berbagai bentuk kata kerja untuk menunjukkan waktu terjadinya,
sedangkan bahasa Indonesia tidak memiliki (atau, bisa ada jawaban lain)
3) Karena dikte melibatkan kemampuan mendengarkan, mengeja,

pengenalan kosa kata, pemahaman, dan tata bahasa harapan.
4) Kompetensi linguistik tidak menunjukkan kemampuan peserta tes untuk menunjukkan
kemampuannya menggunakan apa yang harus dikatakan, kepada siapa, kapan dan di
mana.
5) Hanya untuk tujuan kepraktisan, yaitu waktu yang terbatas dan administrasi tes yang lebih
sederhana.
Tes Formatif 3
1) Dapat dilakukan pada waktu dan tempat peserta ujian sendiri.
2) Konteks dunia nyata berarti peniruan kegiatan dalam kehidupan nyata.
3) Misalnya, tes hanya dapat dibuka oleh administrator tes yang berwenang.
(Mungkin ada jawaban lain yang memungkinkan).
4) Itu milik domain kognitif.
5) Gaya auditori yaitu gaya belajar melalui menyimak, gaya visual yaitu
gaya belajar melalui melihat, dan gaya kinestetik yaitu gaya belajar
melalui perbuatan.
Tes Formatif 4
1) Karena hasil tes mungkin tidak menunjukkan kemampuan sebenarnya dari peserta
tes
2) Alasannya, dalam ujian masuk perguruan tinggi pengawas dicegah untuk
memberikan jawaban yang salah, meskipun hanya pertanyaan klarifikasi.
3) Misalnya, seorang pengawas berdiri di samping peserta ujian sehingga peserta ujian
tidak dapat berkonsentrasi. (Mungkin ada jawaban lain yang mungkin.)
4) Karena sebagian besar bor mekanik/substitusi fokus pada bentuk/pola, dan bukan
pada makna atau penggunaan.
5) Dapat terjadi pembalikan negatif, di mana siswa tidak mempersiapkan ujian dengan
serius, mengetahui bahwa mereka dapat menyontek.
Referensi
Bachman, LF 1990.Pertimbangan Mendasar dalam Pengujian Bahasa.

Oxford: Oxford University Press.
Bachman, LF dan Palmer, AS 1996.Pengujian Bahasa dalam Praktek. Baru

York: Oxford University Press.
Coklat, HD 2004.Penilaian Bahasa: Prinsip dan Ruang Kelas

Praktek.White Plains, NY: Pendidikan Pearson.
Brown, HD dan Abeywickrama, P. 2010.Penilaian Bahasa: Prinsip

dan Praktik Kelas (2tedisi).White Plains, NY: Pendidikan Pearson.
Burke, K.2009.Bagaimana Menilai Pembelajaran Otentik (5thedisi).Ribu

Oaks, CA: Corwin.
Heaton, JB 1988.Menulis Tes Bahasa Inggris (Edisi Baru). London:

Longman.
Hill, BC, Ruptic, C., dan Norwick, L. 1998.Penilaian Berbasis Kelas.

Norwood, MA: Christopher-Gordon.
Hughes, A.1989.Pengujian untuk guru bahasa. Cambridge: Cambridge

Pers Universitas.
Kemdikbud. 2013.Peraturan Menteri Pendidikan dan Kebudayaan RI No.

81A tentang Implementasi Kurikulum. Lampiran IV: Pedoman Umum
Pembelajaran. Jakarta: Kemdikbud.
Oller, JW 1979.Tes Bahasa di Sekolah: Pendekatan Pragmatis. London:

Longman.
O'Malley, JM dan Pierce, LV 1996.Penilaian Otentik untuk Bahasa Inggris

Pelajar Bahasa: Pendekatan Praktis untuk Guru. White Plains, NY:
Addison Wesley.
Popham, WJ 1978.Pengukuran yang mengacu pada kriteria. Tebing Englewood,

NJ: Prentice-Hall.
Richards, JC dan Rodgers, TS 2001.Pendekatan dan Metode di

Pengajaran Bahasa (2tedisi). Cambridge: Cambridge University
Press.
Saukah, A.2013.Penilaian Pembelajaran Bahasa. Malang: UM Press.
Weir, CJ 1990.Tes Bahasa Komunikatif. New York: Prentice

Aula.

Asesmen en Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Asesmen en Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

Definisi dan Prinsip dari

Fachrurrazy, MA, Ph.D.

T ini adalah yang pertama dari rangkaian sembilan modul Asesmen

Dengan mempelajari modul ini diharapkan mahasiswa mampu:

3. mengidentifikasi masalah saat ini dalam pengujian, dan

4. Menjelaskan prinsip penilaian bahasa yang baik dan efektif.

3. isu terkini dalam pengujian kelas;

Definisi dan Tujuan Penilaian

A. DEFINISI PENGUJIAN, PENGUKURAN, PENILAIAN, DAN

Dalam bidang belajar mengajar, kita sering menemukan istilah-istilah

Pengukuranmengacu pada kuantifikasi hasil tes. Biasanya berupa angka

siswanya saat mereka bekerja dalam kelompok, dan memberikan komentar

(Diadopsi dengan sedikit penyesuaian dari Bachman, 1990: 23)

Seperti terlihat pada gambar di atas, Bachman tidak memasukkan

(Diadopsi dari Brown dan Abeywickrama, 2010: 6)

Tes atau penilaian dapat melayani beberapa tujuan, yaitu:seleksi,

Ada kemungkinan untuk menggabungkan seleksi dan penyaringan.

Penilaian dapat dilakukan di tengah atau akhir kursus atau program

TIDAK. Jenis Tujuan Objektif Waktu

1. Pilihan memilih sebelum suatu program

2. Penyaringan untuk menyaring akhir suatu program

Selain tujuan, ada tiga jenis penilaian lainnya, berdasarkan materi

penilaian berdasarkan tujuan; sedangkan disini kita melihatnya dari segi

Yang ketiga adalahbakatpenilaian. Isi penilaian ini ditentukan

pertanyaan di bawah ini.

1) Dimana letak penilaian dalam pengajaran?

3) Apa itu penilaian sumatif?

Dari penjelasan di atas dapat kita simpulkan bahwa tes, pengukuran,

5) Ketika seorang guru menggambarkan kemampuan siswa, seperti, “Untuk

Nomor jawaban reigh

Tingkat penguasaan: 90 - 100% = sangat bagus

Tren/Pendekatan dalam Bahasa

T Tujuan dari kegiatan pembelajaran kedua ini adalah untuk mengidentifikasi

Kita mungkin telah mengetahui bahwa ada berbagai metode dalam

siswa mengidentifikasi atau mendefinisikan part of speech, atau menyebutkan cara

B. PENDEKATAN TITIK DISKRIT

dipengaruhi oleh aliran Behaviorisme dalam psikologi, yaitu penggunaan Stimulus-Response-Reinforcement

Pada tahun 1980-an, pendekatan Psikometri-strukturalis kemudian

Tes integratif, seperti namanya, menggabungkan atau

D. PENDEKATAN PENGUJIAN KOMUNIKATIF

Perkembangan metode Communicative Language Teaching (CLT)

E. PENDEKATAN BERBASIS KINERJA

Sesuai dengan konsep CLT, trend penilaian bahasa berubah dari

F. TUJUAN INSTRUKSIONAL KHUSUS

Setelah memelajari materi pada unit 2, Anda diharapkan dapat:

pertanyaan di bawah ini.

1) Bagaimana strategi belajar mengajar yang dikemukakan oleh Behaviorisme?

2) Apa yang dimaksud dengan "hipotesis sifat kesatuan"?

Jawab pertanyaan berikut.

1) Mengapa Pendekatan titik-diskrit disebut juga pendekatan Strukturalis?

Nomor jawaban reigh

Tingkat penguasaan: 90 - 100% = sangat bagus

Isu Terkini dalam Penilaian Bahasa

L Earning Kegiatan 2 di atas membahas tren pendekatan penilaian

Sebelum dekade terakhir dari 20thabad, istilah yang sering digunakan

Penilaian Tradisional Penilaian Alternatif

Penilaian Tradisional Penilaian Alternatif

Catatan: Istilah-istilah pada tabel di atas yang perlu dijelaskan adalah,

9. sensitif secara multikultural jika dikelola dengan benar

11. mendorong pengungkapan standar dan kriteria pemeringkatan secara terbuka

Istilah lain,penilaian otentik, yang dikemukakan oleh O'Malley dan Pierce

B. PENGUJIAN BERBASIS KOMPUTER