Anda di halaman 1dari 9

Halaman 1

1
4.0
RINGKASAN
Topik 4 mendefinisikan prinsip-prinsip dasar penilaian (keandalan, validitas, kepraktisan,
kemunduran, dan keaslian) dan sub-kategori penting dalam keandalan dan
keabsahan.
4.1
HASIL PEMBELAJARAN
Pada akhir topik ini, Anda akan dapat:
1.
mendefinisikan prinsip-prinsip dasar penilaian (reliabilitas, validitas,
kepraktisan, kemunduran, dan keaslian) dan sub-esensial
kategori dalam keandalan dan validitas;
2.
menjelaskan perbedaan antara validitas dan reliabilitas;
3.
membedakan berbagai jenis validitas dan reliabilitas dalam tes
dan instrumen lain dalam penilaian bahasa.
4.2
KERANGKA KERJA TOPIK
TOPIK 4
PRINSIP DASAR PENILAIAN
Jenis dari
Tes
Keandalan
Keabsahan
Kepraktisan
Objektivitas
Interpretabilitas
Keaslian
Efek Washback

Halaman 2
2
ISI
4.3 SESI EMPAT (3 jam)
PENGANTAR
Penilaian adalah proses yang kompleks dan berulang yang membutuhkan keterampilan, pemahaman,
dan pengetahuan-dalam menjalankan penilaian profesional. Dalam proses ini, ada
lima kriteria penting yang harus diperiksa oleh penguji untuk “menguji suatu tes”: keandalan,
validitas, kepraktisan, kemunduran, dan keaslian. Karena kelima prinsip ini adalah
tergantung konteks, tidak ada urutan prioritas yang tersirat dalam urutan presentasi.
4.4
KEANDALAN (konsistensi)
Keandalan berarti sejauh mana alat penilaian menghasilkan stabil
dan hasil yang konsisten. Ini adalah konsep, yang mudah disalahpahami (Feldt &
Brennan, 1989).
Keandalan pada dasarnya menunjukkan konsistensi, stabilitas, ketergantungan, dan
akurasi hasil penilaian '(McMillan, 2001a, hal.65 dalam Brown, G. et al, 2008).
Karena ada variabilitas yang luar biasa dari guru atau penguji ke pengajar / penguji
yang mempengaruhi kinerja siswa, dengan demikian keandalan dalam perencanaan, implementasi, dan
penilaian kinerja siswa menimbulkan penilaian yang valid.
Pada dasarnya, tes yang andal (dapat dipercaya) konsisten dan dapat diandalkan. Jika
penguji mengelola tes yang sama untuk peserta tes yang sama atau peserta tes yang cocok pada
dua keadaan, tes harus memberikan hasil yang sama. Dalam rantai validitas, itu
menyatakan bahwa administrator pengujian harus yakin bahwa kinerja penilaian harus
dilakukan dengan benar. Jika skor yang digunakan oleh tester tidak mencerminkan secara akurat apa
peserta ujian benar-benar melakukannya, tidak akan dihargai oleh penanda lain, atau tidak
diterima pada penilaian yang sama, maka skor ini kurang dapat diandalkan. Terjadi kesalahan
dalam penilaian dengan cara apa pun - misalnya, memberi Level 2 ketika pemberi penilaian lain akan
memberi
Level 4, menambahkan nilai yang salah, menyalin skor dari kertas tes ke database
secara tidak akurat, siswa berprestasi dengan sangat baik pada paruh pertama penilaian dan
buruk di babak kedua karena kelelahan, dan sebagainya. Dengan demikian, kurangnya keandalan dalam
skor yang diterima siswa adalah hadiah untuk validitas.
Menurut Brown (2010), tes yang dapat diandalkan dapat digambarkan sebagai berikut:
❖ Konsisten dalam kondisinya di dua administrasi atau lebih
❖ Memberikan arahan yang jelas untuk penilaian / evaluasi
❖ Memiliki rubrik yang seragam untuk penilaian / evaluasi
❖ Memanfaatkan aplikasi rubrik tersebut secara konsisten oleh pencetak gol
❖ Berisi item / tugas yang tidak ambigu bagi peserta tes

Halaman 3
3
4.4.1 Keandalan Penilai
Ketika manusia terlibat dalam prosedur pengukuran, ada a
kecenderungan kesalahan, bias dan subjektivitas dalam menentukan skor
tes serupa. Ada dua macam reliabilitas penilai yaitu reliabilitas antar penilai
dan keandalan intra-rater.
Reliabilitas antar penilai mengacu pada tingkat kesamaan antara penguji yang berbeda atau
penilai; dapat dua atau lebih penguji / penilai, tanpa saling mempengaruhi, memberikan
tanda yang sama untuk set script yang sama (kontras dengan reliabilitas antar penilai).
Salah satu cara untuk menguji reliabilitas antar penilai adalah dengan meminta setiap penilai menetapkan
setiap butir uji
skor. Misalnya, setiap penilai dapat mencetak item pada skala dari 1 hingga 10.
Selanjutnya, Anda akan menghitung korelasi (koneksi) antara dua peringkat
untuk menentukan tingkat reliabilitas antar penilai. Cara lain untuk menguji
Keandalan penilai adalah meminta penilai menentukan kategori mana setiap pengamatan
jatuh ke dalam dan kemudian menghitung
persentase perjanjian antara
penilai. Jadi, jika penilai setuju 8 dari 10 kali, tes memiliki 80% antar penilai
tingkat keandalan . Keandalan penilai dinilai dengan memiliki dua atau lebih independen
juri menilai tes. Skor kemudian dibandingkan untuk menentukan
konsistensi estimasi penilai.
Keandalan intra-rater adalah faktor internal. Dalam keandalan intra-rater, itu
utama
tujuannya adalah konsistensi dalam penilai. Misalnya, jika penilai (guru)
telah
banyak kertas ujian untuk ditandai dan tidak punya cukup waktu untuk ditandai
mereka, dia mungkin lebih peduli dengan yang pertama, katakanlah, sepuluh kertas, daripada
sisanya. Ketidakkonsistenan ini akan memengaruhi nilai siswa; sepuluh yang pertama
mungkin mendapatkan skor yang lebih tinggi. Dengan kata lain, sementara antar penilai
keandalan
melibatkan dua atau lebih penilai, keandalan penilai adalah konsistensi
dinilai oleh satu penilai tunggal. Skor pada tes dinilai oleh penilai tunggal / juri di
waktu yang berbeda. Ketika kita menilai tes pada waktu yang berbeda, kita mungkin menjadi
tidak konsisten dalam penilaian kami karena berbagai alasan. Beberapa makalah yang dinilai
siang hari mungkin mendapatkan perhatian penuh dan hati-hati kami, sementara yang lain
Dinilai menjelang akhir hari sangat cepat ditutup-tutupi. Dengan demikian,
keandalan intra rater menentukan konsistensi penilaian kami.
Keandalan inter-dan intra-rater layak mendapat perhatian khusus dalam skor tes tersebut
cenderung bervariasi dari satu rater ke rater atau bahkan dari rater yang sama (Clark, 1979).

Halaman 4
4
4.4.2 Uji Keandalan Administrasi
Ada sejumlah alasan yang mempengaruhi keandalan administrasi tes.
Tidak dapat diandalkan terjadi karena gangguan luar seperti kebisingan, variasi dalam
fotokopi, variasi suhu, jumlah cahaya di berbagai bagian
ruangan, dan bahkan kondisi meja dan kursi. Brown (2010) menyatakan
bahwa dia pernah menyaksikan administrasi ujian pemahaman aural
di mana pemutar audio digunakan untuk mengirimkan barang untuk pemahaman, tetapi karena
untuk suara jalanan di luar gedung, peserta ujian duduk di sebelah jendela yang terbuka
tidak bisa mendengar rangsangan dengan jelas. Menurutnya, itu adalah kasus yang jelas
tidak dapat diandalkan yang disebabkan oleh kondisi administrasi tes.
4.4.3 Faktor-faktor yang mempengaruhi Keandalan
Gambar 4.4.3 Faktor-faktor yang mempengaruhi keandalan suatu tes
Hasil suatu tes dipengaruhi oleh banyak faktor. Dengan asumsi bahwa
faktor-faktornya konstan dan tidak dapat berubah, suatu tes dianggap
andal jika nilainya konsisten dan tidak berbeda dari yang setara dan
nilai tes yang andal. Namun, tes tidak bebas dari kesalahan. Faktor itu
mempengaruhi reliabilitas suatu tes termasuk faktor panjang tes, guru dan siswa
faktor, faktor lingkungan, faktor administrasi ujian, dan faktor penandaan.
Sebuah. Faktor panjang tes
Secara umum, tes yang lebih lama menghasilkan keandalan yang lebih tinggi. Karena
Ketergantungan pada kebetulan dan tebakan, skor akan lebih akurat jika
durasi tes lebih lama. Tes objektif memiliki konsistensi yang lebih tinggi

Halaman 5
5
karena tidak terpapar dengan beragam interpretasi. Tes yang valid dikatakan
dapat diandalkan tetapi tes yang andal tidak perlu valid. Skor yang konsisten tidak
perlu mengukur apa yang dimaksudkan untuk diukur. Selain itu, item tes
yaitu sampel subjek yang diuji dan variasi dalam sampel
dapat ditemukan dalam dua tes yang setara dan mungkin ada salah satu penyebab tes
hasil tidak dapat diandalkan.
b.
Faktor Guru-Siswa
Dalam kebanyakan tes, biasanya bagi guru untuk membangun dan mengelola
tes untuk siswa. Dengan demikian, hubungan guru-murid yang baik akan membantu
meningkatkan konsistensi hasil. Faktor lain yang berkontribusi positif
efek terhadap reliabilitas tes termasuk dorongan guru, positif
kondisi mental dan fisik, keakraban dengan format tes, dan ketekunan
(tekad) dan motivasi.
c.
Faktor lingkungan
Lingkungan ujian tentu mempengaruhi peserta tes dan mereka
skor. Lingkungan yang menguntungkan dengan kursi dan meja yang nyaman,
ventilasi yang baik, cahaya yang cukup dan ruang akan meningkatkan keandalan
uji. Sebaliknya, lingkungan yang tidak kondusif akan memengaruhi peserta tes.
kinerja dan uji reliabilitas.
d.
Uji faktor administrasi
Karena nilai siswa tergantung pada cara tes sedang berlangsung
diberikan, administrator pengujian harus berusaha untuk memberikan yang jelas dan
instruksi yang akurat, waktu yang cukup dan pemantauan tes yang cermat
meningkatkan keandalan tes mereka. Teknik uji-ulang bisa
digunakan untuk menentukan reliabilitas tes.
e.
Faktor penandaan
Sayangnya, kita hakim manusia memiliki banyak kesempatan untuk diperkenalkan
kesalahan dalam penilaian esai kami (Linn & Gronlund, 2000; Weigle, 2002)
mungkin saja skor kami membatalkan banyak interpretasi yang kami
ingin membuat berdasarkan jenis penilaian ini. Brennan (1996)
telah
melaporkan bahwa dalam skala besar, panel penandaan taruhan tinggi yang rapat
efek marker terlatih dan dipantau kecil. Karena itu, dapat disimpulkan

Halaman 6
6
bahwa dalam taruhan rendah, penandaan skala kecil, ada kemungkinan kesalahan besar
diperkenalkan oleh spidol individual. Hal serupa juga terjadi pada penanda yang berbeda
berikan nilai yang berbeda untuk jawaban yang sama bahkan dengan tanda yang sudah disiapkan
skema. Penilaian penanda dapat bervariasi dari waktu ke waktu dan dengan
situasi yang berbeda. Sebaliknya, itu tidak terjadi pada tipe objektif
tes karena tanggapan sudah diperbaiki. Dengan demikian, objektivitas adalah syarat bagi
keandalan.
4.5
KEABSAHAN
Validitas mengacu pada basis bukti yang dapat disediakan
kesesuaian kesimpulan, penggunaan, dan konsekuensi yang datang dari
penilaian (McMillan, 2001a). Kesesuaian berkaitan dengan kesehatan
(Akurasi), kepercayaan, atau legitimasi klaim atau kesimpulan (kesimpulan itu
penguji ingin membuat berdasarkan skor yang diperoleh. Jelas, kita harus
mengevaluasi seluruh proses penilaian dan bagian-bagiannya (komponen) dengan cara
nyenyak (tuntas) kita dapat mempertahankan konsekuensi yang muncul dari kesimpulan
dan keputusan yang kita buat. Validitas, dengan kata lain, bukan merupakan karakteristik dari suatu tes
atau
penilaian; tetapi penilaian, yang dapat memiliki berbagai tingkat kekuatan.
Jadi, karakteristik kedua dari tes yang baik adalah validitas, yang mengacu pada apakah
tes ini sebenarnya mengukur apa yang diklaim untuk diukur. Ini penting bagi kita seperti kita
tidak ingin mengajukan klaim tentang apa yang dapat atau tidak dapat dilakukan siswa berdasarkan a
Tes ketika tes sebenarnya mengukur sesuatu yang lain. Validitas biasanya ditentukan
secara logis meskipun beberapa jenis validitas dapat menggunakan koefisien korelasi.
Menurut Brown (2010), tes valid kemampuan membaca sebenarnya mengukur
kemampuan membaca dan bukan 20/20 visi, atau pengetahuan sebelumnya tentang suatu subjek, atau
beberapa
variabel lain dari relevansi yang dipertanyakan. Untuk mengukur kemampuan menulis, orang mungkin
bertanya
siswa menulis sebanyak mungkin kata dalam 15 menit, kemudian cukup hitung
kata-kata untuk skor akhir. Tes semacam itu praktis (mudah dikelola) dan penilaiannya
cukup bisa diandalkan (reliable). Namun, itu tidak akan merupakan (mewakili) tes yang valid
kemampuan menulis tanpa memperhitungkan kelengkapannya (kejelasan), retoris
elemen wacana, dan organisasi ide.
Berikut ini adalah berbagai jenis validitas:
Validitas wajah : Apakah item penilaian tampaknya sesuai?

Halaman 7
7
Validitas konten : Apakah konten penilaian mencakup apa yang ingin Anda nilai?
Telah dipilih sampel bahasa dan keterampilan bahasa yang memuaskan
pengujian?
Bangun validitas : Apakah Anda mengukur apa yang Anda pikir Anda ukur? Apakah ujiannya
berdasarkan teori bahasa dan penggunaan bahasa terbaik yang tersedia?
Validitas paralel (paralel) : Dapatkah Anda menggunakan skor tes saat ini untuk memperkirakan
skor kriteria lainnya? Apakah tes berkorelasi dengan tindakan lain yang ada?
Validitas prediktif : Apakah Anda dapat menggunakan nilai siswa yang ada untuk akurat?
memprediksi nilai siswa di masa depan? Apakah tes berhasil memprediksi masa depan
hasil?
Cukup jelas bahwa penilaian yang valid harus memiliki cakupan yang baik
kriteria (konsep, keterampilan dan pengetahuan) yang relevan dengan tujuan ujian.
Gagasan penting di sini adalah tujuannya.
Gambar 4.5: Jenis Validitas

Halaman 8
8
4.5.1 Wajah validitas
Validitas wajah adalah validitas yang “ditentukan secara impresionis; untuk
contoh dengan bertanya kepada siswa apakah ujian itu sesuai dengan
harapan ”(Henning, 1987). Mousavi (2009) menyebut validitas wajah sebagai
sejauh mana tes terlihat benar, dan muncul untuk mengukur pengetahuan atau
kemampuan yang diklaimnya untuk diukur, berdasarkan penilaian subyektif dari
peserta ujian yang mengambilnya, tenaga administrasi yang memutuskan penggunaannya,
dan pengamat psikometrik tidak canggih lainnya.
Adalah penting (penting) bahwa suatu tes terlihat seperti tes bahkan pada awalnya
kesan. Jika siswa mengikuti ujian jangan merasa bahwa pertanyaan diberikan kepada
mereka bukan tes atau bagian dari tes, maka tes tersebut mungkin tidak valid sebagai
siswa mungkin tidak menganggap serius untuk mencoba pertanyaan. Tes, karenanya,
tidak akan dapat mengukur apa yang diklaimnya untuk diukur.
4.5.2 Validitas konten
Validitas konten berkaitan dengan apakah konten tes atau tidak
cukup representatif dan komprehensif agar tes tersebut valid
mengukur apa yang seharusnya diukur ”(Henning, 1987). Paling banyak
langkah penting dalam memastikan validitas konten adalah memastikan semua konten
domain disajikan dalam tes. Metode lain untuk memverifikasi validitas adalah melalui
penggunaan Tabel Spesifikasi Uji yang dapat memberikan informasi terperinci tentang
setiap konten, tingkat keterampilan, status kesulitan, jumlah item, dan item
representasi untuk peringkat di setiap konten atau keterampilan atau topik.
Kita dapat dengan mudah membayangkan melakukan tes setelah melalui keseluruhan
kursus bahasa. Bagaimana perasaan Anda jika pada akhir kursus, Anda sudah final
ujian hanya terdiri dari satu pertanyaan yang mencakup satu elemen
bahasa dari banyak yang diperkenalkan dalam kursus? Jika bahasanya
kursus adalah kursus percakapan yang berfokus pada situasi sosial yang berbeda
yang mungkin ditemui seseorang, seberapa valid ujian akhir yang mengharuskan Anda
tunjukkan kemampuan Anda memesan di restoran mewah bintang lima
hotel?

Halaman 9
9
4.5.3 Bangun validitas
Konstruk adalah konsep psikologis yang digunakan dalam pengukuran.
Bangun validitas adalah cerminan paling jelas dari apakah suatu tes mengukur
apa yang seharusnya diukur karena secara langsung membahas masalah apa itu
yang sedang diukur. Dengan kata lain, validitas konstruk mengacu pada apakah
konstruksi teoretis yang mendasari bahwa tindakan tes itu sendiri valid.
Kecakapan, kompetensi komunikatif, dan kelancaran adalah contoh dari
konstruksi linguistik; harga diri dan motivasi adalah konstruksi psikologis.
Pada dasarnya setiap masalah dalam pembelajaran dan pengajaran bahasa melibatkan
konstruksi teoritis. Ketika Anda menilai kemampuan lisan siswa
contoh. Untuk memiliki validitas konstruk, tes harus terdiri dari berbagai macam
komponen kelancaran: kecepatan, irama, titik waktu, (kurangnya) keraguan, dan
elemen lain dalam membangun kelancaran. Tes, dengan cara
berbicara, definisi operasional konstruksi dalam tugas-tugas pengujian mereka adalah
blok bangunan entitas yang sedang diukur (lihat Davidson, Hudson, &
Lynch, 1985; T. McNamara, 2000).
4.5.4 Validitas serentak
Validitas serentak adalah penggunaan yang lain yang lebih bereputasi dan
tes yang diakui untuk memvalidasi tes sendiri. Misalnya, anggaplah Anda datang
dengan tes baru Anda sendiri dan ingin menentukan validitas tes Anda. Jika
Anda memilih untuk menggunakan validitas bersamaan, Anda akan mencari tes yang bereputasi dan
bandingkan kinerja siswa Anda pada ujian Anda dengan kinerja mereka pada
tes yang memiliki reputasi dan diakui. Dalam validitas bersamaan, suatu korelasi
Koefisien diperoleh dan digunakan untuk menghasilkan nilai numerik aktual. Tinggi
korelasi positif 0,7 sampai 1 menunjukkan bahwa skor peserta didik relatif
serupa untuk dua tes atau tindakan.
Misalnya, di unit kursus yang tujuannya adalah agar siswa dapat
untuk secara lisan menghasilkan berhenti bersuara dan tidak bersuara di semua fonetik yang mungkin
lingkungan, hasil tes unit satu guru dapat dibandingkan dengan
penilaian independen seperti tes yang diproduksi secara komersial serupa
kemahiran fonemik. Karena bukti yang berhubungan dengan kriteria biasanya termasuk dalam salah
satunya
dua kategori validitas konkuren dan prediktif, sebuah tes kelas yang dirancang
untuk menilai penguasaan titik tata bahasa dalam penggunaan komunikatif akan memiliki

Halaman 10
10
validitas kriteria jika skor tes diverifikasi baik dengan mengamati selanjutnya
perilaku atau dengan langkah-langkah komunikasi lainnya dari titik tata bahasa yang bersangkutan.
4.5.5 Validitas prediktif
Validitas prediktif terkait erat dengan validitas konkuren dalam hal itu juga
menghasilkan nilai numerik. Misalnya, validitas prediktif a
tes penempatan bahasa universitas dapat ditentukan beberapa semester kemudian
dengan mengkorelasikan skor pada tes dengan IPK siswa yang mengambil
uji. Oleh karena itu, tes dengan validitas prediktif tinggi adalah tes yang akan menghasilkan
hasil yang dapat diprediksi dalam ukuran terakhir. Contoh sederhana tes yang mungkin
berkaitan dengan validitas prediktif adalah uji coba ujian nasional dilakukan
di sekolah-sekolah di Malaysia karena dimaksudkan untuk memprediksi kinerja siswa
ujian nasional SPM yang sebenarnya. (Norleha Ibrahim, 2009)
Seperti yang disebutkan sebelumnya validitas adalah konsep yang kompleks, namun sangat penting untuk
pemahaman guru tentang apa yang membuat tes bagus. Adalah baik untuk memperhatikan
Messick's (1989, hlm. 36) mengingatkan bahwa validitas bukanlah proposisi semua atau tidak sama sekali
dan bahwa berbagai bentuk validitas mungkin perlu diterapkan pada suatu ujian untuk
puas dengan efektivitas keseluruhannya.
Apa itu reliabilitas dan validitas? Apa yang menentukan keandalan suatu
uji?
Apa sajakah jenis validitas yang berbeda? Jelaskan tiga jenis dan
mengutip contoh.
http://www.2dix.com/pdf-2011/testing-and-evaluation-in-esl-pdf.php
4.5.6 Kepraktisan
Meskipun kepraktisan merupakan karakteristik penting dari tes, sejauh ini a
faktor pembatas dalam pengujian. Akan ada situasi di mana setelah kita miliki
ditentukan apa yang kami anggap sebagai tes paling valid, kita perlu mempertimbangkan kembali
formatnya murni karena masalah kepraktisan. Tes lisan yang valid
interaksi, misalnya, akan menuntut agar peserta ujian santai, berinteraksi
dengan teman sebaya dan berbicara tentang topik yang mereka kenal dan nyaman.
Ini terdengar seperti jenis percakapan yang dilakukan orang-orang dengan teman-teman mereka
sambil menyeruput teh sore di warung pinggir jalan. Tentu saja situasi seperti itu

Halaman 11
11
akan menjadi ukuran interaksi lisan yang sangat valid - jika kita dapat mengaturnya.
Bayangkan jika kita mencoba melakukannya. Itu akan membutuhkan kamera tersembunyi juga
banyak panggilan telepon dan uang.
Oleh karena itu, bentuk tes yang lebih praktis terutama jika memang demikian
diberikan di tingkat nasional sebagai tes standar, adalah untuk memiliki tes singkat
sesi wawancara sekitar lima belas menit menggunakan mungkin gambar atau bacaan
stimulus yang akan dijelaskan atau didiskusikan oleh peserta ujian. Karena itu kepraktisan
masalah, meskipun dalam batas tertentu, tidak dapat diberhentikan jika kita ingin muncul
dengan penilaian kemampuan bahasa yang berguna. Masalah kepraktisan dapat melibatkan
ekonomi atau biaya, pertimbangan administrasi seperti waktu dan penilaian
prosedur, serta kemudahan penafsiran. Tes hanya sebaik
seberapa baik mereka ditafsirkan. Oleh karena itu tes yang tidak mudah ditafsirkan
pasti akan menimbulkan banyak masalah.
4.5.7 Objektivitas
Objektivitas suatu tes mengacu pada kemampuan guru / penguji yang
tandai skrip jawaban. Objektivitas mengacu pada sejauh mana pemeriksa
memeriksa dan memberi skor pada skrip jawaban yang sama. Tes ini dikatakan
memiliki objektivitas yang tinggi ketika pemeriksa mampu memberikan skor yang sama kepada
jawaban serupa dipandu oleh skema tanda. Tes objektif adalah tes itu
memiliki tingkat objektivitas tertinggi karena skor yang tidak dipengaruhi oleh
keterampilan dan emosi pemeriksa. Sementara itu, tes subjektif dikatakan memiliki
objektivitas terendah. Berdasarkan berbagai penelitian, berbagai penguji cenderung
untuk memberikan nilai yang berbeda untuk tes esai. Mungkin juga sama
penguji akan memberikan skor yang berbeda untuk esai yang sama jika dia akan memeriksa ulang
pada waktu yang berbeda.
4.5.8 Efek pembatalan
Istilah 'washback' atau backwash (Hughes, 2003, p.1) mengacu pada
dampak tes terhadap pengajaran dan pembelajaran. Dampak seperti itu biasanya terlihat
sebagai negatif: tes dikatakan memaksa guru untuk melakukan hal-hal yang tidak mereka lakukan
tentu ingin lakukan. Namun, beberapa berpendapat bahwa tes berpotensi
juga 'pengungkit untuk perubahan' dalam pendidikan bahasa: argumennya adalah bahwa jika a
tes yang buruk berdampak negatif, tes yang baik harus atau bisa memiliki positif
washback (Alderson, 1986b; Pearson, 1988).

Halaman 12
12
Cheng, Watanabe, dan Curtis (2004) menawarkan seluruh antologi untuk
masalah mencuci kembali sementara Spratt (2005) menantang guru untuk menjadi agen
kemunduran bermanfaat di kelas bahasa mereka. Brown (2010) membahas
faktor-faktor yang memberikan kemunduran yang menguntungkan dalam suatu ujian. Dia menyebutkan
bahwa
tes dapat secara positif mempengaruhi apa dan bagaimana guru mengajar, siswa belajar;
menawarkan kesempatan kepada peserta didik untuk mempersiapkan secara memadai, memberikan umpan
balik kepada peserta didik itu
meningkatkan perkembangan bahasa mereka, lebih bersifat formatif daripada
sumatif, dan menyediakan kondisi untuk kinerja puncak oleh peserta didik.
Dalam penilaian skala besar, washback sering merujuk pada efek itu
tes ada pada instruksi dalam hal bagaimana siswa mempersiapkan diri untuk ujian. Di
penilaian berbasis kelas, washback dapat memiliki sejumlah positif
manisfestations, mulai dari manfaat mempersiapkan dan meninjau ujian
untuk pembelajaran yang diperoleh dari umpan balik pada kinerja seseorang. Guru
dapat memberikan informasi yang "mencuci kembali" kepada siswa dalam bentuk yang bermanfaat
Diagnosis kekuatan dan kelemahan.
Tantangan bagi para guru adalah membuat tes kelas yang berfungsi sebagai
perangkat pembelajaran melalui mana washback dicapai. Siswa salah
tanggapan dapat menjadi platform untuk perbaikan lebih lanjut. Di sisi lain
tangan, tanggapan mereka yang benar perlu dipuji, terutama ketika mereka
mewakili prestasi dalam mengembangkan kompetensi siswa. Guru
dapat memiliki berbagai strategi dalam memberikan bimbingan atau pembinaan. Washback
meningkatkan sejumlah prinsip dasar penguasaan bahasa yaitu intrinsik
motivasi, otonomi, kepercayaan diri, ego bahasa, antarbahasa, dan
investasi strategis, antara lain.
Washback umumnya dikatakan positif atau negatif.
Sayangnya, siswa dan guru cenderung memikirkan efek negatif dari
menguji seperti "test-driven" kurikulum dan hanya belajar dan belajar "apa."
mereka perlu tahu untuk ujian ”. Washback positif, atau apa yang kita sukai untuk dipanggil
"Pembatalan terpandu" dapat bermanfaat bagi guru, siswa, dan administrator.
Washback positif mengasumsikan bahwa pengujian dan desain kurikulum keduanya didasarkan
pada hasil kursus yang jelas, yang diketahui oleh siswa dan
guru / penguji. Jika siswa menganggap bahwa tes adalah penanda kemajuan mereka
untuk mencapai hasil-hasil ini, mereka memiliki rasa pencapaian. Di
singkatnya, tes harus menjadi bagian dari pengalaman belajar bagi semua yang terlibat. Positif

Halaman 13
13
washback terjadi ketika tes mendorong praktik mengajar yang baik.
Washback sangat jelas ketika tes atau ujian masuk
pertanyaan dianggap sebagai sangat vital dan memiliki dampak yang pasti pada
masa depan siswa atau peserta ujian. Kita harapkan, misalnya, nasional itu
ujian standar akan memiliki efek washback yang kuat dibandingkan dengan
tes berbasis sekolah atau berbasis kelas.
4.5.9 Keaslian
Prinsip utama lain dari pengujian bahasa adalah keaslian. Ini adalah sebuah
konsep yang sulit untuk didefinisikan, terutama dalam seni dan sains
mengevaluasi dan merancang tes. Mengutip Bachman dan Palmer (1996) dalam Brown
(2010) keaslian adalah "tingkat korespondensi dari karakteristik a
diberikan tugas tes bahasa ke fitur tugas bahasa target "(hal.23) dan
kemudian menyarankan agenda untuk mengidentifikasi tugas-tugas bahasa target dan untuk
mengubahnya menjadi item tes yang valid.
Pembelajar bahasa termotivasi untuk melakukan ketika mereka dihadapkan dengan
tugas yang mencerminkan situasi dan konteks dunia nyata. Pengujian yang bagus atau
penilaian berusaha untuk menggunakan format dan tugas yang mencerminkan jenis situasi
di mana siswa akan secara otentik menggunakan bahasa target. Kapanpun
mungkin, guru harus berusaha menggunakan bahan otentik dalam pengujian
kemampuan bahasa.
4.6.0 Interpretabilitas
Interpretasi tes mencakup semua cara makna itu
ditugaskan untuk
skor. Interpretasi yang tepat membutuhkan pengetahuan
tentang tes,
yang dapat diperoleh dengan mempelajari manualnya dan materi lainnya
sepanjang
dengan literatur penelitian saat ini sehubungan dengan penggunaannya; tidak
satu
harus
melakukan interpretasi skor pada tes apa pun tanpa studi tersebut. Dalam apapun
tes interpretasi, berikut ini
pertimbangan harus dipertimbangkan
Akun.

Halaman 14
14
A. Pertimbangkan Keandalan:
Keandalan penting karena merupakan prasyarat untuk validitas dan karena
sejauh mana skor dapat bervariasi karena kesalahan pengukuran adalah penting
faktor dalam interpretasinya.
B. Pertimbangkan Validitas:
Interpretasi tes yang tepat membutuhkan pengetahuan tentang bukti validitas yang tersedia
untuk tujuan penggunaan tes. Validitasnya untuk penggunaan lain tidak
relevan. Memang, penggunaan pengukuran untuk tujuan yang bukan itu
dirancang dapat merupakan penyalahgunaan. Sifat bukti validitas diperlukan
untuk tes tergantung pada penggunaannya.
C. Skor, Norma, dan Fitur teknis terkait:
Hasil penilaian tes atau subtest biasanya angka yang disebut skor mentah,
yang dengan sendirinya tidak dapat ditafsirkan. Langkah-langkah tambahan diperlukan untuk
menerjemahkan
nomor langsung ke deskripsi verbal (misalnya, lulus atau gagal) atau ke a
skor turunan (misalnya, skor standar). Kurang dari pemahaman penuh tentang ini
prosedur cenderung menghasilkan kesalahan dalam interpretasi dan akhirnya pada
konseling atau kegunaan lain.
D. Variasi Administrasi dan Penilaian:
Kriteria lain untuk interpretasi skor mengasumsikan prosedur standar untuk
administrasi dan penilaian ujian. Berangkat dari kondisi standar dan
prosedur memodifikasi dan sering membatalkan kriteria ini.
Pelajari beberapa tes yang diproduksi secara komersial dan evaluasi keaslian dari
tes ini / item tes.
Diskusikan pentingnya keaslian dalam pengujian.
Berdasarkan sampel penilaian formatif dan sumatif, diskusikan
aspek reliabilitas / validitas yang harus diperhatikan dalam penilaian ini.
Diskusikan langkah-langkah yang dapat dilakukan seorang guru untuk memastikan validitas yang tinggi
penilaian bahasa untuk ruang kelas utama.

Anda mungkin juga menyukai