Anda di halaman 1dari 21

PENGUJIAN DAN PENILAIAN BAHASA

GLENN FULCHER AND FRED DAVIDSON


Nama Kelompok
Gita Novianti (F2161211015)
Yesi (F216121101.)
Bagian A1
Memperkenalkan validitas
"Validitas' dalam pengujian dan penilaian secara tradisional dipahami
sebagai menemukan apakah tes 'mengukur secara akurat apa yang
dimaksudkan untuk diukur' (Hughes, 1989: 22), atau mengungkap
'kelayakan tes yang diberikan atau bagian komponennya sebagai
ukuran dari apa yang hendak diukur' (Henning, 1987: 170).
Pandangan validitas ini mengandaikan bahwa ketika kita menulis
sebuah tes, kita memiliki niat untuk mengukur sesuatu, bahwa
'sesuatu' itu 'nyata’. Penyelidikan validitas menyangkut mencari tahu
apakah tes 'benar-benar mengukur' apa yang dimaksudkan.
3 JENIS VALIDITAS PADA TEORI AWAL

1. Validitas berorientasi kriteria 2. Validitas konten


Validitas isi didefinisikan sebagai segala upaya untuk
Ketika mempertimbangkan validitas berorientasi
menunjukkan bahwa isi tes adalah sampel yang
kriteria, penguji tertarik pada hubungan antara tes
representatif dari domain yang akan diuji. Carroll
tertentu dan kriteria yang ingin kita prediksi.
(1980: 67) berpendapat bahwa mencapai validitas isi
Validitas prediktif adalah istilah yang digunakan
dalam pengujian Bahasa Inggris untuk Keperluan
ketika skor tes digunakan untuk memprediksi
Akademik (EAP) terdiri dari menggambarkan
beberapa kriteria masa depan, seperti keberhasilan
peserta tes, menganalisis 'kebutuhan komunikatif'
akademik.
mereka dan menentukan isi tes berdasarkan
kebutuhan mereka.
3. Validitas konten 4. Konstruk validitas dan kebenaran

Konsep menjadi konstruksi ketika mereka Dari apa yang dapat kami amati, kami kemudian membuat
didefinisikan sedemikian rupa sehingga mereka dapat kesimpulan tentang seberapa 'fasih' atau seberapa 'akurat'
menjadi 'operasional' - kita dapat mengukurnya dalam penggunaan bahasa kedua oleh siswa. Jaringan dibuat
beberapa jenis pengujian dengan menghubungkan dengan menanyakan apa yang kita harapkan dari hubungan
istilah itu dengan sesuatu yang dapat diamati (apakah antara 'kelancaran' dan 'akurasi'. Salah satu hipotesisnya
ini mencentang kotak atau membentuk beberapa adalah bahwa dalam berbicara, ketika kefasihan
tindakan komunikatif), dan kita dapat menetapkan meningkat, akurasi menurun, karena pembelajar tidak
tempat suatu konstruk dalam teori yang dapat memperhatikan bentuk ketika tuntutan pemrosesan
menghubungkan satu konstruk dengan konstruk mengambil semua kapasitas memori jangka pendek.
lainnya (Kerlinger dan Lee, 2000: 40), seperti dalam Hipotesis lain bisa jadi, ketika akurasi meningkat,
kasus kelancaran dan kecemasan di atas. pembelajar menjadi lebih lancar, karena bentuk bahasa
telah menjadi otomatis.
BAGIAN A2
PENILAIAN KELAS

A. PENDAHULUAN
Guru diperkenalkan pada beberapa cara dasar untuk melihat konsistensi dalam
penilaian dan validitas terkait kriteria, seperti koefisien korelasi. Bahkan di teks
yang memiliki lebih banyak tujuan pedagogik, kecenderungan untuk melihat
penilaian kelas dalam hal kategori tradisional seperti 'penempatan' (berkaitan
dengan membangun kebutuhan), pencapaian kemahiran sebagai bagian dari
evaluasi program, dan tes kemajuan untuk menginformasikan pengembangan
pelajaran (Bailey, 1998:39).
PEDAGODI DAN PARADIGMA PENGUKURAN
a. Konteks
◦ Sebaliknya, 'konteks' tes bahasa adalah lingkungan di mana tes berlangsung. Ini adalah ruangan
tempat siswa akan duduk, pengawas atau pengawas yang menunjukkan tempat duduk mereka
dan mengawasi tes, dekorasi, suhu, dan semua faktor lain yang mungkin berdampak pada kinerja
tes seseorang yang mengikuti tes.
b. Tugas dan item
◦ Dalam tes bahasa skala besar tradisional, pelajar dapat menghabiskan waktu antara satu jam dan
lima jam menanggapi sejumlah besar tugas dan item tes, kadang-kadang dipecah menjadi kertas
yang berbeda, diberi label oleh 'keterampilan' seperti membaca, atau mendengarkan. Dalam tes
bahasa skala besar asumsinya adalah bahwa gambaran yang cukup baik tentang kemampuan
pembelajar dapat dicapai hanya jika pembelajar itu menanggapi banyak item yang berbeda.
Selanjutnya, respons terhadap setiap item atau tugas harus independen dari respons terhadap item
atau tugas lainnya
c. Peran penilai
Penilai digunakan, biasanya untuk mengevaluasi kinerja secara tertulis dan berbicara,
biasanya diharapkan mereka tidak mengenal orang yang kinerjanya mereka nilai.
Dalam hal penulisan, biasanya skrip dinilai secara anonim.
d. Merancang dan mengevaluasi
Tes bahasa dirancang oleh guru dengan keterampilan dan pelatihan tertentu dalam
desain tes, atau oleh orang yang berspesialisasi dalam desain tes. Ini bukan karena
tugas tes selalu terlihat berbeda dari tugas kelas tetapi karena tugas tes biasanya
dirancang dengan mempertimbangkan properti tertentu. Di lingkungan belajar kelas itu
adalah umpan balik kepada pelajar, dari sumber apa pun, yang membantunya untuk
mengidentifikasi apa yang perlu dipelajari selanjutnya untuk menjadi seorang pengguna
bahasa yang independen dalam konteks baru.
e. Penilaian berbasis kinerja

Elemen berbasis kinerja dalam pengujian skala besar biasanya terbatas pada sejumlah kecil jenis tugas
terkontrol, biasanya melibatkan menulis dan berbicara. Aktivitas dan penilaian hampir seluruhnya berbasis
kinerja, dan sepenuhnya terintegrasi. Tanggapan dari setiap individu untuk tugas atau item harus independen
dari tanggapan dari individu lain.

Kolaborasi dalam tes biasanya digambarkan lebih merendahkan sebagai menyontek. Satu-satunya
pengecualian untuk ini adalah tes berbicara kelompok yang meskipun masih kontroversial, menjadi lebih
umum (lihat Fulcher, 2003a: 186-190). Namun, dalam konteks kelas kolaborasi dianjurkan, terutama dalam
mengembangkan keterampilan menulis dan penyajian portofolio karya (Chapelle dan Brindley, 2002: 281-
282).
f. Generalisasi makna

Teori validitas dalam pengujian skala besar sangat berkaitan dengan generalisasi makna skor. Artinya,
sejauh mana skor tes tertentu bermakna di luar konteks spesifik tes yang menghasilkan skor? Ketika
reliabilitas diinterpretasikan sebagai konsistensi, sangat jarang untuk menghitungnya dengan cara yang
benar-benar melibatkan pemberian beberapa tes dari waktu ke waktu, atau banyak tugas serupa. Jalan
pintas digunakan, terutama yang memperkirakan konsistensi internal. Ini adalah sejauh mana item atau
tugas independen dalam tes berkorelasi satu sama lain dan skor tes-total. Artinya, ada asumsi bahwa
item menguji hal yang sama, dan cukup membedakan antara siswa yang lebih baik dan yang lebih
lemah.
g. Konsekuensi h. Bukti validitas i. Pemberdayaan dan
Kita dapat melihat bahwa advokasi
Moss (2003) tentang
konsep validitas sama Proses penilaian terpadu
sentralitas konsekuensi untuk
pentingnya di dalam kelas dapat digunakan untuk
penilaian kelas. Perlu
seperti halnya dalam meningkatkan sistem
mengutip bagian yang relevan
konteks pengujian dan pendidikan di luar sekolah
di sini. “Apa pun definisi
penilaian bahasa skala dengan menunjukkan apa
validitas seseorang, dengan
besar. Hanya saja masalah sosiokultural dan
penilaian kelas, memahami
konteksnya sangat sumber daya berdampak
efek ini sangat penting untuk
berbeda. Apa yang pada pembelajaran bahasa
praktik yang baik. Saya
diinginkan dalam satu dan pengembangan
mungkin sejauh ini.
konteks tidak mudah pendidikan umum. Di dalam
Berpendapat bahwa validitas
diterjemahkan ke konteks kelas, konteks pembelajaran
dalam penilaian kelas - di
lain. Namun dalam kedua itu penting, dan konteks itu
mana fokusnya adalah pada
konteks, penting untuk menuntut hal itu
peningkatan pembelajaran
mengumpulkan bukti pengalaman belajar yang
siswa - terutama tentang
yang berkontribusi terintegrasi dan relevan
konsekuensi.
terhadap validitas dengan kebutuhan peserta
keputusan yang dibuat. didik.
BAGIAN A3
Kontruksi dan Model

Kami menganggap 'model' sebagai deskripsi teoretis yang terlalu melengkung dan
relatif abstrak tentang apa artinya dapat berkomunikasi dalam bahasa kedua, dan
kami mencadangkan 'kerangka' untuk menjadi pilihan keterampilan dan
kemampuan dari model yang relevan dengan konteks penilaian tertentu.
A. SIFAT MODEL

McNamara (1996: 48) berpendapat bahwa semua model kemampuan bahasa memiliki tiga dimensi, yang
didasari oleh pernyataan.

 tentang: apa artinya mengetahui bahasa (model pengetahuan)


 faktor yang mendasari yang berkaitan dengan kemampuan menggunakan bahasa (model kinerja)
 bagaimana kita memahami contoh spesifik penggunaan bahasa (penggunaan bahasa yang sebenarnya)
McNamara mencatat bahwa model 'membantu kita untuk mengartikulasikan "alasan teoretis" untuk
kesimpulan seperti itu' karena kita dapat menarik dari nilai tes ke kemampuan tes individu pengambil.
KOMPETENSI KOMUNIKASI CANALE DAN
MODEL SWAIN
Canale dan Swain (1980) menghasilkan model pertama dan paling berpengaruh
dari apa yang mereka sebut 'kompetensi komunikatif, yang direproduksi dalam
Bagian B. Mereka melihat usaha mendefinisikan kompetensi komunikatif
sebagai mengarah pada 'pengajaran bahasa kedua yang lebih berguna dan
efektif, dan memungkinkan pengukuran keterampilan komunikasi bahasa kedua
yang lebih valid dan andal’
1). Untuk penilaian, Canale dan Swain berpendapat bahwa tes perlu
memanfaatkan kedua aspek kompetensi komunikatif (pengetahuan dan
keterampilan) melalui tugas-tugas yang membutuhkan kinerja komunikatif.
ADAPTASI KANAL
1. Memperluas model

◦Canale secara eksplisit menyatakan bahwa 'kompetensi komunikatif mengacu pada kedua pengetahuan
keterampilan terlihat tepi dan keterampilan dalam menggunakan pengetahuan ini ketika berinteraksi dalam
komunikasi yang sebenarnya.

◦Kompetensi komunikatif untuk Canale sekarang terlihat berbeda dari yang sebenarnya dan kebisingan.
Komunikasi, terdiri dari pengetahuan (baik sadar atau tidak sadar) dan keterampilan yang dibutuhkan untuk
menggunakan pengetahuan ini dalam komunikasi yang sebenarnya. Pengetahuan dan keterampilan dilihat
sebagai 'kapasitas yang mendasari' sedangkan 'manifestasinya dalam situasi konkret' adalah komunikasi yang
sebenarnya.
MODEL BAHASA KOMUNIKATIF BACHMAN KEMAMPUAN (CLA)
Tiga komponen PKB bagi Bachman adalah kompetensi bahasa (pengetahuan),
kompetensi strategis (kapasitas untuk mengimplementasikan komponen kompetensi
bahasa dalam penggunaan bahasa komunikatif kontekstual), dan mekanisme
psikofisiologis, yang memungkinkan 'eksekusi bahasa yang sebenarnya sebagai
fenomena fisik.
MODEL KOMPETENSI KOMUNIKASI CELCE-MURCIA, DÖRNYEI DAN
THURRELL
Kompetensi wacana tetap merupakan komponen terpisah seperti yang didefinisikan
oleh Canale (1983a, 1983b), sementara kompetensi aksial muncul sebagai
pengetahuan yang diperlukan untuk memahami 'maksud komunikatif dengan
melakukan dan menafsirkan tindak tutur dan rangkaian tindak tutur' (1995: 9).
A. KOMPETENSI INTERAKSIONAL

Celce Murcia et al. model, Markee (2000: 64) berpendapat bahwa: pengertian kompetensi
interaksional minimal menggolongkan bagian-bagian model berikut: komponen struktur
percakapan kompetensi wacana, komponen faktor komunikatif nonverbal komponen kompetensi
sosial budaya, dan semua komponen kompetensi strategis (strategi penghindaran dan
pengurangan, pencapaian dan kompensasi) tindakan, strategi mengulur waktu dan mengulur
waktu, strategi pemantauan diri dan strategi interaksi).

DARI MODEL KE KERANGKA: MODEL VALIDITAS DAN KONDISI KINERJA


Model kompetensi dan kinerja komunikatif membentuk dasar penting untuk arti nilai tes , dan
model tersebut membantu untuk memutuskan sejauh mana skor dapat digeneralisasikan ke kinerja
lain. Semakin kita menginginkan skor tes berarti, semakin besar klaim yang harus kita buat untuk
itu, dan semakin banyak bukti yang perlu kita berikan untuk mendukung klaim itu.
Unit A4
Spesifikasi dan desain Uji
Spesifikasi pengujian - biasanya disebut 'spesifikasi'- adalah dokumen penjelas generatif untuk
pembuatan tugas pengujian. Spesifikasi memberi tahu kami tentang cara menyusun item uji, cara
menyusun tata letak pengujian, cara menemukan bagian, dan cara membuat sejumlah pilihan sulit
saat kami menyiapkan bahan uji.

A. PERENCANAAN DALAM PENULISAN UJI


Aturan prosedur rinci dalam konstruksi pemeriksaan objektif yang akan memiliki kegunaan umum
hampir tidak dapat dirumuskan. Jenis pertanyaan harus diputuskan berdasarkan fakta-fakta seperti
mata pelajaran sekolah yang bersangkutan, tujuan ujian, lama dan keandalan ujian yang diusulkan,
preferensi guru dan murid, waktu yang tersedia untuk ujian, apakah pengetahuan faktual atau
berpikir harus diuji, dll.
BAHASA PANDUAN VERSUS
SAMPEL
Bahasa panduan terdiri dari semua bagian dari spesifikasi pengujian termasuk beberapa poin kunci ini:

(1) Ini adalah soal tes pilihan ganda empat pilihan.

(2) Stem adalah pernyataan yang diikuti dengan pertanyaan tentang pernyataan tersebut.

(3) Setiap pilihan harus masuk akal terhadap pengetahuan dunia nyata, dan setiap pilihan harus secara tata bahasa internal.

(4) Kuncinya akan menjadi satu-satunya inferensi yang layak dari pernyataan dalam tangkai

(5) Setiap distraktor harus sedikit variasi dari inferensi layak dari batang;

(6a) Diasumsikan bahwa peserta tes sangat akrab dengan jenis item ini

(6b) Peserta tes mungkin akrab atau tidak dengan jenis item ini. Tingkat keakraban tidak terlalu penting. Fokus item ini adalah
membaca dekat. karena item tersebut harus berfungsi sebagai penilaian kecakapan, sebaiknya kecakapan tingkat tinggi.
KONGRUENSI (ATAU FIT-TO-SPEC)
Kesesuaian (juga disebut fit-to-spec) adalah sejauh mana item baru cocok dengan
spesifikasi yang ada. Anda memikirkan beberapa bahasa panduan baru yang
menjelaskan karakteristik item tambahan apa yang layak. ditingkatkan;
BAGAIMANA PERTANYAAN UJI BERASAL? MEMBALIK TEKNIK DAN
ARKETIP
Tujuan item ini adalah untuk menguji pembacaan inferensial yang dekat dari
pernyataan misalnya tentang survei ilmiah. Item dapat berisi jumlah dan persentase
yang tepat ('delapan puluh persen' dalam item sampel pertama) atau generalisasi yang
bersifat survei (mis. harus 'sebagian besar orang tua' di urutan kedua).
TEKNIK Mundur
RE adalah proses analitis dari pembuatan tes yang dimulai dengan pertanyaan tes
yang sebenarnya dan menyimpulkan bahasa panduan yang mendorongnya, sehingga
item yang setara dapat dihasilkan.
DARI MANA ITEM UJI BERASAL? APA ALASAN
BENAR DARI PERTANYAAN UJI?

Arketipe' adalah item atau tugas kanonik; itu adalah cara khas untuk mengukur keterampilan target tertentu.
Jika kita kemudian melangkah mundur dan melihat item itu, kita akan sering melihat gema dari item atau
tugas yang telah kita tulis di masa lalu, yang telah kita derita (sebagai peserta tes) atau yang telah kita pelajari
di buku teks tes atau kuliah tes. Bachman dan Palmer, 1996) menganjurkan model teoritis tertentu dari
kemampuan bahasa sebagai panduan untuk pembuatan tes. Teori sebelum praktek dapat bekerja, dan
mungkin bekerja dengan baik. Dan kebalikannya mungkin juga benar dalam beberapa pengaturan:
pengembang pengujian mungkin tidak memiliki gagasan yang jelas tentang sifat yang ingin mereka ukur.
TERIMA KASIH

Anda mungkin juga menyukai