com
Modul 1
PERKENALAN
TUJUAN
CAKUPAN
Berdasarkan tujuan yang telah dikemukakan di atas, maka topik yang akan dibahas dalam
modul ini meliputi:
1. definisi tes, pengukuran, penilaian, dan evaluasi, serta hubungannya
dengan pengajaran;
2. berbagai pendekatan dalam pengujian/penilaian bahasa, yaitu pendekatan pra-
ilmiah, pendekatan psikometri-strukturalis, pendekatan integratif/pragmatis/
interaktif, dan pendekatan berbasis kinerja;
1.2 Penilaian dalam Pengajaran Bahasa -
PANDUAN BELAJAR
Untuk mendapatkan pemahaman yang utuh tentang isi modul ini, mahasiswa disarankan untuk
mengikuti panduan pembelajaran di bawah ini.
1. Bacalah pengantar modul ini, sehingga Anda mengetahui apa yang diharapkan
dikuasai secara umum.
2. Baca dan pelajari kegiatan satu per satu secara detail, dan kerjakan semua
latihan dan tes formatif di akhir setiap kegiatan.
3. Menyelesaikan tugas, periksa tanggapan atau jawaban Anda atas latihan dan tes
dengan kunci jawaban di bagian akhir modul ini.
4. Jika jawaban atau tanggapan Anda salah, pelajari kembali kegiatan terkait. Temukan
mengapa mereka salah, dan lakukan koreksi.
5. Selain mempelajari modul ini, Anda juga disarankan untuk memperluas dan memperdalam
pengetahuan Anda dengan membaca referensi yang disarankan yang tertera di bagian
akhir modul ini.
AKTIVITAS UTAMA
Modul ini terdiri dari empat topik utama, yaitu: (1) definisi beberapa
istilah dasar penilaian dan tujuan penilaian, (2) pendekatan dalam penilaian
bahasa, (3) isu terkini dalam penilaian bahasa, dan (4) prinsip-prinsip penilaian
bahasa yang baik dan efektif. penilaian bahasa. Keempat topik tersebut
dibahas dalam Kegiatan Pembelajaran 1 sampai 4 berikut dalam modul ini.
Perhatikan contoh dan ilustrasi yang diberikan pada setiap kegiatan karena
akan membantu Anda memahami isi modul ini dengan lebih mudah.
-MPBI5201/MODUL 1 1.3
Kegiatan Pembelajaran 1
T Ada dua hal pokok yang dibahas dalam kegiatan ini, yaitu definisi
beberapa istilah dasar dalam penilaian bahasa dan tujuan penilaian.
Mahasiswa diharapkan mampu memahami detail dari kedua poin
tersebut di atas. Untuk itu, siswa disarankan untuk membaca penjelasan
secara seksama dan mengerjakan soal-soal latihan dan tes sumatif.
Catatan:
e = Evaluasi
T = Tes
M = Pengukuran
Hubungan lain dari tes, penilaian, dan pengajaran dikemukakan oleh Brown
(2004: 5), dimana tes adalah bagian dari penilaian, dan penilaian, pada gilirannya,
adalah bagian dari pengajaran. Hubungan ini kemudian direvisi oleh Brown dan
Abeywickrama (2010: 6) untuk memasukkan pengukuran dan evaluasi. Gambar
berikut adalah model revisi yang dibuat oleh Brown dan Abeywickrama.
Catatan:
Ukuran = Pengukuran
Penilaian = Penilaian
Dari model ini dapat dilihat bahwa tes adalah bagian dari pengukuran, pengukuran
adalah bagian dari penilaian, dan penilaian adalah bagian dari pengajaran. Semua
bagian ini digunakan sebagai dasar evaluasi. Namun, ada juga yang memandang bahwa
dalam prakteknya, asesmen dan evaluasi memiliki arti yang hampir sama, dan
digunakan secara bergantian (Saukah, 2013: 3). Bedanya hanya penilaian berbentuk
deskripsi, sedangkan evaluasi bersifat menghakimi. Dalam kursus kami di sini, kami
mengakui perbedaan pandangan seperti yang disajikan di atas.
B. TUJUAN PENILAIAN
LATIHAN 1
Untuk memeriksa pemahaman Anda tentang kegiatan pertama ini, jawab semua
RINGKASAN
TES FORMATIF 1
Untuk memeriksa pemahaman lebih lanjut dari penjelasan dalam Kegiatan Pembelajaran
1, jawablah pertanyaan berikut.
1) Apa kelebihan dan kekurangan penggunaan TOEFL untuk ujian
akhir siswa SMA di Indonesia?
2) Tuliskan contoh deskripsi penampilan berbicara siswa untuk tujuan
diagnostik, seperti yang dinyatakan dalam area 1 model Bachman.
3) Tujuan tes penempatan adalah untuk mengelompokkan siswa dalam kelas yang homogen
atau kelas yang heterogen. Sebutkan kekuatan dan kelemahan masing-masing
pengelompokan.
4) Bagaimana sekolah bisa mendapatkan manfaat dari penilaian untuk tujuan penelitian?
-MPBI5201/MODUL 1 1.11
Jika Anda telah menyelesaikan latihan, lihatlah kunci jawaban di bagian akhir
modul. Evaluasi jawaban Anda. Ketika Anda mendapatkan setidaknya 80% benar, Anda
dapat melanjutkan ke latihan lain, tetapi jika tidak, tinjau kembali diskusi dan contoh.
Kemudian, lakukan olahraga sekali lagi. Berikut ini adalah cara mengevaluasi latihan dan
ujian Anda.
Rumus:
80 - 89% = Bagus
70 - 79% = memadai
<70% = Tidak memadai
1.12 Penilaian dalam Pengajaran Bahasa -
Kegiatan Pembelajaran 2
A. PENDEKATAN ESAI-TERJEMAHAN
Munculnya Audio Lingual Method (ALM), sebagai pengembangan dari Direct Method (DM), pada periode
pasca Perang Dunia II, mengubah pendekatan dalam pengajaran bahasa maupun penilaian bahasa. ALM
sebagai strategi belajar mengajar. Dalam ALM, TEFL didefinisikan sebagai pembentukan seperangkat
kebiasaan (baru). Pengajaran tata bahasa menjadi prioritas, dan dilakukan berdasarkan gagasan analisis
kontrastif, yaitu poin-poin pengajaran harus menekankan aspek-aspek bahasa sasaran yang berbeda dengan
bahasa pertama. Di bidang penilaian, ALM menyarankan agar elemen bahasa (pelafalan, tata bahasa, dan kosa
kata) dan keterampilan bahasa (mendengarkan, berbicara, membaca, dan menulis) harus diuji secara terpisah.
ALM memegang gagasan bahwa kita harus mengajar dan juga menguji satu hal pada satu waktu. Pendekatan
pengujian pada periode ALM disebut pendekatan Psikometri-strukturalis atau pendekatan Titik-diskrit.
Pendekatan ini menekankan pada validitas, reliabilitas, dan objektivitas suatu tes, serta perhitungannya
menggunakan rumus statistik. Akibatnya, jenis tes pilihan ganda lebih disukai, karena dianggap paling objektif
dan mudah untuk perhitungan statistik. Pembahasan dan contoh soal pilihan ganda dan jenis tes objektif
lainnya disajikan secara rinci di Modul 2 mata kuliah ini. dan perhitungannya menggunakan rumus statistik.
Akibatnya, jenis tes pilihan ganda lebih disukai, karena dianggap paling objektif dan mudah untuk perhitungan
statistik. Pembahasan dan contoh soal pilihan ganda dan jenis tes objektif lainnya disajikan secara rinci di
Modul 2 mata kuliah ini. dan perhitungannya menggunakan rumus statistik. Akibatnya, jenis tes pilihan ganda
lebih disukai, karena dianggap paling objektif dan mudah untuk perhitungan statistik. Pembahasan dan
contoh soal pilihan ganda dan jenis tes objektif lainnya disajikan secara rinci di Modul 2 mata kuliah ini.
C. PENDEKATAN INTEGRATIF
Dalam penilaian berbasis kinerja, peserta tes diharuskan untuk melakukan tugas
tertentu, dan dinilai saat mereka sedang dalam proses mengerjakan tugas. Misalnya, seorang
peserta ujian diminta untuk menceritakan kembali sebuah cerita atau meminjam buku dari
temannya, karena dia lupa membawa bukunya. Dengan menggunakan tugas ini, kita dapat
melihat contoh penilaian autentik karena tugas tersebut meniru aktivitas kehidupan nyata.
Namun, penilaian berbasis kinerja membutuhkan waktu lebih lama dalam administrasinya,
dibandingkan dengan tes kertas dan pensil. Itu sebabnya untuk tujuan praktis, kita masih
menemukan penggunaan tes kertas dan pensil secara luas saat ini. Idealnya, kita perlu beralih
ke penilaian berbasis kinerja.
LATIHAN 2
Untuk memeriksa pemahaman Anda tentang kegiatan pertama ini, jawab semua
RINGKASAN
Dalam Learning Activity 2 ini kita belajar bahwa ada berbagai pendekatan
pengujian atau penilaian, mulai dari pendekatan esai-terjemahan atau tahap
pengujian prescientific, pendekatan psikometri-strukturalis, pendekatan integratif,
pendekatan komunikatif, hingga pendekatan berbasis kinerja. Pendekatan-
pendekatan tersebut berkembang secara kronologis, dan sesuai dengan
perkembangan metode pengajaran bahasa.
UJI FORMATIF 2
Jika Anda telah menyelesaikan latihan, lihatlah kunci jawaban di bagian akhir
modul. Evaluasi jawaban Anda. Ketika Anda mendapatkan setidaknya 80% benar, Anda
dapat melanjutkan ke latihan lain, tetapi jika tidak, tinjau kembali diskusi dan contoh.
Kemudian, lakukan olahraga sekali lagi. Berikut ini adalah cara mengevaluasi latihan dan
ujian Anda.
-MPBI5201/MODUL 1 1.17
Rumus:
80 - 89% = Bagus
70 - 79% = memadai
<70% = Tidak memadai
1.18 Penilaian dalam Pengajaran Bahasa -
Kegiatan Pembelajaran 3
A. PENILAIAN ALTERNATIF
Catatan: Yang dimaksud dengan berpikir tingkat tinggi dalam kutipan di atas adalah
menganalisis, mengevaluasi, Danmenciptakandalam taksonomi Bloom (dibandingkan
dengan pemikiran tingkat rendah, yaitumengingat, memahami, Danmenerapkan).
Masalah kedua saat ini adalah penggunaan komputer untuk penilaian bahasa.
Kemajuan teknologi komputer dan kemudahan akses teknologi informasi
menyebabkan penggunaan komputer dan internet dalam pengajaran bahasa serta
penilaian bahasa. Kursus online, blended learning, dan computerassisted language
learning (CALL) adalah contoh penggunaan komputer dan internet dalam
pengajaran bahasa. Model pengajaran berbasis komputer ini adalah
-MPBI5201/MODUL 1 1.21
Catatan: Tes berisiko tinggi adalah “instrumen yang memberikan informasi yang
menjadi dasar pengambilan keputusan signifikan tentang peserta tes” (Brown dan
Abeywickrama, 2010: 349).
Kelemahan pengujian berbasis komputer, sebagaimana juga disebutkan oleh
Douglas dan Hegelheimer (2008, dalam Brown dan Abeywickrama, 2010:20), adalah
sebagai berikut.
- Kurangnya keamanan dan kemungkinan kecurangan melekat dalam tes
komputerisasi tanpa pengawasan.
- Kuis "asli" sesekali yang muncul di situs Web tidak resmi dapat
disalahartikan sebagai penilaian yang divalidasi.
- Format pilihan ganda yang lebih disukai untuk sebagian besar tes berbasis komputer
mengandung potensi yang biasa untuk desain item yang cacat.
- Respons terbuka cenderung tidak muncul karena (a) biaya dan potensi
penilaian manusia yang tidak dapat diandalkan atau (b) kerumitan perangkat
lunak pengenalan untuk penilaian otomatis.
- Unsur interaktif manusia (terutama dalam produksi lisan) tidak ada.
- Masalah validasi berasal dari peserta tes yang mendekati tugas sebagai tugas tes
daripada sebagai penggunaan bahasa dunia nyata.
1.22 Penilaian dalam Pengajaran Bahasa -
LATIHAN 3
Untuk memeriksa pemahaman Anda tentang kegiatan pertama ini, jawab semua
RINGKASAN
UJI FORMATIF 3
Jika Anda telah menyelesaikan latihan, lihatlah kunci jawaban di bagian akhir
modul. Evaluasi jawaban Anda. Ketika Anda mendapatkan setidaknya 80% benar, Anda
dapat melanjutkan ke latihan lain, tetapi jika tidak, tinjau kembali diskusi dan contoh.
Kemudian, lakukan olahraga sekali lagi. Berikut ini adalah cara mengevaluasi latihan dan
ujian Anda.
Rumus:
80 - 89% = Bagus
70 - 79% = memadai
<70% = Tidak memadai
-MPBI5201/MODUL 1 1.25
Kegiatan Pembelajaran 4
S Idealnya, setiap kali kita membuat tes, tes itu harus bagus dan efektif.
Kegiatan Pembelajaran ini memberikan pembahasan tentang cara
membuat tes yang baik dan efektif, yang meliputi kepraktisan, reliabilitas,
validitas, keaslian, dan Washback positif (Brown, 2004: 19-30; Brown &
Abeywickrama, 2010: 25-39). Karakteristik tes ini dibahas di bawah ini. Baca
dan pahami mereka.
A. PRAKTISITAS
belum sepenuhnya tersedia di sekolah. Ketika semua fasilitas yang dibutuhkan tersedia,
tentu saja kita dapat membangun metode uji apapun sesuka kita.
Sumber daya manusiajuga penting untuk dipertimbangkan. Penyelenggara tes harus
memiliki kemampuan untuk mempersiapkan dan mengelola tes. Jika penyelenggara atau
pengawas tes tidak memiliki keterampilan untuk menangani tes, atau mereka membutuhkan
pelatihan khusus untuk mengelola, misalnya tes berbasis internet, itu tidak praktis. Lebih baik
menggunakan administrasi tes yang lebih sederhana. Administrator tes yang merupakan
konstruktor tes harus memiliki kemampuan untuk membuat tes yang baik atau mengadopsi/
beradaptasi dari tes yang tersedia.
Untukkonstruksi tes, kita dapat, misalnya, menggunakan tes tipe esai, yang mudah
dibuat tetapi membutuhkan waktu untuk dinilai, atau menggunakan tes pilihan ganda,
yang membutuhkan waktu lebih lama untuk dibuat tetapi mudah dinilai. Dalam hal ini,
jika jumlah siswa atau peserta tes banyak, misalnya 300 siswa, tes pilihan ganda akan
lebih praktis, karena hanya membutuhkan waktu lama dalam menyusun tes tetapi
penilaiannya bisa cepat. Jika jumlah siswa atau peserta tes sedikit, misalnya kurang dari
50 siswa, dapat digunakan tes tipe esai. Dalam hal ini, pembuatan tes tipe esai tidak
memakan waktu lama, dan penilaiannya masih dapat diatur.
B. KEANDALAN
Ciri kedua dari tes yang baik adalah reliabilitas. Reliabilitas berarti konsistensi, yaitu
konsistensi dalam kaitannya dengan siswa atau peserta tes, penilai atau pemberi skor,
penyelenggara tes, dan tes itu sendiri. Ada beberapa faktor yang mempengaruhi
reliabilitas penilaian.
Untuk mendapatkan skor yang dapat diandalkan daripeserta tes, kita perlu memastikan
bahwa peserta tes dalam kondisi fisik dan mental yang baik saat mengikuti tes. Peserta tes
yang tidak fit, lelah, atau dalam suasana hati yang buruk pada saat mengikuti tes,
-MPBI5201/MODUL 1 1.27
mungkin tidak dapat berkonsentrasi, dan karena itu tidak dapat menunjukkan kinerja terbaik
atau nyatanya. Dengan kata lain, hasil tesnya mungkin tidak dapat diandalkan. Peserta tes
yang tidak terbiasa dengan prosedur mengerjakan tes juga tidak akan dapat mencapai kinerja
yang optimal dalam tes tersebut. Ini, pada gilirannya, membuat hasil tes tidak dapat
diandalkan. Hasil tes yang tidak dapat diandalkan juga dapat ditunjukkan ketika dalam
kelompok peserta tes beberapa dari mereka mengetahui prosedur tes sehingga mereka dapat
melakukan tes lebih cepat dan lebih mudah, sementara yang lain yang tidak terbiasa dengan
prosedur tes melakukan tes dengan kebingungan. dan ketidakpastian.
Agar handal, seorang rater perlu melatih dirinya sendiri dalam menggunakan
rubrik penilaian. Dalam pelatihan, ia dapat menggunakan tolok ukur, yang merupakan
contoh kualitas standar dan skor yang disarankan untuk tanggapan tertulis peserta tes.
Penilai melatih dirinya sendiri untuk menilai sejumlah karya peserta tes dan
membandingkannya dengan tolok ukur. Semakin dekat skor dengan tolok ukur, semakin
dapat diandalkan penilai.
Cara lain untuk melatih reliabilitas penilai adalah dengan membandingkan dua set
skor yang dibuat oleh penilai yang sama. Misalnya, dengan menggunakan rubrik,
seorang penilai menilai 50 esai, dan beberapa hari kemudian dia menilai ulang 50 esai
yang sama, dengan berusaha tidak mengingat skor sebelumnya. Kemudian kedua skor
tersebut dibandingkan dengan menggunakan rumus korelasi, misalnya rumus statistik
product-moment. Hasil perhitungan statistik dapat menunjukkan bahwa kedua
rangkaian skor tersebut berkorelasi tinggi, berkorelasi sedang, atau berkorelasi rendah.
Ketika dua set skor berkorelasi tinggi, itu berarti penilai memiliki reliabilitas intrarater
yang tinggi. Ketika mereka berkorelasi rendah, itu berarti penilai memiliki reliabilitas
intra-penilai yang rendah. Dalam kasus terakhir ini, konsistensi penilai rendah. Penilai
perlu melatih dirinya lagi sampai dia mendapatkan korelasi yang tinggi.
cara kedua adalah kedua penilai menilai 50 esai yang sama secara mandiri.
Kemudian, kumpulan 50 skor yang dibuat oleh rater A dibandingkan dengan
kumpulan skor yang dibuat oleh rater B, dengan menggunakan rumus korelasi,
seperti pada perhitungan statistik untuk reliabilitas intra-rater di atas. Jika hasil
menunjukkan bahwa kedua rangkaian skor tersebut memiliki korelasi yang tinggi,
berarti kedua penilai tersebut memiliki reliabilitas antar penilai yang tinggi.
Dengan kata lain, kedua penilai memiliki kesamaan persepsi; oleh karena itu,
mereka dapat menilai esai yang diberikan kepada mereka masing-masing secara
mandiri. Perlu diketahui, bagaimanapun, bahwa cara kedua ini tidak sama dengan
kasus di mana dua penilai menilai kumpulan esai yang sama, dan kemudian
mereka menggabungkan pasangan skor tersebut dan kemudian skor tersebut
dibagi dua. Misalnya, siswa X mendapat 70 dari rater A, dan 80 dari rater B. Maka
skor untuk siswa X adalah 70 + 80 dibagi 2,
Pertimbangan selanjutnya untuk keandalan adalahadministrasi tes.Suatu
administrasi tes dapat dipercaya jika tata cara penyelenggaraannya sesuai dengan apa
yang telah dirancang. Tes mendengarkan yang dilakukan dengan menggunakan suara
dari tape-recorder dapat diandalkan administrasinya jika kualitas suara yang sama dapat
didengar secara merata oleh semua peserta tes. Namun, jika suara dari rekaman dapat
didengar dengan jelas oleh beberapa peserta tes dan tidak jelas oleh beberapa peserta
tes lainnya, administrasi tes mendengarkan tidak dapat diandalkan. Contoh lain dari
administrasi tes yang tidak dapat diandalkan adalah ketika dua kelompok peserta tes
melakukan tes di tempat yang berbeda. Satu kelompok mengerjakan ujian di ruang
kelas dengan kursi dan meja yang baik, dan kelompok lain mengerjakan ujian di
auditorium yang hanya disediakan kursi dan peserta ujian terpaksa menggunakan
karton untuk menulis. Dalam contoh ini, administrasi tes tidak dapat diandalkan karena
kedua kelompok tidak diperlakukan dengan kenyamanan yang sama. Hal-hal lain yang
dapat mempengaruhi keandalan administrasi adalah kebisingan, batas waktu, kondisi
tempat duduk, suhu ruangan, kualitas kertas ujian yang disalin, perilaku pengawas, dll.
pendapat, di mana setiap jawaban bisa benar. Petunjuk jawaban yang benar ditemukan
ketika pilihan terpanjang dalam soal pilihan ganda adalah jawaban yang benar. Selain
itu semua, tentunya hasil tes yang sangat tidak reliabel dapat disebabkan oleh
kecurangan yang dilakukan oleh peserta tes saat mengerjakan tes, mengetahui jawaban
tes sebelumnya, atau praktik curang dari pengawas, yang menginformasikan jawaban
dari peserta tes. ujian kepada peserta ujian.
Selain itu, masih ada cara lain untuk mengukur suatu reliabilitas tes, yaitu
reliabilitas test-retest, reliabilitas bentuk ekuivalen, reliabilitas split-half, reliabilitas
alpha Cronbach, dan reliabilitas Kuder-Richardson (Djiwandono, 2008: 171-185).
Reliabilitas Tes Ulangdiperoleh dengan mengulang tes yang sama kepada siswa
yang sama. Dalam hal ini, kami membuat satu set tes, kemudian memberikannya
kepada sejumlah siswa, dan mencatat skornya. Setelah beberapa hari, kami
memberikan kembali tes yang sama kepada siswa yang sama, dan mencatat
nilainya. Kemudian skor dari tes pertama dan skor dari tes kedua dikorelasikan
menggunakan rumus korelasi Product-moment. Jika hasil perhitungan statistik
menunjukkan korelasi yang tinggi, berarti test set yang kita buat dapat dipercaya.
Dalam menggunakan teknik test-retest, perlu diperhatikan bahwa waktu antara
dua penyelenggaraan tes tidak boleh terlalu singkat, siswa masih mengingat
jawaban mereka pada tes pertama, dan tidak terlalu lama, sehingga siswa
mendapatkan peningkatan dalam kemampuan mereka. penguasaan bahasa.
Keandalan bentuk yang setaradiperoleh ketika kita membuat dua perangkat
tes yang sama, yaitu memiliki maksud, tujuan, ruang lingkup, jenis tes, dan jumlah
item yang sama. Kemudian, dua set tes diberikan kepada siswa, dan skornya
dikorelasikan seperti dalam prosedur tes-tes ulang yang disebutkan di atas. Jika
hasilnya berkorelasi, berarti kedua rangkaian tes tersebut reliabel.
Keandalan split-halfdapat diukur ketika kita membuat satu set tes dan
memberikannya kepada sejumlah siswa, kemudian skor dipisahkan, yaitu satu set
skor dari item yang berjumlah ganjil dan satu set skor dari item yang berjumlah
genap. Dua set skor dikorelasikan lagi seperti prosedur di atas. Jika hasil
menunjukkan adanya korelasi, berarti rangkaian tes tersebut reliabel. Teknik belah
dua ini didasarkan pada anggapan bahwa butir-butir tes dalam rangkaian tes
tersebut mengalami kesulitan bertahap; oleh karena itu, pasangan bilangan ganjil
dan genap memiliki tingkat kesulitan yang sama.
Keandalan Cronbach-alphadiukur seperti dalam prosedur split-half, tetapi alih-
alih menggunakan rumus product-moment, ia menggunakan rumus Cronbach-
alpha. Ada varian lain dari rumus Cronbach-alpha, yaitu rumus yang digunakan
untuk mengukur reliabilitas skor tes esai.
-MPBI5201/MODUL 1 1.31
C.VALIDITAS
Prinsip ketiga tes yang baik dan efektif adalahkeabsahan. Validitas biasanya
diartikan sebagai tes atau penilaian yang digunakan untuk mengukur apa yang
seharusnya diukur. Bagian ini membahas beberapa aspek yang berkaitan dengan
validitas, yaitu validitas terkait isi, validitas terkait kriteria, validitas terkait konstruk,
validitas konsekuensial, dan validitas muka (Brown & Abeywickrama, 2010: 29-36).
Mereka diuraikan di bawah ini.
Validitas terkait kontenmengacu pada validitas isi tes dalam kaitannya dengan
tujuannya. Sebagai contoh, dalam proses belajar-mengajar kita mengajarkan
Language Assessment dengan menggunakan buku Heaton (1988) tentang
asesmen keterampilan berbahasa, tetapi untuk tes sumatif kita menggunakan
bahan tes dari O'Malley dan Pierce (1996) yaitu tentang asesmen otentik. maka
pengujian kami tidak valid. Ketika kami mengajarkan teks naratif kepada siswa
kami, dan kemudian materi tes berupa teks argumentatif, tes kami tidak valid.
Namun, jika kita mengajarkan legendaMalin Kundangkepada siswa kami, dan tes
menggunakan legendaTangkuban Prahu, pengujian kami masih valid, karena
kedua legenda tersebut memiliki jenis teks naratif yang sama.
Terkadang, secara tidak sadar kita melakukan kesalahan dalam validitas isi.
Misalnya, kami ingin membuat tes kosa kata dengan item berikut.
1. Anda harus mencuci tangan dengan ....
A. Sup
B. sabun mandi
C. toko
D. sop
Butir tes ini terlihat seperti tes kosa kata, tetapi sebenarnya ini adalah tes ejaan,
karena peserta tes hanya diminta untuk mengenali ejaan kata yang benar.sabun
mandi. Item tes kosa kata yang benar adalah sebagai berikut.
1.32 Penilaian dalam Pengajaran Bahasa -
C. lumpur
D. rumput
Pada soal ini peserta tes harus memilih kata yang maknanya sesuai
dengan konteks yang tertera pada stem; Oleh karena itu, item ini valid
sebagai tes kosa kata.
Terkait dengan validitas isi kita harus mengenal dua istilah lain, yaitu uji langsung dan uji
tidak langsung.Tes langsungadalah ketika kita menguji langsung apa yang akan diuji. Misalnya,
jika kita ingin mengetahui apakah peserta tes tahu persis posisi tekanan utama dalam kata
tersebutmengembangkan, kita harus meminta peserta tes untuk melafalkan kata tersebut dan
memeriksa apakah dia memberi tekanan dengan benar (yaitu pada suku kata kedua) atau
tidak. Namun, terkadang sulit atau tidak praktis untuk menggunakan tes langsung karena
keterbatasan waktu atau jumlah peserta tes yang banyak. Dalam hal ini, kita bisa
menggunakantes tidak langsung. Dengan contoh di atas, kita dapat membuat tes tertulis
dengan menulismengembangkan(dalam suku kata yang terpisah) dan mintalah peserta ujian
untuk menentukan apakah penekanannya ada pada suku kata pertama, kedua, atau ketiga. Ini
disebut tes tidak langsung. Tentunya, tes terbaik adalah tes langsung. Tes tidak langsung
memiliki satu kelemahan, yaitu pada contoh di atas, peserta tes mungkin mengetahui bahwa
tekanan ada pada suku kata kedua, tetapi ketika dia benar-benar melafalkan kata tersebut,
bisa saja dia mengucapkannya secara tidak sadar dengan tekanan tersebut. pada suku kata
pertama.
Validitas terkait kriteriaberkaitan dengan apakah tes mencapai kriteria
tertentu. Validitas terkait kriteria memiliki dua macam, yaitu validitas konkuren dan
validitas prediktif. Tes kami memiliki avaliditas bersamaanjika hasilnya didukung
oleh tes valid lainnya. Misalnya, sepengetahuan kami tes TOEFL adalah tes
kecakapan yang valid. Kami membuat satu set tes kecakapan, dan kemudian
diberikan kepada siswa kami, yang telah mengikuti tes TOEFL. Hasil tes kami
dibandingkan dengan hasil tes TOEFL, menggunakan rumus statistik korelasi
(misalnya product-moment). Jika terdapat korelasi yang tinggi antara kedua tes
tersebut, berarti tes yang kita buat memiliki validitas yang bersamaan (dengan tes
TOEFL).
Suatu tes memilikivaliditas prediktifjika dapat memprediksi keberhasilan peserta tes di
masa depan (lihat tujuan prognosis tes seperti yang dijelaskan dalam Kegiatan 1 dalam modul
ini). Misalnya, kami memiliki program untuk melatih guru di tingkat S-2, dan
-MPBI5201/MODUL 1 1.33
jadi kami membuat tes dengan tujuan untuk mengetahui apakah para peserta
akan berhasil atau tidak dalam studi mereka di tingkat S-2. Tes diberikan pada
awal program S-2. Pada akhir program S-2 kami menilai keberhasilan para
peserta. Skor ini dibandingkan dengan skor tes yang kami buat dan kelola di
awal program. Jika hasil perbandingan menunjukkan adanya korelasi antara
kedua nilai tersebut, yaitu peserta yang mendapat nilai baik dari tes di awal
program juga mendapat nilai baik untuk keberhasilannya, atau sebaliknya,
maka dapat disimpulkan bahwa tes pada awal program memiliki validitas
prediktif. Ketika suatu tes memiliki validitas prediktif, kita dapat mengatakan
bahwa semakin tinggi hasil tes tersebut, semakin tinggi kemungkinan untuk
berhasil dalam program tersebut.
Berikutnya adalahvaliditas konstruksi, yang berarti bahwa tes harus valid dengan
konstruknya. Konstruksi mengacu pada teori, hipotesis, atau model dari sesuatu (Brown
& Abeywickrama, 2010: 33). Tes membaca dikatakan valid jika sesuai dengan konstruk
membaca, dan tes berbicara harus valid berdasarkan konstruknya. Sekarang apa itu
konstruksi membaca dan apa itu konstruksi berbicara? Seperti yang kita ketahui, tujuan
tes membaca adalah untuk pemahaman; dengan demikian, pemahaman bacaan harus
mencakup pemahaman gagasan utama, informasi yang dinyatakan secara eksplisit,
informasi yang tersirat, makna kosa kata, dan perangkat kohesif. Unsur-unsur
pemahaman ini merupakan konstruk membaca. Apabila suatu tes membaca telah
memasukkan semua unsur tersebut, maka dapat dikatakan bahwa tes membaca
tersebut valid secara konstruk. Hal yang sama terjadi dengan berbicara. Tujuan tes
berbicara adalah untuk mengukur penguasaan lisan yang produktif, yang merupakan
konstruk berbicara. Konstruksi berbicara ini meliputi kelancaran, pengucapan, isi,
organisasi, tata bahasa, dan diksi. Ketika tes berbicara mengukur semua ini, kita dapat
mengatakan bahwa tes tersebut valid secara konstruk. Ini juga berarti bahwa ketika kita
menguji berbicara, dan fokusnya hanya pada panjang ucapan, dapat dikatakan bahwa
tes tersebut tidak memiliki validitas konstruk.
Validitas konsekuensialmengacu pada dampak tes bagi peserta tes. Ketika kita
menetapkan bahwa ujian akhir, misalnya, harus dilakukan melalui internet,
konsekuensinya peserta ujian harus dipersiapkan untuk dapat menggunakan ujian
berbasis internet. Jika tidak, tes kami tidak akan valid karena peserta tes mungkin
terganggu oleh ketidakmampuan untuk menggunakan internet. Masalah validitas
konsekuensial juga dapat terjadi ketika kita menggunakan jenis tes tertentu, dan
beberapa peserta tes yang mampu membayar untuk pembinaan tes akan
mengerjakan tes lebih baik daripada mereka yang tidak mendapatkan pembinaan.
Dalam hal ini, tes memiliki masalah validitas konsekuensial, karena tidak adil bagi
semua peserta tes. Hal ini terjadi di Indonesia dalam menghadapi ujian nasional,
1.34 Penilaian dalam Pengajaran Bahasa -
dimana sejumlah siswa yang lebih mampu secara finansial mengikuti bimbingan belajar
di lembaga belajar swasta.
Jenis validitas yang terakhir adalahmenghadapi validitas, yang menyangkut
penampilan tes. Kita mungkin berpikir bahwa tes tertulis sepertinya tidak cocok untuk
tes berbicara, atau tes tata bahasa pilihan ganda sepertinya tidak cocok untuk tes
menulis. Dalam dua contoh ini, yaitu tes tertulis untuk berbicara dan tes tata bahasa
untuk menulis, tes tersebut tidak memiliki validitas muka. Kekurangan tes terletak pada
konstruk berbicara dan menulis yang tidak lengkap. Validitas muka yang benar adalah
ketika berbicara diuji melalui berbicara dan menulis diuji melalui menulis.
D. KEASLIAN
Dalam dialog semacam itu, terkadang seorang guru meminta siswanya untuk menjawab
pertanyaan di atas dengan menggunakan kalimat lengkap, seperti berikut ini.
A.Siapa namamu?
B. Nama saya Sintha
C.Dari mana asalmu?
D. Saya dari Malang
-MPBI5201/MODUL 1 1.35
Jawaban lengkap yang dibuat oleh B dalam contoh ini tidak mencerminkan bahasa Inggris
natural seperti yang digunakan oleh penutur asli. Untuk penilaian autentik kita harus menggunakan
Jawaban yang diharapkan untuk item ini adalah:“Jika Anda mengundang saya, saya akan melakukannya
datang."
Contoh berikut tidak bermakna.
Guru : Ulangi setelah saya. “Dian dan Renza belajar bahasa Inggris.” Siswa :
Dian dan Renza belajar bahasa Inggris.
Guru : Ubah menjadi “masa lalu”.
Siswa : Dian dan Renza belajar bahasa Inggris. Guru :
Ubah menjadi “berkelanjutan”. Siswa : Dian dan Renza
sedang belajar bahasa Inggris.
Dalam contoh ini, drill tidak bermakna, karena meskipun siswa dapat menggunakan
bentuk lampau dan bentuk kontinu dengan benar, mereka mungkin tidak mengetahui
bagaimana dan kapan menggunakan bentuk kalimat. Seorang guru sering berfokus pada
bentuk daripada makna; oleh karena itu, latihan ini tidak bermakna.
1.36 Penilaian dalam Pengajaran Bahasa -
E.WASHBACK
Prinsip kelima atau terakhir dari tes yang baik dan efektif adalah
washbackatau pencucian balik. Washback dapat didefinisikan sebagai
pengaruh tes atau penilaian terhadap pengajaran, pembelajaran, pembelajar,
atau pemerintah dan masyarakat. Washback bisa positif atau negatif.
Misalnya, karena ada ujian tulis dalam ujian nasional, guru yang tadinya
enggan mengajar menulis, kemudian mengajar menulis. Mengetahui bahwa
ujian selalu menantang siswa, maka siswa termotivasi untuk belajar dan
membuat persiapan ujian yang lebih baik. Ini adalah contoh washback positif.
Namun ketika guru mengetahui bahwa UN selalu menggunakan butir-butir
tes pilihan ganda, maka dalam kegiatan belajar mengajar guru melatih
siswanya bagaimana mengerjakan tes pilihan ganda, lupa mengajarkan siswa
proses belajar, ini adalah contoh negatif. washback. Atau, mengetahui ujian
pilihan ganda, siswa sibuk mempersiapkan strategi yang efektif untuk
menyontek. Ini adalah washback negatif terburuk.
Washback berbeda dengan umpan balik.Masukanadalah angka, huruf,
komentar atau saran yang diberikan terhadap hasil karya siswa agar siswa mengetahui
kualitas hasil karyanya. Namun, umpan balik yang baik bisa menjadi pembalasan yang
positif. Misalnya, ketika mengembalikan pekerjaan menulis siswa, guru menulis:“Saya
suka tulisan Anda. Konten tersebut menunjukkan bahwa Anda tahu banyak tentang
topik tersebut. Satu-satunya hal yang perlu Anda tingkatkan adalah ejaan.”Ketika umpan
balik ini mendorong siswa untuk meningkatkan penguasaan ejaannya, maka umpan
balik guru memiliki dampak positif bagi siswa.
-MPBI5201/MODUL 1 1.37
LATIHAN 4
Untuk memeriksa pemahaman Anda tentang kegiatan pertama ini, jawab semua
1) Di dalam kelasnya sendiri, apakah boleh seorang guru menjawab pertanyaan siswa
tentang ulangan? Menjelaskan.
2) Apa itu penilaian analitik?
3) Apa kendalanya ketika tes tertulis dibuat dalam bentuk menyusun ulang kalimat
menggunakan format pilihan ganda?
4) Mengapa keandalan intra-penilai penting?
5) Apa perbedaan antara washback dan umpan balik?
RINGKASAN
Dalam Kegiatan Pembelajaran ini, kita belajar bahwa penilaian yang baik
dan efektif harus ditandai dengan kepraktisan, reliabilitas, validitas, keaslian,
dan washback positif. Kepraktisan berkaitan dengan biaya tes, batas waktu
pengerjaan tes, kemudahan administrasi, sumber daya manusia, konstruksi
tes, dan kemudahan penilaian. Reliabilitas mengacu pada faktor siswa,
reliabilitas intra dan antar penilai, reliabilitas penyelenggaraan tes, dan
reliabilitas tes itu sendiri. Validitas dapat berupa validitas isi, validitas terkait
kriteria (validitas konkuren dan validitas prediktif), validitas konstruk, validitas
konsekuensial, dan validitas muka. Keaslian ditandai dengan penggunaan
bahasa alami, item tes yang dikontekstualisasikan, topik yang bermakna,
tematik, dan tugas dunia nyata. Terakhir, washback berarti dampak penilaian
pada pengajaran, pembelajaran, pembelajar, atau pemerintah dan
masyarakat. Mungkin sulit untuk memenuhi semua karakteristik ini, tetapi
disarankan agar sebuah tes mempertimbangkan sebanyak mungkin
karakteristik.
UJI FORMATIF 4
1) Mengapa hilangnya konsentrasi peserta tes dalam mengerjakan tes menyebabkan hasil tes
tidak dapat diandalkan?
1.38 Penilaian dalam Pengajaran Bahasa -
2) Dalam ujian masuk perguruan tinggi, sering kali pengawas dilarang menjawab
pertanyaan peserta ujian. Mengapa?
3) Berikan contoh perilaku pengawas di ruang ujian yang menyebabkan tidak dapat
diandalkan.
4) Berikan alasan mengapa bor mekanik/substitusi dianggap tidak
bermakna.
5) Washback seperti apa yang mungkin terjadi jika guru membiarkan siswanya
mencontek dalam ujian akhir?
Catatan:
Untuk membaca lebih lanjut tentang isi modul ini, Anda disarankan untuk
membaca:
- coklat (2004)
- Coklat dan Abeywickrama (2010)
- O'Malley dan Pierce (1996)
- Bendungan (1990)
Lihat detail sumber-sumber ini dalam daftar referensi di bagian akhir modul
ini.
Jika Anda telah menyelesaikan latihan, lihatlah kunci jawaban di bagian akhir
modul. Evaluasi jawaban Anda. Ketika Anda mendapatkan setidaknya 80% benar, Anda
dapat melanjutkan ke latihan lain, tetapi jika tidak, tinjau kembali diskusi dan contoh.
Kemudian, lakukan olahraga sekali lagi. Berikut ini adalah cara mengevaluasi latihan dan
ujian Anda.
Rumus:
80 - 89% = Bagus
70 - 79% = memadai
<70% = Tidak memadai
-MPBI5201/MODUL 1 1.39
Kunci Jawaban
Di bawah ini adalah kunci latihan dan tes sumatif. Sangat penting dalam kunci adalah
gagasan kunci; Karena itu; jawaban Anda mungkin menggunakan kata-kata yang berbeda.
Dalam beberapa pertanyaan Anda mungkin memiliki jawaban yang berbeda. Jika Anda tidak
yakin dengan jawaban Anda, Anda dapat menghubungi tutor/instruktur di Universitas
Terbuka.
Latihan 1
1) Penilaian adalah bagian dari pengajaran.
Latihan 2
1) Strateginya adalah Stimulus-Response-Reinforcement.
2) Hipotesis sifat kesatuan menyatakan bahwa penguasaan unsur bahasa dan
keterampilan berbahasa berkorelasi.
3) Ini adalah kompetensi sosiolinguistik.
4) Tidak asli karena di supermarket tidak ada tawar-menawar.
5) Menceritakan atau menceritakan kembali sebuah cerita adalah praktik umum dalam situasi kehidupan nyata.
Latihan 3
1) Itu dipromosikan oleh penggunaan tes konvensional yang tidak memuaskan.
2) Karena penilaian didasarkan pada apa yang dilakukan atau dilakukan oleh
peserta tes.
3) O'Malley dan Pierce menggunakan istilah penilaian otentik dan
penilaian kinerja.
4) Pengujian berbasis komputer menggunakan program komputer, dan pengujian berbasis internet
Latihan 4
1) Ya, jika siswa meminta penjelasan tentang petunjuk tes atau arti dari
butir-butir tes tertentu.
2) Penskoran analitik adalah penskoran dengan menggunakan poin-poin detail dan uraiannya
untuk memandu penilai dalam menskor.
3) Memiliki masalah dengan validitas muka; Tes tulis harus menunjukkan kemampuan
peserta tes dalam menghasilkan sebuah tulisan.
4) Karena penilaian yang dilakukan oleh seorang rater harus objektif dan adil.
5) Umpan balik adalah surat, angka, komentar, atau saran yang diberikan kepada
peserta tes untuk menunjukkan kualitasnya, sedangkan washback adalah dampak
tes terhadap peserta tes, guru, proses belajar mengajar, dll.
Tes Formatif 1
1) Keuntungan: TOEFL sudah tersedia, mudah dinilai, dapat digunakan untuk
sejumlah besar siswa. Kekurangan: mahal, mungkin tidak sesuai dengan
bahan ajar.
2) Misalnya, Siswa A memiliki masalah dalam pengucapan beberapa gugus konsonan,
misalnya /-gz/, /-bd/, dan /-pt/.
3) Kelebihan kelas homogen adalah mudahnya seorang guru mengajar karena
kemampuan siswa relatif sama; namun kelemahannya adalah siswa yang
berkemampuan rendah akan merasa rendah diri atau kehilangan motivasi dalam
belajar. Kelebihan kelas heterogen adalah siswa yang berkemampuan rendah
dapat belajar dari siswa yang berkemampuan tinggi; namun kelemahannya adalah
sulit bagi seorang guru untuk mengajar siswa dengan kemampuan yang sangat
bervariasi.
4) Sekolah harus meminta peneliti untuk memberikan salinan laporan
penelitian kepada sekolah, dan guru di sekolah harus menggunakan hasil
penelitian untuk perbaikan siswanya.
5) Merupakan penilaian yang bukan tes. Ini menggambarkan kemampuan siswa dalam
berbicara. Ini bukan evaluasi, karena tidak memberikan penilaian kepada siswa.
Tes Formatif 2
1) Karena menekankan pengajaran struktur atau tata bahasa.
2) Misalnya, bahasa Inggris memiliki berbagai bentuk kata kerja untuk menunjukkan waktu terjadinya,
sedangkan bahasa Indonesia tidak memiliki (atau, bisa ada jawaban lain)
-MPBI5201/MODUL 1 1.41
Tes Formatif 3
1) Dapat dilakukan pada waktu dan tempat peserta ujian sendiri.
2) Konteks dunia nyata berarti peniruan kegiatan dalam kehidupan nyata.
3) Misalnya, tes hanya dapat dibuka oleh administrator tes yang berwenang.
(Mungkin ada jawaban lain yang memungkinkan).
4) Itu milik domain kognitif.
5) Gaya auditori yaitu gaya belajar melalui menyimak, gaya visual yaitu
gaya belajar melalui melihat, dan gaya kinestetik yaitu gaya belajar
melalui perbuatan.
Tes Formatif 4
1) Karena hasil tes mungkin tidak menunjukkan kemampuan sebenarnya dari peserta
tes
2) Alasannya, dalam ujian masuk perguruan tinggi pengawas dicegah untuk
memberikan jawaban yang salah, meskipun hanya pertanyaan klarifikasi.
3) Misalnya, seorang pengawas berdiri di samping peserta ujian sehingga peserta ujian
tidak dapat berkonsentrasi. (Mungkin ada jawaban lain yang mungkin.)
4) Karena sebagian besar bor mekanik/substitusi fokus pada bentuk/pola, dan bukan
pada makna atau penggunaan.
5) Dapat terjadi pembalikan negatif, di mana siswa tidak mempersiapkan ujian dengan
serius, mengetahui bahwa mereka dapat menyontek.
1.42 Penilaian dalam Pengajaran Bahasa -
Referensi