Anda di halaman 1dari 36

LAPORAN BAB 2 (PRINSIP PENILAIAN BAHASA) BUKU

LANGUAGE ASSESMENT PRINCIPLES AND CLASSROM


PRACTICES KARYA H. DOUGLAS BROWN

LAPORAN BUKU

Diajukan untuk Memenuhi Salah Tugas Mata Kuliah


Evaluasi dalam Pengajaran Bahasa dan Sastra Indonesia
yang diampu oleh Dr. Agus Hamdani, M.Pd.

Oleh
Ridwan Anas 23881010

PENDIDIKAN BAHASA DAN SASTRA INDONESIA


PROGRAM PASCASARJANA
INSTITUT PENDIDIKAN INDONESIA
2024
KATA PENGANTAR

Puji dan Syukur kehadirat Allah Swt. Yang telah melimpahkan rahmat dan

keberkahan sehingga penulis dapat menyelesaikan laporan buku bab 2 (Prinsip

Penilaian Bahasa) buku language assesment principles and classrom practices

karya H. Douglas Brown dengan tepat waktu.

Penulis sebagai pelapor menyadari penyusunan laporan buku ini masih

terdapat kekeurangan, baik secara subtansi maupun penulisan. Namun penulis

berharap semoga laporan ini dapat bermanfaat bagi orang lain, terkhusus semoga

penulis mendapat nilai ibadah dalam pandangan Allah yang maha kuasa, aamiin.

Tasikmalaya, Maret 2024

Penulis,

ii
DAFTAR ISI
KATA PENGANTAR.............................................................................................ii
BAB I.......................................................................................................................1
PENDAHULUAN...................................................................................................1
BAB II.....................................................................................................................3
ISI LAPORAN........................................................................................................3
A. KEABSAHAN/ VALIDITY.........................................................................3
B. KEANDALAN/RELIABILITY....................................................................9
C. KEPRAKTISAN/PRACTICALITY...........................................................11
D. KEASLIAN/AUTHENTICITY..................................................................12
E. CUCI KEMBALI/WASHBACK................................................................12
BAB III..................................................................................................................14
PEMBAHASAN...................................................................................................14
A. Pengertian Prinsip Penilaian Bahasa...........................................................14
B. Kepraktisan.................................................................................................15
C. Reliabilitas..................................................................................................16
D. Validitas......................................................................................................18
E. Keaslian.......................................................................................................26
F. Washback/ Cuci Kembali............................................................................28
BAB IV..................................................................................................................31
KESIMPULAN.....................................................................................................31
DAFTAR PUSTAKA...........................................................................................33

iii
BAB I

PENDAHULUAN

Dalam konteks globalisasi dan kemajuan teknologi, kemampuan berbahasa

menjadi kunci penting dalam menghadapi tantangan dunia modern. Bahasa tidak

hanya sebagai alat komunikasi, tetapi juga sebagai sarana untuk memperluas

wawasan dan memahami budaya lain. Oleh karena itu, penilaian kemampuan

berbahasa menjadi hal yang krusial dalam menentukan keberhasilan

pembelajaran.

Namun, penilaian kemampuan berbahasa tidak selalu berjalan mulus.

Banyak faktor yang memengaruhi efektivitas penilaian, seperti kecocokan metode

dengan tujuan pembelajaran, keobjektifan penilaian, dan keterkaitan hasil

penilaian dengan kebutuhan dunia nyata. Selain itu, perkembangan teori dan

pendekatan dalam pengajaran bahasa juga memengaruhi cara kita menilai

kemampuan berbahasa.

Suherman (14:2016) mengungkapkan program penilaian yang efektif

meliputi berbagai prosedur diantaranya berdasar pada hasil observasi guru selama

berlangsung pembelajaran, sementara hal lainnya dibutuhkan alat yang lebih

sistematik.

Dalam menghadapi kompleksitas penilaian bahasa, pemahaman terhadap

prinsip-prinsip penilaian bahasa menjadi sangat penting. Prinsip-prinsip ini

memberikan dasar yang kokoh bagi para pendidik dan peneliti untuk

mengembangkan metode penilaian yang lebih efektif dan relevan dengan

1
kebutuhan pembelajaran. Buku "Language Assessment Principles and Classroom"

karya H. Douglas Brown hadir sebagai panduan yang komprehensif dalam

memahami prinsip-prinsip tersebut.

Pada laporan bab 2 ini Brown mengulas lima prinsip pengujian:

kepraktisan, keandalan, validitas, keaslian, dan pencucian kembali. Hal ini yang

mesti dipahami oleh seorang pendidik sehingga dapat memberikan penilaian ynag

terbaik bagi peserta didiknya.

2
BAB II

ISI LAPORAN

A. KEABSAHAN/ VALIDITY

Ketika guru datang ke penilaian, mereka banyak menghadapi pertanyaan

tentang bagaimana mengukur kemampuan siswa. Kata tanya ‘bagaimana’

mengandung makna bahwa guru harus mampu merancang suatu pengukuran

untuk memunculkan potensi-potensi siswa sesuai dengan keinginannya. Itu adalah

validitas. Tautan validitas ke akurasi. Tes yang baik harus valid atau akurat.

Beberapa ahli telah mendefinisikan masa berlakunya. Heaton (1975: 153),

misalnya, menyatakan validitas suatu tes adalah sejauh mana tes tersebut

mengukur apa yang seharusnya diukur. Bachman (1990: 236) juga menyebutkan

bahwa dalam pemeriksaan validitas, dipertimbangkan hubungan antara kinerja tes

dan jenis kinerja lain dalam konteks lain. Brown (2004: 22) mendefinisikan

validitas sebagai sejauh mana kesimpulan yang dibuat dari hasil penilaian adalah

tepat, bermakna, dan berguna dalam kaitannya dengan tujuan penilaian. Demikian

pula Gronlund dan Waugh (2009: 46) menyatakan validitas berkaitan dengan

interpretasi dan penggunaan hasil penilaian. Dari definisi-definisi tersebut dapat

disimpulkan bahwa ketika suatu tes valid, maka tes tersebut dapat memunculkan

kemampuan tertentu siswa sebagaimana mestinya. Tes yang valid juga dapat

mengukur apa yang seharusnya diukur.

Validitas merupakan suatu konsep kesatuan (Bachman, 1990: 241;

Gronlund dan Waugh, 2009: 47). Untuk mendapatkan kesimpulan yang valid dari

nilai tes, sebuah tes harus memiliki beberapa jenis bukti. Bukti validitas meliputi

3
validitas wajah, bukti terkait isi, bukti terkait kriteria, bukti terkait konstruk, dan

validitas konsekuensial. Pada bagian berikut, bukti-bukti tersebut dijelaskan

secara rinci.

1. Validitas Wajah/Face Validity

Konsep validitas muka menurut Heaton (1975:153) dan Brown (2004:26)

adalah ketika suatu soal tes terlihat benar oleh penguji lain, guru, moderator, dan

peserta tes. Selain itu, ia muncul untuk mengukur pengetahuan atau kemampuan

yang ingin diukurnya. Heaton berpendapat bahwa jika suatu tes diperiksa oleh

orang lain, beberapa absurditas dan ambiguitas dapat ditemukan.

Validitas wajah penting dalam menjaga motivasi dan kinerja peserta tes

(Heaton, 1975; 153; Weir, 1990: 26). Jika suatu tes tidak memiliki validitas muka,

tes tersebut mungkin tidak dapat diterima oleh siswa atau guru. Jika siswa tidak

menganggap tes tersebut valid, mereka akan menunjukkan reaksi yang merugikan

(reaksi belajar yang buruk, motivasi yang rendah). Dengan kata lain, mereka tidak

akan tampil dengan cara yang benar-benar mencerminkan kemampuan mereka.

Brown (2004: 27) menyatakan bahwa validitas muka kemungkinan besar

akan tinggi jika pembelajar menjumpai:

1. format yang dibangun dengan baik dan diharapkan dengan tugas-tugas

yang familiar,

2. tes yang jelas dapat dilakukan dalam batas waktu yang ditentukan,

3. item yang jelas dan tidak rumit,

4. arah yang sangat jelas,

4
5. tugas-tugas yang berhubungan dengan tugas mata pelajaran mereka

(validitas isi), dan

6. tingkat kesulitan yang menghadirkan tantangan yang masuk akal.

Untuk menguji validitas wajah, tidak diperlukan analisis statistik.

Tanggapan yang menghakimi dari para ahli, kolega, atau peserta tes mungkin

terlibat. Mereka dapat membaca keseluruhan item secara menyeluruh atau hanya

melihat sekilas item tersebut. Kemudian, mereka dapat menghubungkan

kemampuan yang ingin diukur oleh tes tersebut. Jika tes berbicara muncul dalam

item kosakata, tes tersebut mungkin tidak memiliki validitas wajah.

a. Bukti Terkait Konten/ Content-related Evidence

Tes dilaksanakan setelah materi diajarkan seluruhnya. Tes dapat

mempunyai bukti terkait isi jika tes tersebut mewakili keseluruhan materi yang

diajarkan sebelumnya sehingga siswa dapat menarik kesimpulan dari materi

tersebut (Weir, 1990: 24; Brown, 2004: 22; Gronlund dan Waugh, 2009: 48).

Selain itu, tes juga harus mencerminkan tujuan kursus (Heaton, 1975: 154). Jika

tujuan tes adalah untuk membuat siswa dapat berbicara, maka tes tersebut harus

membuat siswa berbicara secara komunikatif. Jika tujuan tes adalah untuk

membuat siswa dapat membaca, maka tes tersebut harus membuat mereka

membaca sesuatu. Tes berbicara yang muncul dalam bentuk tes pilihan ganda

kertas dan pensil tidak dapat diklaim mengandung bukti terkait konten. Dalam

kaitannya dengan kurikulum, tes yang mempunyai bukti terkait isi mewakili

kompetensi dasar.

5
Pengujian langsung dan pengujian tidak langsung merupakan dua cara

dalam memahami validitas isi. Pengujian langsung melibatkan peserta tes dalam

benar-benar melakukan tugas target. Sementara itu, peserta didik tidak melakukan

tugas itu sendiri melainkan tugas yang terkait dalam beberapa cara dalam

pengujian tidak langsung (Brown, 2004: 23).

Membangun bukti terkait konten merupakan suatu permasalahan, terutama

ketika menangani sebagian item yang mewakili domain yang lebih besar. Untuk

membangun penilaian yang memberikan hasil yang valid, dapat diterapkan

pedoman di bawah ini (Gronlund dan Waugh, 2009: 48-49).

1. mengidentifikasi hasil pembelajaran yang akan dinilai (tujuan kursus),

2. menyiapkan rencana yang merinci contoh tugas yang akan digunakan

(cetak biru),

3. menyiapkan prosedur penilaian yang sesuai dengan himpunan cetak

biru (rubrik).

b. Bukti Terkait Kriteria/ Criterion-related Evidence

Perbandingan antara nilai tes dan kriteria kinerja eksternal yang sesuai

mengacu pada bukti terkait kriteria (Heaton, 1975: 254; Weir, 1990: 27; Brown,

2004: 24). Misalnya, hasil tes yang dibuat guru tentang past tense dibandingkan

dengan hasil tes topik yang sama di buku teks.

Ada dua jenis bukti terkait kriteria berdasarkan waktu pengumpulan

kriteria eksternal, secara bersamaan dan validitas prediktif. Validitas konkuren

berfokus pada penggunaan hasil tes untuk memperkirakan kinerja saat ini pada

6
beberapa kriteria yang dikumpulkan pada waktu bersamaan. Misalnya, desain tes

buatan guru dianggap memiliki validitas konkuren jika skornya sama dengan tes

valid yang sudah ada seperti TOEFL. Jika siswa mempunyai nilai TOEFL yang

tinggi dan sekaligus mempunyai nilai yang baik dalam mengerjakan tes buatan

guru, berarti tes buatan guru tersebut mempunyai validitas konkuren. Di sisi lain,

validitas prediktif berfokus pada penggunaan hasil tes untuk memprediksi kinerja

masa depan pada beberapa ukuran bernilai lainnya yang dikumpulkan di masa

depan. Misalnya, tes buatan guru diberikan kepada beberapa siswa dan mereka

mendapat nilai tinggi. Ternyata pada akhir proses belajar mengajar siswa masih

memperoleh nilai yang tinggi. Artinya tes buatan guru mempunyai validitas

prediktif. Selain itu, ketika seorang peserta tes melakukan suatu tes tertentu yang

hasilnya dapat diprediksi akan bertahan di luar negeri, maka tes tersebut juga

mempunyai validitas prediktif. Hal ini dapat ditemukan dalam tes kinerja, tes

penerimaan, tes bakat bahasa, dan sejenisnya. Untuk menguji bukti terkait kriteria,

digunakan koefisien korelasi dan tabel ekspektasi (Gronlund dan Waugh, 2009:

51-55).

c. Bukti Terkait Konstruksi/ Construct-related Evidence

Bukti terkait konstruk, yang disebut validitas konstruk, adalah teori,

hipotesis, atau model apa pun yang berupaya menjelaskan fenomena yang diamati

dalam dunia persepsi kita. Konstruksi mungkin diukur atau tidak secara langsung

atau empiris. Verifikasinya seringkali memerlukan data inferensial (Brown, 2004:

25). Cronbach (sebagaimana dikutip dalam Weir, 1990: 24) menyatakan bahwa

7
konstruksi suatu tes dimulai dari teori tentang perilaku atau organisasi mental

yang diperoleh dari penelitian sebelumnya yang menyarankan rencana dasar

pelaksanaan tes tersebut. Sebelum suatu penilaian dibangun, pencipta harus

mengkaji beberapa teori tentang isi penilaian tersebut. Ia kemudian akan

mendapatkan konsep baru terkait isi item tersebut. Dalam penilaian bahasa,

pembuat tes meyakini adanya beberapa karakteristik yang berkaitan dengan

perilaku dan pembelajaran bahasa. Ketika pembuat tes menafsirkan hasil penilaian

berdasarkan konstruksi psikologis, mereka berhadapan dengan bukti yang

berhubungan dengan konstruk (Heaton, 1975: 154; Gronlund dan Waugh, 2009:

55).

Misalnya, analisis penilaian untuk wawancara memerlukan beberapa

faktor: pengucapan, kelancaran, keakuratan tata bahasa, penggunaan kosakata,

dan kesesuaian sosiolinguistik. Pembenaran atas faktor-faktor ini terletak pada

konstruksi teoritis yang menyatakan bahwa faktor-faktor tersebut merupakan

komponen utama kemahiran lisan. Ketika seorang guru melakukan wawancara

kemahiran lisan yang hanya mengevaluasi dua faktor , guru tersebut dapat

mencurigai validitas konstruk tes tersebut.

Validitas semacam ini merupakan validitas yang paling luas diantara

validitas sebelumnya. Dengan kata lain, mencakup semua jenis bukti (bukti wajah,

terkait konten, terkait kriteria, dan bukti relevan lainnya). Meskipun perolehan

bukti terkait konstruksi tidak ada habisnya, pembuat tes harus membuat daftar

bukti yang paling relevan.

8
Validitas konstruk adalah masalah utama dalam memvalidasi tes

kemahiran standar berskala besar. Karena tes tersebut harus mematuhi prinsip

kepraktisan, dan karena tes tersebut harus mengambil sampel domain bahasa

dalam jumlah terbatas, tes tersebut mungkin tidak dapat memuat seluruh konten

bidang atau keterampilan tertentu (Brown, 2004: 25).

2. Validitas Konsekuensial/ Consequential Validity

Validitas konsekuensial mencakup semua konsekuensi dari suatu tes. Weir

(1990: 27) menyebut bukti ini sebagai validitas washback. Hal ini berfokus pada

dampak tes sehubungan dengan penggunaan tertentu, misalnya dampaknya

terhadap persiapan peserta tes, dampaknya terhadap peserta didik (efek positif

atau negatif), atau konsekuensi sosial dari interpretasi dan penggunaan tes. Bagi

guru, bukti konsekuensial itu penting. Mereka dapat menilai nilai ujian dan

menggunakan penilaian tersebut untuk meningkatkan pembelajaran. Bagi

pemangku kepentingan, bukti ini mengarah pada pengembangan kurikulum.

B. KEANDALAN/RELIABILITY

kembali mengacu pada konsistensi dan ketergantungan. Tes yang sama

yang diberikan kepada siswa yang sama lintas waktu administrasi harus

menghasilkan hasil yang sama. Faktor-faktor yang mempengaruhi reliabilitas

adalah (Heaton, 1975: 155-156; Brown, 2004: 21-22):

1. keandalan yang berhubungan dengan siswa : faktor pribadi siswa

seperti motivasi, penyakit, kecemasan dapat menghalangi kinerja

'nyata' mereka,

9
2. keandalan penilai : baik intra-penilai atau antar-penilai menyebabkan

subjektivitas, kesalahan, bias selama tes penilaian,

3. keandalan administrasi tes : ketika tes yang sama dilakukan pada

kesempatan yang berbeda, hasilnya dapat berbeda,

4. reliabilitas tes : berhubungan dengan durasi tes dan instruksi tes. Jika

suatu tes memakan waktu yang lama, hal ini dapat mempengaruhi

kinerja peserta tes seperti kelelahan, kebingungan, atau kelelahan.

Beberapa peserta tes tidak berkinerja baik dalam tes yang waktunya

ditentukan. Instruksi tes harus jelas bagi semua peserta tes karena

mereka dipengaruhi oleh tekanan mental.

Beberapa metode digunakan untuk mendapatkan keandalan penilaian

(Heaton, 1975: 156; Weir 1990: 32; Gronlund dan Waugh, 2009: 59-64). Mereka:

1. tes-tes ulang/administrasi ulang: tes yang sama dilakukan setelah

selang waktu tertentu. Dua skor yang diperoleh kemudian

dikorelasikan.

2. metode bentuk paralel/bentuk setara: menyelenggarakan dua tes

kloning secara bersamaan kepada peserta tes yang sama. Hasil tes

kemudian dikorelasikan.

3. Metode split-half: suatu tes dibagi menjadi dua, skor yang diperoleh

sesuai, sejauh mana mereka berkorelasi satu sama lain mengatur

keandalan tes secara keseluruhan.

10
4. tes-tes ulang dengan bentuk padanannya: metode tes-tes ulang

campuran dan bentuk paralel. Dua tes kloning diberikan kepada peserta

tes yang sama pada kesempatan berbeda.

5. intra-rater dan inter-rater: mempekerjakan satu orang untuk menilai

tes yang sama dalam waktu yang berbeda disebut intra-rater. Beberapa

cara untuk meminimalkan ketidakandalan adalah dengan menggunakan

rubrik, menghindari kelelahan, memberikan nilai pada nomor yang

sama, dan menyarankan siswa menuliskan namanya di belakang kertas

ulangan. Ketika dua orang mendapat skor tes yang sama, itu adalah

antar penilai. Tes yang dilakukan oleh peserta tes dibagi menjadi dua.

Rubrik dan pembahasan harus dikembangkan terlebih dahulu agar

mempunyai persepsi yang sama. Dua skor baik dari intra atau antar

penilai berkorelasi.

C. KEPRAKTISAN/PRACTICALITY

Validitas dan reliabilitas saja tidak cukup untuk membangun sebuah tes.

Sebaliknya, tes tersebut harus praktis dalam hal waktu, biaya, dan energi.

Berkenaan dengan waktu dan tenaga, tes harus efisien dalam pembuatan,

pengerjaan, dan evaluasi. Kemudian, tesnya harus terjangkau. Percuma saja jika

tes yang valid dan reliabel tidak dapat dilakukan di daerah terpencil karena

memerlukan komputer murah untuk melakukannya (Heaton, 1975: 158-159;

Weir, 1990: 34-35; Brown, 2004: 19-20).

11
D. KEASLIAN/AUTHENTICITY

Sebuah tes harus otentik. Bachman dan Palmer (sebagaimana dikutip

dalam Brown, 2004: 28) mendefinisikan keaslian sebagai derajat kesesuaian

karakteristik tugas tes bahasa tertentu dengan ciri-ciri bahasa sasaran. Beberapa

hal yang harus diperhatikan dalam membuat tes autentik: bahasa yang digunakan

dalam tes harus natural, butir soal harus kontekstual, topik yang dibawakan dalam

tes harus bermakna dan menarik bagi peserta didik, butir soal harus disusun secara

tematis, dan tes harus didasarkan pada dunia nyata.

E. CUCI KEMBALI/WASHBACK

Dampak tes terhadap proses belajar mengajar disebut washback. Guru

harus mampu membuat tes kelas yang berfungsi sebagai perangkat pembelajaran

yang dapat digunakan untuk mencapai keberhasilan. Washback meningkatkan

motivasi intrinsik, otonomi, kepercayaan diri, ego bahasa, antarbahasa, dan

investasi strategis pada siswa. Daripada memberikan nilai huruf dan nilai numerik

yang tidak memberikan informasi mengenai kinerja siswa, memberikan komentar

yang banyak dan spesifik adalah cara untuk meningkatkan washback (Brown

2004: 29).

Heaton (1975: 161-162) menyebut hal ini sebagai backwash effect yang

masuk dalam aspek makro dan mikro. Secara makro, tes berdampak pada

masyarakat dan sistem pendidikan seperti pengembangan kurikulum. Dalam aspek

mikro, tes berdampak pada individu siswa atau guru seperti meningkatkan proses

belajar mengajar.

12
Washback juga bisa bersifat negatif dan positif (Saehu, 2012: 124-127).

Sangat mudah untuk menemukan dampak negatif seperti mempersempit

kompetensi bahasa hanya pada mereka yang terlibat dalam tes dan mengabaikan

sisanya. Meskipun bahasa merupakan alat komunikasi, sebagian besar siswa dan

guru di kelas bahasa hanya fokus pada kompetensi bahasa yang diujikan. Di sisi

lain, sebuah tes dapat memberikan dampak positif jika tes tersebut mendorong

proses belajar mengajar yang lebih baik. Namun, hal tersebut cukup sulit untuk

dicapai. Contoh hasil tes yang positif adalah Tes Bahasa Inggris Matrikulasi

Nasional di Tiongkok. Hasilnya adalah setelah tes dilaksanakan, kemahiran siswa

dalam bahasa Inggris untuk situasi penggunaan bahasa yang sebenarnya atau

otentik meningkat.

Washback bisa kuat atau lemah (Saehu, 2012: 122-123). Contoh pengaruh

yang kuat dari tes ini adalah ujian nasional; Sedangkan pengaruh tes yang lemah

adalah dampak tes formatif. Mari kita bandingkan dan putuskan bagaimana reaksi

sebagian besar siswa dan guru terhadap kedua jenis tes tersebut.

13
BAB III

PEMBAHASAN

A. Pengertian Prinsip Penilaian Bahasa

Penilaian merupakan kegiatan yang tidak mungkin bisa dipisahkan dari

kegiatan pembelajaran. Semua kegiatan pembelajaran harus selalu diikuti kegiatan

penilaian. Tanpa melakukan suatu penilaian kita tidak mungkin dapat melaporkan

hasil pembelajaran peserta didik secara objektif.

Kegiatan pembelajaran harus dilakukan secara terencana, dan tidak

mengandalakan teknik pengamatan saja karena hal itu kurang dapat

dipertanggungjawabkan. Penilaian merupakan kegiata yang kompleks terdapat

berbagai faktor yang harus diperhitungkan dalam kegiatan penilaian dan tidak

berdasarkan kira-kira atau prediksi saja. Untuk mengukur kemampuan peserta

didk diperlukan alat ukur yang tepat dan dapat dipertanggungjawabkan.

Tuckmen (1975) berpendapat bahwa penilaian merupakan suatu proses

untuk mengetahui (menguji) apakah suatu kegiatan, proses kegiatan, keluaran

suatu program telah sesuai dengan tujuan atau kriteria yang telah ditentukan.

Sehingga kita sebagai pendidikan dpat memberikan penilaian dengan tepat.

Terdapat tiga istilah yang sering dipergunakan secara bergantian di dunia

pendidikan dan tidak jarang pula sering terganti atau tersamakan pengertian dari

ketiga istilah tersebut namun tentu berbeda. Ketiga istilah yang dimaksud adalah ,

pengukuruan ( measurement), asesmen, dan Evaluasi (evaluations).

Pengukuran merupakan proses untuk memperoleh deskripsi angka (skor) atau


data untuk menunjukan tingkat capaian sesorang dalam bidang tertentu melalui

14
tes dan nontes. Asesmen terkait langsung dan menjadi bagian dari proses
pembelajaran dan dilakukan secara berkelanjutan selama berlangsung proses
pembelajaran. Evaluasi merupaka proses sitematis dalam pengumpulan,
analisi, dan penafsiran informasi untuk menetukan seberapa jauh peserta didik
mencapai tujuannya (Gronlund, 1985).

Evalusi, asesmen, dan pengukuran merupakan satu kesatuan yang saling

memerlukan. Data yang diperoleh dari kegiatan pengukuran dapat diolah dan

menjadi hasil evaluasi yang dapat menjadi informasi bagi pendidik untuk bisa

mengetahui perkembangan peserta didik. Tanpa adanya data atau informasi hasil

pengukuran tersebut tampaknya hampir tidak mungkin dilakukan kegiatan

evaluasi yang memberikan pertimbanganterhadap suatu hal.

B. Kepraktisan

Tes yang efektik praktis dalam buku ini berarti tes tersebut tidak

membutuhkan biaya yang mahal, tetap pada batasan waktu yang tepat, relatif

mudah dikelola, memiliki prosesdur penilaian/evaluasi yang spesifik dan efisien.

Berikut Daftar Periksa Kepraktisan menurut Brown :

1. Apakah rincian administrasi ditetapkan dengan jelas sebelum ujian?

2. Dapatkah siswa menyelesaikan tes secara wajar dalam jangka waktu

yang ditentukan?

3. Dapatkah tes dilakukan dengan lancar tanpa gangguan prosedural?

4. Apakah semua bahan dan peralatan sudah siap?

5. Apakah biaya tes dalam batas yang dianggarkan?

6. Apakah penilaian/evaluasi layak dalam kerangka waktu guru?

7. Apakah metode untuk melaporkan hasil ditentukan sebelumnya?

15
C. Reliabilitas

Relibilitas berlaku untuk tes terdapat empat hal yang harus dijaga

sebagaimana dicatat dalam bagian kedua bab ini reliabilitas dapat dicapai dengan

memastikan bahwa semua siswa menerima kualitas input yang sama, baik tertulis

maupun auditori. Menurut Nurgoyantoro (2016) jika menyusun atau memiliki

suatu alat tes, kita perlu mempertanyakan: apakah alat tes tersebut reliabel

(terpercaya, andal)? Jika tes diujicobakan lebih dari satu kali, kepada subjek yang

sama dalam waktu berbeda, apakah memberikan hasil yang kurang lebih sama?

Artinya, walau ada perbedaan, perbedaan itu tidak signifikan.

Relibilitas menurut brown dapat dicapai apabila siswa menerima kualitas

input yang sama, baik tertulis maupun auditori. Bagian dari pencapaian reliabilitas

tes tergantung pada konteks fisik yang memastikan, mislanya,

 Setiap siswa memiliki lembar tes yang difotokopi dengan bersih,

 Amplifikasi suara jelas terdengar oleh semua orang di ruangan,

 Input video sama-sama terlihat oleh semua orang,

 Pencahayaan, suhu, noise asing, dan kondisi kelas optimal untuk semua

siswa, dan

 Prosedur penilaian objektif guna meninggalkan perdebatan tentang

kebenaran jawaban.

1. Reliabilitas Terkait Siswa

Masalah siswa yang paling umu dalam reliabilitas disebabkan oleh

penyakit sementara, misalnya kelelahan, hari yang buruk, kecemasan, dan

faktor fisik atau psikologi lainnya yang dapat membuat siswa tidak pada

16
performa yang baik. Hal ini mengharuskan guru harus bisa mengambil

kebijaksanaan (tes-wiseness) bagi peserta atau membuat strategi untuk

pengambilan tes yang efisien.

2. Reliabilitas Rater

Kesalahan manusia, subjektivitas, dan kebiasan dapat masuk kedalam

proses penilian. Oleh karenanya Brown membagi hal tersebut menjadi dua,

perta Relibilitas anta-penilai terjadi ketika dua atau lebih pemberi skor

menghasilkan skor yang tidak konsisten dari tes yang sama, mungkin karena

kurangnya perhatian terhadap kriteria penilaian, kurangnya pengalaman, atau

bahkan bias yang terbentuk sebelum penilaian. Kedua Relibilitas Intra-penilai

adalah kejadian umum bagi guru kelas karena kriteria penilian yang tidak

jelas, kelelahan, bias terhadap siswa yang bersikap baik atau kurang baik, dan

atau guru melakukan kecerobohan sederhana.

3. Reliabilitas Administrasi Pengujian

Ketidak Reliabelan juga dapat diakibatkan oleh kondisi di mana tes diberikan

namun tidak mengacu pada instrumen pengukuran yang digunakan.

Menurut Thorndike (2011) yang menurut pandangan saya mirip dengan


Brown menjelsakan terdapat beberapa metode untuk mengukur reliabilitas
administrasi pengujian di antaranya:
a. Test-Retest Reliablitiy : Metode ini mengukur reliabilitas dengan cara
memberikan tes yang sama kepada responden dalam dua waktu yang
berbeda. Korelasi antara skor pada uji coba pertama dan uji coba
kedua kemudian dihitung. Jika korelasi tinggi, maka instrumen
dianggap memiliki reliabilitas yang baik.
b. Parallel Forms Reliability: Metode ini melibatkan pembuatan dua
versi tes yang setara secara konten dan tingkat kesulitan, namun
berbeda dalam konten dan soal. Kemudian, kedua versi tes ini
diberikan kepada responden secara acak. Korelasi antara skor pada
kedua versi tes tersebut kemudian dihitung.

17
c. Internal Consistency Reliability: Metode ini mengukur reliabilitas
dengan cara melihat sejauh mana setiap item dalam instrumen
pengukuran konsisten dengan keseluruhan instrumen. Salah satu
metode yang umum digunakan adalah Cronbach's alpha, yang
mengukur seberapa baik item-item dalam tes tersebut saling
berkorelasi.
d. Inter-Rater Reliability: Metode ini digunakan ketika terdapat lebih
dari satu penilai yang menilai sesuatu, seperti dalam penilaian tes lisan
atau penilaian portofolio. Inter-rater reliability mengukur sejauh mana
kesepakatan antara penilai dalam memberikan penilaian.

D. Validitas

Validitas dapat didefinisikan sebagai "sejauh mana kesimpulan yang

dibuat dari hasil penilaian sesuai, bermakna, dan berguna dalam hal tujuan

penilaian" (Gronlund, 1998, hal.226). Bagaimana validitas tes ditetapkan? Tidak

ada ukuran validitas final dan absolut, tetapi beberapa jenis bukti yang berbeda

dapat digunakan untuk mendukung. Dalam beberapa kasus, mungkin tepat untuk

memeriksa sejauh mana tes membutuhkan kinerja yang sesuai dengan kursus atau

unit studi yang diuji. Dalam kasus lain, kita mungkin prihatin dengan seberapa

baik tes menentukan apakah siswa telah mencapai serangkaian tujuan atau tingkat

kompetensi yang ditetapkan. Korelasi statistik dengan tindakan terkait tetapi

independen lainnya adalah bentuk bukti lain yang diterima secara luas.

Kekhawatiran lain tentang validitas tes mungkin berfokus pada konsekuensi - di

luar mengukur kriteria itu sendiri - dari tes, atau bahkan pada persepsi peserta tes

tentang validitas.

1. Validitas Terkait Konten ( Validitas Isi)

Validitas isi merupakan proses penentuan seberapa jauh suatu alat tes

menunjukan kerelevansian dan keterwakilan terhadap ranah tugas yang diukur

18
(Gronlund: 1985). Sedangkan Tuckman (1975) mengemukakan bahwa validitas

isi menunjuk pada pengertian apakah alat tes itu mempunyai kesusuaian dengan

tujuan dan deskripsi bahan pelajaran yang diajarkan. Berdasarkan pendapat

tersebut validitas isi berkaitan erat dengan konsep atau teori yang mendasari

domai yang ingin diukur. Langkah-langkah penilaian validitas isi

a. Spesifikasi Domain : Langkah pertama adalah mengidentifikasi dan

mendefinisikan dengan jelas domain atau konstruk yang ingin diukur.

Misalnya, jika kita ingin mengukur kemampuan menyimak siswa, kita

perlu mendefinisikan dengan jelas apa yang dimaksud dengan

"kemampuan menyimak" tersebut.

b. Pengembangan Instrumen: Instrumen pengukuran (misalnya tes,

kuesioner, atau observasi) dikembangkan berdasarkan spesifikasi domain

yang telah ditetapkan. Instrumen ini harus mencakup secara representatif

aspek-aspek penting dari domain yang ingin diukur.

c. Evaluasi Ahli: Instrumen yang telah dikembangkan dievaluasi oleh

sejumlah ahli atau pakar dalam bidang yang relevan untuk memastikan

bahwa instrumen tersebut mencerminkan domain yang ingin diukur

dengan baik. Evaluasi ahli ini dapat membantu mengidentifikasi

kelemahan atau kekurangan instrumen yang perlu diperbaiki.

d. Pengujian Piloting: Instrumen kemudian diuji coba (piloting) pada

sejumlah sampel yang representatif untuk memastikan bahwa instrumen

tersebut dapat dijalankan dengan baik dan memberikan data yang valid.

19
e. Analisis Data: Data yang diperoleh dari pengujian piloting kemudian

dianalisis untuk memastikan bahwa instrumen tersebut dapat mengukur

secara adekuat dan representatif domain yang ingin diukur.

Validitas Konten ini merupakan hal yang penting dalam tes kelas, menurut Brown

dalam Bagian kedua ini mengungkapkan terdapat dua langkah untuk

mengevaluasi validitas konten tes kelas.

Pertama identifikasi tujuan, tidak sedikit guru mengajar setiap hari tanpa

memerhatikan tujuan yang harus dicapai dan atau tujuan tersebut dirumuskan

dengan buruk sehingga menentukan apakah tujuan tersebut tercapai atau tidak

menjadi tidak mungkin. Berikut tujuan untuk pemebelajaran Mahasiswa dalam

program persiapan guru:

a. Siswa harus dapat menunjukan beberapa pemahaman bacaan.

b. Untuk melatih kosa kata dalam konteks.

c. Siwa akan bersenang-senang melalui kegiatan dengan demikian siswa

akan menikmati pemeblajaran.

d. Untuk memberikan siswa latihan tentang perbedaan /i/ - /I/.

e. Siswa akan menghasilkan pertanyaan ya/tidak dengan intonasi akhir

Kedua, Apakah tujuan pembelajaran diwakili dalam bentuk spesifikasi tes?

Masalah validitas konten selanjutnya dapat diterapkan pada tes kelas berpusat

pada konsep spesifikasi tes. Ini berarti bahwa tes harus memiliki struktur yang

mengikuti secara logis dari pelajaran yang diujikan. Tes memiliki desain yang...

a. membaginya menjadi beberapa bagian (mungkin sesuai dengan tujuan

yang sedang dinilai),

20
b. menawarkan kepada siswa berbagai jenis item, dan

c. memberikan bobot relatif yang sesuai untuk setiap bagian.

Maksudnya struktur yang baik dari suatu tes. Secara khusus, tes sebaiknya

pertama dibagi menjadi beberapa bagian: Setiap bagian mungkin mencakup

materi yang sesuai dengan tujuan pembelajaran yang ingin diuji. Misalnya, jika

tujuan pembelajaran adalah mengukur pemahaman konsep dan kemampuan

pemecahan masalah, tes dapat dibagi menjadi bagian-bagian yang menguji

pemahaman konsep dan bagian lain yang menguji kemampuan pemecahan

masalah. Kedua menyediakan berbagai jenis soal: Tes sebaiknya menawarkan

berbagai jenis soal, seperti pilihan ganda, esai, atau soal aplikasi, untuk mengukur

berbagai aspek kognitif seperti pengetahuan, pemahaman, aplikasi, analisis,

sintesis, dan evaluasi.

Ketiga Memberikan bobot yang sesuai untuk setiap bagian: Bobot yang

diberikan untuk setiap bagian tes sebaiknya mencerminkan pentingnya tujuan

pembelajaran yang diuji oleh bagian tersebut. Bagian yang mencakup tujuan

pembelajaran yang lebih penting atau kompleks dapat diberikan bobot yang lebih

besar dibandingkan dengan bagian yang mencakup tujuan pembelajaran yang

lebih sederhana atau kurang penting.

2. Validitas Terkait Kriteria

Validit terkait kriteria adalah sejauh mana "kriteria" tes sebenarnya telah

tercapai. Dalam kasus penilaian kelas buatan guru, bukti terkait kriteria paling

baik ditunjukkan melalui perbandingan hasil penilaian dengan hasil beberapa

ukuran lain dari kriteria yang sama.

21
Bukti terkait kriteria biasanya jatuh ke dalam salah satu dari dua kategori:

validitas konkuren dan prediktif. Tes memiliki validitas bersamaan jika hasilnya

didukung oleh kinerja bersamaan lainnya di luar penilaian itu sendiri. Validitas

prediktif penilaian menjadi penting dalam hal tes penempatan, baterai penilaian

penerimaan, tes bakat bahasa, dan sejenisnya. Kriteria penilaian dalam kasus

seperti itu bukan untuk mengukur kemampuan bersamaan tetapi untuk menilai

(dan memprediksi) kemungkinan keberhasilan peserta tes di masa depan.

Sebagai contoh, kita bisa membayangkan sebuah tes kemampuan berbicara

bahasa Inggris yang dikembangkan untuk mengukur kemampuan siswa dalam

berkomunikasi secara lisan. Kriteria yang relevan dalam hal ini bisa berupa

kemampuan siswa untuk berkomunikasi dengan lancar dan efektif dalam situasi

sehari-hari.

Untuk menilai validitas terkait kriteria tes tersebut, kita dapat melakukan

studi di mana kita mengukur skor tes berbicara siswa dan kemudian

membandingkannya dengan penilaian langsung terhadap kemampuan berbicara

mereka dalam situasi komunikasi nyata. Jika skor tes berbicara siswa secara

konsisten dapat memprediksi atau berhubungan dengan penilaian langsung

mereka, maka tes tersebut memiliki validitas terkait kriteria yang baik.

Penting untuk dicatat bahwa validitas terkait kriteria tidak hanya

bergantung pada seberapa baik tes tersebut dapat memprediksi kriteria yang

relevan, tetapi juga seberapa relevan kriteria tersebut dengan tujuan pengukuran

kita. Oleh karena itu, penting untuk memilih kriteria yang sesuai dengan konteks

pengajaran dan pembelajaran bahasa yang kita minati.

22
Validitas konkuren (concurrent validity) dan validitas prediktif (predictive

validity) adalah dua bentuk validitas terkait kriteria yang sering digunakan dalam

menguji kualitas suatu tes atau instrumen pengukuran. Berikut adalah penjelasan

singkat tentang kedua jenis validitas tersebut:

a. Validitas Konkuren (Concurrent Validity): Validitas konkuren mengukur

sejauh mana skor tes berkorelasi dengan kriteria yang sedang diamati pada

waktu yang sama. Dalam konteks pengukuran bahasa, misalnya, validitas

konkuren dapat diukur dengan membandingkan skor tes kemampuan

berbicara siswa dengan penilaian langsung kemampuan berbicara mereka

pada saat yang sama. Jika skor tes dan penilaian langsung tersebut

berkorelasi tinggi, maka tes tersebut dianggap memiliki validitas konkuren

yang baik.

b. Validitas Prediktif (Predictive Validity): Validitas prediktif mengukur

sejauh mana skor tes dapat memprediksi kriteria di masa depan. Misalnya,

dalam konteks tes bahasa, validitas prediktif dapat diukur dengan menguji

apakah skor tes kemampuan berbicara siswa pada saat ini dapat

memprediksi kemampuan berbicara mereka di masa depan. Jika skor tes

saat ini berkorelasi tinggi dengan kemampuan berbicara di masa depan,

maka tes tersebut dianggap memiliki validitas prediktif yang baik.

3. Validitas Terkait Konstruk

23
Validitas terkait konstruk biasanya disebut sebagai validitas konstruk.

Konstruk adalah teori, hipotesis, atau model apa pun yang mencoba menjelaskan

fenomena yang diamati di alam semesta persepsi kita. Konstruk mungkin atau

mungkin tidak diukur secara langsung atau empiris – verifikasi mereka sering

membutuhkan data inferensial. "Kemahiran" dan "kompetensi komunikatif"

adalah konstruksi linguistik; "Harga diri" dan "motivasi" adalah konstruksi

psikologis. Di bidang penilaian, validitas konstruk bertanya, "Apakah tes ini

benar-benar memanfaatkan konstruk teoritis seperti yang telah didefinisikan?"

Tes, dengan cara berbicara, operasional; definisi konstruk karena mereka

mengoperasionalkan entitas yang sedang diukur (lihat Lynch, 1996).

Validitas konstruk adalah masalah utama dalam memvalidasi tes

kemahiran standar skala besar. Karena tes semacam itu harus, karena alasan

ekonomi, mematuhi prinsip kepraktisan, dan karena mereka harus mengambil

sampel sejumlah domain bahasa, mereka mungkin tidak dapat memuat semua

konten dari bidang atau keterampilan tertentu. Menurut Brown, untuk menilai

konstruk validitas sebuah tes bahasa, penting untuk memperhatikan beberapa

faktor, termasuk:

a. Kesesuaian Konstruk: Tes harus dirancang untuk mengukur konstruk atau

karakteristik yang sesuai dengan tujuan pengukuran. Misalnya, jika tujuan

adalah mengukur kemampuan berbicara bahasa Inggris, maka tes harus

mengukur aspek-aspek kunci dari kemampuan berbicara tersebut.

24
b. Konsistensi Internal: Tes harus konsisten dalam mengukur konstruk yang

sama. Hal ini dapat diukur dengan menggunakan metode statistik seperti

konsistensi internal Cronbach's alpha.

c. Hubungan dengan Konstruk Terkait: Tes harus memiliki hubungan yang

kuat dengan konstruk terkait yang sudah terbukti validitasnya. Misalnya,

tes kemampuan berbicara bahasa Inggris seharusnya berkorelasi dengan

tes kemampuan mendengarkan, membaca, dan menulis, karena

kemampuan berbicara biasanya terkait dengan kemampuan bahasa

lainnya.

d. Kehandalan: Tes harus dapat diandalkan dalam mengukur konstruk yang

sama secara konsisten. Hal ini dapat diukur dengan menggunakan metode-

metode statistik seperti koefisien reliabilitas.

4. Validitas Muka

Aspek penting dari validitas konsekuensial adalah sejauh mana "siswa

memandang penilaian sebagai adil, relevan, dan berguna untuk meningkatkan

pembelajaran" (Gronlund, 1998, hal.210), atau apa yang dikenal sebagai validitas

wajah. "Validitas wajah mengacu pada sejauh mana tes terlihat benar, dan

tampaknya mengukur pengetahuan atau kemampuan yang diklaimnya untuk

diukur, berdasarkan penilaian subyektif dari peserta ujian yang mengambilnya,

personel administrasi yang memutuskan penggunaannya, dan pengamat

psikometri lainnya yang tidak canggih" (Mousavi, 2002, hlm.244).

25
Validitas wajah berarti bahwa siswa menganggap tes itu valid. Validitas wajah

mengajukan pertanyaan "Apakah tes, pada 'wajah' itu, muncul dari perspektif

pelajar untuk menguji apa yang dirancang untuk diuji?" Validitas wajah

kemungkinan akan tinggi jika peserta didik menjumpai:

a. format yang dibangun dengan baik dan diharapkan dengan tugas-tugas

yang sudah dikenal,

b. tes yang jelas dapat dilakukan dalam batas waktu yang ditentukan,

c. item yang jelas dan tidak rumit,

d. arah yang jernih,

e. tugas yang berhubungan dengan pekerjaan kursus mereka (validitas

konten), dan

f. tingkat kesulitan yang menghadirkan tantangan yang masuk akal.

Validitas wajah bukanlah sesuatu yang dapat diuji secara empiris oleh seorang

guru atau bahkan oleh seorang ahli pengujian. Ini murni faktor "mata yang

melihatnya" – bagaimana peserta tes, atau mungkin pemberi tes, secara intuitif

memandang instrumen. Keadaan psikologis pelajar (kepercayaan diri, kecemasan,

dll) merupakan unsur penting dalam kinerja puncak oleh pelajar.

E. Keaslian

Keaslian berarti sejauhmana sebuah tes atau penilaian mencerminkan

situasi nyata di mana kemampuan keterampilan yang diukur sebenarnya

digunakan. Tes yang memeiliki keaslian dianggap mempresentasikan tugas atau

siatuasi yang relevan dan bermakna dalam kehidupan nyata, sehingga hasilnya

26
dapat dianggap sebagai indikasi yang dapat dipercaya tentang kemampuan atau

keterampilan seseorang dalam ituasi tersebut.

Dalam pengukuran bahasa, keaslian dapat dicapai dengan merancang tes

yang memerlukan siswa untuk menggunakan bahasa dalam konteks yang autentik,

seperti berinteraksi dengan orang lain, menulis surat, atau mempresentasikan

informasi. Tes yang kurang autentik mungkin terdiri dari pertanyaan-pertanyaan

yang tidak mencerminkan penggunaan bahasa yang sebenarnya dalam kehidupan

sehari-hari.

Keaslian juga berhubungan dengan konteks budaya dan sosial di mana bahasa

digunakan. Tes yang autentik harus mengakomodasi variasi budaya dalam

penggunaan bahasa dan tidak diskriminatif terhadap kelompok-kelompok tertentu.

Dengan memperhatikan keaslian, sebuah tes dapat memberikan gambaran

yang lebih akurat tentang kemampuan bahasa seseorang dalam situasi nyata, dan

dapat membantu guru dan peneliti dalam membuat keputusan yang lebih baik

tentang kemampuan dan perkembangan bahasa siswa.

Pada dasarnya, keaslian dalam tugas pengujian kemungkinan akan

diberlakukan di "dunia nyata". Dalam pengujian, keaslian dapat hadir dengan cara

berikut:

1. Bahasa dalam tes ini sealami mungkin

2. Item dikontekstualisasikan daripada diisolasi

3. Topik bermakna (relevan, menarik) bagi pelajar

4. Beberapa organisasi tematik untuk item disediakan, seperti melalui alur

cerita atau episode

27
5. Tugas mewakili, atau mendekati dekat, tugas dunia nyata.

F. Washback/ Cuci Kembali

Dalam penilaian skala besar, washback umumnya mengacu pada efek tes

terhadap instruksi dalam hal bagaimana siswa mempersiapkan diri untuk tes.

Contoh washback adalah kursus "menjejalkan", "mengajar untuk ujian", informasi

yang "mencuci kembali" kepada siswa dalam bentuk diagnosis kekuatan dan

kelemahan yang berguna, efek penilaian pada pengajaran dan pembelajaran

sebelum penilaian itu sendiri.

Salah satu cara untuk meningkatkan washback adalah dengan berkomentar

dengan murah hati dan khusus pada kinerja tes. Nilai huruf, skor numerik dan frasa

sama sekali tidak memberikan informasi tentang minat intrinsik kepada siswa dan

mengurangi segunung data kinerja linguistik dan kognitif menjadi molehill yang

tidak masuk akal. Tanggapi sebanyak mungkin detail selama tes jika waktu

memungkinkan. Berikan pujian untuk kekuatan serta kritik konstruktif terhadap

kelemahan. Berikan petunjuk strategis tentang bagaimana seorang siswa dapat

meningkatkan elemen kinerja tertentu. Dengan kata lain, luangkan waktu untuk

membuat kinerja tes pengalaman yang memotivasi secara intrinsik dari mana

seorang siswa akan mendapatkan rasa pencapaian dan tantangan.

washback dapat bersifat positif atau negatif, tergantung pada sejumlah

faktor, seperti desain tes, penggunaan tes, dan interpretasi hasil tes. Berikut adalah

beberapa contoh dampak washback:

28
a. Pembelajaran yang Berorientasi pada Tes: Dampak positif washback adalah

dapat mendorong siswa dan guru untuk fokus pada materi yang akan diuji,

sehingga memperkuat keterampilan yang relevan dengan tes tersebut.

b. Mengarahkan Perhatian pada Keterampilan Penting: Tes yang baik dapat

mengarahkan perhatian pada keterampilan atau pengetahuan yang penting

untuk dikuasai siswa, sehingga membantu mengarahkan pengajaran.

c. Memberikan Umpan Balik yang Berguna: Hasil tes dapat memberikan umpan

balik yang berguna kepada guru dan siswa tentang kemajuan belajar, sehingga

membantu dalam perencanaan pengajaran selanjutnya.

Namun, dampak negatif washback juga mungkin terjadi, seperti:

a. Perubahan dalam Metode Pengajaran: Guru mungkin cenderung menggunakan

metode pengajaran yang lebih berfokus pada tata bahasa dan kosa kata yang

akan diuji dalam tes, daripada metode yang lebih berorientasi pada komunikasi

dan pemahaman konteks penggunaan bahasa dalam kehidupan sehari-hari.

b. Fokus pada Aspek yang Diuji: Siswa dan guru mungkin lebih fokus pada

aspek-aspek tertentu dari bahasa Indonesia yang diuji dalam tes, seperti ejaan,

tata bahasa, atau kosa kata, sementara aspek-aspek lain seperti pemahaman

wacana atau kemampuan menulis naratif mungkin kurang mendapat perhatian.

c. Pelajaran Tambahan atau Kursus Persiapan: Sekolah atau guru mungkin

menyelenggarakan pelajaran tambahan atau kursus persiapan khusus untuk

menghadapi tes, yang mungkin memfokuskan pada penguasaan materi yang

akan diuji tanpa memperhatikan pengembangan kemampuan bahasa yang lebih

luas.

29
d. Stres Tambahan: Siswa mungkin mengalami stres tambahan menjelang tes,

terutama jika tes tersebut memiliki konsekuensi penting seperti penentuan

kelulusan atau penempatan kelas.

30
BAB IV

KESIMPULAN

Pada bagian dua tentang prinsip penilaian bahasa dalam Buku Language

Assessment: Principles and Classroom Practice Karya H. Douglas Brown ini

berisi tentang kepraktisan, reliabilitas, validitas, keaslian dan cuci kembali.

Prinsip penilian bahasa kegiatan yang tidak mungkin bisa dipisahkan dari

kegiatan pembelajaran. Semua kegiatan pembelajaran harus selalu diikuti kegiatan

penilaian. Tanpa melakukan suatu penilaian kita tidak mungkin dapat melaporkan

hasil pembelajaran peserta didik secara objektif.

Kegiatan pembelajaran harus dilakukan secara terencana, dan tidak

mengandalakan teknik pengamatan saja karena hal itu kurang dapat

dipertanggungjawabkan. Penilaian merupakan kegiata yang kompleks terdapat

berbagai faktor yang harus diperhitungkan dalam kegiatan penilaian dan tidak

berdasarkan kira-kira atau prediksi saja. Untuk mengukur kemampuan peserta

didk diperlukan alat ukur yang tepat dan dapat dipertanggungjawabkan.

Suatu penialain itu harus praktis mudah diterapkan, dan dapat dijalan

dengan efisien dalam konteks yang sesuai hal ini mencakup aspek logistic seperti

biaya, waktu, dan sumber daya yang tersedia. Reliabel yang berarti penilaian

harus dapat menghasilkan hasil yang konsisten dan dapat diandalakan dari waktu

ke waktu. Ini berarti jika penilaian diulang, hasilnya akan relative stabil dan

konsisten. Valid yang berarti penilaian hastus mengukur apa saja yang seharusnya

diukur, menckup sejauh mana tes benar-benar mengukur keterampilan atau

konsep yang diinginkan., Asli yang berarti mencerminkan situasi atau konteks

31
yang mana keterampilan pengetahuan tersebut digunakan dalam kehidupan nyata,

dan memiliki umpan balik yang bermakna dan berguna kepada siswa dan guru.

Umpan balik ini harus dapat membantu siswa memahami kekuatan dan

kelemahan mereka, serta memberikan arahan untuk perbaikan selanjutnya.

32
DAFTAR PUSTAKA

Brown, H. Douglas. 1990. Language Assesment Principles And Classrom


Practices
Gronlund, Norman F. 1985 (ed. Ke-5) Measurement and Evaluation in Teaching.
New York: Macmilan Publishing Company.
Lynch, Brian K. 1996. Language Program Evaluation, Theory and Practice.
Cambridge. Cambridge University Press.
Nurgiyantoro, Burhan. 2016 (Cetakan ke-7) Penilaian Pembelajaran Bahasa
Berbasis Kompetensi. Yogyakarta: Anggota Ikapi.
Tuckman, Bruce W. 1975. Measuring Educational Outcomes, Fundamentals of
Testing. New York: Harcourt, Brace Jovanovich.
Thorndike, Robert L. 2011. Educational Measurement. New York: John Wiley &
Sons.

33

Anda mungkin juga menyukai