Anda di halaman 1dari 29

Pada prinsipnya, tes atau instrumen yang dimaksudkan untuk mengukur hasil belajar siswa harus baik.

Tes yang baik harus memenuhi beberapa kriteria, yaitu:


1. 2. 3. 4. 5. Practicality (praktis) Realibility (reliabel) Validity (valid) Authenticity (autentik) Washback (dampak tes)

Kepraktisan (practicality) mengacu pada kemudahankemudahan yang ada pada sebuah tes (instrument/alat evaluasi) baik dalam mempersiapkan, menggunakan, menginterpretasi/ memperoleh hasil, maupun kemudahan dalam menyimpannya. Kepraktisan sebuah tes (alat evaluasi) lebih menekankan pada tingkat efisiensi dan efektivitas alat evaluai tersebut guna mengukur hasil belajar siswa. Kriteria kepraktisan suatu tes dapat dilihat dari:
1. 2. 3. 4. 5. 6. Waktu yang diperlukan untuk menyusun tes Biaya yang diperlukan untuk menyelenggarakan tes Waktu yang diperlukan untuk melaksanakan tes Tingkat kesulitan menyusun tes Tingkat kesulitan dalam proses pemeriksaan tes Tingkat kesulitan melakukan intrepetasi terhadap hasil tes

Cenderung tidak Praktis Guru menggunakan essay test untuk mengukur tanggapan 200 siswa tentang hasil diskusi kelompok. Guru menggunakan lembar jawab komputer (LJK), padahal tidak tersedia scanner untuk memeriksa LJK. Guru menyusun soal-soal ulangan selama 6 bulan Guru memberikan listening test berbasis internet, sedangkan jaringan internet belum memadai Guru menyiapkan tes bahasa Inggris yang terdiri 150 item dan harus dikerjakan oleh siswa selama 3 jam

Cenderung Praktis Guru menggunakan tes lisan (oral test) guna mengukur hasil diskusi kelompok. Guru menyediakan lembar jawab berupa kertas biasa untuk menjawab soal-soal ulangan harian Guru menyiapkan soal-soal ulangan selama satu minggu Guru menggunakan tape recorder untuk listening test. Guru menyiapkan tes bahasa Inggris terdiri 50 item dan harus dikerjakan oleh siswa selama 1.5 jam.

Reliabilitas (reliability) tes adalah tingkat keajegan (konsitensi) suatu tes, yakni sejauh mana suatu tes dapat dipercaya untuk menghasilkan skor yang ajeg, relatif tidak berubah walaupun diteskan pada situasi yang berbeda-beda. Suatu tes dapat dikatakan reliabel (handal) jika selalu memberikan hasil yang relatif sama bila diteskan pada kelompok yang sama pada waktu atau kesempatan yang berbeda.

a. Panjang tes (length of test) Ada kecenderungan, semakin panjang/banyak item tes akan lebih tinggi reliabilitasnya, karena semakin banyak item akan semakin banyak sampel (materi) yang diukur dan proporsi jawaban yang benar semakin banyak, sehingga faktor tebakan (guessing) akan semakin rendah. b. Sebaran skor (spread of scores) Besarnya sebaran skor akan membuat tingkat reliabilitas menjadi semakin tinggi, karena koefisien reliabilitas yang lebih besar diperoleh ketika siswa tetap pada posisi yang relatif sama dalam suatu kelompok pengujian ke pengujian berikutnya.

c. Tingkat kesukaran (difficulty index)


Soal yang terlalu sukar atau terlalu mudah akan cenderung menghasilakan reliabiltas yang rendah. Soal yang demikian akan menghasilkan daya beda yang kecil. Tingkat kesukaran soal yang ideal adalah soal yang menghasilkan sebaran skor berbentuk kurva normal

Soal mudah

Soal sedang

Soal sukar

d. Objektivitas (objectivity) Objektivitas mengacu pada skor tes yang sama antara siswa yang satu dengan peserta didik yang lain. Artinya jika ada siswa yang memiliki kemampuan yang sama, akan memperoleh hasil tes yang sama pula pada saat mengerjakan tes yang sama.

Siswa (student-related reliability) Siswa yang pada saat mengerjakan tes dalam kondisi sakit, kelelahan, gelisah, dan faktor fisik atau psikologis lainnya tentu akan menghasilkan skor yang tidak reliabel. Penguji (rater reliability) Subjektivitas penguji dalam memberikan skor kepada siswa akan mengurangi reliabilitas hasil tes. Pelaksanaan tes (test administration reliability) Kondisi saat tes dilaksanakan (ramai, bising, gaduh) juga akan mengurangi reliabilitas hasil tes. Bentuk tes (test reliability) Tes yang terlalu panjang akan mengakibatkan siswa kelelahan dalam mengerjakan dan akhirnya tergesagesa untuk segera menyelesaikan yang menyebabkan jawaban yang diberikan salah.

Ukuran reliabilitas suatu tes ditunjukkan dalam ukuran koefisien /indeks tertentu (koefisien: 0 1). Semakin tinggi koefisien suatu tes, berarti tes itu semakin reliabel. Harga kritik untuk koefisien reliabilitas adalah 0,7 (Kaplan, 1982). Artinya suatu tes dikatakan reliabel apabila nilai koefisiennya 0,7. Langkah-langkah uji realibilitas tes: 1. Mencari korelasi antara hasil tes belahan ganjil dengan belahan ganjil (odd and even split-half) dengan formula:

2. Uji reliabilitas kemudian dihitung dengan formula Spearman Brown sebagai berikut:

Keterangan: n = panjang tes yang selalu sama dengan 2, karena seluruh tes adalah 2 x

10 siswa mengerjakan tes bahasa Inggris dengan lima soal berbentuk essay. Skor terendah untuk setiap soal adalah 1 dan skor tertinggi adalah 10. lima soal itu kemudian dibelah menjadi dua, belahan pertama adalah nomornomor genap dan belahan kedua adalah nomor-nomor ganjil. Data diperoleh sebagai berikut:
Nama Siswa A B C D E F Skor nomor-nomor genap 8 7 5 8 5 4 6 7 6 6 6 7 8 6 6 7 5 4 Skor nomor-nomor ganjil 7 7 6 6 5 6 10 5 6 9 5

G
H I J

5
7 7 9

9
5 8 5

7
8 4 9

5
5 9 9

5
4 7 4

Langkah pertama: Mencari korelasi skor belahan pertama dan kedua


X
14 14 11 14

Y
25 18 18 22

x 1 1 -2 1

y 6 -1 -1 3

x2 1 1 4 1

y2 36 1 1 9

xy 6 -1 2 3

11
11 14 12 15 14 =130 X = 13

15
16 17 17 20 22 =190 X = 19

-2
-2 1 -1 2 1

-4
-3 -2 -2 1 3

4
4 1 1 4 1 =22

14
9 4 4 2 9 =90

8
6 -2 2 2 3 =29

Langkah kedua: Uji reliabilitas

Hasil penghitungan koefesien reliabilitas ditemukan 0,787. Karena koefisien itu lebih besar dari standar nimimal (0,787 > 0,70) maka dapat disimpulkan tes tersebut reliabel

Validitas (validity) tes mengacu pada tingkat ketepatan tes tersebut sebagai alat ukur hasil belajar siswa. Suatu tes/instrumen dikatakan valid apabila tes/instrumen tersebut dapat dengan tepat mengukur apa yang hendak diukur. Tes yang dimaksudkan untuk mengukur kompetensi listening, maka seluruh butir soal harus berbentuk teks lisan yang diperdengarkan kepada siswa, bukan teks tulis.

1. Faktor instrumen Apabila kualitas instrumen kurang baik, maka validitas hasil belajar siswa pun akan kurang baik. 2. Faktor pelaksanaan (how to administer) evaluasi dan penskoran Penyimpangan (error) pada waktu pelaksanaan tes dan penskoran, seperti alokasi waktu, kecurangan, menyontek, kesalahan penskoran, kondisi psikis dan fisik siswa akan mempengaruhi validitas hasil tes. 3. Faktor jawaban dari peserta didik Faktor ini meliputi keinginan siswa untuk menjawab soal secara cepat, menjawab dengan coba-coba, dan penggunaan gaya bahasa tertentu dalam menjawab soal uraian.

Pada dasarnya hanya ada dua macam validitas, yaitu validitas internal dan validitas ekternal. Validitas internal, meliputi validitas isi (content validity) dan validitas konstruk (construct validity)
Validitas eksternal, meliputi validitas kesejajaran (concurrant validity) dan validitas prediksi (predictive validity)

Sebuah tes dikatakan mempunyai validitas isi apabila tes tersebut dapat mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran. Untuk menguji validitas isi dapat dilakukan dengan membandingkan antara isi instrumen dengan materi pelajaran yang diajarkan. Uji validitas isi sering dijelaskan melalui validitas tampang (face validity) dan validitas logis (logical validity).

Sebuah tes memiliki validitas konstruk apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yand disebutkan dalam tujuan pembelajaran atau mengukur sesuai dengan definisi yang digunakan. Definisi atau konsep yang diukur berasal dari teori yang digunakan.

Sebuah instrumen memiliki validitas kesejajaran apabila hasilnya sesuai dengan kriteria yang sudah ditentukan.

Kriteria dapat berupa instrumen lain yang mengukur hal yang sama, tetapi sudah diakui validitasnya (tes standar).

Sebuah instrumen dikatakan mempunyai validitas prediktif apabila mempunyai kemampuan untuk memprediksikan apa yang akan terjadi di masa yang akan datang. Contoh: tes masuk PT, untuk meramalkan prestasi mahasiswa selama kuliah.

Sebuah instrumen dikategorikan valid apabila mempunyai indeks korelasi 0,3 Korelasi product moment dengan deviasi:

Korelasi product moment dengan angka kasar:

Misalnya, akan menghitung validitas tes prestasi belajar bahasa Inggris diberi simbul X. Sebagai kriteria diambil dari hasil tes terstandar untuk mata pelajaran yang sama. Kemudian dibuat tabel data sebagai berikut:
No. 1. 2. Nama A B X 6,5 7 Y 6,3 6,8 x 0 0,5 y -0,1 0,4 x2 0 0,25 y2 0,01 0,16 xy 0 0,2

3.
4. 5. 6. 7. 8. 9. 10.

C
D E F G H I J

7,5
7 6 6 5,5 6,5 7 6 65,0

7,2
6,8 7 6,2 5,1 6 6,5 5,9 63,8

1,0
0,5 -0,5 -0,5 -1,0 0 0,5 -0,5

0,8
0,4 0,6 -0,2 -1,3 -0,4 0,1 -0,6

1,0
0,25 0,25 0,25 1,0 0 0,25 0,25 3,5

0,64
0,16 0,36 0,04 1,69 0,16 0,01 0,36 3,59

0,8
0,2 -0,3 0,1 1,3 0 0,05 0,3 2,65

Rata-rata X

Rata-rata Y Dimana N adalah jumlah siswa

Lalu masukkan dalam rumus product moment dengan deviasi:

Jadi, karena 0,748 adalah lebih besar dari harga kritik korelasi, yaitu 0,3, maka istrumen tersebut dapat disimpulkan valid.

Rumus product moment dengan angka kasar:


No. 1. 2. Nama A B X 6,5 7 Y 6,3 6,8 X2 42,5 49 Y2 39,69 46,25 XY 40,95 47,6

3.
4. 5. 6. 7. 8. 9. 10.

C
D E F G H I J

7,5
7 6 6 5,5 6,5 7 6 65,0

7,2
6,8 7 6,2 5,1 6 6,5 5,9 63,8

56,25
49 36 36 30,25 42,25 49 36 426,0

51,84
46,24 49 38,44 26,01 36 42,25 34,81 410,52

54
47,6 42 37,2 28,05 39 45,5 35,4 417,3

Kedua cara tersebut menghasilkan koefisien validiatas yang tdak jauh berbeda.

Authentic assessment presents students with real-world challenges that require them to apply their relevant skills and knowledge. Penilaian autentik menyajikan siswa dengan tantangan dunia nyata yang mengharuskan mereka untuk menerapkan keterampilan yang relevan dan pengetahuan mereka.

Authentic assessment is often based on performance: Students are asked to demonstrate their knowledge, skills, or competencies in whatever way they find appropriate.
Penilaian otentik sering didasarkan pada kinerja: Siswa diminta untuk menunjukkan pengetahuan, keterampilan, atau kompetensi dengan cara apapun yang dirasa cocok bagi mereka.

The language in the test is as natural as possible Items are contextualized rather than isolated Topics are meaningful (relevant, interesting) for the leaner Some thematic organization to items is provided, such as through story line or episode Task represent, or closely approximate, realworld task

Authentic Assessment procedures provide teachers with useful information that can form the basis for improving their instructional plans and practices. Focuses more on measuring learners ability to use language in real-life situation. It is typically carried out continuously over a period of time. Obtains more accurate picture of students language profile. Evaluates students on what they integrate and produce rather than what they are able to recall or reproduce. It doesnt intrude on regular classroom activities. It reflects the curriculum that is actually being implemented in the classroom. Provides information on the strength and weaknesses of each individual student. Provides multiple indices that can be used to gauge student progress It is more multicultural sensitive and free of norm, linguistic, and cultural biases found in traditional testing.

Washback or backwash refers to effects of language testing on teaching and learning (Aldersen & Wall, 1993). A test affects participants, processes and products in teaching and learning. The washback could be positive or negative, either for the students or the teachers. Washback can be observed solely at the micro level of the individuals (mostly teachers and students).

Positive effect for the students:


Assessment for learning bagaimana dengan penilaian kita dapat membantu siswa untuk belajar lebih banyak pada kurun waktu yang telah ditentukan. Assessment of learning penilaian untuk mengetahui seberapa banyak siswa telah belajar dalam kurun waktu yang telah ditentukan.

Positive effects for teachers:


Berdasarkan hasil penilaian, guru dapat memperbaiki proses instruksional yang telah dilakukan. Proses instruksional Material development, syllabus design, changes in teaching methodology and the use of learning and/or test-taking strategies are included under processes.