Anda di halaman 1dari 31

Critical Book Report

EDUCATIONAL MEASUREMENT AND TESTING

(William Wiersma and Stephen G. Jurs)

Oleh:
PURNAMA SARI
(8166121008)

PROGRAM STUDI TEKNOLOGI PENDIDIKAN


PROGRAM PASCASARJANA
UNIVERSITAS NEGERI MEDAN
MEDAN
2017
KATA PENGANTAR
Puji syukur kami ucapkan kehadirat Tuhan Yang Maha Esa atas rahmat
dan hidayah-Nya, sehingga sebuah Critical Book Report yang berjudul
“Educational Measurement And Testing” ini dapat diselesaikan tepat waktu.
Melalui Critical Book Report ini diharapkan para pembaca dapat
mengenal lebih jauh tentang evaluasi pendidikan dan pelatihan.
Penulis juga tidak lupa mengucapkan terima kasih atas dorongan dan
bimbingan dari dosen pengampu mata kuliah evaluasi pendidikan dan pelatihan di
PPS UNIMED. Dengan kuliah yang beliau berikan penulis dapat memahami
tentang evaluasi pendidikan dan pelatihan. Dengan bekal tersebut, penulis dapat
menyusun Critical Book Report ini.
Apabila Critical Book Report ini kurang sempurna, penulis mengharapkan
kritik dan saran yang membangun dari para pembaca sekalian demi perbaikan di
hari yang akan datang. Semoga Critical Book Report ini dapat memberikan
manfaat bagi kita semua. Atas perhatiannya, penulis ucapkan terima kasih.

Medan, April 2017

Penulis

i
DAFTAR ISI

KATA PENGANTAR ............................................................................................ i


DAFTAR ISI.......................................................................................................... ii
BAB I PENDAHULUAN
A. Latar Belakang .................................................................................................. 1
B. Rumusan Masalah ............................................................................................. 1
C. Tujuan Penulisan ............................................................................................... 1
BAB II RANGKUMAN ISI BUKU
A. Identitas Buku .................................................................................................. 2
B. Rangkuman Isi Buku ....................................................................................... 2
BAB III PEMBAHASAN
A. Keunggulan Buku .......................................................................................... 26
B. Kelemahan Buku ............................................................................................ 26
BAB III PENUTUP
A. Kesimpulan ................................................................................................... 27
B. Saran ............................................................................................................. 27
DAFTAR PUSTAKA .......................................................................................... 28

ii
BAB I
PENDAHULUAN
A. Latar Belakang
Konsep dalam pengukuran proses pembelajaran yang berpusat pada pembelajar
(learned-centered) adalah penilaian yang berpusat pada pembelajar (learner-centered
assessment). Definisi learner-centered assessment merupakan test acuan patokan, sebagai
element inti dari pembelajaran yang didesain secara sistematis. Tipe test ini penting untuk
mengevaluasi perkembangan pebelajar dan kualitas pembelajaran. Hasil dari tes acuan
patokan memberikan indikasi instuktur seberapa baik pebelajar mampu mencapai setiap
tujuan pembelajaran, dan mengindikasikan komponen mana dari pembelajaran yang bisa
berjalan dengan baik, dan komponen mana yang perlu direvisi. Selain itu juga, tes acuan
patokan memungkinkan pembelajar untuk merefleksikan diri dengan mengaplikasikan kriteria
untuk menilai hasil kerja mereka sendiri.

B. Rumusan Masalah
Dari uraian latar belakang masalah di atas, maka dapat dirumuskan masalah yang akan
dibahas antara lain:
1. Apakah ada kelebihan dan kelamahan buku?
2. Apakah buku yang cocok digunakan pada saat pembentukan kurikulum?

C. Tujuan Penulisan
Tujuan dalam pembuatan critical book report ini adalah:
1. Untuk mengetahui keunggulan dan kelemahan suatu buku.
2. Untuk mengetahui bisa tidak buku tersebut digunakan dalam pembentukan kurikulum.
3. Menambah wawasan dalam evaluasi pendidikan dan pelatihan.

1
BAB II
RANGKUMAN ISI BUKU

A. Identitas Buku

1. Judul buku : Educational Measurement and Testing


2. Pengarang : William Wiersma and Stephen G. Jurs
3. Penerbit : Allyn and Bacon A Division of Simon & Schuster, Inc
4. Tahun terbit : 1990
5. Tebal Buku : 411 halaman
Buku “Educational Measurement and Testing” yang dikarang oleh William Wiersma
and Stephen G. Jurs terdiri dari 5 Bagian dan 17 pokok bahasan.

B. Rangkuman Isi Buku


BAB 12
KEANDALAN TES ACUAN PATOKAN
Dua istilah yang sangat penting dalam pengujian adalah reliabilitas dan validitas. Sayangnya
hal ini sering disalahgunakan. Mereka tidak sinonim; mereka memiliki tepat, definisi teknis
yang memberikan kita dengan kriteria yang kita dapat mengevaluasi kecukupan teknis tes.
Kami akan membahas keandalan tes acuan patokan dalam bab ini, keandalan tes acuan norma
dalam Bab 8, dan validitas tes acuan patokan dan norma dirujuk tes pada Bab 13 dan 9,
masing-masing.
Konsep reliabilitas dan berbagai metode memperkirakan berapa tes handal yang telah
mapan jauh sebelum tes acuan patokan dikembangkan. Beberapa ide-ide tradisional tentang

2
kehandalan tes harus dipertimbangkan kembali sebelum mereka dapat digunakan dengan tes
acuan patokan, dan beberapa konsep yang berguna dengan tes acuan norma yang ditemukan
menjadi tidak pantas untuk tes acuan patokan. Namun, kebutuhan untuk metode
memperkirakan keandalan tes acuan patokan disambut oleh sejumlah ahli teori pengukuran
yang merancang berbagai macam indeks statistik yang menangani masalah tersebut. Banyak
dari teknik ini sangat teoritis kompleks dan komputasi rumit bahwa mereka menarik terutama
untuk pengembang tes skala besar dan teori pengukuran. Kami telah memilih untuk
menyajikan beberapa perkiraan langsung dari patokan dirujuk keandalan tes yang mungkin
berguna untuk guru kelas. Orang yang tertarik dalam indeks yang lebih canggih disebut
Hambleton, Swaminathan, Algina, dan Coulson (1978), Linn (1979) Traub dan Rowley
(1980), Berk (1984), dan Crocker dan Algina (1986).

JANGKA KEANDALAN
Ukuran diandalkan jika memberikan informasi yang konsisten tentang mahasiswa. Jika Anda
adalah untuk melangkah pada skala kamar mandi lima kali dalam waktu tiga menit dan
mendapatkan bobot 120, 147, 116, 133, dan 118, Anda tidak akan percaya skala itu. Ini akan
menjadi tidak dapat diandalkan karena memberikan langkah-langkah yang tidak konsisten
tersebut. Karakteristik penting dari tes yang berguna adalah bahwa ia menyediakan konsisten
informasi (terpercaya). Catatan keandalan yang diperlukan tetapi tidak cukup bukti bahwa tes
ini melayani tujuan yang dirancang. Mungkin skala kamar mandi menghasilkan lima bobot
116, 116, 117, 116. pengukuran tersebut cukup dapat diandalkan tetapi jika Anda benar-benar
berat 125, maka langkah-langkah, meskipun konsisten, tidak sah.
Ketika kita berpikir tentang konsistensi kinerja tes sering dalam hal stabilitas nilai tes
di dua kesempatan uji. Jika seorang mahasiswa diuji dua kali selama bahan yang sama dengan
tidak ada instruksi antara kali, kita ingin skor menjadi sangat konsisten dari satu waktu ke
yang berikutnya. Cara lain untuk mempertimbangkan keandalan adalah konsistensi kinerja di
set barang serupa di tes. Sebuah tes yang handal akan menjadi salah satu di mana ada pola
yang konsisten dari kinerja seluruh item.
Kami biasanya mengungkapkan keandalan tes dalam hal numerik. Paling sering ini
adalah nilai yang dapat berkisar antara 0 dan 1. 0 akan menunjukkan tidak adanya lengkap
konsistensi dan 1 akan menunjukkan bahwa skor yang sangat konsisten. Ini akan menjadi
jarang untuk menemukan keandalan dihitung itu persis sama dengan 0 atau 1. Kebanyakan
reliabilitas yang di suatu tempat di antara. Tes prestasi panjang dan dirancang dengan baik

3
dapat mencapai nilai reliabilitas yang dekat 0,90. Sikap lebih sulit untuk mendefinisikan dan
mengukur daripada prestasi kognitif, sehingga reliabilitas mereka mungkin lebih dekat ke
0,70 - rentang 0,80. Ketika keandalan dihitung dari tes adalah dekat atau di bawah 0,50 ada
begitu banyak inkonsistensi dalam skor bahwa mereka pada dasarnya tidak berharga untuk
membentuk keputusan dasar tentang individu siswa.
Tidak ada satu nilai reliabilitas untuk tes yang berlaku untuk semua kelompok peserta
ujian dan untuk semua kondisi pengujian. Nilai yang dihitung untuk keandalan sangat banyak
fungsi dari kelompok tertentu dari peserta ujian dan spesifik dari kondisi pengujian. Selain
itu, ada beberapa cara untuk mendefinisikan keandalan dan cara masing-masing memiliki
metode sendiri menghitung nilai reliabilitas. Oleh karena itu, tidak mengherankan bahwa
nilai-nilai dihitung dari formula yang berbeda akan menghasilkan perkiraan keandalan yang
tidak sama. Jelas, dalam rangka untuk mengevaluasi nilai yang dilaporkan untuk keandalan
tes ini kita perlu mengetahui rincian seperti apa rumus yang digunakan, yang terdiri sampel,
dan apakah salah satu kondisi pengujian mungkin telah mempengaruhi skor.
Seperti secara khusus menangani keandalan tes acuan patokan, kita perlu khawatir
dengan: (1) keandalan keputusan kita tentang mengkategorikan mahasiswa sebagai telah
menguasai atau tidak telah menguasai domain konten dan (2) keandalan dari perkiraan kami
kinerja pada sebuah domain.

Sebuah tes dapat diandalkan jika memberikan informasi yang konsisten tentang
peserta ujian. Nilai yang dihitung untuk keandalan tergantung pada rumus yang
digunakan, karakteristik sampel peserta ujian, dan kondisi pengujian.

Kami akan menyajikan metode yang sesuai untuk masing-masing penggunaan ini dari skor tes
acuan patokan.

KEANDALAN (KONSISTENSI) KEPUTUSAN PENGUASAAN


Cara yang paling langsung untuk menentukan apakah keputusan menguasai / tidak menguasai
konsisten adalah untuk menguji kelompok yang sama mahasiswa pada dua kesempatan dan
melihat apa yang persentase siswa mencapai keputusan menguasai / tidak menguasai yang
sama pada dua kesempatan. Jika persentase yang besar dari siswa mencapai penguasaan pada
kedua kesempatan tes atau gagal untuk mencapai penguasaan pada kesempatan kedua, maka
keputusan yang cukup konsisten dan tes dinilai dapat diandalkan.

4
Pendekatan ini mengasumsikan bahwa interval waktu antara dua kesempatan tes
singkat, mungkin beberapa hari, sehingga faktor-faktor lain tidak akan mungkin untuk campur
tangan. Harus ada instruksi atau umpan balik korektif kepada siswa sebelum tes kedua
diberikan. Tujuannya adalah untuk mengambil dua ukuran kinerja yang sama, tidak
mengubah kinerja dari satu waktu ke lain.
Bisa jadi persis tes yang sama akan diberikan pada dua kesempatan. Prosedur ini
membatasi pengambilan sampel dari domain yang mungkin item karena tes tunggal terdiri
dari relatif sedikit item. Siswa juga mungkin ingat beberapa item dari kesempatan tes pertama
dan mengubah jawaban mereka atau jumlah waktu yang dihabiskan untuk setiap pertanyaan.
Hal ini bisa meningkatkan nilai dari beberapa siswa dari bawah batas penguasaan di atas
batas. Budidaya skor sedemikian rupa akan menghasilkan konsistensi yang lebih rendah di
dua kesempatan uji.
Jika set yang berbeda dari item yang diberikan pada dua tes, maka pengambilan
sampel dari domain akan lebih luas dan tidak akan ada mengingat item tertentu. Namun, akan
diperlukan untuk memastikan bahwa dua tes yang paralel. Cara untuk membuat tes paralel
untuk menghasilkan barang-barang dari bentuk item atau dari spesifikasi tes rinci dan tujuan.
Sebagai item berasal dari sumber yang sama, tes akan sangat mirip penting, meskipun, untuk
membuat tes yang sama panjang.
Menghitung Keandalan Perkiraan
Kehandalan menguasai / keputusan tidak menguasai hanyalah persentase peserta ujian untuk
siapa keputusan penguasaan konsisten pada dua tes. Data contoh disediakan pada Tabel 12 -
1. Skor yang tercantum adalah jumlah jawaban yang benar pada tes 12-item untuk 25 siswa.
Dengan asumsi nilai batas penguasaan dari 9 (75 persen) respon yang benar, jumlah orang
yang menguasai setiap tes dapat dihitung. Dari 25 siswa, 6 mencapai penguasaan pada kedua
tes dan 15 berada di bawah batas skor di kedua tes.

5
Tabel 12-1 Kinerja
25 Siswa Pada Tes Acuan Patokan
Dengan Penguasaan Batas Skore.
Mahasisw Test 1 Test 2
a
A 12 12
B 12 11
C 11 12
D 11 9
E 10 7
F 10 8
G 10 9
H 9 9
Aku 9 6
J 7 10
K 7 8 Mastery 1 6

L 7 8 Uji2 Nonmastery 15 3

M 6 7 Nonmastery Mastery

N 6 6 Test 1

O 5 6
P 5 6
Q 5 6
R 4 6
S 4 6
T 4 5
U 4 5
V 3 4
W 3 4
X 3 4
Y 3 3
Penguasaan memotong: setidaknya 9 benar

6
oleh karena itu, keandalan keputusan adalah sebagai berikut
6 + 15
𝜌0 = = .84
20
Indeks diusulkan oleh Hambleton dan Novick (1973). Ini menyediakan metode yang
sederhana dan praktis menilai konsistensi keputusan menguasai / tidak menguasai.

KEANDALAN DARI PERKIRAAN WILAYAH SKOR


Tujuan dari beberapa tes acuan patokan adalah untuk melihat seberapa baik siswa yang
dilakukan pada domain kriteria (yaitu, untuk memperkirakan persentase semua item mungkin
bahwa siswa bisa menjawab dengan benar). Kita mengatakan perkiraan karena jumlah
kemungkinan item biasanya begitu besar bahwa seorang siswa tidak akan pernah bisa diuji
pada apa pun kecuali sebagian kecil dari total. Meski begitu, kita dapat menggunakan kinerja
siswa pada satu set kecil item untuk memperkirakan statistik kinerja pada seluruh domain.
Keandalan prosedur estimasi nilai domain mensyaratkan bahwa domain akan didefinisikan
dengan baik tapi tentu saja yang diperlukan untuk setiap tes acuan patokan. Hal ini juga perlu
bahwa item pada tes secara acak mewakili seluruh domain. Aturan item-pembangkit seperti
bentuk barang akan menyebabkan ini terjadi. Dengan demikian, tes acuan patokan yang
dirancang dengan baik adalah benar-benar semua yang kita butuhkan.
Misalkan kita mengelola sebuah tes acuan patokan 20-item untuk mahasiswa untuk
memperkirakan gelar kompetensi pada domain dan dia menjawab 8 item dengan benar:
8
𝜌= = .40
20
Kami kemudian akan memperkirakan bahwa ia benar bisa menjawab 40 persen dari
item dalam domain. Namun, karena dia hanya diberi 20 item, yang tapi sampel acak dari item
dalam domain, kita akan mengharapkan bahwa pada pengujian kedua atau ketiga dengan item
yang berbeda dari domain dia mungkin memiliki skor yang akan agak berbeda dari 40 persen
bahwa dia dicapai pertama kalinya. Jika tes dapat diandalkan, skor akan sangat konsisten. Jika
mereka tidak dapat diandalkan, skor mungkin berfluktuasi cukup sedikit.
Standard error pengukuran yang digunakan untuk mengukur variasi ini antara skor
dari individu di seluruh diulang, tes paralel. Dalam aplikasi tertentu, kesalahan standar
pengukuran telah didefinisikan sebagai berikut (Berk, 1980):

7
𝜌𝑞
𝑆𝑒 = √
𝑛−1
Dimana n = jumlah item pada tes
𝜌 = persentase yang benar
q=1−𝜌
Jika jumlah kemungkinan item dalam domain terbatas, seperti dalam 100 fakta-fakta
matematika dasar atau set awal suara konsonan, maka penyesuaian dibuat untuk formula.
𝑁 −𝑛 𝜌𝑞
Se = √ (𝑛 −1)
𝑁

Dimana N = jumlah item dalam domain.


Karena sebagian besar domain dapat dianggap sangat besar, persamaan 12.1 akan
digunakan dalam kebanyakan kasus.
Kembali ke contoh di mana siswa menjawab 40 persen dari item dengan benar pada 20
- uji item, sekarang kita dapat menghitung bahwa kesalahan standar pengukuran 0,12:
(0,40)0,60)
Se = √ = 0,12.
20−1

Hal ini memungkinkan kita untuk kualitas perkiraan kami gelar siswa kompetensi pada
domain dengan mempertimbangkan tidak dapat diandalkan tes. Sebuah perkiraan yang lebih
baik dapat ditemukan dengan membentuk interval dari satu kesalahan standar pengukuran di
bawah persentase yang benar untuk satu kesalahan standar pengukuran di atas titik bahwa:
Interval estimate = 𝜌 ± 𝑆𝑒
(12.3)
Sebagai contoh kita, ini adalah: 0,40 ±. 12. Oleh karena itu estimasi selang kami adalah (0,28,
0,52). Ini berarti bahwa dengan 20 kami - tes item yang kami akan memperkirakan bahwa
siswa benar dapat menjawab 28-52 persen dari item dalam domain. Perhatikan bagaimana
estimasi interval yang menyajikan gambar yang lebih hati-hati. Estimasi titik 40 persen
memberikan kesan akurasi, yang 20 - uji item tidak benar-benar memiliki. Penggunaan
estimasi interval yang memberikan kita beberapa apresiasi ketidak telitian skor tes kami.
Interval ini hanya perkiraan dari tingkat sebenarnya dari kompetensi. Selang waktu ± satu
kesalahan standar pengukuran akan mencakup tingkat yang benar kompetensi 68 kali dari
100, probabilitas 0,68. Selang waktu ± dua kesalahan standar pengukuran akan mencakup
tingkat yang benar dari kompetensi 95 kali keluar 100. Kami berpikir bahwa ± error salah satu
standart pengukuran baik mudah untuk menghitung dan cukup tepat untuk penggunaan di
dalam kelas.
8
Hal ini terlihat dari persamaan 12,1 bahwa kita bisa menurunkan kesalahan standart
pengukuran dengan memasukkan lebih banyak item dengan termasuk item lebih pada tes. Jika
kita memiliki menggunakan tes 40-item, kesalahan standart pengukuran dalam contoh kita
akan lebih kecil dari 0,12 kami temukan untuk tes 20-item.
(.4).(.6)
𝑠𝑒 = √ = .08
40−1

Harus kita menggunakan tes 60-item, kesalahan standart pengukuran akan lebih kecil namun:
(.4).(6)
𝑠𝑒 = √ 60−1 = .60.

Keandalan merupakan fungsi langsung dari jumlah item. Perhatikan bahwa dua kali lipat
jumlah item tidak memotong kesalahan standart pengukuran dalam setengah. Perubahan
tingkat kurang dari itu. Perbandingan estimasi interval p ± Se selama 20, 40, dan 60 item lebih
lanjut menggambarkan bagaimana tes lagi yang lebih akurat.

Jika p = 40, interval untuk tes 20-item (0,28, 0,52)


Untuk uji 40-item, itu adalah (0,32, 0,48)
Untuk uji 60-item, itu adalah (0,34, 0,46)

Sebuah kesimpulan yang jelas adalah kita harus mengetahui tes untuk memastikan
scores.there tes dapat diandalkan adalah beberapa contraints praktis pada panjang dari
pengujian kami, namun. ini termasuk waktu pengujian limitid, rentang perhatian siswa dan
keterbatasan kemampuan sendiri untuk membuat sejumlah besar item yang masih sesuai
dengan spesifikasi domain.
Komentar tentang Se
Standart eror pengukuran berbeda dari sebagian besar nilai-nilai numerik lain yang
menunjukkan bagaimana keandalan tes.. Persentase keputusan penguasaan konsisten dan
acuan norma koefisien reliabilitas tradisional memiliki nilai antara 0 dan 1. kecil nilai
menunjukkan keandalan yang lebih rendah. Nilai dekat 1 berarti ukuran yang sangat handal.
Standard eror pengukuran tidak bekerja dengan cara ini, namun. Nilai mendekati 0
untuk kesalahan standar pengukuran akan berarti bahwa ukuran yang sangat handal; ada
sedikit kesalahan. Nilai yang lebih besar dari Se menunjukkan kurang kehandalan. Dan, nilai
kemungkinan terbesar dari pengukuran standard error di tidak 1. Untuk kesalahan standar
pengukuran yang kita telah digunakan untuk memperkirakan persentase domain item yang
peserta ujian bisa menjawab dengan benar, maksimum Se akan menjadi sekitar 0,50. ini akan
accur ketika diuji dengan jawaban benar dari dua item pada tes.

9
Standard error pengukuran dapat digunakan untuk membentuk perkiraan interval kinerja pada
domain. Ukuran ini dari kesalahan standar pengukuran berbanding terbalik dengan jumlah
item pada tes.

PENGGUNAAN ACUAN NORMA


KOEFISIEN RELIABILITAS
Kadang-kadang, metode koefisien reliabilitas komputasi untuk tes acuan norma yang
diterapkan pada skor dari tes acuan patokan. Ada masalah dengan ini karena tes acuan norma
yang dirancang untuk mengukur perbedaan antara individu, bukan kinerja pada Domin baik-
sfecified. Tujuan dari tes acuan norma adalah untuk menyebar skor. Ini adalah relevant dalam
tes acuan patokan karena kinerja seseorang tidak dibandingkan dengan orang lain melainkan
untuk berbagai kemungkinan skor. Dengan demikian, dua jenis tes melayani tujuan yang
berbeda dan karena itu apa artinya menjadi handal juga akan berbeda.
Meskipun demikian, Anda mungkin kadang-kadang menemukan koefisien keandalan
untuk nilai tes acuan patokan yang dihitung metode acuan norma. Koefisien ini dijelaskan
secara rinci dalam Bab 8 sehingga mereka tidak akan dikembangkan di sini. Satu koefisien
yang kemungkinan besar akan perjumpaan adalah estimasi Kuder-Richardson konsistensi
internal (KR-20).
KR-20 koefisien reliabilitas dapat berkisar dari 0 sampai 1, dengan nilai-nilai nearen 1
menunjukkan performa yang konsisten di seluruh item pada tes. Item pada tes acuan patokan
harus cukup homogen. Oleh karena itu, kita akan mengharapkan pola konsisten keberhasilan
atau kurangnya keberhasilan pada item dari test. Acuan mungkin mengapa kita kadang-
kadang melihat KR-20 digunakan dengan cara ini. Rumus untuk menghitung KR-20 dan
deskripsi sifat-sifatnya disajikan dalam Bab 8.

KOMENTAR UMUM TENTANG KEANDALAN


Kami memiliki melihat bagaimana inkonsistensi atau tidak dapat diandalkan skor tes dapat
mempengaruhi seberapa yakin kita menggunakan nilai sebagai dasar keputusan tunggal
tentang kinerja siswa. Beberapa pengujian kami mungkin cukup handal dan lain-lain mungkin
kurang dapat diandalkan. Kita tidak bisa hanya berasumsi bahwa pengujian kami secara teknis
memadai. Kita harus regulary memantau reliabilitas dari tes kami. Perkiraan compued
keandalan akan menjadi bukti lebih baik dari tayangan subjektif kita tentang kecukupan tes
ini.

10
Apa yang menyebabkan nilai siswa tidak konsisten ketika diberikan bentuk paralel tes
acuan patokan atau di item yang tampaknya serupa dalam tes yang sama? Untuk saat ini kita
telah tersirat bahwa itu adalah duoto kurangnya item homogen atau karena ada terlalu
beberapa item. Masalah-masalah ini jelas berkontribusi unreliablility, tapi ada faktor dari itu.
Inkonsistensi mungkin disebabkan oleh faktor-faktor dalam item tes, pengaturan pengujian,
dan siswa.
Kata-kata dari item tes, ketidakjelasan, atau cacat dalam konstruksi mungkin
mempromosikan beberapa respon dari mahasiswa, yang berbeda dari dana cara barang serupa
di tes itu ditujukan. Beberapa masalah ini dapat terungkap setelah analisis item dilakukan.
Situasi pengujian juga harus diperhatikan. Penyesuaian cahaya, ruang, dan tenang
diperlukan untuk lingkungan pengujian yang baik. Interupsi atau pemeriksa asing mungkin
juga menyebabkan siswa tidak konsisten. Guru biasanya memiliki tingkat besar kontrol atas
pengaturan pengujian dan setiap upaya harus dilakukan untuk membatasi dampaknya
terhadap keandalan nilai tes.
Item tes dan pengaturan yang penting, tapi faktor utama dalam konsistensi skor tes
siswa. Apakah siswa lelah, lapar, termotivasi, cemas, sakit, bosan, atau sibuk? Salah satu atau
semua faktor ini dan tak terhitung tanggapan pribadi lainnya selama situasi tes dapat
memberikan kontribusi untuk prestasi yang tidak konsisten dari siswa. Seperti susunan
potensi mengkontaminasi sebuah mungkin tampak luar biasa tetapi tidak masalah besar bagi
kebanyakan siswa ketika mereka mengambil tes yang mereka lihat sebagai penting. Namun,
guru harus mencari tanda-tanda bahwa masalah tersebut mungkin mempengaruhi penampilan
tes beberapa siswa.
Pengakuan faktor-faktor ini yang mempengaruhi uji reliabilitas, terutama karakteristik
manusia, harus menyebabkan kita untuk menyadari bahwa tidak mungkin untuk
mengembangkan tes yang sempurna handal. Kita tidak harus mengharapkan bahwa kesalahan
standar pengukuran akan sama dengan nol. Sebaliknya, kita akan melakukan segala upaya
untuk mengendalikan sumber-sumber tidak dapat diandalkan sehingga kita menggunakan
langkah-langkah yang paling dapat diandalkan bahwa kita mampu mengembangkan.
Meningkatkan Uji Keandalan
Ada beberapa faktor umum yang meningkatkan keandalan pengujian kami. Sebagian besar
berada di bawah kontrol langsung dari guru kelas.
Item homogen: ketika item tes acuan patokan berasal dari bentuk barang tertentu atau
tujuan, item harus serupa di isi dan format.

11
Item diskriminatif: item yang telah mengalami analisis barang dan telah ditemukan
untuk secara positif membedakan akan meningkatkan keandalan tes ini.
Item cukup: keandalan secara langsung dipengaruhi oleh panjang tes. Tes yang dapat
diandalkan
Ketinggian kualitas menyalin dan Format: memastikan bahwa item yang terbaca dan
tidak terlalu ramai pada halaman. Sebuah tes yang terlihat tajam akan mempromosikan
reaksi sesuai dari siswa.
Arah yang jelas kepada siswa: siswa perlu tahu bagaimana menanggapi pertanyaan-
pertanyaan. Setiap ambiguitas dapat memperkenalkan inkonsistensi.
Pengaturan dikendalikan: guru harus memastikan pengaturan tes optimal yang
menghilangkan faktor pembaur sebanyak mungkin.
Pengenalan Memotivasi: siswa akan merespon konsisten dan lebih terlibat dalam
tugas ketika dia tahu bahwa guru menganggap tes menjadi penting dan tahu
bagaimana skor tes akan digunakan.
Arah yang jelas untuk pencetak gol terbanyak: ketidaksesuaian dalam mencetak gol
dari respon siswa akan menurunkan reliabilitas tes ini. Perhatian terhadap factor yang
akan membantu mempromosikan nilai tes yang dapat diandalkan.
Untuk sebagian besar, faktor-faktor ini ide daripada prosedur yang sangat berpengaruh pada
pikiran. Namun, mereka penting dan mereka harus disimpan dalam pikiran setiap kali tes
yang diberikan

Reliability ditentukan oleh kualitas item tes, tetapi juga dipengaruhi oleh karakteristik
peserta ujian dan kondisi pengujian.

RINGKASAN
Sebuah tes dapat diandalkan jika memberikan informasi yang konsisten tentang ujian. Hal ini
dapat berarti bahwa tes acuan patokan menyediakan perkiraan konsisten kinerja pada domain
atau bahwa tes menyediakan penempatan konsisten peserta ujian di penguasaan atau kategori
nonmastery. Perbedaan jenis bukti kehandalan untuk masing-masing penggunaan ini tes acuan
patokan.
Apakah tes relatif konsisten untuk penguasaan keputusan ditunjukkan dengan
memberikan tes pada dua kesempatan untuk kelompok yang sama peserta ujian dan

12
menemukan persentase peserta ujian yang menguasai / tidak mengusai klasifikasi berdua
sama pada dua kesempatan uji. Prosedur ini juga bisa digunakan ketika bentuk paralel tes
yang diberikan pada pengujian kedua. Sebuah tes yang dapat diandalkan akan memiliki
persentase yang tinggi dari peserta ujian dengan klasifikasi menguasai / tidak menguasai yang
sama pada dua tes.
Ketika kinerja pada domain yang akan diperkirakan mondar-mandir nilai tes, standard
error interval pengukuran dapat digunakan untuk dari perkiraan interval. Perkiraan Interval
menunjukkan tingkat ketidaktepatan yang ada di nilai tes kami. Standard error dari
pengukuran memberi kita gambaran tentang berapa banyak kita bisa mengharapkan nilai tes
berfluktuasi di seluruh pencobaan diulang.
Keandalan tes dapat ditingkatkan dengan perhatian terhadap item tes, pengaturan tes,
dan ujian. Sebuah tes yang dapat diandalkan akan memiliki item yang homogen. Semakin
sama item, yang lebih konsisten akan pendekatan siswa untuk barang-barang. Item harus
bebas dari kekurangan atau ketidakjelasan kata-kata sehingga inkonsistensi berkurang. Dan,
karena ada hubungan langsung antara panjang tes dan keandalan tes, harus ada jumlah yang
cukup item.
Inkonsistensi dalam kinerja siswa dapat dikurangi dengan memastikan bahwa kondisi
pengujian sesuai. Harus ada yang memadai dan tenang sehingga siswa dapat berkonsentrasi
pada tugas. Gangguan harus dihilangkan dan item tes dan arah tentang bagaimana untuk
menjawab mereka harus jelas.
Skor diandalkan tergantung pada siswa menjadi termotivasi untuk menerapkan diri
mereka untuk tugas itu. Hal ini dipromosikan bagaimana guru mendorong siswa untuk
melakukannya dengan baik dan menjelaskan bagaimana nilai tes akan digunakan. Guru juga
harus waspada untuk masalah individu siswa seperti kelelahan atau kecemasan yang mungkin
mempengaruhi keandalan nilai tes.
Adalah penting bahwa kita memperhatikan keandalan pengujian kami. Dengan
barang-barang berkualitas tinggi tes, pengaturan tes terkendali dengan baik, dan sangat
memotivasi siswa, tingkat yang sangat baik dari kehandalan dapat diperoleh. Namun, ini
bukan sesuatu yang bisa diserahkan kepada kesempatan; membutuhkan usaha teliti.

13
BAB 13
VALIDITAS TES ACUAN PATOKAN
Tes handal adalah salah satu yang menghasilkan skor yang konsisten untuk siswa. mereka
memadai untuk tujuan yang tes dirancang, adalah soal lain. Validitas adalah istilah yang
mengacu pada apakah tes mengukur apa yang dirancang untuk mengukur. Validitas selalu
dibahas dalam hal tujuan tes ini; itu adalah masalah derajat, bukan karakteristik yang baik ada
atau tidak ada. Karena tes digunakan untuk beberapa tujuan yang sangat berbeda, bukti yang
diperlukan untuk menunjukkan bahwa tes ini berlaku juga akan bervariasi. Bukti yang
disajikan untuk menunjukkan validitas tes adalah kombinasi dari pendapat ahli dan hasilnya
statistik. Proses ini memungkinkan kita untuk mendapatkan un pemahaman tentang apa skor
tes berarti dan jenis keputusan yang dapat didasarkan pada skor.
Ada banyak istilah yang telah digunakan untuk uji validitas, termasuk validitas isi,
validitas kurikulum, validitas wajah, validitas redictive, antara lain. Kami akan menggunakan
validitas isi, validitas kriteria, dan validitas konstruk karena istilah ini telah didukung oleh
komite bersama dari American Educational Research Association, American Psychological
Association, dan Dewan Natonal pada Pengukuran dalam Pendidikan dalam standar teknis
mereka untuk penerbit test (AERA / APA / Joint Committee NCME, 1985)
Isi, kriteria, dan validitas konstruk adalah istilah yang pertama kali digunakan untuk
tes acuan norma. (Aplikasi acuan norma yang dijelaskan secara rinci dalam chapter 9).
Penggunaan istilah ini dengan tes acuan patokan hadir tidak ada masalah. Istilah berarti hal
yang sama untuk kedua acuan patokan dan tes acuan norma. Namun, yang jelas tentang
validitas norma dan tes acuan patokan akan sedikit berbeda, refleksi tujuan yang berbeda
bahwa tes ini berfungsi.

Validitas berkaitan dengan sejauh mana mengukur tes apa itu dimaksudkan untuk
mengukur dan berguna untuk tujuan yang dirancang.

ISI KEABSAHAN
Konten validitas tes acuan patokan mengacu pada sejauh mana item pada tes mencerminkan
domain yang dituju. Dalam banyak kasus ini ditentukan oleh seberapa dekat barang-barang
sesuai dengan tujuan. Validasi konten tidak dilakukan oleh analisis statistik melainkan oleh
inspeksi item. Hal ini berbeda dari reability dan membentuk bentuk lain dari validitas mana
bukti adalah dalam hal nilai tes dan sifat statistik mereka.

14
Proses pembentukan validitas isi untuk tes acuan patokan pada dasarnya adalah
beberapa proses yang digunakan dengan tes acuan norma. Ada penjelasan paralel validitas isi
untuk tes acuan norma dalam pasal 9. Yang termasuk contoh rinci. Membangun validitas isi
untuk tes acuan patokan harus agak sederhana dari itu akan untuk tes acuan norma. Hal ini
karena spesifikasi yang tepat dari sebuah domain akan membuat tugas melihat apakah item
cocok dengan domain sederhana daripada itu akan dengan domain longgar didefinisikan,
seperti yang ditemukan dengan sebagian besar tes acuan norma.
Konten validasi kadang-kadang dilakukan dengan memiliki sebuah panel ahli
meninjau item pada tes dan menilai mereka dalam hal seberapa dekat mereka cocok dengan
tujuan atau domain spesifikasi. Panel tidak perlu besar tetapi anggota harus berpengetahuan
tentang area konten dan target audiens. Ahli tersebut dapat terdiri dari guru melayani dalam
peran ini dengan sangat baik.
Ketika ahli diminta untuk menilai item, yang terbaik adalah menggunakan beberapa
bentuk terstruktur sehingga peringkat mereka dapat dibandingkan, rata-rata, atau selisih.
Bentuk juga jelas mendefinisikan tugas rating dan memastikan bahwa semuanya akan
diberikan perhatian yang memadai. Suatu bentuk kumpulan tayangan subjektif tentang item
tes. Contoh dari bentuk sederhana yang dapat digunakan untuk menilai validitas isi item dari
tes acuan patokan disediakan pada gambar 13-1.

GAMBAR 13 - Formulir 1 Ratting untuk Menilai Konten Validitas


Tujuan:
Silakan menilai items yang ditulis untuk tujuan di atas dalam hal seberapa baik item sesuai
tujuan.
Item # Buruk Sempurna
1 1 2 3 4 5
2 1 2 3 4 5
3 1 2 3 4 5
4 1 2 3 4 5
5 1 2 3 4 5
6 1 2 3 4 5
7 1 2 3 4 5
8 1 2 3 4 5
Komentar tentang item atau saran untuk item tambahan:

15
penilai tersebut akan diberikan salinan tes dan bentuk rating, yang akan berisi tujuan. Penilai
kemudian akan dievaluasi dari setiap item dengan tujuan merekam tanggapan mereka di
formulir. Data membentuk beberapa penilai dapat summerized pada bentuk lain, seperti yang
pada gambar 13-2, untuk memudahkan analisis perbandingan. Angka-angka dalam gambar
13-2 adalah peringkat yang mungkin telah diperoleh dari enam penilai. Notr bagaimana item
2 telah dinilai lebih rendah dari itemsd lain dan mungkin perlu direvisi. Tetapi perhatikan juga
bagaimana bentuk seperti itu memungkinkan untuk memeriksa kesepakatan di antara penilai.
No 3 tampaknya cukup berbeda dari rating lain dan peringkat nya mungkin perlu
dipertimbangkan dengan beberapa skeptisisme.
Seorang guru kelas mungkin tidak memiliki akses ke panel ahli yang diakui secara
nasional, tapi dia atau dia dapat meminta rekan-rekan untuk memberikan review kesesuaian
item dan macth antara item dan tujuan. Permintaan seperti itu bukanlah pemaksaan besar.
Sebaliknya, itu membangun semangat berbagi dan kerja sama antara guru dengan di
kekusutan kesadaran apa yang terjadi di ruang kelas masing-masing.
GAMBAR 13-2 Peringkat Validitas Isi Formulir Musim Panas Dengan Item Untuk
Semua Penilai
Produk
Rater Rater rata-rata
1 2 3 4 5 6 7 8
1 5 3 5 5 4 5 4 5 4,50
2 5 3 4 5 5 5 5 5 4,63
3 4 5 3 5 5 4 3 5 4,25
4 4 2 4 5 4 5 4 5 4,13
5 4 3 5 5 5 5 5 4 4,50
6 5 3 5 5 5 5 5 5 4,50
Rata-rata
4,67 3,16 4,33 5,00 4,50 4,83 4,33 4,83
Produk

Ketika meninjau validitas isi dilakukan secara informal dengan rekan adalah mungkin lebih
mudah untuk tidak menggunakan bentuk rating tapi hanya untuk duduk bersama-sama
sementara item ditinjau dan mengambil catatan tentang komentar resensi mengenai item.
Jelas, lebih spesifik spesifikasi domain atau tujuan, semakin besar kemungkinan bahwa akan
ada kesepakatan tentang apakah barang yang cocok. Jika pengulas memiliki beberapa
meragukan validitas isi tes. Maka akan ada kebutuhan untuk merevisi item tes, tujuan, atau
keduanya.

Validitas isi berkaitan dengan perbandingan antara item dan wilayah

16
KRITERIA KEABSAHAN
Berikut ini adalah situasi di mana dua istilah, acuan patokan dan kriteria validitas,
tampaknya serupa tetapi, tentu saja, mereka sangat berbeda. Kami sebelumnya didefinisikan
tes acuan patokan menjadi tes yang skor dibandingkan dengan domain yang defened dari
kriteria sikap bukannya dibandingkan dengan puluhan peserta ujian lainnya. Validitas kriteria
adalah prediktor yang berguna dari kinerja pada beberapa ukuran kriteria lainnya. Ukuran lain
ini mungkin menjadi tes yang berbeda, pola perilaku masa depan, atau hampir semua variabel
lain yang menarik.
Mungkin contoh yang paling biasa validitas kriteria adalah situasi dua tujuan yang
tampaknya terkait dan kami ingin menentukan apakah kinerja siswa pada tujuan pertama
adalah prediksi nya kinerja pada tujuan kedua. Mungkin tujuan pertama berkaitan dengan
keterampilan atau pengetahuan yang dianggap prasyarat untuk kinerja yang sukses pada
tujuan kedua, seperti kebutuhan untuk menjadi lancar dengan pengurangan sebelum mencoba
divition panjang, atau kebutuhan untuk mengetahui valensi kimia sebelum membentuk
senyawa.
Validitas kriteria akan ditampilkan sejauh mana kinerja pada tujuan kedua adalah
ditebak jika kita mengetahui tingkat kinerja pada tujuan pertama. Kami akan menghubungkan
skor dari tes acuan patokan dari masing-masing tujuan. Sebuah koefisien korelasi digunakan
dalam kasus ini. (koefisien korelasi sebagai statistik deskriptif dibahas dalam bab 7.)
mengingat bahwa koefisien korelasi dapat mengambil nilai-nilai dari -1,00 ke 1,00 inklusif.
Semakin besar nilai absolut dari koefisien korelasi, semakin kuat hubungan antara variabel
yang berkorelasi. Masukan dari koefisien korelasinya menunjukkan arah hubungan; tanda
negatif menunjukkan hubungan terbalik, tanda positif hubungan langsung.
Korelasi Domain Skor
Meskipun kita menyadari bahwa statistik umumnya tidak stabil ketika mereka didasarkan
pada ukuran sampel yang kecil, kita akan menggambarkan proses menghubungkan skor
domain dengan sampel 10 orang hanya untuk membuat perhitungan sederhana. Misalkan 10
siswa diuji pada tujuan 1 dengan 10-item tes acuan patokan yang cocok dalam domain yang
spesifik. Siswa diperbolehkan untuk bekerja pada tujuan 2, mungkin sebelum penguasaan
dicapai pada tujuan 1. Ini akan memungkinkan kita untuk melihat apakah beberapa siswa
akan melakukannya dengan baik pada tujuan 2 meskipun mereka memiliki skor rendah pada
tes untuk tujuan 1. Berikutnya, tes acuan patokan untuk tujuan 2 diberikan. Tabel 13-1 berisi

17
seperangkat nilai yang diperoleh. Skor adalah jumlah item benar menjawab pada setiap tes,
memperkirakan kinerja pada domain.
Rumus untuk koefisien korelasi pada Tabel 13-1, serta nomor yang digunakan dalam
formula. Data pada Tabel 13-1 menghasilkan korelasi 0,80, yang substansial. Kebanyakan
koefisien validitas diterbitkan biasanya di kisaran 0,50 atau lebih rendah. Sebuah sebar dari
pasangan skor diberikan dalam Gambar 13-3, yang menampilkan menutup sebuah Assotiation
dari nilai pada tujuan 1 dan 2. 0,80 koefisien korelasi dan pola titik di sebar kedua
menunjukkan tingkat tinggi kriteria validitas ketika skor pada tujuan 1 digunakan untuk
memprediksi skor pada tujuan 2.
Tabel 13-1. Korelasi antara Pasangan Skor pada Tes Acuan Patokan untuk Dua Tujuan
Tujuan 1 Tujuan 2
Al 8 6
Barb 10 10
Chris 5 5
Don 3 5
Ed 8 9
Franco 10 8
Gina 9 10
Heather 6 8
Iise 7 8
juan 10 10
ΣX = 76 ΣY = 79 ΣXY = 634
∑𝑋 2 = 628 ∑𝑌 2 = 659

𝑁 ∑𝑋𝑌− ∑𝑋∑𝑌
r=
√(𝑁 ∑ 𝑋 2 −(∑𝑋)2 ) (𝑁 ∑ 𝑌 2 −(∑𝑌)2 )
10 × 634−76 ×79
r= = .80
√(10 ×628 − 762 )(10 ×659 −792 )

pola seperti itu akan menunjukkan bahwa keterampilan dan pengetahuan obyektif 1 dapat
prasyarat untuk tujuan 2. setidaknya kita tahu bahwa siswa yang memiliki skor rendah pada
tujuan pertama juga cenderung memiliki skor rendah pada tujuan kedua.

18
Prediksi Penguasaan
jika kita prihatin dengan prediksi kinerja penguasaan pada tujuan, kami akan melanjutkan
dengan cara yang berbeda. Misalkan skor batasan untuk penguasaan pada dua tes acuan
patokan setidaknya delapan item yang benar. Kami kemudian bisa menentukan siswa yang
dinilai telah menguasai atau tidak telah menguasai tujuan. Hal ini telah dilakukan untuk skor
pada tabel 13-1 dan ditampilkan dalam tabel 13-2. Skor untuk tujuan adalah 1 jika menguasai,
0 jika tidak menguasai.
Kita bisa menghitung koefisien korelasi pada data dalam tabel 13-2. Hal ini akan
menghasilkan koefisien korelasi 0,36, yang jauh lebih rendah dari koefisien korelasi adalah
karena kita telah mengabaikan perbedaan individu dan mencetak semua penguasaan jalan
sama dan semua yang tidak menguasai cara yang sama

TABEL 13-2 Perbandingan Keputusan Penguasaan atas Dua Tujuan


Tujuan 1 Tujuan 2
Penguasaan Penguasaan
Al 1 0
Barb 1 1
Chris 0 0
Don 0 0
Ed 1 1
Franco 1 1
Gina 1 1
Heather 0 1
Ilse 0 1
Juan 1 1

19
Mastery 2 5
Objective 2 Nonmastery 2 1
Nonmastery Mastery
Tujuan 1
Selain itu, korelasi yang didasarkan pada dua variabel yang berbeda oleh presentase dari
orang dalam distribusi marginal. Dalam contoh ini, persentase marginal adalah persentase dari
menguasai dan tidak menguasai pada tujuan yang terpisah. Ketika persentase ini tidak sama
pada dua variabel, ukuran korelasi berkurang. Kita tidak perlu heran bahwa hubungan
berdasarkan scoring dikotomis jauh lebih rendah dari salah satu 0,80 yang kami temukan
menggunakan skor mentah.
Mungkin akan lebih jelas mengungkapkan validitas kriteria sebagai persentase siswa
yang keputusan menguasai / tidak menguasai sama pada tujuan 1 dan 2. Kami lihat dari
bawah meja 13-2 bahwa 5 orang mencapai penguasaan pada kedua tujuan dan 2 orang tidak
berhasil di kedua tes. Oleh karena itu 7 dari 10 siswa, 0,70, memiliki penampilan yang
konsisten pada dua tujuan. 0,70 menunjukkan tingkat substansial validitas kriteria.
Penguasaan pada tujuan kedua dikaitkan dengan penguasaan pada tujuan pertama.
Komentar pada Kriteria Validitas
Prosedur yang digunakan dalam contoh kita dapat diterapkan lebih pengaturan dari korelasi
kinerja pada dua tujuan. Skor tes acuan patokan juga dapat digunakan untuk memprediksi
kinerja pada tes prestasi lainnya, peringkat guru potensi akademik, skor dari penilaian sikap,
atau kriteria lain yang menarik.
Bukti validitas kriteria berbicara dengan kecukupan tes untuk melayani tujuan-yang
khusus prediksi kinerja pada beberapa variabel lain. Ukuran koefisien korelasi atau persentase
keputusan konsisten tentang penguasaan akan tergantung banyak pada kecukupan kriteria
ukuran sebagai kecukupan prediktor test. ditentukan atau tidak dapat diandalkan ukuran
kriteria tidak dapat diprediksi dengan akurasi yang jauh.
Koefisien validitas kriteria tergantung pada jumlah dan karakteristik sampel yang
koefisien didasarkan. Sampel kecil akan menghasilkan statistik yang tidak stabil. Perubahan
hanya dalam beberapa skor nyata dapat mempengaruhi korelasi ketika total sampel kecil.
Sebuah tes mungkin memiliki validitas kriteria yang memadai bila digunakan dengan
kedua anak kelas tapi mungkin tidak memadai bila digunakan dengan 5 anak di kelas. Sebuah
tes yang merupakan prediksi yang baik dari prestasi akademik kemudian untuk siswa SMU

20
mungkin jauh kurang valid ketika hanya siswa SMA berbakat dianggap. Ketika karakteristik
examininees berbeda, kita tidak perlu heran bahwa validitas kriteria juga mungkin berbeda.

Validitas kriteria berkaitan dengan seberapa baik nilai tes memprediksi kinerja pada
beberapa variabel lain, tes, atau tujuan.

Validitas konstruk
Penentuan validitas konstruk pada dasarnya adalah mencari bukti yang akan membantu kita
undertand apa tes ini benar-benar mengukur dan bagaimana tes bekerja di berbagai
pengaturan dan kondisi. Sebuah membangun adalah sifat, atribut, atau kualitas, sesuatu yang
tidak dapat diamati secara langsung tetapi disimpulkan dari teori psikologi. Ketegasan, bakat
skolastik, dan konsep diri adalah contoh konstruksi seperti yang tidak secara langsung
diamati. Tes tidak mengukur konstruk langsung, melainkan, mereka mengukur kinerja atau
perilaku yang mencerminkan konstruksi. Kami menyimpulkan dari pola teori diharapkan dari
skor dari langkah-langkah dari konstruksi ini (yaitu, bagaimana mereka harus berhubungan
dengan skor dari langkah-langkah lain). Sebagai contoh, kita akan berharap bahwa skor dari
ukuran kebahagiaan akan berkorelasi positif dengan skor dari tes konsep diri dan bahwa skor
konsep diri rata-rata anak laki-laki kelas tiga dan perempuan kelas tiga akan kira-kira sama.
Ketika skor mengikuti harapan ini, kita memiliki bukti bahwa tes ini mengukur apa yang
dimaksudkan untuk mengukur.
Membangun panggilan validasi untuk kampanye studi daripada analisis tunggal, dan
bukti-bukti validitas konstruk adalah informasi yang dikumpulkan dari seluruh set studi.
Kedua analisis logis dari konten pengujian dan analisis statistik dari nilai tes yang digunakan,
sehingga akan ada beberapa tumpang tindih dengan ide-ide obout konten dan validitas
kriteria.
Sebuah Contoh Membangun Validitas
Misalkan kita mengembangkan tes acuan patokan cardio-paru resusitasi (CPR). Kita perlu
melakukan beberapa studi validasi sebelum kita bisa meyakinkan orang lain bahwa kami
memiliki tes yang valid. Analisis yang mengikuti akan memberikan informasi validitas
konstruk penting.
Analisis logis
Item pada tes CPR harus mewakili domain yang ditentukan. Sebuah panel dokter
berpengetahuan, instruktur CPR bersertifikat, dan pendidik kesehatan bisa reviw tes. Mereka
akan menilai sejauh mana item sesuai domain te, apakah keterampilan atau ide-ide penting

21
tidak dimasukkan, dan apakah item memiliki format dan konstruksi yang tepat. Jika ini
terdengar seperti prosedur validitas isi, harus karena itu adalah sama.
Analisis Statistik-Korelasi
Kami akan berharap bahwa kinerja pada tes CPR akan berkorelasi dengan ukuran lain dari
keterampilan smilar. Bukti ini akan diperoleh dengan memberikan tes CPR dan langkah-
langkah lain keterampilan smilar ke beberapa orang kelompok op dan kemudian menemukan
koefisien korelasi. Kami akan berharap untuk menemukan korelasi positif yang kuat antara tes
uji CPR dan CPR kami yang diterbitkan oleh Palang Merah. Positif, tapi agak lebih rendah,
korelasi harus ditemukan antara nilai tes CPR dan skor pada langkah-langkah teknik
pertolongan pertama lainnya seperti menghentikan perdarahan atau manuver Heimlich. Kami
mungkin menemukan korelasi positif antara tes CPR dan tes pengetahuan anatomi sistem
pernapasan. Nilai tes bahkan mungkin memprediksi tanggapan lter dengan situasi darurat.
Langkah-langkah dari hal yang sama harus sangat berkorelasi, langkah-langkah dari
variabel yang berbeda tetapi terkait harus memiliki lemah untuk korelasi moderat, dan
langkah-langkah dari variabel yang tidak berhubungan seperti skor CPR nd nomor loker harus
memiliki korelasi yang mendekati nol. Sebuah inpection dari pola korelasi nilai tes dengan
varables lain membantu kita memahami bagaimana eduquate tes ini melayani tujuan yang
dirancang. Ketika kita mulai memahami bahwa skor pada tes berkorelasi dengan informasi
lain tentang examinies, kita lebih mampu menafsirkan implikasi apa yang dapat dilampirkan
ke berbagai tingkat kinerja pada tes (misalnya, apa nilai tes bisa berarti).
Perbedaan Analisis Kelompok Statistik
Dalam contoh tes CPR kita mungkin dapat memprediksi bahwa kelompok-kelompok yang
berbeda orang op akan memiliki kinerja tingkat rata-rata yang berbeda secara signifikan pada
tes. Mereka yang bersertifikat dalam teknik CPR harus melakukan lebih baik pada tes CPR
kami dari orang-orang yang tidak bersertifikat, dan CPR instruktur harus memiliki nilai rata-
rata yang lebih tinggi daripada siswa di kelas pelatihan CPR. Kami akan mengelola pengujian
kami untuk kelompok-kelompok ini, membandingkan nilai rata-rata, dan melihat apakah
harapan kami dikonfirmasi oleh data. Jika kami menemukan bahwa skor tes mengikuti
harapan kami teoritis, maka kita memiliki bukti tambahan bahwa tes ini mengukur apa yang
dimaksudkan untuk mengukur. Kami memiliki ide yang lebih baik tentang apa yang nilai tes
berarti dan tujuan yang tes dapat digunakan.
Ini akan menjadi penting untuk melihat apakah keputusan penguasaan berdasarkan
nilai tes kriteria-referenced berada dalam perjanjian dengan keputusan penguasaan bagi para

22
siswa pada domain atau tujuan yang sama ketika penguasaan ditentukan dengan cara lain.
Cara lain bisa peringkat guru pada skor dari tes yang berbeda. Jika semua keputusan
mengenai status penguasaan berada dalam perjanjian, kita memiliki bukti bahwa nilai tes
kriteria-referenced yang mengukur contucts dimaksudkan.
Distraktor Analisis
lanjut wawasan ke dalam karakteristik tes dapat diperoleh dengan melihat pola tanggapan
terhadap pertanyaan-pertanyaan. Ini berarti melihat berapa banyak siswa yang dipilih masing-
masing distraktor pada tes pilihan ganda atau akuntansi kesalahan yang dibuat pendek-
jawaban dan tanggapan esai.
Selain melihat persentase siswa yang dipilih masing-masing pilihan yang salah pada
item pilihan ganda. Hal ini penting untuk menemukan apakah pola pilihan yang salah adalah
serupa untuk berbagai kelompok mahasiswa. Akan menarik untuk melihat apakah tanggapan
pola op pada item yang sama bagi siswa yang mencapai penguasaan total tes dan mereka yang
melakukan permen. Contoh analisis distrutor disediakan pada gambar 13-4. Hal ini tidak
mengherankan, mereka yang mencapai penguasaan juga cenderung untuk memilih opsi yang
(pilihan yang benar). Hal ini mengejutkan bahwa banyak dari mereka yang tidak mencapai
penguasaan ditarik ke pilihan d. Jika perbedaan tersebut terulang di beberapa item
nonmasters, kita akan memiliki gambaran yang lebih jelas tentang apa yang sebenarnya
menyebabkan diskriminasi antara penguasaan dan tidak menguasai.
Analisis tambahan mungkin kontras pola respon siswa dari kelompok ras atau etnis
berbeda atau mereka dari tingkat sosial ekonomi yang berbeda. Analisis ini akan berguna
dalam menghindari bias item-item yang tidak dirasakan sama oleh kelompok ini peserta ujian
dan dengan demikian menciptakan berbagai buatan di nilai tes.
Komentar Membangun Validitas
Hal ini jelas dari berbagai jenis bukti validitas yang diperlukan untuk membangun
kemampuan bahwa ini adalah yang paling kompleks dari validitas tes yang kita telah
dijelaskan
GAMBAR 13-4 Analisis Pola Respon pada Butir
b c d
15 5 2 0 Mastery
8 5 4 10 Nonmastery
* respon yang benar

23
validitas yang telah kami jelaskan. Membangun validitas tidak terbentuk dalam belajar
tunggal; Banyak penelitian diperlukan dengan peserta ujian dengan berbagai karakteristik dan
Pengaturan. Selisih informasi dari studi ini membantu kita memahami Kekuatan,
keterbatasan, dan makna dari nilai ujian.

Menetapkan validitas konstruk dari tes acuan patokan adalah proses yang
kompleks yang membutuhkan analisis isi serta analisis statistik.

RINGKASAN
Tes yang cukup sesuai dengan tujuan penggunaannya digunakan untuk menjadi sebuah
tes yang valid. Validitas selalu didefinisikan dalam hal tujuan dimana nilai tesnya akan
digunakan. Validitas adalah masalah tingkatan. Satu tes mungkin lebih valid dari yang lain
tapi tes biasanya tidak sepenuhnya valid dan tidak valid.
Karena tes acuan patokan digunakan untuk beberapa tujuan berbeda, termasuk
memperkirakan kinerja pada domain dan menentukan apakah siswa telah mencapai
penguasaan, tidak mengherankan bahwa berbagai jenis logika dan bukti statistik harus
disajikan untuk mendukung klaim validitas. Tiga jenis uji validitas yang diperkenalkan adalah
validitas isi, validitas kriteria, dan validitas konstruk.
Validitas isi adalah penentuan sejauh mana item di uji sesuai spesifikasi atau tujuan
domain validitas yang ditetapkan dengan memiliki kualifikasi orang, panel ahli, meninjau
ulang item uji untuk kesesuaian dan kesesuaian dengan domain.
Validitas kriteria yang berkaitan dengan apakah tes akan memadai prediktor kinerja
pada beberapa variabel lainnya. Bukti validitas ditetapkan oleh menemukan koefisien korelasi
yang menghubungkan tes dengan kriteria yang diprediksi akan terjadi. Pilihan antara dua tes
yang bersaing akan didasarkan pada uji mana yang telah dilakukan korelasi yang lebih tinggi
dengan kriteria. Saat kita kaitan tentang penguasaan keputusan atas dua ukuran, tingkat
validitas ditunjukkan oleh persentase orang-orang dalam penguasaan/tidak dalam keputusan
yang konsisten.
Validitas konstruk ditunjukkan dengan membuat prediksi tentang nilai ujian dan
kemudian melakukan analisis untuk melihat apakah prediksi tersebut dikonfirmasi.
Beberapa dari prediksi yang masuk akal adalah : (1) nilai tes harus berkorelasi positif dengan
ukuran lain dari hal yang sama, (2) kelompok yang diketahui berbeda pada domain harus
memiliki nilai tes yang berbeda secara signifikan, dan (3) tidak seharusnya kita temukan pola

24
respons yang berbeda di antara petugas yang berbeda untuk orang-orang dari berbagai ras,
nilai, atau karakteristik lainnya.
Kita tidak bisa hanya menganggap bahwa tes kita akan valid. Kita perlu berhati-hati
dalam analisis untuk menunjukkan bahwa tes kita memiliki Isi, kriteria atau validitas konstruk
yang cukup sehingga kita bisa membenarkan penggunaan tes tersebut.

25
BAB III
PEMBAHASAN

A. Keunggulan Buku
Adapun kelebihan-kelebihan dari buku ini yaitu:
Pertama, cover buku ini didesign terlihat menarik untuk dipelajari dengan
menggunakan warna-warna yang sesuai.
Kedua, pembahasan mengenai yang jelas mengenai tes acuan patokan, sehingga dengan
pembahasan tersebut sangat bagus bagi pembaca karena pembaca dapat memahami kriteria
yang bagaimana yang tepat dalam memecahkan masalah kurikulum.
Keempat, dibuku ini juga diberikan contoh – contoh yang sangat mudah untuk dipahami
karena dengan contoh tersebut disertakan tabel yang dapat dipahami dengan mudah dan tidak
membuat bingung bagi pembaca.
Kelima, dalam setiap pembahasan dibuku tersebut diberi rangkuman sehingga dalam
rangkumn tersebut dicantuk pokok-pokok pembahasan yang harus dipahami.

B. Kelemahan Buku
Kelemahan-kelemahan buku ini yakni
Pertama, dalam pembahasan yang lain ada juga penjelasan yang tidak secara rinci
dijelaskan.
Kedua, pembahasan mengenai tes acuan patokan diberikan contoh dalam bidang
kedokteran dan tidak dalam bidang tes hasil belajar.
Ketiga, dalam buku ini dipaparkan mengenai evaluasi pendidikan dan pelatihan dalam
dunia kedokteran sehingga untuk evaluasi pendidikan dan pelatihan dalam pelajaran kurang
dijelaskan pada bab ini tetapi bagi pembaca khususnya guru juga tepat jika menggunakan
buku tersebut.

26
BAB IV
PENUTUP
A. Kesimpulan
Berdasarkan pembahasan kelebihan dan kelemahan isi buku yang berjudul organisasi
dan kepemimpinan modern maka dapat ditarik beberapa kesimpulan: Jika kita ingin
mempelajari tentang evaluasi pendidikan dan pelatihan untuk perusahaan atau bagi pendidik
maka kita bisa membaca Educational Measurement And Testing karena dalam buku ini
dijelaskan secara rinci evaluasi pendidikan dan pelatihan untuk perusahaan atau pun untuk tes
hasil belajar.

B. Saran
Dalam pembuatan critical book report hal mendasar yang harus diketahui adalah isi
buku tersebut, dan mengetahui kelebihan dan kelemahan buku tersebut. Dan diharapkan
dalam pembuatan critical book report ini berguna bagi kita semua dan dapat
mengaplikasikannya.

27
DAFTAR PUSTAKA

Wiersma, William and Stephen G.Jurs. 1990. Educational Measurement and Testing. Boston:
a division of simon & schuter, inc

28

Anda mungkin juga menyukai