Anda di halaman 1dari 55

Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional

61

Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional


Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional

61

62
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
64

65

Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional

67

Saya
G9

Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional


70

Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional

78

Proses Evaluasi
Keabsahan

83

Keabsahan

85

Keabsahan

87

Keabsahan

87

Keabsahan

89

Keabsahan

91

Keabsahan

103

ses Evaluasi

84

86

88

90

Proses Evaluasi

Proses Evaluasi

Proses Evaluasi

Proses Evaluasi

102

Proses Evaluasi

104

Proses Evaluasi

106

Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya

112

Proses Evaluasi

112

Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya
Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya

124

123

Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya

61

COPYRIGHT 1976, NORMAN


DICETAK DI

AMERIKA SERIKAT

E.

GRONLUND

DARI AMERIKA

All rights reserved. Tidak ada bagian dari buku ini yang boleh direproduksi atau ditransmisikan dalam bentuk
apapun atau dengan cara apapun, elektronik atau mekanik, termasuk fotokopi, rekaman, atau penyimpanan
informasi dan sistem pencarian, tanpa izin tertulis dari Penerbit.
Sebelumnya edisi hak cipta
MACMILLAN PUBLISHING CO,
866

1965

dan

1971

oleh Norman E. Gronlund.

AKU NC.

Third Avenue, New York, New York

COLLIER MACMILLAN CANADA, L

10022

TD.

Orangtuaku
Library of Congress Katalogisasi di Publikasi data
Gronlund, Norman Edward, (tanggal)
Pengukuran dan evaluasi dalam mengajar.
D
a
f
t
a
r
P
u
s
t
a
k
a
:
p
.
T
e
r
m
a
s
u
k
i
n
d
e
k

s
.
1.

Pendidikan tes

dan pengukuran. I.
Judul.
LB3051.G74 1976

ISBN

37i ^ '6

75-4848

0-02-348050-5

Cetakan:
Tahun:

12345678

6789012

BAB

Berkaitan Prosedur Evaluasi


terhadap Tujuan Instruksional
GENERAL INSTRUKSIONAL TUJUAN (hasil Ditujukan mengarahkan pengajaran kami)
KHUSUS BELAJAR HASIL
(Perilaku Murid kita bersedia untuk menerima sebagai
bukti pencapaian tujuan)
TEKNIK EVALUASI (Prosedur untuk mendapatkan sampel perilaku murid dijelaskan dalam hasil pembelajaran yang spesifik)

GAMBAR 3.1. Hubungan teknik evaluasi untuk tujuan.


Tujuan instruksional mencakup berbagai hasil belajar. . . . Evaluasi mencakup berbagai prosedur. . . . Kunci
untuk suara evaluasi adalah untuk menghubungkan prosedur evaluasi secara langsung mungkin dengan hasil
pembelajaran tertentu sedang dievaluasi.
Sekarang harus jelas bahwa evaluasi merupakan bagian integral dari proses belajar-mengajar. Itu bukan sesuatu
yang

tertempel

di

di

akhir

kursus; tidak terbatas

pada

pengukuran

jumlah

bahan

faktual

dipertahankan; tidak terbatas pada pemeriksaan kertas dan pensil. Evaluasi adalah proses yang komprehensif
berkelanjutan yang memanfaatkan berbagai prosedur dan yang tak terelakkan terkait dengan tujuan program
pembelajaran.
Dalam bab terakhir, kami tidak khawatir dengan proses penyusunan tujuan instruksional untuk tujuan
evaluasi. Proses ini termasuk mengidentifikasi tujuan instruksional umum dan kemudian mendefinisikan masingmasing tujuan tersebut dengan daftar hasil pembelajaran yang spesifik. Langkah terakhir dalam proses evaluasi
adalah untuk memilih atau mengembangkan instrumen evaluasi yang memberikan bukti paling langsung
mengenai pencapaian setiap hasil belajar tertentu.
Urutan langkah-langkah yang ditunjukkan pada Gambar 3.1 meringkas prosedur umum ini berkaitan teknik
evaluasi untuk tujuan.
Langkah-langkah prosedural menjelaskan pentingnya berkaitan teknik evaluasi langsung ke hasil pembelajaran
tertentu sedang dievaluasi. Ini adalah satu-satunya cara kita dapat memiliki kepastian bahwa kita mengevaluasi
kemajuan murid menuju hasil yang kami telah terpilih sebagai tujuan instruksional kami.

Proses yang berkaitan dengan teknik evaluasi hasil belajar spesifik pada dasarnya adalah salah satu analisis
yang logis dan penilaian. Proses ini dapat sangat difasilitasi, namun, dengan penggunaan beberapa rencana
evaluasi yang sistematis.
RENCANA EVALUASI UMUM
Apakah guru adalah memutuskan pada prosedur evaluasi untuk unit kerja, kerja semester, atau urutan kursus,
beberapa rencana evaluasi umum yang diinginkan. Minimal, rencana ini harus mencakup daftar hasil pembelajaran
yang diinginkan dan teknik yang akan digunakan dalam mengevaluasi kemajuan mereka. Tabel berikut,
berdasarkan beberapa tujuan yang dikembangkan oleh Mr Brown, guru biologi kelas sepuluh kami, menggambarkan
prosedur untuk mengembangkan rencanaumum. Sistem penomoran adalah bahwa yang digunakan oleh Mr Brown
dan membantu mengidentifikasi masing-masing tujuan dalam daftar aslinya (lihat Tabel 2.1). Grafik evaluasi
lengkap akan, tentu saja, mencakup semua tujuan dan hasil pembelajaran yang spesifik diidentifikasi oleh Mr
Brown.
Mr Browns grafik untuk rencana evaluasi umum menjelaskan sejumlah poin penting tentang hubungan antara
tujuan instruksional dan prosedur evaluasi. Untuk satu hal, itu membuat jelas fakta bahwa hasil belajar tertentu,
dinyatakan dalam hal perilaku murid, begitu banyak dan beragam bahwa tidak ada teknik evaluasi tunggal
mungkin bisa memberikan bukti yang memadai tentang prestasi mereka. Meskipun tes objektif yang ditunjukkan
untuk banyak hasil belajar, daftar periksa, catatan anekdot, dan teknik observasi lainnya juga sering
disebutkan. Diagram ini juga menyoroti pentingnya pernyataan yang jelas dari tujuan dan hasil pembelajaran
dalam memilih teknik evaluasi. Bahkan, ketika hasil pembelajaran secara jelas dinyatakan dalam hal perilaku
murid,

mereka

tidak

hanya

menyarankan bagaimana untuk

menunjukkan apa

mengevaluasi. Sebagai

yang harus
contoh,

dievaluasi,

tetapi

kalimat "1.1 Mendefinisikan

mereka
istilah

juga
umum"

memberikan indikasi jenis teknik evaluasi yang harus digunakan. Hal ini menunjukkan bahwa murid harus
memberikan definisi sendiri. Oleh karena itu, tes jawaban singkat, di mana murid diberikan istilah yang dipilih dan
diminta untuk mendefinisikan mereka, adalah teknik yang paling tepat evaluasi. Item tes objektif, seperti
pertanyaan pilihan ganda, di mana murid harus hanya mengidentifikasi definisi, akan tidak memadai untuk
mengevaluasi hasil belajar ini, seperti yang dinyatakan. Tentu saja, hasil belajar yang spesifik dapat disajikan
kembali untuk membaca "Mengidentifikasi makna umum

Tujuan dan Hasil Belajar Spesifik


. 1 Murid tahu istilah umum yang digunakan dalam biologi ketika ia:

1.

Mendefinisikan istilah umum.

2.

Membedakan antara istilah umum atas dasar makna.

3.

Mengidentifikasi makna istilah umum ketika digunakan dalam konteks.

. 6 Murid menunjukkan keterampilan berpikir kritis ketika ia:

1.

Membedakan antara fakta dan opini.

2.

Menarik kesimpulan yang valid dari data yang diberikan.

3.

Mengidentifikasi asumsi yang mendasari kesimpulan.

6.4

Mengidentifikasi keterbatasan data yang diberikan.

8. Murid melakukan operasi dasar dissecTion terampil ketika ia:

1.

Tempat spesimen dalam posisi yang tepat.

2.

Cuts terampil tanpa merusak struktur yang akan dipelajari.

3.

Memisahkan bagian struktural dari spesimen tanpa merusak mereka.


8.4

Selesaikan

diseksi

dalam

waktu

yang

10. Murid menempatkan informasi biologis ketika


dia:

1.

Menempatkan referensi menggunakan katalog kartu perpustakaan.

2.
3.

Mengidentifikasi sumber-sumber umum informasi biologis.

4.

Mengidentifikasi relevansi informasi untuk masalah tertentu.

Menggunakan daftar isi dan indeks ketika mencari informasi dalam buku-buku.

. 12 Murid menampilkan sikap ilmiah terhadap fenomena biologis ketika ia:

1.

Menunda penilaian sampai semua fakta yang tersedia.

2.

Mengidentifikasi hubungan sebab-akibat dalam data biologis.

3.

Menunjukkan kesediaan untuk mempertimbangkan interpretasi baru dari data biologis.

4.

Negara interpretasi data biologis yang bebas dari bias.

ditentukan.

5.

Menunjukkan kepercayaan dalam data biologis diperoleh dengan prosedur ilmiah.

* Teknik Evaluasi berkaitan dengan belajar hasil dengan angka yang sesuai.
istilah "sehingga item tes objektif dapat digunakan. Namun, ini akan menjadi perubahan dalam perilaku tertentu Mr
Brown bersedia menerima sebagai bukti bahwa murid tahu istilah umum yang digunakan dalam biologi. Jika ia
percaya bahwa mengetahui istilah mengharuskan murid dapat menentukan istilah dalam kata-katanya sendiri,
satu-satunya prosedur yang memadai evaluasi adalah meminta murid untuk sehingga mendefinisikan istilah.
Kemampuan untuk mengidentifikasidefinisi yang benar tidak dapat diterima sebagai bukti kemampuan murid
untuk memberikan definisi yang benar.
Meskipun diskusi kita telah terfokus pada satu hasil pembelajaran yang spesifik, prinsip dasar menilai setiap
hasil belajar secara langsung mungkin adalah salah satu yang menjadi ciri khas seluruh chart. Misalnya, "6.1
membedakan antara fakta dan opini" dapat dievaluasi dengan tes objektif. Ini hanyalah masalah menyajikan murid
dengan sejumlah pernyataan dan memintanya untuk menunjukkan yang merupakan fakta dan mana yang
pendapat. Di sisi lain, bagaimanapun, "6.2 Menarik kesimpulan yang valid dari data yang diberikan" membutuhkan
tes pendek-jawaban karena hasilnya menunjukkan bahwa murid akan menarik kesimpulan sendiri dan tidak hanya
mengidentifikasi kesimpulan yang diambil oleh orang lain.Demikian pula, semua hasil yang berkaitan
dengan "8. Murid melakukan operasi dasar diseksi terampil" harus dievaluasi oleh beberapa perangkat observasi
seperti

daftar

atau

skala

penilaian. Pengetahuan tentang

prosedur

pembedahan tidak dapatditerima

sebagai bukti keterampilan diseksi. Pengetahuan tentang prosedur dapat dan harus diukur untuk kepentingan diri
sendiri, tetapi keterampilan dapat dievaluasi hanya dengan langsung mengamati dan menilai diseksi prosedur
murid dan produk yang dihasilkan. Di bidang sikap ilmiah, seperti hasil belajar sebagai "12,1 penilaian menunda
sampai semua fakta yang tersedia" membutuhkan lebih dari satu jenis bukti karena sulitnya evaluasi. Catatan
anekdotal berdasarkan pengamatan sehari-hari di kelas dan laboratorium akan memberikan bukti tentang perilaku
khas murid dalam menghadapi masalah ilmiah. Tetapi karena kurangnya kesempatan untuk mengamati semua
siswa di situasi yang membutuhkan perilaku ini dan karena sifat subjektif dari pengamatan tersebut, juga
diinginkan untuk menggunakan item tes objektif. Item tes tersebut hanya melengkapi catatan anekdot, namun,
karena respon terhadap item tes objektif tidak menunjukkan bagaimana murid biasanya akan bersikap ketika
dihadapkan dengan masalah yang bersifat ilmiah. Singkatnya, kedua metode tidak memadai tetapi bersama-sama
mereka saling melengkapi dan memberikan bukti yang lebih memadai daripada baik akan sendirian. Untuk setiap
tujuan instruksional, kemudian, bagan evaluasi menunjukkan teknik evaluasi yang memberikan bukti paling
langsung dan memadai mengenai sejauh mana perilaku murid itu sesuai dengan hasil pembelajaran yang
diinginkan.
Sebuah grafik evaluasi, seperti Mr Brown, juga membuat jelas perlunya perencanaan program evaluasi pada
awal unit, atau kursus, instruksi. Jika data yang evaluatif harus diperoleh dengan menggunakan catatan anekdot,
skala rating, dan perangkat pengamatan lainnya, sifat

Teknik Evaluasi
Tujuan
dari pengamatan harus ditentukan di awal proses pembelajaran. Idealnya, perencanaan untuk evaluasi harus
terjadi pada waktu yang sama dengan rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadangkadang

meliputitujuan pengajaran, metode pengajaran,

dan

teknik evaluasi bersama-sama

dalam

satu

rencana. Bagan berikut ini merupakan versi sederhana dari rencana untuk tujuan Mr Whiteside dalam penalaran
aritmatika di tingkat kelas empat:
Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta lebih dari yang diperlukan agar
siswa memperoleh latihan dalam mengidentifikasi masalah, dan memilih fakta yang relevan serta dalam
menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:

1.

Mengidentifikasi masalah (apa yang diketahui).

2.

Mengidentifikasi fakta yang diketahui relevan.

3.

Mengidentifikasi proses aritmatika yang berhubungan dikenal dengan diketahui.

4.

Memecahkan masalah kuantitatif menggunakan langkah-langkah di atas.

Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana umum menyoroti keterkaitan
antara aspek ini mengajar di kelas dan meyakinkan bahwa perencanaan untuk evaluasi akan dilakukan pada awal
kursus. Dalam menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak mencoba untuk
menghubungkan metode pengajaran terlalu dekat dengan tujuan instruksional. Salah satu metode (misalnya,
diskusi kelas) mungkin berhubungan dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian sosial. Demikian pula, satu tujuan (misalnya, penghargaan) dapat menjadi hasil akhir
dari serangkaian pengalaman yang membutuhkan banyak metode pembelajaran. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum untuk kedua pengajaran dan
proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang terdaftar di sisi meja. Sel-sel
dalam tabel yang digunakan untuk menunjukkan jumlah item tes harus siap untuk setiap hasil dari instruksi dan
untuk menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana dari tabel tersebut,
untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.
Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas akan mengukur "pengetahuan
tentang simbol dan istilah." Dua dari dua belas item akan peduli dengan "tekanan udara," empat dengan "angin,"
dua dengan "suhu," dua dengan "kelembaban dan curah hujan," dan dua dengan "awan." Angka-angka di kolom
lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan memerlukan evaluasi kinerja, kolom
tersebut berisi deskripsi singkat tentang prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area konten dalam tabel spesifikasi
harus, tentu saja, mencerminkan penekanan diberikan selama instruksi. Mereka hasil belajar yang menekankan
sebagai lebih penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan bobot yang lebih
besar dalam rencana evaluasi. Dalam tabel ilustrasi kami, misalnya, dua hasil keterampilan ditugaskan 50 persen
dari evaluasi keseluruhan (persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes kertas
dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masing-masing).

Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes kertas dan pensil (lihat Tabel
6.2 dalam Bab 6), namun, ada beberapa keuntungan untuk termasuk semua tujuan instruksional dalam
tabel. Termasuk semua tujuan membuat jelas apa yang ada, dan apa yang tidak, yang diukur dengan tes kelas. Hal
ini menjelaskan peran penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama, mencegah
penekanan yang berlebihan pada prosedur pengujian. Setiap teknik evaluasi dipandang dalam perspektif yang
benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan memasukkan hasil pembelajaran yang
spesifik untuk setiap tujuan instruksional umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini
adalah pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali. Hal ini lebih layak di
mana tabel spesifikasi didasarkan pada unit instruksi (seperti dalam evaluasi formatif) daripada di mana tabel ini
didasarkan pada hasil yang diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah disebut tabel spesifikasi. Grafik
tersebut berhubungan tujuan instruksional dengan isi kursus dan menentukan penekanan yang akan diberikan
kepada masing-masing jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi umum,
semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk masing-masing tujuan instruksional
umum. Ini adalah langkah pertama dalam prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan
karena memberikan beberapa

Teknik Evaluasi
Tujuan
dari pengamatan harus ditentukan di awal proses pembelajaran. Idealnya, perencanaan untuk evaluasi harus
terjadi pada waktu yang sama dengan rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadangkadang

meliputitujuan pengajaran, metode pengajaran,

dan

teknik evaluasi bersama-sama

dalam

satu

rencana. Bagan berikut ini merupakan versi sederhana dari rencana untuk tujuan Mr Whiteside dalam penalaran
aritmatika di tingkat kelas empat:
Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta lebih dari yang diperlukan agar
siswa memperoleh latihan dalam mengidentifikasi masalah, dan memilih fakta yang relevan serta dalam
menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:

1.

Mengidentifikasi masalah (apa yang diketahui).

2.

Mengidentifikasi fakta yang diketahui relevan.

3.

Mengidentifikasi proses aritmatika yang berhubungan dikenal dengan diketahui.

4.

Memecahkan masalah kuantitatif menggunakan langkah-langkah di atas.

Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana umum menyoroti keterkaitan
antara aspek ini mengajar di kelas dan meyakinkan bahwa perencanaan untuk evaluasi akan dilakukan pada awal
kursus. Dalam menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak mencoba untuk
menghubungkan metode pengajaran terlalu dekat dengan tujuan instruksional. Salah satu metode (misalnya,
diskusi kelas) mungkin berhubungan dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian sosial. Demikian pula, satu tujuan (misalnya, penghargaan) dapat menjadi hasil akhir
dari serangkaian pengalaman yang membutuhkan banyak metode pembelajaran. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum untuk kedua pengajaran dan
proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang terdaftar di sisi meja. Sel-sel
dalam tabel yang digunakan untuk menunjukkan jumlah item tes harus siap untuk setiap hasil dari instruksi dan
untuk menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana dari tabel tersebut,
untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.
Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas akan mengukur "pengetahuan
tentang simbol dan istilah." Dua dari dua belas item akan peduli dengan "tekanan udara," empat dengan "angin,"
dua dengan "suhu," dua dengan "kelembaban dan curah hujan," dan dua dengan "awan." Angka-angka di kolom
lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan memerlukan evaluasi kinerja, kolom
tersebut berisi deskripsi singkat tentang prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area konten dalam tabel spesifikasi
harus, tentu saja, mencerminkan penekanan diberikan selama instruksi. Mereka hasil belajar yang menekankan
sebagai lebih penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan bobot yang lebih
besar dalam rencana evaluasi. Dalam tabel ilustrasi kami, misalnya, dua hasil keterampilan ditugaskan 50 persen
dari evaluasi keseluruhan (persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes kertas
dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masing-masing).

Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes kertas dan pensil (lihat Tabel
6.2 dalam Bab 6), namun, ada beberapa keuntungan untuk termasuk semua tujuan instruksional dalam
tabel. Termasuk semua tujuan membuat jelas apa yang ada, dan apa yang tidak, yang diukur dengan tes kelas. Hal
ini menjelaskan peran penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama, mencegah
penekanan yang berlebihan pada prosedur pengujian. Setiap teknik evaluasi dipandang dalam perspektif yang
benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan memasukkan hasil pembelajaran yang
spesifik untuk setiap tujuan instruksional umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini
adalah pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali. Hal ini lebih layak di
mana tabel spesifikasi didasarkan pada unit instruksi (seperti dalam evaluasi formatif) daripada di mana tabel ini
didasarkan pada hasil yang diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah disebut tabel spesifikasi. Grafik
tersebut berhubungan tujuan instruksional dengan isi kursus dan menentukan penekanan yang akan diberikan
kepada masing-masing jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi umum,
semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk masing-masing tujuan instruksional
umum. Ini adalah langkah pertama dalam prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan
karena memberikan beberapa

e
o
z
0

Si
o
(0

op
w J

-4
H

O
o
8-*

c
C

o
1a

CD

00

"1

W sering
bo
bo

s. S
fc

C> fc-

'5 RS

- o K 3
CL,

U
oH

oo

di
O

kami

jaminan bahwa setiap tujuan akan diwakili dalam tes sesuai dengan kepentingan relatifnya. Pertanyaan utama,
namun, dalam berhubungan prosedur pengujian untuk tujuan, adalah: Apakah tanggapan murid disebut ditetapkan
oleh item tes langsung relevan dengan perilaku ditentukan oleh hasil pembelajaran yang spesifik?
Klarifikasi Tanggapan Murid diharapkan
Kita dapat meningkatkan kepastian bahwa barang-barang kami uji menimbulkan perilaku murid yang relevan
dengan lebih memperjelas respon murid diharapkan untuk setiap hasil belajar tertentu. Hal ini dapat dilakukan di
salah satu cara berikut:

1.

Menambah tingkat ketiga kekhususan untuk daftar tujuan.

2.

Menentukan kata kerja yang digunakan dalam hasil pembelajaran yang spesifik.

3.

Gunakan item tes sampel untuk menggambarkan hasil yang diharapkan.

Masing-masing metode akan dibahas pada gilirannya.


Arti dari setiap hasil belajar yang spesifik dapat lebih diperjelas dengan membuat daftar beberapa, atau semua,
dari tugas-tugas tertentu siswa diharapkan untuk melakukan dalam menunjukkan pencapaian hasilnya. Hal ini akan
memberikan tiga tingkat untuk setiap tujuan instruksional, sebagai berikut:
1. Tahu bagian-bagian pidato dalam bahasa Inggris. 1.1 Mengidentifikasi kata
benda dalam kalimat.

11.
12.

Menggarisbawahi setiap kata benda.


Mengelilingi setiap benda umum.

Menambahkan tingkat ketiga kekhususan seperti ini mungkin berguna untuk memperjelas beberapa hasil
belajar. Tugas spesifik menggambarkan dengan tepat apa yang siswa akan lakukan untuk menunjukkan bahwa
mereka dapat mengidentifikasi kata benda. Perlu dicatat, bagaimanapun, bahwa hasil kami yang dimaksud adalah
masih identifikasi kata benda. Proses menggarisbawahi dan mengelilingi hanya perilaku kita bersedia untuk
digunakan

sebagai indikator darikemampuan untuk

mengidentifikasi. Dengan

demikian,

tingkat

ketiga

menyediakan transisi antara hasil belajar tertentu dan item tes, tetapi perilaku tertentu tidak hasil pembelajaran di
kanan mereka sendiri (yaitu, Dalam contoh kita, kita tidak tertarik untuk mengajar siswa bagaimana
untuk menggarisbawahi dan mengepung, melainkan cara untuk mengidentifikasi. Kami menganggap mereka
sudah bisa melakukan yang pertama.) tingkat ketiga ini kekhususan menyoroti salah satu keuntungan
menggunakan tingkat tujuan, daripada daftar tugas tertentu, untuk menggambarkan hasil yang diharapkan dari
instruksi. Dengan

tingkat,

kita

cenderung

untuk

mengacaukan hasil yang

diharapkan

dari

instruksi

dengan indikator hasil tersebut.


Cara lain untuk menjelaskan respon murid yang diharapkan adalah untuk mendefinisikan, atau

bo.

'Ei
I

2 E co

^ 8 S 43 i3 " o

i3 bio *

43

bo
15

GA

ft

-S

'bo'

'43-a
pergi S

CO

. AO -S BP
== ^ S4j

" co

O tj w

CD

- .2

3A

43

ft

2-
O

"O

M J3

-V CO

CO Q

C/J
. 3
. Eo

Z Q

bo

c
<I 3 c c

g co
CO
S

^
OA)

" 1 - 8 FEBRUARI *
CO CA

Apakah. &
> Bo
ts i> H -

.5
co c
CO

CO

D
1|

bp

43

bo *

^. S

-I! rS 3
| ^ 43

ft

.2 O

OO

^ JADI g

rt-i

2 s

34=
03 ft

P ^
bo
CO

o c
CO

ft
"Saya

co

Pergi

o
CO

JR

CO

CO fe

SP

las
3
C

CJ

ft

T3

CO T3

E '3
kira-kira

e
kira-kira

c^

* CO

43

*>
ft ft
.

<U

CO

! 13

<A

sa

-C

T3
V* 4 O

15

(3 CO

co 53
cE

ts>

Vi

CO

^1

EO o
3

S o .2

botj

CD
-ie

;; CD
3

"n - -

bo IB.
8e^-

=A

13.2?

4) rt

^ MC C

untuk |-e6

SEM ACAM

III

33

CO

"3

CO -g (Z) ft

g * "Jadi
-

43

i/oO

ft) 4)
-TL
Pi


-3

i J = <!
CO

=3

cj ^

^o

saya

o>

menjelaskan, setiap kata kerja tindakan yang digunakan dalam daftar hasil pembelajaran yang spesifik, seperti
digambarkan dalam Tabel 3.2. (Perhatikan Jenis Tanggapan dan Uji Sample Tugas.) Prosedur ini sangat berguna di
mana para guru di departemen, atau seluruh sekolah, yang mengembangkan tujuan instruksional untuk setiap
kursus dalam kurikulum. Menggambarkan jenis tanggapan yang terkait dengan setiap kata kerja tindakan
memberikan makna seragam dari satu set tujuan yang lain dan, pada saat yang sama, menghilangkan kebutuhan
untuk menambahkan tingkat ketiga kekhususan untuk setiap rangkaian tujuan. Termasuk contoh tugas-tugas
tertentu, seperti digambarkan dalam Tabel 3.2, juga membantu untuk menjelaskan arti dari setiap kata kerja
tindakan.
Dalam beberapa kasus, misalnya di mana item tes yang akan dibangun oleh orang lain, hal ini diinginkan untuk
menggambarkan setiap hasil belajar tertentu dengan satu atau lebih item uji model. Contoh-contoh yang disajikan
pada bagian berikut ini memberikan berbagai ilustrasi tentang bagaimana hal ini dapat dilakukan. Dalam
berkomunikasi niat instruksional Anda kepada orang lain, tidak ada yang dapat menyampaikan hasil yang
diinginkan sebagai item tes jelas sebagai ilustrasi. Ini mengasumsikan, tentu saja, bahwa setiap item sampel uji
secara langsung relevan dengan hasil belajar tertentu yang diwakilinya.
Pencocokan Uji Produk untuk Ditujukan Hasil
Mempersiapkan item tes yang secara langsung relevan dengan hasil belajar yang spesifik yang akan diukur
terutama soal pencocokan perilaku ditentukan oleh hasil yang diinginkan dan perilaku diukur dengan item
tes. Menyatakan hasil sespesifik mungkin dan mendefinisikan kata kerja secara lebih rinci keduanya berguna dalam
hal ini, namun proses ini masih menjadi bahan analisis dan penilaian. Jika hasil belajar tertentu panggilan
untuk memasok jawaban (misalnya, nama, mendefinisikan), item tes juga harus mensyaratkan bahwa jawabannya
akan diberikan (bukan dipilih). Jika hasil belajar tertentu panggilan untuk mengidentifikasi prosedur, item tes harus
peduli hanya dengan proses identifikasi (bukan dengan hasil yang lebih kompleks). Jika hasil belajar tertentu
panggilan untuk melakukan prosedur, item tes harus memerlukan kinerja yang sebenarnya (bukan deskripsi verbal
bagaimana melakukannya). Isu-isu seperti ini menyoroti perawatan yang diperlukan dalam menentukan apakah
ada kecocokan yang baik antara hasil be-haviorally dinyatakan dan respon yang diharapkan ke item tes.
Prosedur untuk membangun item tes akan dipertimbangkan dalam bab-bab selanjutnya. Di sini, kita hanya
berfokus pada pentingnya pencocokan setiap item tes, sedekat mungkin, dengan hasil belajar tertentu memang
ditujukan untuk mengukur. Contoh-contoh, dari berbagai daerah konten, menggambarkan pertandingan cukup baik
antara hasil yang diharapkan dan item tes. Dalam setiap contoh, perhatikan bagaimana hasil belajar yang spesifik
menggambarkan perilaku murid adalah untuk menunjukkan dan bagaimana soal tes menyajikan tugas yang
memanggil balik bahwa perilaku tertentu.
CONTOH

Spesifik Learning Outcome: Mendefinisikan istilah umum. (Matematika Dasar) Arah: Dalam satu atau dua kalimat,
mendefinisikan masing-masing dari kata-kata berikut.

1.
2.

Bunga

3.

Dividen

4.

Jaminan

5.

Keuntungan

Premi

Spesifik Belajar Hasil: Mengidentifikasi prosedur untuk mengkonversi dari satu ukuran yang lain. (Matematika
Dasar)
1.

Luas karpet diberikan dalam meter persegi. Bagaimana seharusnya Anda menentukan
jumlah kaki persegi?
Sebuah Kalikan dengan 3

(B)

Kalikan dengan 9 C

Bagilah dengan 3 D Bagilah dengan 9


2.

Jumlah susu minuman keluarga dalam satu bulan dinyatakan dalam liter. Bagaimana
Anda harus mengubahnya ke galon?
A Kalikan dengan 4 B Kalikan dengan 8 C Divide oleh 4
Divide oleh 8

3.

Ruang udara di ruangan yang dinyatakan dalam kaki kubik. Bagaimana seharusnya Anda
mengubahnya ke meter kubik?
Sebuah Kalikan dengan 9 B Kalikan dengan 27 C Bagilah
dengan 9 Bagilah dengan 27

Spesifik Learning Outcome: Membedakan antara nilai-nilai relatif dinyatakan dalam fraksi. (Matematika Dasar)
1.

Manakah dari pecahan berikut ini lebih kecil dari satu setengah?

2.

Manakah dari fraksi berikut menunjukkan nilai terbesar?

3.

Manakah dari fraksi berikut memiliki nilai yang sama dengan seperlima?

A 2/4 B 4/6 3/8 D 9/16


2/3 B 4/7 C 5/9 D 9/16
A 2/20 B 5/50 C 25/75 20/100
Spesifik Learning Outcome: Membedakan fakta dari opini. (Elementary Sosial
Studi)

Arah: Baca setiap pernyataan berikut dengan seksama. Jika Anda pikir pernyataan itu adalah fakta, lingkaran
"F." Jika Anda pikir pernyataan itu adalah pendapat, lingkaran "O." (F) O 1. Ceorge Washington adalah Presiden
pertama Amerika Serikat.
F 2. Abraham Lincoln adalah presiden terbesar kami.
(?) O 3. Franklin Roosevelt adalah satu-satunya Presiden yang terpilih ke kantor itu tiga kali.

(? J) O 4. Alaska adalah negara terbesar di Amerika Serikat. . F 5 Hawaii adalah negara bagian yang paling
indah di Amerika Serikat Hasil Pembelajaran Khusus:. Mengidentifikasi penggunaan umum dari instrumen
cuaca. (Dasar Ilmu)
1.

Yang salah satu instrumen berikut digunakan untuk menentukan kecepatan


angin?
Sebuah baling-baling angin

(B)

Anemometer C

Altimeter D Radar
2.

Yang salah satu instrumen berikut ini digunakan untuk menentukan jumlah
kelembaban di udara?
A Altimeter B Barometer Hygrometer D Radiosonde

Hasil Belajar Spesifik: Mengidentifikasi sebab-dan-efek hubungan. (Dasar Ilmu)


Arah: Dalam setiap pernyataan berikut, kedua bagian pernyataan adalah benar. Anda harus memutuskan apakah
bagian kedua menjelaskan mengapa bagian pertama adalah benar. Jika tidak, lingkari "Ya." Jika
tidak, lingkaran "Tidak"
Contoh:
(^ Ea ) No 1. Orang bisa melihat karena mereka memiliki mata. Ya (NCJ) 2. Orang bisa
berjalan karena mereka memiliki senjata.

Dalam
bisa

contoh
melihat

pertama,
"sehingga"

bagian
ya

kedua

"dilingkari.

pernyataan tidak menjelaskan mengapa "orang


Bacalah

setiap

pernyataan

Ya
(ada)
1.
dari telur padang pasir.

dari

berikut

Beberapa

Tidak ada 2. Spider sangat berguna

ular

Dalam
bisa

dan

pernyataan
contoh
berjalan"

menjawab
gurun

menjelaskan mengapa "orang

kedua,
sehingga
dengan

bagian

kedua

"tidak"
cara

menetas karena cuaca

dari

dilingkari.

yang
panas

sama.
di

karena mereka makan berbahaya di-

sekte.
Tidak ada 3. Beberapa tanaman tidak perlu sinar matahari karena mereka mendapatkan makanan mereka
cahaya

dari tanaman lain.

Ya (ada) 4. Air di laut menguap karena mengandung garam. (YEG) No 5. Ikan bisa mendapatkan oksigen
dari karena mereka memiliki insang, air
Spesifik Belajar Hasil: Mengidentifikasi alasan untuk tindakan atau peristiwa. (Biologi) 1. Yang salah satu dari berikut
ini yang terbaik menjelaskan mengapa ganggang hijau mengeluarkan gelembung oksigen pada cerah, hari yang
cerah? Sebuah Transpirasi
B Flasmolysis Fotosintesis D Osmosis
2. Yang salah satu yang terbaik berikut ini menjelaskan mengapa cetakan roti dapat tumbuh di ruangan gelap?
(A) Beberapa tanaman tidak menghasilkan makanan mereka sendiri. B Fotosintesis dapat berlangsung dalam
gelap. C Klorofil membantu pertumbuhan tanaman dalam kegelapan. D Roti cetakan mengambil karbon dioksida
dan melepaskan oksigen di kedua 'gelap dan terang. Hasil Pembelajaran Khusus: Mengidentifikasi relevansi
argumen. (Ilmu Sosial) Arah: Item di bagian tes harus didasarkan pada resolusi berikut:
MEMUTUSKAN: . Usia suara yang sah di Amerika Serikat harus diturunkan sampai delapan belas Beberapa
pernyataan berikut argumen untuk resolusi, beberapa argumen terhadap hal itu, dan ada pula yang tidak atau
untuk menentang resolusi itu.Bacalah setiap pernyataan berikut dan lingkaran: F jika argumen untuk resolusi. A jika
argumen terhadap resolusi. N jika tidak untuk atau menentang resolusi itu. (F) AN 1. Kebanyakan orang secara fisik,
emosional, dan intelektual dewasa
pada usia delapan belas tahun.
FA

(K)

2. Banyak orang masih bersekolah pada usia delapan belas tahun.

FA 3. Di kebanyakan negara itu legal untuk mengendarai mobil pada usia


delapan belas tahun.
F N 4. Kemampuan untuk memilih cerdas meningkat dengan usia. FA 5. Jumlah warga delapan belas tahun
di Amerika Serikat terus meningkat setiap tahun.
Contoh-contoh ini cukup untuk menunjukkan bagaimana item tes harus berhubungan dengan hasil belajar yang
spesifik. Meskipun semua bidang subjek-materi dan semua jenis hasil belajar tidak terwakili, prinsip dasarnya
adalah sama. Negara hasil pembelajaran yang diinginkan dalam hal perilaku dan memilih atau mengembangkan
item tes yang menimbulkan perilaku tertentu.
BERKAITAN DENGAN PROSEDUR NONTESTING KHUSUS BELAJAR HASIL
Ada banyak daerah di mana prosedur pengujian tidak berguna. Dalam mengevaluasi beberapa keterampilan
kinerja (misalnya, bernyanyi, menari, berbicara), perlu untuk mengamati murid saat ia melakukan dan untuk
membuat penilaian mengenai efektivitas kinerja. Dalam kasus lain, adalah mungkin untuk mengevaluasi
keterampilan murid itu dengan menilai kualitas produk yang dihasilkan dari penampilannya (misalnya, tema,
lukisan, surat diketik, kue panggang, dan sebagainya). Dalam mengevaluasi penyesuaian sosial murid itu, mungkin
perlu untuk mengamati murid dalam situasi formal dan informal untuk menilai kecenderungan ke arah agresi atau
penarikan, hubungan dengan teman-temannya, dan sejenisnya. Bahkan, setiap kali kita tertarik dalam
mengevaluasi bagaimana murid biasanya akan berperilaku dalam situasi, beberapa jenis prosedur observasional
biasanya disebut untuk.
Seperti prosedur pengujian, pemilihan atau pengembangan teknik observasional harus berkembang dari tujuan
dan hasil pembelajaran yang spesifik. Dalam kasus skala penilaian atau daftar periksa, hasil pembelajaran yang
spesifik menjadi dimensi perilaku untuk diamati. Dalam contoh berikut, perhatikan bagaimana hasil pembelajaran
yang spesifik hanya membutuhkan sedikit modifikasi untuk menjadi item dalam skala wisatawan:

Pidato
Spesifik Belajar Hasil: Mempertahankan kontak mata yang baik dengan penonton. Penilaian Skala Item:
Seberapa efektif adalah pembicara dalam mempertahankan kontak mata dengan penonton?
12345

Tidak efektif bawah rata-rata rata-rata atas rata-rata Sangat Efektif


Menulis tema
Spesifik Belajar Hasil: Mengatur ide-ide dalam cara yang koheren. Rating Scale Item: Organisasi ide
12345

Miskin

Adil

Jelas, koheren
organisasi

organisasi

organisasi

Kerja Kelompok
Spesifik Learning Outcome: Berkontribusi ide-ide bermanfaat untuk diskusi kelompok. Penilaian Skala Item:
Seberapa sering murid menyumbangkan ide-ide bermanfaat untuk diskusi kelompok?
12345

Tidak pernah Jarang Kadang-kadang Cukup Sering Sering


Skala penilaian yang lebih lengkap dan daftar periksa disajikan dalam bab-bab selanjutnya. Ini adalah tujuan
kita di sini hanya untuk menggambarkan bagaimana prosedur nontesting dapat dikaitkan dengan hasil tertentu
yang kami ingin mengevaluasi. Hasil pembelajaran yang spesifik menentukan perilaku untuk diamati dan skala
rating menyediakan metode yang nyaman untuk merekam penilaian kami. Penilaian semacam itu, tentu saja, masih
subyektif, tapi kami telah membuat mereka seobjektif mungkin dengan jelas mendefinisikan sampel perilaku murid
kami berharap untuk mengamati dan kemudian sengaja mengamati perilaku orang-orang dalam murid.
BERKAITAN DENGAN TUJUAN TES STARDARDIZED LOKAL
Pentingnya berkaitan teknik evaluasi secara langsung mungkin dengan tujuan instruksional dan hasil pembelajaran
yang spesifik yang akan diukur tidak terbatas pada perangkat buatan guru. Jenis relevansi juga merupakan
pertimbangan utama ketika memilih tes prestasi standar untuk tujuan instruksional. Idealnya, tes standar harus
mengukur kandungan subyek dan perubahan perilaku yang telah ditekankan dalam program instruksional. Sejauh
mana tes memenuhi cita-cita ini dapat ditentukan hanya dengan pemeriksaan yang cermat dan sistematis tes.
Dalam menilai relevansi tes standar untuk program pembelajaran, hal ini diinginkan untuk menganalisis soal tes
dengan item. Seperti setiap item dipelajari, catatan harus dibuat. isi subjek-materi dan perubahan perilaku
tampaknya untuk mengukur. Tabulasi ini nantinya bisa dibandingkan dengan area yang tercakup dalam program
instruksional untuk menentukan sejauh mana cakupan dan penekanan yang memadai. Jika tabel spesifikasi telah
dipersiapkan untuk kursus, analisis uji dapat dibandingkan secara langsung ke meja.
Kami jarang berharap untuk menemukan tes standar dalam perjanjian sempurna dengan tujuan dan isi pokok
bahasan ditekankan dalam kursus tertentu atau kurikulum. Namun, analisis item tes akan membantu menentukan
seberapa baik tes benar-benar tidak mengukur apa yang kita ingin mengukur, daerah mana instruksional yang
diabaikan, dan yang daerah menerima terlalu banyak stres. Informasi ini berguna dalam menafsirkan hasil tes dan
dalam mengembangkan perangkat evaluasi tambahan.
MENGGUNAKAN TES BUATAN PUBLISHED
Beberapa penerbit tes telah membangun bank tujuan instruksional dan item tes yang cocok untuk berbagai mata
pelajaran sekolah. Hal ini memungkinkan untuk memberikan tes yang custom-made untuk menyesuaikan program
instruksional lokal tertentu. Sebuah prosedur khas untuk mendapatkan tes custom-made adalah sebagai berikut:
(1) guru, dan personel sekolah lainnya, pilih dari daftar tujuan yang mencerminkan hasil yang diharapkan dari
program lokal, dan (2) penerbit memilih tes yang sesuai item dan merakitnya menjadi satu atau lebih bentuk
tes. Selain itu, penerbit juga mungkin memberikan penilaian dan pelaporan layanan khusus.
Tes Custom-made sangat berguna untuk pengujian kriteria-direferensikan karena mereka dapat dirancang untuk
menghasilkan deskripsi dari pengetahuan khusus dan keterampilan yang siswa peroleh. Mereka juga berguna untuk
norma-referenced testing (peringkat relatif dari murid), namun, karena mereka dapat memberikan bukti kemajuan

murid terhadap tujuan yang lebih kompleks dari program lokal. Dalam kedua kasus, penting untuk memeriksa tes
custom-made dengan hati-hati, untuk memastikan bahwa setiap item, dan tes secara keseluruhan, memuaskan
mengukur perilaku murid ditentukan dalam tujuan instruksional.
EVALUASI SKALA LUAS
Tema utama yang berjalan di seluruh buku ini adalah bahwa evaluasi merupakan bagian integral dari proses
belajar-mengajar dan bahwa hal itu melibatkan dua langkah dasar: (1) mengidentifikasi dan menentukan tujuan
pengajaran, dan (2)membangun atau memilih instrumen evaluasi yang terbaik menilai tujuan tersebut. Dengan
demikian, penekanan utama kami adalah pada sejauh mana ditentukan hasil belajar untuk tertentu kursus atau
kurikulum telah dicapai. Dalam sebuah artikel tentang evaluasi dan program perbaikan, Cronbach telah
menunjukkan bahwa ada saat-saat itu mungkin diinginkan untuk mengevaluasi hasil melampaui orang-orang yang
telah ditetapkan untuk program tertentu atau kurikulum. Catatan ini komentar provokatif. 1
Dalam evaluasi saja, kita tidak perlu banyak khawatir tentang membuat alat ukur sesuai dengan
kurikulum. Namun mengejutkan deklarasi ini mungkin tampak, dan bagaimanapun bertentangan dengan
prinsip-prinsip evaluasi untuk keperluan lain, ini harus menjadi posisi kita jika kita ingin tahu perubahan apa
saja yang memproduksi dalam pupil. Evaluasi yang ideal akan mencakup langkah-langkah dari semua jenis
kemampuan yang cukup mungkin diinginkan di daerah yang bersangkutan, bukan hanya hasil yang dipilih
yang ini kurikulum mengarahkan perhatian besar. Jika Anda hanya ingin tahu seberapa baik kurikulum adalah
mencapai nya tujuan, Anda cocok tes dengan kurikulum; tetapi jika Anda ingin mengetahui seberapa baik
kurikulum adalah melayani kepentingan nasional, Anda mengukur semua hasil yang mungkin layak
diperjuangkan. Salah satu mata pelajaran matematika baru mungkin mengingkari setiap upaya untuk
mengajar trigonometri numerik, dan memang, mungkin membuang pekerjaan hampir semua komputasi. Hal
ini masih sangat masuk akal untuk bertanya seberapa baik lulusan kursus dapat menghitung dan dapat
memecahkan segitiga siku-siku. Bahkan jika pengembang saja pergi sejauh untuk bersaing bahwa
keterampilan komputasi ada tujuan yang tepat dari instruksi sekunder, mereka akan menghadapi pendidik dan
orang awam yang tidak berbagi pandangan mereka. Jika dapat menunjukkan bahwa siswa yang datang melalui
program baru yang cukup mahir dalam perhitungan meskipun kurangnya pengajaran langsung, yang raguragu akan diyakinkan. Jika tidak, bukti membuat jelas berapa banyak yang dikorbankan.
Meskipun komentar ini langsung berkaitan dengan evaluasi skala besar proyek-proyek perbaikan kurikulum, ide
dasar umumnya
i LI Cronbach, "Improvement Course melalui Evaluasi," Teachers College Rekam 64, 680, 1963 [Dicetak ulang di NE Gronlund
(ed.),. Bacaan dalam Pengukuran dan Evaluasi . (New York: Macmillan, 1968)] yang berlaku. Untuk beberapa tujuan,

mungkin tepat untuk menentukan kemajuan murid terhadap tujuan selain yang ditentukan untuk kursus atau
kurikulum. Seorang guru bahasa Inggris, misalnya, mungkin tidak melakukan pengajaran langsung dari tata bahasa,
tapi masih tertarik dalam mengukur kemampuan murid dalam tata bahasa. Demikian pula, seorang guru sains
mungkin tidak mempertimbangkan ejaan suatu hasil yang diinginkan ilmu pengetahuan, tapi masih tertarik dalam
menentukan seberapa baik murid bisa mengeja istilah ilmiah yang lebih kompleks. Itu selalu yang sah untuk
bertanya berapa banyak belajar insidental berlangsung, atau sebagai Cronbach telah menunjukkan, berapa banyak
yang dikorbankan di daerah-daerah tidak menerima pengajaran langsung.
Ketika mengevaluasi pada skala yang lebih luas, proses yang berkaitan dengan prosedur evaluasi hasil belajar
pada dasarnya sama. Namun, dalam kasus ini, tentu saja, diperlukan untuk menghubungkan instrumen evaluasi
secara langsung mungkin untuk semua dari hasil yang akan diukur; bukan hanya orang-orang yang telah
diidentifikasi sebagai hasil yang diharapkan dari instruksi.
RINGKASAN
Tujuan instruksional akan berfungsi paling efektif dalam evaluasi kelas jika upaya sadar dibuat untuk
menghubungkan prosedur evaluasi terhadap hasil pembelajaran yang spesifik dicakup oleh masing-masing
tujuan. Upaya ini dapat difasilitasi oleh (1) rencana umum evaluasi, (2) tabel spesifikasi, dan (3) pilihan teknik
evaluasi yang mengukur setiap hasil belajar paling dekat.
Sebuah rencana evaluasi umum terdiri dari daftar semua tujuan instruksional umum dan hasil pembelajaran
yang spesifik dengan indikasi jenis teknik evaluasi yang akan digunakan untuk setiap hasil yang diinginkan. Untuk

tujuan pengajaran, metode yang akan digunakan dalam mencapai tujuan juga dapat dimasukkan. Pengembangan
rencana evaluasi umum menjamin bahwa ketentuan telah dibuat untuk mengevaluasi semua tujuan instruksional
dan peringatan guru untuk jenis-jenis informasi evaluatif yang harus dikumpulkan secara berkala selama semester.
Sebuah tabel spesifikasi ini sangat berguna dalam perencanaan untuk evaluasi kelas. Ini adalah bagan dua arah
yang menghubungkan tujuan instruksional tentu saja dengan isi subject-matter yang digunakan untuk mencapai
tujuan. Ini panduan guru dalam membangun tes dan instrumen evaluasi lain yang mengukur hasil yang diharapkan
dari instruksi secara seimbang.
Langkah yang paling penting dalam berhubungan prosedur evaluasi untuk tujuan instruksional adalah dalam
pemilihan, atau konstruksi, teknik evaluasi khusus untuk digunakan. Dalam kasus kedua item tes dan instrumen
evaluasi nontest, upaya terpadu harus dilakukan untuk mendapatkan sampel perilaku murid yang mirip dengan
perilaku yang dijelaskan dalam hasil pembelajaran yang spesifik. Pencocokan perilaku tes untuk hasil yang
dimaksudkan dapat ditingkatkan dengan lebih mendefinisikan kata kerja yang digunakan dalam hasil pembelajaran
yang spesifik dan dengan mengambil perawatan khusus ketika menilai korespondensi antara respon tes diharapkan
dan hasilnya perilaku menyatakan itu dirancang untuk mengukur.
Dalam beberapa kasus, kita mungkin akan tertarik dalam menentukan sejauh mana program atau kurikulum
yang memodifikasi perilaku murid di daerah selain yang ke arah mana pengajaran diarahkan. Hal ini memerlukan
prosedur evaluasi yang melampaui hasil yang diharapkan dari instruksi, tetapi prinsip dasar yang berkaitan
instrumen evaluasi sedekat mungkin dengan hasil yang akan diukur masih relevan.
BELAJAR LATIHAN

1.

Apa keuntungan dan keterbatasan termasuk metode pengajaran dalam rencana evaluasi umum (sebagai

Mr Whiteside lakukan)?

2.

Apa keuntungan dari termasuk semua tujuan instruksional umum dalam tabel spesifikasi, bukan hanya

mereka yang dapat diukur dengan tes kertas dan pensil? Apakah ada kerugian?

3.

Jelaskan faktor yang harus dipertimbangkan ketika menentukan berapa banyak item tes untuk

mengabdikan untuk setiap tujuan instruksional, dan untuk setiap bidang konten, selama persiapan tabel spesifikasi.

4.

Langkah-langkah apa yang dapat diambil untuk lebih memastikan bahwa item dalam tes kelas akan

menimbulkan tanggapan yang sesuai? Bisakah kita pernah yakin bahwa kami memiliki pertandingan yang
sempurna antara tes barang dan hasil dimaksudkan?

5.

Pilih sebuah bab dalam buku teks di daerah mengajar Anda dan lakukan hal berikut:
a.

Daftar bidang utama dari konten yang dibahas dalam bab ini.

b.

Daftar beberapa hasil pembelajaran umum (misalnya, Knows istilah).

c. Buatlah sebuah tabel spesifikasi untuk uji dua puluh item pada materi
dalam bab ini (termasuk metode evaluasi lainnya, jika sesuai).

6.

Apa keuntungan relatif dari menggunakan tes custom-made diterbitkan bukan tes standar untuk mengukur

belajar murid? Apa kerugiannya?

7.

Bagaimana mungkin sebuah tabel spesifikasi digunakan dalam memilih tes standar?

8.

Di daerah mengajar Anda sendiri, mengutip contoh di mana Anda mungkin ingin mengukur hasil belajar di

luar yang ditentukan untuk kursus tertentu.

9.

Apa jenis metode pengujian atau evaluasi akan menjadi yang terbaik untuk masing-masing hasil sebagai

berikut? Mengapa?

a.

Menunjukkan kebiasaan belajar yang baik.

b.

Menafsirkan pilihan puisi.

c.

Menarik kesimpulan dari bahan tertulis.

d.

Mengidentifikasi gagasan utama dalam paragraf.

e.

Berhubungan baik dengan rekan-rekannya.

f.
10.

Menjelaskan cara mengatur peralatan laboratorium.


Apa

jenis

masalah

dapat

ditanggulangi

di

daerah

mengajar

Anda

tidak
dapat
menggunakan
tes
kertas
dan
pensil
apapun? Apa
cedures yang akan Anda gunakan? Bagaimana Anda akan berhubungan prosedur
hasil belajar dimaksudkan?

jika

evaluasi
ini untuk

Anda
proAnda

SARAN UNTUK BACAAN LEBIH LANJUT


BLOOM, BS, J. T. HASTINCS , dan G F. MADAUS. Handbook on formatif dan sumatif Evaluasi Belajar Mahasiswa. New York:
McGraw-Hill Book Company, . 1971 Bagian kedua berisi sebelas bab yang menggambarkan bagaimana item tes
dan berbagai evaluasi instrumen terkait dengan hasil belajar dalam berbagai bidang studi.
GBONLUND , NE Menyatakan Tujuan Behavioral untuk Instruksi Kelas. New York: Macmillan Publishing Co, Inc, .
1970 Bab 7, ". Menggunakan Tujuan Instruksional di Persiapan Tes" Termasuk daftar tujuan, tabel spesifikasi,
dan item sampel kunci untuk tujuan untuk unit di bidang ekonomi.
MORSE, H. T., dan G. H. MCCUNE. Item yang Dipilih untuk Pengujian Keterampilan Belajar dan Berpikir
Kritis.. Washington, DC: Dewan Nasional untuk Ilmu Sosial, . 1971 Berisi berbagai ilustrasi item tes kunci untuk
hasil belajar dalam kemampuan belajar dan area berpikir kritis.
NOLL ,
V. H., dan
D. P. SCANNELL. Pengantar
Pendidikan
Pengukuran, 3rd
ed. Boston:
Houghton
Mifflin
Company, 1972. Bab 6, "Tujuan Sebagai Dasar Pengukuran All Good." Lihat terutama bagian terakhir dari bab
ini, di mana berbagai jenis item tes dikunci untuk tujuan khusus.
SYND , RB, dan A. J. PICARD. Tujuan Perilaku dan Tindakan Evaluasi: Sains dan Matematika. Columbus, Ohio:
Charles E. Merrill Penerbit, . 1972 Bab 10, ". Tujuan Kognitif Contoh dan Ukuran Prestasi" Bab ini menyajikan
lima puluh halaman item tes sampel kunci untuk tujuan ilmu pengetahuan dan matematika di sekolah dasar,
SMP, dan tingkat SMA.
Lihat juga taksonomi buku oleh BLOOM (1956), HARROW (1972), dan KRATH-WOHL, BLOOM , dan MASIA (1964), dalam
daftar bacaan di akhir Bab 2, untuk ilustrasi bagaimana prosedur evaluasi terkait dengan berbagai hasil
pendidikan.

BAB

Keabsahan
Dalam memilih atau membangun instrumen evaluasi pertanyaan yang paling penting adalah: Sejauh mana
hasil akan melayani penggunaan tertentu yang mereka dimaksudkan? Ini adalah esensi dari validitas.
Banyak aspek perilaku murid dievaluasi di sekolah, dan hasilnya diharapkan untuk melayani berbagai
penggunaan. Misalnya, prestasi dapat dievaluasi untuk mendiagnosis kesulitan belajar atau untuk menentukan
kemajuan menuju tujuan instruksional; bakat skolastik dapat diukur untuk memprediksi keberhasilan dalam
kegiatan pembelajaran masa depan atau untuk murid kelompok untuk tujuan instruksional; dan penilaian
pengembangan pribadi-sosial dapat diperoleh dalam rangka untuk lebih memahami siswa atau untuk layar mereka
untuk rujukan ke seorang konselor bimbingan. Terlepas dari area perilaku sedang dievaluasi, bagaimanapun, atau
penggunaan yang akan dibuat dari hasil, semua dari berbagai prosedur yang digunakan dalam program evaluasi
harus memiliki karakteristik umum tertentu. Yang paling penting dari karakteristik ini dapat diklasifikasikan di
bawah judul validitas, reliabilitas, dan kegunaan.

Validitas mengacu pada sejauh mana hasil dari prosedur evaluasi melayani penggunaan tertentu yang mereka
dimaksudkan. Jika hasilnya digunakan untuk menggambarkan prestasi murid, kita harus seperti mereka untuk
mewakili pencapaian tertentu yang kami ingin menjelaskan, untuk mewakili semua aspek pencapaian kita ingin
menjelaskan, dan untuk mewakili apa-apa lagi. Keinginan kita dalam hal ini serupa dengan pengacara pembela di
ruang sidang yang menginginkan kebenaran, seluruh kebenaran, dan apa-apa selain kebenaran. Jika hasilnya
digunakan untuk memprediksi keberhasilan murid dalam beberapa aktivitas masa depan, kita harus seperti mereka
untuk memberikan akurat perkiraan kesuksesan masa depan mungkin. Pada dasarnya, kemudian, validitas selalu
peduli dengan penggunaan khusus t0 terbuat dari hasil evaluasi dan dengan tingkat kesehatan interpretasi yang
diusulkan kami.
Keandalan mengacu pada konsistensi hasil evaluasi. Jika kita memperoleh skor sangat mirip ketika tes yang
sama diberikan kepada kelompok yang sama pada dua kesempatan yang berbeda, kita dapat menyimpulkan bahwa
hasil kami memiliki tingkat kehandalan yang tinggi dari satu kesempatan ke yang lain. Demikian pula, jika guru
yang berbeda secara independen menilai murid yang sama pada instrumen yang sama dan memperoleh penilaian
setara, kita dapat menyimpulkan bahwa hasil memiliki tingkat kehandalan yang tinggi dari satu penilai yang
lain. Seperti dengan validitas, reliabilitas erat terkait dengan jenis interpretasi yang akan dibuat. Untuk beberapa
penggunaan, kita mungkin tertarik untuk menanyakan bagaimana diandalkan hasil evaluasi kami selama periode
waktu tertentu, dan untuk orang lain, bagaimana mereka dapat diandalkan dibandingkan dengan sampel dari
perilaku yang sama. Dalam semua kasus di mana keandalan sedang ditentukan, bagaimanapun, kita prihatin
dengan konsistensi dari hasil, bukan dengan sejauh mana mereka melayani penggunaan khusus dalam
pertimbangan.
Meskipun keandalan adalah kualitas yang sangat diinginkan, perlu dicatat bahwa kehandalan tidak memberikan
jaminan bahwa hasil evaluasi akan menghasilkan informasi yang diinginkan. Seperti saksi memberikan kesaksian di
ruang sidang trial "fakta bahwa ia konsisten menceritakan kisah yang sama tidak menjamin bahwa ia
mengatakan yang sebenarnya. Kebenaran pernyataannya dapat ditentukan hanya dengan membandingkan mereka
dengan beberapa bukti lain. Demikian pula, dengan hasil evaluasi konsistensi adalah kualitas penting tetapi hanya
jika disertai dengan bukti validitas, dan yang harus ditentukan secara independen. Sedikit yang dicapai jika hasil
evaluasi secara konsisten memberikan informasi yang salah. Singkatnya, kehandalan adalah penting, namun bukan
suatu kondisi yang cukup untuk validitas.
Selain memberikan hasil yang memiliki tingkat yang memuaskan validitas dan reliabilitas, prosedur evaluasi
harus memenuhi persyaratan praktis tertentu. Ini harus ekonomis dari sudut pandang waktu dan uang, itu harus
mudah dikelola dan mencetak gol, dan harus memberikan hasil yang dapat secara akurat ditafsirkan dan
diterapkan oleh personel sekolah yang tersedia. Aspek-aspek praktis dari prosedur evaluasi semua dapat
dimasukkan di bawah judul kegunaan. Istilah kegunaan,maka, hanya mengacu pada kepraktisan prosedur dan
menyiratkan apa-apa tentang kualitas lain yang hadir.
Dalam bab ini kita akan membahas validitas hasil evaluasi, dan dalam bab berikut kita akan mengalihkan
perhatian kita untuk keandalan dan kegunaan.
SIFAT VALIDITAS
Bila menggunakan istilah validitas, dalam kaitannya dengan pengujian dan evaluasi, ada sejumlah peringatan yang
harus diingat.

1.

Validitas berkaitan dengan hasil tes, atau instrumen evaluasi, dan bukan untuk instrumen itu sendiri. Kita

kadang-kadang berbicara tentang validitas tes demi kenyamanan, tetapi lebih tepat untuk berbicara tentang
keabsahan hasil pengujian, atau lebih khusus, validitas interpretasi yang akan dibuat dari hasil.

2.

Validitas adalah masalah derajat. Itu tidak ada secara all-or-none. Akibatnya, kita harus menghindari

memikirkan hasil evaluasi yang valid atau tidak valid. Validitas paling dipertimbangkan dalam hal kategori yang
menentukan derajat, seperti validitas yang tinggi, validitas moderat, dan validitas rendah.

3.

Validitas selalu spesifik untuk beberapa penggunaan tertentu. Ini tidak boleh dianggap sebagai kualitas

umum. Sebagai contoh, hasil tes aritmatika mungkin memiliki tingkat tinggi validitas untuk menunjukkan
keterampilan komputasi, tingkat rendah untuk menunjukkan validitas penalaran ilmu hitung, tingkat moderat

validitas untuk memprediksi keberhasilan dalam mata pelajaran matematika di masa depan, dan tidak ada validitas
untuk memprediksi keberhasilan dalam seni atau musik. Dengan demikian, ketika menilai atau menggambarkan
validitas, maka perlu untuk mempertimbangkan penggunaan harus dibuat dari hasil. Hasil evaluasi tidak pernah
sah-sah saja; mereka memiliki tingkat yang berbeda dari validitas untuk setiap interpretasi tertentu yang akan
dibuat.
JENIS VALIDITAS
Tiga tipe dasar validitas telah diidentifikasi dan sekarang umum digunakan dalam pengukuran pendidikan dan
psikologis. 1 Mereka adalah: konten validitas, -kriteria yang terkait validitas, dan membangun validitas. Makna
umum jenis validitas ditunjukkan dalam Tabel 4.1. Setiap jenis akan dijelaskan lebih lengkap sebagai hasil
bab. Demi kejelasan, diskusi akan terbatas pada validitas yang berkaitan dengan prosedur pengujian. Harus diakui,
bagaimanapun, bahwa ketiga jenis validitas juga berlaku untuk semua berbagai jenis alat evaluasi yang digunakan
dalam sekolah.
Konten Validitas
1

American Psychological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).

Isi kursus atau kurikulum dapat didefinisikan secara luas untuk mencakup baik isi pelajaran-materi dan tujuan
instruksional. Yang pertama adalah berkaitan dengan topik, atau area subyek, yang akan dibahas, dan yang
terakhir dengan perubahan perilaku dicari dalam murid. Kedua aspek konten menjadi perhatian dalam menentukan
validitas isi. Kita harus seperti setiap tes prestasi kita membangun, atau pilih, untuk memberikan hasil yang
mewakili topik dan perilaku kita ingin mengukur. Ini adalah esensi dari validitas isi. Lebih formal, validitas isi dapat
didefinisikan sebagai sejauh mana tes mengukur sampel yang representatif

TABEL 4.1
Makna
TIGA JENIS VALIDITAS

Prosedur
Bandingkan isi tes untuk alam semesta konten dan perilaku yang akan diukur
Bandingkan nilai tes dengan ukuran lain kinerja yang diperoleh di kemudian hari (untuk prediksi) atau dengan
ukuran lain kinerja yang diperoleh secara bersamaan (untuk memperkirakan status sekarang)
Eksperimental menentukan faktor-faktor apa nilai pengaruh pada tes
jumlah waktu yang dihabiskan untuk masing-masing daerah selama instruksi, filosofi sekolah, pendapat para
ahli di daerah, dan kriteria yang sama.

3.

Sebuah tabel spesifikasi, seperti yang disajikan dalam Bab 3, dibangun dari daftar tertimbang topik subjek-

materi dan diharapkan perubahan perilaku. Tabel ini, maka, menentukan penekanan relatif tes harus memberikan
kepada setiap topik pokok bahasan dan setiap jenis perubahan perilaku.

4.

Tes prestasi dibangun, atau dipilih, sesuai dengan tabel spesifikasi. Semakin dekat tes sesuai dengan

spesifikasi yang ditunjukkan dalam tabel, semakin besar kemungkinan bahwa tanggapan siswa 'untuk menguji akan
memiliki tingkat tinggi validitas isi.
Sebuah tabel spesifikasi, dalam bentuk yang sangat sederhana, disajikan pada Tabel 4.2 untuk menggambarkan
bagaimana meja tersebut digunakan untuk memeriksa validitas isi. Persentase dalam tabel menunjukkan tingkat
relatif penekanan setiap mata pelajaran-materi dan setiap jenis perubahan perilaku harus diberikan dalam
ujian. Jadi, jika tes ini adalah untuk mengukur sampel yang representatif dari isi subject-matter, 15 persen dari item
tes harus peduli dengan tanaman, 15 persen dengan hewan, 30 persen dengan cuaca, 15 persen
TABEL 4.2
TABEL YANG MENUNJUKKAN PENEKANAN RELATIF UNTUK CIVEN KE BERBAGAI DAERAH SUBYEK DAN KEMUNGKINAN PERILAKU
UNTUK TES DALAM ILMU SEKOLAH DASAR

Perubahan Perilaku (dalam Persentase)


Bidang
Keahlian-materi

Memahami
Konsep

Berlaku
Konsep

Total

Tanaman

10

15

Hewan

10

15

Cuaca

15

15

30

Bumi

10

15

Langit

10

15

25

Total

50

50

100

dengan bumi, dan 25 persen dengan langit. Jika tes ini adalah untuk mengukur sampel yang representatif
dari perubahan perilaku, 50 persen dari barang-barang yang harus mengukur "pemahaman konsep," dan 50 persen
harus mengukur "penerapan konsep." Ini, tentu saja, menyiratkan bahwa penekanan khusus pada "pemahaman"
dan "aplikasi" untuk masing-masing mata pelajaran-materi yang akan mengikuti ditunjukkan dengan persentase di
tabel spesifikasi. Misalnya, 10 persen dari item tes yang bersangkutan dengan tanaman harus mengukur
"pemahaman konsep," dan 5 persen dari item tes harus mengukur "penerapan konsep."
Perlu dicatat bahwa prosedur ini hanya memberikan cek kasar
pada validitas isi. Analisis tersebut mengungkapkan jelas relevansi dari item tes untuk bidang subjek-materi dan
perubahan perilaku yang akan diukur. Validitas isi prihatin dengan sejauh mana item tes sebenarnya menimbulkan
tanggapan diwakili dalam tabel spesifikasi. Item tes mungkin muncul untuk mengukur "pemahaman" tapi tidak
berfungsi sebagaimana dimaksud karena cacat pada item, arah jelas, kosakata yang tidak pantas, atau kondisi
pengujian tidak terkontrol.Dengan demikian, validitas isi tergantung pada sejumlah faktor selain relevansi nyata

dari item tes. Sebagian besar dari apa yang tertulis dalam buku ini mengenai konstruksi dan seleksi tes prestasi
diarahkan meningkatkan validitas isi dari hasil yang diperoleh.
Meskipun pembahasan kita tentang validitas isi telah terbatas pada pengujian prestasi, validitas isi juga dari
beberapa kekhawatiran masuk pengukuran bakat, minat, sikap, dan penyesuaian pribadi-sosial. Sebagai contoh,
jika kita memilih inventarisasi bunga kita harus seperti itu untuk menutupi aspek-aspek kepentingan dengan yang
kita prihatin. Demikian pula, skala sikap harus mencakup topik-topik sikap yang sesuai dengan tujuan kita ingin
mengukur. Prosedur di sini pada dasarnya sama seperti yang di tes prestasi. Ini adalah masalah menganalisis bahan
uji dan hasil yang akan diukur dan menilai tingkat korespondensi antara mereka.
-Kriteria terkait Validitas
Setiap kali nilai tes yang akan digunakan untuk memprediksi kinerja masa depan atau untuk memperkirakan
kinerja saat ini pada beberapa ukuran dihargai selain tes itu sendiri, kita prihatin dengan validitas-kriteria
terkait. Misalnya, membaca kesiapan skor tes dapat digunakan untuk memprediksi murid 'prestasi masa depan
dalam membaca, atau tes keterampilan kamus dapat digunakan untuk memperkirakan murid keterampilan saat ini
dalam penggunaan aktual dari kamus (sebagaimana ditentukan oleh pengamatan). Dalam contoh pertama, kami
tertarik prediksi dan dengan demikian dalam hubungan antara dua ukuran selama jangka waktu. Jenis validitas
disebut prediktif validitas. Pada contoh kedua, kami tertarik untuk memperkirakan status sekarang dan dengan
demikian dalam hubungan antara dua ukuran yang diperoleh secara bersamaan. Sebuah hubungan yang tinggi
dalam hal ini akan menunjukkan bahwa tes keterampilan kamus adalah indikator yang baik dari kemampuan
sebenarnya dalam penggunaan kamus. Prosedur ini untuk menentukan validitas disebut bersamaan validitas. Pada
uji baru Standar,

sebutan validitas prediktif dan validitas konkuren telah dimasukkan di bawah category lebih

umum " -kriteria yang terkait validitas. Hal ini tampaknya menjadi pengaturan yang diinginkan karena metode
untuk menentukan dan mengungkapkan validitas adalah sama dalam kedua kasus. Perbedaan utama terletak pada
jangka waktu antara dua ukuran yang diperoleh.
Validitas-kriteria yang terkait dapat didefinisikan sebagai sejauh mana hasil tes terkait dengan beberapa ukuran
dihargai lain dari kinerja. Seperti disebutkan sebelumnya, ukuran kedua kinerja dapat diperoleh di beberapa
tanggal masa depan (ketika kita tertarik dalam memprediksi kinerja masa depan) , atau bersamaan (ketika kita
tertarik dalam memperkirakan kinerja sekarang). Pertama mari kita memeriksa penggunaan validitas-kriteria
terkait dari sudut pandang memprediksi keberhasilan dalam beberapa aktivitas masa depan. Kemudian kita akan
kembali ke penggunaan kedua.
Memprediksi Kinerja Masa Depan. Misalkan bahwa Mr Young, seorang guru SMP, ingin menentukan seberapa
baik nilai dari tes bakat skolastik tertentu memprediksi keberhasilan dalam kelas tujuh kelas aritmatika nya. Karena
tes bakat skolastik diberikan kepada semua siswa ketika mereka masuk SMP, nilai ini sudah tersedia untuk Mr
Young. Masalah terbesarnya adalah memutuskan pada kriteria sukses prestasi aritmatika. Karena kurangnya kriteria
yang lebih baik, Pak Young memutuskan untuk menggunakan pemeriksaan departemen komprehensif yang
diberikan kepada berbagai bagian aritmatika kelas tujuh pada akhir tahun ajaran. Sekarang mungkin untuk Mr
Young untuk menentukan seberapa baik bakat skor tes skolastik memprediksi kesuksesan di kelas aritmatika
dengan membandingkan nilai tes skolastik bakat murid dengan nilai mereka pada ujian departemen. Apakah
mereka siswa yang memiliki skor tes bakat skolastik yang tinggi juga cenderung memiliki skor tinggi pada
pemeriksaan departemen? Apakah mereka yang memiliki skor tes skolastik bakat rendah juga cenderung memiliki
skor rendah pada pemeriksaan departemen? Jika hal ini terjadi, Mr Young cenderung setuju bahwa skolastik skor tes
bakat cenderung akurat dalam memprediksi prestasi di kelas aritmatika ini. Singkatnya, ia mengakui bahwa hasil
tes memiliki validitas-kriteria terkait.
Dalam ilustrasi kami, Pak Young hanya diperiksa bakat nilai tes skolastik dan skor tes prestasi untuk
menentukan kesepakatan di antara mereka. Meskipun ini mungkin menjadi langkah awal yang diinginkan, itu jarang
cukup untuk menunjukkan validitas kriteria terkait. Prosedur yang biasa adalah berkorelasi statistik dua set nilai
dan melaporkan derajat hubungan antara mereka dengan menggunakan koefisien korelasi. -ini memungkinkan
validitas yang akan disajikan dalam hal yang tepat dan universal dipahami. Mereka, tentu saja, "universal
dipahami" hanya oleh mereka yang memahami dan dapat menginterpretasikan koefisien korelasi. Hal ini akan
menimbulkan masalah yang besar, namun, karena makna koefisien korelasi dapat dengan mudah ditangkap oleh
orang-orang yang keterampilan komputasi berlangsung tidak lebih dari itu aritmatika sederhana.
Peringkat-Perbedaan Korelasi. Untuk memperjelas perhitungan dan interpretasi koefisien korelasi, mari kita
mempertimbangkan nilai yang tepat murid Mr Young diterima pada kedua tes bakat skolastik dan pemeriksaan
departemen dalam aritmatika. Informasi ini disediakan dalam dua kolom pertama dari Tabel 4.3. Dengan

memeriksa dua kolom skor, sebagai Mr Muda lakukan, adalah mungkin untuk dicatat bahwa nilai yang tinggi pada
Kolom 1 cenderung untuk pergi

pergeseran dalam urutan peringkat dari satu tes ke tes lain. Masalah kita sekarang isa "Bagaimana kita bisa
mengekspresikan derajat hubungan antara dua set peringkat dalam hal yang berarti? Di sinilah koefisien korelasi
menjadi berguna.
Peringkat-perbedaan korelasi hanyalah sebuah metode untuk mengungkapkan derajat hubungan antara dua set
peringkat. Langkah-langkah dalam menentukan koefisien korelasi rank-perbedaan disajikan di buku komputasi
berikut. 2 Pak Data Young, pada Tabel 4.3, yang digunakan untuk menggambarkan
Tangga
KOMPUTASI-GUIDE: RANK-PERBEDAAN KORELASI
Kolom 1 dan 2 Kolom 3 dan 4

Kolom 5
Kolom 6
Bawah Kolom 6 6

X 532

P = l-

(rho) = 1
20 (20 2 - 1) 3192
=17980 1-0,40 .60
P

Hasil pada Tabel 4.3

dengan nilai yang tinggi pada Kolom 2. Perbandingan ini sulit untuk membuat, namun, karena ukuran dari nilai tes
dalam dua kolom yang berbeda.
Kesepakatan dua set nilai dapat lebih mudah dilakukan jika nilai tes dikonversi ke jajaran. Hal ini telah dilakukan
dalam Kolom 3 dan 4 dari Tabel 4.3. Perhatikan bahwa murid yang pertama pada tes bakat peringkat ketiga pada
tes aritmatika; murid yang kedua pada tes bakat peringkat keempat pada tes aritmatika; murid yang ketiga pada
tes bakat peringkat keenam pada tes aritmatika; dan seterusnya. Membandingkan urutan peringkat dari murid di
dua tes, seperti yang ditunjukkan dalam Kolom 3 dan 4 dari Tabel 4.3, memberi kita gambaran yang cukup baik dari
hubungan antara dua set nilai. Dari pemeriksaan ini kita tahu bahwa murid yang memiliki kedudukan tinggi pada
tes bakat juga memiliki kedudukan yang tinggi pada tes aritmatika, dan murid yang memiliki kedudukan rendah

pada tes bakat juga memiliki kedudukan yang rendah pada tes aritmatika. Pemeriksaan kami Kolom 3 dan 4 juga
menunjukkan kepada kita, bagaimanapun, bahwa hubungan antara jajaran murid pada dua tes tidak
sempurna. Ada beberapa prosedur. Ini akan dicatat bahwa surat rho Yunani ( P ) digunakan untuk mengidentifikasi
koefisien korelasi rank-order. Dari perhitungan kami untuk data Mr Young kita menemukan bahwa

= .60. Koefisien

korelasi ini adalah ringkasan statistik dari tingkat hubungan antara dua set nilai dalam data Mr Young. Dalam
contoh khusus ini, ini menunjukkan sejauh mana jatuhnya nilai tes bakat (prediktor) merupakan prediksi musim
semi aritmatika nilai ujian (kriteria). Singkatnya, mengacu pada validitas-kriteria terkait bakat skor tes.
Seberapa baik adalah validitas koefisien Mr Young .60? Haruskah Pak Young akan senang dengan temuan ini
atau haruskah dia kecewa? Apakah tes ini bakat tertentu memberikan prediksi yang baik kinerja masa depan dalam
aritmatika?
Sayangnya, jawaban sederhana dan mudah tidak dapat diberikan atas pertanyaan-pertanyaan
tersebut. Interpretasi koefisien korelasi tergantung

pada informasi dari berbagai sumber. Pertama, kita tahu bahwa koefisien korelasi berikut menunjukkan
derajat ekstrim hubungan bahwa adalah mungkin untuk mendapatkan antara variabel:
1.00 = hubungan positif sempurna .00 = ada hubungan "1,00 = sempurna
hubungan negatif
Karena koefisien validitas Mr Young adalah .60, kita tahu bahwa hubungan yang positif tapi agak kurang
sempurna. Jelas, semakin dekat koefisien validitas pendekatan 1.00 bahagia kita dengan itu karena koefisien
validitas lebih besar menunjukkan akurasi yang lebih besar dalam memprediksi dari satu variabel yang lain. 3
Cara lain untuk mengevaluasi validitas koefisien Mr Young dari .60 adalah untuk membandingkannya dengan
koefisien validitas yang diperoleh dengan metode lain memprediksi kinerja dalam aritmatika. Jika koefisien validitas
ini lebih besar dari yang diperoleh dengan prosedur prediksi lain, Pak Young akan terus menggunakan tes bakat
skolastik. Sebagai cara terbaik yang tersedia baginya untuk memprediksi kinerja aritmatika muridnya. Dengan
demikian, koefisien validitas yang besar atau kecil hanya dalam hubungan satu sama lain. Dimana validitas-kriteria
terkait merupakan pertimbangan penting, kita akan selalu mempertimbangkan lebih menguntungkan tes dengan
koefisien validitas terbesar. Dalam hal ini, bahkan tes bakat dengan validitas agak rendah mungkin berguna,
namun, jika mereka adalah prediktor terbaik yang tersedia, dan prediksi mereka berikan adalah lebih baik daripada
kesempatan. 4
Mungkin cara termudah menangkap makna praktis dari koefisien korelasi adalah untuk dicatat bagaimana
akurasi prediksi meningkat sebagai koefisien korelasi menjadi lebih besar. Hal ini ditunjukkan dalam berbagai grafik
yang disajikan dalam Tabel 4.4. Baris-baris di setiap grafik mewakili perempat kelompok pada beberapa prediktor
(seperti tes bakat skolastik) dan kolom menunjukkan persentase orang yang jatuh di setiap keempat pada ukuran
kriteria (seperti tes prestasi).Pertama perhatikan bahwa untuk koefisien korelasi .00, berada di atas pada kuartal
prediktor tersebut tidak memberikan dasar untuk memprediksi di mana seseorang mungkin jatuh pada ukuran
kriteria. Peluangnya untuk jatuh setiap kuartal sama-sama baik. Sekarang beralih ke grafik untuk koefisien korelasi .
60. Perhatikan, di sini, bahwa jika seseorang jatuh pada kuartal atas pada prediktor, ia memiliki 54 peluang emas
dari 100 jatuh di kuartal teratas pada ukuran kriteria, 28 peluang emas dari 100 jatuh pada kuartal kedua, 14
peluang dari 100 jatuh pada kuartal ketiga, dan hanya 4 peluang emas dari 100 jatuh pada kuartal bawah. Sisa dari
grafik dibaca dengan cara yang sama.
Dengan membandingkan grafik untuk koefisien korelasi yang berbeda-ukuran, adalah mungkin untuk
mendapatkan beberapa merasakan arti dari koefisien korelasi dalam hal efisiensi prediksi. Sebagai koefisien
korelasi menjadi lebih besar, kemungkinan seseorang berada di triwulan yang sama pada ukuran kriteria seperti dia
berada di prediktor yang meningkat. Hal ini dapat dilihat dengan melihat entri di sel diagonal. Dengan koefisien
korelasi 1,00, masing-masing sel diagonal akan, tentu saja, mengandung 100 persen dari Casesa "menunjukkan
prediksi yang sempurna dari satu ukuran yang lain.
Memperkirakan Hadir Kinerja. Sampai titik ini kita telah menekankan peran validitas-kriteria terkait dalam
memprediksi kinerja masa depan. Meskipun ini mungkin penggunaan utama, ada kalanya kita tertarik dalam
hubungan kinerja tes untuk beberapa ukuran lainnya saat ini kinerja. Dalam hal ini, kita akan mendapatkan kedua
langkah kira-kira pada waktu yang sama dan mengkorelasikan hasil. Hal ini umumnya dilakukan ketika tes sedang
dipertimbangkan sebagai pengganti metode memakan waktu lebih untuk memperoleh informasi. Sebagai contoh,
Mr Brown, guru biologi, bertanya-tanya apakah tes obyektif kemampuan belajar dapat digunakan di tempat
pengamatan dan penilaian prosedur rumit ia gunakan saat ini. Dia merasa bahwa jika tes dapat diganti untuk
prosedur yang lebih kompleks, ia akan memiliki lebih banyak waktu untuk mengabdikan untuk murid individu
selama

T
diawasi masa studi. Analisis perilaku murid tertentu di mana ia dinilai kemampuan belajar murid 'menunjukkan
bahwa banyak prosedur dapat dinyatakan dalam bentuk pertanyaan tes objektif. Akibatnya, ia mengembangkan tes
obyektif kemampuan belajar bahwa ia diberikan kepada murid-muridnya. Untuk menentukan berapa memadai tes
diukur kemampuan belajar ia berkorelasi hasil tes dengan penilaian tentang kemampuan belajar siswa. Sebuah
koefisien korelasi yang dihasilkan dari 75 mengindikasikan kesepakatan yang cukup besar antara hasil tes dan
mengukur kriteria. Koefisien korelasi ini merupakan validitas-kriteria terkait uji Mr Brown kemampuan belajar.

Kita mungkin juga berkorelasi hasil tes dengan beberapa ukuran lainnya saat ini kinerja untuk menentukan
apakah sebuah studi prediktif adalah layak dilakukan. Sebagai contoh, jika satu set bakat skor tes skolastik
berkorelasi dengan tingkat yang cukup tinggi (misalnya, .60) dengan satu set nilai tes prestasi yang diperoleh pada
saat yang sama, itu akan menunjukkan bahwa tes bakat skolastik memiliki cukup potensial sebagai prediktor untuk
membuat sebuah studi prediktif berharga. Di sisi lain, korelasi yang rendah akan mencegah kita dari melakukan
studi prediktif, karena kita tahu bahwa korelasi akan menjadi masih lebih rendah ketika periode waktu antara
tindakan diperpanjang. Hal lain dianggap sama, semakin besar rentang waktu antara dua ukuran yang lebih kecil
koefisien korelasi.
Harapan Table. Seberapa baik tes memprediksi kinerja masa depan atau memperkirakan kinerja saat ini pada
beberapa ukuran kriteria juga dapat ditunjukkan dengan langsung memplot data dalam grafik dua kali lipat seperti
yang ditunjukkan pada Gambar 4.1. Di sini, Data Mr Young (dari Tabel 4.3) telah ditabulasikan dengan
menempatkan penghitungan menunjukkan berdiri masing-masing individu pada kedua skor bakat musim gugur dan
musim semi skor aritmatika.Sebagai contoh, John mencetak 119 pada tes bakat gugur dan 77 pada tes musim semi
aritmatika, sehingga penghitungan, mewakili penampilannya, ditempatkan di sel kanan atas. Kinerja semua murid
lain pada dua tes yang dihitung dengan cara yang sama. Dengan demikian, setiap tanda tally pada Gambar 4.1
merupakan seberapa baik masing-masing Mr Young dua puluh murid dilakukan pada musim gugur dan musim semi
tes. Total jumlah murid di masing-masing sel, dan di setiap kolom dan baris, juga telah ditunjukkan.
Grid harapan yang ditunjukkan pada Gambar 4.1 dapat digunakan secara langsung sebagai meja harapan,
hanya dengan menggunakan frekuensi dalam setiap sel. Penafsiran informasi tersebut sederhana dan
langsung. Misalnya, orang-orang murid yang mencetak di atas rata-rata pada tes bakat jatuh, tidak ada skor di
bawah 65 pada tes musim semi aritmatika, 2 dari 5 mencetak antara 65 dan 74, dan 3 dari 5 gol antara 75 dan 84.
Dari mereka yang mencetak bawah rata-rata pada tes bakat jatuh, tidak ada gol dalam kategori top pada tes
musim semi aritmatika dan 4 dari 5 gol di bawah 65. interpretasi ini terbatas pada kelompok diuji tetapi dari hasil
seperti yang mungkin membuat prediksi tentang masa depan murid.Kita dapat mengatakan, misalnya, bahwa
siswa yang mendapat skor di atas rata-rata pada tes musim gugur bakat mungkin akan mencetak gol atas rata-rata
pada tes musim semi aritmatika. Prediksi lain dapat dibuat dengan cara yang sama dengan mencatat frekuensi
dalam setiap sel grid pada Gambar 4.1.
Lebih umum, angka-angka dalam tabel harapan yang dinyatakan dalam persentase. Hal ini mudah
diperoleh dari grid dengan mengubah masing-masing frekuensi sel persentase dari jumlah total penghitungan di
barisnya. Ini telah dilakukan untuk data pada Gambar 4.1 dan hasilnya disajikan pada Tabel 4.5. Baris pertama dari
tabel menunjukkan bahwa dari 5 murid yang mencetak di atas rata-rata pada tes bakat jatuh, 40 persen (2 murid)
mencetak antara 65 and'74 pada tes musim semi aritmatika, dan 60 persen (3 murid) mencetak antara 75 dan 84.
Baris tersisa dibaca dengan cara yang sama. Penggunaan persentase membuat angka-angka dalam setiap baris
dan kolom yang sebanding. Prediksi kami kemudian dapat dibuat dalam hal standar (yaitu, kemungkinan dari 100)
untuk semua tingkat skor. Penafsiran kita sangat tepat untuk menjadi sedikit lebih jelas
jika kita mengatakan kemungkinan Henry berada di kelompok atas pada ukuran kriteria adalah 60 dari 100
dan Ralph hanya 10 dari 100, dibandingkan jika kita mengatakan kemungkinan Henry adalah 3 dari 5 dan Ralph
adalah 1 dari 10.
Tabel Harapan mengambil banyak bentuk yang berbeda dan dapat digunakan untuk menunjukkan hubungan
antara berbagai jenis ukuran. Jumlah kategori yang digunakan dengan prediktor, atau kriteria, mungkin sedikitnya
dua atau sebanyak tampaknya diinginkan. Juga, prediktor mungkin setiap set langkah-langkah yang kami ingin
membangun validitas kriteria-kriteria yang terkait dan mungkin nilai saja, peringkat, nilai tes, atau apa pun ukuran
keberhasilan relevan lainnya.0
Ketika menafsirkan tabel harapan didasarkan pada sejumlah kecil kasus, seperti kelas Mr Young dari dua puluh
murid, prediksi kami harus dianggap sebagai sangat tentatif "Setiap persentase didasarkan pada begitu sedikit
murid yang bisa kita harapkan fluktuasi besar dalam angka-angka dari satu kelompok murid yang lain. Hal ini sering
mungkin untuk meningkatkan jumlah murid diwakili dalam tabel dengan menggabungkan hasil tes dari beberapa
kelas. Dimana hal ini dilakukan, persentase kami, tentu saja, jauh lebih stabil, dan prediksi kami dapat dibuat
dengan keyakinan yang lebih besar. Dalam hal apapun, tabel harapan menyediakan cara sederhana dan langsung
menunjukkan validitas hasil tes.
The "Kriteria" Masalah. Dalam penentuan validitas-kriteria terkait, masalah utama adalah bahwa untuk
memperoleh memuaskan kriteria keberhasilan. Perlu diingat bahwa Mr Young menggunakan pemeriksaan
departemen yang komprehensif sebagai kriteria keberhasilan dalam kelas tujuh kelas aritmatika nya. Mr Brown

menggunakan penilaian sendiri kemampuan belajar siswa. Dalam setiap contoh kriteria keberhasilan itu hanya
sebagian cocok sebagai dasar untuk uji validasi. Pak Young mengakui bahwa pemeriksaan departemen tidak
mengukur semua pembelajaran penting hasil bahwa ia bertujuan untuk mengajar aritmatika. Ada hampir tidak
cukup penekanan pada penalaran aritmatika; interpretasi grafik dan diagram sayangnya diabaikan; dan, tentu saja,
tes tidak mengevaluasi sikap murid terhadap aritmatika (yang Pak Young dianggap sangat penting). Demikian juga,
Mr Brown sangat menyadari kekurangan dari nya kemampuan belajar murid. Dia merasa bahwa beberapa murid
"diletakkan pada sebuah pertunjukan" ketika mereka tahu mereka sedang diamati. Dalam kasus lain ia merasa
bahwa beberapa murid yang mungkin berlebihan pada kemampuan belajar karena prestasi yang tinggi dalam
pekerjaan kelas. Meskipun kekurangan diakui, baik Pak Young dan Mr Brown merasa perlu untuk menggunakan
langkah-langkah kriteria ini karena mereka adalah tindakan kriteria terbaik yang tersedia.
Plights dari Pak Young dan Mr Brown dalam menemukan kriteria yang cocok keberhasilan untuk tujuan validasi
tes yang tidak biasa. Pemilihan kriteria yang memuaskan adalah salah satu masalah yang paling sulit dalam
memvalidasi tes.Untuk tujuan pendidikan yang paling, tidak ada kriteria yang cukup sukses ada. Mereka yang
digunakan cenderung kurang dalam kelengkapan dan dalam kebanyakan kasus memberikan hasil yang kurang
stabil dibandingkan dengan tes divalidasi.
Kurangnya kriteria yang cocok untuk memvalidasi tes prestasi memiliki implikasi penting bagi guru
kelas. Karena jenis statistik validitas biasanya tidak tersedia, guru akan harus bergantung pada prosedur analisis
logis untuk menjamin validitas pengujian. Ini berarti hati-hati mengidentifikasi tujuan pengajaran, menyatakan
tujuan tersebut dalam hal perubahan tertentu dalam perilaku murid, dan membangun atau memilih instrumen
evaluasi yang memuaskan mengukur perubahan perilaku dicari dalam murid. Dengan demikian, validitas isi akan
mengambil peran sangat penting dalam evaluasi guru kemajuan murid.
Membangun Validitas
Kedua jenis validitas sejauh ini dijelaskan keduanya khawatir dengan beberapa penggunaan praktis spesifik hasil
tes. Mereka membantu kita menentukan bagaimana nilai tes juga merupakan pencapaian hasil belajar tertentu
(validitas isi), atau seberapa baik mereka memprediksi atau memperkirakan kinerja tertentu (validitas kriteria yang
berhubungan). Selain ini menggunakan lebih spesifik dan segera praktis, kita mungkin ingin menafsirkan nilai ujian
dalam hal beberapa kualitas psikologis umum. Misalnya, daripada berbicara tentang nilai seorang murid pada tes
aritmatika tertentu, atau seberapa baik memprediksi keberhasilan dalam matematika, kita mungkin ingin
menyimpulkan bahwa murid memiliki tingkat tertentukemampuan penalaran. ini memberikan gambaran umum
yang luas dari perilaku murid yang memiliki implikasi untuk banyak kegunaan yang berbeda.
Setiap kali kita ingin menafsirkan hasil tes dalam hal beberapa sifat atau kualitas psikologis, kita prihatin dengan
validitas konstruk. Sebuah konstruksi adalah kualitas psikologis yang kita asumsikan ada untuk menjelaskan
beberapa aspek perilaku. Kemampuan penalaran adalah membangun. Ketika kita menafsirkan nilai ujian sebagai
ukuran kemampuan penalaran, kita menyiratkan bahwa ada kualitas yang dapat tepat disebut kemampuan
penalaran dan bahwa hal itu dapat menjelaskan untuk beberapa derajat untuk kinerja pada tes. Memverifikasi
implikasi tersebut adalah tugas validasi konstruk.
Contoh umum dari konstruksi adalah kecerdasan, sikap ilmiah, berpikir kritis, pemahaman bacaan, kemampuan
belajar, dan bakat matematika. Ada keuntungan yang jelas untuk dapat menafsirkan hasil tes dalam hal konstruksi
psikologis seperti. Setiap konstruk memiliki teori yang mendasari yang dapat dibawa untuk menanggung dalam
menjelaskan dan memprediksi perilaku seseorang. Jika kita mengatakan seseorang sangat cerdas, misalnya, kita
tahu apa perilaku yang diharapkan dari dirinya dalam berbagai situasi tertentu.
Validitas konstruk dapat didefinisikan sebagai sejauh mana hasil tes dapat ditafsirkan dari segi konstruksi
psikologis tertentu. Theprocess menentukan validitas konstruk melibatkan langkah-langkah berikut: (1)
mengidentifikasi konstruksi dianggap untuk memperhitungkan hasil tes; (2) menurunkan hipotesis mengenai
kinerja pengujian dari teori yang mendasari konstruk; (3) memverifikasi hipotesis dengan logis dan empiris
berarti. Sebagai contoh, mari kita anggap bahwa kita ingin memeriksa klaim bahwa tes yang baru dibangun
mengukur kecerdasan. Dari apa yang diketahui tentang "kecerdasan," kita bisa membuat prediksi berikut:

1.

Nilai tes akan meningkat dengan meningkatnya umur (kecerdasan diasumsikan meningkat dengan usia

sampai sekitar usia enam belas).

2.

Nilai tes akan memprediksi keberhasilan dalam prestasi sekolah.

3.

Nilai tes akan berhubungan positif dengan peringkat guru kecerdasan.

4.

Nilai tes akan berhubungan positif dengan skor pada tes kecerdasan lainnya yang disebut.

5.

Nilai tes akan membedakan antara kelompok yang diketahui berbeda, seperti "berbakat" dan "cacat

mental."

6.

Nilai tes akan sedikit dipengaruhi oleh pengajaran langsung.

Setiap prediksi ini, dan lain-lain, kemudian akan diuji, satu per satu. Jika hasil positif diperoleh untuk setiap prediksi,
bukti gabungan memberikan dukungan terhadap klaim bahwa tes mengukur kecerdasan. Jika prediksi tidak
dikonfirmasi, mengatakan nilai tidak meningkat dengan usia, kita harus menyimpulkan bahwa baik tes ini bukan
merupakan ukuran yang valid kecerdasan, atau ada sesuatu yang salah dengan teori kami. Sebagai Cronbach dan
Meehl 5 telah menunjukkan, dengan validasi konstruk teori dan tes sedang divalidasi pada saat yang sama.
Metode Digunakan Memperoleh Bukti untuk Membangun Validasi. Seperti tercantum dalam ilustrasi kita, tidak
ada metode tunggal yang memadai membangun validitas konstruk. Ini adalah masalah mengumpulkan bukti dari
berbagai sumber. Kami dapat menggunakan kedua validitas isi dan validitas-kriteria terkait sebagai bukti parsial
untuk mendukung validitas konstruk, tetapi tak satu pun dari mereka saja sudah cukup. Membangun validasi
tergantung pada kesimpulan logis yang diambil dari berbagai jenis data. Prosedur berikut menggambarkan
berbagai metode yang dapat digunakan dalam memperoleh bukti untuk validitas konstruk: 6
Century-Crofts, 1964).

1. Analisis proses mental yang diperlukan oleh item tes. Satu dapat menganalisis proses mental yang terlibat
dengan memeriksa item tes untuk menentukan faktor-faktor apa mereka muncul untuk mengukur dan / atau
dengan pemberian tes untuk siswa individu dan memiliki mereka "berpikir keras" karena mereka
menjawab. Dengan demikian, pemeriksaan tes ilmu pengetahuan dapat menunjukkan bahwa nilai tes kemungkinan
akan dipengaruhi oleh pengetahuan, pemahaman, dan kemampuan kuantitatif. Demikian pula, "berpikir keras"
pada tes penalaran aritmatika dapat memverifikasi bahwa item panggilan untuk proses penalaran dimaksudkan,
atau mungkin mengungkapkan bahwa sebagian besar masalah dapat diselesaikan dengan prosedur trial-and-error
yang sederhana.

2.

Perbandingan nilai dari kelompok yang dikenal. Dalam beberapa kasus, adalah mungkin untuk

memprediksi bahwa nilai akan berbeda dari satu kelompok ke kelompok lain. Ini mungkin kelompok usia, anak lakilaki dan perempuan, terlatih dan tidak terlatih, disesuaikan dan menyesuaikan diri, dan sejenisnya. Sebagai contoh,
sebagian besar kemampuan meningkat dengan usia (setidaknya selama masa kanak-kanak dan remaja), dan anak
laki-laki mendapatkan skor yang lebih tinggi dibandingkan anak perempuan pada tes tertentu (misalnya,
pemahaman mekanik). Selain itu, masuk akal untuk mengharapkan bahwa skor tes prestasi akan membedakan
antara kelompok dengan jumlah yang berbeda dari pelatihan dan bahwa nilai pada persediaan penyesuaian akan
membedakan antara kelompok disesuaikan dan maladjusted individu. Dengan demikian, prediksi perbedaan untuk
tes tertentu dapat diperiksa terhadap kelompok-kelompok yang diketahui berbeda dan hasilnya digunakan sebagai
dukungan parsial untuk validasi konstruk.

3.

Perbandingan skor sebelum dan setelah beberapa pengobatan tertentu. Beberapa nilai ujian dapat

diharapkan akan cukup tahan terhadap pelatihan khusus (misalnya, kecerdasan), sedangkan yang lain dapat
diharapkan untuk meningkatkan (misalnya, prestasi). Demikian pula, beberapa skor tes dapat diharapkan untuk
mengubah jenis tertentu sebagai pengobatan eksperimental diperkenalkan. Sebagai contoh, kita akan
mengharapkan nilai pada tes kecemasan untuk berubah ketika individu mengalami pengalaman kecemasanmemproduksi. Dengan demikian, dari teori yang mendasari sifat yang diukur, kita dapat membuat prediksi bahwa
skor tes tertentu akan berubah (atau tetap stabil) dalam berbagai kondisi. Jika prediksi kami diverifikasi, hasilnya
memberikan dukungan lebih lanjut untuk validasi konstruk.

4.

Korelasi dengan tes lainnya. Nilai dari setiap tes tertentu dapat diharapkan berkorelasi secara substansial

dengan nilai tes lain yang mungkin mengukur hal yang sama. Dengan cara yang sama, nilai tes dapat diharapkan

memiliki korelasi rendah dengan tes yang dirancang untuk mengukur kemampuan yang berbeda atau sifat. Sebagai
contoh, kita akan mengharapkan satu set skolastik skor tes bakat berkorelasi lebih tinggi dengan orang-orang dari
tes bakat skolastik lain, tetapi jauh lebih rendah dengan skor tes bakat musik. Dengan demikian, untuk setiap tes
yang diberikan, kami akan memprediksi korelasi tinggi dengan tes seperti dan korelasi rendah dengan tes
seperti. Selain itu, kami juga bisa memprediksi bahwa skor tes akan berkorelasi dengan berbagai kriteria
praktis. Skor bakat skolastik, misalnya, harus berkorelasi dengan nilai memuaskan sekolah, nilai tes prestasi, dan
langkah-langkah lain prestasi. Jenis kedua bukti, tentu saja, validitas-kriteria terkait. Kepentingan kita di sini,
bagaimanapun, tidak dalam masalah mendesak dari prediksi, melainkan dalam menggunakan korelasi ini untuk
mendukung klaim bahwa tes adalah ukuran dari bakat skolastik.Seperti yang ditunjukkan sebelumnya, membangun
validasi tergantung pada berbagai macam bukti, termasuk yang disediakan oleh jenis-jenis validitas.
Dalam memeriksa validitas konstruk, kepentingan kita tidak terbatas pada konstruksi psikologis tes dirancang untuk
mengukur. Setiap faktor yang mungkin mempengaruhi nilai tes menjadi perhatian yang sah. Sebagai contoh,
meskipun penulis uji mengklaim langkah-langkah tes penalaran aritmatika nya, kita mungkin berhak bertanya
sejauh mana skor tes dipengaruhi oleh keterampilan komputasi, kemampuan membaca, dan faktor-faktor yang
sama. Secara dipahami, validitas konstruk merupakan upaya untuk menjelaskan perbedaan dalam skor tes. Alihalih bertanya, "Apakah ukuran tes ini apa yang penulis mengklaim mengukur?" kita bertanya, "Tepatnya apa ukuran
tes ini? Bagaimana kita paling bermakna menafsirkan skor secara psikologis?" Tujuan validasi konstruk adalah untuk
mengidentifikasi sifat dan kekuatan dari semua faktor yang mempengaruhi kinerja pada tes.
Validitas konstruk sangat penting di semua jenis testing "prestasi, bakat, dan pengembangan pribadisosial. Apabila memilih tes standar, kita harus mencatat apa interpretasi disarankan untuk tes dan kemudian
meninjau uji manual untuk menentukan bukti total yang tersedia yang mendukung interpretasi ini. Kepercayaan diri
yang kita dapat membuat interpretasi yang diajukan secara langsung tergantung pada jenis bukti yang
diajukan. Juga, jika kita menduga bahwa skor tes dipengaruhi oleh faktor-faktor lain selain yang dijelaskan dalam
manual (seperti kecepatan dan kemampuan membaca), kita harus memeriksa firasat ini dengan eksperimen yang
cocok kita sendiri.
VALIDITAS KRITERIA-DISEBUTKAN TES PENGUASAAN
Seperti disebutkan dalam Bab 1, tes mengacu-norma dirancang untuk menekankan perbedaan antara
individu. Kinerja seseorang pada tes norma-referenced memiliki sedikit makna dengan sendirinya. Untuk menjadi
bermakna, kinerja uji harus dibandingkan dengan kinerja orang lain yang telah mengambil tes. Kami menilai
apakah nilai norma-referenced tinggi atau rendah dengan 'mencatat posisi relatif dalam satu set nilai. Dasar
pendekatan pengukuran ini adalah penyebaran luas nilai tes sehingga diskriminasi diandalkan dapat dibuat antara
individu-individu. Kita bisa berbicara tentang perbedaan antara Tom dan Bill dan Mary Jane dan dengan keyakinan
yang lebih besar jika perbedaan skor besar. Variabilitas ini antara skor, yang penting untuk pengujian normareferenced, juga diperlukan untuk menghitung koefisien validitas. Bahkan, sebagian besar langkah-langkah statistik
tradisional untuk memperkirakan validitas dan reliabilitas menggunakan rumus berdasarkan variabilitas antara
skor. Dengan demikian, meskipun semua berbagai perkiraan validitas dibahas sebelumnya sesuai untuk pengujian
norma-referenced, mereka tidak benar-benar sesuai untuk menilai keabsahan tes penguasaan kriteriadireferensikan. 7 1
Whe reas variabilitas antara nilai sangat penting untuk tes mengacu-norma, itu tidak relevan untuk tes penguasaan
kriteria-direferensikan. Tes ini dirancang untuk menggambarkan jenis tugas seorang individu dapat melakukan. Jika
semua siswa dapat melakukan himpunan tugas (misalnya, mengidentifikasi alat ukur termasuk dalam unit cuaca)
pada akhir instruksi, dan dengan demikian semua mendapatkan nilai sempurna (variabilitas nol), itu lebih baik. Dari
sudut pandang penguasaan pembelajaran, pengujian dan instruksi akan muncul untuk menjadi efektif. Karena
variabilitas antara skor bukanlah kondisi yang diperlukan untuk tes penguasaan kriteria-direferensikan baik,
langkah-langkah statistik konvensional untuk menentukan validitas yang tidak pantas. 8
Jenis validitas yang sangat penting terbesar untuk tes penguasaan kriteria-direferensikan adalah validitas
isi. Prosedur untuk memperoleh validitas isi dijelaskan sebelumnya dalam bab ini adalah sebagai berlaku di sini
seperti mereka dengan tes norma-referenced. Fakta bahwa tes penguasaan kriteria-direferensikan biasanya
terbatas pada domain yang lebih delimited tugas belajar (misalnya, satuan atau bab), bahkan menyederhanakan
proses mendefinisikan dan memilih sampel yang representatif dari tugas. Dalam beberapa kasus, domain tugas
sangat terbatas (misalnya, penambahan bilangan satu digit) bahwa sampel yang representatif dapat diperoleh
tanpa menggunakan tabel spesifikasi.

Meskipun validitas isi adalah perhatian utama dengan tes penguasaan kriteria-direferensikan, kami juga
mungkin tertarik menggunakan hasil tes untuk membuat prediksi tentang murid. Kita mungkin, misalnya,
menggunakan pretest kriteria-direferensikan untuk memprediksi siswa cenderung menguasai materi dalam unit
instruksi, atau menggunakan tes penguasaan end-of-satuan untuk menentukan murid harus melanjutkan ke unit
berikutnya instruksi . Keputusan instruksional seperti ini membutuhkan beberapa bukti (validitas-kriteria terkait)
bahwa keputusan kami didasarkan nyenyak. Bukti ini dapat diperoleh dengan cara meja harapan, seperti yang
ditunjukkan pada Tabel 4.6. Ini akan dicatat dalam tabel ini bahwa sebagian besar murid dengan skor pretest dari
20 atau lebih rendah gagal untuk mencapai penguasaan pada akhir unit. Dalam kasus seperti itu, skor tes dari 20
akan memberikan skor cutoff yang baik untuk menentukan siswa harus melanjutkan dengan unit dan yang
seharusnya menerima bantuan perbaikan sebelum melanjutkan. Kami akan, tentu saja, lebih memilih sejumlah
besar murid dari tiga puluh ketika memilih nilai cutoff tersebut, tapi ini merupakan situasi kelas yang
realistis.Seperti disebutkan sebelumnya, itu sering mungkin untuk meningkatkan jumlah murid yang digunakan
dalam tabel harapan dengan menggabungkan hasil tes dari beberapa kelas.
Tidak ada dalam sifat pengujian penguasaan kriteria-direferensikan untuk menyingkirkan validitas
konstruk. Begitu banyak bukti yang mendukung untuk validitas konstruk tergantung pada korelasi dan ukuran
statistik lain, bagaimanapun, bahwa validitas konstruk tes kriteria-direferensikan akan, kebutuhan, didasarkan pada
bukti-bukti yang agak sedikit (yaitu, hanya bukti bahwa tidak tergantung pada variabilitas antara skor).
FAKTOR YANG MEMPENGARUHI VALIDITAS
Banyak faktor yang cenderung membuat hasil tes tidak valid untuk digunakan. Beberapa agak jelas dan mudah
dihindari. Tidak ada guru akan berpikir untuk mengukur pengetahuan tentang ilmu-ilmu sosial dengan tes bahasa
Inggris. Guru juga akan mempertimbangkan mengukur keterampilan pemecahan masalah di kelas tiga aritmatika
dengan tes yang dirancang untuk anak kelas enam. Dalam kedua kasus hasil tes akan jelas tidak valid. Faktor-faktor
yang mempengaruhi validitas yang bersifat umum ini sama tapi jauh lebih halus dalam karakter. Sebagai contoh,
seorang guru dapat membebani tes ilmu sosial dengan item mengenai fakta-fakta sejarah dan dengan demikian itu
kurang valid sebagai ukuran pencapaian dalam studi sosial. Atau guru kelas tiga dapat memilih masalah aritmatika
yang sesuai untuk murid-muridnya, tetapi menulis arah yang hanya pembaca lebih mampu memahami dengan
jelas. Tes aritmatika kemudian menjadi tes membaca yang membatalkan hasil untuk digunakan. Ini adalah sifat dari
beberapa faktor yang lebih halus mempengaruhi validitas. Ini adalah faktor yang guru harus waspada, apakah
membangun tes kelas atau memilih tes standar.
Faktor-faktor dalam Test Sendiri
Pemeriksaan yang seksama item tes akan menunjukkan apakah tes tampaknya untuk mengukur kandungan
subyek dan fungsi mental bahwa guru tertarik dalam pengujian. Namun, salah satu dari faktor-faktor berikut dapat
mencegah item tes dari berfungsi sebagaimana dimaksud dan dengan demikian menurunkan validitas hasil
pengujian:
1. arah yang tidak jelas. Arah yang tidak jelas menunjukkan kepada murid bagaimana menanggapi item, apakah
itu diperbolehkan untuk menebak, dan cara merekam jawaban akan cenderung mengurangi validitas.

2.

Membaca kosa kata dan kalimat struktur terlalu sulit. Kosakata dan struktur kalimat yang terlalu rumit

untuk siswa mengambil tes akan menghasilkan tes mengukur pemahaman bacaan dan aspek kecerdasan daripada
aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur.

3.

Tingkat Inappropriate kesulitan dari item tes. Dalam tes norma-direferensikan, item yang terlalu mudah

atau terlalu sulit tidak akan memberikan diskriminasi handal di antara murid dan validitas karena itu akan lebih
rendah. Dalam tes kriteria-direferensikan, kegagalan untuk mencocokkan kesulitan item tes dengan kesulitan yang
ditentukan dalam tujuan instruksional akan menurunkan validitas.

4.

Item tes buruk dibangun. item uji yang sengaja memberikan petunjuk jawabannya akan cenderung

mengukur kewaspadaan para murid dalam mendeteksi petunjuk serta aspek perilaku murid bahwa tes ini
dimaksudkan untuk mengukur.

5.

Ambiguitas. pernyataan

ambigu

dalam

item

tes

berkontribusi

terhadap

salah

tafsir

dan

kebingungan. Ambiguitas terkadang membingungkan siswa yang lebih baik lebih dari siswa miskin, menyebabkan
item berfungsi bahkan kurang efektif untuk mereka.

6.

Item tes yang tidak pantas untuk hasil yang diukur. Mencoba untuk mengukur pemahaman, keterampilan

berpikir, dan jenis kompleks lainnya prestasi dengan bentuk tes yang sesuai hanya untuk mengukur pengetahuan
faktual akan membatalkan hasil.

7.

Uji terlalu pendek. Sebuah tes hanya contoh dari banyak pertanyaan yang mungkin ditanyakan. Jika tes ini

terlalu singkat untuk memberikan sampel yang representatif dari perilaku kita tertarik, validitas akan menderita
sesuai.

8.

Pengaturan yang tidak tepat item. item Uji biasanya diatur dalam urutan kesulitan dengan item termudah

pertama. Menempatkan item yang sulit di awal tes dapat menyebabkan murid untuk menghabiskan terlalu banyak
waktu pada ini dan mencegah mereka dari mencapai barang-barang mereka dengan mudah bisa
menjawab. Pengaturan yang tidak tepat juga dapat mempengaruhi validitas dengan memiliki efek yang merugikan
pada motivasi murid.

9.

Pola diidentifikasi jawaban. Menempatkan jawaban dalam beberapa pola yang sistematis (misalnya, T, T,

F, F, atau A, B, C, D, A, B, C, D) akan memungkinkan siswa untuk menebak jawaban atas beberapa item yang lebih
mudah dan ini akan menurunkan validitas.
Singkatnya, cacat dalam pembangunan tes yang mencegah item tes dari berfungsi selaras dengan tujuan
penggunaannya akan memberikan kontribusi pada ketidakabsahan pengukuran. Banyak dari apa yang tertulis
dalam bab-bab berikut diarahkan meningkatkan validitas hasil yang diperoleh dengan tes kelas dan instrumen
evaluasi lainnya.
Berfungsi Konten dan Pengajaran Prosedur
Dalam kasus pengujian prestasi, isi berfungsi item tes tidak dapat ditentukan hanya dengan memeriksa bentuk
dan isi tes. Misalnya, item berikut mungkin muncul untuk mengukur penalaran ilmu hitung jika diperiksa tanpa
mengacu pada apa yang siswa telah diajarkan:
Jika pipa 40 'dipotong sehingga bagian yang lebih pendek adalah 2/3 selama lagi sepotong, apa yang
panjang dari potongan yang lebih pendek?
Namun, jika guru telah mengajarkan solusi untuk masalah tertentu sebelum memberikan tes, item tes sekarang
ukuran tidak lebih dari pengetahuan hafal. Demikian pula, tes pemahaman, berpikir kritis, dan kompleks hasil
belajar lainnya adalah tindakan yang sah di daerah ini hanya jika item tes berfungsi sebagaimana dimaksud. Jika
murid sebelumnya telah diajarkan solusi untuk masalah-masalah tertentu yang termasuk dalam ujian, atau telah
diajarkan langkah mekanik untuk mendapatkan solusi, tes tersebut tidak bisa lagi dianggap instrumen yang valid
untuk mengukur proses mental yang lebih kompleks.
Faktor-faktor di Uji Administrasi dan Scoring
Administrasi dan scoring tes juga dapat memperkenalkan faktor yang memiliki efek yang merugikan pada
keabsahan hasil. Dalam kasus tes buatan guru, faktor-faktor seperti waktu yang cukup untuk menyelesaikan tes,
bantuan tidak adil untuk siswa individu yang meminta bantuan, kecurangan selama pemeriksaan, dan skor tidak
dapat diandalkan jawaban esai akan cenderung untuk menurunkan validitas. Dalam kasus tes standar, kegagalan
untuk mengikuti petunjuk standar dan batas waktu, memberikan bantuan siswa yang tidak sah, dan kesalahan
dalam mencetak gol sama akan berkontribusi pada validitas rendah. Untuk semua jenis tes, kondisi fisik dan
psikologis yang merugikan pada saat pengujian juga mungkin memiliki efek yang merugikan.
Faktor-faktor dalam Responses Murid '
Dalam beberapa kasus, hasil tes tidak valid karena faktor personal yang mempengaruhi respon pupil terhadap
situasi tes daripada segala kekurangan dalam instrumen tes. Siswa dapat terhambat oleh gangguan emosi yang
mengganggu hasil tes mereka. Beberapa murid ketakutan karena situasi tes dan dengan demikian tidak mampu

merespon secara normal. Yang lain tidak termotivasi untuk mengajukan upaya terbaik mereka. Ini dan faktor lain
yang membatasi dan memodifikasi respon murid dalam situasi tes jelas akan menurunkan validitas hasil tes.
Faktor kurang jelas yang mempengaruhi hasil tes adalah bahwa respon ditetapkan.

11

Satu set respon

kecenderungan yang konsisten untuk mengikuti pola tertentu dalam menanggapi untuk menguji item. Sebagai
contoh, beberapa orang akan merespon "benar" ketika mereka tidak tahu jawaban untuk item benar-salah,
sementara orang lain akan cenderung untuk menandai "palsu." Sebuah tes dengan sejumlah besar laporan yang
benar sehingga akan menguntungkan bagi tipe pertama orang dan kelemahan dari jenis kedua. Meskipun beberapa
set respon, seperti yang diilustrasikan, dapat diimbangi dengan prosedur yang cermat uji konstruksi (misalnya,
termasuk jumlah yang sama pernyataan benar dan salah dalam ujian) set respon lain yang lebih sulit
dikendalikan. Khas respon set dalam kategori terakhir ini adalah kecenderungan untuk bekerja untuk kecepatan
bukan ketepatan, kecenderungan untuk berjudi bila ragu, dan penggunaan gaya tertentu dalam menanggapi tes
esai. Respon set ini mengurangi keabsahan hasil pengujian dengan memperkenalkan faktor-faktor nilai tes yang
tidak relevan dengan tujuan pengukuran. 12
Sifat Grup dan Kriteria tersebut
Validitas selalu spesifik untuk kelompok tertentu. Tes aritmatika berdasarkan masalah cerita, misalnya, dapat
mengukur kemampuan penalaran dalam kelompok lambat, dan kombinasi recall sederhana informasi dan
keterampilan komputasi dalam kelompok yang lebih maju. Demikian pula, nilai pada tes ilmu pengetahuan dapat
menyumbang sebagian besar dengan membaca pemahaman dalam satu kelompok dan dengan pengetahuan
tentang fakta-fakta lain. Apa langkah-langkah uji dipengaruhi oleh faktor-faktor seperti usia, jenis kelamin, tingkat
kemampuan, latar belakang pendidikan, dan latar belakang budaya. Dengan demikian, dalam menilai laporan uji
validitas termasuk dalam manual tes, atau sumber lain, penting untuk dicatat sifat kelompok validasi. Seberapa
dekat itu membandingkan karakteristik signifikan terhadap sekelompok murid kita ingin uji menentukan bagaimana
berlaku Informasi adalah untuk kelompok tertentu kami.
Dalam mengevaluasi koefisien validitas, juga perlu mempertimbangkan sifat dari kriteria yang
digunakan. Sebagai contoh, skor pada tes bakat matematika cenderung untuk memberikan prediksi yang lebih
akurat dari pencapaian dalam kursus fisika di mana masalah kuantitatif ditekankan daripada di salah satu di mana
mereka hanya memainkan peran kecil. Demikian juga, kita bisa mengharapkan nilai pada tes berpikir kritis
berkorelasi lebih tinggi dengan nilai dalam studi sosial program yang menekankan pemikiran kritis dibandingkan
pada mereka yang sangat tergantung pada menghafal informasi faktual. Hal lain dianggap sama, semakin besar
kesamaan antara perilaku diukur dengan tes dan perilaku diwakili dalam kriteria, semakin tinggi koefisien validitas.
Karena informasi validitas bervariasi dengan sifat kelompok diuji dan dengan komposisi ukuran kriteria yang
digunakan, validasi data yang dipublikasikan harus dianggap sebagai sangat tentatif. Bila mungkin, validitas hasil
tes harus diperiksa dalam situasi lokal yang spesifik.
Ini diskusi tentang faktor yang mempengaruhi validitas hasil tes harus membuat jelas sifat meresap dan
fungsional validitas konsep. Dalam analisis akhir validitas hasil tes didasarkan pada sejauh mana perilaku
ditimbulkan dalam situasi pengujian adalah representasi benar
perilaku yang sedang dievaluasi. Tims, apa pun dalam pembangunan atau administrasi dari tes yang menyebabkan
hasil tes menjadi representatif dari karakteristik orang yang diuji memberikan kontribusi untuk menurunkan
validitas. Dalam arti yang sangat nyata, maka, itu adalah pengguna dari tes yang harus membuat keputusan akhir
mengenai validitas dari hasil tes. Dia adalah satu-satunya yang tahu seberapa baik tes sesuai penggunaan yang
khusus, seberapa baik kondisi pengujian yang terkontrol, dan bagaimana tanggapan khas adalah untuk situasi
pengujian.
pengaruh ini dapat ditemukan dalam instrumen tes itu sendiri, beberapa dalam hubungan pengajaran pengujian,
beberapa dalam administrasi dan skor tes, beberapa di tanggapan atipikal siswa dengan situasi tes, dan masih
orang lain dalam sifat kelompok diuji dan dalam komposisi tindakan kriteria yang digunakan. Tujuan utamanya
dalam pembangunan, seleksi, dan penggunaan tes, dan instrumen evaluasi lainnya, adalah untuk mengendalikan
faktor-faktor yang memiliki efek buruk pada validitas dan menginterpretasikan hasil evaluasi sesuai dengan apa
informasi validitas tersedia.
RINGKASAN
Kualitas yang paling penting untuk dipertimbangkan saat memilih 'atau membangun instrumen evaluasi adalah
validitas. Hal ini mengacu pada sejauh mana hasil evaluasi melayani penggunaan tertentu yang mereka

dimaksudkan. Dalam menafsirkan informasi validitas, penting untuk diingat bahwa validitas mengacu
pada hasil daripada instrumen, bahwa kehadirannya adalah masalah derajat, dan itu selalu spesifik untuk beberapa
penggunaan tertentu.
Ada tiga tipe dasar validitas. Konten validitas mengacu pada sejauh mana sebuah tes mengukur sampel yang
representatif dari isi pelajaran-materi dan perubahan perilaku dalam pertimbangan. Hal ini terutama penting dalam
pengujian prestasi dan ditentukan oleh analisis logis dari konten pengujian. -Kriteria terkait validitas berkaitan
dengan sejauh mana hasil tes akurat dalam memprediksi beberapa kinerja masa depan atau memperkirakan
beberapa kinerja saat ini. Jenis validitas dapat dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
validitas atau dengan cara tabel harapan. Ini adalah makna khusus dalam semua jenis pengujian bakat, tetapi yang
bersangkutan setiap kali hasil tes digunakan untuk membuat prediksi spesifik, atau kapan tes sedang
dipertimbangkan sebagai pengganti prosedur memakan waktu lebih. Membangun validitas mengacu pada sejauh
yang hasil tes dapat ditafsirkan dari segi konstruksi psikologis tertentu.Proses validasi konstruk melibatkan
identifikasi dan klarifikasi faktor yang mempengaruhi nilai tes sehingga hasil tes dapat diartikan paling
bermakna. Ini melibatkan akumulasi bukti dari berbagai studi yang berbeda. Kedua jenis validitas dapat digunakan
sebagai dukungan parsial untuk validitas konstruk, tetapi itu adalah bukti gabungan dari semua sumber yang
penting. Semakin lengkap bukti, semakin yakin kita tentang kualitas psikologis yang diukur dengan tes.
Karena kriteria-referenced tes penguasaan tidak dirancang untuk membedakan antara individu-individu, jenis
statistik validitas yang tidak pantas. Untuk jenis tes, kita harus bergantung terutama pada validitas isi. Dimana nilai
tes yang akan digunakan untuk prediksi (misalnya, penguasaan-nonmastery), meja harapan dapat digunakan
secara efektif.
Sejumlah faktor cenderung mempengaruhi validitas hasil tes. Beberapa
BELAJAR LATIHAN

1.

Dengan cara apa tabel spesifikasi berkontribusi terhadap validitas isi? Apa aspek validitas isi yang paling

tepat untuk menderita jika tabel spesifikasi yang tidak digunakan?

2.

Bandingkan kesulitan relatif menentukan validitas isi untuk tes ejaan dan tes IPS. Untuk daerah mana akan

tabel spesifikasi paling berguna? Mengapa?

3.

Jika Anda ingin menentukan validitas isi dari tes prestasi standar, prosedur apa yang akan Anda

ikuti? Jelaskan langkah demi langkah prosedur Anda dan memberikan alasan untuk setiap langkah.

4.

Jika sesama guru mengatakan kepada Anda bahwa tes prestasi standar tertentu memiliki validitas yang

tinggi, apa jenis pertanyaan yang akan Anda ajukan padanya?

5.

Jenis validitas diilustrasikan oleh masing-masing pernyataan berikut?


a.

Skor tes berkorelasi dengan nilai saja.

b.

Sebuah tes dianalisis untuk melihat bagaimana hal itu cukup sampel apa yang telah diajarkan.

c.

Seorang guru membangun tabel harapan.

d.

Skor tinggi dan skor rendah pada tes dibandingkan untuk melihat bagaimana mereka berbeda.

e.

Validitas ditentukan oleh analisis logis saja.

6.

Apa keuntungan dari tabel harapan atas koefisien validitas untuk mengungkapkan efektivitas prediktif dari

tes bakat skolastik? Apa beberapa keterbatasan?

7.

Apakah ada tipe tertentu bukti mungkin berguna dalam mengevaluasi validitas konstruk dari masing-

masing berikut ini?


a.

Uji berpikir kritis.

b.

Tes kreativitas.

c.

8.

Uji kecemasan.
Pelajari

bagian

validitas

manual

tes

untuk

beberapa

tes

prestasi

standar

dan

tes

bakat

skolastik. Bagaimana informasi yang berbeda untuk kedua jenis tes? Mengapa?

9.

Konsultasikan bagian validitas dari Standar u n t u k Pendidikan dan Tes Psikologi (lihat daftar bacaan untuk

bab ini) dan meninjau jenis informasi yang manual tes harus berisi. Bandingkan manual tes baru-baru
terhadap Standar.
10. Daftar dan jelaskan secara singkat sebagai banyak faktor yang Anda bisa memikirkan yang mungkin
menurunkan validitas norma-referenced tes kelas. Lakukan hal yang sama untuk kriteria-referenced tes. Faktorfaktor yang berbeda?
SARAN UNTUK BACAAN LEBIH LANJUT
. AMERICAN PSYCHOLOGICAL ASSOCIATION . Standar Pendidikan dan Tes Psikologi Washington, D C.:. APA, 1974. Lihat
bagian tentang validitas (halaman 25-48) untuk deskripsi dari tipe dasar dan sifat informasi validitas harus
dicari dalam uji manual.
ANASTASI , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc, 1976 Bab 6, "Validitas:. Konsep
Dasar". Menjelaskan jenis standar validitas dan metode penentuan mereka.
CRONBACH , LJ "Validitas," Bab 14 di RL Thorndike (ed.), Pendidikan Pengukuran. Washington, DC: American Council
on Education 1971 Sebuah diskusi komprehensif validitas, dengan penekanan khusus pada tes pendidikan..
POPHAM , WJ, dan TR HUSEK . "Implikasi Kriteria-Referensi Pengukuran," di WJ Popham (ed.), Kriteria-Referensi
Pengukuran. Englewood Cliffs, NJ:. Teknologi Pendidikan Publications, 1971 Menjelaskan karakteristik
pengukuran kriteria-referenced dan kesulitan memperoleh langkah-langkah yang berarti validitas dan
kehandalan.
Uji Bulletin
WESMAN , AG . ganda-Entry Harapan Tabel Uji Service Bulletin, No 45 New York:.. The Psychological Corporation,
1966 buletin ini menjelaskan dan menggambarkan bagaimana mempersiapkan tabel harapan menggunakan
dua prediktor.

BAB

Keandalan
dan
Diinginkan Lainnya

Karakteristik

Sebelah validitas, reliabilitas adalah karakteristik yang paling penting dari hasil evaluasi. . . . Keandalan (1)
memberikan konsistensi yang membuat validitas mungkin, dan (2) menunjukkan berapa banyak keyakinan kita
dapat menempatkan dalam hasil kami. . . . Kepraktisan prosedur evaluasi adalah, tentu saja, juga menjadi
perhatian guru kelas sibuk.
Dalam Bab 4 itu menekankan bahwa validitas adalah pertimbangan yang paling penting dalam pemilihan dan
konstruksi prosedur evaluasi. Pertama dan terpenting kami ingin hasil evaluasi untuk melayani penggunaan spesifik
yang mereka dimaksudkan. Selanjutnya dalam pentingnya adalah kehandalan, dan berikut ini yang merupakan
sejumlah fitur praktis yang terbaik dapat diklasifikasikan ke dalam pos dari kegunaan.
KEANDALAN

Keandalan mengacu pada konsistensi pengukuran. Artinya, bagaimana skor tes konsisten atau hasil evaluasi lain
dari satu pengukuran ke yang lain. Anggaplah, misalnya, bahwa Miss Jones baru saja diberi tes prestasi untuk
murid-muridnya.Bagaimana serupa akan skor siswa 'bila dia diuji mereka kemarin atau besok atau minggu
depan? Bagaimana nilai bervariasi telah ia memilih sampel yang berbeda dari item yang setara? Jika itu adalah tes
esai, berapa banyak akan nilai telah diubah telah guru yang berbeda mencetak gol itu? Ini adalah jenis pertanyaan
yang dengan keandalan yang bersangkutan. Nilai tes hanya memberikan ukuran terbatas perilaku yang diperoleh
pada waktu tertentu. Kecuali pengukuran dapat terbukti cukup konsisten (yaitu, digeneralisasikan) lebih berbeda
m

kesempatan atau lebih sampel yang berbeda dari perilaku yang sama, sedikit kepercayaan dapat
ditempatkan dalam hasil.
Di sisi lain, kita tidak bisa mengharapkan hasil pengujian yang akan benar-benar konsisten. Ada banyak faktor
selain kualitas yang diukur yang dapat mempengaruhi nilai tes. Jika tes tunggal diberikan kepada kelompok yang
sama dua kali dalam suksesi dekat, beberapa variasi dalam nilai dapat diharapkan karena fluktuasi sementara
dalam memori, perhatian, tenaga, kelelahan, ketegangan emosional, menebak, dan faktor-faktor yang
sama. Dengan jangka waktu yang lebih lama antara tes, variasi tambahan dalam skor dapat disebabkan oleh
intervensi pengalaman belajar, perubahan kesehatan, lupa, dan kondisi pengujian kurang sebanding. Jika kita
menggunakan sampel yang berbeda dari item dalam tes kedua, masih faktor lain yang mungkin mempengaruhi
hasil. Individu mungkin menemukan satu tes lebih mudah daripada yang lain karena kebetulan berisi item lebih
lanjut tentang topik tertentu yang mereka kenal. 9 faktor-faktor luar Seperti ini memperkenalkan sejumlah
kesalahan dalam semua nilai tes. Metode penentuan keandalan pada dasarnya berarti menentukan berapa banyak
kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, lebih konsisten hasil tes kami berasal dari satu
pengukuran ke yang lain, semakin sedikit kesalahan saat dan, akibatnya, semakin besar keandalan.
Arti dari keandalan, seperti yang diterapkan untuk pengujian dan evaluasi, dapat lebih diperjelas dengan
mencatat poin umum berikut:

1.

Keandalan mengacu pada hasil yang diperoleh dengan instrumen evaluasi dan tidak instrumen itu

sendiri. Setiap instrumen tertentu mungkin memiliki sejumlah reliabilitas yang berbeda, tergantung pada kelompok
yang terlibat dan situasi di mana ia digunakan. Oleh karena itu lebih tepat untuk berbicara tentang keandalan "skor
tes," atau "pengukuran," daripada "tes", atau "instrumen."

2.

Sebuah titik yang terkait erat adalah bahwa perkiraan keandalan selalu mengacu pada jenis tertentu dari

konsistensi. Nilai tes tidak dapat diandalkan pada umumnya. Mereka dapat diandalkan (atau digeneralisasikan)
selama periode waktu yang berbeda, lebih sampel yang berbeda dari pertanyaan, lebih dari penilai yang berbeda,
dan sejenisnya. Hal ini dimungkinkan untuk nilai tes untuk konsisten dalam salah satu hal ini dan tidak di negara
lain. Jenis yang sesuai konsistensi dalam kasus tertentu ditentukan oleh penggunaan dibuat dari hasil. Sebagai
contoh, jika kita ingin tahu apa yang orang akan seperti pada beberapa waktu mendatang, keajegan skor sangat
penting. Di sisi lain, jika kita ingin mengukur pergeseran individu dalam kecemasan dari waktu ke waktu, kita akan
membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan untuk mendapatkan informasi yang kita
inginkan. Jadi, untuk interpretasi yang berbeda kita perlu analisis yang berbeda dari konsistensi. Mengobati
keandalan sebagai karakteristik umum hanya dapat menyebabkan interpretasi yang salah.

3.

Keandalan adalah perlu tetapi bukan kondisi yang cukup untuk validitas. Sebuah tes yang memberikan

hasil yang benar-benar konsisten tidak mungkin memberikan informasi yang valid tentang perilaku yang diukur. Di
sisi lain, hasil tes yang sangat konsisten dapat mengukur hal yang salah atau dapat digunakan dalam cara-cara
yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang
diperoleh, tapi keandalan yang tinggi tidak memberikan jaminan bahwa tingkat memuaskan validitas akan
hadir. Singkatnya, keandalan hanya memberikan konsistensi yang membuat validitas mungkin.
Meskipun ukuran yang sangat handal mungkin memiliki sedikit atau tidak ada validitas, ukuran yang telah
terbukti memiliki tingkat validitas prediktif memuaskan kebutuhan harus memiliki keandalan yang cukup. Jadi, di
mana kita hanya tertarik dalam memprediksi kriteria tertentu, keandalan akan sedikit perhatian jika validitas
prediktif yang memuaskan. 10 4. Tidak seperti validitas, reliabilitas terutama statistik di alam. Analisis logis dari tes
akan memberikan sedikit bukti mengenai keandalan skor. Tes harus diberikan, satu atau beberapa kali, untuk

kelompok yang tepat orang dan konsistensi hasil ditentukan. Konsistensi ini dapat dinyatakan dalam hal pergeseran
dalam kedudukan relatif orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam skor individu
tertentu itu. Konsistensi dari tipe pertama dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
reliabilitas. Konsistensi jenis kedua dilaporkan dengan cara kesalahan baku pengukuran. Kedua metode
mengekspresikan keandalan secara luas digunakan dan harus dipahami oleh orang-orang yang bertanggung jawab
untuk menafsirkan hasil tes. 11 Karena kedua metode memerlukan variabilitas dalam skor, prosedur ini untuk
memperkirakan kehandalan terutama berguna dengan norma-referenced tindakan.
Menentukan Keandalan oleh Metode Korelasi
Dalam menentukan keandalan akan diinginkan untuk mendapatkan dua set langkah-langkah di bawah kondisi
yang sama dan kemudian membandingkan hasilnya. Prosedur ini tidak mungkin, tentu saja, karena kondisi di mana
data evaluasi diperoleh tidak dapat identik. Sebagai pengganti prosedur yang ideal ini beberapa metode estimasi
reliabilitas telah diperkenalkan. Metode serupa dalam bahwa semua dari mereka melibatkan menghubungkan dua
set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk setara dengan prosedur yang
sama. Koefisien korelasi yang digunakan untuk menentukan reliabilitas dihitung dan diinterpretasikan dengan cara
yang sama seperti yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara
koefisien validitas dan koefisien reliabilitas adalah bahwa mantan didasarkan pada kesepakatan dengan kriteria
luar, dan yang terakhir didasarkan pada kesepakatan antara dua set hasil dari prosedur yang sama.
Metode utama memperkirakan kehandalan ditunjukkan pada Tabel 5.1. Perhatikan bahwa berbagai jenis
konsistensi ditentukan oleh methods berbeda "konsistensi selama periode waktu, konsistensi atas berbagai
bentuk instrumen, dan konsistensi dalam instrumen itu sendiri. Koefisien reliabilitas yang dihasilkan dari setiap
metode harus ditafsirkan dalam hal jenis konsistensi sedang diselidiki. Masing-masing metode memperkirakan
keandalan akan dipertimbangkan lebih lanjut secara rinci seperti yang kita lanjutkan. Meskipun metode ini akan
didiskusikan terutama dengan mengacu pada prosedur pengujian, mereka juga berlaku untuk jenis lain dari teknik
evaluasi.
TABEL 5.1
METODE KEANDALAN ESTIMATINC

Jenis
Keandalan Ukur
Test-retest metode Mengukur stabilitas
Setara-bentuk
metode

Prosedur

Mengukur

kesepadanan-

bahwa kekerasan

(Test-retest dengan Measure bentuk setara stabilitas) dan kesetaraan


Split-setengah metode Mengukur konsistensi internal
Berikan tes yang sama dua kali untuk kelompok yang sama dengan
interval waktu antara tes dari beberapa menit sampai beberapa tahun
Berikan dua bentuk tes untuk kelompok yang sama dalam suksesi dekat
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk
Kuder-Richardson
metode

Ukur

internal

konsistensi

Berikan tes sekali. Skor dua bagian setara dengan tes (misalnya, barangbarang aneh dan bahkan item); koefisien reliabilitas yang benar agar
sesuai seluruh tes dengan rumus Spearman-Brown
Berikan tes sekali. Skor keseluruhan pengujian dan menerapkan rumus Kuder-Richardson
Ini akan ditarik dari pembahasan sebelumnya kami koefisien korelasi bahwa hubungan positif yang sempurna
ditandai dengan 1,00 dan hubungan nol dengan .00. Tindakan stabilitas di, 80 dan .90 's biasanya dilaporkan untuk
tes standar kecerdasan dan prestasi atas kesempatan dalam tahun yang sama.

Salah satu faktor penting yang perlu diingat dalam menafsirkan tindakan stabilitas adalah interval waktu antara
tes. Jika interval waktu ini singkat, katakanlah satu atau dua hari, keteguhan dari hasil akan meningkat oleh
kenyataan bahwa murid akan mengingat beberapa jawaban mereka dari tes pertama yang kedua. Jika interval
waktu yang panjang, katakanlah sekitar satu tahun, hasilnya akan tidak hanya dipengaruhi oleh ketidakstabilan
prosedur pengujian tetapi juga oleh perubahan aktual dalam murid selama periode waktu. Secara umum, semakin
lama interval waktu antara tes dan tes ulang lebih hasilnya dipengaruhi oleh perubahan pupil makhluk karakteristik
diukur, dan semakin kecil koefisien reliabilitas.
Jam berapa interval antara tes yang paling disukai akan sangat tergantung pada penggunaan yang akan dibuat
dari hasil. Jika kita mencoba untuk memprediksi dari nilai tes kelas sembilan apakah anak laki-laki cenderung untuk
berhasil di perguruan tinggi, stabilitas selama beberapa tahun cukup penting. Jika kita mencoba untuk memprediksi
apakah dia akan berhasil dalam kursus aljabar tahun ini, stabilitas selama periode lebih lama dari beberapa bulan
yang cukup penting.Dengan demikian, untuk beberapa keputusan yang kita tertarik pada koefisien reliabilitas
berdasarkan interval panjang antara tes dan tes ulang dan, untuk orang lain, koefisien reliabilitas berdasarkan
interval pendek mungkin cukup. Yang penting adalah untuk mencari bukti stabilitas yang sesuai dengan penafsiran
tertentu yang akan dibuat.
Kebanyakan guru tidak akan menemukan mungkin untuk menghitung koefisien reliabilitas test-retest untuk tes
kelas mereka sendiri. Namun, dalam memilih tes standar stabilitas nilai berfungsi sebagai salah satu kriteria
penting. Manual tes harus memberikan bukti stabilitas, menunjukkan interval waktu antara tes dan setiap
pengalaman yang tidak biasa anggota kelompok mungkin memiliki antara pencobaan. Hal lain dianggap sama
(seperti validitas), kita akan mendukung tes yang nilainya telah terbukti memiliki jenis stabilitas yang kita butuhkan
untuk membuat keputusan suara.
Informasi yang berkaitan dengan stabilitas nilai tes juga memiliki implikasi untuk penggunaan hasil tes dari
catatan sekolah dan frekuensi yang diperlukan pengujian ulang. Kita tahu, misalnya, bahwa bakat skolastik
pertama-kelas nilai tes yang cukup stabil selama kesempatan dalam tahun yang sama, tetapi relatif stabil selama
beberapa tahun. Dengan demikian, kita dapat berharap untuk menggunakan hasil tersebut dalam menentukan
kesiapan untuk bekerja pertama-kelas, tetapi tidak harus bergantung pada mereka untuk perkiraan kemampuan
belajar di kelas-kelas SD nanti. Untuk penggunaan ini, tes kedua perlu diberikan pada awal periode SD
nanti. Demikian pula, ketika menggunakan setiap skor tes dari catatan permanen, orang harus memeriksa tanggal
pengujian dan data stabilitas yang tersedia untuk menentukan apakah hasilnya masih bisa diandalkan. Jika ada
keraguan dan keputusan penting, pengujian ulang adalah dalam rangka.
Metode Equivalent-Forms. Memperkirakan reliabilitas dengan menggunakan metode yang setara-bentuk
melibatkan penggunaan dua bentuk yang berbeda namun setara dengan tes (juga disebut paralel atau bentukbentuk alternatif). 1 Kedua bentuk tes yang diberikan kepada kelompok yang sama murid dalam suksesi dekat dan
skor tes yang dihasilkan berkorelasi. Koefisien korelasi ini memberikan ukuran kesetaraan. Dengan demikian, hal ini
menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Perlu dicatat bahwa metode setara-bentuk memberitahu kita apa-apa tentang stabilitas karakteristik murid yang
diukur. Koefisien reliabilitas ini mencerminkan sejauh mana tes merupakan sampel yang memadai dari karakteristik
yang sedang diukur. Dalam pengujian prestasi, misalnya, ada ribuan pertanyaan yang mungkin ditanyakan dalam
tes tertentu. Namun, karena batas waktu dan faktor membatasi lain, hanya sejumlah pertanyaan tes mungkin
dapat digunakan. Jika pertanyaan-pertanyaan yang termasuk dalam tes memberikan sampel yang memadai dari
pertanyaan yang mungkin di daerah. Cara termudah untuk memperkirakan apakah tes mengukur sampel yang
memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasil. Sebuah korelasi yang
tinggi menunjukkan bahwa kedua bentuk mengukur konten yang sama dan oleh karena itu mungkin sampel yang
dapat diandalkan dari wilayah umum konten yang diukur.
Setara-bentuk metode memperkirakan kehandalan tidak jauh dengan masalah sulit memilih interval waktu yang
tepat antara tes seperti yang diperlukan dengan metode tes-tes ulang. Namun, kebutuhan untuk dua bentuk setara
dengan tes membatasi penggunaannya hampir seluruhnya untuk pengujian standar. Berikut ini adalah banyak
digunakan, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan, seorang guru
harus melihat dengan kecurigaan pada setiap tes standar yang memiliki dua bentuk yang tersedia dan tidak
melaporkan informasi mengenai kesetaraan mereka. Komparabilitas hasil dari dua bentuk tidak dapat diasumsikan
kecuali bukti tersebut disajikan.
Metode setara-bentuk kadang-kadang digunakan dengan interval waktu antara pemberian dua bentuk
tes. Dengan kondisi tersebut, koefisien reliabilitas yang dihasilkan memberikan ukuran stabilitas dan kesetaraan. Ini
adalah tes yang paling ketat keandalan karena mencakup semua sumber variasi dalam nilai tes. Stabilitas prosedur

pengujian, keteguhan dari murid karakteristik yang diukur, dan keterwakilan sampel tugas yang termasuk dalam
ujian semua diperhitungkan.Akibatnya, ini umumnya direkomendasikan sebagai prosedur bunyi untuk
memperkirakan keandalan skor tes. Seperti dengan. metode tes-tes ulang biasa, koefisien reliabilitas harus
ditafsirkan dalam terang interval waktu antara dua bentuk tes.Untuk periode waktu yang lebih lama, kita harus
biasanya mengharapkan koefisien reliabilitas yang lebih kecil.
4

bentuk Setara dibangun untuk set yang sama spesifikasi (misalnya, konten pengujian, kesulitan, dan sebagainya) tetapi dibangun

secara mandiri.

Membagi-Half Method. Keandalan skor tes juga dapat diperkirakan dari administrasi tunggal dari satu bentuk
tes. Tes ini diberikan kepada sekelompok siswa dengan cara biasa dan kemudian dibagi dua untuk keperluan
mencetak gol. Untuk membagi tes menjadi dua bagian yang paling setara, prosedur biasa adalah untuk mencetak
item genap dan item ganjil secara terpisah. Hal ini memberikan dua nilai untuk setiap murid yang, ketika
berkorelasi, memberikan ukuran konsistensi internal. koefisien ini menunjukkan sejauh mana kedua bagian tes
adalah sama.
Sebagaimana dicatat, koefisien reliabilitas di atas ditentukan dengan menghubungkan nilai dari dua setengahtes. Untuk memperkirakan keandalan skor berdasarkan uji full-length rumus Spearman-Brown biasanya
diterapkan. Formula ini adalah sebagai berikut:
2 X Keandalan uji%
Keandalan pada uji penuh = . , p rrrrr jrr "r
1

1 + Keandalan pada

H uji

Kesederhanaan rumus dapat dilihat dalam contoh berikut di mana koefisien korelasi antara kedua bagian dari tes
adalah .60:
n i. ui. n i , . 2 x .60 1.20 _ Keandalan pada tes penuh = ^ "^ "JGQ

".10

Koefisien korelasi ini dari 75, maka, memberikan perkiraan keandalan. dari tes penuh di mana setengah-tes
berkorelasi .60.
The split-setengah metode adalah mirip dengan metode setara-bentuk dalam hal itu menunjukkan sejauh mana
sampel item tes adalah sampel yang memadai dari konten yang diukur. Sebuah korelasi yang tinggi antara skor
pada kedua bagian tes menunjukkan kesetaraan dua bagian dan akibatnya kecukupan sampling. Namun, seperti
metode setara-bentuk, ia memberitahu apa-apa tentang perubahan individu dari satu waktu ke lain.
Kuder-Richardson Metode. Cara lain untuk memperkirakan keandalan skor tes dari administrasi tunggal dari satu
bentuk tes adalah dengan cara formula seperti yang dikembangkan oleh Kuder dan Richardson. 12 Formula ini juga
memberikan ukuran konsistensi internal , tetapi mereka tidak memerlukan pemisahan tes dalam setengah
untuk tujuan skor. Salah satu formula, yang disebut Kuder-Richardson Formula 20, didasarkan pada proporsi orang
yang lewat setiap item dan standar deviasi dari nilai keseluruhan. 0 perhitungan ini agak rumit, kecuali informasi
sudah tersedia mengenai proporsi melewati setiap item , tapi theresult sama dengan rata-rata semua splitsetengah kemungkinan koefisien untuk kelompok diuji.
Sebuah formula kurang akurat tapi lebih sederhana untuk menghitung adalah Kuder-Richardson Formula 21.
Formula ini dapat diterapkan pada hasil dari setiap tes yang telah mencetak berdasarkan jumlah jawaban yang
benar. Sebuah versi modifikasi dari formula 13 adalah hal, mereka mirip dengan metode setara-bentuk tanpa
interval waktu. Hanya prosedur tes-tes ulang menunjukkan sejauh mana hasil tes digeneralisasikan atas periode
waktu yang berbeda.
Membandingkan Metode Korelasi. Seperti tercantum dalam diskusi kami sebelumnya, masing-masing metode
estimasi reliabilitas memberikan informasi yang berbeda mengenai konsistensi hasil tes. Ringkasan informasi ini
disajikan pada Tabel 5.2. Tabel ini menjelaskan fakta bahwa sebagian besar metode yang
Keandalan Estimate (KR21) =
M ( K M ) ' Ks

dimana K = jumlah item dalam ujian


M = mean (rata-rata aritmatika) dari skor tes s = deviasi standar dari nilai tes

Formula ini akan menghasilkan kira-kira hasil yang sama seperti Kuder-Richardson Formula 20, tetapi dalam banyak
kasus perkiraan keandalan akan lebih kecil. 14 kepala Keuntungannya adalah kemudahan yang dapat diterapkan.
Perkiraan Kuder-Richardson keandalan berasumsi bahwa item dalam tes homogen. Artinya, bahwa setiap item
tes mengukur kualitas yang sama atau karakteristik seperti setiap lainnya. Dimana asumsi ini dibenarkan, perkiraan
keandalan akan mirip dengan yang disediakan oleh metode split-half. Jika homogenitas kurang, seperti pada tes
prestasi yang mengukur berbagai jenis hasil belajar, meremehkan split-setengah reliabilitas akan menghasilkan. 15
Kesederhanaan menerapkan metode split-half dan metode Kuder-Richardson telah menyebabkan digunakan
secara luas dalam memperkirakan kehandalan. Namun, prosedur konsistensi internal seperti memiliki keterbatasan
yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat tests "untuk tes dengan batas
waktu yang mencegah murid dari mencoba setiap item. Di mana kecepatan adalah faktor yang signifikan dalam
pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah
besar dalam mengestimasi reliabilitas skor tes dari tes buatan guru, karena ini biasanya tes daya. Dalam kasus tes
standar, bagaimanapun, batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Dengan
demikian, ukuran konsistensi internal yang dilaporkan dalam manual tes harus umumnya diabaikan kecuali bukti
juga disajikan bahwa kecepatan kerja merupakan faktor diabaikan. Untuk tes dipercepat, reliabilitas diperoleh oleh
tes-tes ulang atau setara-bentuk metode harus dicari.
Keterbatasan kedua prosedur konsistensi internal adalah bahwa mereka tidak menunjukkan keteguhan respon
murid dari hari ke dav-In ini berkaitan dengan hanya satu atau dua jenis konsistensi dicari dalam hasil tes. Metode
tes-tes ulang, tanpa interval waktu, hanya memperhitungkan konsistensi prosedur pengujian dan keteguhan jangka
pendek respon. Jika interval waktu diperkenalkan antara tes, keteguhan karakteristik murid dari hari ke hari juga
disertakan. Namun, baik dari prosedur test-retest menyediakan informasi mengenai konsistensi hasil atas sampel
yang berbeda dari item, karena kedua set nilai didasarkan pada tes yang sama.
Setara-bentuk metode tanpa interval waktu, metode split-half, dan metode Kuder-Richardson semua
memperhitungkan konsistensi prosedur pengujian dan konsistensi hasil atas sampel yang berbeda dari item.
Hanya metode setara-bentuk dengan masa sela antara tes memperhitungkan semua tiga jenis konsistensi. Ini
adalah alasan bahwa ukuran ini stabilitas dan kesetaraan umumnya dianggap sebagai perkiraan yang paling
berguna dari uji reliabilitas.
standar deviasi. 16 Perlu dicatat bahwa sebagai keandalan koefisien meningkat, untuk setiap deviasi standar yang
diberikan, kesalahan baku pengukuran menurun. Dengan demikian, koefisien keandalan yang tinggi berhubungan
dengan kesalahan kecil dalam skor tes khusus dan koefisien reliabilitas rendah dikaitkan dengan kesalahan besar.
Jika uji manual tidak melaporkan kesalahan baku pengukuran, Tabel 5.3 dapat digunakan untuk memperkirakan
standard error. Sebenarnya ini adalah tujuan yang meja dikembangkan. Semua orang perlu lakukan untuk
mendapatkan perkiraan standard error untuk tes yang diberikan adalah memasukkan kolom dan baris terdekat
dengan koefisien keandalan dan standar deviasi dilaporkan dalam uji manual. Sebagai contoh, koefisien reliabilitas
0,92 dan deviasi standar 16 akan menghasilkan standard error sebesar 5,1. Hal ini diperoleh dengan turun kolom
kedua (.90). sampai Anda datang ke baris di mana deviasi standar 16. contoh kami mirip dengan data yang sering
dilaporkan untuk tes kecerdasan kelompok.Mengakibatkan kesalahan standar kurang lebih sama seperti yang
digunakan dalam ilustrasi kami sebelumnya dengan Mary Smith dan, tentu saja, ditafsirkan dengan cara yang
sama.
Ada beberapa tindakan pencegahan yang harus diingat ketika menggunakan Tabel 5.3 untuk memperkirakan
kesalahan baku pengukuran. Pertama, koefisien keandalan dan deviasi standar harus didasarkan pada kelompok
yang sama orang.Kedua, masuk ke meja dengan koefisien reliabilitas dan standar deviasi terdekat mereka dalam
manual memberi Anda hanya perkiraan kesalahan standar pengukuran. Ketiga, tabel tidak memperhitungkan fakta
bahwa kesalahan baku pengukuran sedikit bervariasi pada tingkat nilai yang berbeda. Dalam keterbatasan ini,
bagaimanapun, Tabel 5.3 memberikan sebuah metode yang sederhana dan cepat untuk memperkirakan kesalahan
baku pengukuran dan perkiraan yang cukup akurat untuk aplikasi yang paling praktis dari hasil tes.
Kesalahan standar pengukuran memiliki dua keunggulan khusus sebagai sarana untuk memperkirakan
kehandalan. Pertama, perkiraan dalam satuan yang sama dengan skor tes. Hal ini memungkinkan untuk langsung
menunjukkan margin of error untuk memungkinkan ketika menafsirkan nilai individu. Kedua, standard error
kemungkinan akan tetap cukup konstan saat Anda pergi dari satu kelompok ke kelompok. Hal ini tidak benar dari
koefisien reliabilitas yang sangat tergantung pada penyebaran nilai dalam kelompok diuji. Karena kelompok yang
reliabilitas dilaporkan dalam manual tes akan selalu agak berbeda dari kelompok diberikan tes, keteguhan lebih
besar dari kesalahan baku pengukuran memiliki nilai praktis yang jelas. Kesulitan utama yang dihadapi dengan

standard error terjadi ketika kita ingin membandingkan dua tes yang menggunakan berbagai jenis nilai. Berikut
koefisien reliabilitas adalah satu-satunya ukuran yang sesuai.
Faktor yang Mempengaruhi Ukuran Keandalan
Sejumlah faktor telah ditunjukkan untuk mempengaruhi tindakan konvensional keandalan. 17 Jika kesimpulan
suara harus ditarik, faktor-faktor ini harus dipertimbangkan ketika menginterpretasikan koefisien reliabilitas. Kita
telah melihat, misalnya, bahwa tes dipercepat akan memberikan koefisien reliabilitas spuriously tinggi dengan
metode konsistensi internal memperkirakan kehandalan. Kami juga telah mencatat bahwa koefisien reliabilitas testretest dipengaruhi oleh interval waktu antara pengujian, dengan interval waktu yang lebih pendek menghasilkan
koefisien keandalan yang lebih tinggi. Dengan demikian, dalam membandingkan koefisien reliabilitas dari dua atau
lebih tes kita harus mengambil faktor-faktor tersebut ke dalam rekening. Meskipun kita mungkin ingin mendukung
tes dengan koefisien reliabilitas tertinggi, kita tidak akan melakukannya jika kita mengakui bahwa koefisien
dilaporkan digelembungkan oleh faktor-faktor yang tidak relevan dengan konsistensi prosedur pengukuran,
Demikian pula, kita mungkin mendiskon perbedaan antara koefisien reliabilitas yang dilaporkan untuk dua tes yang
berbeda jika kondisi di mana mereka diperoleh disukai tes dengan koefisien reliabiliy tertinggi.
Pertimbangan faktor yang mempengaruhi keandalan tidak hanya akan membantu kita menginterpretasikan
koefisien reliabilitas tes standar yang lebih bijaksana, tetapi juga harus membantu kita dalam membangun tes kelas
norma-referenced lebih dapat diandalkan. Meskipun guru jarang menemukan menguntungkan untuk menghitung
koefisien reliabilitas untuk tes mereka membangun, mereka dapat dan harus mengambil tanggung jawab dari
faktor yang mempengaruhi keandalan untuk memaksimalkan keandalan tes kelas mereka sendiri.
Panjang Test. Secara umum, semakin lama, menguji keandalan yang lebih tinggi. Hal ini disebabkan oleh fakta
bahwa tes lagi akan memberikan contoh yang lebih memadai perilaku yang diukur dan nilai cenderung menjadi
kurang terdistorsi oleh faktor kebetulan seperti menebak. Misalkan, untuk mengukur kemampuan mengeja, kami
meminta murid untuk mengeja satu kata. Hasilnya akan dia terang-terangan tidak dapat diandalkan. Murid yang
mampu mengeja kata akan spellers sempurna dan murid yang tidak bisa akan kegagalan lengkap. Jika kita terjadi
untuk memilih kata yang sulit sebagian besar murid akan gagal; jika kata adalah salah satu yang paling mudah
murid akan muncul menjadi spellers sempurna. Fakta bahwa satu kata memberikan perkiraan yang tidak dapat
diandalkan kemampuan mengeja murid adalah jelas. Ini harus sama-sama jelas bahwa ketika kita menambahkan
kata-kata ejaan ke dalam daftar, kami datang lebih dekat dan lebih dekat dengan perkiraan yang baik dari
kemampuan mengeja setiap anak. Skor didasarkan pada sejumlah besar kata ejaan lebih cenderung untuk
mencerminkan perbedaan nyata dalam kemampuan mengeja dan karena itu akan lebih stabil. Jadi, dengan
meningkatkan ukuran sampel perilaku ejaan kita meningkatkan konsistensi pengukuran kami.
Sebuah tes lagi juga cenderung untuk mengurangi pengaruh faktor kesempatan seperti menebak. Sebagai
contoh, pada sepuluh-item tes benar-dan-salah seorang murid mungkin tahu tujuh item dan menebak tiga
lainnya. Dia bisa menebak dengan benar pada semua tiga item dan memiliki nilai sempurna atau dia bisa menebak
salah pada ketiga item dan berakhir dengan hanya tujuh yang benar. Hal ini akan mewakili variasi dalam nilai tesnya karena menebak sendiri. Namun, jika murid sama ini mengambil tes dengan seratus item benar dan salah
tebakan yang benar itu akan cenderung dibatalkan oleh tebakan yang salah, dan skor akan menjadi indikasi lebih
diandalkan pengetahuan yang sebenarnya.
Fakta bahwa tes lagi cenderung memberikan hasil yang lebih dapat diandalkan tersirat sebelumnya dalam
diskusi kita tentang metode split-setengah. Perlu diingat bahwa ketika skor dari dua bagian dari tes 'berkorelasi .60
rumus Spearman-Brown memperkirakan keandalan skor untuk tes full-length menjadi 75. Ini, tentu saja, adalah
setara dengan memperkirakan peningkatan keandalan yang diharapkan ketika panjang dari tes ini adalah dua kali
lipat.
Ada satu reservasi penting dalam mengevaluasi pengaruh panjang uji pada keandalan nilai, yaitu bahwa laporan
kami telah membuat mengasumsikan bahwa tes akan diperpanjang dengan menambahkan item tes kualitas yang
sama seperti yang sudah di uji. Menambahkan sepuluh kata ejaan yang begitu mudah sehingga setiap orang akan
membuat mereka benar atau menambahkan sepuluh kata ejaan yang begitu sulit sehingga tak seorang pun akan
membuat mereka benar tidak akan meningkatkan keandalan dari nilai pada tes ejaan norma-referenced. Bahkan
tidak akan ada pengaruh pada koefisien reliabilitas karena penambahan tersebut tidak akan mempengaruhi berdiri
relatif siswa dalam kelompok.

Dalam membangun tes kelas adalah penting untuk diingat pengaruh panjang uji pada keandalan dan berusaha
untuk tes lagi. Dimana tes pendek diperlukan karena batas waktu atau usia siswa, tes yang lebih sering dapat
digunakan untuk mendapatkan ukuran diandalkan prestasi.
Dalam menggunakan tes standar, kita harus waspada terhadap skor sebagian didasarkan pada item yang relatif
sedikit. Skor tersebut biasanya rendah dalam kehandalan dan nilai praktis sedikit atau tidak ada. Sebelum
menggunakan nilai seperti manual tes harus hati-hati diperiksa untuk reliabilitas mereka dilaporkan. Jika ini tidak
dilaporkan, atau sangat rendah, skor bagian harus diabaikan dan hanya total nilai tes harus digunakan.
Penyebaran Skor. Seperti disebutkan sebelumnya koefisien reliabilitas secara langsung dipengaruhi oleh
penyebaran skor pada kelompok diuji. Hal lain dianggap sama, semakin besar penyebaran skor, semakin tinggi
perkiraan keandalan. Karena koefisien reliabilitas lebih besar terjadi ketika individu cenderung untuk tinggal di
posisi yang relatif sama dalam kelompok, dari satu pengujian ke yang lain, secara alamiah bahwa apa pun yang
mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi untuk koefisien
reliabilitas lebih besar. Dalam hal ini perbedaan yang lebih besar antara nilai individu mengurangi kemungkinan
pergeseran posisi. Dengan kata lain, kesalahan pengukuran kurang berpengaruh pada posisi relatif individu di mana
perbedaan di antara anggota kelompok large "yaitu, di mana ada berbagai penyebaran skor.
Hal ini dapat dengan mudah digambarkan tanpa bantuan statistik. Bandingkan dua set berikut skor dalam hal
probabilitas bahwa individu akan tetap berada di posisi yang relatif sama pada administrasi kedua tes. Bahkan
pemeriksaan sepintas skor ini akan membuat jelas bahwa orang-orang di Grup B lebih cenderung bergeser posisi
pada pemerintahan kedua tes. Dengan hanya penyebaran sepuluh poin dari top skor dengan skor bawah,
pergeseran radikal dalam posisi dapat hasil dari perubahan hanya beberapa poin dalam nilai ujian dari orang-orang
ini.
Namun, di Grup A nilai tes individu bisa bervariasi oleh beberapa poin, administrasi kedua tes, dengan sangat
sedikit pergeseran dalam posisi relatif dari anggota kelompok. Penyebaran besar nilai tes di Grup A membuat
pergeseran dalam posisi relatif tidak mungkin, dan dengan demikian memberi kita keyakinan yang lebih besar
bahwa perbedaan-perbedaan di antara anggota kelompok perbedaan nyata.
Grup A

Grup B

95

95

90

94

86

93

82

93

76

92

65

91

60

89

56

88

53

86

47

85

Ketika membangun tes penguasaan kriteria-direferensikan, penyebaran nilai tidak relevan karena kita berharap
bahwa semua, atau hampir semua, murid akan mendapatkan nilai sempurna. Ketika mengukur sejauh mana siswa
telah berkembang melampaui penting minimum tentu saja, namun, kami harus berusaha untuk membangun tes
kelas norma-referenced yang dihasilkan Dalam berbagai penyebaran skor. Dengan cara ini kita dapat memiliki
jaminan yang lebih besar bahwa perbedaan dalam perkembangan murid (di luar tingkat penguasaan)
mencerminkan perbedaan diandalkan dalam prestasi dan bukan perbedaan karena faktor kebetulan seperti
menebak. Untuk mendapatkan penyebaran lebih luas nilai tes, sebagian besar guru perlu membangun lebih sulit
tes norma-referenced. Ini biasanya harus dilakukan dengan menekankan pengukuran yang lebih kompleks hasil
belajar (misalnya, transfer, pemecahan masalah). Prosedur tersebut akan cenderung untuk meningkatkan
keandalan skor tes dan pada saat yang sama memiliki pengaruh positif pada validitas. Sewenang-wenang
memanipulasi kata-kata dari item tes, hanya untuk membuat mereka lebih sulit, kemungkinan akan menghasilkan
peningkatan keandalan dengan mengorbankan validitas.
Dalam memilih tes standar, pengaruh penyebaran skor tes pada koefisien reliabilitas juga harus
dipertimbangkan. Sebagai contoh, banyak penerbit uji melaporkan koefisien reliabilitas dihitung berdasarkan nilai
tes selama beberapa tingkatan kelas. Karena skor gabungan murid dari beberapa tingkatan kelas memiliki

penyebaran yang jauh lebih besar dari nilai daripada yang ditemukan pada tingkat kelas tunggal, koefisien
reliabilitas tersebut spuriously tinggi. Koefisien reliabilitas ini harus diabaikan ketika memilih tes untuk tingkat kelas
tertentu. Setiap upaya harus dilakukan untuk mendapatkan bukti keandalan pada sekelompok murid serupa dengan
yang kami berencana untuk mengelola tes. Hanya dengan cara ini kita dapat memiliki beberapa jaminan bahwa
koefisien reliabilitas yang dilaporkan dalam uji manual memberikan perkiraan memuaskan keandalan tes untuk
kelompok tertentu kami murid.
Kesulitan Test. Tes Norm-referenced yang terlalu mudah atau terlalu sulit bagi anggota kelompok mengambil
akan cenderung memberikan nilai keandalan rendah. Hal ini disebabkan oleh fakta bahwa tes mudah dan sulit
menghasilkan penyebaran terbatas skor. Dalam kasus tes mudah, skor yang berdekatan di ujung atas
skala. Dengan ujian yang sulit, skor dikelompokkan bersama-sama di ujung bawah skala. Untuk keduanya, namun,
perbedaan antara individu-individu yang kecil dan cenderung tidak bisa diandalkan. Sebuah tes mengacu-norma
kesulitan yang ideal akan mengizinkan skor untuk tersebar di berbagai skala, seperti yang ditunjukkan pada
Gambar 5.1.
Berarti Rentang
Keandalan perkiraan

Implikasi untuk pengujian kelas yang jelas dan disinggung dalam bagian sebelumnya. Tes prestasi kelas yang
dirancang untuk

GAMBAR 5.1. Perbandingan hipotetis distribusi skor tes dan estimasi koefisien reliabilitas untuk tes norma-referenced 100
butir. (Keandalan dihitung dengan rumus KR21 asumsi yang wajar standar deviasi.) perbedaan ukuran antara murid (norma-

referenced) harus dikonstruksi sedemikian sehingga skor rata-rata adalah 50 persen benar dan bahwa skor berkisar
dari mendekati nol hingga mendekati sempurna. Sebenarnya, 50 persen yang benar hanya berlaku untuk pendekjawaban jenis item. Untuk pemilihan jenis item, skor rata-rata yang ideal akan lebih tinggi, karena sebagian dari
barang-barang yang bisa menjawab dengan benar menebak. Pada tes benar-salah, misalnya, siswa dapat
diharapkan untuk mendapatkan 50 persen dari barang-barang yang benar dengan menebak (skor kesempatan),
dan pada tes pilihan ganda lima pilihan skor kesempatan diharapkan akan menjadi 20 persen yang benar (satu dari
lima). Kita bisa memperkirakan kesulitan rata-rata ideal untuk seleksi tipe dengan mengambil titik tengah antara
skor kesempatan yang diharapkan dan skor maksimum yang mungkin. Dengan demikian, untuk 100 soal tes benarsalah kesulitan rata-rata ideal akan 75 (pertengahan antara 50 dan 100), dan untuk 100 butir lima pilihan tes
pilihan ganda kesulitan rata-rata ideal akan 60 (pertengahan antara 20 dan 100 ). Membangun tes yang cocok ini
tingkat ideal kesulitan memungkinkan berbagai macam nilai yang mungkin untuk digunakan dalam mengukur
perbedaan antara individu. Seperti disebutkan sebelumnya, semakin besar penyebaran skor, semakin besar
kemungkinan bahwa perbedaan diukur dapat diandalkan.
Kesulitan item tes dalam tes standar juga harus hati-hati dievaluasi. Dimana tes telah dirancang untuk beberapa
tingkatan kelas tingkat kesulitan biasanya paling tepat untuk nilai di tengah-tengah rentang. Tes mungkin agak
terlalu sulit untuk tingkat kelas terendah dan sedikit terlalu mudah untuk tingkat kelas tertinggi. Dengan demikian,
pada tingkatan kelas ekstrim yang biasanya dapat mengharapkan perbedaan antara individu-individu menjadi
kurang dapat diandalkan. Informasi yang berkaitan dengan kesulitan tes, di masing-masing tingkatan kelas yang ia
dirancang, biasanya dapat diperoleh dari uji manual.
Dalam mengevaluasi kesulitan tes standar guru juga harus memperhitungkan tingkat kemampuan muridmuridnya. Sebuah tes yang kesulitan sesuai untuk rata-rata siswa kelas lima mungkin tidak sesuai untuk kelas lima
yang mengandung jumlah yang tidak proporsional dari peserta didik lambat atau murid berbakat. Kesulitan lebih
tepat untuk kelompok tertentu sering dapat diperoleh dengan menggunakan tes yang dirancang untuk terendah
berikutnya atau kelas tertinggi berikutnya.
Objektivitas. Objektivitas tes mengacu pada sejauh mana skor sama kompeten memperoleh hasil yang
sama. Sebagian besar tes standar kecerdasan dan prestasi yang tinggi objektivitas. Item tes adalah dari jenis
tujuan (misalnya, pilihan ganda), dan skor yang dihasilkan tidak dipengaruhi oleh pertimbangan atau pendapat
pencetak gol. Bahkan, tes tersebut biasanya dibangun sehingga mereka dapat secara akurat dicetak oleh pegawai
terlatih dan mesin mencetak gol. Dimana prosedur yang sangat obyektif tersebut digunakan keandalan hasil tes
tidak terpengaruh oleh prosedur penilaian.

Dalam kasus tes kelas dibangun oleh guru, namun, objektivitas mungkin memainkan peran penting dalam
memperoleh langkah-langkah yang dapat diandalkan prestasi. Dalam pengujian esai, serta dalam penggunaan
berbagai observasional

1.

Metode tes-tes ulang

2.

Metode Equivalent-bentuk (tanpa interval waktu)

3.

Metode Equivalent-bentuk (dengan interval waktu)

4.

Split-setengah metode

5.

Metode Kuder-Richardson

Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang diberikan. Mungkin lebih besar
dari split-setengah metode jika interval waktu yang singkat. Koefisien menjadi lebih kecil sebagai interval waktu
antara tes meningkat.
Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang diberikan. Cenderung lebih
rendah dibandingkan dengan metode tes-tes ulang menggunakan selang waktu singkat.
Biasanya menyediakan terkecil koefisien reliabilitas untuk tes yang diberikan. Koefisien menjadi lebih kecil sebagai
interval waktu antara tes meningkat.
Biasanya menyediakan terbesar koefisien reliabilitas untuk tes yang diberikan. Perkiraan spuriously tinggi
diproduksi untuk tes dipercepat.
Biasanya memberikan perkiraan keandalan yang lebih kecil dari yang diperoleh oleh split-half method. Perkiraan ini
juga digelembungkan oleh kecepatan.
Variasi dalam ukuran koefisien reliabilitas karena metode memperkirakan keandalan terkait secara langsung
dengan jenis konsistensi yang termasuk dalam masing-masing metode. Perlu diingat bahwa metode setara-bentuk
dengan interval waktu intervensi memperhitungkan semua sumber variasi dalam nilai tes dan akibatnya adalah
metode yang paling ketat memperkirakan kehandalan. Dengan demikian, koefisien reliabilitas yang lebih kecil
dapat diharapkan dengan metode ini, dan itu sangat tidak adil untuk membuat perbandingan langsung dari
koefisien reliabilitas tersebut dengan yang diperoleh dengan metode kurang ketat.
Pada ekstrem yang lain, koefisien reliabilitas yang lebih besar biasanya dilaporkan untuk metode split-half harus
diterima dengan hati-hati. Jika kecepatan merupakan faktor penting dalam pengujian, split-setengah koefisien
reliabilitas harus diabaikan seluruhnya dan bukti lain keandalan harus dicari.
Keandalan Criterion-Referenced Penguasaan Tes
Bila menggunakan tes penguasaan kriteria-direferensikan, keinginan kita untuk konsistensi pengukuran adalah
sama dengan yang untuk tes norma-referenced. Jadi, kami ingin kinerja seseorang menjadi (1) konsisten dari satu
item ke yang lain, di mana semua item yang mengukur hasil belajar yang sama (konsistensi internal), ( 2 ) konsisten
dari satu waktu ke yang lain, di mana hasil pembelajaran diharapkan memiliki tingkat yang wajar keteguhan
(stabilitas); dan ( 3 ) konsisten dari satu bentuk tes yang lain, di mana bentuk-bentuk dimaksudkan untuk mengukur
sampel yang sama dari tugas-tugas belajar (kesetaraan). Sayangnya, kemampuan kita untuk memperkirakan jenis
konsistensi tidak cocok kebutuhan kita akan informasi tersebut. Sejak tes penguasaan kriteria-direferensikan tidak
dirancang untuk membedakan antara individu-individu, dan dengan demikian variabilitas tidak perlu hadir dalam
skor, perkiraan korelasional tradisional kehandalan adalah tidak pantas.Ada berbagai upaya untuk mengembangkan

langkah-langkah statistik untuk memperkirakan keandalan tes penguasaan kriteria-direferensikan, tetapi solusi
yang memuaskan belum tercapai. 18
Bila menggunakan tes penguasaan kriteria-direferensikan dalam instruksi kelas, kita dapat meningkatkan
kemungkinan hasil yang dapat diandalkan dengan menggunakan sampel yang cukup besar item tes untuk setiap
hasil belajar yang akan diukur. Jika hasilnya sangat spesifik dan sangat terstruktur (misalnya, menambahkan dua
angka satu digit), jumlah yang relatif kecil item (katakanlah lima) mungkin cukup untuk penghakiman diandalkan
mengenai penguasaan. Untuk sebagian besar keputusan penguasaan-nonmastery Namun, sepuluh item untuk
setiap hasil belajar spesifik akan menyediakan minimal lebih diinginkan. Dimana keputusan instruksional
didasarkan pada kurang dari sepuluh item, kita harus membuat keputusan hanya tentatif
dan mencari verifikasi dari data lain yang tersedia dan dari observasi kelas.
How High Haruskah Keandalan Be?
Tingkat keandalan kami menuntut dalam langkah-langkah pendidikan kita sangat tergantung pada sifat dari
keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes sebagai dasar untuk memutuskan apakah akan
meninjau daerah-daerah tertentu dari materi pelajaran, kita mungkin bersedia untuk 1 menggunakan tes buatan
guru keandalan diketahui. Keputusan kami akan didasarkan pada nilai dari total kelompok, dan inkonsistensi dalam
nilai individu tidak akan mendistorsi keputusan kami terlalu banyak. Bahkan jika kita keliru dalam keputusan kami,
tidak ada bencana besar akan menghasilkan. Yang terburuk yang bisa terjadi adalah bahwa siswa akan
mendapatkan review yang tidak perlu bahan, atau mereka akan kehilangan review yang mungkin akan bermanfaat
bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes sebagai dasar untuk memutuskan mana siswa harus
ditempatkan di kelas khusus untuk cacat mental kita akan menuntut pengukuran paling dapat diandalkan
tersedia. Kita tidak akan puas dengan tes kelompok intelijen untuk tujuan ini tetapi ingin menggunakan salah satu
dari tindakan individu lebih dapat diandalkan kecerdasan. Kita mungkin juga ingin memperoleh bukti yang paling
dapat diandalkan tersedia mengenai murid yang belajar, pembangunan sosial, dan penyesuaian sebelum
keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi signifikan sehingga kita bersedia untuk
mencurahkan waktu dan biaya untuk meningkatkan keandalan data kami bahkan jika kenaikan tersebut
sedikit. Kami ingin menjadi percaya diri sebagai mungkin bahwa kami akan membuat keputusan yang tepat ketika
kita menempatkan murid di kelas khusus untuk cacat mental.
Hal ini tidak hanya pentingnya keputusan yang penting, tetapi juga apakah mungkin untuk mengkonfirmasi atau
membalikkan penghakiman di lain waktu. 19 Pengambilan keputusan dalam pendidikan jarang tunggal, tindakan
terakhir. Ini cenderung berurutan di alam, dimulai dengan penilaian agak kasar dan melanjutkan melalui
serangkaian penilaian yang lebih halus. Pada tahap awal pengambilan keputusan keandalan rendah mungkin cukup
lumayan, karena hasil tes yang digunakan terutama sebagai panduan untuk mengumpulkan informasi lebih
lanjut. Sebagai contoh, berdasarkan tes kelas keandalan dipertanyakan kita mungkin memutuskan bahwa beberapa
murid kami mengalami kesulitan belajar seperti yang bersifat serius yang mereka membutuhkan bantuan
khusus. Keputusan ini memberikan firasat yang berguna yang dapat dikonfirmasi atau disangkal oleh pengujian
lebih lanjut dengan langkah-langkah lebih diandalkan. Demikian pula, inventarisasi kepribadian keandalan rendah
mungkin berguna sebagai langkah pertama dalam mendeteksi murid maladjusted, menyediakan mereka dengan
skor yang menunjukkan kemungkinan ketidakmampuan diikuti oleh penelitian yang lebih intensif. Juga, kelompok
skor bakat skolastik hanya stabilitas moderat mungkin berguna dalam pengelompokan murid SD, karena mereka
yang kesalahan klasifikasi dapat dengan mudah bergeser sebagai bukti baru telah tersedia. Peluang untuk
konfirmasi dan pembalikan penilaian tanpa konsekuensi serius hampir selalu hadir d i tahap awal pengambilan
keputusan pendidikan.
Yang penting ketika keandalan rendah, atau tidak dikenal, bukan untuk mengobati skor seolah-olah mereka
sangat akurat. Membuat penilaian tentatif, mencari konfirmasi data, dan bersedia untuk membalikkan keputusan
ketika salah.Beberapa modifikasi dalam kebijakan sekolah juga mungkin diperlukan. Jika, misalnya, kemampuan
mental terbukti menjadi tidak stabil sampai enam belas usia, seseorang tidak harus mengadopsi kebijakan
klasifikasi yang membuat keputusan tentang siapa yang akan berencana untuk pergi ke perguruan tinggi pada usia
sebelas tahun. Singkatnya, nilai tes keandalan rendah dapat berguna jika mereka ditafsirkan dengan hati-hati dan
hanya digunakan untuk keputusan reversibel tentatif. 20
Dimana keputusan ireversibel akhir sedang dilakukan, kita akan, tentu saja, terdorong untuk mencari informasi
yang paling dapat diandalkan tersedia. Kami tidak ingin beasiswa penghargaan, menolak pelamar perguruan tinggi,

atau melakukan seseorang ke rumah sakit jiwa atas dasar langkah-langkah dengan keandalan rendah atau
dipertanyakan.
Jadi, ketika kami meminta question tersebut "Seberapa tinggi seharusnya menjadi keandalan? " beberapa
pertimbangan harus diperhitungkan. Seberapa penting adalah keputusan? Apakah yang dapat dikonfirmasi atau
terbalik di lain waktu? Seberapa jauh mencapai yang konsekuensi dari tindakan yang diambil? Untuk keputusan
penting yang ireversibel dan cenderung memiliki pengaruh besar pada kehidupan murid individual, kita akan
membuat tuntutan ketat pada keandalan dari langkah-langkah yang kita gunakan. Untuk keputusan yang lebih
rendah, dan terutama bagi mereka yang dapat kemudian dikonfirmasi atau terbalik tanpa konsekuensi serius, kami
akan bersedia menerima tindakan kurang dapat diandalkan. Dengan demikian, tergantung pada seberapa yakin
kita perlu tentang keputusan yang dibuat. Keyakinan yang lebih besar memerlukan keandalan yang lebih tinggi.
USABILITY
Dalam memilih instrumen evaluasi, pertimbangan praktis tidak dapat diabaikan. Tes biasanya diberikan dan
diinterpretasikan oleh guru dengan hanya jumlah minimum pelatihan dalam pengukuran. Waktu yang tersedia
untuk pengujian hampir selalu terbatas dan dalam kompetisi konstan dengan kegiatan penting lainnya untuk waktu
yang diberikan dalam jadwal sekolah. Demikian juga, biaya pengujian, meskipun pertimbangan minor, adalah
sebagai hati-hati diteliti oleh administrator anggaran-sadar seperti pengeluaran dana lain sekolah. Ini dan faktorfaktor lain yang berkaitan dengan oL kegunaan tes dan prosedur evaluasi harus diperhitungkan ketika memilih
instrumen evaluasi. Pertimbangan praktis seperti ini terutama relevan dalam memilih tes standar untuk program
pengujian sekolah-lebar.
Kemudahan Administrasi
Dimana tes yang akan diberikan oleh guru atau orang lain dengan pelatihan terbatas, kemudahan administrasi
adalah kualitas sangat penting untuk mencari dalam uji coba. Untuk tujuan ini arah harus sederhana dan jelas,
subyek harus relatif sedikit, dan waktu tes seharusnya tidak terlalu sulit. Penyelenggara tes dengan arah yang
rumit dan sejumlah subyek kekal tetapi beberapa menit masing-masing adalah tugas berat untuk bahkan
pemeriksa berpengalaman. Untuk orang dengan little'training dan pengalaman, situasi seperti ini penuh dengan
kemungkinan kesalahan dalam memberikan arah, waktu, dan aspek lain dari administrasi yang mungkin
mempengaruhi hasil. Seperti kesalahan administrasi harus, tentu saja, efek buruk pada validitas dan reliabilitas
skor tes yang dihasilkan.
Waktu yang diperlukan untuk Administrasi
Dengan waktu untuk pengujian pada premium, kita akan selalu mendukung tes lebih pendek, hal lain dianggap
sama. Dalam hal ini hal-hal lain yang jarang sama, namun, karena keandalan secara langsung berhubungan dengan
panjang tes.Jika kita mencoba untuk mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian kita
cenderung untuk mengurangi secara drastis keandalan nilai kami. Misalnya, tes dirancang untuk memenuhi periode
kelas normal biasanya menyediakan skor total tes rehability memuaskan, tetapi skor bagian mereka, diperoleh dari
subyek, cenderung dapat diandalkan. Jika kita ingin langkah-langkah yang dapat diandalkan di wilayah yang
dicakup oleh subyek, kita perlu meningkatkan waktu pengujian kami di daerah masing-masing. Di sisi lain, jika kita
ingin ukuran umum di beberapa daerah, seperti kecerdasan verbal, kita dapat memperoleh hasil yang dapat
diandalkan dalam 30 atau 40 menit dan ada sedikit keuntungan dalam memperpanjang waktu pengujian. Sebuah
prosedur yang aman adalah untuk membagikan waktu sebanyak yang diperlukan untuk mendapatkan hasil yang
valid dan reliabel dan tidak lebih. Di suatu tempat antara 20 dan 60 menit dari waktu pengujian untuk masingmasing skor individu yang dihasilkan oleh tes standar mungkin merupakan panduan yang cukup baik.
Kemudahan Scoring
Secara tradisional, salah satu aspek yang paling membosankan dan menyusahkan dari program pengujian
sekolah telah menjadi skor tes. Di masa lalu, banyak guru yang bekerja terlalu keras telah menghabiskan berjamjam di tugas ini. Untuk membuat prosedur bahkan lebih memberatkan daripada perlu, arah scoring yang sering
rumit, tes berisi berbagai subyek dan beberapa item tes subyektif, dan tombol scoring yang rumit. Meskipun skor
tes masih merupakan masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah mereda
beban
jauh. Perkembangan
ini
meliputi (1) kecenderungan
menuju
tes
standar
benar-benar

objektif, ( 2 ) meningkatkan kejelasan dalam petunjuk untuk mencetak gol dan meningkatkan kesederhanaan dalam
kunci scoring, ( 3 ) penggunaan lembar jawaban yang terpisah, dan (4) mesin gol.
Dalam memilih tes standar, mereka yang membutuhkan jumlah minimal waktu, keterampilan, dan biaya untuk
penilaian harus diberikan preferensi. Penggunaan lembar jawaban yang terpisah, misalnya, tidak hanya akan
memberikan kontribusi untuk kemudahan mencetak gol, tetapi juga akan mengurangi biaya pengujian karena fakta
bahwa buklet pengujian yang sama dapat digunakan lagi beberapa kali. Selain itu, jika mesin gol tersedia dengan
biaya yang wajar, lembar jawaban yang terpisah bisa meringankan guru dari tugas ulama menjengkelkan. Faktorfaktor tersebut harus diperhitungkan pada saat tes ini sedang dievaluasi, dan tidak ada tes harus dipilih sampai
ketentuan penilaian telah diberikan pemikiran yang mendalam. Hal lain dianggap sama, kita akan mendukung tes
yang memberikan kemudahan dan ekonomi dari skor tanpa mengorbankan akurasi mencetak gol.
Kemudahan Interpretasi dan Aplikasi
Dalam analisis akhir, keberhasilan atau kegagalan program pengujian ditentukan oleh penggunaan yang terbuat
dari hasil tes. Jika mereka diinterpretasikan dengan benar dan diterapkan secara efektif mereka akan memberikan
kontribusi untuk keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil tes salah ditafsirkan atau
disalahgunakan atau tidak diterapkan pada semua mereka akan memiliki nilai yang kecil dan benar-benar dapat
membahayakan beberapa individu atau kelompok.
Informasi yang menyangkut interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari uji manual
atau panduan yang terkait. Perhatian harus diarahkan kemudahan yang skor mentah dapat dikonversi menjadi nilai
yang berarti diturunkan, kejelasan dengan yang tabel norma disajikan, dan kelengkapan saran untuk menerapkan
hasil untuk masalah pendidikan. Dimana hasil tes akan disampaikan kepada murid, atau orang tua mereka,
kemudahan interpretasi dan aplikasi harus diberikan pertimbangan khusus.
Ketersediaan Setara atau Sebanding Formulir
Bagi banyak tujuan pendidikan setara bentuk tes yang sama sering diinginkan. Bentuk setara dari tes mengukur
aspek perilaku yang sama dengan menggunakan item tes yang sama dalam isi, tingkat kesulitan, dan karakteristik
penting lainnya.Dengan demikian, salah satu bentuk tes dapat menggantikan yang lain. Hal ini memungkinkan
untuk menguji murid dua kali dalam suksesi agak dekat tanpa jawaban mereka pada pengujian pertama
mempengaruhi kinerja mereka pada tes kedua. Keuntungan dari bentuk setara yang mudah terlihat dalam studi
gain prestasi. Di sini kita ingin menghilangkan faktor memori saat menguji murid dua kali di daerah yang sama
prestasi. Bentuk setara dari tes juga dapat digunakan untuk memverifikasi skor tes dipertanyakan. Sebagai contoh,
seorang guru mungkin merasa bahwa bakat atau prestasi skor tes skolastik terlalu rendah untuk murid tertentu. Hal
ini dapat dengan mudah diperiksa dengan pemberian bentuk setara tes.
Banyak tes juga menyediakan sebanding bentuk. Tes prestasi, misalnya, biasanya diatur dalam serangkaian
yang meliputi tingkat kelas yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang
berbeda dibuat sebanding dengan skala skor umum. Dengan demikian, adalah mungkin untuk membandingkan
pengukuran di kelas empat dengan pengukuran di kelas enam pada bentuk yang lebih maju dari tes. Bentuk
Sebanding sangat berguna dalam studi jangka panjang pertumbuhan pendidikan.
Biaya
Faktor biaya telah diserahkan kepada yang terakhir karena relatif tidak penting dalam memilih tes. Alasan untuk
membahas sama sekali adalah bahwa kadang-kadang diberikan jauh lebih berat daripada yang layak. Pengujian
relatif murah, dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam program pengujian skala besar di
mana tabungan kecil per murid menambahkan, dengan menggunakan lembar jawaban yang terpisah, mesin gol,
dan booklet dapat digunakan kembali akan mengurangi biaya lumayan. Untuk memilih salah satu tes bukan yang
lain, namun, karena buku uji adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan
reliabilitas adalah karakteristik penting untuk mencari, dan tes kurang dalam kualitas ini terlalu mahal dengan
harga apapun. Di sisi lain, kontribusi yang nilai tes yang valid dan dapat diandalkan dapat membuat keputusan
pendidikan tampaknya menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
RINGKASAN
Sebelah validitas, reliabilitas adalah kualitas yang paling penting untuk mencari dalam hasil evaluasi. Keandalan
mengacu pada bagaimana skor tes konsisten dan hasil evaluasi lainnya adalah dari satu pengukuran ke yang
lain. Dalam menafsirkan dan menggunakan informasi kehandalan, penting untuk diingat bahwa perkiraan
keandalan mengacu pada hasil pengukuran, bahwa cara-cara yang berbeda untuk memperkirakan keandalan

menunjukkan berbagai jenis konsistensi, bahwa suatu ukuran yang andal tidak selalu berlaku, dan kehandalan yang
terutama statistik konsep. Estimasi reliabilitas dapat dilaporkan dalam hal koefisien reliabilitas atau kesalahan baku
pengukuran.
Koefisien reliabilitas ditentukan dengan beberapa metode yang berbeda dan masing-masing metode
memberikan ukuran yang berbeda dari konsistensi. Metode tes-tes ulang melibatkan pemberian tes yang sama dua
kali untuk kelompok yang sama dengan interval waktu intervensi, dan koefisien yang dihasilkan memberikan
ukuran stabilitas. Berapa lama interval waktu harus antara tes ditentukan terutama oleh penggunaan harus terbuat
dari hasilnya. Kami akan terutama tertarik pada koefisien reliabilitas berdasarkan interval sebanding dengan
periode w a k t u y a n g tercakup dalam prediksi kami. Metode setara-bentuk melibatkan pemberian dua bentuk tes
untuk kelompok yang sama dalam suksesi dekat atau dengan interval waktu intervensi. Hasil pertama dalam
ukuran kesetaraan, dan yang kedua, dalam ukuran stabilitas dan kesetaraan. Yang terakhir prosedur menyediakan
tes yang paling ketat keandalan, karena mencakup semua sumber variasi dalam skor tes.Keandalan juga dapat
diperkirakan dari administrasi tunggal dari satu bentuk tes, baik dengan menghubungkan skor pada dua bagian dari
tes atau dengan menerapkan salah satu formula Kuder-Richardson. Kedua metode memberikan ukurankonsistensi
internal dan mudah diterapkan. Namun, mereka tidak berlaku untuk tes dipercepat, dan mereka tidak memberikan
informasi mengenai stabilitas nilai tes dari hari ke hari.
Kesalahan standar pengukuran menunjukkan kehandalan dalam hal jumlah variasi yang diharapkan dalam skor
tes individu. Hal ini dapat dihitung dari koefisien keandalan dan standar deviasi, tetapi sering dilaporkan langsung
dalam manual tes. Standard error ini sangat berguna dalam menafsirkan hasil tes, karena menunjukkan "band
kesalahan" yang mengelilingi setiap skor. Hal ini juga memiliki keuntungan yang tersisa cukup konstan dari satu
kelompok ke kelompok.
Estimasi reliabilitas dapat bervariasi sesuai dengan panjang tes, penyebaran skor pada kelompok diuji, kesulitan
tes, objektivitas skor, dan metode estimasi reliabilitas. Faktor-faktor ini harus diperhitungkan ketika menilai
keandalan informasi.Tingkat dan jenis reliabilitas harus dicari dalam contoh tertentu terutama tergantung pada
keputusan yang dibuat. Untuk keputusan reversibel tentatif keandalan rendah mungkin ditoleransi. Namun, untuk
keputusan ireversibel akhir kita harus membuat tuntutan ketat pada keandalan tindakan kita.
Langkah-langkah konvensional reliabilitas didasarkan pada variabilitas antar skor. Karena variabilitas skor tidak
relevan untuk tes kriteria-direferensikan (yaitu, semua bisa mendapatkan nilai sempurna), cara konvensional untuk
memperkirakan kehandalan yang tidak pantas. Sayangnya, bagaimanapun, teknik khusus disesuaikan tes
penguasaan untuk kriteria-direferensikan belum dikembangkan secara memadai. Ketika digunakan dalam pengujian
kelas, keandalan tes tersebut dapat ditingkatkan dengan menggunakan jumlah yang cukup besar item tes (sepuluh
atau lebih) untuk setiap hasil belajar tertentu yang akan diukur.
Selain validitas dan reliabilitas mereka, juga penting untuk mempertimbangkan kegunaan dari tes dan
instrumen evaluasi lainnya. Ini termasuk fitur praktis seperti kemudahan administrasi, waktu yang dibutuhkan,
kemudahan mencetak, kemudahan interpretasi dan aplikasi, ketersediaan bentuk setara atau sebanding, dan biaya.
BELAJAR LATIHAN

1.

Bandingkan validitas dan reliabilitas berkaitan dengan (a) arti dari setiap konsep, (b) kepentingan relatif

dari masing-masing dalam proses evaluasi, dan (c) sejauh mana masing-masing tergantung pada kehadiran yang
lain.

2.

Yang metode khusus untuk memperkirakan keandalan akan memberikan informasi yang paling berguna

untuk setiap hal berikut? Mengapa?


a.

Memilih tes bakat skolastik.

b.

Memilih tes prestasi.

c.

Menggunakan skor aptitude diperoleh dua tahun sebelumnya.

d.

Menentukan apakah tes ini mengukur sifat homogen.

3. Apa

pengaruh

akan

berikut

kemungkinan

besar

memiliki

tes mengacu-norma?
a.

Menghapus item yang terlalu sulit bagi siswa.

b.

Menghapus item yang begitu sederhana semua murid bisa menjawab dengan benar.

pada

keandalan

c.

Menghapus item yang ambigu.

d.

Mengubah dari tes pilihan ganda untuk tes esai yang mencakup sama
material.

4.

Berapakah nilai relatif dari menggunakan kesalahan baku pengukuran atau koefisien reliabilitas untuk

mengekspresikan keandalan skor tes? Untuk yang bertujuan masing-masing paling berguna?

5.

Menggunakan Tabel 5.3, menentukan kesalahan baku pengukuran untuk satu set nilai tes dengan standar

deviasi 16 dan keandalan .83.

6.

Pelajari bagian keandalan manual tes untuk beberapa tes bakat skolastik. Apa jenis data keandalan

dilaporkan? Dari apa nilai adalah jenis data dalam memutuskan apakah akan memilih tes?

7.

Konsultasikan bagian keandalan Standar Pendidikan dan Tes Psikologi (lihat daftar bacaan untuk bab ini)

dan meninjau jenis informasi yang manual tes harus berisi. Bandingkan manual tes baru-baru terhadap Standar.

8.

Dalam meninjau data keandalan dalam uji manual guru mencatat koefisien reliabilitas berikut:
a.

Korelasi Formulir A nilai tes selama suatu interval satu bulan = .90.

b. Korelasi Form A dengan Form B nilai tes selama suatu interval satu bulan
= .85
c. Korelasi skor tes didasarkan pada dua bagian (ganjil-genap) Formulir A
= .95.
Bagaimana Anda menjelaskan perbedaan-perbedaan dalam koefisien reliabilitas (menganggap bahwa
kelompok-kelompok yang diuji sama)? Yang estimasi reliabilitas memberikan informasi yang paling
berguna? Mengapa?
9. Daftar dan jelaskan secara singkat sebagai banyak hal yang Anda bisa memikirkan bahwa kelas
guru

yang

mungkin

dilakukan

untuk

meningkatkan

keandalan

kelas

norma-referenced

nya

tes. Bagaimana daftar berbeda untuk tes penguasaan kriteria-direferensikan?


10. Asumsikan Anda memilih baterai tes prestasi standar untuk diberikan setiap tahun dari kelas empat sampai dua
belas. Daftar di urutan pentingnya semua karakteristik tes yang harus dipertimbangkan dan memberikan alasan
untuk penempatan tertentu dari setiap karakteristik dalam daftar Anda.
SARAN UNTUK BACAAN LEBIH LANJUT
AMERIKA PSYCHOLOGICAL ASSOCIATION. Standar Pendidikan dan Tes Psikologi. Washington, DC:. APA, 1974 Lihat bagian
tentang keandalan (halaman 48-55) untuk deskripsi dari tipe dasar dan sifat informasi keandalan harus dicari
dalam uji manual.
ANASTASI ,
A. Psychological
Testing, 4th
ed. New
York:
Macmillan
Publishing
Co,
Inc,
1976
Bab. 5, "Keandalan." Menjelaskan berbagai jenis koefisien reliabilitas, kesalahan standar pengukuran, dan
faktor-faktor yang mempengaruhi keandalan.Termasuk materi pada keandalan tes kriteria-direferensikan.
BAUERNFEIND , RH Membangun Testing Program Sekolah, 2nd ed. Boston: Houghton Mifflin Company, 1969 Bab 6,.
"Konsep Keandalan." A, diskusi yang jelas sederhana dari jenis dasar keandalan.
CRONBACH , LJ Essentials o f Psychological Testing, 3rd ed. New York:. Harper dan Row, Publishers, 1970 Bab 6,
"Karakteristik lainnya Diinginkan di Tes." Sebuah pengobatan lanjutan keandalan dengan penekanan pada
"generaliz-kemampuan" dari hasil tes dan penggunaan analisis metode varians.
STANLEY , JC "Keandalan," Bab 13 di RL Thorndike (ed.), Pendidikan Pengukuran. Washington, DC: American Council
on Education 1971 Sebuah pengobatan lanjutan keandalan yang agak teknis..
Uji Buletin
DIEDEHICH , P. Short-Cut Statistik untuk Guru-Made Tes. Princeton, NJ:. Educational Testing Service 1973 Hadirkan
metode sederhana untuk memperkirakan standard error dan koefisien reliabilitas.
DOPPELT , JE Hotu Akurat Apakah Test Score? Uji Service Bulletin, No 50 New York:.. The Psychological Corporation,
1956 Menjelaskan kesalahan baku pengukuran.

PART

ii

Membangun Tes Kelas


1

American Psychological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).

Koefisien korelasi juga dapat ditentukan dengan teknik momen-produk yang lebih mudah untuk diterapkan ke kelompok

besar. Lihat panduan komputasi dalam Lampiran A.

Sebuah koefisien "1.00 juga akan memberi kita prediksi yang sempurna dari satu variabel yang lain tetapi dalam

pengukuran pendidikan kita yang paling sering berkaitan dengan hubungan yang positif.

L. J. Cronbach, Essentials of Psychological Testing, 3rd ed. (New York-Harper dan Row, 1970).

LJ Cronbach dan PE Meehl, "Membangun Validitas dalam Tes Psikologi," Psychological Bulletin, 52, 281-302, 1955.

GC Helmstadter, Prinsip Psikologis Pengukuran (New York: Appleton-

7Do tidak membingungkan kriteria-direferensikan pengujian dan kriteria-terkait validitas. Kriteria di bekas mengacu pada
jenis perilaku (seperti yang dijelaskan dalam instructional'objectives) bahwa nilai tes mewakili. Kriteria di kedua mengacu pada
beberapa ukuran kedua kinerja yang nilai tes adalah untuk memprediksi atau memperkirakan.
8

WJ Popham dan TR Husek, "Implikasi dari Criterion-Referenced Measurement," di WJ Popham (ed.), Kriteria-Referensi

Pengukuran (Englewood Cliffs, NJ: Teknologi Pendidikan Publications, 1971).


9
LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan
Row, 1970).
11

Amerika Psvchological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).

Test-Retest Method. Untuk memperkirakan keandalan dengan menggunakan metode tes-tes ulang tes yang sama
diberikan dua kali untuk kelompok yang sama murid dengan interval waktu tertentu antara dua administrasi
tes. Hasil skor tes berkorelasi, dan koefisien korelasi ini memberikan ukuran stabilitas; yaitu, ini menunjukkan
seberapa stabil hasil tes selama periode waktu tertentu. Jika hasilnya sangat stabil, mereka murid yang tinggi pada
salah satu administrasi tes akan cenderung tinggi pada administrasi lain dari tes, dan siswa yang tersisa akan
cenderung untuk tinggal di posisi relatif sama mereka pada kedua administrasi tes . Stabilitas tersebut akan
ditunjukkan dengan koefisien korelasi yang besar.
12 J. C. Stanley, "Keandalan," di RL Thorndike (ed.), Pendidikan Pengukuran (Washington, DC: American Council on Education,
1971).
0

Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode komputasi.

13

LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan Row, 1970).

14

LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan Row, 1970).

15

Konsistensi internal juga dapat ditentukan oleh koefisien alpha dan analisis d a r i

16

Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode komputasi.

17

Seperti disebutkan sebelumnya, langkah-langkah ini terutama berguna dengan norma-referenced tes, di mana tujuannya

adalah untuk membedakan antara individu-individu.


18

RK Hambleton dan MR Novick, "Menuju Integrasi Teori dan Metode Pengujian Kriteria-Referenced," Journal o f Educational

Measurement, 10, 159-170, Fall 1973.


19
LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan Row, 1970).
20

Tes Guru buatan umumnya memiliki reliabilitas suatu tempat antara .60 dan .85, misalnya, tetapi ini berguna untuk jenis

keputusan instruksional biasanya dibuat oleh guru.

Anda mungkin juga menyukai