VALIDITAS HASIL PENILAIAN Oleh AGUS MIANTA 13708259007

VALIDITAS HASIL PENILAIAN
Disusun guna memenuhi tugas mata kuliah Evaluasi Pembelajaran Sains

Dosen Pengampu:
Dr. Edi Istiyono, M.Si
Disusun Oleh:
Agus Mianta, S.Si
NIM. 13708259007
PROGRAM STUDI PENDIDIKAN SAINS

PROGRAM PASCASARJANA
UNIVERSITAS PENDIDIKAN YOGYAKARTA
2014
VALIDITAS HASIL PENILAIAN
KONSEP UTAMA
1. Validitas adalah ketepatan interpretasi dan penggunaan hasil penilaian

siswa.
2. Validitas sebagai argumentasi dengan bukti dalam empat prinsip:
interpretasi, penggunaan, nilai-nilai, dan konsekuensi.
3. Untuk penilaian kelas, validitas utama yang perlu diperhatikan: (a)
memastikan
bahwa
penilaian
benar-benar
sesuai
dengan
tujuan
pembelajaran (sebagaimana dimaksud dan seperti yang diajarkan, baik isi

maupun proses); dan (b) memastikan konsekuensi pelayanan kepada siswa
dan pembelajaran siswa.
4. Pada penilaian skala besar, bukti validitas dapat berupa: konten,
keterampilan berpikir, struktur internal, struktur external, reliabilitas,
generalisasi, konsekuensi, dan kepraktisan.
5. Tiga langkah argumen validitas hasil: menggambarkan tujuan yang telah
ditetapkan untuk skor penilaian, skor penilaian tujuan yang telah
ditetapkan, dan menyelidiki konsekuensi skor penilaian yang diinginkan.
6. Koefisien korelasi ditujukan untuk mengukur tingkat keterkaitan antara
dua nilai. Hal ini digunakan dalam bukti validitas setiap kali hubungan
antara dua nilai yang berkaitan.
7. Validitas akomodasi dibuat ketika ketidakmampuan penilaian siswa
tergantung pada tujuan penilaian.
SIFAT UMUM VALIDITAS
Penilaian yang bermakna adalah salah satu cara untuk membahas tentang
validitas. Validitas adalah ketepatan interpretasi dan penggunaan hasil penilaian
siswa. Untuk memvalidasi interpretasi dan penggunaan hasil penilaian siswa,
harus digabungkan bukti dari berbagai sumber yang menunjukkan interpretasi dan
penggunaan yang tepat.
Pertanyaan "Apakah hasil penilaian tersebut valid?" memiliki banyak
jawaban yang berbeda tergantung pada bagaimana hasilnya diinterpretasikan dan
digunakan. Misalnya, sekolah Anda mengelola Membaca Uji ABC dan ingin
menggunakan skor untuk satu atau lebih tujuan, misal: untuk menggambarkan
pertumbuhan pemahaman bacaan siswa; untuk meklasifikasikan siswa ke dalam
kemampuan tinggi, tengah, dan rendah; dan untuk mengevaluasi program
membaca sekolah. Skor dari uji hipotesis mungkin memiliki tingkat validitas yang
tinggi untuk salah satu tujuan tetapi mungkin tidak untuk tujuan yang lain.
Ketika mendiskusikan validitas penilaian hasil, perlu diingat hal-hal berikut:
1. Konsep validitas berlaku untuk cara kita menafsirkan dan menggunakan
hasil penilaian, bukan prosedur penilaian itu sendiri. Dengan demikian,
kita mungkin tidak mengatakan, "Apakah Test Membaca ABC valid?"
kecuali sebagai cara singkat berbicara tidak formal. Sebaliknya, kita harus
mengajukan pertanyaan yang lebih spesifik seperti, "Apakah valid untuk
menafsirkan skor dari Tes Membaca ABC untuk mengukur pemahaman
bacaan? " atau " Apakah berlaku untuk menggunakan nilai Tes Membaca
ABC untuk menempatkan siswa dalam kelompok membaca?"dan
seterusnya.
2. Hasil penilaian memiliki derajat validitas berbeda untuk tujuan yang
berbeda dan untuk situasi yang berbeda. Skor dari hipotetis Tes Memabaca
ABC misalnya, mungkin sangat valid bila digunakan untuk mengevaluasi
program membaca sekolah di suatu daerah karena itemnya cocok dengan
tujuan program membaca kabupaten yang baik. Di sisi lain, skor dari tes
yang sama mungkin memiliki validitas yang jelek untuk mengevaluasi
program membaca kabupaten lain karena item sesuai dengan yang tujuan
program membaca kabupaten tersebut kurang baik.
3. Membuat penilaian tentang validitas interpretasi atau penggunaan hasil
penilaian hanya setelah mempelajari dan menggabungkan beberapa jenis
bukti validitas. Sebagai contoh, sebelum sampai pada sebuah kesimpulan
tentang validitas interpretasi yang diajukan atau menggunakan skor
Membaca Uji ABC, dikumpulkan bukti tentang beberapa aspek yang
relevan dari seberapa baik sampel domain membaca. Apakah keterampilan
yang dinilai mewakili ketepatan membaca "sebenarnya" ? Apakah skor
dipengaruhi oleh faktor-faktor yang tidak relevan seperti suasana hati
siswa atau motivasi mereka untuk diuji? Seberapa dekat keteapatan
melakukan uji keterampilan membaca suatu sekolah? Apakah skor
terpercaya?
Validitas adalah penilaian yang dibuat setelah mempertimbangkan bukti

dari semua bidang yang relevan. Sebelum semua bukti yang relevan
dikumpulkan, dibahas, ditimbang, dan digabungkan, evaluasi validitas hasil
tidak lengkap. Akibatnya, validasi interpretasi dan penggunaan hasil penilaian
khusus membutuhkan pembuatan argumen yang meyakinkan bahwa bukti
yang ada mendukung (Kane, 1992, 2006).
EMPAT PRINSIP UNTUK VALIDASI
Empat prinsip untuk validasi yang akan membantu untuk memutuskan
bagaimana valid hasil penilaian (Messick, I989, I994) mendasarkan penilaian
validitas pada empat prinsip, tidak hanya pada salah satu dari mereka.
1. Interpretasi (penafsiran) yang Anda berikan kepada hasil penilaian
siswa hanya berlaku jika dapat menunjukkan bukti bahwa mendukung
kesesuaian dan kebenaran interpretasi.
2. Penggunaan hasil penilaian berlaku untuk sejauh mana Anda dapat
menunjukkan bukti yang mendukung kebenaran dan kesesuaian.
3. Interpretasi dan penggunaan hasil penilaian hanya berlaku ketika nilainilai yang ditunjukkan sesuai.
4. Interpretasi dan penggunanaan yang didapatkan dari hasil penilaian
hanya berlaku ketika konsekuensi dari interpretasi ini dan penggunaan
konsisten dengan nilai-nilai yang sesuai.
Prinsip-prinsip ini dijelaskan pada paragraf di bawah ini.

Interpretasi yang tepat
Perhatikan, misalnya Hiram, seorang mahasiswa Lincoln School. Hiram
mengambil tes membaca ABC setiap tahun, namun skor tiba-tiba naik tahun ini.
Bagaimana Anda menafsirkan peningkatan mendadak skor Hiram tersebut?
Berikut adalah beberapa kemungkinan interpretasi: (a) pemahaman bacaan sudah
membaik, (b) motivasi untuk melakukan tes pemahaman membaca telah
meningkat, dan (c) keterampilan dalam menjawab item tes pemahaman membaca
pilihan ganda telah membaik.
Staf Lincoln School ingin menafsirkan penilaian Hiram bahwa telah

terjadi peningkatan pemahaman bacaan. Sebelum mereka dapat mengklaim bahwa
penafsiran seperti ini valid, mereka perlu menunjukkan buktinya. Pertama, mereka
perlu menunjukkan bahwa Tes Membaca ABC langkah-langkah pemahaman
bacaannya dengan cara membaca khusus menentukan pemahaman. Kedua,
mereka perlu bukti yang menunjukkan bahwa peningkatan tes kinerja Hiram
disebabkan membaiknya membaca, bukan hanya hasil dari meningkatnya
motivasi untuk melakukan tes dengan baik. Ketiga, mereka harus menggunakan
bukti lain yang ada di sekolah: guru kelas harus membandingkan hasil tes
membaca di kelas dengan hasil Hiram.
Penggunaan yang tepat
Ada beberapa hal yang mungkin ada dalam pikiran staf Lincoln School?
misalnya, menyatakan bahwa Hiram sedang membaca pada level yang tepat; (b)
mendiagnosa atau mengidentifikasi jenis masalah memahami bacaan Hiram yang
mungkin dialami; (c) menempatkan Hiram ke kelompok remedial membaca,
teratur, atau berkelanjutan; dan (d) terus memantau pertumbuhan pemahaman
bacaan Hiram. Staf Lincoln School ingin menggunakan nilai Hiram untuk lebih
dari satu tujuan. Namun, validitas dari skor Tes Membaca ABC tergantung pada
guru dan pejabat sekolah untuk menemukan bukti yang mendukung. Misalnya,
apa bukti Lincoln School dapat menyediakan bukti yang menunjukkan bahwa
siswa ditugaskan dalam kelompok remedial membaca lebih baik daripada jika
mereka ditugaskan untuk kelas membaca biasa? Bukti harus disediakan secara
terpisah untuk masing-masing tujuan penggunaan dari hasil penilaian.
Perhatikan bahwa pada contoh Lincoln School digunakan kata-kata yang
tersirat pemahaman bacaan interpretasi dari hasil tes. Hal ini menggambarkan
sebuah poin penting tentang validasi proses penilaian. Untuk memvalidasi
penggunaan hasil penilaian tertentu, Anda juga harus menggunakan penafsiran
atau makna dari hasil tersebut. Dengan demikian, Lincoln School harus terlebih
dahulu harus menetapkan sejauh mana pengaruh Tes Membaca ABC terhadap
pemahaman bacaan. Jika tidak dapat melakukan hal ini, sekolah tidak mampu
memvalidasi penggunaan lebih lanjut dari nilai tes yang didasarkan pada asumsi
pengukuran kemampuan membaca pemahaman.
Nilai yang tepat
Interpretasi hasil penilaian siswa muncul dari nilai-nilai pendidikan dan
sosial. Apa Nilai-nilai tersirat ketika staf Lincoln School menafsirkan skor tes
membaca
ABC
Hiram
sebagai
mengukur
pemahaman
membaca
dan
menggunakan mereka untuk menggambarkan dan merencanakan pembangunan

bacaannya?
Pertama, sangat pilihan Membaca Uji ABC tersirat bahwa staf dihargai
format dan isi item tes. Misalkan bahwa Reading Uji ABC terdiri dari beberapa
bagian pendek (kurang dari 500 kata masing-masing), masing-masing diikuti oleh
beberapa pertanyaan. Selanjutnya, misalkan tema dari membaca ayat-ayat
mengabaikan (atau tidak relevan dengan) Afrika Amerika, Hispanik, penduduk
asli Amerika, atau lainnya pengalaman budaya minoritas. Menggunakan dan
menafsirkan Tes ini sebagai ukuran pemahaman membaca menyiratkan staf
menerima bahwa budaya dan pengalaman etnis tidak penting dalam menilai
pemahaman bacaan siswa.
Kedua, menggunakan format pilihan ganda untuk menilai kemampuan
membaca dan pertanyaan terbuka digunakan sebagai gantinya? Apakah lebih
murah tes pilihan ganda atau lebih rmahal dari penilaian otentik?
Ketiga, penggunaan staf dari skor tes untuk menetapkan siswa untuk
kelompok
membaca
yang
berbeda
menunjukkan
bahwa
mereka
nilai
pengelompokan homogen untuk membaca instruksi. Hal ini juga menyiratkan

bahwa manfaat diterima dari yang diajarkan orang lain serupa kemampuan
membaca lebih besar daripada manfaat yang diterima dari diajarkan dalam
kelompok kemampuan membaca lebih baik. Sekali lagi perhatikan bahwa
pembahasan pertimbangan nilai pada paragraf sebelumnya menggunakan
pembacaan interpretasi pemahaman dari hasil tes dan menjelaskan cara-cara
khusus
menggunakan
skor.
Ini
menggambarkan
bahwa
Anda
harus
mempertimbangkan interpretasi yang tepat, menggunakan relevan, dan nilai-nilai

yang sesuai ketika meminta bagaimana valid hasil penilaian Anda.
Konsekuensi yang sesuai

Setiap kali Anda menafsirkan dan menggunakan hasil penilaian siswa
Anda, konsekuensi dimaksudkan dan tidak disengaja menghasilkan Setiap
tindakan
yang
Anda
lakukan
memiliki
konsekuensi.
Anda
harus
mempertimbangkan konsekuensi ini ketika menilai apakah Anda menggunakan

hasil penilaian valid. Apa yang dimaksud dan konsekuensi yang tidak diinginkan
untuk Lincoln School? Konsekuensi Lincoln School dimaksudkan untuk
menempatkan anak-anak dengan skor ABC Reading Uji rendah ke kelompok
perbaikan membaca adalah untuk meningkatkan ini kemampuan anak membaca
secepat mungkin. Sebagai membaca pemahaman siswa membaik, staf percaya,
sehingga akan sekolah mereka lainnya dan harga diri mereka.
Tapi sesuatu misalkan tidak diinginkan dan tidak dihargai terjadi
sebaliknya. Misalkan pembacaan remedial siswa cepat datang untuk melihat diri
mereka sebagai tidak kompeten, dan harga diri mereka menurun. Misalkan, juga,
bahwa guru frustrasi, memulai pengeboran mereka pada materi siswa tidak
mengerti (bukannya membangun pada apa yang mereka sudah tahu). Misalkan
akhirnya siswa tidak pernah meninggalkan perbaikan track membaca. Dalam
menghadapi ini yang tidak diinginkan dan konsekuensi negatif, akan Lincoln
Penggunaan Sekolah dari skor ABC Reading Test untuk membentuk kelompok
perbaikan akan sangat valid? Bahkan jika tes diukur pemahaman bacaan, ketika
seperti negatif konsekuensi terjadi penggunaan yang terus menerus akan
menghancurkan beberapa anak. interpretasi dan penggunaan hasil penilaian harus
dinilai positif konsekuensi (dan menghindari konsekuensi negatif dihargai)
memiliki tingkat tinggi validitas.
Contoh ini menggunakan interpretasi dari hasil tes pemahaman bacaan,
menggambarkan tertentu penggunaan hasil (penempatan ke remedial membaca
kelompok), dan menggabungkan dinilai positif niat (peningkatan siswa membaca
dan harga diri). Contoh ini juga menunjukkan, bagaimanapun, bahwa konsekuensi
dinilai positif mungkin tidak menghasilkan untuk semua siswa. Anda harus
mempertimbangkan sesuai interpretasi, penggunaan yang tepat, nilai-nilai yang
sesuai, dan konsekuensi yang tepat ketika meminta
bagaimana valid hasil penilaian Anda.

VALIDITAS HASIL PENILAIAN KELAS
Bagian ini membahas kriteria untuk memvalidasi hasil metode penilaian
kelas. Keabsahan kriteria berlaku untuk semua jenis penilaian kelas, termasuk
tugas singkat, tugas jangka panjang, dan kuis. Ketika Anda membaca bagian kelas
contoh penilaian umum dalam pikiran, misalnya tes pada akhir unit atau utama
proyek untuk unit. Beberapa kriteria mungkin digunakan untuk meningkatkan
validitas menggunakan hasil penilaian siswa.
Keterwakilan Konten dan Relevansi
Validitas hasil penilaian kelas sangat tergantung pada seberapa baik target
penilaian pembelajaran sampel. Sasaran belajar Anda mengajar dan menilai harus
sesuai dengan konteks yang sesuai distrik sekolah, standar negara, dan disiplin
mengajar. Penilaian harus mencerminkan isi penting dan hasil pembelajaran yang
ditentukan di sekolah dan standar negara. Anda juga harus meninjau setiap
penilaian tugas untuk memastikan bahwa perspektif konten relevan, penting,
dinyatakan secara akurat, memiliki kunci yang akurat atau penilaian rubrik, dan
mewakili sesuatu yang bermakna untuk belajar.
Ketika mengevaluasi metode penilaian kelas dalam kaitannya dengan
keterwakilan dan relevansi, fokus pada pertanyaan-pertanyaan berikut:
1. Apakah prosedur penilaian saya menekankan apa Saya telah diajarkan?
Siswa memiliki hak untuk mengharapkan untuk dievaluasi pada apa yang
telah Anda ditekankan dalam kelas. Jika Anda telah menghabiskan banyak
waktu di sebuah materi, penilaian pada materi tersebut harus terlihat.
Kategori
Keterwakilan
konten dan
relevansi
mewakili
keterampilan
proses dan
keterampilan
berpikir
1.
2.
3.
4.
Bentuk Penilaian untuk Mecapai Kriteria

Menekankan apa yang diajarkan
Mewakili konten kurikulum sekolah
Merupakan pemikiran subjek saat ini
Mengandung konten pembelajaran yang sama
5. Siswa mengintegrasikan dan menggunakan

beberapa kemampuan berpikir
6. Mewakili keterampilan proses dan keterampilan
berpikir yang tercantum dalam kurikulum sekolah
7. Mengandung tugas yang tidak dapat diselesaikan
tanpa menggunakan kemampuan berpikir
8
8. Memeberikan waktu yang cukup bagi siswa untuk

menggunakan keterampilan kompleks dan
keterampilan proses
Konsisten
9. Pola rerata hasil konsisten dengan penilaian kelas
dengan
lain
penilaian kelas 10. Mengandung item tugas individu yang tidak terlalu
mudah atau terlalu sulit
lain
Reliabilitas
11. Menggunakan prosedur yang sistematis untuk
dan
setiap siswa untuk menetapkan peringkat kualitas
objektivitas
siswa
12. Memberikan setiap siswa peluang untuk
menunjukkan kompetensi untuk setiap tujuan
pembelajaran
Keadilan untuk 13. Mengandung tugas yang dapat ditafsirkan secara
berbagai jenis
tepat oleh siswa dengan latar belakang yang
siswa
berbeda
14. Mengakomodasi siswa penyandang cacat atau yang
terkendala dalam belajar
15. Tidak membedakan suku, ras, dan jenis kelamin
Ekonomi,
16. Memerlukan jumlah waktu yang wajar untuk
efisiensi,
mengelola
17.
Merupakan penggunaan waktu siswa yang tepat
kepraktisan,
18. Merupakan penggunaan waktu kelas yang tepat
fitur
instruksional
Penggunaan
19. Digunakan dalam hubungannya dengan hasil
multiple
penilaian lainnya untuk keputusan penting
assessment
Konsekuensi
20. Hasil di kedua belahpihak memberikan informasi
positif
yang bermanfaat bagi pembelajaran siswa
21.
Tidak mengakibatkan hambatan yang tidak perlu
pembelajaran
dalam belajar
GAMBAR 3.1 Kriteria untuk meningkatkan validitas skor dari
penilaian kelas yang digunakan untuk menetapkan kelas siswa.
Seringkali, item pada tes berkualitas buruk, menekankan kemampuan
berpikir tingkat rendah, atau menekankan konten yang berbeda dari yang
ditekankan selama mengajar. Ada sebuah anekdot yang tragis dalam hal
ini. Seorang guru menggunakan salah satu dari tes ini tanpa hati-hati
meninjau. Pada hari pengujian, guru menemukan bahwa 10 dari 40 item
tertutup materi yang ia tidak diajarkan. Guru menggunakan 15 menit
pertama waktu pengujian untuk mencoba untuk mengajarkan konsepkonsep ini dan kemudian memberi tes. Tentu saja, penilaian ini tidak hanya
kurang valid tetapi membuat frustrasi siswa.
2. Apakah tugas penilaian saya secara akurat mewakili hasil-hasil yang
ditentukan di sekolah saya dan kerangka kurikulum negara? Nilai siswa
akan dicatat dan akhirnya akan ditafsirkan oleh orang-orang yang telah
melihat kurikulum tetapi yang tidak akrab dengan apa yang Anda ajarkan
di kelas tersebut. Mereka akan mengharapkan nilai untuk mencerminkan
target pembelajaran kabupaten dan standar negara. Karena nilai didasarkan
pada penilaian Anda,
penilaian haruslah mencerminkan ini hasil-hasil
pembelajaran.
3. Apakah penilaian tugas sesuai dengan arus berpikir tentang apa yang harus
diajarkan dan bagaimana seharusnya dinilai? Pendidik, filsuf, ahli teori
kurikulum, peneliti, dan lain-lain terus-menerus mendefinisikan ulang apa
yang yang dimaksud belajar. Guru profesional terus mengikuti
perkembangan ini dan menerapkannya dalam pengajaran dan penilaian.
4. Apakah konten dalam penilaian saya penting dan perlu untuk dipelajari?
konten termasuk dalam penilaian belajar harus bernilai besar atau
signifikansi untuk kehidupan lanjut keterampilan siswa. Kurikulum dan
konten Anda mengajar mengandung banyak spesifikasi. Pastikan bahwa
konten yang dinilai berhubungan langsung kepada target pembelajaran
siswa.
Kebanyakan penilaian belajar melibatkan siswa dalam menerapkan
kombinasi keterampilan dan konten daripada menggunakan keterampilan
atau menghafal konten. Pengajaran dan penilaian oleh karena itu juga
harus memerlukan siswa untuk menerapkan beberapa aspek pengetahuan,
keterampilan.
Representasi Proses Berpikir dan Keterampilan
10
Terkait erat dengan keterwakilan konten dan relevansi apakah

metode penilaian untuk mengevaluasi siswa mencakup berbagai
keterampilan berpikir dan proses. Penaksiran instrumen yang mencakup
area belajar yang luas, periode tanda, atau semester-harus komprehensif
menilai berbagai jenis keterampilan berpikir. Sebuah taksonomi digunakan
bersama dengan garis besar isi untuk menulis cetak biru penilaian. Cetak
biru ini akan membantu Anda memastikan bahwa penilaian Anda
mencakup keterampilan berpikir dan konten penting. Pertanyaanpertanyaan berikut akan membantu Anda menilai validitas penilaian kelas
dalam kaitannya untuk keterampilan berpikir dan proses:
5. Apakah tugas-tugas pada instrumen penilaian mengharuskan siswa untuk
menggunakan kemampuan berpikir dan ketrampilan proses yang penting?
Setiap prosedur penilaian kelas harus mensyaratkan siswa untuk
menggunakan gabungan keterampilan berpikir dan keterampilan proses.
Masalah di sini, bagaimanapun, adalah sejauh mana penilaian Anda
mencerminkan keterampilan berpikir pokok yang digunakan dalam
disiplin ilmu dan standar negara. Jawabannya adalah masalah penekanan
dan mengetahui apa ahli kurikulum telah merekomendasikan target
pembelajaran untuk siswa pada tingkat kelas tertentu.
Penilaian
Anda
harus
mengumpulkan
informasi
tentang
kemampuan siswa untuk menggunakan strategi dan proses yang umum

digunakan dalam disiplin ilmu. Sebagai contoh, penilaian matematika
harus membantu Anda menilai apakah seorang siswa menggunakan
dengan baik berpikir matematis ketika memecahkan masalah, tidak hanya
apakah siswa dapat memperoleh jawaban yang tepat. Penilaian dalam studi
sosial akan membantu Anda menilai bagaimana siswa berpikir kritis dan
menerapkan materi dalam kehidupan sehari-hari, bukan hanya menilai
apakah mereka dapat "membandingkan" atau "daftar faktor-faktor yang
menyebabkan...." penting dan bernilai sementara pembelajaran dapat
diterapkan pada situasi kehidupan nyata. Tugas penilaian setidaknya harus
11
mensimulasikan aplikasi kehidupan nyata pada tingkat yang sesuai untuk

siswa yang diajarkan.
6. Apakah instrumen penilaian saya mewakili jenis keterampilan berpikir
dalam kerangka kurikulum sekolah dan standar negara? Kurikulum dan
standar nasional negara sering termasuk jenis tingkat tinggi berpikir kritis
sebagai tujuan instruksi. Pelajaran Anda tujuan pembelajaran harus selaras
dengan kurikulum dan standar, tujuan dalam mengajar Anda harus
mendorong jenis pemikiran, dan pengkajian juga mencerminkan tingkat
berpikir yang ditentukan dalam tujuan.
7. Selama penilaian, apakah siswa benar-benar menggunakan jenis pemikiran
yang saya harapkan untuk digunakan? Jika Anda akan menafsirkan
penilaian siswa sebagai cerminan keterampilan berpikir kompleks, maka
Anda harus memastikan bahwa siswa benar-benar menggunakannya ketika
menyelesaikan penilaian. Pemeriksaan dilakukan dengan mengamati
strategi siswa yang muncul dan digunakan selama penilaian. Anda
mewawancarai beberapa siswa, meminta mereka untuk "berpikir keras"
karena tugas penilaian memecahkan masalah. Anda juga dapat meninjau
tugas pada penilaian. Item tes yang buruk akan memberikan petunjuk
untuk jawaban yang benar dan menurunkan kemungkinan siswa harus
menggunakan kemampuan berpikir. Demikian pula, pertanyaan ambigu
akan membingungkan siswa, mengganggu penggunaan strategi penting,
dan menurunkan validitas nilai mereka.
8. Apakah waktu yang diberikan cukup bagi siswa untuk menunjukkan jenis
berpikir? Berpikir kompleks, pemecahan masalah yang berarti, dan
aplikasi kreatif membutuhkan waktu yang cukup lama bagi sebagian besar
siswa. 40- 50 menit untuk periode kelas biasanya terlalu singkat untuk
mendapatkan penilaian yang valid. Dibutuhkan waktu yang lebih lama
untuk hasil yang valid dan mencerminkan hasil belajar. Ini berarti bahwa
Anda mungkin harus memberikan tes selama waktu yang lebih lama atau
menilai beberapa target pembelajaran menggunakan proyek atau
portofolio.
Konsistensi dengan Penilaian Kelas Lain
12
Selama unit, periode, atau semester, Anda akan telah mengamati

individu di kelas berkali-kali. Anda telah mengumpulkan banyak informasi
yang relevan dengan mengevaluasi pencapaian masing-masing siswa.
Hasil penilaian siswa harus konsisten dengan pola kinerja siswa pada
kegiatan pembelajaran dan penilaian formatif seterusnya. Beberapa siswa
dapat melakukan lebih baik atau lebih buruk dari yang Anda harapkan.
Namun, penilaian hasil untuk seluruh kelas seharusnya tidak mengejutkan.
Jika ada kejutan, mungkin ada masalah dengan validitas prosedur
penilaian. Lakukan evaluasi kemungkinan dengan berfokus pada
pertanyaan-pertanyaan ini:
9. Apakah pola hasil penilaian di kelas yang konsisten dengan apa yang
diharapkan? Jika pola kelas sangat berbeda dari apa yang Anda harapkan,
tinjau prosedur penilaian dalam pertanyaan 1-8. Misalnya, penekanan tes
tidak sesuai dengan pengajaran. Mungkin tidak cocok dengan isi penilaian
yang diharapkan. Jika terdapat alasan ini, Anda tidak bisa menafsirkan
hasil penilaian sebagai validasi kemampuan siswa.
10. Apakah tugas yang dibuat untuk penilaian terlalu sulit atau terlalu mudah
bagi siswa? Ketika tugas-tugas yang terlalu sulit atau terlalu mudah, hasil
penilaian tidak akan konsisten dengan pengamatan. Ketika penilaian
terlalu mudah atau terlalu sulit semua siswa akan meperoleh hasil yang
hampir sama, dan sukar membedakan tingkat pencapaian siswa. Hal ini
menurunkan validitas. Penilaian yang terlalu sulit dapat menggagalkan
siswa, membuat mereka merasa seolah-olah waktu belajar mereka
terbuang percuma. Hal ini merupakan konsekuensi negatif dan tidak
mengungkapkan kemampuan terbaik siswa. Pemberian tugas harus
menantang, tapi tidak sulit sehingga hanya satu atau dua siswa di kelas
yang dapat melakukan dengan baik.
Reliabilitas dan Objektivitas
Reliabilitas mengacu pada konsistensi penilaian hasil. Reliabilitas
adalah subyek dari bab tersendiri (Bab 4) tetapi diperlukan untuk hasil
penilaian yang valid. Jika skor penilaian siswa sangat tidak konsisten
menjadi acak, penilaian tidak valid. Inkonsistensi menurunkan validitas
13
skor penilaian kelas disebabkan oleh faktor-faktor seperti menggunakan

tes terlalu pendek, tidak menggunakan rubrik penilaian dengan tepat.
Objektivitas adalah sejauh mana dua atau lebih evaluator yang
memenuhi syarat sesuai dengan kualitas penilaian atau skor untuk
menentukan kinerja siswa. Objektivitas tidak ada karakteristiknya. Hal
tersebut adalah masalah derajat/tingkatan: Semua penilaian hasilnya lebih
objektif atau kurang objektif. Ini tidak berarti bahwa prosedur penilaian
semakin subjektif harus dihilangkan. Sebagai profesional dan ahli guru,
penilaian sangat penting untuk siswa. Siswa akan mencari konsistensi dan
keadilan dalam penilaian profesional Anda.
11. Apakah saya menggunakan panduan penilaian untuk mendapatkan kualitas
peringkat atau nilai dari penilaian kinerja siswa? Panduan tersebut dapat
menjadi kunci penilaian, yang mencakup rubrik atau skala penilaian
dengan masing-masing peringkat level yang jelas. Terapkan panduan
penilaian Anda dengan cara yang sama untuk pekerjaan setiap siswa.
Panduan penilaian harus cukup jelas sehingga rekan pengajar yang lain
bisa menggunakannya dan memperoleh hasil yang sama seperti yang Anda
lakukan.
12. Apakah instrumen penilaian dapat menilai sampel yang representatif tiap
jenis hasil pembelajaran? Penilaian harus memberikan kesempatan bagi
siswa untuk menunjukkan pengetahuan dan keterampilan mereka untuk
masing-masing untuk mencapai tujuan pembelajaran. Jika kendala praktis
tidak memungkinkan untuk penilaian yang lebih lengkap dalam satu
periode kelas, pertimbangkan untuk menggunakan periode kelas lain,
penilaian dibawa pulang, atau kombinasi dari hasil dari beberapa penilaian
yang telah diberikan.
Keadilan untuk Berbagai Jenis Siswa
Prosedur penilaian harus adil untuk siswa dari semua latar
belakang etnis dan sosial ekonomi, serta siswa penyandang cacat yang
harus diutamakan di kelas. Sebagai contoh, mahasiswa tuli dapat
memahami konsep-konsep yang telah diajarkan tetapi tidak dapat
mengekspresikan pemahaman tertulis atau lisan dalam penilaian. kosakata
lisan dan keterampilan umum siswa tuli biasanya tertinggal dari rekan14
rekan mereka, bahkan meskipun pengetahuan konten mereka mungkin

setara. Dalam kasus tersebut, penilaian yang lebih valid tentang
pemahaman siswa dapat diperoleh melalui penilaian khusus dengan beban
lisan yang lebih rendah (misalnya, menyederhanakan atau menjelaskan
nonteknis atau bukan subjek kosakata tertentu) atau melalui alternatif
modus komunikasi (misalnya, menggunakan bahasa isyarat).
Demikian pula, penilaian tidak boleh mengandung bahan yang
secara halus atau terang-terangan menyinggung subkelompok etnis atau
gender. Keadilan prosedur penilaian kelas, fokus pada pertanyaanpertanyaan berikut:
13. Apakah masalah atau tugas pada penilaian membuat siswa dengan
berbagai etnis dan latar belakang sosial ekonomi akan menafsirkan dengan
cara yang tepat? "Interpretasi yang tepat" dari tugas penilaian tidak berarti
bahwa semua orang memiliki interpretasi yang identik: Mungkin ada
beberapa cara yang tepat untuk menafsirkan tugas yang sama. Penilaian
kelas yang baik akan memungkinkan untuk mengevaluasi keanekaragaman
pemikiran siswa. Anda mungkin ingin mewawancarai beberapa siswa
untuk memahami bagaimana mereka menafsirkan tugas Anda tetapkan.
Anda juga harus memeriksa apakah semua siswa memahami arah
penilaian dan aturan skoring. Jika siswa tidak mengerti arah Anda, mereka
mungkin merespon secara tidak tepat bukan karena kesalahan mereka
sendiri. Jika ini terjadi, Hasil penilaian tidak akan berlaku untuk tujuan
grading.
14. Apakah saya memodifikasi kata-kata atau bentuk tugas penilaian untuk
mengakomodasi siswa cacat atau berkebutuhan khusus? Penafsiran dasar
Anda ingin membuat adalah apakah siswa telah menangkap tujuan
pembelajaran. Jika cara penilaian menghambat kemampuan siswa untuk
mengkomunikasikan pemahaman, maka hasil penilaian kurang valid.
15. Apakah gambar, cerita, pernyataan verbal, atau aspek lain dari penilaian
prosedur mengabadikan stereotip rasial, etnis, atau gender? Penilaian tidak
harus bebas dari setiap referensi untuk ras, etnis, atau jenis kelamin.
sebaliknya, menghilangkan stereotip dan keseimbangan referensi antara
15
berbagai
kelompok
untuk
mewakili
keragaman
masyarakat
dan
pandangan.
16. Apakah penilaian relatif mudah dan tidak terlalu rumit untuk digunakan
mengevaluasi siswa? Ada kesenjangan antara bagaimana mudahnya untuk
membuat tugas penilaian dan betapa mudahnya untuk mendapatkan
peringkat kualitas atau nilai. Hal ini mudah untuk mengembangkan
pertanyaan esai, daripada mengembangkan tugas kinerja pemecahan
masalah kompleks atau soal pilihan ganda. Namun setelah dikembangkan,
item pilihan ganda lebih mudah untuk mendapatkan skor dan digunakan
kembali untuk kelas tahun berikutnya.
17. Apakah waktu yang dibutuhkan untuk penilaian menjadi lebih baik
dihabiskan
langsung
dengan
mengajar
siswa?
Penilaian
terbaik
diseimbangkan dengan waktu yang digunakan. Beberapa prosedur, seperti

wawancara dan observasi individu kinerja siswa, membutuhkan waktu
yang lama untuk menyelesaikan. Sementara mewawancarai atau
mengamati satu siswa, perlu memperhatikan siswa lain dalam kelas yang
terlibat dalam pembelajaran. Tes kelompok, pada sisi lain, lebih efisien
karena pengelolaan untuk semua siswa dapat dilakukan pada waktu yang
sama.
18. Apakah penilaian merupakan penggunaan waktu terbaik? Tes esai,
makalah, proyek, dan karya tulis panjang umumnya memerlukan banyak
waktu untuk menyelesaikan dan banyak waktu untuk mengevaluasi. Bila
menggunakan prosedur ini, harus diputuskan penggunaan waktu. Tapi
ingat, waktu penilaian dan waktu siswa belajar tidak perlu terpisah.
Sebagai contoh, evaluasi makalah atau proyek dalam sebuah konferensi
siswa. Kegiatan memberikan siswa kesempatan untuk memahami kualitas
pekerjaannya, mengajukan pertanyaan, mengklarifikasi, berkontribusi
pada evaluasi itu sendiri, dan meningkatkan pencapaian pembelajaran. Hal
ini tidak mungkin dengan pengujian pilihan ganda, yang biasanya hanya
menghasilkan satu skor.
Beberapa Penggunaan Penilaian
19. Apakah menggunakan salah satu hasil penilaian berhubungan dengan hasil
penilaian lainnya? Tidak ada satu teknik penilaian akan menghasilkan hasil
16
yang sempurna. Strategi menggabungkan penilaian beberapa hasil dari

beberapa jenis penilaian (seperti PR, kinerja kelas, kuis, proyek, dan tes)
untuk meningkatkan validitas.
Konsekuensi positif untuk Belajar
20. Apakah penilaian menghasilkan informasi penting yang membantu siswa
belajar? Konsekuensi positif yang besar dimaksudkan kelas pengkajian
adalah kelas belajar. Jika ini bukan hasil, penilaian Anda tidak berfungsi
dengan valid.
21. Apakah penilaian saya tidak menghasilkan konsekuensi negatif? Salah
satu contoh adalah ujian siswa yang hasilnya menarik kesimpulan yang
tidak akurat tentang pengetahuan dan keterampilan dalam tertentu domain,
seperti ketika tes aljabar sekolah menengah disimpulkan bahwa
pengetahuan aljabar adalah aplikasi hafalan rumus.
VALIDITAS PENILAIAN SKALA BESAR

Penilaian skala besar eksternal, penilaian kelas secara luas yang
meliputi kabupaten, dan ujian nasional, standar pencapaian dan tes bakat,
penilaian sikap, dan individual diberikan tes kecerdasan. Dalam bagian ini
kita membahas jenis bukti yang diperlukan untuk mendukung interpretasi
yang valid. Memahami jenis-jenis bukti validitas akan membantu untuk
menemukan informasi yang tepat untuk mengevaluasi dan pemilihan
instrumen penilaian.
Bukti yang digunakan untuk menilai Validitas
Sedikitnya delapan jenis bukti validitas perlu dipertimbangkan
sebelum Anda mengambil keputusan tentang validitas hasil penilaian
untuk interpretasi tertentu. Jenis-jenis bukti tidak membawa bobot yang
sama, namun, karena hasil penilaian ditafsirkan dan digunakan secara
berbeda diperlukan penekanan yang berbeda pada berbagai jenis bukti.
Gambar 3.2 merangkum delapan jenis bukti bahwa teori validitas
(Cronbach, 1988, 19 89; Kane, 2006; Linn, Baker, & Dunbar, 1991;
Messick, Iglga, 1989) penting diidentifikasi. Selain itu, gambar daftar
17
pertanyaan khas masing-masing jenis bukti dan prosedur khusus yang

digunakan untuk mengumpulkan bukti.
Anda akan melihat kesamaan antara beberapa jenis bukti dan
pertanyaan pada Gambar 3.2 dan materi yang disajikan dalam bagian
sebelumnya pada memvalidasi penilaian guru. semua validasi bukti
mendukung interpretasi yang dimaksudkan atau digunakan. Tujuan untuk
menggunakan penilaian eksternal biasanya berbeda dari penilaian kelas.
Oleh karena itu, penekanan dan ''campuran dari bukti yang digunakan
untuk menilai validitas berbeda juga.
Sebelum kita membahas rincian jenis bukti, Anda harus perhatikan
hal berikut:
1. Pentingnya perubahan setiap jenis bukti sebagai interpretasi dan
perubahan penggunaan hasil penilaian. Semua jenis bukti pada
Gambar 3.2 berlaku untuk hampir setiap jenis prosedur penilaian.
Namun berbeda interpretasi dan penggunaan prosedur hasil penilaian
membutuhkan beberapa jenis bukti lebih kuat daripada yang lain.
Sebagai contoh, SAT Reasoning Test ini dimaksudkan untuk
memprediksi nilai rata-rata tahun pertama kuliah. Dengan demikian,
universitas atau perguruan tinggi harus berbobot lebih berat tes, s
prediktif kekuatan dan potensinya untuk konsekuensi negatif, seperti
mengurangi jumlah laki-laki itu memilih, daripada bukti bahwa tes
sesuai tujuan kurikulum dan konten yang harus berat kurang.
2. Memberikan bukti tanggung jawab dari kedua penerbit dan pengguna.
Penerbit
dan
lembaga
yang
menghasilkan
penilaian
lainnya
bertanggung jawab untuk menyediakan data yang mendukung

keandalan, validitas, dan aspek teknis lainnya dari hasil penilaian.
Tanggung jawab ini dijelaskan dalam Standar untuk Pendidikan dan
Psychological Testing (Asosiasi Riset Pendidikan Amerika, Amerika
Psikologis Associatiory & Dewan Nasional Pendidikan, 1999).
3. Anda harus selalu memperhatikan validitas hasil penilaian bahkan jika
Anda tidak mampu untuk melakukan penelitian validitas. Pendidik
pada tingkat yang berbeda memiliki jumlah sumber daya dan
kesempatan yang berbeda dari untuk mengumpulkan bukti tentang
18
validitas hasil. Guru memiliki peluang dan sumber daya paling sedikit;
administrator sekolah tingkat kabupaten dan tingkat nasional memiliki
peluang lebih. Fakta ini tidak membiarkan guru dengan sumber daya
yang lebih sedikit untuk tidak memvalidasi interpretasi hasil penilaian
yang digunakan. Ada kewajiban profesional untuk mengangkat isu-isu
tentang validitas penilaian yang digunakan dan untuk membantu dalam
membangun validitas mereka.
VALIDITAS DIDUKUNG OLEH BUKTI
Ahli pengukuran merekomendasikan bahwa validitas digunakan
sebagai konsep kesatuan (Amerika Educational Research Association).
Buku ini mengikuti rekomendasi tersebut, dengan demikian, Anda
harus berpikir jenis bukti yang mendukung validitas penilaian.
Jenis bukti
Contoh pertanyaan yang harus dijawab
1. konten keterwakilan a. Seberapa baik melakukan penilaian mewakili domain

dan relevansi
penting konten?
(disebut konten
b. Seberapa baik tugas-tugas penilaian mewakili standar
bukti)
kurikulum?
c. Seberapa baik tugas-tugas penilaian mencerminkan
berpikir tentang apa yang harus diajarkan dan dinilai ?
d. Apakah tugas penilaian layak untuk dipelajari?
2. Jenis keterampilan
berpikir dan
keterampilan
proses diperlukan
(bukti substantif)
a. Berapa banyak melakukan penilaian menuntut siswa untuk

menggunakan keterampilan berpikir dan keterampilan
proses?
b. Seberapa baik tugas penilaian mewakili jenis keterampilan
berpikir dalam hasil kurikulum dan standar negara?
c. Apakah siswa benar-benar menggunakan kemampuan
berpikir yang dimaksudkan dan proses untuk
menyelesaikan prosedur penilaian?
3. Hubungan antara
a. Apakah semua penilaian tugas kerja sama sehingga setiap
penilaian tugas atau
tugas memberikan kontribusi positif terhadap penilaian
bagian penilaian
kualitas pembelajaran?
(disebut bukti
b. Jika bagian yang berbeda dari prosedur penilaian yang
struktur lnternal)
seharusnya memberikan keterangan yang unik, lakukan
hasil yang mendukung keunikan ini?
c. Jika bagian yang berbeda dari prosedur penilaian yang
19
Memper
harus d
untuk m
dan has
relevans
penilaia
keterwa
seluruh
Mengan
mengun
dibutuhk
sukses.
diajarka
Siswa
melakuk
dihasilk
berpikir
keseluru
diingink
relevan
a. Men
total
semu
b. Skor
berko
hubu
c. Men
seharusnya memberikan informasi yang sama atau serupa,

lakukan hasil mendukung ini?
d. Apakah tanggapan siswa konsisten dengan konstruksi dan
teori penilaian yang dilakukan?
d.
4. Hubungan variabel a. Adalah hasil dari penilaian konsisten dengan hasil
penilaian hasil pada
penilaian lainnya yang sama dengan siswa ini? seberapa
hasil lain (Bukti
baik kinerja prosedur penilaian ini mencerminkan kualitas
struktur eksternal)
atau sifat yang diukur dengan tes lain?
b. Seberapa baik kinerja pada prosedur penilaian
memprediksi kinerja tugas sekarang atau masa depan
lainnya dibuatkan kriteria?
c. Seberapa baik hasil penilaian dapat digunakan untuk
memilih orang untuk pekerjaan, sekolah dll? Seberapa
besar tingkat kesalahannya?
d. Seberapa baik hasil penilaian dapat digunakan untuk
menetapkan siswa untuk berbagai jenis instruksi? apakah
siswa belajar lebih baik ketika ditugaskan cara ini?
5. Reliabilitas
a. Apakah siswa yang sama memperoleh hasil yang hampir
penilaian dan
sama jika prosedur penugasan diterapkan pada waktu lain?
domain konten
Berapa tingkat kesalahannya?
(bukti reliabilitas)
b. Jiks diberikan kepada siswa yang berbeda apakah
memperoleh penilaian yang hampir sama? Berapa tingkat
kesalahannya?
c. Jika suatu bentuk alternatif kedua prosedur kajian yang
dikembangkan dengan isi yang serupa, apakah hasil siswa
sangat mirip? Bagaimana tingkat kesalahannya?
6. Generalisasi
a. Apakah prosedur penilaian memberikan hasil yang
interpretasi lebih
berbeda bila digunakan dengan siswa yang berbeda latar
dari berbagai jenis
belakang sosial ekonomi dan etnis, tapi memiliki
orang, dalam
kemampuan yang sama? apakah ini wajar atau tidak?
kondisi yang
b. Prosedur penilaian akan menghasilkan perubahan jika
berbeda, atau
diubah drastis dengan diberikan insentif khusus? jika
dengan instruksi
demikian, bagaimana perubahan hasil penilaian ini
khusus (bukti
diinterpretasikan?
generalisasi)
c. Akan instruksi khusus, perubahan instruksi, atau
pembinaan khusus secara signifikan setelah hasil siswa
memperoleh hasil, pada penilaian seperti itu, bagaimana
seharusnya perubahan penilaian hasil diinterpretasikan?
7. Nilai yang dimaksud a. Apa yang kita harapkan terjadi pada siswa jika kita
dan atau
menafsirkan dan menggunakan hasil penilaian dalam cara
konsekuensi yang
tertentu? konsekuensi apa yang diharapkan terjadi, dan
tidak diinginkan
bagus?
(bukti
b. Apa efek samping kita mengantisipasi bagi siswa jika kita
20
a.
b.
c.
d.
dan p
untuk
terma
yang
Mela
dan
meny
Tuga
karak
Band
kriter
Men
predi
Men
meny
dari
ketik
siswa
diskr
Melakuk
(reliabil
a. Guna
peng
baga
berub
jenis
deng
b. Mela
eksp
mem
a. Mela
hasil
penil
mana
b. Mela
konsekuensial)
menginterpretasikan dan menggunakan hasil penilaian

dengan cara tertentu? mengapa diantisipasi efek samping
yang terjadi positif atau negatif?
c. Apa efek samping negatif tak teruga yang terjadi bagi
siswa, untuk siapa kita menafsirkan dan menggunakan
hasil kajian dengan cara tertentu? Dapatkah efek samping
negatif dihindari dalam menggunakan prosedur
penilaianteknik lain atau dengan mengubah penafsiran
kita?
8. Biaya, efisiensi,
a. Dapatkah prosedur penilaian mengakomodasi jumlah
kepraktisan, fitur
siswa yang sejenis?
instruksional (bukti b. Apakah prosedur penilaian yang mudah bagi guru untuk
kepraktisan)
digunakan?
c. Dapatkah prosedur penilaian memberikan hasil yang tepat
waktu untuk membimbing instruksi?
d. Apakah hasil penilaian bermakna menjelaskan perbedaan
individu?
e. Apakah hasil penilaian mengidentifikasi kesalahpahaman
yang perlu dikoreksi?
f.Apakah prosedur penilaian alternatif lebih effisien?
21
diant
telah
prose
terten
Analisis
data uji
keputus
keprakti
Pendekatan Berbasis Validasi Argumen

Karrc (1992, 2001, 2002, 2006) menunjukkan pengorganisasian jawaban
atas pertanyaan-pertanyaan dalam bentuk argumen yang persuasif. Penggunaan
gabungan logika dan data yang meyakinkan orang lain bahwa interpretasi dan
penggunaan
hasil
penilaian
adalah
valid.
Pendekatan
untuk
validitas
mengharuskan untuk (a) menyatakan dengan jelas tujuan membuat interpretasi

hasil penilaian, (b) Sajikan secara logis argumen yang koheren untuk mendukung
hasil penilaian dapat ditafsirkan dan digunakan sesuai dengan keinginan, dan (c)
Dukung logika argumentasi anda dengan menyebutkan
bukti terhadap
interpretasi yang dimaksudkan. pendekatan ini disebut pendekatan berbasis

validasi argumen (Kane, 1992). Shepard (1993) menyarankan untuk berpikir
dengan pertanyaan berikut:
1. apakah praktek penilaian yang harus dilakukan? Praktek penilaian berarti cara
Anda untuk menafsirkan dan menggunakan hasil penilaian dalam situasi
tertentu.
2. apa bukti yang mendukung atau membantah klaim saya bahwa praktek
penilaian saya mencapai apa yang diinginkan?
3. ketika saya menggunakan praktek penilaian dalam bidang pendidikan, apa
fungsinya, 'baik atau buruk, selain apa yang saya klaim?
Bukti untuk mendukung argumen validitas dan membantah potensi
argumen kontra datang dari berbagai kategori yang dijelaskan pada Gambar 3.2.
Jenis bukti dalam argumen tergantung pada praktek penilaian yang akan
divalidasi. Kane (l992) memberikan berikut Contoh: Misalkan ingin validasi
menggunakan tes penempatan aljabar untuk menetapkan siswa yang baik untuk
kursus aljabar atau kursus kalkulus. Untuk memvalidasi praktik penilaian ini,
Kane menyatakan bahwa Anda perlu argumen yang didukung oleh bukti berikut:
1. Anda dapat menilai dengan tepat keberhasilan siswa dalam belajar kalkulus
(yaitu, kriteria yang cocok dengan prosedur penilaian yang ada).
2. Anda dapat mengidentifikasi konsep aljabar dan keterampilan berpikir siswa
yang sering digunakan dalam kalkulus.
3. Isi aljabar dan keterampilan berpikir dinilai dengan tes penempatan sesuai
dengan yang sering digunakan dalam kalkulus.
4. Kursus perbaikan siswa yang skornya rendah akan berhasil dalam
mengajarkan siswa konsep aljabar dan keterampilan yang diperlukan dalam
kalkulus.
22
5. Skor tes penempatan dapat diandalkan (yaitu, skor siswa yang konsisten di
berbagai sampel item tes, Cara pengujian yang berbeda, dan orang berbeda
yang melakukan tes).
6. Hal ini tidak akan membantu siswa dengan kemampuan tinggi dalam aljabar
untuk mengambil kursus aljabar remedial (yaitu, siswa yang mendapat skor
tinggi pada tes penempatan tidak akan secara signifikan meningkatkan peluang
keberhasilan dalam kalkulus dengan terlebih dahulu mengambil kursus aljabar
perbaikan).
7. Nilai tes penempatan tidak terpengaruh oleh sistematika kesalahan yang akan
menurunkan validitas penafsiran tes penempatan pengetahuan aljabar dan
kemampuan berpikir.
Konten Keterwakilan dan Relevansi:
Bukti keterwakilan konten dan relevansi berlaku untuk segala macam
penilaian: tes prestasi, tes bakat, tes kepribadian, observasi kinerja guru-siswa,
penilaian kinerja, dan sebagainya. Bagian ini berfokus terutama pada tes prestasi
skala besar.
Definisi ranah seperti ditunjukkan dalam Gambar 3.2, jenis bukti berasal
dari menilai konten tugas atau item instrumen. Bukti konten keterwakilan
penilaian datang dari penilaian informasi yang berfokus pada tugas penilaian
adalah perwakilan sampel dari ranah yang lebih besar. Penilaian hanyalah sebuah
contoh dari item yang bisa disampaikan kepada siswa. Karena mungkin kita tidak
bisa hadir dalam setiap tugas untuk siswa, kita harus mengambil sampel dari ranah
sedemikian rupa sehingga sampel cukup mewakili domain. Bukti konten relevansi
penilaian berasal dari penilaian yang fokus pada berapa banyak definisi domain
pengguna tes.
Satu pertanyaan yang muncul adalah apakah definisi domain sesuai:
penilaian pengembangan atau penilaian penggunaan? Misalnya Tes Membaca
ABC, mungkin menekankan kosakata dan membaca kalimat tetapi tidak mungkin
terpisah mengukur keterampilan membaca kata atau kosa kata. Petugas sekolah
memilih tes membaca dapat melihat kedua hal tersebut relevan dengan definisi
domain membaca. Apabila pengembang tes dan pengguna tes tidak setuju pada
definisi domain maka penilaian tidak dimasukkan. Membuat penilaian tersendiri
tentang bagaimana baik tugas-tugas pada penilaian mewakili (a) domain
pengembang dan (b) pengguna akan mengklarifikasi apakah domain bukti
23
mendukung tujuan penggunaan prosedur penilaian sekolah (Nitko, Al-Sarimi

"Amedahe, Wang, & Wingert, 1998).
Tabel Spesifikasi Seorang pengembang tes mendefinisikan domain dalam
manual atau teknis publikasi. Dalam manual alat untuk mendefinisikan domain
standar Survei tes prestasi adalah tabel spesifikasi. Tabel ini berisi konten utama
kategori dan keterampilan yang dinilai. Tabel ini menggambarkan persentase
tugas (item) untuk setiap kombinasi konten-keterampilan. Persentase tugas per
kombinasi adalah ukuran kombinasi kontribusi terhadap total siswa. Bab 6 dan
Lampiran G menunjukkan contoh tabel spesifikasi.
Relevansi Kurikuler dan Domain Konten
Sebuah metode penilaian yang relevan dengan definisi sekolah dari domain
pencapaian sejauh cocok dengan target pembelajaran kurikulum sekolah. Bukti
relevansi penilaian kurikuler ini berasal dari penilaian tentang derajat tumpang
tindih antara kurikulum dan item yang terkandung dalam instrumen penilaian.
Gambar 3.3 dapat membantu memperjelas perbedaan antara pencocokan penilaian
untuk pengembang domain prestasi dan relevansi penilaian kurikuler. Definisi
pengembang dari prestasi dan sampel tugas yang terdiri dari penilaian tertentu
ditunjukkan di pusat angka. Penilaian ini cocok dengan pengembang domain jika
tugas cukup mewakili definisi pengembang.
GAMBAR 3.3 Sebuah ilustrasi skematik dari hubungan antara instrumen

penilaian, pengembang ranah konten, dan domain kurikulum khusus dari dua
sekolah.
Sebuah penilaian yang cocok untuk pengembang domain mungkin relevansi
kurikuler kurang untuk beberapa sekolah. Relevansi kurikuler didasarkan pada
seberapa baik tugas-tugas pada instrumen tersebut merupakan kerangka kurikulum
sekolah. Seperti terlihat pada gambar, penilaian kurikulum Sekolah A memiliki
relevansi lebih daripada untuk Sekolah B. Kerangka kurikulum sekolah A
biasanya jauh lebih luas dan lebih kaya daripada instrumen penilaian kelas.
24
Dengan demikian, meskipun instrumen penilaian memiliki relevansi lebih

kurikuler untuk Sekolah A daripada untuk Sekolah B, tingkat relevansi masih
tidak cukup bagi sekolah untuk menggunakan instrumen.
Relevansi Kurikuler lebih dari proporsi sederhana dari konten yang cocok
dengan kurikulum. Instrumen harus ditinjau secara keseluruhan untuk menilai
apakah bidang isi yang berbeda menerima penekanan sesuai dengan target
pembelajaran kurikulum lokal. Tugas individu pada penilaian juga harus (a)
mencerminkan pemikiran ahli subjek-materi tentang apa yang penting bagi
mengajar dan menilai, (b) secara akurat menggambarkan subjek materi, (c) akan
menulis dengan benar, dan (d) mengandung konten yang bermakna. Selain itu,
tugas penilaian individu harus dibangun dengan baik sehingga siswa benar-benar
melakukan domain dimaksud.
Penyelarasan Standar Negara dan Akuntabilitas Tes Salah satu isu penting
bagi negara-negara dan sekolah adalah keselarasan dari penilaian yang digunakan
untuk akuntabilitas dan standar pendidikan yang ditetapkan. The NCLB Act
mewajibkan negara untuk memberikan bukti bahwa penilaian pendidikan
digunakan untuk laporan kepada pemerintah federal selaras dengan standar
negara. Akibatnya negara sering membuat kontrak dengan organisasi untuk
melakukan penyelarasan studi.
Studi penjajaran adalah studi empiris melibatkan pengumpulan penilaian
dari penilai terlatih dan ringkasan dari jawaban siswa untuk menguji item yang
memiliki tujuan menjelaskan dengan cara yang paling obyektif, sejauh mana item
tes yang sebenarnya pada instrumen penilaian suatu negara sejalan dengan konten
pendidikan dan standar kinerja yang ditetapkan oleh negara itu. studi-studi ini
memberikan bukti yang jatuh ke dalam konten dan kategori substantif Gambar
3.2.
Minimal studi tersebut harus menyediakan informasi tentang seberapa baik
penilaian negara sesuai dengan:
a. Isi, ide, dan detail yang ditentukan oleh standar negara.
b. Kedalaman pemahaman, kompleksitas kognitif, dan kemampuan untuk
menerapkan pengetahuan yang dijelaskan dalam standar negara.
c. Penekanan topik yang berbeda dan proses kognitif yang tercermin dalam
standar negara.
d. Pertunjukan yang diharapkan dari siswa seperti ini dijelaskan oleh standar
negara.
e. Penerapan tersirat dari standar negara untuk semua siswa. (La Marca,
Redfield, Musim Dingin, Bailey, & Despriet 2000)
25
Studi keselarasan sering mempertimbangkan penilaian negara beberapa

tahun bukan hanya satu pengujian tahun. Hal ini karena, seperti telah kami
nyatakan sebelumnya, satu tes hanyalah contoh yang mungkin domain item
yang dapat disajikan kepada siswa. Keselarasan selama beberapa tahun
kadang-kadang kriteria yang lebih tepat.
Kemampuan Berpikir dan Proses: Bukti substantif
Sebuah penilaian harus dinilai tidak hanya dari segi konten tetapi juga
dalam hal proses berpikir dan keterampilan siswa yang harus digunakan untuk
menyelesaikan tugas dengan baik. Adapun penilaian kelas, penilaian prestasi skala
besar harus mensyaratkan siswa untuk menggunakan proses pemikiran dan
keterampilan seperti yang didefinisikan oleh kerangka kurikulum, standar negara,
dan oleh para ahli materi pelajaran. Penaksiran instrumen kadang-kadang bertanya
apakah siswa menggunakan kombinasi keterampilan dan pengetahuan bersamasama untuk bekerja pada aplikasi "kehidupan nyata".
Untuk memvalidasi klaim bahwa tugas-tugas mengharuskan siswa untuk
menggunakan proses berpikir tingkat tinggi dan keterampilan proses, pengembang
penilaian harus menyediakan data basis siswa untuk mendukung klaim yang
mencakup (a) penjelasan rinci dari proses dan kemampuan yang dinilai, (b)
demonstrasi yang jelas tentang bagaimana masing-masing jenis tugas atau
penilaian menilai keterampilan proses, dan (c) bukti dari penelitian yang
menunjukkan bahwa siswa menggunakan keterampilan berpikir dan keterampilan
proses yang dimaksud. Yang terakhir ini mungkin mengambil bentuk kecil studi
yang dilakukan di laboratorium kognitif. Siswa diminta untuk "berpikir keras"
saat mereka bekerja melalui tugas pada instrumen. Pemikiran mereka diatur
menjadi "protokol" dan dianalisa untuk mengungkapkan jenis strategi berpikir
siswa (Ericsson & Simon, 1999). Zucket Sassman, dan Kasus (2004) memberikan
contoh bagaimana satu tes penerbit menggunakan pendekatan laboratorium
kognitif untuk mengembangkan dan memvalidasi standar tes.
Penelitian juga harus menunjukkan bahwa siswa tidak menggunakan proses
yang tidak cocok untuk memecahkan tugas. Misalnya, matematika pilihan ganda
pengembang tes menyatakan akan menilai siswa kemampuan pemecahan masalah
tingkat tinggi. Pengembang harus menyediakan bukti bahwa siswa menggunakan
kemampuan tingkat tinggi dimaksudkan dan tidak hanya ingat.
Hubungan antara Bagian Penilaian: Bukti Struktur Internal
26
Instrumen penilaian tidak boleh hanya kumpulan tugas penilaian atau

pertanyaan tes. Masing-masing tugas dalam prosedur harus memberikan
kontribusi positif terhadap keseluruhan hasil. Struktur internal dari instrumen
penilaian dijelaskan oleh hubungan timbal balik antar tugas dan hubungan antara
tugas dan hasil total. Struktur internal dan struktur eksternal prosedur penilaian
penting dalam menafsirkan hasil penilaian sebagai indikator seseorang pada
pendidikan atau membangun psikologis. Misalnya, tes unidimensional yang
menilai hanya satu kemampuan siswa, seperti pemecahan masalah aritmatika.
Untuk memastikan bahwa Anda yang benar-benar menafsirkan hasil penilaian
sebagai hanya berukuran kemampuan siswa, Anda harus menemukan bukti yang
mendukung klaim ini. Pengembang harus memberikan bukti bahwa setiap tugas
penilaian membedakan kemapuan siswa dalam satu dimensi saja (pemecahan
masalah aritmatika). Seringkali tugas penilaian mengukur lebih dari satu dimensi.
Sebagai contoh, pemecahan masalah aritmatika mungkin sangat tergantung pada
keterampilan membaca, pengetahuan kosakata, kecepatan komputasi, dan
kecepatan umum kerja, serta pemecahan masalah aritmatika. Dalam hal ini,
mungkin tidak valid menafsirkan hasil yang mencerminkan hanya kemampuan
pemecahan masalah aritmatika siswa.
Di sisi lain, beberapa instrumen penilaian sengaja dibuat untuk menilai dua
atau lebih dimensi. Sebagai contoh, beberapa tes bakat skolastik menyediakan
ukuran kemampuan verbal, kemampuan numerik, dan kemampuan nonverbal. Jika
demikian, maka panduan teknis harus berisi bukti bahwa nilai tes verbal, numerik,
dan nonverbal memiliki makna yang berbeda. Bukti dari penelitian harus
menunjukkan bahwa, meskipun skor siswa pada tiga bagian dari tes mungkin
cukup terkait (karena merupakan aspek keseluruhan bakat skolastik), dapat
diartikan sebagai tiga aspek yang berbeda dari bakat skolastik.
Pengembang tes sering menggunakan koefisien korelasi sebagai bukti untuk
mendukung keabsahan jenis interpretasi. Koefisien ini mengukur derajat
hubungan antara dua atau lebih skor penilaian.
Hubungan Hasil untuk Variabel lain: Bukti Struktur eksternal
Bukti tentang validitas penafsiran penilaian dan penggunaan juga berasal
dari seberapa baik hasil penilaian berkorelasi dengan variabel lain atau kriteria.
Sebagai contoh, SAT Reasoning Test kedua langkah verbal dan kemampuan
matematika. Validitasnya tergantung sebagian pada struktur- internal apakah item
27
verbal dalam ukuran sebenarnya kemampuan verbal, materi matematika

mengukur kemampuan matematika, dan skor pada dua bagian tes bermakna
berbeda. Bagaimanapun pentingnya penggunaan SAT Reasoning Test adalah
untuk memberikan informasi yang membantu petugas penerimaan dalam memilih
calon mahasiswa dalam perguruan tinggi. Sebagian bukti validitas penting harus
datang dari penelitian yang menetapkan korelasi dari skor SAT Reasoning Test
dengan variabel eksternal, yaitu nilai di perguruan tinggi. Struktur eksternal
penilaian adalah pola hubungan antara hasil penilaian (skor) dan skor dari variabel
eksternal untuk penilaian.
Bukti spesifik yang dibutuhkan tergantung pada bagaimana ingin
menafsirkan dan menggunakan hasil penilaian. Jika ingin menggunakan hasil
penilaian untuk membantu memilih kandidat calon mahasiswa, misalnya, maka
harus ditetapkan bahwa hasil penilaian berkorelasi positif dengan kriteria
keberhasilan perguruan tinggi seperti nilai rata-rata. Kadang-kadang kita ingin
memvalidasi bahwa penilaian baru mengukur kemampuan sama sebagai salah satu
yang sudah ada. Sebagai contoh, kita ingin memvalidasi bahwa pilihan ganda dan
penilaian lisan dapat mengukur dengan baik kemampuan memahami bacaan. Jika
mereka berdua mengukur kemampuan yang sama, diharapkan skor menjadi
positif. Siswa dengan skor tinggi pada satu kemampuan juga harus memiliki skor
tinggi di sisi lain. Jika skor pada dua penilaian berbeda secara signifikan, ada
kemungkinan bahwa tes mengukur
kemampuan yang berbeda. Penelitian
tambahan akan diperlukan untuk menetapkan skor langkah-langkah pemahaman

bacaan. Seorang peneliti menghasilkan hipotesis dan kontra hipotesis tentang
hubungan hasil penilaian dengan kriteria eksternal hasil analisis logis, pengalaman
sebelumnya penelitian, dan teori tentang ciri atau sifat yang dinilai.
Perhatikan dari kedua contoh bahwa beberapa bukti
membantu
memprediksi kinerja di masa depan (seperti sukses di perguruan tinggi), dan

beberapa bukti perkiraan pada variabel status individu. Prediksi validitas bukti
mengacu pada sejauh mana kriteria individu bekerja di masa depan dapat
diprediksi dari kinerja mereka pada instrumen penilaian. Sebagai contoh, kita bisa
mengumpulkan
nilai
rata-rata
siswa
sekolah,
tunggu
sampai
mereka
menyelesaikan satu tahun kuliah, mengumpulkan nilai rata-rata perguruan tinggi,

dan korelasi dengan nilai SMA siswa. Prediksi dari waktu ke waktu adalah tujuan.
Bukti validitas konkuren mengacu pada sejauh mana status individu pada kriteria
28
dapat diperkirakan dari kinerja mereka saat ini pada instrumen penilaian. Sebagai
contoh, siswa belajar sudah di perguruan tinggi, memberi mereka khusus tes
bakat, dan mengumpulkan kelas mereka nilai rata-rata saat ini. Hubungan antara
nilai dan bukti validitas tes konkuren karena dua langkah dikumpulkan pada
waktu yang sama. Perbedaan ini penting karena interval waktu antara pemberian
instrumen penilaian dan mendapatkan kriteria hasil mempengaruhi kekuatan
hubungan antara dua hasil: Biasanya semakin lama interval waktu antara dua
hasil, semakin rendah korelasi antara mereka.
Koefisien korelasi
Koefisien korelasi merupakan indeks statistik yang mengkuantifikasi
tingkat hubungan antar skor dari satu penilaian dan nilai dari lain. Indeks ini
dilaporkan pada skala -1 sampai +1. (Bagian ini berfokus pada konsep.
Perhitungan yang diilustrasikan dalam Lampiran I.)
Skor siswa pada tes yang berbeda. Contoh yang menunjukkan hubungan
antara skor dari beberapa tes akan membantu menjelaskan korelasi. Contoh pada
Gambar 3.4 menunjukkan nilai dari 11 siswa pada masing-masing tes. Para siswa
telah diatur dalam urutan menurun menurut mereka skor bakat verbal (l).
Hubungan antara skor verbal dan aritmatika (A) kurang kuat: Urutan siswa pada
tes ini tidak sama seperti pada tes verbal dan membaca.
Gambar 3.4 Hypolhetical skor untuk 11 murid pada bakat lisan menguji bacaan
tes, dan tes aritmatika. Sumber: Diadaptasi dari Mengukur Prestasi dan Bakat
Siswa, C. M. Lindvall dan A. J. Nitko. 2nd ed. New York: Harcourt Brace
Jovanovich, @ 1975 oleh C. M. Lindvall A. J. Nitko
29
Membandingkan ranking korespondensi siswa lebih jelas ketika kita

mengubah masing-masing skor untuk peringkat, seperti dalam tiga kolom terakhir
dari contoh pada Gambar 3.4. Jajaran siswa pada bakat verbal dan membaca,
meskipun tidak identik dalam setiap kasus, yang cukup dekat. Jajaran siswa pada
bakat verbal dan berkorespondensi aritmatika kurang erat. Ada pergeseran di
jajaran siswa dari bakat verbal untuk aritmatika daripada ada dari bakat verbal
membaca. Membandingkan ranking siswa pada dua penilaian adalah salah satu
cara mempelajari bagaimana berkorelasi hasilnya.
Cara lain untuk mempelajari korelasi antara skor dari penilaian adalah
grafik diagram pencar (scattergram). Diagram scatter adalah grafik di mana skor
dipasangkan diplot. Contoh pada Gambar 3.5 menunjukkan plot ini untuk V vs R
dan V vs A. Grafik menunjukkan hubungan antara skor dipasangkan untuk seluruh
orang kelompok 11 siswa.
Anda dapat memperoleh wawasan yang cukup tentang bagaimana skor pada
dua penilaian terkait dengan membuat diagram pencar. Gambar 3.5 (A), plot
sepanjang garis hampir lurus dari kiri bawah grafik ke kanan atas. Dalam Gambar
3.5 (B), plot tidak dekat dengan garis lurus. Namun, ada kecenderungan dalam
grafik dari kiri bawah grafik ke kanan atas.
Visual Koefisien Korelasi Pearson product - moment membandingkan
peringkat skor dan merencanakan diagram pencar dua cara kualitatif mempelajari
hubungan antara skor. Penilaian yang diterbitkan menggunakan pengukuran
kuantitatif korelasi disebut koefisien korelasi Pearson product-moment yang
dilambangkan oleh r. Dari sekian banyak jenis korelasi koefisien, r ini paling
sering digunakan dalam validitas penelitian. Sebuah koefisien korelasi memiliki
rentang kemungkinan dari nilai dari -1,00 sampai 0,00-1,00. Korelasi dari 0.00
berarti bahwa dua set nilai tidak terkait : Skor siswa pada satu penilaian tidak
dapat diprediksi dari nilai yang lain
30
GAMBAR 3.5 Diagram yang menunjukkan skor membaca vs skor kemampuan

verbal dan skor kemampuan verbal vs nilai tes aritmatika untuk 11 murid yang
ditunjukkan pada Gambar 3.4
Dalam korelasi positif, nilai tinggi pada satu penilaian dikaitkan dengan
nilai tinggi yang lain. Dalam korelasi negatif, skor tinggi pada satu penilaian
dikaitkan dengan skor rendah lain. hubungan positif sempurna akan memiliki
koefisien korelasi 1,00. Hubungan negatif sempurna akan memiliki koefisien
korelasi -1,00. Dalam kedua kasus pada satu penilaian sempurna dapat
memprediksi skor penilaian lainnya.
Jika menerapkan prosedur yang diuraikan dalam Lampiran I akan
ditemukan bahwa hubungan antara lisan dan membaca nilai ujian adalah 0.97 dan
antara lisan dan skor aritmatika adalah 0.71. Koefisien korelasi ini konsisten
dengan Kesan skor dalam diagram pencar. Jumlah 0.97 mencerminkan hubungan
positif tinggi (sangat dekat dengan 1.00), sedangkan 0,71 menunjukkan hubungan
lemah.
Derajat hubungan ini membantu dalam memahami koefisien korelasi untuk
menghubungkannya dengan diagram pencar. Gambar 3.6 menunjukkan diagram
pencar dan koefisien korelasi yang sesuai untuk skor berpasangan yang memiliki
derajat hubungan yang berbeda. Setiap titik mewakili sepasang skor bagi
seseorang. Diagram pencar disusun untuk menggambarkan bahwa hubungan
positif dan negatif koefisien memiliki nilai mutlak yang sama merupakan derajat
hubungan yang dekat.
Korelasi sempurna berarti prediksi sempurna.
Korelasi yang sempurna jarang ditemukan dalam bidang penilaian
pendidikan dan psikologi. Ada banyak alasan untuk ini, seperti penilaian yang
31
mengandung kesalahan acak pengukuran, satuan pengukuran yang tidak sama,

distribusi skor tidak memiliki bentuk identik, dan dua hasil penilaian tidak terkait
secara sederhana. Derajat lain dari hubungan yang ditunjukkan dalam Gambar
3.6. B dan R korelasi adalah -0.90dan +0.90, masing-masing. Korelasi sebesar ini
menunjukkan bahwa hasil penilaian sangat terkait. Sekali lagi, tingkat hubungan
adalah sama dalam B dan F, tapi arah dari hubungan berlawanan. r kedua kasus,
poin diplot dalam diagram pencar cenderung jatuh bersama garis lurus, meskipun
mereka tidak jatuh tepat pada baris seperti yang mereka lakukan di A dan E.
Meskipun prediksi sempurna skor pada satu penilaian dari nilai yang lain tidak
mungkin ketika korelasinya -0.90 Atau +0.90, prediksi yang cukup akurat adalah
mungkin.
Membandingkan B dengan F, dan C dengan G, kita melihat sebagai korelasi
antara skor menurun, sebuah pencar lebih besar terjadi jauh dari garis lurus.
Dengan korelasi +0,60 atau -0,60, masih mungkin untuk memprediksi skor
pengetahuan seseorang pada Y tapi prediksi tersebut telah tobe dibuat dengan
margin of error dari dalam kasus ketika r: -0,90 atau r: * 0.90. Di D dan H korelasi
adalah 0,30 dan -0,30.
Akhirnya, diagram pencar I menggambarkan kurangnya korelasi antara dua
set nilai. Seseorang dengan skor tinggi pada Assessment X bisa memiliki skor
rendah pada Penilaian Y. Dengan demikian, skor dikatakan tidak berkorelasi, dan
r: 0.00. Perhatikan pola melingkar dari menunjuk pada diagram pencar.
Korelasi dan Kausalitas
Jika nilai dari dua penilaian berkorelasi, tidak selalu berarti bahwa ciri-ciri yang
mendasarinya kausalitas berkaitan. Sebagai contoh, ada sebuah korelasi positif
antara ukuran sepatu dan skor pemahaman membaca kelas untuk populasi anakanak sekolah dasar. Anak-anak dengan kaki yang lebih besar mampu membaca
lebih baik: Mereka lebih tua dan memiliki lebih banyak pengalaman membaca.
Kaki lebih besar di kelas delapan relatif terhadap kelas pertama dan kedua kelas,
menjadi pembaca yang lebih baik. Variabel ketiga, jumlah pengalaman membaca
adalah yang paling mungkin "penyebab" dari korelasi antara ukuran sepatu dan
skor membaca.
32
GAMBAR 3.6 Menyebarkan diagram untuk berbeda derajat korelasi.

Koefisien Korelasi dan Ukuran Sampel
Koefisien korelasi yang dilaporkan dalam studi dari penilaian dan dalam
manual tes didasarkan pada skor yang diperoleh dari sampel, bukan pada nilai dari
semua orang dalam populasi. Korelasi dihitung dari sampel hanya memperkirakan
nilai numerik dari korelasi dalam populasi lengkap. Anda harus memiliki
keyakinan kurang dalam nilai-nilai yang tepat dari korelasi dihitung dari sampel
kecil daripada korelasi dihitung dari sampel yang lebih besar. Dalam sampel kecil,
bahkan satu pasang nilai dapat mempengaruhi nilai numerik koefisien korelasi
substansial. Contoh pada Gambar 3.7 menunjukkan korelasi 0,70 di Diagram A
turun menjadi 0,60 di Diagram B ketika orang dengan X : 12, Y: 12 digantikan
oleh orang lain dengan X : 13, Y : 7, bahkan meskipun semua skor lainnya tetap
sama.
Faktor yang Meningkatkan atau Menurunkan Koefisien Korelasi
Koefisien korelasi muncul dalam manual tes dan laporan penelitian.
Kecenderungan pertama adalah untuk menafsirkan mereka sebagai laporan
hubungan yang sebenarnya antara karakteristik instrumen penilaian. Pada
kenyataannya, kesamaan karakteristik yang dinilai adalah salah satu faktor yang
mempengaruhi besarnya koefisien korelasi yang dilaporkan. Secara umum,
korelasi hasil tinggi ketika sifat-sifat (a) yang dinilai sama, (b) reliabilitas nilai
pada kedua penilaian tinggi (c) kisaran nilai pada penilaian kedua besar, (d)
33
bentuk distribusi pada dua penilaian sama, dan (e) interval waktu antara
pemberian dua penilaian singkat. Gambar 3,8 meringkas faktor-faktor ini dan
memberikan contoh masing-masing. Seringkali lebih dari satu faktor-faktor ini
beroperasi pada waktu yang sama. Membaca bukti korelasional laporan harus
hati-hati, mengingat faktor-faktor ini sebagai kemungkinan menjelaskan nilai
numerik korelasi yang ditafsirkan.
Koefisien Validitas
Prosedur biasa ketika mengumpulkan input bukti validasi atau bersamaan
adalah untuk menghitung korelasi antara nilai dari instrumen penilaian dan kriteria
nilai. Korelasi tersebut kadang-kadang disebut sebagai koefisien validitas,
meskipun, karena Anda dapat dengan mudah melihat dari gambar 3.6, satu nomor
tepat untuk menilai validitas hasil penilaian. Dalam situasi pilihan Koefisien
validitas yang tinggi biasanya adalah bukti kuat bahwa seleksi berguna untuk
memilih orang-orang yang akan berhasil. Ini karena korelasi yang tinggi
merupakan bukti bahwa prediksi keberhasilan akan cukup akurat.
Faktor
Kesamaan ciri-ciri
Reliabilitas skor
Jangkauan
penyebaran skor
Efek pada Koefisien Korelasi

Semakin mirip ciri-ciri, korelasi tinggi
Bakat verbal dan nilai te

tinggi berkorelasi dari b
matematika
Skor reliabilitas kurang berkorelasi lebih Peringkat subjek tes es
rendah dari skor reliabilitasnya lebih
dengan benar berkorel
pemahaman membaca
penggunaan bahasa Inggr
atau Semakin besar rentang (penyebaran) nilai , nilai tes bakat Aljabar
korelasi cenderung yang lebih tinggi dengan nilai matematika
korelasinya
pertama siswa SMA y
daripada ketika hanya n
34
tahun pertama yang diser

Kesamaan distribusi
Semakin berbeda bentuk dari distribusi Skor dari tes prestasi yan
skor pada dua penilaian, lebih rendah tes sangat mudah untuk k
correlalion tersebut.
lebih rendah daripada
kelompok.
Interval waktu antara Semakin pendek interval waktu antara
Tes bakat aljabar diberika
administrasi penilaian, korelasi cenderung antara skor dan nilai
administrasi penilaian
lebih tinggi
pertama akan menjadi leb
matematika yang sama si
35
Tabel Harapan
Cara lain untuk menampilkan validitas prediktif data adalah membuat tabel
harapan. Tabel harapan adalah grid atau dua arah yang memungkinkan prediksi
tentang seberapa besar kemungkinan untuk orang tertentu dengan hasil penilaian
untuk mencapai tingkat skor kriteria. Gambar 3.9 menggambarkan bagaimana
sebuah tabel harapan dikembangkan untuk menunjukkan probabilitas bahwa siswa
pada bakat tertentu akan mencapai tingkat skor masing-masing kelas dalam suatu
kursus.
Pertama tabel dibuat, seperti pada Gambar .9 (A), di mana setiap sel
mengandung jumlah orang dengan skor tertentu yang mencapai masing-masing
grade (tingkat skor kriteria). Sebagai contoh, 15 siswa memiliki skor tes bakat
antara 60 dan 69. Nomor ini ditampilkan dalam margin baris kanan dari 60-69.
Tiga dari 15 ini mencapai kursus kelas D, 5 kelas C, 6 kelas B, dan 1 kelas A.
Kedua, masing-masing frekuensi sel pada Gambar 3.9 (A) dibagi dengan
total baris yang sesuai, dikonversi untuk persentase dan dimasukkan ke dalam
tabel harapan seperti Gambar 3.9 (B). Persentase ini diartikan sebagai probabilitas
atau kemungkinan dari 100 sampai menjawab pertanyaan-pertanyaan seperti, "Di
sekolah ini, apa yang probabilitas seseorang dengan tes bakat skor 65 akan
berhasil dalam kursus ini? "Pertama, catatan bahwa orang dengan skor 65
merupakan anggota dari kelompok yang nilainya antara 60 dan 69. Kedua, jika
kita mendefinisikan sukses berarti nilai C atau lebih baik, kemudian 33% + 40% +
36
7% = 80% dari siswa dengan skor bakat antara 60 dan 69 berhasil. Karena orang
dengan skor bakat dari 65 adalah anggota kelompok ini, jawaban atas pertanyaan
adalah, "seseorang dengan skor bakat dari 65 memiliki 80% kesempatan untuk
menjadi sukses dalam kursus ini.
Tabel harapan dapat membantu orang tua dan siswa menginterpretasikan
hasil penilaian. Misalnya, tabel harapan dibuat perguruan tinggi untuk
menunjukkan bagaimana nilai tes penerimaan yang terkait dengan indeks prestasi
rata-rata tahun pertama mahasiswa.
Jika Anda menginterpretasikan hasil penilaian menggunakan tabel harapan,
Anda harus memperhatikan beberapa pertimbangan. Sebagai contoh, instrumen
penilaian yang digunakan untuk memprediksi keberhasilan jarang memperhatikan
ukuran inisiatif siswa, ketekunan, atau motivasi.
Kriteria
Penilaian Anda tentang apakah penilaian pengembang telah memberikan
validitas bukti yang tepat sebagian bergantung pada apakah penilaian hasil telah
berkorelasi dengan kriteria yang relevan.
Jenis Kriteria
Berbagai kriteria digunakan untuk memberikan bukti validitas. Klasifikasi
personil dan seleksi penelitian di pemerintah dan industri menggunakan empat
jenis kriteria: produksi (kuantitas dan kualitas barang, penjualan), data pribadi
(kecelakaan di pekerjaan, masa kerja, keanggotaan kelompok, nilai pelatihan),
sampel aktual atau simulasi prestasi kerja, dan penilaian oleh orang lain (daftar
periksa, peringkat supervisor). Di bidang pendidikan, kriteria jatuh menjadi tiga
jenis: (1) nilai tes prestasi; (2) peringkat, nilai, dan penilaian kuantitatif lainnya
guru; dan (3) Data karir. Sebuah contoh umum adalah tes kesiapan membaca yang
diberikan pada awal kelas satu. Skor sering divalidasi dengan menghubungkan
mereka dengan skor prestasi membaca (kriteria) diberikan pada akhir.
Menggunakan indeks prestasi rata-rata untuk memvalidasi skor dari tes bakat dan
tes penerimaan. Terkadang peringkat guru dari konsep diri siswa, sosialisasi, dan
sebagainya digunakan sebagai ukuran kriteria.
Menilai Kelayakan Kriteria
Langkah-langkah yang digunakan dalam validitas penelitian dievaluasi
dalam empat bidang: (1) relevansi jangka panjang, (2) tingkat reliabilitas, (3)
37
tingkat bias terhadap individu atau kelompok, dan (a) masalah praktis
ketersediaan dan kemudahan.
Batas Validitas Kriteria Reliabilitas Rendah
Jika hasil memiliki reliabilitass yang rendah akan berkorelasi rendah
dengan langkah-langkah lain daripada jika memiliki reliabilitas yang tinggi.
Bahkan jika instrumen prediksi memiliki reliabilitas yang baik tidak akan mampu
memprediksi skor kriterium yang tidak reliabel.
Kesalahan sistematis
Kesalahan sistematis dalam kriteria pengukuran dapat membawa pada
kesimpulan yang salah tentang validitas skor instrumen tersebut. Misalnya, sebuah
studi validitas skor tes dapat berkorelasi dengan penilaian guru siswa. Jika
penilaian ini mendukung anak laki-laki daripada anak perempuan, atau siswa
dengan keterampilan lisan tinggi atas orang-orang dengan kemampuan verbal
lebih rendah, mungkin tidak mengukur kriteria. Bias sistematis seperti ini
menunjukkan faktor-faktor yang berpengaruh dalam proses validasi "mencemari"
skor kriteria. Dengan demikian, sebelum menerima hasil korelasi sebagai bukti
validitas prediktif, pikirkan baik-baik tentang kemungkinan bahwa skor pada
kriteria terjadi bias atau tidak valid.
Pertimbangan praktis idealnya, nilai dari instrumen harus divalidasi
menggunakan data dari kriteria akhir kehidupan nyata. Namun, pertimbangan
praktis membatasi sejauh mana pengembang dapat melakukan hal ini. Kepraktisan
tidak harus menjadi satu-satunya penentu dalam pengembang memutuskan untuk
memilih langkah-langkah kriteria.
Reliabilitas Waktu, Asesor, Domain Konten: Reliabilitas Bukti
Reliabilitas mengacu pada konsistensi penilaian hasil dari waktu ke waktu,
jika dan ketika mereka diulang, di penilai, atau lebih berbagai bentuk penilaian.
Sebagai contoh, skor dari tes membaca ABC diberikan hari ini berkorelasi 0.00
dengan skor dari pengujian yang sama ini diberikan minggu depan. Korelasi ini
adalah bukti bahwa skor tidak memiliki konsistensi selama periode ini. Anda akan
mempertanyakan validitas tes ini jika nilai siswa memiliki sedikit atau tidak ada
konsistensi dari satu minggu ke depan karena Anda percaya bahwa kemampuan
membaca stabil dalam waktu singkat. Jika instrumen penilaian menghasilkan hasil
yang tidak konsisten atau tidak stabil, Anda dapat memiliki sedikit kepercayaan
hasil tersebut. Oleh karena itu, reliabilitas hasil penilaian membatasi validitasnya.
Generalisasi Interpretasi Orang, Kondisi, atau Instruksi Khusus dan
Intervensi: Generalisasi Bukti
38
Kategori bukti validasi adalah bagaimana secara luas dapat menafsirkan

dan menggunakan hasil penilaian. Misalnya, apakah tes membaca ABC mengukur
jenis pemahaman bacaan diperlukan siswa di tingkat yang lebih tinggi dari
sekolah dan dalam kehidupan nyata? Apakah mengukur pemahaman membaca
siswa kulit hitam sama dengan cara mengukur pada siswa kulit putih? Apakah
tepat menggunakan skor dari tes tersebut untuk perbaikan membaca kelompok
siswa berbahasa Spanyol? Skor tes membaca ABC sangat tergantung pada suasana
hati siswa atau motivasi pada saat tes diberikan? Jika siswa menerima instruksi
khusus strategi apa yang akan digunakan untuk menjawab pertanyaan pada tes ini
(misalnya, membaca pertanyaan pertama, mencari jawaban dalam teks), apakah
hal ini sangat mempengaruhi nilai siswa?
Jawaban untuk pertanyaan seperti ini membantu kita melihat hasil penilaian
dalam perspektif yang lebih luas. Biasanya jawaban menunjukkan bahwa
penafsiran hasil penilaian tidak bisa sederhana. Validitas interpretasi dan
penggunaan hasil penilaian terbatas pada kondisi tertentu.
Perhatikan ilustrasi berikut (berbasis di sebagian pada contoh di Cronbach,
l97l): Misalkan Tes Membaca ABC memiliki bentuk bagian dari satu atau dua
paragraf diikuti oleh beberapa pertanyaan pilihan ganda. Petunjuk pengujian bagi
siswa untuk membaca setiap bagian dan menjawab pertanyaan-pertanyaan yang
mengikutinya dengan menandai lembar jawaban yang terpisah.
Pada pandangan pertama, tampak bahwa siswa perlu untuk membaca dan
memahami pertanyaan. Namun, ada beberapa hipotesis menarik lainnya. Jika
faktor ini mengubah skor siswa, maka Anda tidak bisa menafsirkan tes sebagai
ukuran murni pemahaman membaca atau membuat keputusan tentang siswa
seolah-olah nilai tergantung pada interpretasi pemahaman membaca murni.
Mungkin bagian tersebut mengacu topik, tema, atau pengalaman tertentu tentang
yang beberapa siswa kemungkinan memiliki banyak pengetahuan sebelumnya.
Pengetahuan sebelumnya atau item tes berkualitas rendah dapat membuat siswa
dapat
menjawab
pertanyaan-pertanyaan
tanpa
membaca
bagian
ini.
Ketergantungan bagian menggambarkan derajat jawaban atas pertanyaan

tergantung pada membaca dan memahami bagian ini. Bagian independen item
dikatakan tidak dapat untuk menilai pemahaman bacaan. Batas waktu terlalu ketat,
administrasi tes yang buruk dan atau arah yang tidak jelas, dan keterampilan siswa
dalam menggunakan lembar jawaban juga dapat mempengaruhi nilai tes dengan
cara yang tidak mencerminkan pemahaman bacaan.
39
Faktor-faktor ini, dapat berdiri sebagai hipotesis bertentangan dengan

penafsiran nilai yang dimaksud sebagai ukuran pemahaman bacaan. Ketika Anda
mengajukan pertanyaan ini, Anda harus melihat laporan manual dan teknis
penerbit untuk penelitian bukti. Tidak semua bukti akan termasuk dalam bahan
penerbit, bagaimanapun, terutama jika bukti tidak menguntungkan.
Konsekuensi dimaksudkan dan tidak dimaksudkan Consequences Bukti
konsekuensial
Kebanyakan penilaian dan akuntabilitas program negara, dimaksudkan
untuk memiliki konsekuensi positif (Lane & Stone, 2002):
Meningkatkan upaya pendidikan siswa, guru, dan administrator sekolah.
Meningkatkan isi kurikulum dan pembelajaran strategi.
Meningkatkan pembelajaran semua siswa.
Meningkatkan pengembangan profesional guru dan dukungan sekolah untuk
pembangunan itu.
Meningkatkan fokus dan sifat bagaimana siswa dipersiapkan untuk penilaian.
Meningkatkan siswa, guru, administrator, dan kesadaran masyarakat tentang
nilai standar, kriteria, dan penilaian untuk mengevaluasi sekolah.
Bukti tentang seberapa baik konsekuensi yang dimaksudkan dicapai
menjadi bagian dari kasus untuk memvalidasi penilaian program negara. Hal ini
tidak cukup, namun, untuk mengumpulkan bukti hanya tentang apakah
konsekuensi dimaksudkan suatu program telah dicapai. Penilaian negara dan
usaha validasi program akuntabilitas harus mencari bukti negatif, konsekuensi
yang tidak diinginkan seperti berikut (Lane & Stone, 2002):
Sebuah penyempitan kurikulum dan kelas mengajar untuk fokus hanya pada
apa yang termasuk dalam penilaian negara, sementara mengabaikan tujuan
yang lebih luas dan tujuan kurikulum. Mempersiapkan siswa hanya untuk
mengambil tes tanpa meningkatkan prestasi mereka lolos dari standar negara
Menggunakan praktek persiapan ujian tidak etis seperti membagikan
pertanyaan sebelumnya
Peningkatan prestasi hanya beberapa siswa (misalnya, siswa di sekolahsekolah yang memiliki tinggi sosial ekonomi tinggi) sedangkan prestasi orang
lain (misalnya, siswa di sekolah-sekolah dari tingkat sosial ekonomi rendah)
tetap rendah atau menurun

Peningkatan penggunaan hasil penilaian yang tidak tepat seperti mentransfer
atau menghukum guru dan kepala sekolah yang siswanya memiliki skor
rendah
40
Penurunan motivasi beberapa siswa untuk belajar dan pencapaian karena

kinerja yang buruk pada penilaian.
Sebuah program validasi harus mencari bukti negatif, konsekuensi yang
tidak diinginkan serta bukti mencapai positif, konsekuensi dimaksudkan dari

program penilaian.
Bukti Kepraktisan: Biaya, Efisiensi, Kepraktisan, dan Fitur Instruksional
Hasil penilaian mungkin secara teknis dapat diterima, tetapi hambatan
pelaksanaan dapat menghambat untuk digunakan. Sebagai contoh, jika penilaian
prosedur terlalu rumit bagi guru untuk menggunakannya, mereka tidak akan
menggunakan dengan benar dan akan menghasilkan hasil dengan validitas rendah.
Validitas
instrumen
penilaian
akan
membaik
jika
diberikan
dan
diinterpretasikandengan benar. Beberapa instrumen penilaian bisa disertai dengan

komputerisasi laporan skor yang membantu guru mengidentifikasi siswa yang
membutuhkan bantuan khusus.
Meskipun biaya penilaian tidak menjadi pertimbangan utama untuk
validitas, itu tetapi tetap menjadi pertimbangan. Yang menjadi perhatian di sini
adalah menentukan pilihan yang biayanya paling hemat dari berbagai pilihan
instrumen penilaian. Manakah yang akan memberikan hasil yang paling valid di
bawah pelaksanaan dan pengaturan dalam sekolah tertentu? Akankah altematif
termurah yang adalah altematif yang paling valid?
Hal-hal yang terkait dengan validitas ketika mengakomodir siswa
penyandang cacat. Berdasarkan Undang-Undang NCLB, semua siswa harus
dinilai, termasuk siswa dengan penyandang cacat. Sembilan puluh lima persen
siswa penyandang cacat harus berpartisipasi dalam penilaian. Siswa penyandang
cacat tersebut dapat digunakan sebagai dasar untuk mengakomodasi proses
penilaian para pelajar yang tidak dapat berpartisipasi dalam penilaian di bawah
kondisi standar yang ditetapkan untuk populasi sekolah umum. Selanjutnya,
alternatif metode penilaian harus ditemukan untuk menilai siswa yang tidak dapat
berpartisipasi bahkan dengan bantuan. Akomodasi penilaian atau modifikasi
penilaian baik dalam kondisi atau bahan penilaian yang memungkinkan
pencapaian siswa penyandang cacat menjadi evaluasi yang sama dengan siswa
yang dievaluasi dengan penilaian dimodifikasi.
Isu dan Kontroversi
Standarisasi akomodasi tes standar untuk siswa dengan cacat fisik kurang
kontroversial daripada akomodasi bagi siswa penyandang cacat kognitif seperti
41
ketidakmampuan belajar (Phillips, 1994). Salah satu perhatian adalah validitas

interpretasi hasil uji: Jika tes diberikan di bawah kondisi dibawah standar, apakah
skornya sama dengan nilai bagi siswa yang mengambil tes dalam kondisi standar?
Validitas Skor dari tes yang mengakomodasi penyandang cacat
Validitas interpretasi tergantung pada jenis tes yang diberikan, tujuan
pengujian, jenis akomodasi, jenis kecacatan siswa, dan sifat interpretasi itu
sendiri. Jika tujuan pengujian adalah untuk menilai pengetahuan siswa dan
kemampuan subjek dalam ilmu sosial atau matematika, maka tepat bagi siswa
cacat yang sulit membaca untuk memiliki pembaca (orang lain untuk
membacakan pertanyaan soal). Dalam hal ini, konsep, prinsip, dan prosedur
subjek yang independen dari media cetak di mana mereka disajikan pada tes. Oleh
karena itu logis bagi Anda untuk menilai pemahaman siswa melalui akomodasi
yang sesuai.
Jika Anda mangatakan bahwa membaca bukan bagian dari pengetahuan dan
kemampuan yang dinilai, Anda juga bisa berpendapat bahwa pembaca yang lemah
tanpa kecacatan dalam belajar juga harus memiliki tes membaca matematika dan
IPS kepada mereka. Dalam skenario ini, akan dianggap adil jika diberikan
pembaca untuk kedua siswa dengan ketidakmampuan belajar dan untuk
pembaca yang buruk.
Di sisi lain, seorang mahasiswa disleksia mungkin tidak dapat untuk
menyelesaikan bagian pemahaman membaca tes prestasi standar. Jika tujuan
pengujian adalah untuk menilai kemampuan siswa untuk standar membaca tulisan
dalam bahasa Inggris, akan menjadi tidak valid untuk memberikan pembaca
untuk siswa pada tes tersebut.
Namun, misalkan siswa dapat membaca beberapa materi jika diberikan
lebih banyak waktu untuk menjawab. akomodasi ini melanggar ketentuan
standarisasi, sehingga membatalkan interpretasi norma-direferensikan seperti
kesetaraan kelas, persentil jajaran, dan standar nilai. Namun demikian, dengan
memberikan siswa lebih banyak waktu, Anda menemukan uji materi apa yang bisa
dilakukan ketika elemen waktu dihapus. Interpretasi hasil tidak bisa mengabaikan
akomodasi, namun
memerlukan pengantar interpretasi norma-direferensikan
seperti contoh berikut;

contoh
"Berikut adalah bagaimana Sally dibandingkan dengan siswa lain. Para siswa
lainnya mengambil tes dalam kondisi standar dan dengan waktu yang terbatas.
Namun Sally mengambil tes di bawah kondisi tidak standar dan tidak ada batas
42
waktu karena [memberikan alasan Anda]. Ini menekankan poin yang kita buat
sebelumnya dalam hal ini bab: Validitas mengacu pada interpretasi Anda terhadap
skor.
Bagaimana seharusnya Skor norma yang direferensikan terakomodasi
dilaporkan? Masalah apakah melaporkan informasi norma-direferensikan tentang
kinerja siswa ketika ujian melanggar kondisi pengujian standar (misalnya, gagal
untuk menjaga batas waktu) masih kontroversial. Jika kondisi administrasi standar
tes dilanggar, beberapa akan melihat hal berikut sebagai sesuatu yang tidak patut:
(a) melaporkan jenis informasi norma-referensi untuk siswa terakomodasi dan (b)
termasuk rata-rata hasil sekolah dari siswa yang memiliki administrasi tes
diakomodasi (Phillips, komunikasi pribadi, 2001). Apakah hasil individu bagi
siswa diberikan tes dalam kondisi diakomodasi harus diidentifikasi atau ditandai
dalam catatan atau laporan juga tetap kontroversial (Sireci, 2005). persyaratan
hukum, seperti persyaratan pelaporan NCLB Act, bahwa negara persentase siswa
mencapai tingkat mahir atau lebih baik pada kebutuhan standar suatu negara harus
dilaporkan, terlepas dari akomodasi.
Bagaimana Seharusnya Criterion-Direferensikan
diakomodasi
Skor
Dilaporkan? Interpretasi kriteria yang dirujuk (misalnya, interpretasi jenis bahan

membaca dan jenis menjawab pertanyaan) sering dibuat untuk hasil tes. Namun,
kecepatan membaca juga merupakan bagian dari penafsiran ini untuk tes prestasi
standar karena batas yang dikenakan oleh kondisi terstandar. Selanjutnya untuk
interpretasi
kriteria
direferensikan
perlu
dinyatakan
dengan
cara
yang
mencerminkan administrasi tidak standar, seperti contoh berikut ini:

contoh
"Berikut adalah jenis bahan dan pertanyaan yang Sally mampu membaca ketika
dia mengambil tes di bawah kondisi tidak standar dan tanpa batas waktu "
Hal ini kadang-kadang mungkin untuk melaporkan dua hasil: kinerja siswa
dalam kondisi standar dan kinerja siswa di bawah kondisi tidak standar.
Perspektif Pengukuran akomodasi
Dalam perspektif pengukuran yang ketat, di mana validitas program
pengujian adalah perhatian utama, pertanyaan-pertanyaan berikut mungkin
dipergunakan:
1. Apakah perubahan dalam format atau pengujian kondisi mengubah
keterampilan yang diukur?
43
2. Apakah nilai peserta ujian diuji di bawah kondisi standar memiliki makna
yang berbeda dari skor untuk peserta ujian diuji dengan membutuhkan
akomodasi?
3. Akankah peserta ujian yang tidak membutuhkan akomodasi menguntungkan
jika mereka tetap diberikan akomodasi sama?
4. Apakah peserta ujian yang meminta atau diberikan akomodasi memiliki
kapasitas untuk menyesuaikan diri dengan tes kondisi standar?
5. Apakah alasan kecacatan atau pengujian akomodasi berdasarkan prosedur
kebijakan diragukan validitas dan reliabilitasnya? (Diadaptasi dari Phillips,
1994, p.1.04)
Phillips berpendapat bahwa jika Anda menjawab ya untuk salah satu
pertanyaan ini, akomodasi tes tidak tepat karena akan membahayakan validitas
hasil tes. Dia menunjukkan potensi konflik antara memberikan partisipasi
maksimum bagi kelompok para penyandang cacat dan menjaga validitas tes.
Tidak semua akan setuju, dengan kesimpulan Phillips. Sebagai contoh,
meskipun akomodasi dapat mengubah keterampilan dinilai atau makna dari nilai
(lihat Pertanyaan 1 dan 2), seperti perubahan mungkin lebih, daripada kurang,
valid. Pendapat Phillips menganggap bahwa pemberian tes dalam kriteria kondisi
standar terhadap yang diakomodasi harus dinilai. Ini juga mengasumsikan bahwa
skill atau kemampuan yang dinilai oleh tes dalam kondisi standar adalah relevan
dengan keterampilan dan kemampuan yang akan dinilai.
Asumsi ini mungkin tidak benar. Misalnya, membaca kata-kata pendek dan
menjawab pertanyaan dalam kondisi standar waktunya bukanlah tujuan di akhir
pembelajaran, dan juga hal tersebut bukan penilaian langsung dari membaca.
Akomodasi dengan kondisi uji standar dapat berubah baik keterampilan yang
diperlukan dan makna hasil ke arah yang lebih positif. Pada gilirannya, dapat
membuat hasil tes yang diakomodasi lebih seperti target pembelajaran paling
dalam nyata dunia-terutama bagi siswa penyandang cacat tertentu. Hal ini lebih
mungkin terjadi sebagaimana Amerika dengan Disabilities Act of 1990 terus
mengubah pola kondisi akomodasi, dan sikap di tempat kerja. Dasar untuk menilai
validitas hasil penilaian berubah seiring waktu seperti kita belajar lebih banyak
tentang kemampuan dan kontribusi para penyandang cacat. Misalnya, untuk
banyak pekerjaan dan situasi dunia nyata, membaca dengan akomodasi tetap
diperbolehkan dan diterima.
KESIMPULAN
44
Validitas hasil penilaian kelas dan penilaian skala besar tergantung pada
tujuan yang dimaksudkan dan penggunaannya. Telah diuraikan berbagai jenis
bukti yang harus dipertimbangkan dalam alasan yang khusus hasil penilaian yang
berlaku untuk tujuan tertentu atau penggunaannya.
45

VALIDITAS HASIL PENILAIAN Oleh AGUS MIANTA 13708259007

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

VALIDITAS HASIL PENILAIAN Oleh AGUS MIANTA 13708259007

Diunggah oleh

Hak Cipta:

Format Tersedia

VALIDITAS HASIL PENILAIAN

Disusun guna memenuhi tugas mata kuliah Evaluasi Pembelajaran Sains

PROGRAM STUDI PENDIDIKAN SAINS

1. Validitas adalah ketepatan interpretasi dan penggunaan hasil penilaian

pembelajaran (sebagaimana dimaksud dan seperti yang diajarkan, baik isi

Validitas adalah penilaian yang dibuat setelah mempertimbangkan bukti

Prinsip-prinsip ini dijelaskan pada paragraf di bawah ini.

Staf Lincoln School ingin menafsirkan penilaian Hiram bahwa telah

menggunakan mereka untuk menggambarkan dan merencanakan pembangunan

pengelompokan homogen untuk membaca instruksi. Hal ini juga menyiratkan

mempertimbangkan interpretasi yang tepat, menggunakan relevan, dan nilai-nilai

Konsekuensi yang sesuai

mempertimbangkan konsekuensi ini ketika menilai apakah Anda menggunakan

bagaimana valid hasil penilaian Anda.

Bentuk Penilaian untuk Mecapai Kriteria

5. Siswa mengintegrasikan dan menggunakan

8. Memeberikan waktu yang cukup bagi siswa untuk

penilaian haruslah mencerminkan ini hasil-hasil

Terkait erat dengan keterwakilan konten dan relevansi apakah

kemampuan siswa untuk menggunakan strategi dan proses yang umum

mensimulasikan aplikasi kehidupan nyata pada tingkat yang sesuai untuk

Selama unit, periode, atau semester, Anda akan telah mengamati

skor penilaian kelas disebabkan oleh faktor-faktor seperti menggunakan

rekan mereka, bahkan meskipun pengetahuan konten mereka mungkin

diseimbangkan dengan waktu yang digunakan. Beberapa prosedur, seperti

yang sempurna. Strategi menggabungkan penilaian beberapa hasil dari

VALIDITAS PENILAIAN SKALA BESAR

pertanyaan khas masing-masing jenis bukti dan prosedur khusus yang

bertanggung jawab untuk menyediakan data yang mendukung

Contoh pertanyaan yang harus dijawab

1. konten keterwakilan a. Seberapa baik melakukan penilaian mewakili domain

a. Berapa banyak melakukan penilaian menuntut siswa untuk

seharusnya memberikan informasi yang sama atau serupa,

menginterpretasikan dan menggunakan hasil penilaian

Pendekatan Berbasis Validasi Argumen

mengharuskan untuk (a) menyatakan dengan jelas tujuan membuat interpretasi

interpretasi yang dimaksudkan. pendekatan ini disebut pendekatan berbasis

mendukung tujuan penggunaan prosedur penilaian sekolah (Nitko, Al-Sarimi

GAMBAR 3.3 Sebuah ilustrasi skematik dari hubungan antara instrumen

Dengan demikian, meskipun instrumen penilaian memiliki relevansi lebih

Studi keselarasan sering mempertimbangkan penilaian negara beberapa

Instrumen penilaian tidak boleh hanya kumpulan tugas penilaian atau

verbal dalam ukuran sebenarnya kemampuan verbal, materi matematika

kemampuan yang berbeda. Penelitian

tambahan akan diperlukan untuk menetapkan skor langkah-langkah pemahaman

memprediksi kinerja di masa depan (seperti sukses di perguruan tinggi), dan

menyelesaikan satu tahun kuliah, mengumpulkan nilai rata-rata perguruan tinggi,

Membandingkan ranking korespondensi siswa lebih jelas ketika kita

GAMBAR 3.5 Diagram yang menunjukkan skor membaca vs skor kemampuan

mengandung kesalahan acak pengukuran, satuan pengukuran yang tidak sama,

GAMBAR 3.6 Menyebarkan diagram untuk berbeda derajat korelasi.

Efek pada Koefisien Korelasi

Bakat verbal dan nilai te

tahun pertama yang diser

Kategori bukti validasi adalah bagaimana secara luas dapat menafsirkan

Ketergantungan bagian menggambarkan derajat jawaban atas pertanyaan

Faktor-faktor ini, dapat berdiri sebagai hipotesis bertentangan dengan

tetap rendah atau menurun

Penurunan motivasi beberapa siswa untuk belajar dan pencapaian karena

tidak diinginkan serta bukti mencapai positif, konsekuensi dimaksudkan dari

diinterpretasikandengan benar. Beberapa instrumen penilaian bisa disertai dengan

ketidakmampuan belajar (Phillips, 1994). Salah satu perhatian adalah validitas