Anda di halaman 1dari 36

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

BAB 9

Validitas dan Keandalan


Informasi
berasal dari
ukur
instrumen
rentang dari
sangat baik untuk
TUJUAN INSTRUKSIONAL
tidak berguna untuk
Setelah mempelajari bab ini, mahasiswa akan mampu:
benar-benar 1 Bedakan antara validitas dan reliabilitas.
menyesatkan. 2 Buat daftar jenis bukti utama yang digunakan untuk mendukung interpretasi skor tes yang valid.

Ada 3 Definisikan konstruk underrepresentation dan varians konstruk yang tidak relevan
dan jelaskan relevansinya dengan validitas nilai tes.
sistematis 4 Bedakan antara bukti validitas konvergen dan diskriminan.
cara untuk 5 Bedakan antara kesalahan pengukuran acak dan sistematis dan
hubungannya dengan validitas dan reliabilitas nilai tes.
menilai 6 Nyatakan berbagai sumber kesalahan acak dalam ukuran pendidikan dan psikologis.
kegunaan 7 Jelaskan prosedur yang berbeda (tes-tes ulang, bentuk setara, split-half, Kuder-

dari skor Richardson, dan lain-lain) untuk memperkirakan keandalan ukuran.

8 Hitung koefisien reliabilitas untuk data yang diberikan.


berasal dari 9 Tentukan keandalan antar pengamat dan jelaskan cara menghitungnya.
ukur 10 Terapkan rumus Spearman–Brown untuk menentukan pengaruh perpanjangan tes pada

instrumen. reliabilitas tes.

11 Jelaskan faktor-faktor yang mempengaruhi ukuran koefisien reliabilitas.

12 Hitung kesalahan standar pengukuran dan tafsirkan pita skor sebagai


indikasi keandalan.
13 Hitung indeks untuk menunjukkan keandalan tes yang direferensikan kriteria.

Penelitian kuantitatif selalu bergantung pada pengukuran. Bab 8 memperkenalkan Anda pada beberapa

instrumen pengukuran yang digunakan dalam penelitian. Dua konsep yang sangat penting yang harus

dipahami peneliti ketika menggunakan alat ukur adalah:keabsahan dan keandalan. Validitas didefinisikan

sebagai sejauh mana skor pada tes memungkinkan seseorang untuk membuat interpretasi yang bermakna

dan tepat. Keandalan menunjukkan seberapa konsisten suatu tes mengukur apa pun yang diukurnya. Peneliti

harus memperhatikan validitas dan reliabilitas skor yang diperoleh dari instrumen yang digunakan dalam

penelitian dan harus memasukkan informasi ini dalam laporan penelitian. Jika data peneliti tidak diperoleh

dengan instrumen yang memungkinkan interpretasi yang valid dan andal, seseorang dapat memiliki sedikit

kepercayaan pada hasil yang diperoleh atau pada kesimpulan berdasarkan hasil.
224
BAB 9 VALIDITAS DAN KEANDALAN 225

KEABSAHAN
Validitas merupakan pertimbangan terpenting dalam mengembangkan dan
mengevaluasi alat ukur. Secara historis,keabsahan didefinisikan sebagai sejauh mana
suatu instrumen mengukur apa yang diklaimnya diukur. Fokus pandangan terkini
tentang validitas bukanlah pada instrumen itu sendiri tetapi pada interpretasi dan makna
skor yang diperoleh dari instrumen tersebut. Paling baruStandar Tes Pendidikan dan
Psikologi (1999),* disiapkan oleh American Educational Research Association, the National
Council on Measurement in Education, dan American Psychological Association,
mendefinisikan validitas sebagai “sejauh mana bukti dan teori mendukung interpretasi
skor tes yang disyaratkan oleh penggunaan tes yang diusulkan” (hal. 9). Alat ukur
menghasilkan skor; namun, masalah penting adalah interpretasi yang kami buat dari
skor, yang mungkin valid atau tidak. Misalnya, tes matematika kelas empat yang
memungkinkan seorang guru membuat interpretasi yang valid tentang pencapaian
matematika siswa kelas empatnya tidak akan menghasilkan interpretasi yang valid
tentang kemampuan siswa kelas empat untuk memecahkan masalah aljabar. Jika
seseorang mencoba menggunakan tes prestasi matematika untuk tujuan ini, itu akan
menjadi interpretasi tentang kemampuan siswa untuk memecahkan masalah aljabar
yang tidak valid, bukan tes. Dengan demikian, kita tidak lagi berbicara tentang validitas
instrumen, melainkan validitas interpretasi atau kesimpulan yang diambil dari skor
instrumen. Validitas tidak berjalan dengan instrumen. Sebuah tes mungkin valid untuk
digunakan dengan satu populasi atau pengaturan tetapi tidak dengan yang lain.
Menilai validitas interpretasi berbasis skor penting bagi peneliti karena sebagian
besar instrumen yang digunakan dalam penyelidikan pendidikan dan psikologis
dirancang untuk mengukur konstruksi hipotetis. Ingatlah bahwa konstruksi seperti
kecerdasan, kreativitas, kecemasan, pemikiran kritis, motivasi, harga diri, dan sikap
mewakili variabel abstrak yang diturunkan dari teori atau pengamatan. Peneliti tidak
memiliki sarana langsung untuk mengukur konstruksi ini seperti yang ada dalam
ilmu fisika untuk pengukuran karakteristik seperti panjang, volume, dan berat. Untuk
mengukur konstruksi hipotetis ini, Anda harus berpindah dari domain teoretis di
sekitar konstruk ke tingkat empiris yang mengoperasionalkan konstruk. Artinya,
kami menggunakan definisi operasional untuk mengukur konstruk. Kami melakukan
ini dengan memilih set spesifik tugas yang dapat diamati yang diyakini berfungsi
sebagai indikator konstruk teoretis tertentu. Kemudian kita berasumsi bahwa kinerja
(skor) pada tugas mencerminkan konstruk tertentu yang menarik yang dibedakan
dari konstruk lainnya. Pada dasarnya, validitas berkaitan dengan seberapa baik
definisi operasional sesuai dengan definisi konseptual.
Tes mungkin merupakan ukuran yang tidak tepat dari konstruksi yang mereka
rancang untuk dinilai karena mereka meninggalkan sesuatu yang menurut teori harus
dimasukkan, termasuk sesuatu yang harus ditinggalkan, atau keduanya. Messick (1995)
mengidentifikasi dua masalah yang mengancam interpretasi (validitas) nilai tes:
representasi konstruk yang kurang dan variansi konstruk yang tidak relevan. Syarat
membangun representasi yang kurang mengacu pada penilaian yang terlalu sempit
dan gagal untuk memasukkan dimensi penting dari konstruk. Tes mungkin tidak cukup
sampel beberapa jenis konten atau beberapa jenis tanggapan atau proses psikologis dan
dengan demikian gagal untuk cukup mewakili domain teoritis dari konstruk. individu

* Edisi 1999 dari Standar saat ini sedang direvisi (lihat www.apa.org/science/standards.html).
226 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

skor pada tes matematika mungkin menyesatkan karena tes tersebut tidak mengukur
beberapa keterampilan yang relevan yang, jika diwakili, akan memungkinkan individu untuk
menampilkan kompetensi mereka. Atau skala yang dirancang untuk mengukur konsep diri
umum mungkin hanya mengukur konsep diri sosial dan bukan komponen akademik dan fisik
dari konsep diri.
Syarat varians konstruk-tidak relevan mengacu pada sejauh mana skor tes
dipengaruhi oleh variabel yang asing untuk konstruk. Skor rendah tidak boleh terjadi
karena tes mengandung sesuatu yang tidak relevan yang mengganggu demonstrasi
kompetensi mereka. Varians yang tidak relevan dapat menurunkan skor pada tes prestasi
sains untuk individu dengan keterampilan membaca terbatas atau keterampilan bahasa
Inggris terbatas. Pemahaman membaca dengan demikian merupakan sumber varians
konstruk yang tidak relevan dalam tes pencapaian sains dan akan mempengaruhi
validitas setiap interpretasi yang dibuat tentang pencapaian sains individu.

VALIDASI
Proses pengumpulan bukti untuk mendukung (atau gagal mendukung) interpretasi
tertentu dari nilai tes disebut sebagai validasi. Kami membutuhkan bukti untuk
menetapkan bahwa kesimpulan, yang dibuat berdasarkan hasil tes, adalah tepat.
Sejumlah penelitian mungkin diperlukan untuk membangun bukti tentang validitas
interpretasi berbasis skor ini. NSStandar Tes Pendidikan dan Psikologi daftar tiga
kategori bukti yang digunakan untuk menetapkan validitas interpretasi berbasis
skor: bukti berdasarkan konten, bukti berdasarkan hubungan dengan kriteria, dan
bukti validitas terkait konstruk. Menggunakan kategori-kategori ini tidak berarti
bahwa ada jenis validitas yang berbeda tetapi, sebaliknya, bahwa berbagai jenis
bukti dapat dikumpulkan untuk mendukung tujuan penggunaan suatu tes. Kategori
tumpang tindih dan semua sangat penting untuk konsep kesatuan validitas.

1. Bukti Berdasarkan Konten Tes


Bukti berdasarkan konten tes melibatkan isi tes dan hubungannya dengan
konstruk yang ingin diukur. NSStandar mendefinisikan bukti terkait konten sebagai
"Sejauh mana sampel item, tugas, atau pertanyaan pada tes mewakili beberapa alam
semesta atau domain konten yang ditentukan." Artinya, peneliti harus mencari bukti
bahwa tes yang akan digunakan mewakili sampel yang seimbang dan memadai dari
semua pengetahuan, keterampilan, dan dimensi yang relevan yang membentuk
domain konten. Bukti berdasarkan isi tes sangat penting dalam mengevaluasi tes
prestasi. Di era akuntabilitas pendidikan ini, validitas isi mendapat perhatian baru.
Crocker (2003) menulis, “Ketika skor digunakan untuk akuntabilitas pendidikan,
'dinding penahan beban' dari argumen validitas itu pastilah keterwakilan
konten” (hal. 7). Validasi tes prestasi, misalnya, akan mempertimbangkan kesesuaian
konten tes dengan total area konten yang akan diukur serta seberapa memadai
sampel uji domain total. Seseorang tidak akan mencoba mengukur pengetahuan
siswa kimia tentang oksidasi, misalnya, hanya dengan dua pertanyaan.

Seorang peneliti yang ingin mengembangkan tes matematika kelas empat untuk
sistem sekolah tertentu perlu menentukan jenis konten (keterampilan dan tujuan)
apa yang tercakup dalam kelas kelas empat di seluruh sistem. Setelah memeriksa
buku teks, silabus, tujuan, dan berbicara dengan guru, peneliti
BAB 9 VALIDITAS DAN KEANDALAN 227

akan menyiapkan garis besar topik, keterampilan komputasi dan konseptual, dan pertunjukan
yang membentuk matematika kelas empat (domain konten) dalam sistem itu, bersama dengan
indikasi penekanan yang diberikan kepada masing-masing. Menggunakan garis besar sebagai
panduan, peneliti akan menulis kumpulan item tes yang mencakup setiap topik dan setiap
tujuan secara proporsional dengan penekanan yang diberikan kepada masing-masing dalam
domain konten total. Hasilnya harus menjadi sampel yang representatif dari domain total
pengetahuan dan keterampilan yang termasuk dalam kelas matematika kelas empat sistem
sekolah itu.
Jika tes matematika dirancang untuk digunakan secara nasional, peneliti perlu
memeriksa buku teks yang banyak digunakan, panduan kurikulum negara bagian,
silabus, dan sebagainya di seluruh negeri untuk menentukan konten (konsep dan
keterampilan) apa yang termasuk dalam matematika kelas empat. . Konten tes akan
disampel untuk memberikan cakupan yang representatif dan seimbang dari
kurikulum nasional ini. Ahli materi pelajaran dan spesialis kurikulum akan diminta
untuk menilai kecukupan isi tes untuk mengukur prestasi matematika kelas empat.
Pengembang tes prestasi yang digunakan secara nasional, seperti Stanford
Achievement Test, diharapkan memberikan bukti validitas konten yang luas. Jika
penerbit mengatakan tes mengukur pemahaman bacaan, misalnya,

Untuk memastikan validitas konten dalam tes kelas, seorang guru harus menyiapkan
"cetak biru" yang menunjukkan domain konten yang dicakup dan penekanan relatif yang
diberikan pada setiap aspek domain. Jika diagram lingkaran pada Gambar 9.1 mewakili
penilaian guru tentang kepentingan relatif topik dalam unit pada Perang Saudara
Amerika, ujian 50 item harus mencakup 10 item pada topik A; 5 masing-masing pada B, C,
D, dan G; 12 di E; dan 8 di F
Tidak ada indeks numerik untuk menunjukkan validitas isi. Bukti berdasarkan
konten terutama merupakan hasil pemeriksaan logis atau analisis oleh ahli konten
yang menunjukkan apakah instrumen cukup mewakili konten

A
G
Penyebab
Efek dari
20%
membebaskan dari

budak
10%
B
F
Pemimpin di
Alam
Utara
perbudakan
10%
16%
C
Pemimpin di
Selatan
E 10%
D
Ekonomis Militer
konsekuensi kampanye
dari perang
10%
24%

Gambar 9.1 Unit pada Perang Saudara Amerika


228 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

dan tujuan yang membentuk domain. Tes pencapaian mungkin memiliki validitas konten ketika digunakan
untuk tujuan yang ditentukan oleh pembuat tes tetapi tidak menghasilkan interpretasi yang valid untuk
pengguna yang mendefinisikan domain konten dengan cara yang berbeda. Hanya pengguna tes yang pada
akhirnya dapat menilai validitasnya untuk tujuannya. Brennan (2001) menyatakan, "Untuk pengguna tes,
satu-satunya hal terbaik yang harus dilakukan dalam memajukan penggunaan skor dan interpretasi yang
tepat adalah dengan mengikuti tes, atau setidaknya, mempelajari isinya" (hal.12).

Meskipun bukti validitas terkait konten sangat penting untuk tes prestasi, ini
juga merupakan perhatian untuk jenis alat ukur lainnya, seperti ukuran kepribadian
dan bakat. Sebuah instrumen untuk mengukur sikap terhadap hukuman mati,
misalnya, akan diperiksa untuk memastikan bahwa dalam jumlah yang cukup, berisi
serangkaian pernyataan positif dan negatif yang seimbang tentang hukuman mati.
Tes bakat akademik harus mengukur keterampilan dan kemampuan yang dinilai
penting untuk keberhasilan dalam tugas-tugas akademik. Jika Anda
mengembangkan tes untuk menyeleksi pelamar untuk pekerjaan tertentu, Anda
perlu menentukan semua aspek utama pekerjaan dan kemudian menulis item tes
yang mengukur setiap aspek.
Validitas wajah adalah istilah yang kadang-kadang digunakan sehubungan dengan konten
tes. Validitas wajah mengacu pada sejauh mana peserta ujian percaya bahwa instrumen
mengukur apa yang seharusnya diukur. Pertanyaannya adalah, “secara sepintas,” apakah tes
itu tampak valid? Meskipun ini bukan bentuk teknis dari validitas, validitas wajah dapat
menjadi penting untuk memastikan penerimaan tes dan kerja sama di pihak peserta ujian.
Siswa yang mengikuti tes untuk memenuhi syarat untuk kelas kimia tingkat lanjut tidak akan
mengharapkannya berisi item yang berhubungan dengan sejarah dunia atau geografi.

2. Bukti Berdasarkan Hubungan dengan Kriteria


Bukti validitas terkait kriteria mengacu pada sejauh mana skor tes secara
sistematis terkait dengan satu atau lebih kriteria hasil. Penekanannya adalah pada
kriteria karena seseorang akan menggunakan skor tes untuk menyimpulkan kinerja
pada kriteria tersebut. Secara historis, dua jenis bukti validitas terkait kriteria telah
dibedakan: bersamaan dan prediktif. Perbedaan dibuat berdasarkan waktu
pengumpulan data kriteria.

Validitas Bersamaan Bukti validitas bersamaan adalah hubungan antara skor pada
ukuran dan skor kriteria yang diperoleh pada waktu yang sama. Asumsikan seorang
peneliti telah mengembangkan tes bakat bahasa asing dan membutuhkan bukti
bahwa tes tersebut benar-benar mengukur bakat bahasa asing. Peneliti dapat
memilih tes bakat bahasa asing yang terkenal dan telah divalidasi sebelumnya,
mengelolanya dan tes baru untuk sekelompok siswa, dan menentukan korelasi
antara dua set skor. Korelasi substansial antara tes baru dan tes yang diterima
secara luas adalah bukti bahwa tes baru juga mengukur bakat bahasa asing. Kriteria
lain yang tersedia pada saat itu mungkin nilai saat ini di kelas bahasa asing atau skor
pada tes buatan guru. Atau anggaplah seorang peneliti di Educational Testing
Service telah mengembangkan tes bakat skolastik baru yang mungkin
menggantikan Tes Penilaian Skolastik (SAT) yang lebih mahal. Untuk mendapatkan
bukti tentang kebermaknaan skor dari tes baru ini, peneliti akan mengelola tes baru
dan SAT
BAB 9 VALIDITAS DAN KEANDALAN 229

(kriteria) untuk sampel yang representatif dari siswa sekolah menengah. Korelasi
substansial antara dua set skor akan menunjukkan bahwa kesimpulan yang dibuat
berdasarkan skor tes baru akan memiliki validitas untuk mengukur bakat skolastik.
Korelasi yang rendah akan menunjukkan bahwa validitas kesimpulan berdasarkan
skor tes baru akan dicurigai. Seseorang tidak akan menganggap tes sebagai
pengganti yang berharga untuk SAT.

Validitas Prediktif Bukti validitas prediktif adalah hubungan antara skor pada ukuran dan skor kriteria yang tersedia pada waktu mendatang.

Dalam mengumpulkan bukti validitas prediktif dari tes bakat bahasa asing, orang akan melihat hubungan antara skor pada tes dan nilai yang

akhirnya diperoleh siswa dalam kursus bahasa asing di masa depan (kriteria). Jika suatu hubungan ditunjukkan, skor pada tes bakat dapat

digunakan kemudian untuk memprediksi kinerja dalam kursus bahasa asing. Dalam kasus tes bakat skolastik baru, bukti validitas prediktif akan

melibatkan pemberian tes ke sampel siswa sekolah menengah pertama atau senior dan kemudian menyimpan skor sampai siswa menyelesaikan

semester pertama atau kedua kuliah mereka. Ketika nilai rata-rata nilai perguruan tinggi (IPK) siswa tersedia, seseorang akan mengkorelasikan

nilai ujian dan IPK. Jika korelasinya tinggi, seseorang memiliki bukti kegunaan tes bakat untuk memprediksi prestasi perguruan tinggi. Sejumlah

besar siswa sekolah menengah mengambil tes SAT atau ACT setiap tahun karena bukti telah mengungkapkan korelasi antara skor SAT dan ACT

dan IPK mahasiswa baru. Demikian pula, GRE digunakan dalam proses seleksi untuk masuk ke sekolah pascasarjana karena ada bukti bahwa skor

pada GRE berkorelasi dengan prestasi di sekolah pascasarjana dan dengan demikian memiliki validitas untuk memprediksi pencapaian di masa

depan. Gambar 9.2 mengilustrasikan bukti bersamaan dan terkait prediktif yang digunakan dalam validasi tes bakat. Sejumlah besar siswa sekolah

menengah mengambil tes SAT atau ACT setiap tahun karena bukti telah mengungkapkan korelasi antara skor SAT dan ACT dan IPK mahasiswa

baru. Demikian pula, GRE digunakan dalam proses seleksi untuk masuk ke sekolah pascasarjana karena ada bukti bahwa skor pada GRE

berkorelasi dengan prestasi di sekolah pascasarjana dan dengan demikian memiliki validitas untuk memprediksi pencapaian di masa depan.

Gambar 9.2 mengilustrasikan bukti bersamaan dan terkait prediktif yang digunakan dalam validasi tes bakat. Sejumlah besar siswa sekolah

menengah mengambil tes SAT atau ACT setiap tahun karena bukti telah mengungkapkan korelasi antara skor SAT dan ACT dan IPK mahasiswa

baru. Demikian pula, GRE digunakan dalam proses seleksi untuk masuk ke sekolah pascasarjana karena ada bukti bahwa skor pada GRE

berkorelasi dengan prestasi di sekolah pascasarjana dan dengan demikian memiliki validitas untuk memprediksi pencapaian di masa depan.

Gambar 9.2 mengilustrasikan bukti bersamaan dan terkait prediktif yang digunakan dalam validasi tes bakat.

Memilih Kriteria Pilihan kriteria dan pengukurannya sangat penting dalam bukti
terkait kriteria. Apa yang dicari ketika memilih kriteria?

1. Nilai seluruh prosedur tergantung pertama dan terutama pada relevansi dari
kriteria. Kriteria harus mewakili atribut yang diukur dengan baik atau jika tidak,
tidak ada artinya menggunakannya. Misalnya, IPK dianggap sebagai ukuran
keberhasilan yang relevan di perguruan tinggi dan umumnya dipilih

bersamaan

Tes baru untuk Tidak ada selang waktu


mengukur skolastik DUDUK

bakat

Prediktif

Tes baru untuk Selang waktu IPK dalam


mengukur skolastik
Kampus
bakat

Gambar 9.2 Bukti Validitas Terkait Kriteria


230 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

sebagai kriteria untuk studi validasi tes bakat skolastik. Kriteria yang relevan untuk pengujian
yang dirancang untuk memilih tenaga penjualan mungkin adalah nilai dolar dari penjualan
yang dilakukan dalam waktu tertentu. Peringkat supervisor dapat digunakan sebagai kriteria
dalam validasi tes yang dirancang untuk memprediksi keberhasilan dalam posisi entri data di
perusahaan. Kadang-kadang sulit untuk menemukan ukuran kriteria yang relevan, seperti
dalam validasi ukuran yang dirancang untuk memprediksi keefektifan guru. Dengan tidak
adanya deskripsi yang disepakati tentang efektivitas guru maupun metode yang efektif untuk
mengukur variabel tersebut, sangat sulit untuk memvalidasi instrumen tersebut.

2. Kriteria juga harus terlebih dahulu dapat diandalkan, yang berarti bahwa itu adalah ukuran atribut
yang konsisten dari waktu ke waktu atau dari situasi ke situasi. Jika kriteria tidak konsisten, Anda
tidak akan mengharapkannya untuk berhubungan secara konsisten dengan tes apa pun.

3. Kriterianya juga harus bebas dari bias, yang berarti bahwa penilaian ukuran
kriteria itu sendiri tidak boleh dipengaruhi oleh faktor apa pun selain kinerja
aktual pada kriteria tersebut. Misalnya, jika peringkat digunakan sebagai
kriteria, penilai harus dilatih dan sangat berhati-hati untuk tidak membiarkan
faktor apa pun selain kinerja aktual memengaruhi peringkat mereka. Kriteria
juga dapat menjadi bias melalui kontaminasi, yang terjadi ketika skor pada
kriteria dipengaruhi oleh pengetahuan pemberi skor tentang skor tes prediktor
individu. Misalnya, asumsikan bahwa kriteria yang digunakan untuk
memvalidasi tes bakat seni adalah nilai di kelas seni. Jika guru yang menilai
pekerjaan siswa mengetahui nilai siswa pada tes bakat, kesadaran ini dapat
mempengaruhi evaluasi guru terhadap siswa dan karenanya nilainya.

Koefisien Validitas
Koefisien korelasi antara skor tes dan kriteria disebut a koefisien validitas (Rxy).
Seperti koefisien korelasi lainnya, ukuran koefisien validitas dipengaruhi oleh
kekuatan hubungan antara tes dan kriteria dan rentang perbedaan individu dalam
kelompok. Seperti biasa, semakin dekat koefisiennya dengan 1,00 (+ atau ), semakin
kuat bukti bahwa tes tersebut berguna untuk tujuan yang dinyatakan.

Koefisien validitas menunjukkan apakah tes akan berguna sebagai prediktor atau sebagai ukuran
pengganti. Jika telah terbukti bahwa suatu tes memiliki korelasi yang tinggi dengan kriteria masa
depan, maka tes tersebut nantinya dapat digunakan untuk memprediksi kriteria tersebut.
Mengumpulkan bukti prediktif membutuhkan waktu dan kesabaran. Dalam beberapa kasus, peneliti
harus menunggu selama beberapa tahun untuk menentukan apakah kinerja pada suatu ukuran
berguna untuk memprediksi keberhasilan pada suatu kriteria.
Bukti validitas terkait kriteria bersamaan penting dalam tes yang digunakan untuk
klasifikasi, sertifikasi, atau diagnosis. Misalnya, seseorang akan mencari bukti
validitas bersamaan untuk perangkat skrining psikiatri baru dengan memeriksa
korelasinya dengan instrumen mapan yang sudah tersedia. Jika ada korelasi
substansial antara tes baru dan instrumen yang ditetapkan, orang akan
menganggap mereka mengukur konstruk yang sama, dan tes baru dapat
BAB 9 VALIDITAS DAN KEANDALAN 231

digunakan sebagai pengganti instrumen lama. Bukti validitas bersamaan diperlukan


ketika tes baru dirancang untuk menggantikan tes lama yang mungkin lebih mahal
atau lebih sulit dan memakan waktu untuk dilakukan.
Siswa sering bertanya, “Seberapa tinggi koefisien validitas yang dibutuhkan?” Sebagai
aturan umum, semakin tinggi koefisien validitas, semakin baik buktinya. Tetapi apakah
tinggi atau rendah, berguna atau tidak berguna, tergantung pada tujuan tes dan konteks
penggunaannya. Koefisien korelasi 0,40 bisa sangat membantu dalam kasus yang
sebelumnya tidak ada instrumen prediksi yang tersedia. Dalam kasus lain, korelasi 0,65
mungkin dianggap rendah dan tidak memuaskan jika tersedia prediktor lain yang
memiliki hubungan lebih tinggi dengan kriteria. Secara umum, suatu instrumen memiliki
validitas “baik” sebagai perangkat seleksi jika bukti menunjukkan bahwa instrumen
tersebut memiliki korelasi yang lebih tinggi dengan kriteria daripada instrumen pesaing.

3. Bukti Validitas Terkait Konstruk


Bukti validitas terkait konstruksi berfokus pada skor tes sebagai ukuran konstruksi psikologis. Sejauh
mana skor tes mencerminkan teori di balik konstruksi psikologis yang diukur? Ingatlah bahwa konstruksi
psikologis seperti kecerdasan, motivasi, kecemasan, atau pemikiran kritis adalah kualitas atau karakteristik
hipotetis yang telah "dibangun" untuk menjelaskan perilaku yang diamati. Mereka tidak dapat dilihat atau
disentuh atau apalagi diukur secara langsung. Bagaimana orang tahu bahwa ukuran konstruksi tertentu
benar-benar mencerminkan karakteristik hipotetis ini? Pengembang tes ukuran seperti itu harus
memberikan bukti bahwa skor benar-benar mencerminkan konstruk yang bersangkutan. Prosesnya
dimulai dengan pendefinisian konstruk berdasarkan teori dan penelitian sebelumnya. Pengembang tes
kemudian menentukan aspek konstruk yang akan diukur dalam tes dan mengembangkan item yang
membutuhkan peserta tes untuk menunjukkan perilaku yang mendefinisikan konstruk. Satu
mengumpulkan bukti logis dan empiris yang mendukung pernyataan bahwa tes mengukur konstruk
seperti yang didefinisikan dan bukan sesuatu yang lain. Bukti terkait konstruksi lebih komprehensif
daripada bukti terkait konten dan kriteria dan menggolongkan jenis lainnya. Secara umum, setiap
informasi yang menjelaskan konstruksi yang diukur adalah relevan. Bukti terkait konstruksi lebih
komprehensif daripada bukti terkait konten dan kriteria dan menggolongkan jenis lainnya. Secara umum,
setiap informasi yang menjelaskan konstruk yang diukur adalah relevan. Bukti terkait konstruksi lebih
komprehensif daripada bukti terkait konten dan kriteria dan menggolongkan jenis lainnya. Secara umum,
setiap informasi yang menjelaskan konstruksi yang diukur adalah relevan.
Mari kita pertimbangkan beberapa strategi yang digunakan untuk mengumpulkan bukti terkait
konstruksi.

1. Studi tindakan terkait: Tujuannya adalah untuk menunjukkan bahwa tes


tersebut mengukur konstruk yang dirancang untuk diukur dan bukan konstruk
lain yang secara teoritis tidak terkait. NSStandar (1999) membedakan dua jenis
bukti berdasarkan hubungan dengan variabel lain: konvergen dan
diskriminatif. “Hubungan antara skor tes dan ukuran lain yang dimaksudkan
untuk menilai serupa konstruksi memberikan bukti konvergen, sedangkan
hubungan antara skor tes dan ukuran konon berbedakonstruksi memberikan
bukti diskriminan "(Standar, P. 14). Dalam kasus bukti konvergen, peneliti
mencoba untuk menunjukkan bahwa konstruk yang dimaksud sedang diukur;
dalam kasusbukti yang berbeda, dia menunjukkan bahwa konstruksi yang
salah tidak sedang diukur. Tes penalaran matematis diharapkan berkorelasi
dengan nilai dalam matematika atau dengan tes penalaran matematika lainnya
(bukti konvergen). Tes matematika dan ini
232 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

langkah-langkah lain berkorelasi karena mereka semua berkumpul pada


konstruk yang sama. Sebaliknya, skor pada tes penalaran matematika
diharapkan memiliki sedikit atau tidak ada hubungan (bukti diskriminan)
dengan ukuran keterampilan lain, seperti membaca. Jika ditemukan korelasi
yang substansial antara tes matematika dan tes membaca, maka tes
matematika dipengaruhi oleh kemampuan membaca, dan bukannya mengukur
penalaran matematis, itu sebenarnya mengukur kemampuan membaca. Bukti
tersebut akan mengarahkan seseorang untuk menyimpulkan bahwa tes
matematika tidak mengukur konstruk yang dimaksudkan (penalaran
matematika) dan dengan demikian tidak akan menghasilkan interpretasi yang
valid tentang penalaran matematika. Tentu saja, tes penalaran matematis pasti
akan melibatkan beberapa keterampilan membaca, jadi orang tidak akan
mengharapkan korelasi nol dengan tes membaca. Namun,

Dalam sebuah artikel klasik, Campbell dan Fiske (1959) membahas matriks
multitraitmultimetode (MTMM) dari koefisien korelasi sebagai cara langsung untuk
mengevaluasi validitas konvergen dan diskriminan secara bersamaan dari suatu
konstruk. Pendekatan mereka didasarkan pada keyakinan bahwa ukuran konstruk yang
sama harus berkorelasi satu sama lain bahkan jika mereka menggunakan metode yang
berbeda (validitas konvergen), dan bahwa ukuran konstruk yang berbeda tidak boleh
berkorelasi satu sama lain bahkan jika mereka menggunakan metode yang sama
(diskriminan). keabsahan). Sebagai ilustrasi, mari kita asumsikan seorang peneliti
memiliki teori tentang karakteristik kepribadian yang disebut kehangatan guru dan telah
mengembangkan skala sikap sebagai ukuran konstruk ini. Untuk menetapkan validitas
konstruknya, dia perlu menunjukkan tidak hanya bahwa itu menyatu dengan ukuran
kehangatan guru lainnya tetapi juga bahwa itu dapat dibedakan dari sifat-sifat guru
lainnya seperti kemampuan bersosialisasi. Peneliti dapat memberikan skala sikap
(metode A) untuk menilai kehangatan guru dan juga menilai kehangatan guru melalui
wawancara tatap muka (metode B) dengan kelompok peserta yang sama. Kesosialan
juga akan diukur dengan dua cara: skor pada skala sikap yang ada yang dirancang untuk
mengukur kemampuan bersosialisasi (metode C) dan melalui wawancara tatap muka
(metode D) dengan peserta yang sama.
Langkah selanjutnya adalah menghitung interkorelasi skor peserta pada
keempat ukuran dan menyajikan interkorelasi dalam apa yang disebut matriks
multitrait-multimethod. Tabel 9.1 menunjukkan korelasi hipotetis antara
kehangatan guru yang diukur dengan A, skala sikap, dan B,

Tabel 9.1 Multitrait–Multimethod Matrix of Correlation antara Dua Sifat Guru di Dua
Metode Pengukuran

Kehangatan Keramahan

Skala Wawancara Skala Wawancara

A B C D
Kehangatan Skala A . 75 . 30 . 10
Wawancara B . 25 . 20
Keramahan Skala C . 70
Wawancara D
BAB 9 VALIDITAS DAN KEANDALAN 233

wawancara, dan sosialisasi diukur dengan C, skala sikap, dan D, wawancara.


Mari kita lihat korelasi yang relevan dengan validitas konstruk skala sikap untuk
mengukur kehangatan guru.
Tingginya korelasi 0,75 antara kehangatan guru yang diukur dengan metode
A (skala sikap) dan dengan metode B (wawancara) merupakan bukti validitas
konvergen. Korelasi rendah 0,30 antara kehangatan guru yang diukur dengan
metode A dan kemampuan bersosialisasi yang diukur dengan metode C dan
0,10 antara metode A dan metode D adalah bukti validitas yang berbeda dari
ukuran kehangatan guru. Data ini memberikan bukti validitas konstruk skala
sikap kehangatan guru. Tentu saja, orang ingin melakukan analisis lebih lanjut
yang melibatkan lebih banyak sifat dan lebih banyak ukuran untuk
menentukan apakah pola korelasi sesuai dengan teori di balik konstruksi.
Aturannya adalah sebagai berikut: Jika ada kesesuaian antara teori dan data,
maka pertahankan teori dan langkah-langkahnya. Jika tidak, Anda perlu
merevisi teori atau tindakan atau keduanya. Contoh sebelumnya,

2. Teknik kelompok yang dikenal: Prosedur lain untuk mengumpulkan bukti terkait
konstruksi adalah teknik kelompok yang diketahui, di mana peneliti membandingkan
kinerja dua kelompok yang sudah diketahui berbeda pada konstruk yang diukur. Satu
hipotesis bahwa kelompok yang diketahui memiliki tingkat konstruk yang tinggi akan
mendapat skor lebih tinggi pada ukuran daripada kelompok yang diketahui memiliki
tingkat konstruk yang rendah. Jika perbedaan yang diharapkan dalam kinerja
ditemukan, seseorang menyimpulkan bahwa tes tersebut mengukur konstruk itu. Anda
akan mengharapkan bahwa skor pada tes bakat musik, misalnya, akan berbeda untuk
siswa yang saat ini terdaftar di sekolah musik versus kelompok mahasiswa yang tidak
dipilih. Jika inventaris mengukur penyesuaian psikologis, skor kelompok yang
sebelumnya diidentifikasi sebagai disesuaikan dan kelompok yang sebelumnya
diidentifikasi sebagai tidak disesuaikan harus sangat berbeda pada inventaris.

3. Studi intervensi: Strategi lain untuk mengumpulkan bukti terkait konstruk adalah dengan
menerapkan manipulasi eksperimental dan menentukan apakah skor berubah dengan
cara yang dihipotesiskan. Anda akan mengharapkan skor pada skala yang dirancang
untuk mengukur kecemasan meningkat jika individu dimasukkan ke dalam situasi yang
memicu kecemasan. Skor dari kelompok kontrol tidak terkena manipulasi eksperimental
tidak boleh terpengaruh. Jika kecemasan dimanipulasi dalam eksperimen terkontrol dan
skor yang dihasilkan berubah dengan cara yang diprediksi, Anda memiliki bukti bahwa
skala mengukur kecemasan.
4. Studi struktur internal: Menganalisis struktur internal suatu tes adalah sumber bukti
lain bahwa tes tersebut mengukur konstruk yang seharusnya diukur. Prosedur ini
melibatkan menunjukkan bahwa semua item yang membentuk tes atau skala
mengukur hal yang sama—yaitu, bahwa tes tersebut memiliki konsistensi internal.
Kami berharap bahwa individu yang menjawab beberapa pertanyaan dengan cara
tertentu juga akan menjawab pertanyaan serupa dengan cara yang sama. Dalam
skala yang mengukur sikap terhadap penelitian sel punca, misalnya, seseorang
akan menentukan apakah individu yang mendukung penelitian sel punca konsisten
dalam menyetujui pernyataan positif dan tidak setuju dengan pernyataan negatif
dalam skala tersebut. Sebuah prosedur yang disebutanalisis faktor
234 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

menyediakan cara untuk mempelajari konstruksi yang mendasari kinerja tes.


Analisis faktor menghitung korelasi di antara semua item dan kemudian
mengidentifikasi faktor dengan menemukan kelompok item yang berkorelasi
tinggi satu sama lain tetapi memiliki korelasi rendah dengan kelompok lain.
Lebih dari satu faktor mungkin diperlukan untuk menjelaskan korelasi antar
item. Anda kemudian memutuskan apakah interkorelasi yang diamati sesuai
dengan teori di balik konstruk yang diukur. Jika teori menyarankan konstruk
satu dimensi, maka kita mencari interkorelasi yang tinggi di antara semua item.
Jika teori menyarankan lebih dari satu dimensi, kita harus memiliki subskala
untuk mengukur setiap dimensi yang terpisah. Dalam hal ini, subskala harus
memiliki konsistensi internal yang tinggi, tetapi tidak boleh berkorelasi tinggi
dengan subskala lainnya. Ukuran feminisme, misalnya, mungkin akan memiliki
beberapa subskala yang mencakup keluarga, pekerjaan, gaji, politik, hubungan
otoritas, dan sejenisnya. Sejauh mana interkorelasi item yang diamati setuju
dengan kerangka teoritis memberikan bukti mengenai konstruk yang diukur.
Pembahasan lebih lanjut tentang analisis faktor disajikan pada Bab 13.
5. Studi tentang proses respons: Cara lain untuk mendapatkan bukti tentang seberapa
baik tes mengukur konstruk yang menarik adalah dengan melihat bukti
berdasarkan proses respons individu yang benar-benar mengikuti tes.
Menanyakan peserta tes tentang proses mental dan keterampilan yang mereka
gunakan saat menanggapi item tes dapat memberikan informasi tentang konstruk
apa yang sedang diukur. Jika seseorang mengumpulkan bukti validitas tentang tes
penalaran verbal baru, misalnya, seseorang mungkin meminta individu untuk
"berpikir keras" saat mereka mengerjakan tes tersebut. Prosedur ini dapat
mengungkapkan bahwa tes tersebut mengukur penalaran verbal, atau mungkin
mengungkapkan bahwa faktor-faktor lain seperti kosa kata atau pemahaman
bacaan sedang diukur. Meneliti proses respon dapat menunjukkan faktor konstruk-
tidak relevan tertentu yang secara berbeda mempengaruhi kinerja subkelompok
yang berbeda. Dengan demikian, ini memberikan bukti tentang apakah skor tes
memiliki arti yang sama atau dapat diinterpretasikan dengan cara yang sama di
seluruh subkelompok yang berbeda. Tabel 9.

GENERALISASI VALIDITAS
Kekhawatiran dalam studi validitas tes pendidikan dan pekerjaan adalah sejauh
mana bukti validitas berdasarkan hubungan tes-kriteria dapat digeneralisasi ke
pengaturan baru tanpa penyelidikan lebih lanjut validitas dalam pengaturan baru.
Penelitian menunjukkan bahwa korelasi tes-kriteria dapat sangat bervariasi dari
waktu ke waktu dan tempat ke tempat karena jenis ukuran kriteria yang digunakan,
cara prediktor diukur, jenis peserta tes, dan periode waktu yang terlibat.
Studi generalisasi validitas telah menggunakan meta-analisis, yang memberikan
ringkasan statistik studi validasi masa lalu dalam situasi serupa. Jika database meta-
analitik besar dan studi cukup mewakili jenis situasi yang peneliti ingin
menggeneralisasi, kami menemukan dukungan untuk generalisasi validitas. Dalam
keadaan lain di mana temuan studi meta-analitik kurang konsisten dan di mana ada
lebih banyak perbedaan antara pengaturan baru dan lama, lebih berisiko untuk
digeneralisasi. Studi validasi lokal yang memberikan bukti spesifik situasi akan lebih
berharga.
BAB 9 VALIDITAS DAN KEANDALAN 235

Tabel 9.2 Jenis Bukti Validitas Tes

Jenis Pertanyaan metode

Konten terkait Apakah tes tersebut merupakan sampel Buat analisis logis dari konten untuk
representatif dari domain yang diukur? menentukan seberapa baik konten
mencakup domain.
Kriteria terkait (bersamaan) Apakah tes baru berkorelasi dengan Korelasikan skor dari tes baru
tes (kriteria) yang tersedia saat ini dengan skor kriteria yang tersedia
sehingga tes baru bisa menjadi pada saat itu.
pengganti?
Kriteria terkait (prediktif) Apakah tes baru berkorelasi dengan kriteria Menghubungkan skor tes dengan ukuran
masa depan sehingga tes tersebut dapat (kriteria) yang tersedia di waktu
digunakan untuk memprediksi kinerja kriteria mendatang.
selanjutnya?
Membangun terkait Apakah tes benar-benar mengukur Kumpulkan berbagai jenis bukti:
konstruk yang dimaksud? bukti konvergen dan divergen,
teknik kelompok yang diketahui,
studi intervensi, struktur internal,
dan proses respons.

VALIDITAS UJI REFERENSI KRITERIA


Ingatlah bahwa tes yang direferensikan kriteria dirancang untuk mengukur pengetahuan
atau keterampilan yang agak sempit. Dengan demikian, perhatian utama dalam menilai
validitas tes yang mengacu pada kriteria adalah:validitas konten. Pendekatan dasar untuk
menentukan validitas isi adalah meminta guru atau ahli materi pelajaran memeriksa tes
dan menilai apakah itu sampel yang memadai dari isi dan tujuan yang akan diukur.

Pendekatan lain yang telah digunakan adalah untuk mengelola tes dan membagi peserta ujian
menjadi dua kelompok: master versus nonmaster. Kemudian, seseorang menentukan proporsi
peserta ujian di setiap kelompok yang menjawab setiap item dengan benar. Item yang valid adalah
item yang tingkat keberhasilan dalam kelompok master secara substansial lebih tinggi daripada
tingkat keberhasilan dalam kelompok nonmaster. Untuk menjadi sangat ketat, tingkat keberhasilan
pada setiap item harus 100% untuk master, sedangkan nonmaster memiliki tingkat keberhasilan
yang sangat rendah atau peluang. Dalam tes yang ideal, tidak boleh ada kesalahan klasifikasi
(Thorndike, 2005, hlm. 192).

PENERAPAN KONSEP VALIDITAS


Validitas selalu spesifik untuk tujuan tertentu dari instrumen yang digunakan. “Tidak
benar menggunakan frase tanpa pengecualian 'validitas tes.' Tidak ada tes yang valid
untuk semua tujuan atau dalam semua situasi” (Standar, 1999, hal. 17). Validitas harus
dilihat sebagai karakteristik interpretasi dan penggunaan nilai tes dan bukan dari tes itu
sendiri. Sebuah tes yang memiliki validitas dalam satu situasi dan untuk satu tujuan
mungkin tidak valid dalam situasi yang berbeda atau untuk tujuan yang berbeda. Tes
prestasi buatan guru dalam kimia sekolah menengah mungkin berguna untuk mengukur
prestasi akhir tahun dalam kimia tetapi tidak berguna untuk memprediksi prestasi dalam
kimia perguruan tinggi. Tes kecakapan bahasa Jerman mungkin cocok untuk
menempatkan mahasiswa sarjana di kelas bahasa Jerman di universitas tetapi bukan
ujian keluar yang valid untuk jurusan bahasa Jerman. Dengan demikian, validasi selalu
menjadi tanggung jawab pengguna uji serta pengembang uji.
236 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

Kami telah melihat "validasi tes" sebagai proses pengumpulan berbagai jenis bukti
(konten, terkait kriteria, dan konstruksi) untuk mendukung interpretasi dan kesimpulan
berbasis skor. Tujuan dari proses ini adalah untuk mendapatkan kemungkinan kasus
terbaik untuk kesimpulan yang ingin kita buat.

Pikirkan tentang itu 9.1

Identifikasi jenis bukti validitas (konten, kriteria bersamaan, kriteria prediktif, atau terkait konstruk)
yang dikumpulkan dalam setiap contoh berikut:
A. Sebuah tes yang diberikan kepada pelamar untuk sekolah hukum berkorelasi 0,65 dengan nilai semester pertama di
sekolah hukum.
B. Sekelompok profesor matematika memeriksa tes penempatan matematika yang diberikan kepada mahasiswa baru di universitas. Mereka
menyimpulkan bahwa tes tersebut merupakan contoh yang sangat baik dari keterampilan matematika yang dibutuhkan siswa untuk berhasil
dalam kursus tingkat perguruan tinggi.

C. Seorang guru sekolah menengah mengelola tes kimia standar dan mengkorelasikan skor
dengan skor yang diperoleh siswa pada hari berikutnya pada tes kimia buatan guru.
D. Seperti yang diperkirakan, skor untuk sekelompok Muda Republik pada skala yang mengukur
konservatisme politik secara nyata lebih tinggi daripada kelompok Demokrat Muda.
e. Skor pada skala baru untuk mendeteksi depresi berkorelasi dengan skor pada skala mapan yang
mengukur optimisme. Korelasi dapat diabaikan.

Jawaban
A. Prediktif (terkait kriteria)
B. Konten terkait
C. Serentak (terkait kriteria)
D. Membangun terkait
e. Membangun terkait (teori akan memprediksi bahwa ukuran depresi tidak akan berkorelasi
dengan ukuran optimisme; ini adalah bukti validitas terkait konstruk yang berbeda)

KEANDALAN
Seperti yang kami sebutkan di awal bab ini, keandalan dari suatu alat ukur adalah derajat
konsistensi dengan apa alat itu mengukur apapun yang diukurnya. Kualitas ini sangat penting
dalam setiap jenis pengukuran. Sebuah kantor pos akan segera mengambil tindakan untuk
memperbaiki timbangan jika ternyata timbangan terkadang meremehkan dan terkadang
melebih-lebihkan berat paket. Timbangan kamar mandi akan dapat diandalkan jika
memberikan bobot yang hampir sama pada lima hari berturut-turut. Namun, jika Anda
mendapatkan pembacaan yang sangat berbeda pada masing-masing dari lima hari, Anda akan
menganggap timbangan tidak dapat diandalkan sebagai ukuran berat Anda dan mungkin
akan menggantikannya. Psikolog dan pendidik prihatin tentang konsistensi alat ukur mereka
ketika mereka mencoba untuk mengukur konstruksi kompleks seperti bakat skolastik, prestasi,
motivasi, kecemasan, dan sejenisnya. Mereka tidak akan menganggap tes bakat skolastik
bermanfaat jika menghasilkan hasil yang sangat berbeda ketika diberikan kepada siswa yang
sama pada dua kesempatan dalam kerangka waktu yang sama. Orang yang menggunakan
alat ukur tersebut harus mengidentifikasi dan menggunakan teknik yang akan membantu
mereka menentukan sejauh mana alat ukur mereka konsisten dan dapat diandalkan.
BAB 9 VALIDITAS DAN KEANDALAN 237

Pada tingkat teoretis, reliabilitas berkaitan dengan pengaruh kesalahan pada konsistensi
skor. Di dunia ini pengukuran selalu melibatkan beberapa kesalahan. Ada dua jenis kesalahan:
kesalahan pengukuran acak dan kesalahan sistematis pengukuran. Kesalahan acak adalah
kesalahan yang disebabkan oleh kebetulan murni. Kesalahan pengukuran acak dapat
meningkatkan atau menekan skor mata pelajaran apa pun dengan cara yang tidak terduga.
Kesalahan sistematis, di sisi lain, meningkatkan atau menekan skor kelompok yang dapat
diidentifikasi dengan cara yang dapat diprediksi. Kesalahan sistematis adalah akar dari
masalah validitas; kesalahan acak adalah akar dari masalah keandalan.

SUMBER KESALAHAN RANDOM


Peluang atau kesalahan acak yang menyebabkan inkonsistensi dalam skor dapat berasal dari
tiga sumber:

1. Individu yang diukur mungkin menjadi sumber kesalahan. Fluktuasi motivasi individu,
minat, tingkat kelelahan, kesehatan fisik, kecemasan, dan faktor mental dan emosional
lainnya mempengaruhi hasil tes. Karena faktor-faktor ini berubah secara acak dari satu
pengukuran ke pengukuran berikutnya, mereka menghasilkan perubahan atau
inkonsistensi dalam skor seseorang. Individu dapat membuat tebakan lebih beruntung
pada satu waktu daripada yang lain. Seorang siswa melanggar titik pensil pada tes
waktunya akan meningkatkan komponen kesalahan dalam hasil tes.
2. Administrasi alat ukur dapat menimbulkan kesalahan. Orang yang tidak
berpengalaman mungkin menyimpang dari prosedur standar dalam mengelola
atau menilai tes. Kondisi pengujian seperti cahaya, panas, ventilasi, waktu, dan
adanya gangguan dapat mempengaruhi kinerja. Instruksi untuk mengikuti tes
mungkin ambigu. Prosedur penilaian mungkin menjadi sumber kesalahan.
Objektivitas dan prosedur penilaian yang tepat meningkatkan konsistensi,
sedangkan subjektivitas dan instruksi penilaian yang tidak jelas menekannya.

3. Instrumen mungkin menjadi sumber kesalahan. Ringkasnya tes adalah sumber utama dari
ketidakandalan. Sebuah sampel kecil dari perilaku menghasilkan skor yang tidak stabil. Misalnya,
jika tesnya sangat singkat, subjek yang mengetahui sedikit jawaban yang diperlukan akan
mendapatkan skor lebih tinggi dari yang seharusnya, sedangkan subjek yang tidak mengetahui
sedikit jawaban akan mendapatkan skor lebih rendah dari yang seharusnya. Misalnya, jika sebuah
tes diberikan untuk menilai seberapa baik siswa mengetahui ibukota dari 50 negara bagian tetapi
hanya lima pertanyaan yang diajukan, ada kemungkinan seorang siswa yang hanya mengetahui 10
huruf besar dapat menjawab semua lima pertanyaan dengan benar, sedangkan seorang siswa yang
tahu 40 tidak ada yang benar. Keberuntungan lebih merupakan faktor dalam ujian singkat daripada
dalam ujian panjang.

Jika sebuah tes terlalu mudah dan semua orang tahu sebagian besar jawabannya, skor relatif siswa
sekali lagi hanya bergantung pada beberapa pertanyaan dan keberuntungan merupakan faktor
utama. Jika pertanyaannya ambigu, peserta ujian yang "beruntung" merespons dengan cara yang
diinginkan oleh penguji, sedangkan subjek "tidak beruntung" menjawab dengan cara lain yang sama
benarnya, tetapi jawaban mereka dinilai salah.
Salah satu unsur dalam tes kebugaran jasmani untuk siswa SD adalah lemparan
baseball. Subyek diinstruksikan untuk melempar bola bisbol sejauh mungkin, dan
jarak lemparan diukur. Meskipun tujuan tes adalah untuk mendapatkan skor yang
khas dari kinerja mata pelajaran, tentu jika Anda memiliki satu mata pelajaran
238 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

melempar bola bisbol pada beberapa kesempatan, Anda akan menemukan bahwa anak itu tidak
melemparnya dengan jarak yang sama setiap kali.
Asumsikan Anda meminta setiap siswa melakukan lemparan pada dua hari berturut-turut.
Jika Anda kemudian membandingkan dua skor (jarak lempar) untuk setiap siswa, Anda akan
menemukan bahwa keduanya hampir tidak pernah persis sama. Sebagian besar
perbedaannya akan kecil, tetapi beberapa akan cukup besar dan beberapa akan cukup besar.
Karena hasilnya tidak konsisten dari lemparan satu hari ke lemparan berikutnya, satu
lemparan tidak sepenuhnya dapat diandalkan sebagai ukuran kemampuan melempar siswa.
Tiga jenis peluang, atau pengaruh acak, menyebabkan inkonsistensi antara skor pada dua hari:

1. Siswa dapat berubah dari satu waktu ke waktu lainnya. Pada suatu hari dia mungkin
merasa lebih baik daripada hari lainnya. Pada suatu hari siswa mungkin lebih termotivasi
atau kurang lelah. Mungkin siswa kehilangan keseimbangan saat mulai melempar bola,
atau mungkin jarinya terpeleset saat menggenggam bola. Mungkin ayah siswa,
mendengar tentang tugas itu, memutuskan untuk melatih anak itu dalam melempar
bola bisbol sebelum hari berikutnya.
2. Tugas dapat berubah dari satu pengukuran ke pengukuran berikutnya. Misalnya, bola
yang digunakan satu hari mungkin keras, sedangkan pada hari kedua mungkin basah
dan lembek. Suatu hari mungkin penguji mengizinkan siswa untuk melakukan start lari
sampai ke garis lempar, sedangkan pada hari kedua penguji yang berbeda hanya
mengizinkan beberapa langkah. Mungkin ada hembusan angin pada waktu-waktu
tertentu yang membantu beberapa siswa lebih dari yang lain.
3. Sampel perilaku yang terbatas menghasilkan skor yang kurang dapat diandalkan. Rata-rata
skor lemparan bisbol siswa dalam dua hari akan menghasilkan perkiraan yang lebih baik
tentang keterampilan lempar bisbolnya yang sebenarnya daripada skor satu hari. Rata-rata
skor tiga hari akan menjadi perkiraan yang masih lebih baik dan seterusnya.

Keandalan berkaitan dengan efek dari kesalahan acak pengukuran pada


konsistensi skor. Tetapi beberapa kesalahan yang terlibat dalam pengukuran dapat
diprediksi atau sistematis. Dengan menggunakan contoh lemparan bisbol,
bayangkan situasi di mana instruksi lemparan diberikan dalam bahasa Inggris tetapi
tidak semua subjek mengerti bahasa Inggris. Skor subjek yang tidak berbahasa
Inggris dapat ditekan secara sistematis karena subjek tidak memahami apa yang
diharapkan dari mereka. Kesalahan pengukuran sistematis seperti itu adalah
masalah validitas. Validitas kesimpulan berbasis skor diturunkan setiap kali skor
diubah secara sistematis oleh pengaruh apa pun selain apa yang Anda coba ukur
(varian tidak relevan). Dalam hal ini, Anda tidak hanya mengukur keterampilan
melempar bola bisbol tetapi juga, sebagian, pemahaman bahasa Inggris.
Untuk memutuskan apakah Anda berurusan dengan reliabilitas atau validitas, Anda menentukan
apakah Anda mempertimbangkan kesalahan acak atau kesalahan sistematis. Jika sebuah kelas
diberikan tes lemparan bisbol dan dua bola digunakan, satu keras dan satu lembek, dan murni
masalah peluang siapa yang mendapat bola mana, variasi yang disebabkan oleh bola yang
digunakan adalah masalah reliabilitas. Variasi yang disebabkan oleh bola merupakan kesalahan acak
yang mempengaruhi konsistensi pengukuran. Jika anak perempuan diuji menggunakan bola yang
kering dan keras dan anak laki-laki mendapatkan bola yang basah dan lembek, skor merupakan
fungsi dari jenis kelamin dan juga keterampilan, yang mengakibatkan kesalahan sistematis yang
menimbulkan masalah validitas.
BAB 9 VALIDITAS DAN KEANDALAN 239

HUBUNGAN ANTARA KEANDALAN DAN VALIDITAS


Keandalan berkaitan dengan seberapa konsisten Anda mengukur apa pun yang Anda
ukur. Ini tidak berkaitan dengan makna dan interpretasi skor, yang merupakan
pertanyaan validitas. Kami menyatakan hubungan antara dua konsep ini sebagai berikut:
Suatu alat ukur dapat diandalkan tanpa harus valid, tetapi tidak dapat dikatakan valid
kecuali jika pertama-tama reliabel. Misalnya, seseorang dapat memutuskan untuk
mengukur kecerdasan dengan menentukan lingkar kepala. Ukurannya mungkin sangat
konsisten dari waktu ke waktu (dapat diandalkan), tetapi metode ini tidak akan
menghasilkan kesimpulan yang valid tentang kecerdasan karena lingkar kepala tidak
berkorelasi dengan kriteria kecerdasan lainnya, juga tidak diprediksi oleh teori
kecerdasan apa pun. Jadi sebuah tes bisa sangat andal tetapi secara konsisten
menghasilkan skor yang tidak berarti.
Untuk dapat membuat kesimpulan yang valid dari skor tes, tes pertama-tama harus
konsisten dalam mengukur apa pun yang diukur. Keandalan adalah kondisi yang
diperlukan tetapi tidak cukup untuk interpretasi skor tes yang valid.

PERSAMAAN UNTUK KEANDALAN


Secara umum diterima bahwa semua pengukuran kualitas manusia mengandung kesalahan
acak. Meskipun para ilmuwan tidak dapat menghapus semua kesalahan ini, mereka memiliki
cara untuk menilai besarnya kesalahan pengukuran secara agregat. Prosedur keandalan
berkaitan dengan menentukan tingkat inkonsistensi dalam skor yang disebabkan oleh
kesalahan acak.
Saat Anda memberikan tes kepada siswa, Anda mendapatkan skor, yang disebut
skor yang diamati. Jika Anda telah menguji siswa ini pada kesempatan lain dengan
instrumen yang sama, Anda mungkin tidak akan memperoleh skor pengamatan
yang persis sama karena pengaruh kesalahan acak pengukuran. Asumsi bahwa skor
tes memiliki komponen kesalahan menyiratkan bahwa ada skor bebas kesalahan
hipotetis untuk seorang individu yang akan diperoleh jika pengukurannya benar-
benar akurat. Nilai bebas kesalahan ini disebut nilai individuskor sebenarnya pada
tes. Skor sebenarnya dikonseptualisasikan sebagai "skor rata-rata hipotetis yang
dihasilkan dari banyak pengulangan tes atau bentuk alternatif instrumen" (Standar,
1999, hal. 25).
Oleh karena itu, kami menyimpulkan bahwa setiap skor tes terdiri dari dua komponen:
skor sebenarnya ditambah beberapa kesalahan pengukuran. Seperti disebutkan sebelumnya,
komponen kesalahan ini dapat disebabkan oleh salah satu, atau kombinasi, dari sejumlah faktor
yang terkait dengan variasi dalam diri peserta ujian dari waktu ke waktu atau dengan pengujian dan
pemberiannya.
Reliabilitas suatu tes dinyatakan secara matematis sebagai estimasi terbaik dari
proporsi varians total skor pada tes yang merupakan varians sebenarnya. Seperti yang
kami jelaskan di Bab 6, varians adalah indeks dari penyebaran satu set skor. Jika Anda
memberikan tes kepada sekelompok siswa, sebagian dari sebaran (varians) nilai siswa
disebabkan oleh perbedaan yang sebenarnya di antara kelompok dan sebagian dari
sebaran (varians) disebabkan oleh kesalahan pengukuran.
Gagasan komponen kesalahan dan komponen benar dalam skor tes tunggal dapat
direpresentasikan secara matematis oleh Rumus 9.1:

x=T+E (9.1)
240 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

di mana

x= skor yang diamati


T= komponen skor sebenarnyaE
=komponen kesalahan pengukuran

Komponen skor sebenarnya dapat didefinisikan sebagai skor yang akan diperoleh
individu dalam kondisi di mana alat pengukur yang sempurna digunakan.
Komponen errorof-measurement bisa positif atau negatif. Jika positif, skor
sebenarnya individu akan ditaksir terlalu tinggi oleh skor yang diamati; jika negatif,
skor sebenarnya orang tersebut akan diremehkan. Karena peneliti berasumsi bahwa
kesalahan pengukuran kemungkinannya positif dan negatif, mereka dapat
menyimpulkan bahwa jumlah kesalahan dan rata-rata kesalahan keduanya adalah 0
jika alat ukur yang sama atau bentuk yang setara. instrumen diberikan dalam jumlah
tak terbatas kali untuk subjek. Di bawah kondisi ini, komponen sebenarnya akan
didefinisikan sebagai skor rata-rata individu pada jumlah pengukuran yang tak
terbatas.

Dalam situasi penelitian biasa, penyelidik memiliki satu ukuran pada setiap
kelompok subjek, satu set skor, untuk dipertimbangkan. Setiap skor yang diamati
memiliki komponen skor benar dan komponen skor kesalahan. Telah ditunjukkan
secara matematis bahwa varians dari skor yang diamati dari kelompok besar sub-
jek (σ2 x) sama dengan varians dari skor sebenarnya mereka (σ2T ) ditambah varians mereka
kesalahan pengukuran (2 e) atau
σx2 =σ2 T +σ2 e (9.2)
Keandalan dapat didefinisikan secara teoritis sebagai rasio varians skor yang benar untuk
varians skor yang diamati dalam satu set skor, seperti yang diungkapkan oleh rumus
berikut:

σ2
__T_
Rxx = (9.3)
σx2
di mana

Rxx =keandalan tes


σT2 =varians dari skor sebenarnya
σx2 =varians dari skor yang diamati
Reliabilitas adalah proporsi varians dalam skor yang diamati yang bebas dari
kesalahan. Gagasan ini dapat dinyatakan dalam rumus berikut, yang diturunkan dari
Rumus 9.2 dan 9.3:
σ2
Rxx =1− _e_ _ (9.4)
σx2

NS koefisien keandalan Rxx dapat berkisar dari 1, ketika tidak ada kesalahan dalam
pengukuran, hingga 0, ketika pengukuran adalah semua kesalahan. Ketika tidak ada kesalahan
dalam pengukuran, S2 e dalam rumus reliabilitas adalah 0 dan Rxx =1.

σ2 0
Rxx =1−_ _e_ Rxx =1 - ___ =1−0=1
σx2 σx2
BAB 9 VALIDITAS DAN KEANDALAN 241

Jika pengukuran semuanya salah,2 e =σ2 x dan Rxx =0.


σ2
Rxx =1− __e_ =1−1=0
σx2
Tingkat kesalahan ditunjukkan oleh tingkat penyimpangan koefisien reliabilitas dari 1.A koefisien
0,80 pada tes, misalnya, menunjukkan perkiraan terbaik adalah bahwa 80 persen dari varians yang
diamati dalam skor adalah varians benar dan 20 persen adalah kesalahan. Dengan demikian,
semakin besar kesalahannya, semakin besar koefisien reliabilitasnya ditekan di bawah 1 dan
semakin rendah reliabilitasnya. Sebaliknya, jika koefisien reliabilitas mendekati 1,00, instrumen
tersebut memiliki kesalahan yang relatif kecil dan reliabilitas yang tinggi.

PENDEKATAN TERHADAP KEANDALAN


Sebuah tes dapat diandalkan sejauh skor yang dibuat oleh seorang individu tetap hampir
sama dalam pengukuran berulang. Artinya, individu akan memiliki peringkat yang sama,
atau hampir sama, pada administrasi yang berulang. Ada dua cara untuk menyatakan
konsistensi dari satu set pengukuran.

1. Metode pertama menunjukkan jumlah variasi yang diharapkan dalam satu set
pengukuran berulang Lajang individu. Jika mungkin untuk menimbang seseorang
pada 200 timbangan, Anda akan mendapatkan distribusi frekuensi skor untuk
mewakili beratnya. Distribusi frekuensi ini akan memiliki nilai rata-rata, yang dapat
Anda pertimbangkan sebagai bobot "sebenarnya". Itu juga akan memiliki standar
deviasi, yang menunjukkan penyebaran. Simpangan baku ini disebutkesalahan
standar pengukuran karena itu adalah standar deviasi dari "kesalahan" mengukur
berat untuk satu orang. Dengan data psikologis atau pendidikan, peneliti tidak
sering melakukan pengukuran berulang pada individu. Waktu tidak mengizinkan
pengulangan seperti itu; selain itu, efek latihan dan kelelahan yang terkait dengan
pengukuran berulang akan berpengaruh pada skor. Jadi, alih-alih mengukur satu
orang berkali-kali, peneliti mengukur kelompok besar pada dua kesempatan.
Dengan menggunakan pasangan pengukuran untuk setiap individu, mereka dapat
memperkirakan berapa penyebaran skor bagi rata-rata orang jika pengukuran
dilakukan berulang kali.
2. Konsistensi seperangkat skor juga ditunjukkan oleh sejauh mana setiap individu
mempertahankan posisi relatif yang sama dalam kelompok. Dengan tes yang
andal, orang yang mendapat skor tertinggi pada tes hari ini juga harus menjadi
salah satu yang mendapat skor tertinggi pada saat tes yang sama diberikan
berikutnya. Setiap orang dalam kelompok akan tetap dalam posisi relatif yang
hampir sama. Semakin banyak individu bergeser dalam posisi relatif, semakin
rendah reliabilitas tes. Anda dapat menghitung koefisien korelasi antara dua
administrasi dari tes yang sama untuk menentukan sejauh mana individu
mempertahankan posisi relatif yang sama. Koefisien ini disebutkoefisien
keandalan(Rxx). Koefisien reliabilitas 1,00 menunjukkan bahwa posisi relatif
masing-masing individu pada dua administrasi tetap sama persis dan tes akan
sangat andal.

Dengan demikian, konsistensi suatu ukuran ditunjukkan oleh (1) kesalahan standar
pengukurannya atau (2) koefisien reliabilitasnya. Kami membahas kesalahan standar
pengukuran nanti dalam bab ini. Mari kita pertimbangkan berbagai koefisien reliabilitas.
242 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

KOEFISIEN KEANDALAN
Ada tiga kategori besar koefisien reliabilitas yang digunakan dengan tes berreferensi
norma: (1) koefisien yang berasal dari korelasi skor individu pada tes yang sama
yang diberikan pada kesempatan yang berbeda (koefisien tes-tes ulang),
(2) koefisien yang berasal dari korelasi skor individu pada set item yang setara
(equivalent-forms coefficients), dan (3) koefisien yang didasarkan pada hubungan
antara skor yang berasal dari item individual atau subset item dalam suatu tes
(koefisien konsistensi internal ). Koefisien konsistensi internal hanya memerlukan
satu kali pemberian tes, sedangkan koefisien lainnya membutuhkan dua kali
pemberian.

Reliabilitas Tes Ulang


Cara yang jelas untuk memperkirakan reliabilitas suatu tes adalah dengan
memberikannya kepada kelompok individu yang sama pada dua kesempatan dan
mengkorelasikan dua set skor. Koefisien korelasi yang diperoleh dengan prosedur ini
disebut akoefisien reliabilitas tes-tes ulang. Misalnya, tes kebugaran jasmani dapat
diberikan ke kelas selama satu minggu dan tes yang sama diberikan lagi pada minggu
berikutnya. Jika tes memiliki reliabilitas yang baik, posisi relatif setiap individu pada
pemberian tes kedua akan mendekati posisi relatifnya pada pemberian tes pertama.
Koefisien reliabilitas tes-tes ulang, karena menunjukkan konsistensi skor mata pelajaran dari waktu ke waktu, kadang-kadang disebut sebagai

koefisien stabilitas. Koefisien yang tinggi memberi tahu Anda bahwa Anda dapat menggeneralisasi dari skor yang diterima seseorang pada satu

kesempatan menjadi skor yang akan diterima orang tersebut jika tes diberikan pada waktu yang berbeda. Koefisien tes-tes ulang mengasumsikan

bahwa karakteristik yang diukur dengan tes stabil dari waktu ke waktu, sehingga setiap perubahan skor dari satu waktu ke waktu lainnya

disebabkan oleh kesalahan acak. Kesalahan mungkin disebabkan oleh kondisi subjek itu sendiri atau oleh kondisi pengujian. Koefisien tes-tes

ulang juga mengasumsikan tidak ada efek latihan atau efek memori. Sebagai contoh, siswa mungkin belajar sesuatu hanya dari mengikuti tes dan

dengan demikian akan bereaksi berbeda pada pengambilan tes kedua. Efek latihan ini dari pengujian pertama kemungkinan tidak akan sama di

semua siswa, sehingga menurunkan estimasi reliabilitas. Jika selang waktunya pendek, mungkin juga ada efek memori; siswa dapat menandai

pertanyaan dengan cara yang sama seperti yang mereka lakukan sebelumnya hanya karena mereka ingat menandainya dengan cara itu pertama

kali. Efek memori ini cenderung meningkatkan estimasi reliabilitas, tetapi dapat dikendalikan dengan meningkatkan waktu antara pengujian

pertama dan pengujian ulang. Namun, jika waktu antar pengujian terlalu lama, pembelajaran diferensial mungkin menjadi masalah—yaitu, siswa

akan belajar jumlah yang berbeda selama interval, yang akan mempengaruhi koefisien reliabilitas. Dengan demikian, tenggang waktu antara

kedua pemerintahan merupakan masalah yang harus diperhatikan. tetapi dapat dikendalikan dengan menambah waktu antara tes pertama dan

tes ulang. Namun, jika waktu antar pengujian terlalu lama, pembelajaran diferensial mungkin menjadi masalah—yaitu, siswa akan belajar jumlah

yang berbeda selama interval, yang akan mempengaruhi koefisien reliabilitas. Dengan demikian, tenggang waktu antara kedua pemerintahan

merupakan masalah yang harus diperhatikan. tetapi dapat dikendalikan dengan menambah waktu antara tes pertama dan tes ulang. Namun, jika

waktu antar pengujian terlalu lama, pembelajaran diferensial mungkin menjadi masalah—yaitu, siswa akan belajar jumlah yang berbeda selama

interval, yang akan mempengaruhi koefisien reliabilitas. Dengan demikian, tenggang waktu antara kedua pemerintahan merupakan masalah

yang harus diperhatikan.

Karena masalah ini, prosedur tes-tes ulang biasanya tidak sesuai untuk tes dalam
domain kognitif. Penggunaan prosedur ini di sekolah sebagian besar terbatas pada
ukuran kebugaran fisik dan kecakapan atletik.

Keandalan Bentuk Setara


Peneliti menggunakan teknik bentuk-setara memperkirakan keandalan, yang juga
disebut sebagai teknik bentuk alternatif atau teknik bentuk paralel,ketika
kemungkinan subjek akan mengingat tanggapan mereka terhadap item tes. Di sini,
daripada mengkorelasikan skor dari dua administrasi yang sama
BAB 9 VALIDITAS DAN KEANDALAN 243

tes untuk kelompok yang sama, peneliti mengkorelasikan hasil bentuk alternatif
(setara) dari tes yang diberikan kepada individu yang sama. Jika kedua bentuk
tersebut diberikan pada dasarnya pada waktu yang sama (berturut-turut langsung),
koefisien reliabilitas yang dihasilkan disebutkoefisien kesetaraan. Ukuran ini
mencerminkan variasi kinerja dari satu set item tertentu ke item lainnya. Ini
menunjukkan apakah Anda dapat menggeneralisasi skor siswa dengan apa yang
akan diterima siswa jika bentuk lain dari tes yang sama telah diberikan.
Pertanyaannya adalah, Sejauh mana kinerja siswa bergantung pada set item tertentu
yang digunakan dalam tes? Jika subjek diuji dengan satu bentuk pada satu
kesempatan dan dengan bentuk yang setara pada kesempatan kedua dan skor
mereka pada dua bentuk berkorelasi, koefisien yang dihasilkan disebutkoefisien
stabilitas dan ekivalensi. Koefisien ini mencerminkan dua aspek reliabilitas tes:
variasi kinerja dari satu waktu ke waktu lainnya dan variasi dari satu bentuk tes ke
bentuk lainnya. Koefisien stabilitas dan kesetaraan yang tinggi menunjukkan bahwa
kedua bentuk tersebut mengukur keterampilan yang sama dan mengukur secara
konsisten dari waktu ke waktu. Ini adalah ukuran yang paling menuntut dan paling
ketat yang tersedia untuk menentukan keandalan tes.
Merancang bentuk alternatif dari tes yang benar-benar setara merupakan tantangan
dengan teknik memperkirakan keandalan. Jika desain yang sukses tidak tercapai, maka
variasi skor dari satu bentuk ke bentuk lainnya tidak dapat dianggap varians kesalahan.
Bentuk alternatif dari tes adalah tes yang dibangun secara independen yang harus
memenuhi spesifikasi yang sama — yaitu, mereka harus memiliki jumlah item, instruksi,
batas waktu, format, isi, jangkauan, dan tingkat kesulitan yang sama — tetapi pertanyaan
sebenarnya tidak sama. Idealnya, Anda harus memiliki pasangan item yang setara dan
menetapkan satu dari setiap pasangan untuk setiap formulir. Dalam tes geografi dunia,
misalnya, formulir A mungkin bertanya, “Di benua apa Sungai Nil itu?” sedangkan
formulir B bertanya, “Di benua apa Sungai Amazon?” Formulir A mungkin bertanya, “Apa
ibu kota Italia?” dan bentuk B, "Apa ibu kota Prancis?" Distribusi nilai ujian juga harus
setara.
Teknik bentuk alternatif direkomendasikan ketika Anda ingin menghindari
masalah ingatan atau efek latihan dan dalam kasus di mana Anda memiliki sejumlah
besar item tes untuk memilih sampel yang setara. Para peneliti umumnya
menganggap bahwa prosedur bentuk-ekuivalen memberikan perkiraan terbaik dari
keandalan ukuran akademis dan psikologis.

Ukuran Keandalan Internal-Konsistensi


Prosedur reliabilitas lainnya dirancang untuk menentukan apakah semua item dalam
tes mengukur hal yang sama. Ini disebutprosedur internal-konsistensi dan hanya
memerlukan satu administrasi dari satu bentuk tes.

Keandalan Setengah-Setengah Prosedur konsistensi internal yang paling sederhana, yang


dikenal sebagai terbelah-setengah, secara artifisial membagi tes menjadi dua bagian dan
mengkorelasikan skor individu pada dua bagian. Peneliti memberikan tes kepada sebuah
kelompok dan kemudian membagi item menjadi dua bagian, memperoleh skor untuk setiap
individu pada dua bagian, dan menghitung koefisien korelasi. Inikoefisien reliabilitas split-
half seperti koefisien ekivalensi karena mencerminkan fluktuasi dari satu sampel item ke
sampel lainnya. Jika setiap mata pelajaran memiliki posisi yang sangat mirip pada kedua
bagian, tes tersebut memiliki reliabilitas yang tinggi. Jika ada sedikit konsistensi dalam posisi,
244 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

keandalannya rendah. Metode ini hanya membutuhkan satu bentuk tes, tidak ada jeda
waktu yang terlibat, dan pengaruh fisik dan mental yang sama akan bekerja pada subjek
saat mereka mengambil dua bagian. Masalah dengan metode ini adalah dalam membagi
tes untuk mendapatkan dua bagian yang sebanding. Jika, melalui analisis item, Anda
menetapkan tingkat kesulitan setiap item, Anda dapat menempatkan setiap item ke
dalam salah satu dari dua bagian berdasarkan tingkat kesulitan dan kesamaan konten
yang setara. Prosedur yang paling umum, bagaimanapun, adalah untuk mengkorelasikan
skor pada item tes bernomor ganjil dengan skor pada item bernomor genap. Namun,
koefisien korelasi yang dihitung antara dua bagian secara sistematis meremehkan
keandalan seluruh tes karena korelasi antara 50 item bernomor ganjil dan 50 item
bernomor genap pada tes 100 item adalah perkiraan keandalan untuk tes 50 item, bukan
a tes 100 item. Untuk mengubah korelasi split-half menjadi estimasi reliabilitas yang
sesuai untuk keseluruhan tes,Rumus ramalan Spearman–Brown dipekerjakan:

2R__1 __1
_ ___2_2__ (9.5)
Rxx = 1+R
_1_ _1_

22
di mana

Rxx =perkiraan keandalan seluruh tesR =Pearson R


korelasi antara dua bagian
_1__1_

22

Misalnya, jika kita menemukan koefisien korelasi 0,65 antara dua bagian tes,
perkiraan reliabilitas seluruh tes, dengan menggunakan rumus Spearman-Brown,
akan menjadi

__)
_(_2_)_(_.6_5
=.79
Rxx =
1+.65
Prosedur Spearman-Brown didasarkan pada asumsi bahwa kedua bagian sejajar.
Karena asumsi ini jarang tepat, dalam praktiknya, teknik split-half dengan koreksi
Spearman-Brown cenderung melebih-lebihkan keandalan yang akan diperoleh
dengan prosedur tes-tes ulang atau bentuk-bentuk yang setara. Ingatlah hal ini saat
mengevaluasi keandalan tes yang bersaing.
Keandalan split-half adalah teknik yang tepat untuk digunakan ketika fluktuasi
waktu-ke-waktu dalam memperkirakan keandalan harus dihindari dan ketika
pengujian relatif lama. Untuk tes singkat, teknik lain, seperti tes-tes ulang atau
bentuk yang setara, lebih tepat. Prosedur split-half tidak sesuai untuk digunakan
dengan tes kecepatan karena menghasilkan koefisien ekivalensi yang sangat tinggi
dalam tes tersebut. Tes kecepatan adalah tes yang dengan sengaja memasukkan
item-item mudah sehingga skor terutama bergantung pada kecepatan subjek dapat
merespons. Kesalahan kecil, dan sebagian besar item benar sampai pada titik di
mana waktu disebut. Jika seorang siswa menjawab 50 item, skor split-half-nya
kemungkinan adalah 25–25; jika siswa lain menilai 60 item, skor split-halfnya
kemungkinan 30–30, dan seterusnya. Karena skor individu pada item ganjil dan
genap hampir identik, variasi dalam individu diminimalkan dan korelasi antara
bagian akan hampir sempurna. Oleh karena itu, prosedur lain direkomendasikan
untuk digunakan dengan tes kecepatan.*

* Ada program komputer untuk menghitung semua rumus keandalan dalam bab ini. Kami menyertakan
rumus dan contoh kerja sehingga Anda dapat melihat bagaimana prosedur bekerja.
BAB 9 VALIDITAS DAN KEANDALAN 245

Tindakan Homogenitas Ukuran reliabilitas internal-konsistensi lainnya tidak memerlukan


pemisahan tes menjadi dua bagian dan memberi skor masing-masing setengah secara
terpisah. Prosedur ini menilai konsistensi interitem, atauHomogenitas, dari item. Mereka
mencerminkan dua sumber kesalahan: (1) pengambilan sampel konten seperti pada split-
half dan (2) heterogenitas sampel domain perilaku. Semakin heterogen domain, semakin
rendah konsistensi intertem; sebaliknya, semakin homogen domain, semakin tinggi
konsistensi interitem.

Prosedur Kuder–Richardson Kuder dan Richardson (1937) mengembangkan prosedur


yang telah banyak digunakan untuk menentukan homogenitas atau konsistensi
internal. Mungkin indeks homogenitas yang paling terkenal adalahRumus Kuder–
Richardson 20 (K–R 20), yang didasarkan pada proporsi jawaban yang benar dan
salah untuk masing-masing item pada tes dan varians dari total skor:

( Sx2 -Σpq
___K_ ________
Rxx = K1
Sx2 ) K–R 20 (9.6)

di mana

Rxx =keandalan seluruh tes


K= jumlah item pada tes
Sx2 =varians skor pada tes total (standar deviasi kuadrat)
P=proporsi jawaban yang benar pada satu itemQ
=proporsi jawaban yang salah pada item yang sama

Produk pq dihitung untuk setiap item, dan produk dijumlahkan dari semua item untuk
diberikan Σpq. K–R 20 berlaku untuk tes yang itemnya diberi skor dikotomis (0 atau 1);
dengan demikian, berguna dengan item tes yang dinilai benar/salah atau benar/salah.
Banyak prosedur penilaian mesin untuk pengujian secara rutin memberikan koefisien K–
R 20 bersama dengan koefisien split-half.
rumus lain, Kuder–Richardson 21, lebih sederhana secara komputasi tetapi
membutuhkan asumsi bahwa semua item dalam tes memiliki tingkat kesulitan yang
sama. Asumsi ini seringkali tidak realistis:
__ __
Ks2x -XK-(x )
______________
Rxx = K–R 21 (9.7)
Sx2 K( 1)

di mana

Rxx =keandalan seluruh tes


K= jumlah item dalam tes
S_x2_= varian dari skor
x =rata-rata skor

Metode ini adalah yang paling memakan waktu dari semua prosedur estimasi keandalan. Ini
hanya melibatkan satu administrasi tes dan hanya menggunakan informasi yang tersedia
dengan mudah. Dengan demikian, dapat direkomendasikan kepada guru untuk digunakan di
kelas jika tes tidak dinilai dengan mesin dan K–R 20 tidak dapat dihitung dengan komputer.
Misalnya, seorang guru telah memberikan tes 50 item ke kelas dan telah menghitung
rata-rata sebagai 40 dan standar deviasi sebagai 6. Menerapkan Rumus 9.7, reliabilitas
dapat diperkirakan sebagai berikut:
246 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

( 50 )62 4_0_(_5_0_−
_______−__ __4_0
__) __−__4_0
_1_8_0_0 0_
__
Rxx= = =.79
62( 50−1) 1764

Karena prosedur Kuder-Richardson menekankan kesetaraan semua item dalam


tes, mereka sangat tepat ketika tujuan tes adalah untuk mengukur satu sifat. Untuk
tes dengan konten yang homogen (misalnya, tes matematika yang mencakup
pecahan), perkiraan reliabilitas akan serupa dengan yang disediakan oleh split-half.
Untuk tes yang dirancang untuk mengukur beberapa sifat, estimasi reliabilitas
Kuder-Richardson biasanya lebih rendah dari estimasi reliabilitas berdasarkan
prosedur korelasional.
Analis telah menunjukkan melalui penalaran deduktif bahwa reliabilitas Kuder–Richardson
untuk tes apa pun secara matematis setara dengan rata-rata estimasi reliabilitas split-half yang
dihitung untuk setiap cara yang mungkin untuk membagi tes menjadi dua. Fakta ini
membantu menjelaskan hubungan antara dua prosedur. Jika sebuah tes memiliki tingkat
kesulitan yang seragam dan mengukur satu sifat, salah satu cara untuk membagi tes tersebut
menjadi dua adalah sama seperti cara lainnya untuk menghasilkan skor setengah yang serupa.
Oleh karena itu, metode Spearman–Brown dan Kuder–Richardson akan menghasilkan estimasi
yang serupa. Jika sebuah tes memiliki item dengan tingkat kesulitan yang bervariasi dan
mengukur berbagai sifat, estimasi Kuder-Richardson diharapkan lebih rendah dari estimasi
split-half. Misalnya, misalkan contoh tes keterampilan sekretaris mengetik, menulis singkat,
mengeja, dan keterampilan tata bahasa Inggris. Dalam menerapkan metode split-half,
pembuat tes akan menetapkan jumlah item yang sama dari setiap subtes ke setiap setengah
tes. Jika tes melakukan pekerjaan yang baik untuk mengukur kombinasi keterampilan ini,
reliabilitas split-half akan tinggi. Metode Kuder-Richardson, yang menilai sejauh mana semua
item setara satu sama lain, akan menghasilkan estimasi keandalan yang jauh lebih rendah.

Koefisien Alfa Ukuran homogenitas lain yang banyak digunakan adalah koefisien alfa, disebut
juga alfa cronbach setelah Lee Cronbach, yang mengembangkannya pada tahun 1951.
Koefisien alfa memiliki aplikasi yang lebih luas daripada rumus K–R 20. Ketika item diberi skor
secara dikotomis, itu menghasilkan hasil yang sama dengan K–R 20, tetapi juga dapat
digunakan ketika item tidak diberi skor secara dikotomis. Rumus untuk alfa adalah sebagai
berikut:

(K1 ) ( )
2
K x_−
= _____ __ S2 ___S__Saya (9.8)
Sx2
di mana

K= jumlah item pada tes


ΣS2Saya
= jumlah varians dari skor item
Sx2 =varians dari nilai tes (semua K barang)
Rumus untuk alfa mirip dengan K–R 20 kecuali bahwa Σpq digantikan oleh ΣS2,
jumlah varians skor item. Untuk menghitung, Anda menentukan varians dari semua
Saya
skor untuksetiap item dan kemudian tambahkan varians ini di semua item untuk
mendapatkan xS. 2
Peneliti menggunakan Cronbach alpha ketika ukuran memiliki item yang tidak
dinilai hanya sebagai benar atau salah, seperti skala sikap atau tes esai. Skor item
mungkin memiliki rentang nilai; misalnya, pada skala sikap Likert, individu dapat
menerima skor dari 1 hingga 5 tergantung pada opsi mana yang dipilih
BAB 9 VALIDITAS DAN KEANDALAN 247

Tabel 9.3 Ringkasan Koefisien Keandalan

Jumlah Formulir Tes yang Diperlukan

Satu dua

Split-setengah
Bentuk yang setara
Jumlah Satu K–R 20
(tidak ada selang waktu)
Koefisien alfa
administrasi
Yg dibutuhkan Setara-bentuk
Dua Tes-tes ulang
(selang waktu)

terpilih. Demikian pula, pada tes esai, jumlah poin yang berbeda dapat diberikan untuk
setiap jawaban. Banyak program komputer untuk keandalan, seperti yang termasuk
dalam SPSS, memberikan koefisien alfa sebagai indeks keandalan.
Jika item tes heterogen—yaitu, mereka mengukur lebih dari satu sifat atau atribut
—indeks reliabilitas yang dihitung dengan koefisien alfa atau K–R 20 akan
diturunkan. Selanjutnya, rumus-rumus ini tidak sesuai untuk tes waktu karena
varians item akan akurat hanya jika setiap item telah dicoba oleh setiap orang.

Tabel 9.3 menyajikan ringkasan dari berbagai jenis koefisien reliabilitas yang
disusun menurut jumlah formulir dan jumlah administrasi yang diperlukan.

INTERPRETASI KOEFISIEN KEANDALAN


Interpretasi koefisien reliabilitas harus didasarkan pada sejumlah pertimbangan.
Faktor-faktor tertentu mempengaruhi koefisien reliabilitas, dan kecuali faktor-faktor
ini diperhitungkan, setiap interpretasi reliabilitas akan menjadi dangkal.

1. Keandalan suatu tes sebagian merupakan fungsi dari lamanya tes. Hal-hal lain
dianggap sama, semakin lama tes, semakin besar keandalannya. Sebuah tes
biasanya terdiri dari sejumlah item sampel yang, secara teoritis, diambil dari
semesta item tes. Anda tahu dari apa yang telah Anda pelajari tentang
sampling bahwa semakin besar ukuran sampel, semakin mewakili populasi dari
mana sampel itu diambil. Ini juga berlaku untuk tes. Jika mungkin untuk
menggunakan seluruh semesta item, skor seseorang yang mengikuti tes akan
menjadi skornya yang sebenarnya. Alam semesta teoretis item terdiri dari
jumlah pertanyaan yang tak terbatas dan jelas bukan kemungkinan praktis.
Oleh karena itu, Anda membuat tes yang merupakan sampel dari alam
semesta teoretis semacam itu. Semakin besar jumlah item yang dimasukkan
dalam tes, semakin mewakili skor sebenarnya dari orang-orang yang
mengambilnya.

2. Keandalan sebagian merupakan fungsi dari heterogenitas kelompok.Koefisien


reliabilitas meningkat seiring dengan penyebaran, atau heterogenitas, subjek yang
mengikuti tes meningkat. Sebaliknya, semakin homogen suatu kelompok terhadap
sifat yang diukur, semakin rendah koefisien reliabilitasnya. Satu
248 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

Penjelasan tentang reliabilitas adalah sejauh mana peneliti dapat menempatkan


individu, relatif terhadap orang lain dalam kelompok mereka, menurut sifat-sifat
tertentu. Penempatan tersebut lebih mudah ketika Anda berhadapan dengan individu
yang lebih heterogen daripada homogen pada sifat yang diukur. Tidak diperlukan alat
yang sensitif untuk menentukan penempatan anak-anak dalam suatu distribusi menurut
berat badan mereka ketika rentang usia anak-anak ini adalah dari 5 sampai 15 tahun.
Bahkan, penempatan ini dimungkinkan dengan tingkat akurasi tertentu bahkan tanpa
menggunakan alat pengukur apa pun. Namun, dibutuhkan perangkat yang sensitif
untuk melakukan penempatan yang sama jika semua yang akan dibandingkan dan
ditempatkan dalam distribusi berusia 5 tahun. Jadi, heterogenitas kelompok dengan
siapa alat ukur digunakan merupakan faktor yang mempengaruhi reliabilitas instrumen
tersebut. Semakin heterogen kelompok yang digunakan dalam studi reliabilitas, semakin
tinggi koefisien reliabilitas. Ingatlah fakta ini saat memilih tes standar. Penerbit dapat
melaporkan koefisien keandalan yang tinggi berdasarkan sampel dengan berbagai
kemampuan. Namun, ketika tes digunakan dengan kelompok yang memiliki rentang
kemampuan yang jauh lebih sempit, reliabilitasnya akan lebih rendah.

3. Keandalan suatu tes sebagian merupakan fungsi dari kemampuan individu yang mengikuti tes
itu. Sebuah tes mungkin dapat diandalkan pada satu tingkat kemampuan tetapi tidak dapat
diandalkan pada tingkat lain. Soal-soal dalam sebuah tes mungkin sulit dan melampaui
tingkat kemampuan mereka yang mengerjakannya—atau soal-soal tersebut mungkin mudah
bagi sebagian besar mata pelajaran. Tingkat kesulitan ini mempengaruhi reliabilitas tes.
Ketika tes sulit, subjek menebak sebagian besar pertanyaan dan koefisien reliabilitas yang
rendah akan dihasilkan. Ketika mudah, semua mata pelajaran memiliki tanggapan yang benar
pada sebagian besar item, dan hanya beberapa item sulit yang membedakan antara mata
pelajaran. Sekali lagi, kami mengharapkan keandalan yang rendah. Tidak ada aturan
sederhana yang dengannya Anda dapat menentukan seberapa sulit, atau seberapa mudah,
sebuah tes seharusnya. Itu tergantung pada jenis tes, tujuan, dan populasi yang akan
digunakan.

4. Keandalan sebagian merupakan fungsi dari teknik khusus yang digunakan untuk
estimasinya. Prosedur yang berbeda untuk memperkirakan reliabilitas tes
menghasilkan koefisien reliabilitas yang berbeda. Bentuk alternatif dengan teknik
selang waktu memberikan estimasi keandalan yang lebih rendah daripada
prosedur tes-tes ulang atau split-half karena dalam teknik ini bentuk-ke-bentuk
serta fluktuasi waktu ke waktu hadir. Metode split-half, sebaliknya, menghasilkan
koefisien reliabilitas yang lebih tinggi daripada alternatifnya karena elemen
kecepatan di sebagian besar pengujian. Jadi, dalam mengevaluasi reliabilitas suatu
tes, Anda akan memberikan preferensi pada tes yang koefisien reliabilitasnya telah
diestimasi dengan teknik bentuk alternatif, daripada dengan teknik lain, ketika
reliabilitas yang dilaporkan serupa. Manual tes standar melaporkan koefisien
reliabilitas berdasarkan teknik tes-tes ulang dan bentuk alternatif, tetapi guru
umumnya tidak menggunakan prosedur ini untuk memperkirakan keandalan.
Pengujian berulang dan bentuk alternatif tidak layak di sebagian besar situasi kelas.
Sebaliknya, guru menggunakan split-half, Kuder-Richardson, atau salah satu ukuran
lain dari konsistensi internal sebagai ukuran keandalan.
5. Keandalan sebagian merupakan fungsi dari sifat variabel yang diukur. Beberapa
variabel yang menarik bagi peneliti menghasilkan ukuran yang lebih konsisten
BAB 9 VALIDITAS DAN KEANDALAN 249

sering daripada variabel lainnya. Misalnya, karena prestasi akademik relatif mudah
diukur, sebagian besar tes prestasi akademik yang mapan memiliki reliabilitas yang
cukup tinggi (koefisien 0,90 atau lebih tinggi). Tes bakat yang dirancang untuk
memprediksi perilaku masa depan—tugas yang lebih sulit—memiliki keandalan yang
agak lebih rendah (0,80 atau lebih rendah). Ukuran variabel kepribadian yang andal
paling sulit diperoleh; dengan demikian, langkah-langkah ini biasanya hanya memiliki
keandalan sedang (0,60 hingga 0,70).
6. Keandalan dipengaruhi oleh objektivitas penilaian. Penilaian yang tidak
konsisten menimbulkan kesalahan yang mengurangi keandalan tes. Potensi
tidak dapat diandalkannya penilaian tes esai, misalnya, berarti bahwa tes esai
umumnya dianggap tidak dapat diandalkan seperti pilihan ganda dan jenis tes
respons terpilih lainnya.

Tabel 9.4 merangkum faktor-faktor yang mempengaruhi keandalan.


Berapa reliabilitas minimum yang dapat diterima untuk suatu instrumen? Mungkin jawaban
terbaik untuk pertanyaan ini adalah bahwa reliabilitas yang baik adalah reliabilitas yang sebaik
atau lebih baik daripada reliabilitas ukuran-ukuran yang bersaing. Tes pencapaian ejaan
dengan reliabilitas 0,80 tidak memuaskan jika tes yang bersaing memiliki koefisien reliabilitas
0,90 atau lebih baik. Sebuah koefisien 0,80 untuk tes kreativitas akan dinilai sangat baik jika tes
lain dari konstruk yang sama memiliki reliabilitas 0,60 atau kurang.
Tingkat keandalan yang Anda butuhkan dalam suatu ukuran sangat bergantung
pada penggunaan hasil yang akan Anda buat. Kebutuhan akan pengukuran yang
akurat meningkat karena konsekuensi dari keputusan dan interpretasi menjadi lebih
penting. Jika hasil pengukuran akan digunakan untuk membuat keputusan tentang
suatu kelompok atau untuk tujuan penelitian, atau jika keputusan awal yang salah
dapat dengan mudah dikoreksi, skor dengan reliabilitas sederhana (koefisien dalam
kisaran 0,50 hingga 0,60) dapat diterima . Namun, jika hasilnya akan digunakan
sebagai dasar untuk membuat keputusan tentang individu, terutama keputusan
penting atau tidak dapat diubah (misalnya, penolakan atau penerimaan calon ke
sekolah profesional atau penempatan anak di kelas pendidikan khusus), hanya
instrumen dengan keandalan tertinggi dapat diterima.

Tabel 9.4 Faktor-Faktor yang Mempengaruhi Keandalan Tes

Faktor Efek Potensi

1. Panjang tes Semakin lama tes, semakin besar keandalannya.


2. Heterogenitas Semakin heterogen kelompok, semakin besar
kelompok keandalannya.
3. Tingkat kemampuan kelompok Tes yang terlalu mudah atau terlalu sulit untuk suatu kelompok menghasilkan
reliabilitas yang lebih rendah.

4. Teknik yang digunakan untuk Test-retest dan split-half memberikan perkiraan yang lebih tinggi.
memperkirakan keandalan Bentuk yang setara memberikan perkiraan yang lebih rendah.

5. Sifat variabel Pengujian variabel yang lebih mudah diukur menghasilkan estimasi
reliabilitas yang lebih tinggi.
6. Objektivitas penilaian Semakin objektif penilaiannya, semakin besar keandalannya.
250 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

GAMBAR INI

Joe Rocco

Pikirkan tentang itu 9.2

Tunjukkan jenis koefisien reliabilitas yang diilustrasikan dalam setiap latihan berikut:
A. Seorang guru menyiapkan dua bentuk tes prestasi matematika, memberikan dua bentuk tersebut kepada
sekelompok siswa pada hari-hari berturut-turut, dan menghubungkan nilai siswa dari kedua administrasi
tersebut.
B. Seorang profesor perguruan tinggi menyelenggarakan tes pilihan ganda 40 item dalam psikologi
pendidikan. Kantor penilaian memberikan profesor indeks keandalan yang ditemukan dengan membagi
tes menjadi dua bentuk dan menghitung korelasi antara nilai siswa pada keduanya.
C. Seorang guru mempertanyakan hasil tes bakat verbal yang diberikan ke kelas bahasa Inggrisnya. Dia
memutuskan untuk meminta siswa mengikuti tes yang sama pada hari berikutnya. Dia kemudian
mengkorelasikan dua set skor dan menemukan koefisien 0,90.
D. Sebuah tes komersial mengembangkan dua bentuk tes membaca standar dan memberikan dua
bentuk tes tersebut kepada sampel yang mewakili siswa sekolah dasar di musim gugur dan lagi
di musim semi.
e. Seorang guru menginginkan perkiraan reliabilitas tes esai dalam sejarah yang diberikan pada akhir
semester. Dia menggunakan program komputer yang menghitung varians dari semua skor untuk
setiap item dan kemudian memasukkan total varians di semua item ke dalam rumus.

Jawaban
A. Bentuk alternatif (koefisien kesetaraan)
B. Koefisien keandalan split-setengah
BAB 9 VALIDITAS DAN KEANDALAN 251

C. Test-retest (koefisien stabilitas)


D. Bentuk alternatif (koefisien stabilitas dan kesetaraan)
e. Koefisien alfa

STANDAR KESALAHAN PENGUKURAN


Koefisien reliabilitas melihat konsistensi skor tes untuk suatu kelompok, tetapi tidak
memberi tahu kita apa pun tentang jumlah kesalahan dalam skor tes individu. Misalkan
Anda memiliki skor tes bakat 105 untuk setiap anak. Jika kami menguji ulang, kami
mungkin tidak akan mendapatkan skor yang sama. Berapa banyak variabilitas yang bisa
kita harapkan dalam skor anak pada pengujian ulang? Ingatlah bahwa teori pengukuran
menyatakan bahwa setiap skor yang diperoleh terdiri dari skor sebenarnya ditambah skor
kesalahan:x=T+E. Karena kesalahan, skor yang diperoleh terkadang lebih tinggi dari skor
sebenarnya dan terkadang lebih rendah dari skor sebenarnya. Kembali ke contoh tes
bakat, Anda akan mengharapkan dengan administrasi berulang untuk mendapatkan
sejumlah nilai yang berbeda untuk individu yang sama. Bahkan, Anda akan memiliki
distribusi frekuensi skor bakat. Rata-rata distribusi skor ini akan menjadi perkiraan terbaik
dari skor sebenarnya anak, dan standar deviasi akan menjadi indikator kesalahan
pengukuran. Karena simpangan baku ini merupakan simpangan baku kesalahan
pengukuran, maka disebut kesalahan baku pengukuran. Teori tes memberitahu kita
bahwa distribusi skor kesalahan mendekati distribusi normal, dan kita dapat
menggunakan distribusi normal untuk mewakilinya. Kesalahan pengukuran terdistribusi
normal dengan rata-rata nol. Mungkin ada banyak kesalahan kecil, tetapi akan ada sedikit
kesalahan yang sangat besar. Standar deviasi dari distribusi kesalahan ini (kesalahan
standar pengukuran,SM) akan memberikan perkiraan seberapa sering kesalahan dengan
ukuran tertentu diharapkan terjadi bila pengujian dilakukan berkali-kali.

Dalam praktiknya, Anda biasanya tidak memiliki pengukuran berulang untuk seorang
individu tetapi Anda bisa mendapatkan perkiraan kesalahan standar pengukuran dari
satu kelompok administrasi tes. Rumus kesalahan standar pengukuran adalah
______
SM=Sx1−Rxx

di mana

SM= kesalahan standar pengukuranSx =


standar deviasi nilai ujianRxx =koefisien
keandalan
Jadi, dengan menggunakan standar deviasi dari skor yang diperoleh dan reliabilitas
tes, kita dapat memperkirakan jumlah kesalahan dalam skor individu. Jika tes bakat
memiliki koefisien reliabilitas 0,96 dan standar deviasi 15, maka
_______ ____
SM=15√1−.96 =15√.04 =3
Apa kesalahan standar pengukuran memberitahu kita? Ini memberi tahu kita sesuatu tentang
seberapa akurat skor seseorang dalam ujian. Kita dapat menggunakan apa yang kita ketahui
tentang distribusi normal untuk membuat pernyataan tentang persentase skor yang berada di
antara titik-titik yang berbeda dalam suatu distribusi. Mengingat skor yang diperoleh siswa, Anda
252 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

menggunakan SM untuk menentukan rentang nilai skor yang, dengan probabilitas


tertentu, akan menyertakan skor sebenarnya dari individu tersebut. Rentang skor ini
disebut sebagaipita kepercayaan. Dengan asumsi bahwa kesalahan pengukuran
terdistribusi secara normal pada skor yang diberikan dan didistribusikan secara merata di
seluruh rentang skor, Anda dapat 68 persen yakin bahwa skor sebenarnya seseorang
(skor jika tidak ada kesalahan pengukuran) terletak dalam satu SM di kedua sisi skor yang
diamati. Misalnya, jika subjek memiliki skor pengamatan 105 pada tes bakat di mana
kesalahan standar pengukuran adalah 3, Anda dapat menyimpulkan pada tingkat
kepercayaan 68 persen bahwa skor sebenarnya subjek terletak di antara 102 dan 108.
Atau Anda dapat menyatakan pada tingkat kepercayaan 95 persen bahwa skor
sebenarnya akan jatuh dalam 1,96 (atau dibulatkan menjadi 2)SM dari skor yang diperoleh
(antara 99 dan 111). Anda juga dapat menggunakan kesalahan standar pengukuran
untuk menentukan berapa banyak variabilitas yang dapat diharapkan pada pengujian
ulang individu. Jika subjek dapat diuji ulang pada tes bakat yang sama beberapa kali,
Anda dapat mengharapkan bahwa dalam kira-kira dua pertiga dari tes ulang, skor akan
berada dalam kisaran 6 poin dari skor yang diamati, dan dalam 95 persen tes ulang skor
akan jatuh dalam kisaran 12 poin. Gambar 9.3 menunjukkan (a) distribusi skor kesalahan

2% 14% 34% 34% 14% 2%


-6 -3 0 -3 -6
(A)

2% 14% 34% 34% 14% 2%


96 99 102 105 108 111 114
(B)

Gambar 9.3 (A) Distribusi Skor Kesalahan Ketika SM=3.00 dan (B)
Distribusi sekitar Skor yang Diperoleh dari 105 dengan SM=3.00
BAB 9 VALIDITAS DAN KEANDALAN 253

(kesalahan standar pengukuran tes) dan (b) distribusi kesalahan di sekitar skor yang
diperoleh 105 dengan SM=3.
Kesalahan standar pengukuran (SM) dan koefisien reliabilitas (Rxx) adalah
cara alternatif untuk mengungkapkan seberapa besar kepercayaan yang dapat kita tempatkan
dalam skor yang diamati. Koefisien reliabilitas memberikan indikator konsistensi sekelompok
skor atau item yang menyusun tes. Kesalahan standar pengukuran memberikan perkiraan
konsistensi kinerja individu pada tes. Seberapa akurat atau tepat perkiraan skor sebenarnya
yang akan diberikan oleh skor yang diamati ditunjukkan oleh ukuran kedua indeks keandalan
ini. Ketika koefisien reliabilitas meningkat, kesalahan standar pengukuran menurun; karena
keandalan menurun, kesalahan standar pengukuran meningkat. Carilah kesalahan standar
pengukuran yang rendah atau koefisien reliabilitas yang tinggi sebagai indikator stabilitas nilai
tes. Tidak ada satu metode untuk memperkirakan keandalan yang optimal dalam semua
situasi. Kesalahan standar pengukuran direkomendasikan untuk digunakan ketika
menginterpretasikan skor individu, dan koefisien reliabilitas direkomendasikan untuk
digunakan ketika membandingkan konsistensi tes yang berbeda. Anda selalu menginginkan
skor yang cukup konsisten untuk membenarkan penggunaan dan interpretasi yang
diantisipasi.
Namun, tidak ada artinya untuk membuat pernyataan umum bahwa sebuah tes “dapat
diandalkan.” Anda harus melaporkan metode yang digunakan untuk memperkirakan indeks
keandalan, sifat kelompok dari mana data diperoleh, dan kondisi di mana data diperoleh.
Pengguna potensial dari suatu tes kemudian harus bertanggung jawab untuk menentukan
bagaimana data reliabilitas akan diterapkan pada populasi mereka.

Pikirkan tentang itu 9.3

A. Sebuah tes standar memiliki koefisien reliabilitas dilaporkan 0,84 dan standar deviasi 8. Hitung
kesalahan standar pengukuran untuk tes ini.
B. Mary mendapat nilai 100 pada tes ini. Hitung band di mana skor sebenarnya Mary mungkin
turun. (Gunakan tingkat kepercayaan 95 persen.)

Jawaban
______ _______ ____
A. SM=Sx√1−Rxx SM=8√1−.84 =8√.16 =8(.4) =3.2
B. Anda dapat menyatakan pada tingkat kepercayaan 95 persen bahwa skor sebenarnya Mary adalah antara 94 dan
106 [100± ( 1.96 )( 3 ) ≈100 ± 6=94 dan 106].

KEANDALAN UJI REFERENSI KRITERIA


Metode tradisional yang digunakan untuk menentukan reliabilitas tes referensi norma
memerlukan serangkaian skor dengan variabilitas yang cukup besar. Dengan demikian,
metode ini tidak sesuai untuk tes acuan kriteria yang skornya terbatas pada 1,
penguasaan, atau 0, bukan penguasaan. Beberapa prosedur telah disarankan untuk
memperkirakan reliabilitas tes yang direferensikan kriteria.

Koefisien Perjanjian (ρ)


NS koefisien kesepakatan (ρ) melibatkan pemberian dua bentuk yang setara dari
tes referensi kriteria, atau tes yang sama pada dua kesempatan, dan menentukan
254 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

konsistensi keputusan yang dicapai. Konsistensi dinyatakan sebagai persentase


orang untuk siapa keputusan yang sama (penguasaan atau nonpenguasaan) dibuat
pada kedua bentuk. Indeks reliabilitas ini disebut sebagai koefisien kesepakatan ().
Misalnya, hasil yang ditampilkan pada Tabel 9.5 diperoleh ketika dua bentuk
setara dari tes referensi kriteria diberikan kepada sampel 100 siswa. Dalam hal ini, 70
siswa secara konsisten diklasifikasikan sebagai master pada kedua bentuk dan 14
siswa secara konsisten diklasifikasikan sebagai nonmaster.
Koefisien kesepakatan (ρ) adalah proporsi dari total orang yang secara konsisten
diklasifikasikan pada dua bentuk, atau

=_B_+__C_ (9.9)
n
di mana

=koefisien kesepakatanB=angka yang diklasifikasikan sebagai


master pada kedua bentukC=angka yang diklasifikasikan sebagai
bukan master pada kedua bentukn= jumlah mata pelajaran

=_7_0__+__1_4_=___
84_=.84
100 100
Dengan demikian, 84 persen subjek diklasifikasikan secara konsisten, dan 0,84
adalah koefisien persetujuan tes ini. Jika klasifikasi sebagai master atau nonmaster
konsisten untuk semua peserta ujian pada kedua administrasi tes, koefisien
kesepakatan sama dengan 1, nilai maksimum.
Beberapa kesepakatan dalam klasifikasi sebagai master atau nonmaster antara dua bentuk
diharapkan hanya secara kebetulan; yaitu, bahkan jika klasifikasi dibuat secara acak, beberapa
individu diharapkan termasuk dalam sel (b) dan (c) pada Tabel 9.5. Oleh karena itu, kami
menyarankan menggunakan statistik yang diusulkan oleh Cohen (1960) yang mengambil
kesepakatan kebetulan mempertimbangkan.

Tabel 9.5 Keputusan Berdasarkan Formulir 1 dan 2 dari Tes Referensi Kriteria

Formulir 1

bukan master Menguasai

(A) (B)
Menguasai 10 70 80
Formulir 2
(C) (D)
bukan master 14 6 20

24 76 100 (n)
B=angka yang diklasifikasikan sebagai master pada kedua bentukC=angka yang diklasifikasikan
sebagai bukan master pada kedua bentukA=angka yang diklasifikasikan sebagai bukan master
pada formulir 1 tetapi master pada formulir 2D=angka yang diklasifikasikan sebagai master pada
formulir 1 tetapi bukan master pada formulir 2n= jumlah siswa yang mengambil kedua bentuk
tersebut.
BAB 9 VALIDITAS DAN KEANDALAN 255

Koefisien Kappa
Cohen's koefisien kappa, , mengacu pada proporsi klasifikasi konsisten yang diamati di
luar yang diharapkan secara kebetulan saja. Dasar pemikiran dari koefisien kappa
sangatlah mudah. Pertama, hitung persentase kasus yang diharapkan memiliki klasifikasi
yang konsisten meskipun tidak ada hubungan yang nyata antara bentuk-bentuk tersebut
—yaitu, jika klasifikasi pada kedua bentuk tersebut benar-benar independen. Indeks ini
disebut sebagaikesepakatan peluang yang diharapkan (ρC). Kesepakatan peluang yang
diharapkan dikurangi dari kesepakatan yang diamati(ρHai-ρC) untuk mendapatkan
peningkatan aktual atas konsistensi kebetulan; jumlah ini kemudian dibagi dengan 1−ρHai
-ρC, peningkatan maksimum yang mungkin dalam konsistensi keputusan di luar
kesempatan, untuk menghasilkan , koefisien kappa.
Dengan demikian, kesepakatan peluang yang diharapkan ditunjukkan oleh rumus berikut:

_(A _ B ) A_________________
__+____( + C ) + ( C + D B) __+
( __D
__
)
ρC = (9.10)
n2
di mana

ρC =proporsi kesepakatan yang diharapkan secara kebetulan

ρHai-ρ
=__ ____C (9.11)
1−ρC
di mana

=proporsi kesepakatan di atas yang diharapkan secara kebetulanρHai =


koefisien kesepakatan yang diamatiρC =kesepakatan peluang yang
diharapkan

Menggunakan data dalam pendahuluan (contoh g,

=_( 80_)(_2_4__)_+__(__20 ____


)( 76_) . 84−.34
=_________
C
1002 1−.34
1_9_20+1 _
______5_20_ . 50
=____
=
10.000 . 66
=.34 =.76
Anda dapat melihat bahwa koefisien kappa (.76), yang menyesuaikan dengan kesepakatan
peluang yang diharapkan, memberikan perkiraan keandalan yang lebih rendah daripada
koefisien kesepakatan (.84). Hal ini selalu terjadi, kecuali jika kesepakatannya sempurna
(ρ=1.00), karena kappa dimulai dengan kesepakatan yang diamati dan kemudian
menyesuaikannya dengan kesepakatan kebetulan yang diharapkan. Karena kappa tidak
digelembungkan oleh kesepakatan kebetulan, itu dianggap sebagai indikator keandalan yang
lebih baik daripada koefisien kesepakatan. Koefisien kesepakatan dan kappa memerlukan dua
kali pengujian. Ada teknik yang tersedia untuk memperkirakan reliabilitas tes referensi kriteria
dari administrasi tes tunggal, tetapi kami tidak membahasnya dalam teks ini.

Koefisien Phi
Koefisien lain yang tidak meningkat oleh kesepakatan kebetulan dan dengan demikian
menghasilkan hasil yang mirip dengan kappa adalah phi (ϕ): The koefisien phi,
penyederhanaan matematis dari Pearson R ketika semua skor adalah 1 atau 0, adalah ukuran
reliabilitas yang berguna untuk ukuran yang direferensikan kriteria.
256 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

SM-iklan
_________________________
=_______________ (9.12)
(A+B ) ( C+D) (A+C ) ( B+D)
Menggunakan data pada Tabel 9.5,
( 70 ) ( 14 ) ( 10 )( 6 )_________
=_______ ______________________________________________________
( 10 + 70 )( 14 + 6 )( 10 + 14 )( 10 + 6 )
____9_8_0 _0
__−____6 __________=____ 9______2_______
0 ____
=__________
( 80 )( 20 )( 24 )( 76 ) √2.918.400
920 54
=________=.
1708.33
Perhatikan seberapa dekat phi (.54) dan kappa (.53). Koefisien phi ditafsirkan dengan cara
yang sama seperti bentuk lain dari PearsonR. Ini berkisar dari 1,00 (semua tidak setuju)
hingga 0 (tidak ada konsistensi) hingga +1,00 (semua setuju). Perhatikan bahwa phi (.54)
berada di dekat kuadrat kappa (.762 = 0,57 ).

KEANDALAN DATA OBSERVASI


Keandalan juga penting dalam alat ukur yang memerlukan penilaian atau pengamatan
individu oleh individu lain. Peneliti dalam kasus ini harus menentukan keandalan
penilaian—apakah hakim/pengamat yang berbeda telah memberikan skor atau penilaian
yang sama untuk perilaku yang sama. Cara sederhana untuk menentukan keandalan
peringkat adalah dengan meminta dua atau lebih pengamat secara independen menilai
perilaku yang sama dan kemudian mengkorelasikan peringkat pengamat. Korelasi yang
dihasilkan disebutantar penilai atau keandalan antar pengamat. Jika perilaku yang
akan diamati didefinisikan dengan baik dan pengamat terlatih dengan baik, reliabilitas
pengamatan harus positif dan cukup tinggi (sekitar 0,90).
Ambil kasus dua individu yang telah menilai beberapa siswa dalam penilaian
kinerja di mana peringkat berkisar dari 1 (sangat buruk) hingga 10 (sangat baik). Di
sini, reliabilitas dapat dinilai melalui prosedur korelasional dengan cara yang sama
seperti prosedur ini digunakan dalam tes-tes ulang atau reliabilitas bentuk alternatif.
Pengamat kedua memiliki fungsi yang sama sebagai tes ulang atau bentuk alternatif
dalam tes kertas dan pensil. Ketika skor hanya 1 atau 0 (perilaku terjadi versus
perilaku tidak terjadi), kappa (Rumus 9.12) dapat digunakan untuk menilai keandalan
skor pengamat. Prosedur ini juga berguna saat melatih pengamat. Peserta pelatihan
menonton dan menilai rekaman video yang telah dicetak oleh pengamat yang
berpengalaman, dan koefisien kesepakatan, atau kappa, menunjukkan
korespondensi antara peserta pelatihan dan pengamat yang berpengalaman.

Koefisien phi juga dapat digunakan untuk menilai persetujuan pengamat dengan
skor 0 dan 1. Suen dan Ary (1989) memberikan diskusi ekstensif tentang prosedur
reliabilitas dalam observasi perilaku.

VALIDITAS DAN KEANDALAN DIBANDINGKAN


Validitas adalah karakteristik yang lebih penting dan komprehensif daripada reliabilitas.
Karena lebih sulit untuk mengukur kesalahan sistematis daripada kesalahan acak,
mengevaluasi validitas lebih menantang. Validitas tidak diperoleh secara langsung seperti
reliabilitas. Menilai validitas melibatkan mengumpulkan banyak bukti untuk
BAB 9 VALIDITAS DAN KEANDALAN 257

mendukung interpretasi skor yang diusulkan. Kerangka konseptual menunjukkan


jenis bukti yang perlu Anda kumpulkan untuk mendukung makna dan interpretasi
nilai tes. Anda harus menjawab pertanyaan tentang kesesuaian konten tes,
kecukupan kriteria, definisi sifat manusia, spesifikasi domain perilaku, teori di balik
konten tes, dan sebagainya. Semua hal ini melibatkan penilaian dan pengumpulan
data dari banyak sumber. Anda akan menemukan bahwa studi penelitian yang
dipublikasikan biasanya melaporkan lebih banyak data reliabilitas daripada data
validitas.
Keandalan, sebaliknya, dapat diselidiki langsung dari data uji; tidak ada data di
luar ukuran yang diperlukan. Isu-isu dasar reliabilitas meminjamkan diri dengan
mudah untuk analisis matematis, dan kesimpulan yang masuk akal tentang jumlah
kesalahan dapat dinyatakan dalam istilah matematis. Gambar 9.4 mengilustrasikan
perbedaan antara reliabilitas dan validitas.
Jika suatu ukuran ingin menghasilkan interpretasi berbasis skor yang valid, pengukuran itu
harus reliabel terlebih dahulu. Reliabilitas suatu instrumen menentukan batas atas
validitasnya. Skor pada tes dengan reliabilitas nol sepenuhnya acak dan karena itu tidak dapat
berkorelasi dengan kriteria apa pun. Kemungkinan korelasi suatu instrumen dengan suatu
kriteria (koefisien validitas) meningkat seiring dengan meningkatnya reliabilitas instrumen.

Keabsahan

Tinggi Rendah
Tinggi
Keandalan

A B
Rendah

C D
A — valid dan dapat diandalkan B — dapat diandalkan tetapi tidak valid

C — valid tetapi tidak terlalu dapat diandalkan D — tidak valid atau tidak dapat diandalkan

Gambar 9.4 Empat Senapan Diuji dengan Membidik Tepat dan Menarik Pemicu
Sumber: Dari Periklanan Kontemporer, Edisi ke-8, oleh William Arens. Hak Cipta © 2002 oleh McGraw-Hill
Companies, Inc. Direproduksi dengan izin.
258 BAGIAN KEEMPAT DASAR-DASAR PENGUKURAN

Tabel 9.6 Contoh Review Tes dari Buku Tahunan Pengukuran Mental

TEKNIS. Sampel norma termasukn= 1.898 siswa dari 23 Untuk bukti validitas terkait kriteria, TOSCRF
negara bagian. Untuk sebagian besar, sampel tampaknya dibandingkan dengan skor arsip pada Woodcock–
mewakili statistik nasional seperti yang dilaporkan dalam Johnson III, Grey Oral Reading Test (GORT-4), dan
informasi Sensus AS berkaitan dengan wilayah geografis, Stanford Achievement Test Series 9, dan dengan Test of
jenis kelamin, pendapatan keluarga, tingkat pendidikan Silent Word Reading Fluency (TOSWRF) diberikan pada
orang tua, dan status pengecualian. Tes menghasilkan skor saat itu. Korelasi rata-rata yang tidak dikoreksi di
mentah tunggal. Skor standar, peringkat persentil, usia, semua bentuk TOSCRF berkisar dari 0,48 dengan
dan nilai yang setara disediakan pada tabel yang mudah GORT-4 hingga 0,76 dengan TOSWRF. Penulis juga
ditafsirkan. membandingkan skor standar dari TOSCRF dengan
ukuran global yang dihasilkan dari kombinasi
KEANDALAN. Bukti reliabilitas disediakan dengan
pengukuran lain, melalui sampel independenT-tes.
menggunakan bentuk alternatif (langsung dan tertunda), tes-
Temuan menunjukkan bahwa rata-rata skor standar
tes ulang, dan penilaian antar penilai. Koefisien reliabilitas
serupa. Para penulis menafsirkan ini sebagai bukti
untuk bentuk alternatif (administrasi segera) berkisar antara
validitas, tetapi dukungan ini tampaknya paling lemah.
0,82 hingga 0,89 berdasarkan tingkat usia dan dari 0,76
hingga 0,96 untuk subkelompok yang dipilih. Koefisien
reliabilitas untuk tes-tes ulang dengan interval 2 minggu
berkisar antara 0,82 hingga 0,95. Bukti keandalan antar KOMENTAR. TOSCRF dapat diterima sebagai ukuran
penilai untuk pencetak gol tinggi. penyaringan cepat untuk siswa, sebagai salah satu bagian
dari program pengujian. Bukti reliabilitas dan validitasnya
KEABSAHAN. Dalam hal validitas isi, format tes lebih mirip
membutuhkan lebih banyak pembuktian. Interpretasi skor
dengan permainan seperti teka-teki tersembunyi daripada
untuk beberapa wilayah AS dan beberapa subkelompok yang
membaca teks yang sebenarnya. Dengan demikian, itu bukan
tidak terwakili dalam kelompok norma harus dibuat dengan
cerminan yang kuat dari apa yang penulis maksudkan.
hati-hati.
Beberapa bukti validitas isi dapat disimpulkan bahwa tes
tersebut menggunakan kalimat yang diadaptasi dari dua tes
membaca yang sudah mapan.
Sumber: Geisinger, K., Spies, R., Carlson, J., & Plake, B. (Eds.) (2007) Buku tahunan pengukuran mental ketujuh belas (hlm. 797–800). Lincoln: Universitas
Nebraska, Institut Pengukuran Mental Buros.

Ingat, bagaimanapun, bahwa ukuran dapat memiliki reliabilitas tanpa memberikan


interpretasi yang valid; itu dapat secara konsisten mengukur hal yang salah. Feldt dan
Brennan (1989) menekankan keunggulan validitas dalam mengevaluasi kecukupan
ukuran pendidikan dengan menyatakan, “Tidak ada data reliabilitas, terlepas dari
keanggunan metode yang digunakan untuk menganalisisnya, sangat berharga jika
ukuran yang itu berlaku tidak relevan atau berlebihan” (hal. 143).
Tabel 9.6 adalah kutipan dari Buku Tahunan Pengukuran Mental Ketujuh Belas
(Geisinger,Spies,Carlson,& Plake,2007) menunjukkan jenis validitas dan reliabilitas data yang
tersedia pada tes yang dipublikasikan. Dalam hal ini, instrumennya adalah Test of Silent
Contextual Reading Fluency (TOSCRF) yang dirancang sebagai “metode cepat dan akurat untuk
menilai kemampuan membaca dalam hati” untuk individu dari usia 7 hingga 18 tahun.

RINGKASAN

Memilih dari banyaknya instrumen pengukuran Dalam menilai validitas, peneliti mengumpulkan
yang tersedia bagi peneliti memerlukan berbagai jenis bukti pendukung dari berbagai
penggunaan kriteria untuk evaluasi instrumen ini. sumber. Tiga jenis bukti dikumpulkan:
Dua kriteria yang paling penting untuk alat ukur (1) bukti terkait konten, yang menilai seberapa
adalah validitas dan reliabilitas. Validitas adalah baik instrumen mengambil sampel domain konten
sejauh mana teori dan bukti mendukung yang diukur; (2) bukti terkait kriteria, yang menilai
interpretasi yang diusulkan dari nilai tes untuk seberapa baik instrumen berkorelasi dengan
tujuan yang dimaksudkan. Dalam prosesnya ukuran lain dari
BAB 9 VALIDITAS DAN KEANDALAN 259

variabel minat; dan (3) bukti terkait konstruk, yang koefisien. Koefisien reliabilitas dapat dihitung dengan
menilai seberapa baik instrumen tersebut berbagai cara, tergantung pada sumber kesalahan
mewakili konstruk yang diminati. yang dipertimbangkan. Koefisien reliabilitas
Peneliti juga harus bertanya, Seberapa konsisten tes menunjukkan sejauh mana kesalahan acak
mengukur apa pun yang diukurnya? Ini adalah masalah pengukuran mempengaruhi skor tes. Kesalahan
keandalan. Tidak ada tes yang dapat memungkinkan standar pengukuran, indeks reliabilitas lain,
interpretasi yang bermakna kecuali tes tersebut mengukur memungkinkan peneliti menggunakan kurva normal
secara konsisten—yaitu, kecuali jika tes tersebut dapat untuk memperkirakan batas di mana skor
diandalkan. Keandalan mengacu pada sejauh mana tes itu sebenarnya subjek dapat diharapkan berada.
konsisten dalam mengukur apa pun yang diukurnya. Secara Prosedur-prosedur validitas dan reliabilitas yang
khusus, keandalan mengacu pada sejauh mana skor sesuai untuk tes-tes yang direferensikan-kriteria
individu hampir sama dalam pengukuran berulang, seperti dibahas dalam bab ini. Prosedur juga tersedia untuk
yang ditunjukkan oleh keandalan yang tinggi menentukan keandalan pengamatan.

KONSEP UTAMA
koefisien kesepakatan bukti diskriminan dari skor yang diamati
koefisien teknik bentuk keabsahan koefisien phi teknik
alternatif (Cronbach) koefisien bukti yang berbeda bentuk paralel
alpha koefisien ekivalensi teknik bentuk-setara validitas prediktif
koefisien reliabilitas koefisien bukti berdasarkan internal bukti
stabilitas struktur kesalahan acak dari
koefisien stabilitas dan bukti berdasarkan tanggapan pengukuran
persamaan derajatnya
proses keandalan
validitas bersamaan bukti berdasarkan tes koefisien keandalan
bukti isi Ramalan Spearman–Brown
validitas wajah rumus
band kepercayaan diri
konstruksi-tidak relevan
analisis faktor keandalan split-setengah
perbedaan langkah-langkah homogenitas koefisien
bukti terkait konstruksi internal-konsistensi kesalahan standar dari
keabsahan Prosedur pengukuran
membangun representasi yang kurang keandalan antarpengamat kesalahan sistematis dari

validitas terkait konten keandalan antarpenilai pengukuran


bukti koefisien kappa Reliabilitas Tes Ulang
bukti konvergen dari teknik kelompok yang dikenal
koefisien
skor sebenarnya
keabsahan Rumus Kuder–Richardson
validitas terkait kriteria multitrait–multimetode keabsahan

bukti matriks koefisien validitas

LATIHAN
1. Membandingkan keabsahan dan keandalan 3. Bagaimana Anda mengusulkan untuk mengumpulkan
sehubungan dengan hal-hal berikut: bukti untuk mendukung penggunaan tes bakat skolastik
A. Arti dari setiap konsep baru yang telah dikembangkan untuk digunakan dengan
B. Kepentingan relatif dari setiap konsep siswa sekolah menengah atas?
C. Sejauh mana yang satu bergantung pada yang 4. Anda telah diminta untuk menilai validitas
lain instrumen yang dirancang untuk mengukur
2. Jelaskan pernyataan berikut: Suatu alat ukur konsep diri akademik siswa (yaitu, cara dia
mungkin reliabel tanpa valid, tetapi tidak memandang dirinya sendiri sebagai siswa).
dapat valid tanpa reliabel. Bagaimana Anda akan melakukan tugas ini?

Anda mungkin juga menyukai