Anda di halaman 1dari 7

VALIDITAS

A. Konsep dari validitas


Validitas, seperti yang diterapkan pada tes, adalah penilaian atau perkiraan
seberapa baik tes mengukur apa yang dimaksudkan untuk diukur dalam konteks
tertentu. Lebih khusus lagi, ini adalah penilaian berdasarkan bukti tentang kesesuaian
kesimpulan yang diambil dari skor tes. Inferensi adalah hasil atau deduksi logis.
Karakterisasi validitas tes dan skor tes sering diungkapkan dalam istilah seperti
"dapat diterima" atau "lemah". Istilah-istilah ini mencerminkan penilaian tentang
bagaimana secara memadai tes tersebut mengukur apa yang dimaksudkan untuk
diukur.
Validasi adalah proses mengumpulkan dan mengevaluasi bukti tentang validitas.
Baik pengembang tes dan pengguna tes dapat memainkan peran dalam validasi tes
untuk tujuan tertentu. Merupakan tanggung jawab pengembang pengujian untuk
memberikan bukti validitas dalam manual pengujian
Pakar pengukuran satu cara secara tradisional mengkonseptualisasikan validitas
sesuai dengan tiga kategori:
1. Validitas konten. Ini adalah ukuran validitas berdasarkan evaluasi mata
pelajaran, topik, atau konten yang dicakup oleh item dalam tes.
2. Validitas terkait kriteria. Ini adalah ukuran validitas yang diperoleh dengan
mengevaluasi hubungan skor yang diperoleh pada tes dengan skor pada tes atau
ukuran lain
3. Bangun validitas. Ini adalah ukuran validitas yang diperoleh dengan melakukan
analisis komprehensif
a. bagaimana skor pada tes berhubungan dengan skor dan ukuran tes lainnya,
dan
b. bagaimana skor pada tes dapat dipahami dalam beberapa kerangka teoritis
untuk memahami konstruksi yang dirancang untuk diukur oleh tes tersebut.
Dalam konsepsi klasik validitas, yang disebut sebagai pandangan trinitarian
(Guion, 1980), mungkin berguna untuk memvisualisasikan validitas konstruk sebagai
"validitas payung" karena setiap variasi lainnya validitas berada di bawahnya.
Mengapa validitas konstruk adalah jenis validitas utama yang akan menjadi jelas saat
kita membahas apa yang membuat tes valid dan metode serta prosedur yang
digunakan dalam validasi. Memang, ada banyak cara untuk mendekati proses validasi
pengujian, dan ini berbeda rencana penyerangan sering disebut sebagai strategi. ini
adalah contoh validasi konten strategi, strategi validasi terkait kriteria, dan strategi
validasi konstruk.
a. Validitas Wajah
Validitas wajah lebih berkaitan dengan apa yang tampaknya diukur oleh tes
terhadap orang yang diuji daripada apa yang sebenarnya diukur oleh tes tersebut.
Validitas wajah adalah penilaian tentang seberapa relevan item tes tampak. Pada
kenyataannya, tes yang tidak memiliki validitas wajah mungkin masih relevan
dan berguna. Namun, jika tes dianggap tidak relevan dan berguna oleh pembuat
tes, orang tua, legislator, dan lainnya, maka konsekuensi negatif dapat terjadi.
Konsekuensi ini dapat berkisar dari sikap penguji yang buruk hingga tuntutan
hukum yang diajukan oleh pihak yang tidak puas terhadap pengguna pengujian
dan penerbit pengujian. Pada akhirnya, validitas wajah mungkin lebih merupakan
masalah hubungan masyarakat daripada kesehatan psikometrik. Tetap saja, itu
penting, dan (seperti Rodney Dangerfield) pantas dihormati.

b. Validitas Wajah
Validitas konten mendeskripsikan penilaian tentang seberapa memadai sampel
pengujian yang mewakili perilaku semesta perilaku yang dirancang untuk
dijadikan sampel oleh pengujian. Misalnya, alam semesta perilaku yang disebut
asertif sangat luas cakupannya. Tes ketegasan yang valid dengan isi, kertas-dan-
pensil akan menjadi salah satu yang cukup mewakili rentang luas ini.
Sehubungan dengan tes prestasi belajar, adalah kebiasaan untuk menganggap
tes sebagai ukuran yang valid konten ketika proporsi materi yang dicakup oleh tes
mendekati proporsi materi yang tercakup dalam kursus. Ujian akhir kumulatif
dalam statistik pengantar akan dianggap valid konten jika proporsi dan jenis
masalah statistik pengantar pada tes mendekati proporsi dan jenis masalah
statistik pengantar yang disajikan dalam kursus.
Tahap-tahap awal tes yang sedang dikembangkan untuk digunakan di dalam
kelas — baik itu satu ruang kelas atau di seluruh negara bagian atau bangsa —
biasanya memerlukan penelitian yang mengeksplorasi alam semesta dari
kemungkinan tujuan instruksional untuk kursus tersebut. Termasuk di antara
banyak sumber informasi yang mungkin tentang tujuan tersebut adalah silabus
kursus, buku teks kursus, guru kursus, spesialis yang mengembangkan kurikulum,
dan profesor dan pengawas yang melatih guru di bidang mata pelajaran tertentu.

B. Validitas Terkait Kriteria


Validitas terkait kriteria adalah penilaian tentang seberapa memadai skor tes
dapat digunakan untuk menyimpulkan posisi individu yang paling mungkin pada
suatu ukuran minat — ukuran minat menjadi kriterianya. Dua jenis bukti validitas
dimasukkan di bawah judul validitas terkait kriteria. Validitas bersamaan adalah
indeks sejauh mana skor tes terkait dengan beberapa ukuran kriteria yang
diperoleh pada waktu yang sama (secara bersamaan). Validitas prediktif adalah
indeks sejauh mana skor tes memprediksi beberapa ukuran kriteria. Sebelum kita
membahas masing-masing jenis bukti validitas ini secara rinci, tampaknya tepat
untuk mengajukan (dan menjawab) pertanyaan penting.

Karakteristik kriteria, Kriteria yang memadai relevan. Yang kami maksud


dengan ini adalah relevan atau dapat diterapkan pada masalah yang dihadapi.
Kami berharap, misalnya, bahwa tes yang dimaksudkan untuk memberi tahu para
pembuat tes apakah mereka memiliki minat yang sama dengan aktor sukses yang
telah divalidasi menggunakan kepentingan aktor sukses sebagai kriteria.
Berikut adalah contoh kontaminasi kriteria. Misalkan tim peneliti dari sebuah
perusahaan bernama Ventura International Psychiatric Research (VIPR) baru saja
menyelesaikan studi tentang seberapa akurat tes yang disebut MMPI-2-RF
memprediksi diagnosis psikiatri pada populasi psikiatri di sistem rumah sakit
negara bagian Minnesota. Seperti yang akan kita lihat di Bab 12, MMPI-2-RF
sebenarnya adalah tes yang banyak digunakan. Dalam penelitian ini, prediktornya
adalah MMPI-2-RF, dan kriterianya adalah diagnosis psikiatri yang ada dalam
rekam medis pasien. Lebih lanjut, anggaplah bahwa sementara semua data
dianalisis di markas besar VIPR, seseorang memberi tahu para peneliti ini bahwa
diagnosis untuk setiap pasien di sistem rumah sakit negara bagian Minnesota
ditentukan, setidaknya sebagian, oleh skor tes MMPI-2-RF. Haruskah mereka
tetap melanjutkan analisis mereka? Jawabannya adalah tidak. Karena ukuran
prediktor telah mencemari ukuran kriteria, akan menjadi sedikit nilai untuk
menemukan, pada dasarnya, bahwa prediktor memang dapat memprediksi dirinya
sendiri.

a. Validasi bersamaan
Jika skor tes diperoleh pada waktu yang hampir bersamaan dengan
pengukuran kriteria diperoleh,ukuran hubungan antara skor tes dan kriteria
memberikan buktivaliditas bersamaan. Pernyataan validitas konkuren
menunjukkan sejauh mana skor tesdapat digunakan untuk memperkirakan
keberadaan individu berdasarkan kriteria. Jika, misalnya, skor (atau klasifikasi)
yang dibuat berdasarkan tes psikodiagnostik harus divalidasi kriteria pasien
psikiatri yang sudah didiagnosis, maka prosesnya akan menjadi salah satunya
validasi bersamaan. Secara umum, begitu validitas kesimpulan dari nilai tes
mapan, tes ini dapat memberikan cara yang lebih cepat dan lebih murah untuk
menawarkan diagnosis atau keputusan klasifikasi. Sebuah tes dengan validitas
konkuren yang didemonstrasikan secara memuaskan mungkin oleh karena itu
menarik bagi calon pengguna karena menawarkan potensi penghematan uang dan
waktu profesional.
b. Validitas Predictif
Skor ujian dapat diperoleh pada satu waktu dan ukuran kriteria diperoleh di
masa mendatang, biasanya setelah beberapa peristiwa yang mengganggu telah
terjadi. Peristiwa intervensi dapat mengambil bentuk yang bervariasi, seperti
pelatihan, pengalaman, terapi, pengobatan, atau hanya berlalunya waktu.
Pengukuran hubungan antara skor tes dan ukuran kriteria yang diperoleh di masa
mendatang memberikan indikasi validitas prediksi tes; yaitu, seberapa akurat skor
pada tes memprediksi beberapa ukuran kriteria. Pengukuran hubungan antara tes
penerimaan perguruan tinggi dan nilai rata-rata siswa baru, misalnya, memberikan
bukti validitas prediksi dari tes penerimaan. Umumnya, tarif dasar adalah sejauh
mana suatu sifat, perilaku, karakteristik, atau atribut yang ada dalam populasi
(dinyatakan sebagai proporsi). Dalam psikometri bahasa, rasio klik dapat
didefinisikan sebagai proporsi orang yang secara akurat diidentifikasi oleh tes
memiliki atau menunjukkan sifat, perilaku, karakteristik, atau atribut tertentu.
Sebagai contoh, tingkat keberhasilan dapat mengacu pada proporsi orang yang
diprediksi secara akurat dapat melakukan pekerjaan di tingkat sekolah
pascasarjana atau proporsi pasien neurologis yang diidentifikasi secara akurat
memiliki tumor otak. Dengan cara serupa, tingkat kehilangan dapat didefinisikan
sebagai proporsi orang tes gagal untuk mengidentifikasi memiliki, atau tidak
memiliki, karakteristik atau atribut tertentu. disini, kesalahan berarti prediksi yang
tidak akurat. Kategori meleset dapat dibagi lagi. Positif palsu adalah kesalahan di
mana tes memprediksi bahwa penguji memang memiliki yang tertentu
karakteristik atau atribut diukur padahal sebenarnya penguji tidak. Negatif palsu
adalah kesalahan dimana tes memperkirakan bahwa penguji tidak memiliki
karakteristik tertentu atau atribut yang diukur saat penguji benar-benar
melakukannya.
C. Membangun Validitas
Validitas konstruk adalah penilaian tentang kesesuaian kesimpulan yang
diambil dari tes skor mengenai klasemen individu pada variabel yang disebut
konstruk. Sebuah konstruksi adalah sebuah diinformasikan, ide ilmiah
dikembangkan atau dihipotesiskan untuk menggambarkan atau menjelaskan
perilaku. Intelijen adalah konstruksi yang dapat digunakan untuk menjelaskan
mengapa siswa berprestasi baik di sekolah. Kegelisahan adalah konstruksi yang
dapat digunakan untuk menjelaskan mengapa pasien psikiatri mondar-mandir.
Lain contoh konstruknya adalah kepuasan kerja, kepribadian, fanatisme, bakat
klerikal, depresi, motivasi, harga diri, penyesuaian emosional, potensi bahaya,
potensi eksekutif, kreativitas, dan pemahaman mekanis, untuk menyebutkan
beberapa.

a. Bukti validitas konstruk


Sejumlah prosedur dapat digunakan untuk memberikan berbagai jenis bukti
yang konstruksinya dibuat oleh suatu pengujian validitas. Berbagai teknik
validasi konstruk dapat memberikan bukti, misalnya, itu
■ pengujiannya homogen, mengukur satu konstruksi;
■ nilai ujian naik atau turun sebagai fungsi usia, berlalunya waktu, atau
manipulasi eksperimental seperti yang diprediksi secara teoritis;
■ skor tes diperoleh setelah beberapa acara atau hanya berlalunya waktu (atau,
skor posttest) berbeda dari skor pretes seperti yang diperkirakan secara
teoritis;
■ Nilai ujian yang diperoleh oleh orang-orang dari kelompok yang berbeda
bervariasi seperti yang diprediksikan oleh teori;
■ skor tes berkorelasi dengan skor pada tes lain sesuai dengan apa yang akan
terjadi diprediksi dari teori yang mencakup manifestasi dari konstruk
tersebut.
Pembahasan singkat tentang setiap jenis bukti validitas konstruk dan prosedur
yang digunakan untuk memperolehnya.

Bukti homogenitas ketika mendeskripsikan sebuah tes dan item-itemnya,


homogenitas mengacu pada seberapa seragam sebuah tes dalam mengukur
sebuah konsep. Pengembang pengujian dapat meningkatkan homogenitas
pengujian dengan beberapa cara. misalnya, tes prestasi akademik yang berisi
subtes di bidang-bidang seperti matematika, mengeja, dan pemahaman
bacaan. Seseorang dapat digunakan untuk mengkorelasikan nilai rata-rata sub
tes dengan nilai tes total rata-rata. Subtest yang dalam penilaian pengembang
tes tidak berkorelasi dengan baik dengan tes secara keseluruhan mungkin
harus direkonstruksi (atau dihilangkan) agar tes tidak mengukur prestasi
akademik konstruk. Korelasi antara skor subtes dan skor total tes umumnya
dilaporkan dalam manual tes sebagai bukti homogenitas.

Bukti perubahan seiring bertambahnya usia Beberapa konstruksi


diharapkan berubah seiring waktu. Kecepatan membaca, misalnya, cenderung
meningkat secara dramatis dari tahun ke tahun dari usia 6 hingga remaja awal.
Jika skor tes dimaksudkan untuk menjadi ukuran konstruksi yang dapat
diharapkan berubah dari waktu ke waktu, maka skor tes juga harus
menunjukkan perubahan progresif yang sama dengan usia untuk dianggap
sebagai ukuran yang valid dari konstruksi tersebut. Misalnya, jika anak-anak
di kelas 6, 7, 8, dan 9 mengikuti tes kosakata kelas delapan, maka kami
berharap bahwa jumlah item yang dinilai benar dari semua protokol tes akan
meningkat sebagai fungsi dari yang lebih tinggi. tingkat kelas para penguji.
Bukti perubahan pretest-posttest Bukti bahwa skor tes berubah sebagai
hasil dari beberapa pengalaman antara pretest dan posttest dapat menjadi bukti
validitas konstruk. Beberapa pengalaman intervensi yang lebih khas yang
bertanggung jawab atas perubahan nilai tes adalah pendidikan formal, kursus
terapi atau pengobatan, dan pengalaman kerja. Tentu saja, bergantung pada
konstruksi yang diukur, hampir semua pengalaman hidup yang mengganggu
dapat diprediksi menghasilkan perubahan skor dari pretest ke posttest.
Membaca buku yang penuh inspirasi, menonton acara bincang-bincang di TV,
menjalani operasi, menjalani hukuman penjara, atau hanya berlalunya waktu
masing-masing dapat terbukti menjadi variabel intervensi yang ampuh.

Bukti dari kelompok berbeda Juga disebut sebagai metode kelompok


kontras, salah satu cara untuk memberikan bukti validitas suatu tes adalah
dengan menunjukkan bahwa skor pada tes bervariasi dalam cara yang dapat
diprediksi sebagai fungsi keanggotaan dalam beberapa kelompok. Alasannya
di sini adalah bahwa jika tes adalah ukuran valid dari konstruksi tertentu,
maka skor tes dari kelompok orang yang akan dianggap berbeda sehubungan
dengan konstruksi itu harus memiliki nilai tes yang berbeda. Pertimbangkan
dalam konteks ini tes depresi dimana semakin tinggi skor tes, semakin
tertekan penguji yang diduga. Kami mengharapkan individu yang dirawat di
rumah sakit jiwa karena depresi mendapat skor lebih tinggi pada ukuran ini
daripada sampel acak pembeli Walmart.

D. Validitas, Bias, dan Kewajaran


Di mata banyak orang awam, pertanyaan tentang validitas suatu tes terkait erat
dengan pertanyaan tentang penggunaan tes yang wajar dan masalah bias dan fairness.
Mari kita tunjukkan bahwa validitas, keadilan dalam penggunaan pengujian, dan bias
pengujian adalah tiga masalah terpisah. Mungkin, misalnya, pengujian yang valid
dapat digunakan secara adil atau tidak adil.
a. Test bias
Untuk masyarakat umum, istilah bias yang diterapkan pada tes psikologi dan
pendidikan mungkin memunculkan banyak arti yang berkaitan dengan
prasangka dan perlakuan istimewa (Brown et al., 1999). Untuk hakim federal,
istilah bias yang berkaitan dengan item pada tes kecerdasan anak identik
dengan "terlalu sulit untuk satu kelompok dibandingkan dengan yang lain"
(Sattler, 1991). Untuk psikometri, bias adalah faktor yang melekat dalam tes
yang secara sistematis mencegah pengukuran yang akurat dan tidak memihak.
Psikometri telah mengembangkan sarana teknis untuk mengidentifikasi dan
memperbaiki bias, setidaknya dalam pengertian matematis. Sebagai ilustrasi
sederhana, pertimbangkan tes yang akan kita sebut "tes flip-coin" (FCT).
“Peralatan” yang dibutuhkan untuk melakukan pengujian ini adalah koin dua
sisi. Satu sisi ("kepala") memiliki citra profil dan sisi lainnya ("ekor") tidak.
FCT akan dianggap bias jika instrumen (koin) diberi bobot sehingga kepala
atau ekor muncul lebih sering daripada secara kebetulan. Jika tes yang
dimaksud adalah tes kecerdasan, tes tersebut akan dianggap bias jika
dikonstruksi sehingga orang yang memiliki mata coklat secara konsisten dan
sistematis memperoleh nilai yang lebih tinggi daripada orang dengan mata
hijau — dengan asumsi, tentu saja, bahwa pada kenyataannya orang dengan
mata cokelat mata umumnya tidak lebih cerdas daripada orang dengan mata
hijau. Sistematis adalah kata kunci dalam definisi bias tes kami.

Kesalahan peringkat Peringkat adalah penilaian numerik atau verbal (atau


keduanya) yang menempatkan seseorang atau atribut di sepanjang kontinum
yang diidentifikasi oleh skala deskriptor numerik atau kata yang dikenal
sebagai skala peringkat. Sederhananya, kesalahan peringkat adalah penilaian
yang dihasilkan dari penyalahgunaan skala peringkat yang disengaja atau
tidak disengaja. Jadi, misalnya, kesalahan keringanan hukuman (juga dikenal
sebagai kesalahan kemurahan hati), seperti yang tersirat dari namanya, adalah
kesalahan dalam penilaian yang muncul dari kecenderungan pihak penilai
bersikap lunak dalam penilaian, penilaian, dan / atau penilaian. . Dari
pengalaman Anda sendiri selama pendaftaran kursus, Anda mungkin
menyadari bahwa suatu bagian dari kursus tertentu akan berlangsung dengan
cepat.

Anda mungkin juga menyukai