Anda di halaman 1dari 11

Reliabilitas dan Validitas

Nama Kelompok :
Cahyaning Bawono (G1C119022)
Citra Adinda (G1C119078)
Selvita Butar Butar (G1C119030)
Weny Kema Septia (G1C119008)

PRODI PSIKOLOGI
FAKULTAS KEDOKTERAN DAN ILMU KESEHATAN
UNIVERSITAS JAMBI
2020
A. RELIABILITAS
Reliabilitas menunjukkan kepercayaan. Berdasarkan nilai ujian, pengawas perlu memastikan
bahwa skor cukup dapat dipercaya. Reliabilitas digunakan pada saat pengujian dan pengukuran,
dimana reliabilitas didasarkan pada konsistensi dan ketepatan hasil proses pengukuran. Untuk
mendapatkan tingkat kepercayaan pada skor, pengawas tes memerlukan bukti yang menyatakan
bahwa skor yang diperoleh dari tes akan konsisten jika tes diulangi pada individu atau kelompok
yang sama dan bahwa skor tersebut cukup tepat. Reliabilitas dalam pengukuran
mengimplikasikan konsistensi dan presisi, kekurangan keandalan menyiratkan
ketidakkonsistenan dan ketidaktepatan, yang keduanya disamakan dengan kesalahan
pengukuran. Dalam konteks pengujian, kesalahan pengukuran dapat didefinisikan sebagai setiap
fluktuasi skor yang dihasilkan dari faktor-faktor yang terkait dengan pengukuran proses yang
tidak relevan dengan apa yang sedang diukur. Reliabilitas adalah kualitas nilai tes yang
menunjukkan bahwa mereka cukup konsisten dan bebas dari kesalahan pengukuran agar
bermanfaat.

KEBENARAN DAN KESALAHAN DALAM PENGUKURAN PSIKOLOGI


Salah satu pendekatan dalam topik reliabilitas adalah tes klasik. Gagasan ini bisa dikatakan
mewakili objek pencarian, Meskipun skor sebenarnya tidak benar-benar ada, namun tetap
mungkin untuk membayangkan keberadaannya. Skor benar adalah entitas hipotetis itu akan
dihasilkan dari pengukuran bebas kesalahan. Metode untuk memperkirakan reliabilitas skor
memberikan cara memperkirakan skor sebenarnya. Konsep reliabilitas dan kesalahan dalam nilai
tes yang jelas harus dipertimbangkan sehubungan dengan skor apa pun dengan diterapkan secara
paralel namun dengan cara yang agak berbeda ketika berhadapan dengan satu atau lebih skor
satu individu dibandingkan saat berurusan dengan skor kelompok.

RELATIVITAS KEANDALAN
Perbedaan sangat mendasar untuk memahami implikasi dari konsep reliabilitas dengan
berkaitan dengan penggunaan tes dan interpretasi nilai tes. Jika tes digambarkan dapat
diandalkan, implikasinya adalah bahwa keandalannya telah ditetapkan secara permanen dalam
segala hal untuk semua penggunaan dan dengan semua pengguna. Ini akan sama dengan
mengatakan bahwa piano bagus yang disetel dengan baik akan selalu selaras dan akan selalu
selaras terdengar sama bagusnya terlepas dari jenis musik yang dimainkan di atasnya atau siapa
memainkannya. Faktanya, kualitas suara yang dihasilkan piano bukan hanya fungsinya
instrumen itu sendiri, tetapi juga variabel yang terkait dengan musik, pemain piano dan
pengaturan (misalnya, akustik ruangan) tempat piano dimainkan. Demikian pula, meskipun
reliabilitas dalam pengujian sangat bergantung pada karakteristik dari tes itu sendiri, reliabilitas
skor tes yang merupakan hasil dari penggunaan instrumen dan seperti musik yang dibuat piano,
itulah yang paling penting dan bias juga dipengaruhi oleh banyak variabel lain. Bahkan jika
diterapkan pada nilai tes, kualitas reliabilitasnya relatif. Skor yang diperoleh seseorang pada
suatu tes tidak dapat diandalkan atau tidak dapat diandalkan secara absolut. Sebaliknya, skor
yang diperoleh mungkin lebih atau kurang dapat diandalkan karena faktor-faktor secara unik
berkaitan dengan peserta tes (misalnya, kelelahan, kurangnya motivasi, pengaruh obat-obatan,
dll.) atau kondisi situasi pengujian (misalnya, adanya suara yang mengganggu, kepribadian
pemeriksa, ketatnya waktu batasan diberlakukan, dll.). Semua faktor ini dapat secara tunggal
atau bersama-sama mempengaruhi skor yang diperoleh ke tingkat yang lebih besar atau lebih
kecil, termasuk hingga titik di mana skor menjadi sangat tidak dapat diandalkan sehingga harus
dibuang. Meskipun mereka tidak berhubungan untuk pengujian itu sendiri, semua hal tersebut
perlu diperhitungkan dalam penilaian proses.
Sebaliknya, saat keandalan (rxx) dianggap dari sudut pandang pengujian data skor yang
diperoleh dari sampel yang besar, dalam kondisi standar, kesalahan pengukuran yang dapat
mempengaruhi skor individu anggota sampel diasumsikan didistribusikan secara acak. Sejak
kesalahan acak, mungkin memengaruhi skor ke arah positif atau negatif, kesalahan juga dapat
diasumsikan saling meniadakan. Meskipun demikian, perkiraan keandalan akan bervariasi dari
sampel ke sampel tergantung pada komposisinya dan keadaan di mana pengujian dilakukan.

PERBEDAAN INTERSCORER
Perbedaan interscorer (atau antar penilai) adalah label yang diberikan untuk kesalahan
yang mungkin masuk menjadi skor setiap kali elemen subjektivitas berperan dalam menilai tes.
Itu diasumsikan bahwa juri yang berbeda tidak selalu memberikan skor yang sama persis atau
peringkat ke kinerja pengujian tertentu bahkan jika arah penilaian ditentukan dalam manual tes
eksplisit dan rinci dan pencetak skor teliti menerapkan arah tersebut.
SCORER RELIABILITAS
Metode dasar untuk memperkirakan kesalahan karena perbedaan antar scorer terdiri dari
memiliki setidaknya dua individu yang berbeda untuk menilai serangkaian tes yang sama,
sehingga untuk kinerja setiap peserta tes, dua atau lebih skor independen dihasilkan. Itu korelasi
antara set skor yang dihasilkan dengan cara ini adalah indeks keandalan pencetak gol. Korelasi
yang sangat tinggi dan positif, di urutan 0,90 atau lebih tinggi, menunjukkan bahwa proporsi
kesalahan yang diperhitungkan oleh perbedaan interscorer adalah 10% atau kurang, karena 1 - (≥
0,90) = ≤ 0,10.

KEANDALAN DALAM PENGGUNAAN TES


Reliabilitas skor adalah pertimbangan abadi dalam pengujian psikologis karena kemungkinan
yang selalu ada bahwa kesalahan dari berbagai sumber akan masuk ke dalam hasil tes. Namun,
cara di mana reliabilitas skor dianggap berbeda di berbagai titik dalam proses pengembangan tes
serta dalam penerapan tes yang sebenarnya.
Dari perspektif pengguna tes, yang paling relevan terdapat tahapan:
(a) pemilihan tes dan
(b) interpretasi skor tes
Pertimbangan Reliabilitas dalam Seleksi Tes Saat pengguna uji memutuskan tes mana yang akan
digunakan untuk tujuan tertentu, mereka harus melihat data yang telah dikumpulkan mengenai
reliabilitas skor dari tes tertentu. Data ini biasanya dapat ditemukan dalam manual tes, buku
pegangan, dan artikel yang disiapkan oleh penulis atau pengembang tes, tetapi mereka juga dapat
muncul dalam literatur psikologi sebagai hasil dari penelitian independen. Biasanya, data
reliabilitas disajikan dalam bbentukkoefisien korelasi. Karena penggunaan yang meluas dari
kecerdasan Pearson dalam mengevaluasi reliabilitas dan validitas nilai tes, aspek penting dari
metode korelasional ini, termasuk keterbatasannya.

Mengevaluasi Data Reliabilitas


Koefisien reliabilitas memberikan pengguna tes beberapa informasi mengenai besarnya
kesalahan yang mungkin masuk ke dalam skor dari berbagai sumber. Bagaimanapun, dalam
mengevaluasi data reliabilitas, seseorang harus mengingat fakta bahwa perkiraan ini dicapai oleh
karakteristik sampel yang dikompensasikan dan mungkin atau mungkin tidak digeneralisasikan
ke yang lain. kelompok peserta tes. Antara lain hal, ini berarti bahwa perbedaan kecil dalam
besaran koefisien dari pengujian yang berbeda tidak mungkin menjadi sama pentingnya dengan
pertimbangan lain.

Evaluasi Kesalahan Dari Berbagai Sumber


Kebanyakan nilai tes dapat diterima untuk kesalahan pengukuran yang berasal dari lebih dari
satu sumber. Dalam teori uji klasik, kemungkinan realistis ini diakomodasi oleh
a) metode yang memperkirakan pengaruh gabungan dari dua sumber, seperti tertunda keandalan
bentuk-alternatif, yang memperkirakan kesalahan waktu dan kesalahan pengambilan sampel
kontenatau
(b) menjumlahkan jumlah varians kesalahan yang diperkirakan oleh semua reliabilty coetficients
untuk sampai pada perkiraan varian kesalahan total.

Generalisasi Theoy
Sebuah pendekatan alternatif untuk reliabilitas yang mencoba untuk menjadi lebih komprehensif
daripada yang telah kita diskusikan adalah apa yang kemudian dikenal sebagai teori kemampuan
generalig atau hanya teori Teori generalisasi adalah perpanjangan dari teori tes ~~ klasik yang
menggunakan metode analysis of variance (ANOVA) untuk mengevaluasi ~ ~ kombinasi dari
beberapa sumber varians kesalahan pada skor tes secara simultan.

Pendekatan Teori Tanggapan Item terhadap Keandalan


Metode yang lebih canggih untuk memperkirakan keandalan tersedia melalui teori tanggapan
item (IRT) (diperkenalkan dalam Bab 3 dan dibahas lebih lanjut dalam Bab 6). ~~ Penjelasan
lengkap tentang aspek teknis model IRT berada di luar cakupan ~~ teks ini, tetapi keuntungan
yang diberikan oleh model ini, terutama untuk skala besar ~~ dan pengujian adaptif komputer,
telah dengan cepat memacu pengembangan dan ~ ~ aplikasinya dalam beberapa dekade terakhir.
Dengan metode IRT, reliabilitas dan kesalahan pengukuran didekati dari sudut pandang fungsi
informasi dari item tes individu, yang bertentangan dengan tes secara keseluruhan. Karena
tingkat kesulitan ~~ dan kekuatan diskriminatif dari masing-masing item-relatif terhadap sifat
yang dinilai oleh ~~ tes-dapat dikalibrasi dengan lebih hati-hati melalui metode IRT, informasi
yang ~~ diberikan oleh respons setiap peserta tes lebih tepat dan dengan demikian lebih dapat
diandalkan . Dalam ~~ jenis pengujian adaptif komputer yang dimungkinkan oleh metode ini,
pemilihan ~~ item yang paling tepat untuk disajikan kepada peserta tes ditentukan oleh respons
mereka sebelumnya. Denganmmenggunakan metodologi IRT dan pengujian adaptif, keandalan
yang memadai dengan ~~ kesalahan pengukuran minimal dapat diperoleh dengan pengujian
yang lebih pendek dari ~~ pengujian tradisional (yang menyediakan konten tetap yang sama
untuk semua peserta tes), asalkan ~~ yang cukup ekstensif dan bank item inklusif tersedia. Ini
hanyalah salah satu dari ~~ banyak cara mendasar di mana versi pengukuran berbasis mode

PERTIMBANGAN KEANDALAN DALAM INTERPRETASI TES


Setelah tes dipilih, diberikan, dan dinilai, data reliabilitas diterapkan ~~ dalam proses interpretasi
tes untuk dua tujuan yang berbeda namun terkait. ~~ yang pertama adalah mengakui dan
mengukur margin kesalahan dalam nilai tes yang diperoleh. Tujuan ~~ kedua adalah untuk
mengevaluasi signifikansi statistik dari perbedaan antara ~~ skor yang diperoleh untuk
membantu menentukan impor perbedaan tersebut dalam hal ~~ apa yang diwakili oleh skor
tersebut.

Mengukur Kesalahan dalam Skor Tes:


Kesalahan Standar Pengukuran ~~ Dalam interpretasi setiap skor-atau rata-rata skor-dari suatu
tes, data reliabilitas digunakan untuk mendapatkan batas atas dan bawah dari kisaran di mana tes
Nilai sebenarnya pengambil cenderung turun. Interval kepercayaan dihitung untuk mendapatkan
skor berdasarkan estimasi reliabilitas skor dari tes dalam pertanyaan. Besar kecilnya interval
bergantung pada tingkat probabilitas yang dipilih. Menafsirkan Signfikansi Perbedaan Antara
Skor/ Sasaran penilaian sering kali memerlukan perbandingan
(a) antara dua atau lebih skor yang diperoleh oleh individu yang sama pada bagian berbeda dari
baterai tes, seperti ketika tingkat kinerja ~~ dalam domain yang berbeda adalah dibandingkan,
atau (b) antara skor ~~ dua orang atau lebih pada tes yang sama, untuk tujuan mengevaluasi ~ ~
kelebihan atau karakteristik relatif mereka. Dalam kedua kasus ini, data reliabilitas dapat
digunakan untuk menurunkan pernyataan probabilitas mengenai kemungkinan bahwa perbedaan
yang diperoleh antara skor-dan apa yang direpresentasikan skor-bisa jadi karena ~~ peluang.
Statistik yang digunakan untuk tujuan ini adalah kesalahan standar perbedaan antara skor atau
Sei. Ini dapat dihitung dengan menggunakan salah satu dari dua rumus yang terdaftar di referensi
tergantung pada apakah skor yang akan dibandingkan diekspresikan pada skala yang sama
(Formula 1) atau tidak (Formula 2). Terlepas dari ~~ dari dua rumus yang digunakan,

KESIMPULAN
Penggunaan tes psikologi akan sangat disederhanakan jika koefisien reliabilitas ~~ dan SEM
dapat diambil pada nilai nominal dalam mengevaluasi skor tes. Namun, karena bab ini
membahas tes, reliabilitas skor adalah penilaian relatif berdasarkan data psikologis dan konteks
di mana tes diberikan. Kita harus Lihat di Bab 5 bahwa hal yang sama berlaku untuk validitas
data skor tes. Dengan demikian, meskipun ketersediaan data psikometri yang sesuai pada
reliabilitas skor merupakan prasyarat dasar ~~ untuk setiap penggunaan skor tes, konteks di
mana ~~ tes psikologis berlangsung juga merupakan pertimbangan mendasar dalam interpretasi
ob- ~ ~ skor individu atau kelompok yang dicapai. Karena dampak potensial dari keputusan yang
akan dibuat dengan bantuan nilai tes meningkat, kedua faktor ini mengasumsikan kepentingan
~~ yang lebih besar.

B. VALIDITAS
Psikologi tes ada untuk membantu kita menarik kesimpulan tentang orang dan perilaku mereka.
Keabsahan-yang sejauh ini merupakan masalah paling mendasar tentang nilai tes dan
penggunaannya-bergantung pada bukti yang bisa kami bawa menanggung untuk mendukung
setiap kesimpulan yang akan dibuat berdasarkan hasil tes. Itu keutamaan pertimbangan validitas
diakui saat ini Standar Pengujian oleh penempatan topik ini di bab pertama, yang
mendefinisikan keabsahan sebagai “gelar yang semua bukti yang terkumpul mendukung
interpretasi yang dimaksudkan nilai ujian untuk tujuan yang diusulkan”(AERA, APA, NCME,
1999, hlm.11). Implisit dalam definisi ini ada tiga gagasan yang saling terkait yang
mencerminkan profesi pengujian's pandangan terkini tentang konsep sentral dan multifaset ini:
1. Validitas nilai tes berasal dari semua bukti yang terkumpul sampai mendukung interpretasi
dan penggunaannya. Jadi, validitas selalu menjadi masalah derajat daripada penentuan semua-
atau-tidak sama sekali. Validasi-yang adalah proses pengumpulan bukti validitas-dimulai dengan
pernyataan eksplisit oleh pengembang pengujian kerangka konseptual dan alasan untuk sebuah
ujian, tetapi pada dasarnya bersifat terbuka karena itu mencakup semua informasi yang
menambah pemahaman kita tentang hasil tes.
2. Sebagai pemahaman teoritis dan bukti empiris untuk diuji interpretasi skor terakumulasi,
validitas kesimpulan (yaitu, hipotesis) dibuat berdasarkan nilai tes untuk berbagai tujuan yang
diusulkan dapat ditingkatkan atau dikurangi. Sebuah konsekuensi dari gagasan ini, secara
eksplisit dinyatakan dalam Standar Pengujian (AERA, APA, NCME, 1999), adalah bahwa
“validasi adalah tanggung jawab bersama dari pengembang tes [siapa memberikan bukti dan
alasan untuk tujuan penggunaan tes] dan pengguna uji [yang mengevaluasi bukti yang tersedia
dalam konteks di mana tes akan digunakan]”
3. Karena banyaknya tujuan berbeda yang dapat digunakan untuk nilai tes diterapkan, dasar
pembuktian untuk interpretasi skor tes dapat diturunkan melalui berbagai metode. Kontribusi
untuk bukti validitas nilai ujian dapat dibuat dengan penelitian sistematis yang mendukung atau
menambah artinya, terlepas dari siapa yang melakukannya atau kapan ini terjadi. Selama bukti
ilmiah yang kuat untuk penggunaan yang diusulkan skor tes ada, pengguna tes yang memenuhi
syarat bebas menggunakan skor untuk mereka tujuan, terlepas dari apakah ini diramalkan oleh
pengembang dari ujian. Proposisi ini membantu menjelaskan sifat multifaset penelitian validasi,
serta sering kali berlebihan dan terkadang temuan yang bertentangan. Ini juga menjelaskan umur
panjang beberapa instrumen, seperti skala MMPI dan Wechsler, yang sangat luas literatur-
mencakup banyak aplikasi dalam berbagai konteks-telah terakumulasi selama beberapa dekade
dasar dan diterapkan penelitian. Proses validasi mirip dengan pengujian hipotesis: Ini mencakup
pengertian nilai tes yang berarti,dan reliabilitas skor tes, yang dibahas dalam dua bab
sebelumnya, serta cara penerapan data tes untuk penelitian dan praktik psikologis bisa
dibenarkan.

PERSPEKTIF SEJARAH TENTANG VALIDITAS


Munculnya tes psikologi modern terjadi pada waktu yang hampir bersamaan psikologi menjadi
disiplin ilmu yang mapan. Tanggal kedua bidang permulaannya hingga akhir tahun ke-19 dan
awal abad ke-20. Mungkin tidak ada ahli teori lain yang lebih berpengaruh dalam membentuk
kembali konsep validitas dari Samuel Messick. Menurut Messick (1989, p. 13), “validitas adalah
satu kesatuan penilaian evaluatif sejauh mana bukti empiris dan teoritis alasan mendukung
kecukupan dan kelayakan dari kesimpulan dan tindakan berdasarkan skor tes atau mode
penilaian lainnya." Sebagai hasil dari kebetulan historis ini, pemahaman kita tentang alam,
fungsi, dan metodologi tes dan pengukuran psikologis telah berkembang selama abad yang lalu
seiring dengan perkembangan dan kecanggihan yang tumbuh ilmu psikologi.

Definisi Klasik Validitas


Pengakuan tentang keadaan ini dalam profesi menghasilkan upaya pertama untuk
menggambarkan karakteristik yang akan membedakan tes yang baik dari yang buruk. Jadi,
definisi pertama darikeabsahan sebagai “sejauh mana tes mengukur apa yang dimaksudkan
untuk diukur” dirumuskan pada tahun 1921 oleh Asosiasi Nasional dari Direktur Penelitian
Pendidikan (TB Rogers, 1995, p. 25). Itu diratifikasi oleh banyak ahli pengujian-termasuk Anne
Anastasi di semua edisi berpengaruh nya buku teks aktif Pengujian Psikologis (1954-1988) serta
Anastasi dan Urbina (1997, hal. 8). Pandangan itu“uji validitas masalah apa ukuran pengujian
dan bagaimana baik ia melakukannya” (Anastasi & Urbina, p. 113) masih dianggap oleh banyak
orang sebagai jantungnya masalah validitas. Terlepas dari kesederhanaannya yang tampak,
pandangan ini mengajukan sejumlah masalah tersebut, terutama jika dilihat dari perspektif arus
Standar Pengujian (AERA, APA, NCME, 1999) dan fluks yang masih ada terkait
mendefinisikan beberapa konstruksi paling dasar dalam bidang psikologi.

Aspek Bermasalah dari Pandangan Tradisional tentang Validitas


Masalah yang dimunculkan oleh definisi klasik validitas berkisar pada hal yang tidak dinyatakan
tapi asumsi yang jelas itu
1. validitas adalah properti tes, bukan interpretasi skor tes;
2. Agar valid, skor tes harus mengukur beberapa konstruk yang diklaim langsung; dan
3.validitas skor, setidaknya sampai batas tertentu, merupakan fungsi penulis tes atau
pengembang'Pemahaman tentang konstruksi apa pun yang dia inginkan untuk mengukur.
Meskipun asumsi-asumsi ini dapat dibenarkan dalam kasus-kasus tertentu, memang demikian
adanya tidak dibenarkan dalam setiap kasus. Asumsi pertama, misalnya, hanya dapat
dipertahankan sebagai selama data validasi mendukung tujuan pengujian yang telah ditetapkan
dan selama tes digunakan secara khusus untuk tujuan itu dan dengan jenis populasi untuk data
validitas mana yang telah dikumpulkan. Asumsi kedua dan ketiga adalah dibenarkan hanya
untuk tes yang mengukur perilaku yang dapat dikaitkan dengan psikologi-konstruksi cal dengan
cara yang cukup tegas, seperti fungsi memori tertentu, kecepatan dan akurasi dalam pelaksanaan
berbagai tugas pemrosesan kognitif, atau tingkat pengetahuan tentang konten semesta yang
terdefinisi dengan baik.

(misalnya, diagnosis kecemasan vs. suasana hati vs. gangguan disosiatif, atau keanggotaan dalam
pekerjaan artistik vs. ilmiah vs. sastra); atau berkelanjutan (misalnya, nilai rata-rata nilai, jumlah
unit yang terjual, skor pada inventaris depresi, dll.). Sementara sifat kriteria bergantung pada
keputusan atau prediksi yang akan dibuat dengan bantuan nilai tes, metode yang digunakan
untuk menetapkan hubungan antara nilai tes dan kriteria bervariasi tergantung pada karakteristik
formal dari nilai tes dan ukuran kriteria. Secara umum, ketika ukuran kriteria diekspresikan
dalam mode dikotomis (misalnya, sukses vs. kegagalan) atau dalam hal sistem kategorikal
(misalnya, keanggotaan dalam kelompok yang berbeda), validitas skor tes dievaluasi dalam hal
hit. tarif. Hit rate biasanya menunjukkan persentase keputusan atau klasifikasi yang benar yang
dibuat dengan menggunakan skor tes, meskipun perbedaan rata-rata dan indeks korelasi yang
sesuai juga dapat digunakan.

Ketika ukuran kriteria berkelanjutan (misalnya, skor tes prestasi, nilai, peringkat, dll.) Alat utama
yang digunakan untuk menunjukkan tingkat hubungan antara nilai tes dan ukuran kriteria adalah
koefisien korelasi. Namun, jika nilai tertentu pada kriteria berkelanjutan, seperti nilai rata-rata
2.0, digunakan sebagai batas untuk menentukan hasil tertentu, seperti kelulusan dari perguruan
tinggi, skor pada tes prediktor juga dapat dievaluasi dalam persyaratan apakah mereka
membedakan antara mereka yang memenuhi atau melampaui kriteria cutoff dan mereka yang
tidak. Sejarah tes psikologi dalam beberapa dekade terakhir mencerminkan tidak hanya sebuah
evolusi dalam memahami sifat dan keterbatasan tes dan nilai tes tetapi juga peningkatan apresiasi
signifikansi dan kompleksitas ukuran kriteria (lihat, misalnya, James, 1973; Tenopyr, 1986;
Wallace, 1965).

dengan pengecualian yang jarang terjadi, gagasan bahwa ada hal seperti â € œsuatu kriteriaâ €
yang dapat digunakan untuk memvalidasi suatu pengujian tidak lagi dapat dipertahankan
daripada proposisi bahwa validitas suatu pengujian dapat ditentukan. dasar semua-atau-tidak
sama sekali. Sebaliknya, fakta berikut tentang kriteria sekarang secara umum dipahami:

1. Dalam kebanyakan studi validasi, ada banyak kemungkinan indeks (baik kuantitatif maupun
kualitatif) yang dapat dikualifikasikan sebagai ukuran kriteria, termasuk skor dari tes selain yang
menjalani validasi . Oleh karena itu, perhatian yang cermat harus diberikan pada pemilihan
kriteria dan ukuran kriteria.

2. Beberapa ukuran kriteria lebih dapat diandalkan dan valid daripada yang lain. Dengan
demikian, reliabilitas dan validitas ukuran kriteria perlu dievaluasi, seperti halnya reliabilitas dan
validitas nilai tes.

3. Beberapa kriteria lebih kompleks dari yang lain. Akibatnya, mungkin ada atau mungkin tidak
ada korelasi di antara ukuran kriteria, terutama bila kriteria memiliki banyak segi.

4. Beberapa kriteria dapat diukur pada saat pengujian; yang lain berkembang seiring waktu. Ini
menyiratkan bahwa mungkin ada atau mungkin tidak ada korelasi substansial antara ukuran
kriteria yang tersedia segera setelah pengujian dan kriteria yang lebih jauh yang mungkin dinilai
hanya dalam jangka waktu yang lebih lama.

5. Hubungan antara skor tes dan ukuran kriteria mungkin atau mungkin tidak digeneralisasikan
di seluruh kelompok, pengaturan, atau periode waktu. Oleh karena itu, bukti validitas terkait
kriteria perlu ditunjukkan lagi untuk populasi yang berbeda dari sampel validasi asli dengan cara
yang dapat mempengaruhi hubungan antara skor tes dan kriteria, serta di berbagai pengaturan
dan waktu.

6. Kekuatan atau kualitas bukti validitas yang berkaitan dengan penilaian atau prediksi kriteria
adalah fungsi dari karakteristik pengujian dan ukuran kriteria yang digunakan. Jika ukuran
kriteria tidak dapat diandalkan atau sewenang-wenang, indeks validitas skor tes akan melemah,
terlepas dari kualitas tes yang digunakan untuk menilai atau memprediksi kriteria

data menjadi tersedia sehingga dua set data dapat dikorelasikan. Proses ini seringkali tidak
praktis karena elemen waktu yang diperlukan untuk menunggu kriteria matang dan juga karena
kesulitan menemukan sampel yang sesuai untuk digunakan. dalam studi tersebut. Akibatnya,
validasi serentak sering digunakan sebagai penggantivalidasi prediktif, bahkan untuk tes yang
akan digunakan untuk memperkirakan kinerja masa depan, seperti tes masuk perguruan tinggi
atau tes pra-pekerjaan. Dalam kasus ini, tesdalam pengembangan dikelola untuk sekelompok
orang, seperti mahasiswa tahun kedua atau karyawan, yang untuknya data kriteria sudah tersedia.

contoh beberapa pertanyaan tipikal dan situasi pengambilan keputusan yang mungkin
membutuhkan bukti validasi bersamaan atau prediksi, tergantung pada bagaimana pertanyaan
diajukan dan pada cakrawala waktu yang dipilih. Untuk menggambarkan perbedaan antara
strategi validasi konkuren dan prediksi, contoh yang relatif sederhana dari setiap jenis studi
adalah disajikan, diikuti dengan diskusi tentang masalah utama yang berkaitan dengan validasi
terkait kriteria.

Contoh Validasi Bersamaan: Indeks Whitaker dari Pemikiran Skizofrenia Tes yang digunakan
untuk menyaring gangguan kejiwaan, seperti skizofrenia ataudepresi, biasanya menjalani
validasi bersamaan. Biasanya, penelitian ini menggunakan dua atau lebih sampel individu yang
berbeda sehubungan dengan status diagnostik yang ditetapkan secara independen. Salah satu dari
sekian banyak instrumen yangskor yang divalidasi dengan cara ini adalah Whitaker Index of
Schizophrenic Thinking (WIST; Whitaker, 1980). WIST dirancang untuk mengidentifikasi jenis
gangguan berpikir yang sering menyertai sindrom skizofrenia. Setiap dua bentuknya (A dan B)
terdiri dari 25 item pilihan ganda.Dalam standarisasi WIST, Whitaker menggunakan sampel
pasien skizofrenia akut dan kronis (S), serta tiga kelompok nonschizophrenics (NS), untuk
mendapatkan skor batas yang secara optimal membedakan S dari individu NS.

Anda mungkin juga menyukai