Reliabilitas Dan Validitas
Reliabilitas Dan Validitas
Nama Kelompok :
Cahyaning Bawono (G1C119022)
Citra Adinda (G1C119078)
Selvita Butar Butar (G1C119030)
Weny Kema Septia (G1C119008)
PRODI PSIKOLOGI
FAKULTAS KEDOKTERAN DAN ILMU KESEHATAN
UNIVERSITAS JAMBI
2020
A. RELIABILITAS
Reliabilitas menunjukkan kepercayaan. Berdasarkan nilai ujian, pengawas perlu memastikan
bahwa skor cukup dapat dipercaya. Reliabilitas digunakan pada saat pengujian dan pengukuran,
dimana reliabilitas didasarkan pada konsistensi dan ketepatan hasil proses pengukuran. Untuk
mendapatkan tingkat kepercayaan pada skor, pengawas tes memerlukan bukti yang menyatakan
bahwa skor yang diperoleh dari tes akan konsisten jika tes diulangi pada individu atau kelompok
yang sama dan bahwa skor tersebut cukup tepat. Reliabilitas dalam pengukuran
mengimplikasikan konsistensi dan presisi, kekurangan keandalan menyiratkan
ketidakkonsistenan dan ketidaktepatan, yang keduanya disamakan dengan kesalahan
pengukuran. Dalam konteks pengujian, kesalahan pengukuran dapat didefinisikan sebagai setiap
fluktuasi skor yang dihasilkan dari faktor-faktor yang terkait dengan pengukuran proses yang
tidak relevan dengan apa yang sedang diukur. Reliabilitas adalah kualitas nilai tes yang
menunjukkan bahwa mereka cukup konsisten dan bebas dari kesalahan pengukuran agar
bermanfaat.
RELATIVITAS KEANDALAN
Perbedaan sangat mendasar untuk memahami implikasi dari konsep reliabilitas dengan
berkaitan dengan penggunaan tes dan interpretasi nilai tes. Jika tes digambarkan dapat
diandalkan, implikasinya adalah bahwa keandalannya telah ditetapkan secara permanen dalam
segala hal untuk semua penggunaan dan dengan semua pengguna. Ini akan sama dengan
mengatakan bahwa piano bagus yang disetel dengan baik akan selalu selaras dan akan selalu
selaras terdengar sama bagusnya terlepas dari jenis musik yang dimainkan di atasnya atau siapa
memainkannya. Faktanya, kualitas suara yang dihasilkan piano bukan hanya fungsinya
instrumen itu sendiri, tetapi juga variabel yang terkait dengan musik, pemain piano dan
pengaturan (misalnya, akustik ruangan) tempat piano dimainkan. Demikian pula, meskipun
reliabilitas dalam pengujian sangat bergantung pada karakteristik dari tes itu sendiri, reliabilitas
skor tes yang merupakan hasil dari penggunaan instrumen dan seperti musik yang dibuat piano,
itulah yang paling penting dan bias juga dipengaruhi oleh banyak variabel lain. Bahkan jika
diterapkan pada nilai tes, kualitas reliabilitasnya relatif. Skor yang diperoleh seseorang pada
suatu tes tidak dapat diandalkan atau tidak dapat diandalkan secara absolut. Sebaliknya, skor
yang diperoleh mungkin lebih atau kurang dapat diandalkan karena faktor-faktor secara unik
berkaitan dengan peserta tes (misalnya, kelelahan, kurangnya motivasi, pengaruh obat-obatan,
dll.) atau kondisi situasi pengujian (misalnya, adanya suara yang mengganggu, kepribadian
pemeriksa, ketatnya waktu batasan diberlakukan, dll.). Semua faktor ini dapat secara tunggal
atau bersama-sama mempengaruhi skor yang diperoleh ke tingkat yang lebih besar atau lebih
kecil, termasuk hingga titik di mana skor menjadi sangat tidak dapat diandalkan sehingga harus
dibuang. Meskipun mereka tidak berhubungan untuk pengujian itu sendiri, semua hal tersebut
perlu diperhitungkan dalam penilaian proses.
Sebaliknya, saat keandalan (rxx) dianggap dari sudut pandang pengujian data skor yang
diperoleh dari sampel yang besar, dalam kondisi standar, kesalahan pengukuran yang dapat
mempengaruhi skor individu anggota sampel diasumsikan didistribusikan secara acak. Sejak
kesalahan acak, mungkin memengaruhi skor ke arah positif atau negatif, kesalahan juga dapat
diasumsikan saling meniadakan. Meskipun demikian, perkiraan keandalan akan bervariasi dari
sampel ke sampel tergantung pada komposisinya dan keadaan di mana pengujian dilakukan.
PERBEDAAN INTERSCORER
Perbedaan interscorer (atau antar penilai) adalah label yang diberikan untuk kesalahan
yang mungkin masuk menjadi skor setiap kali elemen subjektivitas berperan dalam menilai tes.
Itu diasumsikan bahwa juri yang berbeda tidak selalu memberikan skor yang sama persis atau
peringkat ke kinerja pengujian tertentu bahkan jika arah penilaian ditentukan dalam manual tes
eksplisit dan rinci dan pencetak skor teliti menerapkan arah tersebut.
SCORER RELIABILITAS
Metode dasar untuk memperkirakan kesalahan karena perbedaan antar scorer terdiri dari
memiliki setidaknya dua individu yang berbeda untuk menilai serangkaian tes yang sama,
sehingga untuk kinerja setiap peserta tes, dua atau lebih skor independen dihasilkan. Itu korelasi
antara set skor yang dihasilkan dengan cara ini adalah indeks keandalan pencetak gol. Korelasi
yang sangat tinggi dan positif, di urutan 0,90 atau lebih tinggi, menunjukkan bahwa proporsi
kesalahan yang diperhitungkan oleh perbedaan interscorer adalah 10% atau kurang, karena 1 - (≥
0,90) = ≤ 0,10.
Generalisasi Theoy
Sebuah pendekatan alternatif untuk reliabilitas yang mencoba untuk menjadi lebih komprehensif
daripada yang telah kita diskusikan adalah apa yang kemudian dikenal sebagai teori kemampuan
generalig atau hanya teori Teori generalisasi adalah perpanjangan dari teori tes ~~ klasik yang
menggunakan metode analysis of variance (ANOVA) untuk mengevaluasi ~ ~ kombinasi dari
beberapa sumber varians kesalahan pada skor tes secara simultan.
KESIMPULAN
Penggunaan tes psikologi akan sangat disederhanakan jika koefisien reliabilitas ~~ dan SEM
dapat diambil pada nilai nominal dalam mengevaluasi skor tes. Namun, karena bab ini
membahas tes, reliabilitas skor adalah penilaian relatif berdasarkan data psikologis dan konteks
di mana tes diberikan. Kita harus Lihat di Bab 5 bahwa hal yang sama berlaku untuk validitas
data skor tes. Dengan demikian, meskipun ketersediaan data psikometri yang sesuai pada
reliabilitas skor merupakan prasyarat dasar ~~ untuk setiap penggunaan skor tes, konteks di
mana ~~ tes psikologis berlangsung juga merupakan pertimbangan mendasar dalam interpretasi
ob- ~ ~ skor individu atau kelompok yang dicapai. Karena dampak potensial dari keputusan yang
akan dibuat dengan bantuan nilai tes meningkat, kedua faktor ini mengasumsikan kepentingan
~~ yang lebih besar.
B. VALIDITAS
Psikologi tes ada untuk membantu kita menarik kesimpulan tentang orang dan perilaku mereka.
Keabsahan-yang sejauh ini merupakan masalah paling mendasar tentang nilai tes dan
penggunaannya-bergantung pada bukti yang bisa kami bawa menanggung untuk mendukung
setiap kesimpulan yang akan dibuat berdasarkan hasil tes. Itu keutamaan pertimbangan validitas
diakui saat ini Standar Pengujian oleh penempatan topik ini di bab pertama, yang
mendefinisikan keabsahan sebagai “gelar yang semua bukti yang terkumpul mendukung
interpretasi yang dimaksudkan nilai ujian untuk tujuan yang diusulkan”(AERA, APA, NCME,
1999, hlm.11). Implisit dalam definisi ini ada tiga gagasan yang saling terkait yang
mencerminkan profesi pengujian's pandangan terkini tentang konsep sentral dan multifaset ini:
1. Validitas nilai tes berasal dari semua bukti yang terkumpul sampai mendukung interpretasi
dan penggunaannya. Jadi, validitas selalu menjadi masalah derajat daripada penentuan semua-
atau-tidak sama sekali. Validasi-yang adalah proses pengumpulan bukti validitas-dimulai dengan
pernyataan eksplisit oleh pengembang pengujian kerangka konseptual dan alasan untuk sebuah
ujian, tetapi pada dasarnya bersifat terbuka karena itu mencakup semua informasi yang
menambah pemahaman kita tentang hasil tes.
2. Sebagai pemahaman teoritis dan bukti empiris untuk diuji interpretasi skor terakumulasi,
validitas kesimpulan (yaitu, hipotesis) dibuat berdasarkan nilai tes untuk berbagai tujuan yang
diusulkan dapat ditingkatkan atau dikurangi. Sebuah konsekuensi dari gagasan ini, secara
eksplisit dinyatakan dalam Standar Pengujian (AERA, APA, NCME, 1999), adalah bahwa
“validasi adalah tanggung jawab bersama dari pengembang tes [siapa memberikan bukti dan
alasan untuk tujuan penggunaan tes] dan pengguna uji [yang mengevaluasi bukti yang tersedia
dalam konteks di mana tes akan digunakan]”
3. Karena banyaknya tujuan berbeda yang dapat digunakan untuk nilai tes diterapkan, dasar
pembuktian untuk interpretasi skor tes dapat diturunkan melalui berbagai metode. Kontribusi
untuk bukti validitas nilai ujian dapat dibuat dengan penelitian sistematis yang mendukung atau
menambah artinya, terlepas dari siapa yang melakukannya atau kapan ini terjadi. Selama bukti
ilmiah yang kuat untuk penggunaan yang diusulkan skor tes ada, pengguna tes yang memenuhi
syarat bebas menggunakan skor untuk mereka tujuan, terlepas dari apakah ini diramalkan oleh
pengembang dari ujian. Proposisi ini membantu menjelaskan sifat multifaset penelitian validasi,
serta sering kali berlebihan dan terkadang temuan yang bertentangan. Ini juga menjelaskan umur
panjang beberapa instrumen, seperti skala MMPI dan Wechsler, yang sangat luas literatur-
mencakup banyak aplikasi dalam berbagai konteks-telah terakumulasi selama beberapa dekade
dasar dan diterapkan penelitian. Proses validasi mirip dengan pengujian hipotesis: Ini mencakup
pengertian nilai tes yang berarti,dan reliabilitas skor tes, yang dibahas dalam dua bab
sebelumnya, serta cara penerapan data tes untuk penelitian dan praktik psikologis bisa
dibenarkan.
(misalnya, diagnosis kecemasan vs. suasana hati vs. gangguan disosiatif, atau keanggotaan dalam
pekerjaan artistik vs. ilmiah vs. sastra); atau berkelanjutan (misalnya, nilai rata-rata nilai, jumlah
unit yang terjual, skor pada inventaris depresi, dll.). Sementara sifat kriteria bergantung pada
keputusan atau prediksi yang akan dibuat dengan bantuan nilai tes, metode yang digunakan
untuk menetapkan hubungan antara nilai tes dan kriteria bervariasi tergantung pada karakteristik
formal dari nilai tes dan ukuran kriteria. Secara umum, ketika ukuran kriteria diekspresikan
dalam mode dikotomis (misalnya, sukses vs. kegagalan) atau dalam hal sistem kategorikal
(misalnya, keanggotaan dalam kelompok yang berbeda), validitas skor tes dievaluasi dalam hal
hit. tarif. Hit rate biasanya menunjukkan persentase keputusan atau klasifikasi yang benar yang
dibuat dengan menggunakan skor tes, meskipun perbedaan rata-rata dan indeks korelasi yang
sesuai juga dapat digunakan.
Ketika ukuran kriteria berkelanjutan (misalnya, skor tes prestasi, nilai, peringkat, dll.) Alat utama
yang digunakan untuk menunjukkan tingkat hubungan antara nilai tes dan ukuran kriteria adalah
koefisien korelasi. Namun, jika nilai tertentu pada kriteria berkelanjutan, seperti nilai rata-rata
2.0, digunakan sebagai batas untuk menentukan hasil tertentu, seperti kelulusan dari perguruan
tinggi, skor pada tes prediktor juga dapat dievaluasi dalam persyaratan apakah mereka
membedakan antara mereka yang memenuhi atau melampaui kriteria cutoff dan mereka yang
tidak. Sejarah tes psikologi dalam beberapa dekade terakhir mencerminkan tidak hanya sebuah
evolusi dalam memahami sifat dan keterbatasan tes dan nilai tes tetapi juga peningkatan apresiasi
signifikansi dan kompleksitas ukuran kriteria (lihat, misalnya, James, 1973; Tenopyr, 1986;
Wallace, 1965).
dengan pengecualian yang jarang terjadi, gagasan bahwa ada hal seperti â € œsuatu kriteriaâ €
yang dapat digunakan untuk memvalidasi suatu pengujian tidak lagi dapat dipertahankan
daripada proposisi bahwa validitas suatu pengujian dapat ditentukan. dasar semua-atau-tidak
sama sekali. Sebaliknya, fakta berikut tentang kriteria sekarang secara umum dipahami:
1. Dalam kebanyakan studi validasi, ada banyak kemungkinan indeks (baik kuantitatif maupun
kualitatif) yang dapat dikualifikasikan sebagai ukuran kriteria, termasuk skor dari tes selain yang
menjalani validasi . Oleh karena itu, perhatian yang cermat harus diberikan pada pemilihan
kriteria dan ukuran kriteria.
2. Beberapa ukuran kriteria lebih dapat diandalkan dan valid daripada yang lain. Dengan
demikian, reliabilitas dan validitas ukuran kriteria perlu dievaluasi, seperti halnya reliabilitas dan
validitas nilai tes.
3. Beberapa kriteria lebih kompleks dari yang lain. Akibatnya, mungkin ada atau mungkin tidak
ada korelasi di antara ukuran kriteria, terutama bila kriteria memiliki banyak segi.
4. Beberapa kriteria dapat diukur pada saat pengujian; yang lain berkembang seiring waktu. Ini
menyiratkan bahwa mungkin ada atau mungkin tidak ada korelasi substansial antara ukuran
kriteria yang tersedia segera setelah pengujian dan kriteria yang lebih jauh yang mungkin dinilai
hanya dalam jangka waktu yang lebih lama.
5. Hubungan antara skor tes dan ukuran kriteria mungkin atau mungkin tidak digeneralisasikan
di seluruh kelompok, pengaturan, atau periode waktu. Oleh karena itu, bukti validitas terkait
kriteria perlu ditunjukkan lagi untuk populasi yang berbeda dari sampel validasi asli dengan cara
yang dapat mempengaruhi hubungan antara skor tes dan kriteria, serta di berbagai pengaturan
dan waktu.
6. Kekuatan atau kualitas bukti validitas yang berkaitan dengan penilaian atau prediksi kriteria
adalah fungsi dari karakteristik pengujian dan ukuran kriteria yang digunakan. Jika ukuran
kriteria tidak dapat diandalkan atau sewenang-wenang, indeks validitas skor tes akan melemah,
terlepas dari kualitas tes yang digunakan untuk menilai atau memprediksi kriteria
data menjadi tersedia sehingga dua set data dapat dikorelasikan. Proses ini seringkali tidak
praktis karena elemen waktu yang diperlukan untuk menunggu kriteria matang dan juga karena
kesulitan menemukan sampel yang sesuai untuk digunakan. dalam studi tersebut. Akibatnya,
validasi serentak sering digunakan sebagai penggantivalidasi prediktif, bahkan untuk tes yang
akan digunakan untuk memperkirakan kinerja masa depan, seperti tes masuk perguruan tinggi
atau tes pra-pekerjaan. Dalam kasus ini, tesdalam pengembangan dikelola untuk sekelompok
orang, seperti mahasiswa tahun kedua atau karyawan, yang untuknya data kriteria sudah tersedia.
contoh beberapa pertanyaan tipikal dan situasi pengambilan keputusan yang mungkin
membutuhkan bukti validasi bersamaan atau prediksi, tergantung pada bagaimana pertanyaan
diajukan dan pada cakrawala waktu yang dipilih. Untuk menggambarkan perbedaan antara
strategi validasi konkuren dan prediksi, contoh yang relatif sederhana dari setiap jenis studi
adalah disajikan, diikuti dengan diskusi tentang masalah utama yang berkaitan dengan validasi
terkait kriteria.
Contoh Validasi Bersamaan: Indeks Whitaker dari Pemikiran Skizofrenia Tes yang digunakan
untuk menyaring gangguan kejiwaan, seperti skizofrenia ataudepresi, biasanya menjalani
validasi bersamaan. Biasanya, penelitian ini menggunakan dua atau lebih sampel individu yang
berbeda sehubungan dengan status diagnostik yang ditetapkan secara independen. Salah satu dari
sekian banyak instrumen yangskor yang divalidasi dengan cara ini adalah Whitaker Index of
Schizophrenic Thinking (WIST; Whitaker, 1980). WIST dirancang untuk mengidentifikasi jenis
gangguan berpikir yang sering menyertai sindrom skizofrenia. Setiap dua bentuknya (A dan B)
terdiri dari 25 item pilihan ganda.Dalam standarisasi WIST, Whitaker menggunakan sampel
pasien skizofrenia akut dan kronis (S), serta tiga kelompok nonschizophrenics (NS), untuk
mendapatkan skor batas yang secara optimal membedakan S dari individu NS.