Anda di halaman 1dari 49

VALIDITAS DAN RELIABILITAS

(NILAI PSIKOMETRIK INSTRUMEN EVALUASI)

T I M P E NG A JA R
S I O – FA R MA S I U MM
PENDAHULUAN
• Penilaian adalah sebuah pengukuran prestasi yang
dapat digunakan sebagai mekanisme umpan balik
untuk 3 aspek penting dari situasi pembelajaran.
• Penilaian meliputi :
• pengukuran dari level prestasi siswa,
• indikasi keefektifan dari proses pengajaran,
• pengukuran dari kesesuaian input substansi.7
• Penilaian dalam praktek klinik
seringkali menggunakan instrument
seperti skala, kuesioner, tes pendidikan,
dan penilaian pengamat untuk
mengukur faktor-faktor seperti gejala,
sikap, pengetahuan atau ketrampilan.
• Semua instrument di atas disebut
psikometrik.1
• Terdapat beberapa pertanyaan penting sebelum memilih
metode penilaian yaitu :
• 1. apa yang seharusnya dinilai dan
• 2. mengapa dinilai.7
• Ketika sebuah instrument penilaian sedang
dipertimbangkan, kita harus mengajukan pertanyaan :
• 1. apakah instrument tersebut valid,
• 2. apakah instrument tersebut reliabel dan
• 3. apakah instrument tersebut memungkinkan untuk
dilaksanakan.7
• Validitas dan reliabilitas berhubungan dengan
interpretasi nilai dari instrument psikometrik (skala
gejala, kuesioner, tes pendidikan, dan penilaian
pengamat) yang digunakan dalam praktek klinis,
penelitian, pendidikan, dan administrasi. 1
• Validitas dan reliabilitas sering salah
diartikan dan diaplikasikan.
• Oleh karena itu kita memerlukan
diskusi lebih lanjut mengenai validitas
dan reliabilitas dalam konteks
instrumen psikometrik dan
bagaimana hal ini berhubungan
dengan penelitian klinis.
• Suatu tes yang baik adalah tes yang menghasilkan
nilai yang reliable sehingga kita dapat membuat
interpretasi yang sangat valid dari nilai tersebut.
• Konsep kunci untuk melihat kualitas tes adalah
reliabilitas dan validitas.4
• Sebagai contoh dari instrumen penelitian, untuk
metode penilaian presentasi akan menggunakan
instrument penilaian ceklist atau simulasi,
sedangkan untuk metode penilaian tertulis
menggunakan instrument essay/MCQ. 7
VALIDITAS
• Validitas adalah
Definisi
• derajat dimana kesimpulan
(interpretasi) yang berasal
dari hasil penilaian
apapun,dapat diterima
dimanapun atau dapat
dipertanggungjawabkan
sekaligus relevan dan
sangat bermakna.
Manfaat
• Validitas sangat diperlukan dalam penilaian
karena tanpa bukti validitas maka penilaian
dalam penelitian hanya memiliki sedikit atau
bahkan tidak memiliki makna sama sekali.3
• Validitas menggambarkan seberapa jauh
seseorang dapat percaya sepenuhnya kepada
hasil test sebagai interpretasi dari tujuan
tertentu. 1
Tipe Validitas
• Validitas dahulu dibedakan menjadi 3 tipe yaitu
content validity, criterion validity dan construct
validity.1
• Namun ada juga yang membedakan validitas
menjadi 5 tipe yaitu content validity, concurrent
validity, predictive validity, construct validity dan
face validity.7
• Pemikiran terkini mengemukakan bahwa
validitas seharusnya dijadikan dalam satu
kerangka konsep yaitu construct validity.
Content validity
• Hal ini berkenaan dengan tingkat dimana sebuah
tes atau ujian mengukur area content yang
diinginkan.
• Sebuah ujian dikatakan memiliki content validity
bila memiliki “item validity” dan “sampling validity”.
7
Cara untuk membangun content
validity :
• mendefinisikan subject matter yang akan
dinilai
• mengidentifikasikan proses
kognitif/perilaku/sikap yang dilibatkan
• membangun keluaran yang diharapkan
• menggambarkan jaringan yang spesifik 7
Concurrent validity
• Hal ini berkenaan dengan derajat dimana nilai tes
berhubungan dengan nilai pada tes yang di adakan
pada waktu yang bersamaan. 7
Predictive validity
• Predictive validity berkenaan dengan
kepastian dimana sebuah tes dapat
memprediksi kemampuan yang akan
datang.
• Tidak ada tes yang dapat diprediksi secara
sempurna sehingga sebaiknya keputusan
apapun didasarkan pada lebih dari satu
prediktor.
• Besarnya koefisien korelasi akan
menentukan predictive validity 7
Construct validity
• Construct validity adalah tingkat dimana sebuah tes
menilai a hypothetical construct (misal empati,
intelegensi) atau sebuah ciri/sifat yang menjelaskan
perilaku tetapi sulit diobservasi.
• Sebagai contoh, bila sebuah teori schizoprenia memiliki
hipotesis bahwa nilai yang tinggi pada sebuah tes akan
membutuhkan waktu yang lebih lama untuk
memecahkan masalah daripada yang memiliki nilai
rendah.
• Kemudian bila yang memiliki nilai tinggi ternyata
membutuhkan waktu yang lebih lama untuk
memecahkan masalah, maka hal itu menjadi bukti bagi
construct validity.7
Face validity
• Face validity berkaitan dengan penampakan.
Misalnya, apakah ujian memberikan kesan menilai
apa yang seharusnya dinilai? 7
2.1.7 Faktor yang Mempengaruhi
Validitas
Beberapa faktor yang dapat mempengaruhi validitas dari
instrumen penilaian antara lain :
1. Instruksi yang tidak jelas atau salah persepsi dari peserta
2. Pilihan kata yang tidak tepat atau terlalu rumit
3. Item tes yang terlalu sedikit yang menyebabkan
pengambilan sampel validitas yang buruk
4. Masalah waktu yang tidak cukup untuk menjawab
pertanyaan
5. Ketidaksesuaian item dengan hasil yang diukur.
6. Tingkat kesulitan item 7
RELIABILITAS
2.1 RELIABILITAS
• 2.1.1 Definisi
• Reliabilitas berkenaan dengan reproducibility atau
kekonsistenan nilai atau data penilaian dari satu
penilaian ke penilaian yang lain. 1,2
• Reliabilitas merupakan komponen validitas yang
penting tetapi tidak memadai. Sebuah instrument
yang tidak bisa memberikan nilai yang reliabel
maka tidak akan bisa menghasilkan interpretasi
yang valid.1
• Secara teoritis, dalam Classical Measurement Theory
(CMT) reliabilitas adalah rasio dari variasi nilai
sesungguhnya dengan variasi nilai total.
• Formula dasar adalah X=T+e (nilai yang diamati sama
dengan nilai sesungguhnya ditambah kesalahan acak
dari penilaian).
• Idealnya, tidak ada kesalahan pada formula dan semua
nilai yang diamati akan persis sama dengan nilai
sesungguhnya.
• Pada kenyataannya, bidang penilaian mengandung
banyak kesalahan tidak terduga dan koefisien reliabilitas
digunakan untuk memperkirakan jumlah kesalahan
pemeriksaan pada penilaian.2
2.1.2 Manfaat
• Salah satu prinsip dasar dari metode ilmiah
adalah bahwa eksperimen harus dapat dilakukan
kembali supaya dapat diinterpretasikan dengan
benar dan serius. Bila peneliti tidak dapat
menghasilkan kembali hasil dari eksperimen,
maka bisa terjadi kesimpulan apapun dari
eksperimen asli hanyalah merupakan perkiraan
dan generalisasi juga terbatas.
• Reliabilitas memperkirakan jumlah beberapa
konsistensi penilaian dan memperkirakan
jumlah kesalahan acak dari data penilaian.2
2.1.3 Cara untuk menilai reliabilitas
• Prosedur untuk memperkirakan reliabilitas tes :
1. Konsistensi item
2. Stabilitas penilaian (test-retest reliability atau test stability)
3. Konsistensi dari administrasi dan scoring (inter-rater
reliability atau inter-observer agreement)
4. Standard error dari penilaian 4
2.1.6 Koefisien Reliabilitas
• Terdapat banyak cara untuk menggunakan
perkiraan reliabilitas dalam penilaian.
• Salah satu penggunaan koefisien reliabilitas
adalah dalam penghitungan the standard error of
measurement (SEM).
• The SEM untuk seluruh distribusi nilai pada
sebuah penilaian berasal dari rumus :
• SEM = Standard Deviation x √(1-Reliability)2
• Atau SEM = Standard Deviation x √(1-
Cronbach’s alpha)6
• SEM ini dapat digunakan untuk membentuk tingkat
kepercayaan dari nilai penilaian yang diamati.
• Hal ini mengindikasikan ketepatan penilaian, memberi
reliabilitas dari penilaian untuk masing-masing level
nilai.2
• Sebagian besar penilaian profesional pendidikan
menyarankan reliabilitas 0,90 untuk penilaian
tingkat tinggi, seperti ujian sertifikasi atau
sebagai lisensi dalam kedokteran, yang memiliki
konsekuensi besar bagi para peserta ujian dan
masyarakat. 2,6
• Dikatakan bahwa tidak perlu lebih dari 0,90
karena menunjukkan tes cenderung lebih atau
kurang menguji hal yang sama dalam cara yang
sedikit berbeda.6
• Sedangkan untuk penilaian tingkat moderate,
seperti ujian akhir (summative) mata pelajaran
tertentu, reliabilitas diharapkan minimal berada
pada kisaran 0,80 – 0,89.2,6
• Untuk penilaian dengan konsekuensi rendah,
seperti ujian formatif atau penilaian sumatif tipe
kelas yang dibuat dan diatur oleh fakultas,
reliabilitas diharapkan pada kisaran 1,70-1,79. 6
• Penggunaan yang paling penting dari koefisien
reliabilitas adalah untuk memperkirakan derajat
kepercayaan seseorang dapat lulus/gagal berdasarkan
nilai ujian.2
• Koefisien reliabilitas melibatkan 2 komponen yaitu :
variasi sesungguhnya antara peserta (dimana
dibutuhkan untuk menentukan tingkat kepercayaan
keputusan lulus/gagal bagi masing-masing peserta) dan
variasi tambahan dari kesalahan penilaian yang perlu
diukur sehingga dapat dikompensasi.
• 2 komponen ini perlu diidentifikasi untuk pembuatan tes
dan tujuan quality assurance. 6
2.1.7 Cara Meningkatkan Reliabilitas

Ada beberapa cara untuk meningkatkan reliabilitas antara


lain :
• 1. Menambah waktu tes atau jumlah item, jumlah penilai
atau jumlah kasus.
• 2. Membuat item yang lebih baik (pertanyaan)
Bila perlu, sediakan data pretest atau tryout dari
penilaian sebelum data tersebut digunakan untuk
pertanyaan yang dinilai. Bisa juga dengan mengadakan
bank soal yang efektif dan terjamin keamanannya untuk
digunakan di lain waktu. Pertanyaan jangan terlalu
mudah ataupun terlalu sulit karena akan mempengaruhi
reliabilitasnya.2,6
• 3. Memperbaiki pelatihan pemeriksa/penguji
• 4. Memperbaiki jadwal tes
• 5. Menggunakan komputer dalam tes untuk
meminimalisir kesalahan nilai
• 6. Menghapus item yang tidak baik dari ujian
sebelum menjumlah nilai akhir. 6
2.1.8 Faktor yang Mempengaruhi
Reliabilitas
Beberapa faktor yang dapat mempengaruhi
reliabilitas dari instrumen penilaian antara lain :
• 1. Panjang tes : semakin banyak item yang
dimasukkan dalam ujian, semakin besar reliabilitas
• 2. Objektivitas penilaian : kurangnya objektivitas
akan mengurangi reliabilitas pertanyaan essay
yang panjang
• 3. Efek lingkungan : hasil tes peserta akan lebih
rendah bila ujian dilakukan sambil duduk
sepanjang hari
• 4. Kesalahan pengolahan : kesalahan dapat terjadi
ketika menjumlah nilai peserta
• 5. Kesalahan klasifikasi
• 6. Kesalahan penyamaan
• 7. Kesalahan Bias 7
2.1.3 Keterbatasan Validitas dan
Reliabilitas
• Peneliti kadang menentukan validitas dan reabilitas dari
pemeriksaan mereka dengan menggunakan bukti dari
studi penelitian lain.
• Bila studi penelitian lain tersebut melibatkan populasi
yang berbeda dengan yang digunakan oleh peneliti,
maka bukti validitas dan reliabilitas tidak bisa
diaplikasikan.
• Dengan kata lain, suatu pemeriksaan mungkin valid dan
reliabel untuk satu populasi tetapi tidak untuk populasi
yang lain.
• Oleh karena itu, kita harus mengecek sumber dari
validitas dan reliabilitas yang ada pada suatu laporan
penelitian.4
Feasibility
Ketika memilih sebuah instrumen penilaian, kita harus
mengecek apakah instrumen tersebut akan dapat
dilakukan oleh kita. Hal ini melibatkan perhitungan biaya
dari penilaian, baik sumberdaya maupun waktu.
Pertanyaan berikut seharusnya diperhatikan :
• berapa waktu yang dibutuhkan untuk menyusun sebuah
instrumen ?
• berapa waktu yang dibutuhkan dalam proses penilaian?
• Apakah akan mudah untuk menginterpretasikan nilai ?
• Apakah instrumen tersebut cukup praktis untuk
dilakukan?
• Dapatkah feedback yang berkualitas dapat
dihasilkan dari instrumen tersebut?
• Apakah instrument tersebut akan memberikan
indikasi kepada siswa mengenai elemen yang
penting dalam pembelajaran?
• Apakah penilaian memiliki efek yang
bermanfaat untuk motivasi siswa, kebiasaan
belajar yang baik, dan aspirasi karir yang positif?
7
BAB III
PENUTUP
• Penilaian yang kurang baik akan memberikan
fondasi yang lemah pada penelitian dan kerja
keras klinis.
• Validitas memperhatikan derajat dimana nilai
mencerminkan konsep dasar yang diinginkan
dan sesuai dengan interpretasi hasil daripada
instrument itu sendiri.
• Validitas paling baik dipandang sebagai
argument terstruktur yang teliti dimana
buktinya dirancang untuk mendukung atau
menyangkal interpretasi hasil yang diharapkan.1
• Ketika memilih sebuah instrumen penilaian,
penting kiranya untuk mengetahui secara tepat
apa yang dinilai.
• Perbedaan learning outcome mengharuskan
penggunaan instrument yang berbeda.
• Penggunaan instrumen yang valid, reliabel dan
feasibel merupakan hal yang penting.
• Sebuah instrumen dapat reliabel sempurna
tetapi invalid secara keseluruhan.7
• Reliabilitas dapat digunakan untuk
memperkirakan jumlah kesalahan acak dari
suatu penilaian.
• Untuk tes tulis, dimana konsistensi internal
merupakan hal yang paling penting,
menggunakan Cronbach’s alpha atau Kuder-
Richardson formula 20 untuk memperkirakan
reliabilitasnya.
• Koefisien konsistensi internal berasal dari desain
test-retest dan menentukan hasil dari
eksperimen test-retest tersebut.2
• Penilaian berdasarkan penilai, seperti pada penilaian
klinik di ruangan atau ujian lisan pada seorang pasien,
nampaknya memiliki sumber utama konsistensi dari
reliabilitas atau reproducibility antar penilai.
• Metode yang digunakan untuk menilai reliabilitas antar
penilai adalah generalisability theori dan intraclass
correlation.2
• Performance assessments seperti pada OSCEs dan SP,
harus menggunakan kasus sebagai unit analisis
reliabilitas dan akan lebih bermanfaat bila menggunakan
GT untuk memperkirakan berbagai sumber kesalahan
penilaian dalam desain.
• Penggunaan the standard error of measurement untuk
membangun tingkat kepercayaan dari nilai yang diamati
dianggap sebagai praktek penggunaan reliabilitas yang
paling praktis.
• Penghitungan reliabilitas keputusan lulus/gagal
dinyatakan sebagai hal yang penting untuk ujian tingkat
tinggi.2
Referensi
1. Cook DA, Beckman TJ. Current Consept in Validity and Reliability for
Psychometric Instrument : Theory and Application. American Journal of Medicine
2006; 119:166.e7-e16.
2. Downing SM. Reliability : on the reproducibility of assessment data. Medical
Education J 2004; 38:1006-12.
3. Downing SM. Validity : on the meaningful interpretation of assessment data.
Medical Education 2003; 37:830-37.
4. Gall JP, Gall MD, Borg WR. Reading Reports of Quantitative Research Studies.
In:Applying Educational Research. 5th ed. USA:Pearson Education Inc;
2005.p.136-42.
5. Joshi H, Hoslgrove G, Rowley D. An Assessment System Based on Principles.
In:Developing and maintaining an assessment system-a PMETB guide to good
practice; 2007.p.7-12
6. Joshi H, Hoslgrove G, Rowley D. Reliability and measurement error.
In:Developing and maintaining an assessment system-a PMETB guide to good
practice; 2007.p.36-7.
7. McAleer S. Choosing Assessment Instruments. In:Dent JA, Harden RM, editors. A
Practical Guide for Medical Teachers. 2nd ed. London:Churchill Livingstone;
2005.p.302-9.

Anda mungkin juga menyukai