Anda di halaman 1dari 13

TUGAS INDIVIDU

VALIDITAS DAN REABILITAS

oleh
Endi Febrianto
310800073

Program Studi : Pendidikan Matematika

SEKOLAH TINGGI KEGURUAN DAN ILMU PENDIDIKAN

PERSATUAN GURU REPUBLIK INDONESIA

(STKIP – PGRI)

PONTIANAK

2011
ABSTRACT

Validity of a test is its most important characteristic. A test is valid to the degree that it accurately measures some
characteristics. There are three basic types of validity: content validity, which is most important for the classroom
teacher’s achievement test, describes the adequacy of the test to sample the domains of a subject as stressed in
classroom instruction. Criterion-related validity describes the relationship between test scores and independent
external criterion measures. Construct validity is the degree to which test scores can be accounted for by certain
explanatory actions that support a psychological theory.
Reliability of test result is a universal criterion of educational measurement. Higher reliability measures are
obtained as chance errors associated with the complete process of testing are reduced. Coefficients of reliability
are the best statistical data available to the teacher who is striving to determine the degree of success in testing
and who is making efforts to improve future tests. One major aspect of test reliability is the degree to which a test
measures with consistency.

Kata Kunci: validitas, reliabilitas

A. PENDAHULUAN
Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian
yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi tersebut diperlukan dalam
menafsir dan menetapkan keputusan untuk kepentingan pendidikan. Penilai membutuhkan keterampilan
dalam mengidentifikasi dan memahami berbagai macam perspektif penilaian, baik penilaian kontekstual
dan proses maupun penilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program
pendidikan, maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu
validitas dan reliabilitas.

Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes. Validitas merupakan
karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup
pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa kesimpulan tertentu adalah
tepat. Sedangkan reliabilitas yang berarti konsistensi adalah ciri umum dari suatu instrumen pengukuran
dan penilaian pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran
berikutnya merupakan ciri terpenting dari instrumen yang berkualitas tinggi.

Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitas itu apabila
dikaitkan dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatu program pembelajaran.
Selanjutnya, tulisan ini diharapkan untuk mengundang wacana bagi pembaca tentang: Bagaimana
instrumen penilaian yang berkualitas? Bagaimana meningkatkan validitas dan reliabilitas suatu instrumen
penilaian? Faktor-faktor apa yang mempengaruhi validitas dan reliabilitas suatu instrumen penilaian?
B. DESKRIPSI KONSEP
1. Konsep Validitas
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan oleh penyusun
atau pengguna instrumen untuk mengumpulkan data secara empiris guna mendukung kesimpulan yang
dihasilkan oleh skor instrumen. Sedangkan validitas adalah kemampuan suatu alat ukur untuk
mengukur sasaran ukurnya.
Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya, namun yang
terpenting adalah harus mampu mengukur sasaran ukurnya. Hal ini berarti bahwa validitas merupakan
ciri instrumen yang terpenting. Berbagai usaha dilakukan untuk meningkatkan validitas instrumen, baik
langsung ataupun tidak berhubungan dengan peningkatan validitas instrumen itu sendiri. Untuk menjadi
valid maka suatu instrumen harus dikonstruksi dengan baik dan mencakup materi yang benar-benar
mewakili sasaran ukurnya. Validitas instrumen bersifat relatif terhadap situasi tertentu dan tergantung
pada kondisi tertentu. Instrumen yang mempunyai validitas tinggi terhadap tujuan atau kegunaan
tertentu mungkin akan mempunyai validitas sedang atau mungkin rendah terhadap tujuan lainnya.

Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas. Kelima aspek
tersebut secara bersama-sama berfungsi sebagai ukuran validitas umum atau standar untuk semua
pengukuran psikologis dan pendidikan. Kelima aspek tersebut adalah: (1) Substansi. Aspek substansi
validitas mencakup verifikasi proses utama dalam pengungkapan tugas penilaian. Hal ini dapat dikenali
melalui penggunaan teori substansi dan pemodelan proses. Ketika menentukan substansi instrumen,
seseorang perlu mempertimbangkan dua hal pokok: Pertama, tugas penilaian harus mewakili materi
yang akan dinilai. Kedua, penilaian harus ditetapkan berdasarkan fakta-fakta empiris. (2) Strukrur
pensekoran. Strukrur pensekoran harus secara rasional konsisten dengan apa yang diketahui tentang
sifat hubungan struktural dari keberadaan konstruk yang dipersoalkan. Struktur internal penilaian harus
konsisten dengan apa yang diketahui tentang struktur internal dari domain konstruk. (3)
Ketergeneralisasian. Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dan konstruk. Hal
ini memungkinkan penafsiran skor untuk penggeneralisasian secara luas dalam konstruk yang
ditetapkan. Fakta seperti kemampuan generalisasi tersebut tergantung pada tingkat korelasi suatu tugas
dengan tugas lainnya yang juga mewakili konstruk atau aspek-aspek konstruk. (4) Faktor-faktor
eksternal. Aspek eksternal dari validitas mengacu pada tingkat hubungan skor assessment dengan
ukuran lain dan perilaku nonassessment yang mencerminkan tinggi, rendah, dan hubungan interaksi
antara konstruk yang ditetapkan. (5) Akibat dari validitas. Akibat validitas meliputi bukti dan dasar
pemikiran dalam mengevaluasi konsekuensi penafsiran dan menggunakan skor yang tidak diharapkan
dan yang diharapkan. Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibat yang
merugikan bagi individu dan kelompok yang dihubungkan dengan penyimpangan dalam penskoran dan
penafsiran.
Ke lima aspek validitas tersebut berlaku bagi semua pengukuran psikologis dan pendidikan; umumnya
penafsiran berbasis skor dan kesimpulan tindakan mengasumsikannya secara tegas atau secara
tersembunyi. Tantangan dalam validasi instrumen selanjutnya adalah menghubungkan kesimpulan ini
terhadap fakta-fakta terpusat yang mendukungnya seperti halnya terhadap fakta-fakta berbeda yang
merupakan bagian kesimpulan tandingan yang rasional.
2. Konsep Reliabilitas
Reliabilitas telah didefinisikan dengan cara yang berbeda oleh pengarang yang berbeda. Cara yang
terbaik untuk membahas reliabilitas adalah sejauhmana hasil pengukuran dari suatu instrumen mewakili
karakteristik yang diukur. Sebagai contoh, reliabilitas didefinisikan seberapa besar konsistensi skor tes
yang dicapai peserta tes pada pengujian ulang. Definisi ini akan memuaskan jika skor tes dapat
menggambarkan kemampuan peserta tes; jika tidak maka skor tes tidak sistematis, tidak dapat diulangi
atau tidak terikat. Reliabilitas juga diartikan sebagai indikator ketidakhadiran kesalahan acak. Jika
kesalahan acak dapat diperkecil maka skor tes akan lebih konsisten dari suatu pengujian ke pengujian
berikutnya.

Definisi teoretis dari reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman
sistematis dalam populasi peserta tes. Jika terdapat keragaman sistematis yang lebih besar dalam suatu
populasi dibanding dengan populasi lainnya, seperti dalam semua siswa sekolah negeri dibandingkan
hanya dengan kelas tertentu, tes akan mempunyai reliabilitas lebih besar untuk populasi yang lebih
bervariasi. Reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas tes
bervariasi dari suatu kelompok dengan kelompok lainnya.

Para profesional pengukuran menganggap reliabilitas sebagai persyaratan utama suatu instrumen
penilaian. Dalam teori tes diakui bahwa skor tes akan valid (benar) jika skor tes tersebut reliabel
(Mehrens & Lehmann, 1991). Asumsi ini didasarkan pada suatu model matematika teori tes dimana
skor perolehan terdiri atas skor tulen dan skor galat (obtained score = true score + error score). Semakin
sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakin valid skor tes. Karenanya, suatu
penilaian yang tidak reliabel secara otomatis tidak valid
Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes adalah pada konsistensi
dihubungkan dengan reliabilitas skor atau reliabilitas penilai. Reliabilitas skor berarti bahwa jika suatu
tes telah diadministrasikan pada penempuh ujian untuk kedua kalinya, maka penempuh ujian akan tetap
memperoleh skor yang sama dengan pengadministrasian yang pertama. Salah satu cara para spesialis
pengukuran dalam menentukan reliabilitas skor tes adalah melalui tes standar. Jika penempuh ujian
diuji kembali, mereka harus melengkapi tugas yang sama persis dalam kondisi yang juga persis sama.
Hal ini akan membantu dalam pencapaian hasil tes yang konsisten.
C. PEMBAHASAN
1. Validitas
a. Jenis-jenis Validitas dan Ukurannya
Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan
sampel yang terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat psikologis yang
menjelaskan keragaman skor responden dalam instrumen tertentu; 3) dan validitas relasi kriteria,
membandingkan skor responden dengan satu atau lebih variabel eksternal.
Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas
kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam
validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk menghubungkan gagasan
dan praktek pengukuran di satu pihak, dengan gagasan teoretik di pihak lain. Para penyusunan
instrumen biasanya bertolak dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk
mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembambangkan
diujicobakan secara empiris.
Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen dengan
tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis dan
secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub pokok bahasan; (2)
menetapkan pokok bahasan dan subpokok bahasan yang diukur oleh setiap butir instrumen; (3)
mencocokkan butir-butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya.
Secara teoretis validitas isi dan validitas konstruk dapat dikaji melalui penilaian panelis. Penilaian
panelis dimaksudkan untuk menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan
subpokok bahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untuk
mencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumen dengan pokok
bahasan dan subpokok bahasan yang diukurnya.
Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan melalui
penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapat dilakukan melalui beberapa
langkah, yaitu: Pertama, menetapkan skala yang digunakan, yaitu: 1 = tidak relevan, 2 = kurang
relevan, 3 = cukup relevan, 4 = relevan, dan 5 = sangat relevan. Kedua, menetapkan kriteria penilaian
yang mencakup: (1) mengukur indikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah
dipahami; (4) tidak bersifat faktual; dan (5) tidak tumpang tindih dengan butir-butir lainnya. Ketiga,
menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidak terpenuhi; 2
(kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang
terpenuhi; 4 (relevan) jika hanya empat kriteria yang terpenuhi; dan 5 (sangat relevan) jika semua
kriteria terpenuhi. Keempat, kualitas masing-masing butir instrumen didasarkan atas rerata hasil
penilaian panelis, dengan kriteria sebagai berikut:

Rerata Penilaian Keputusan


1,0 – 2,9 Tidak sesuai Direvisi
3,0 – 3,9 Cukup sesuai Diterima dengan revisi
4,0 – 5,0 SesuaiDiterima
Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba instrumen kepada
responden yang sesuai dengan karakteristik responden tempat pemberlakuan instrumen final. Penetapan
jumlah sampel dapat diacuh dari pendapat Nunnaly (1970) bahwa untuk mengurangi resiko kehilangan
butir-butir instrumen dan agar memungkinkan untuk mengeliminasi faktor-faktor yang tidak
dikehendaki maka dalam analisis instrumen direkomendasikan untuk digunakan sampel 5–10 kali
jumlah butir instrumen.

Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas konstruk instrumen
secara empiris. Validitas isi biasanya digunakan untuk menyebut validitas instrumen tes, sedangkan
validitas konstruk biasanya digunakan untuk menyebut validitas instrumen non tes. Secara empiris,
kedua jenis validitas tersebut dianalisis dengan cara yang berbeda.

Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk tes pilihan
ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis ini dimaksudkan untuk mendapatkan
informasi tentang: indeks kesukaran butir tes, indeks daya beda butir, dan keberfungsian pengecoh.
Disamping itu, juga untuk menentukan: korelasi biserial titik (point biserial correlation), dan
keseimbangan isi atau keterwakilan materi yang hendak diukur. Secara empiris kelima informasi
tersebut dibutuhkan karena saling berhubungan antara satu dengan yang lainnya, dimana keberfungsian
pilihan dapat meningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes dapat menentukan
daya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhi interkorelasi butir, dan
secara keseluruhan kelima informasi tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya
prosedur analisis butir dan penetapan kriteria untuk menerima, menolak atau merevisi butir-butir tes,
secara berturut-turut sebagai berikut:
(1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang menjawab benar
butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5; karena p=0,5
dapat memberikan kontribusi optimal terhadap korelasi biserial titik, daya pembeda butir, dan
reliabilitas tes. Butir-butir tes yang memiliki indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7
dapat digunakan apabila ada pertimbangan keterwakilan pokok bahasan yang diukurnya.

(2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk membedakan
siswa mampu dan kurang mampu. Indeks daya beda butir mempunyai rentang nilai –1 ke +1, namun
nilai negatif dan rendah menunjukkan kinerja butir yang rendah. Suatu butir tes dapat dipertahankan
apabila memiliki nilai D ³ 2,0. Indeks daya beda butir dihitung dengan menggunakan rumus: D= pu - pi;
dimana: pu = proporsi kelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang
menjawab benar. Pembagian kelompok responden didasarkan atas pendapat Kelly (1939) yang dikutip
oleh Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabil dan sensitif dapat
dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen kelompok bawah.

(3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes dengan skor
total. Korelasi biserial titik dapat disamakan dengan daya beda butir, namun rpbi itu sendiri perlu
dihitung karena dapat menyediakan refleksi yang sebenarnya dari kontribusi setiap butir tes terhadap
keberfungsian tes. Semakin tinggi rpbi suatu butir tes semakin tinggi kontribusinya dalam memprediksi
kriteria. Suatu butir tes dapat dipertahankan apabila memiliki rpbi ³ 0,30.
(4) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhi syarat-syarat: (1)
kunci jawaban (keyed answer) harus dipilih lebih banyak oleh kelompok atas daripada kelompok
bawah; (2) setiap penggagal (foils) harus dipilih minimal 2 persen dari keseluruhan peserta tes dan
dipilih minimal 5 persen kelompok bawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks
daya beda penggagal harus negatif.

Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen non tes juga
diujicobakan secara empiris kepada sejumlah responden (5-10 kali jumlah butir instrumen). Data hasil
ujicoba secara empiris dari instrumen non tes biasanya dianalisis dengan menggunakan Analisis Faktor
Konfirmasi (Confirmatory Factor Analysis) dengan menggunakan metode ekstraksi komponen utama
(principle component extraction). Analisis tersebut bertujuan untuk menguji kebenaran konstruk teori
yang dijadikan acuan dalam pengembangan instrumen, dengan cara menentukan struktur atau model
faktor dari sejumlah butir instrumen berdasarkan muatan faktor (factor loading) jumlah varians
(eigenvalue), dan proporsi varians (communality). Dalam analisis ini juga digunakan rotasi ortogonal
dan varimax. Beberapa kriteria yang dijadikan acuan dalam analisis faktor adalah:
(1) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan menggunakan rumus
Kaiser-Meyer-Olkin (KMO), yaitu dengan membandingkan nilai koefisien korelasi observasi dengan
koefisien korelasi parsial (Norusis, 1996). Jika koefisien korelasi parsial kecil maka nilai KMO besar
(mendekati satu) berarti dapat digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial
besar maka nilai KMO kecil (mendekati nol) berarti tidak dapat digunakan analisis faktor. Jelasnya
penafsiran nilai KMO diacuh dari ciri yang dikemukakan oleh Kaiser (1974) seperti dikutip oleh
Norusis (1996) bahwa KMO 0,90 baik sekali (marvelous); 0,80 baik (meritorius); 0,70 sedang
(middling); 0,60 kurang (mediocre); 0,50 sangat kurang (miserable); dan dibawah 0,50 tidak dapat
diterima (unacceptable).

(2) Uji Bartlett tentang bentuk matriks korelasi (Bartlett’s test of sphericity). Uji ini dimaksudkan untuk
memastikan apakah matriks korelasi berasal dari matriks identitas atau bukan. Dalam uji ini digunakan
pendekatan Chisquare dan dibutuhkan data yang berasal dari populasi normal multivariat. Dengan
ketentuan bahwa bila matriks korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan
selain diagonal 0) maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks korelasi bukan
matriks identitas maka dapat digunakan analisis faktor.

(3) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang dikemukakan oleh Norusis
(1996) bahwa jumlah faktor harus diekstraksi sama dengan jumlah faktor yang mempunyai varians
(eigenvalue) lebih besar dari 1,0.
(4) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi komponen utama
(extracting principal component) dengan rotasi ortogonal untuk memaksimalkan varians (variance
maximizing/ varimax) antara variabel utama. Muatan faktor yang tetap dipertahankan adalah di atas 0,3.
Hal ini sesuai dengan aturan yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor
yang lebih dari 0,3 cenderung siginifikan, sebaliknya muatan faktor yang kurang dari 0,3 tidak dapat
memberikan kontribusi yang siginifikan terhadap suatu faktor tertentu.

b. Penyebab Invaliditas
Ancaman utama terhadap validitas instrumen adalah: (1) ketakterwakilan konstruk; menunjukkan
bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena
itu, hasil tes tersebut tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam
konstruk yang hendak diukur oleh instrumen; (2) penyimpangan keragaman konstruk berarti bahwa
instrumen tersebut mengukur terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan
terhadap isi konstruk. Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu
penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran
konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan konstruk terjadi ketika faktor-
faktor luar seperti kata-kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab
benar dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran
konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan
terhadap sebagian atau keseluruhan anggota kelompok. Sementara bila terjadi penyimpangan
keragaman konstruk yang pertama menyebabkan seseorang memperoleh skor yang lebih tinggi
dibanding dengan kemampuan yang sebenarnya, dan terjadinya penyimpangan keragaman konstruk
yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah dibanding dengan kemampuan
yang sebenarnya.

2. Reliabilitas
a. Ukuran Reliabilitas
Terdapat beberapa statistik yang digunakan untuk menghitung stabilitas skor seperangkat tes dari
suatu kelompok peserta tes, yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas
konsistensi internal.
Reliabilitas test-retest. Suatu koefisien reliabilitas test-retest diperoleh dengan mengadministrasikan
tes yang sama dua kali dan mengkorelasikan skor tes tersebut. Dalam konsep, hal ini merupakan ukuran
konsistensi skor yang sempurna sebab memungkinkan pengukuran konsistensi langsung dari suatu ujian
ke ujian berikutnya. Namun, koefisien ini tidaklah direkomendasikan dalam praktek, oleh karena
masalah dan keterbatasannya, yaitu memerlukan dua kali pengadministrasian tes yang sama dalam
kelompok yang sama dan memerlukan pemilihan waktu yang tepat. Jika interval waktunya singkat,
mungkin skor siswa akan sangat konsisten sebab mereka masih mengingat sebagian atau seluruh
pertanyaan dan jawaban mereka. Dan jika intervalnya lama, maka hasilnya akan dipengaruhi oleh
perubahan belajar dan kematangan yang terjadi pada diri siswa.

Reliabilitas Split-Half. Sesuai dengan namanya, reliabilitas split-half adalah suatu koefisien yang
diperoleh dengan pembagian suatu skor tes ke dalam dua bagian yang masing-masing separuhnya,
kemudian kedua bagian skor tes tersebut dikorelasikan untuk menentukan koefisien reliabilitasnya.
Pembagian data dipecah atas nomor ganjil dan genap, memecah butir-butir tes menjadi dua bagian yang
sama jumlahnya, memilih butir secara acak, atau berdasarkan keseimbangan materi dan tingkat
kesukaran. Pendekatan ini mempunyai suatu keuntungan, yakni hanya memerlukan satu kali pengujian.
Kelemahannya adalah koefisien yang dihasilkan akan bervariasi tergantung bagaimana tes tersebut
dipecah. Juga tidak cocok digunakan untuk mengukur reliabilitas tes kecepatan (speed test), karena skor
siswa dipengaruhi oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia.

Konsistensi internal. Konsistensi internal tergantung pada interkorelasi butir tes, yang juga disebut
homogenitas. Rumus statistik terbaik yang digunakan untuk menentukan koefisien reliabilitas
konsistensi internal adalah: Alpha Cronbach dan Kuder-Richardson (KR-20 dan KR-21). Kebanyakan
program pengujian melaporkan bahwa hasil pengujian dengan Alfa Cronbach secara fungsional setara
dengan KR-20.

Keuntungan penggunaan statistik ini adalah hanya memerlukan satu kali administrasi tes dan tidak
tergantung pada pemecahan materi tes. Sedangkan kerugiannya adalah akan efektif diterapkan jika tes
hanya mengukur area keterampilan tunggal. Hanya membutuhkan rerata skor tes, simpangan baku atau
varians, dan sejumlah butir, KR-20 adalah rumusan reliabilitas yang paling sederhana. Dan rumus KR-
21 hampir selalu menghasilkan koefisien yang lebih rendah dari KR-20. Kesederhanaannya
menjadikannya sebagai rumus reliabilitas yang paling banyak digunakan khususnya untuk
mengevaluasi tes yang dikembangkan di kelas. Namun, rumus ini tidak dapat digunakan untuk
menentukan reliabilitas skor dikotomi.

b. Seberapa Tinggi Koefisien Reliabilitas


Reliabilitas tes adalah proporsi varians tulen (true variance) dalam skor tes (Guilford, 1982). Penilaian
kecukupan koefisien reliabilitas tes dapat diacuh dari pendapat Aiken (1988) bahwa jika tes akan
digunakan untuk menentukan signifikansi perbedaan rerata skor dua kelompok siswa maka koefisien
reliabilitas sebesar 0,65 dianggap memuaskan. Dan jika tes akan digunakan untuk membandingkan
siswa yang satu dengan yang lainnya maka paling tidak diperlukan koefisien reliabilitas sebesar 0,85.
Untuk menjelaskan keberartian koefisien reliabilitas dapat pula diacuh dari galat baku pengukuran,
yang dihitung dengan menggunakan rumus: ; dimana: Sm = galat baku pengukuran; Sx = simpangan
baku skor tes; dan rx = koefisien reliabilitas tes.

Misalnya, dari hasil perhitungan koefisien reliabilitas instrumen dengan menggunakan rumus Alpha
Cronbach diperoleh 0,93 dengan galat baku pengukuran 6,88. Hal ini berarti bahwa tes tersebut sangat
terandalkan karena dapat mengukur 93 persen keragaman skor yang sebenarnya, dan bila dalam jangka
waktu tertentu dan dalam kondisi yang sama para responden merespon kembali tes tersebut maka
rentangan penyimpangan skor total yang dicapai masing-masing responden berkisar antara + 6,88; jadi
bila pada tes pertama seseorang siswa memperoleh skor total 450 maka kemungkinan rentangan skor
total yang dicapai pada tes berikutnya adalah 450+ 6,88 atau paling rendah 443,12 dan paling tinggi
456,88.

Jika tes yang diadministrasikan memiliki konsekuensi tinggi, seperti tes yang digunakan untuk
penempatan dalam pendidikan, misalnya ujian akhir SMU, dan sertifikasi profesional, maka diperlukan
reliabilitas konsistensi internal yang tinggi paling sedikit di atas 0,90, dan paling baik jika di atas 0,95.
Kesalahan klasifikasi yang disebabkan oleh kesalahan pengukuran harus diperkecil. Tetapi perlu dicatat
bahwa tidak satu pun tes dengan sendirinya dapat digunakan untuk membuat suatu keputusan penting
bagi seseorang.

Tes di kelas tidak selalu membutuhkan koefisien reliabilitas tinggi. Ketika para siswa lebih menguasai
materi yang diujikan, variabilitas tes akan menurun, sehingga reliabilitas tes juga akan menurun. Para
guru mengawasi siswa mereka sepanjang hari dan mempunyai peluang untuk mengumpulkan masukan
dari berbagai sumber informasi. Jika pengetahuan dan pertimbangan guru digunakan bersama dengan
informasi yang diperoleh dari tes, maka akan dapat menyediakan informasi yang lebih lengkap. Jika
suatu tes tidak reliabel atau tidak akurat untuk siswa secara perorangan, maka guru perlu membuat
koreksi penyesuaian. Suatu koefisien reliabilitas sebesar 0.50 atau 0.60 mungkin cukup untuk tes di
kelas.

Selanjutnya, reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas
juga perlu dievaluasi dalam kaitan dengan kelompok peserta tes. Suatu tes dengan koefisien reliabilitas
0.92 ketika diujikan pada siswa dalam beberapa kelas maka koefisien reliabilitas yang diperoleh tidak
akan sama jika tes tersebut hanya diujikan pada satu kelas saja.

Reliabilitas berhubungan dengan konsistensi hasil pengukuran. Reliabiltas dipengaruhi oleh cakupan
instrumen penilaian. Misalnya, suatu instrumen tes tertentu yang mencakup sasaran belajar dan butir
yang terbatas memiliki reliabilitas yang lebih rendah dibanding dengan tes yang mencakup sasaran
belajar yang lebih luas dengan jumlah butir yang lebih banyak.

Instrumen yang representatif dengan kesalahan pengukuran yang relatif kecil akan memiliki reliabilitas
tinggi. Kesalahan pengukuran dapat diperkecil melalui penulisan butir instrumen yang jelas, petunjuk
yang mudah dipahami, administrasi instrumen yang sesuai, dan penskoran yang konsisten. Suatu
instrumen tes adalah suatu sampel perilaku dari keterampilan yang diinginkan, tes lebih panjang dengan
sampel yang lebih besar, memungkinkan untuk lebih reliabel. Hasil ujian akhir dari suatu unit
pembelajaran dengan waktu satu jam akan lebih reliabel ketimbang hasil ujian harian dengan jangkauan
materi dan waktu yang terbatas.

c. Ancaman terhadap Reliabilitas


Semua jenis instrumen tes atau nontes tidak terlepas kesalahan. Hal ini berlaku untuk instrumen tes
dalam ilmu-ilmu eksakta dan dalam ilmu-ilmu psikologi dan pendidikan. Misalnya, dalam mengukur
panjang dengan suatu penggaris, mungkin ada kesalahan sistematis berhubungan dengan di mana titik
nol dicetak pada penggaris dan kesalahan acak berhubungan dengan kemampuan mata dalam membaca
tanda-tanda dan memperhitungkan tanda-tanda tersebut. Juga memungkinkan bahwa panjang obyek
dapat berubah dari waktu ke waktu dan pada lingkungan yang berbeda (misalnya perubahan
temperatur). Salah satu tujuan penilaian adalah untuk mengurangi kesalahan tersebut hingga ke
tingkatan yang sesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes tes), seperti ujian untuk
mendapatkan SIM, harus mempunyai kesalahan yang sangat kecil. Tes di kelas dapat mentolerir
kesalahan yang lebih tinggi secara wajar kesalahan tersebut mudah dikoreksi sepanjang proses
pengujian. Reliabilitas hanya mengacu pada derajat tingkat kesalahan yang tidak sistematis, yang
disebut kesalahan acak.

Ada tiga sumber kesalahan utama, yaitu: faktor dalam tes itu sendiri, faktor siswa yang dites, dan faktor
penskoran. Umumnya tes berisi suatu koleksi butir yang mengukur keterampilan tertentu. Adakalanya
guru secara khas menggeneralisasikan masing-masing butir tes ke semua materi yang diukur oleh tes
itu. Sebagai contoh, jika seorang siswa dapat memecahkan beberapa permasalahan seperti 7x8, maka
mungkin akan disamaratakan kemampuannya dalam mengalikan angka tunggal bilangan bulat. Juga
mungkin akan menyamaratakan suatu kumpulan materi kepada suatu domein yang lebih luas. Jika siswa
dapat menyelesaikan penjumlahan, pengurangan, perkalian, dan pembagian, maka mungkin akan
disimpulkan bahwa siswa tersebut mampu menyele-saikan operasi pecahan. Kesalahan dapat pula
disebabkan oleh pemilihan butir untuk mengukur domein dan keterampilan tertentu. Materi yang
tercakup dalam tes berbeda menurut format masing-masing tes, kesalahan pensampelan, pembatasan
butir tes, dan karena menyamaratakan ke data yang tidak diamati, yakni, kemampuan siswa terhadap
keseluruhan butir yang mungkin terdapat dalam tes. Ketika keterampilan dan domain yang diukur
menjadi lebih rumit, mungkin akan terjadi lebih banyak kesalahan yang disebabkan oleh pensampelan
materi. Sumber lain kesalahan tes adalah ketidakefektifan pengecoh dalam tes pilihan ganda, seperti
jawaban benar yang lebih banyak, dan tingkat kesukaran butir tes.

Sebagai manusia, para siswa tidaklah selalu konsisten dan juga tidak terlepas dari kesalahan dalam
menyelesaikan tes. Apakah tes itu dimaksudkan untuk mengukur kemampuan khusus atau kemampuan
siswa secara optimal, perubahan dalam berbagai hal seperti sikap siswa, kesehatan, dan rasa kantuk
dapat mempengaruhi kualitas usaha dan konsistensi siswa dalam menyelesaikan tes. Sebagai contoh,
peserta tes mungkin membuat kesalahan karena teledor, salah menafsirkan petunjuk tes, melupakan
instruksi tes, melupakan beberapa butir tes, atau salah baca butir tes.

Kesalahan penskoran merupakan sumber sepertiga dari kesalahan potensial. Pada bentuk tes objektif,
penskoran bersifat mekanik, dan kesalahan penskoran harus diperkecil. Pada tes uraian, sumber
kesalahan meliputi ketidakjelasan rubrik penskoran, ketidakjelasan apa yang diharapkan dari siswa, dan
beberapa kesalahan yang bersumber dari penilai. Para penilai tidaklah selalu konsisten, kadang-kadang
merubah ukuran-ukuran mereka selagi menskor, dan terkadang terpengaruh oleh hal-hal yang tidak
berhubungan dengan skor tes seperti efek halo, latar belakang siswa, perbedaan persepsi, kebaikan hati
atau kepelikan, dan kesalahan dalam penskalaan (Rudner, 1992).

D. KESIMPULAN
Validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya. Validitas dibedakan
atas: validitas isi mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; validitas konstruk
mengkaji sifat-sifat psikologis yang dapat menjelaskan perbedaan-perbedaan responden dalam hal
keragaman pencapaian skor tes dalam instrumen tertentu; dan validitas relasi kriteria membandingkan
skor responden dengan satu atau lebih variabel eksternal.
Reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis dalam
populasi peserta tes. Reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes.
Reliabilitas tes bervariasi dari suatu kelompok dengan kelompok lainnya. Terdapat beberapa statistik
untuk menghitung stabilitas skor tes yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas
konsistensi internal.
Para profesional pengukuran menempatkan kebanyakan penekanan mereka dalam penilaian pada
reliabilitas. Suatu pengakuan umum dalam teori tes bahwa suatu tes akan menjadi valid (benar) jika tes
tersebut reliabel. Asumsi ini didasarkan pada suatu model matematika teori tes dimana skor perolehan
terdiri atas skor tulen dan galat. Semakin sedikit kesalahan dalam suatu tes (yaitu semakin reliabel)
semakin valid skor tes tersebut. Suatu penilaian yang tidak reliabel secara otomatis tidak valid.
Instrumen yang memiliki reliabilitas tinggi diperlukan jika hasil penilaian akan digunakan untuk
pengambilan keputusan yang penting. Sebaliknya, reliabilitas tingkat menengah diperlukan jika hasil
penilain kurang penting, dan penilaian didasarkan atas beberapa sumber informasi.

Faktor-faktor yang mempengaruhi reliabilitas suatu instumen adalah: (1) instrumen yang lebih panjang
lebih reliabel dari instrumen yang lebih pendek; (2) reliabilitas akan rendah bila penyebaran skor
rendah; (3) semakin obyektif penskoran semakin tinggi reliabilitas; (4) reliabilitas instrumen akan
berbeda jika diadministrasikan kepada responden yang memiliki sebaran kemampuan yang berbeda; (5)
interval waktu pengambilan data dalam penentuan reliabilitas test-retest juga dapat mengaruhi
relibiabilitas instrumen.
DAFTAR PUSTAKA

Aiken, lewis R. Psychological Testing and Assessment. Massachusetts: Allyn and Bacon Inc., 1988.
Anastasi, A. Psychological Testing. New York: MacMillan Publishing Company, 1987.
Bloom, B. S., Madaus, G.F., & Hastings, J. T. Evaluation to Improve Learning. New York: McGraw-
Hill Book Company, 1981.
Crocker, Linda and James Algina. Introduction to Classical and Modern Test Theory. Orlando, Florida: Holt,
Rinehart and Winston, Inc., 1986.
Cronbach, L. J. Essentials of Psychological Testing. Third Edition. New York: Harper & Row, Publishers,
1970.
Fredericksen, J.R., & Collins, A. A systems approach to educational testing. Educational Researcher, 1989.
Gregory, Robert J. Psychological Testing History, Principles, and Applications. Boston: Allyn &
Bacon, 2000.
Gronlund, Norman E. Measurement and Evaluation in Teaching. New York: McMillan Publishing Company,
1985.
Guilford, J.P. Psychomeric Methods. New Delhi: Tata McGraw-Hill Publishing Co. Ltd., 1982.
Hopkins, Charles D., and Richard L. Antes. Classroom Measurement and Evaluation. Itasca, Illinois,
1990.
Linn, R. L., & Gronlund, N. E. Measurement and Assessment in Teaching, Seventh Edition. Englewood
Cliffs, NJ: Merrill, an imprint of Prentice Hall, 1995.
Mehrens, W. A., & Lehmann, I. J. Measurement and Evaluation in Education and Psychology. Fourth
Edition. Fort Worth, TX: Holt, Rinehart, and Winston, Inc., 1991.
Messick, S. Validity In Educational Measurement. Robert Linn (Ed.). Washington, DC: American Council
on Education, 1989.
Nitko, A. J. Educational Assessment of Students. Englewood Cliffs, NJ: Merrill an imprint of Prentice Hall,
1996.
Nunnaly, Jum C. Jr. Introduction to Psychological Measurement. New York: McGraw-Hill Book Company,
1970.
Oosterhof, A. Developing and Using Classroom Assessments. Englewood Cliffs, NJ: Merrill, an imprint of
Prentice Hall, 1996.
Popham, W. James. Classroom Assessment, What Teachers Need to Know. Boston: Allyn and Bacon, 1998.
Shavelson, R., G. Baxter, & J. Pine. Performance Assessments: Political Rhetoric and Measurement
Reality. Educational Researcher, 1992.
Stapleton, Connie D. Basic Concepts in Exploratory Factor Analysis (EFA) as a Tool to Evaluate Score
Validity : A Right-Brained Approach. http://www.utexas.Edu /stat/packs. html., 2002

Anda mungkin juga menyukai