PENDAHULUAN
A. Latar Belakang
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat
kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes
tersebut. Dalam peneliaian hasil belajar, tes diharapkan dapat menggambarkan sampel
perilaku dan menghasilkan nilai yang obyektif serta akurat. Jika tes yang digunakan guru
kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan
peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak obyektif
dan tidak adil. oleh karena itu, tes yang digunakan guru harus memiliki kualitas yang lebih
baik dilihat dari berbagai segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur
penyusunan tes. Setelah digunakan perlu diketahui apakah suatu tes tersebut berkualitas baik
atau kurang baik. Untuk mengetahui apakah suatu tes yang digunakan termasuk baik atau
kurang baik, maka perlu dilakukan analisis kualitas.
Nurkancana dalam bukunya menyatakan bahwa suatu alat pengukur dapat dikatakan alat
pengukur yang valid apabila alat pengukur tersebut dapat mengukur apa yang hendak diukur
secara tepat. Dalam hal validitas dan reliabilitas, tentunya dipengaruhi oleh(1) instrumen, (2)
subjek yang diukur, dan (3) petugas yangmelakukan pengukuran. Dalam hal pengukuran,
khususnya dalampendidikan tentunya yang terpenting adalah informasi hasil ukur yangbenar.
Sebab dengan hasil ukur yang tidak atau kurang tepat makaakan memberikan informasi yang
tidak benar, sehingga kesimpulanyang diambil juga tidak benar.[2]
Oleh karena keberhasilan mengungkap hasil dan proses dari suatu objek penelitian sangat
bergantung pada kualitas alat penilainya, di samping itu juga yang tidak kalah pentingnya
tergantung pada cara pelaksanaannya. Suatu alat penilaian dikatakan mempunyai kualitas
yang baik apabila alat tersebut memiliki atau memenuhi dua hal, yaitu validitas (ketepatan)
dan reliabilitas (ketetapan atau keajegan) alat tes terjamin kualitasnya.
B. Rumusan Masalah
C. Tujuan penulisan
BAB II
PEMBAHASAN
A. Reliabilitas
1. Pengertian Reliabelitas
Reliabilitas adalah karakter lain dari hasil evaluasi. Realibilitas adalah tingkat atau derajat
konsistensi dari suatu instrument. Reliabilitas juga dapat diartikan sama dengan konsistensi
atau keajegan. Suatu instrumen evaluasi, dikatakan mempunyai nilai reliabilitas yang tinggi
apabila tes yang dibuat mempunyai hasil yang konsisten dalam mengukur yang hendak
diukur. Ini berarti semakin reliabel suatu tes, semakin yakin kita dapat menyatakan bahwa
dalam hasil suatu tes mempunyai hasil yang sama dan bisa dipakai di suatu tempat sekolah,
ketika dilakukan tes tersebut.
Reliabilitas soal merupakan ukuran yang menyatakan tingkat keajegan atau kekonsistenan
suatu tes soal. Untuk mengukur tingkat keajegan soal ini digunakan perhitungan Alpha
Cronbach. Rumus yang digunakan dinyatakan dengan:
Keterangan
Analisis rabilitas suatu tes dan atau alat ukur lainnya, termasuk nontes, pada hakikatnya
menguji keajegan pertanyaan tes apabila diberikaan berulang kali pada objek yang sama.
Suatu tes dikatakan reliabel apabila beberapa kali pengujian menunjukkan hasil yang relatif
sama. Pengujian suatu tes bisa dilakukan terhadap objek yang sama pada waktu yang
berlainan dengan selang waktu yang tidak terlalu lama dan juga terlalu singkat, bisa juga
dilakukan dengan membandingkan hasil pengujian dari tes yang setara.[4]
Pendekatan single test-single trial adalah merupakan pendekatan serba single atau pendekatan
serba satu, yaitu satu kelompok subjek, satu jenis alat ukur, dan satu kali pengukuran, atau
satu kelompok testee, satu jenis tes, dan satu kali testing. Single test-single trial bisa
dilakukan dengan menggunakan formula:
Dimana:
Di mana:
S12 : jumlah kuadrat deviasi (=varian) dari skor-skor hasil tes yang
termasuk pada belahan I
S22 : jumlah kuadrat deviasi (=varian) dari skor-skor hasil tes yang
termasuk pada belahan II
St2 : jumlah kuadrat deviasi (=varian total) dari skor-skor hasil tes
yang termasuk pada belahan I dan II
3) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Rulon
Rumus yang dikemukakan oleh Rulon untuk mencari Koefisien Reliabilitas Tes (r11) adalah
sebagai berikut:
Di mana:
1 : bilangan konstan
: varian total
Adapun formula yang diajukan oleh Kuder Richadson ada dua buah yang masing-masing
diberi kode: KR20 dan KR21, yaitu:
Ø Rumus KR20:
Dimana
1 : bilangan konstan
: varian total
Dimana
1 : bilangan konstan
: varian total
Dengan menggunakan teknik analisis varian, maka koefisien reliabilitas tes dapat diperoleh
dengan menggunakan rumus:
Dimana
1 : bilangan konstan
b) Test-retest
Reliabilitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes
dari waktu ke waktu. Tes retes menunjukkan variasi skor yang diperoleh dari
penyelenggaraan satu tes evaluasi yang dilakukan dua kali atau lebih, sebagai akibat
kesalahan pengukuran. Dengan melakukan tes retes tersebut seorang guru akan mengetahui
seberapa jauh konsistensi suatu tes apa yang ingin diukur.
Reliabilitas tes retes ini penting, khususnya ketika digunakan untuk menentukan prediktor
misalnya tes kemampuan. Tes kemampuan tidak akan bermanfaat, jika ternyata menunjukkan
hasil yang selalu berubah ubah secara signifikan saat diberikan kepada responden.
1) Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana
2) Setelah selang waktu tertentu, misalnya 1 minggu atau 2 minggu, lakukan kembali tes
yang sama dengan kelompok yang sama tersebut.
3) Korelasikan kedua tes tersebut.[6]
Untuk mencari korelasi antara skor-skor hasil tes pertama dengan skor-skor hasil tes kedua,
dapaat dipergunakan teknik korelasi rank-order (teknik korelasi tata-jenjang) dari Spearman,
dengan menggunakan rumus:
Di mana:
c) Alternate Form
Dalam pelaksanaan pengujian reabilitas tes dengan menggunakan pendekatan alternate form
atau bentuk paralel ini, skor-skor yang diperoleh dari kedua seri tes tadi dicari korelasinya.
Apabila terdapat korelasi positif yang signifikan maka dapat dikatakan bahwa tes hasil belajar
tersebut dapat dikatakan reliabel. Teknik korelasi yang dipergunakan bisa dipilih antara
teknik korelasi product moment dari Pearson atau teknik korelasi rank order dari Spearman
(khusus untuk N kurang dari 30).
Keterangan
Contoh: 10 orang peserta didik dites dalam mata pelajaran PKn dan PAI. Jumlah masing-
masing lima buah. Dua buah nomor genap diambil dari hasi tes PKn dan tiga buah nomor
ganjil diambil dari hasil tes PAI. Data diambil sebagai berikut:
Nama Skor PKn Skor PAI
A 8 6 8 7 10
B 7 7 6 7 5
C 5 6 6 6 6
D 8 6 7 6 9
E 5 6 5 5 5
F 4 7 4 6 6
G 5 9 7 5 5
H 7 5 8 5 4
I 7 8 4 9 7
J 9 5 9 9 4
X Y x y X2 Y2 xy
14 25 +1 +6 1 36 6
14 8 +1 -1 1 1 -1
11 18 -2 -1 4 1 2
14 22 +1 +3 1 9 3
11 5 -2 -4 4 16 8
11 1 -2 -3 4 9 6
14 17 +1 -2 1 4 -2
12 7 -1 -2 1 4 2
15 20 +2 +1 4 1 2
14 22 +1 +3 1 9 3
130 190 22 90 29
X=13 X=19
= = = = = = 0,65
Gronlund (1985) mengemukakan ada empat factor yang dapat memengaruhi reliabilitas, yaitu
:
a) Panjang tes (length of test). Panjang tes berarti banyaknya soal tes. Ada kecendrungan,
semakin panjang suatu tes akan lebih tinggi tingkat reliabelitas suatu tes, karena semakin
banyak soal, maka akan semakin banyak sampel yang diukur dan proporsi jawaban yang
benar semakin banyak, sehingga factor tebakan (guessing) akan semakin rendah.
4. Karakteristik dalam Evaluasi
Tujuan akhir suatu ilmu adalah mengembangkan dan menguji teori. Suatu teori dapat
menjelaskan dan meramalkan fenomena-fenomena alamiah. Dari perilaku atau kegiatan-
kegiatan terlepas yang dilakukan oleh siswa atau guru umpamanya, peneliti dapat
memberikan penjelasan umum tentang hubungan diantara perilaku atau kegiatan
pembelajaran. Tiap disiplin ilmu mempunyai cara pencarian sendiri yang sesuai dengan
karakteristik disiplin ilmunya. Sains(pengetahuan alam) umpamanya, banyak menggunakan
metode eksperimen, sedang antropologi menggunakan metode kualitatif. Pendidikan
kebanyakan menggunakan metode deskriptif, tetapi untuk hal-hal tertentu dapat
menggunakan metode eksperimen, penelitian tindakan, penelitian dan pengembangan, dan
juga kualitatif.
(1) Objectivity (objektivitas);
(2) Precision (ketepatan);
(3) Verification (verifikasi);
(5) Empiricism (empiris);
Karakteristik evaluasi pendidikan tersebut, secara singkat akan dijelaskan sebagai berikut:
a) Objektivitas.
b) Ketepatan.
Penelitian juga harus memiliki tingkat ketepatan(precision), dalam arti bahwa secara teknis,
instrumen pengumpulan datanya harus memiliki validitas dan realibilitas yang memadai,
serta desain penelitian, pengambilan sampel dan teknik analisisnya tepat.
Dalam evaluasi kualitatif, hasilnya dapat diulang dan diperluas, dalam penelitian kualitatif
memiliki sifat reflektif dan tingkat komparasi yang konstan.
c) Verifikasi.
Penelitian dapat diverifikasi, dalam arti dikonfirmasikan, direvisi dan diulang dengan cara
yang sama atau berbeda. Verifikasi dalam penelitian kualitatif berbeda dengan
kuantitatif. penelitiankualitatif memberikan interpretasi deskriptif, verifikasi berupa
perluasan, pengembangan tetapi bukan pengulangan. Verifikasi juga bermakna memberikan
sumbangan kepada ilmu atau studi lain.
d) Penjelasan Ringkas.
e) Empiris.
Penelitian ditandai oleh sikap dan pendekatan empiris yang kuat.Secara umum empiris berarti
berdasarkan pengalaman praktis. Dalampenelitianempiris kesimpulan didasarkan atas
kenyataan-kenyataan yangdiperoleh dengan menggunakan metode penelitianyang sistematik,
bukanberdasarkan pendapat atau kekuasaan. Sikap empiris umumnya menuntutpenghilangan
pengalaman dan sikap pribadi. Kritis dalam penelitianberartimembuat interpretasi
berdasarkan pada kenyataan dan nalar yang didasarkanatas kenyataan-kenyataan (evidensi).
Evidensi adalah data yang diperolehdari evaluasi, berdasarkan hasil analisis data tersebut
interpretasi dibuat.Angka, print out, catatan lapangan, rekaman wawancara artifak
dandokumen sejarah adalah sejumlah contoh data dalam penelitian.
f) Penalaran Logis.
Dalam penjelasan yang lain tentang karakteristik, secara sederhana Zainal Arifin
mengemukakan karakteristik instrumen evaluasi yang baik adalah valid, reliabel, relevan,
representatif, praktis, deskriminatif, spesifik dan proporsional.[10]
1) Kevalidan
Valid artinya suatu alat ukur dapat dikatakan valid jika betul-betul mengukur apa yang
hendak diukur secara tepat. Misalnya, alat ukur matapelajaran Ilmu Fiqih, maka alat ukur
tersebut harus betul-betul dan hanya mengukur kemampuan peserta didik dalam mempelajari
Ilmu Fiqih, tidak boleh dicampuradukkan dengan materi pelajaran yang lain. Validitas suatu
alat ukur dapat ditinjau dari berbagai segi, antara lain validitas ramalan (predictive validity),
validitas bandingan (concurent validity), dan validitas isi (content validity), validitas konstruk
(construct validity), dan lain-lain.
2) Realible
Reliabel artinya suatu alat ukur dapat dikatakan reliabel atau handal jika ia mempunyai hasil
yang taat asas (consistent). Misalnya, suatu alat ukur diberikan kepada sekelompok peserta
didik saat ini, kemudian diberikan lagi kepada sekelompok peserta didik yang sama pada saat
yang akan datang, dan ternyata hasilnya sama atau mendekati sama, maka dapat dikatakan
alat ukur tersebut mempunyai tingkat reliabilitas yang tinggi.
3) Relevan
Relevan artinya alat ukur yang digunakan harus sesuai dengan standar kompetensi,
kompetensi dasar, dan indikator yang telah ditetapkan. Alat ukur juga harus sesuai dengan
domain hasil belajar, seperti domain kognitif, afektif, dan psikomotor. Jangan sampai ingin
mengukur domain kognitif menggunakan alat ukur non-tes. Hal ini tentu tidak relevan.
4) Representatif
Representatif artinya materi alat ukur harus betul-betul mewakili dari seluruh materi yang
disampaikan. Hal ini dapat dilakukan bila guru menggunakan silabus sebagai acuan
pemilihan materi tes. Guru juga harus memperhatikan proses seleksi materi, mana materi
yang bersifat aplikatif dan mana yang tidak, mana yang penting dan mana yang tidak.
5) Praktis
Praktis artinya mudah digunakan. Jika alat ukur itu sudah memenuhi syarat tetapi sukar
digunakan, berarti tidak praktis. Kepraktisan ini bukan hanya dilihat dari pembuat alat ukur
(guru), tetapi juga bagi orang lain yang ingin menggunakan alat ukur tersebut.
6) Deskriminatif
Deskriminatif artinya adalah alat ukur itu harus disusun sedemikian rupa, sehingga dapat
menunjukkan perbedaan-perbedaan yang sekecil apapun. Semakin baik suatu alat ukur, maka
semakin mampu alat ukur tersebut menunjukkan perbedaan secara teliti. Untuk mengetahui
apakah suatu alat ukur cukup deskriminatif atau tidak, biasanya didasarkan atas uji daya
pembeda alat ukur tersebut.
1. Spesifik
Spesifik artinya suatu alat ukur disusun dan digunakan khusus untuk objek yang diukur. Jika
alat ukur tersebut menggunakan tes, maka jawaban tes jangan menimbulkan ambivalensi atau
spekulasi.
2. Proporsional
Proporsional artinya suatu alat ukur harus memiliki tingkat kesulitan yang proporsional
antara sulit, sedang dan mudah. Begitu juga ketika menentukan jenis alat ukur, baik tes
maupun non-tes.
BAB III
PENUTUP
A. Kesimpulan
Reliabilitas mempermasalahkan sejauh mana hasil suatu pengukuran dapat dipercaya. Suatu
hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali pelaksanaan pengukuran
terhadap kelompok subyek yang sama, diperoleh hasil pengukuran yang relatif sama.
Penentukan koefisien reliabilitas instrumen untuk skor butir dikotomi dapat menggunakan
cara Single test-single trial, test-retest, alternate form. Interpretasi terhadap koefisien
reliabilitas merupakan intrepretasi relatif, artinya tidak ada batasan mutlak yang
menunjukkan berapa angka koefisien minimal yang harus dicapai agar suatu pengukuran
dapat disebut reliabel. Namun, memberikan informasi tentang hubungan varians skor teramati
dengan varians skor sejati kelompok individu.
[5]Anas Sudijono, hlm: 260.
[7]Ibid., hlm. 275.