Anda di halaman 1dari 6

8.

3 MODEL UMUM RELIABILITAS

Pengukuran yang baik tentunya akan ajeg membedakan kemampuan


peserta didik. Misalnya saja cemara lebih pintar dari pada melati, skor yang
diperoleh cemara mestinya lebih tinggi dibandingkan dengan melati. Dalam
kenyataannya, pengukuran kita tidak pernah sempurna. Dalam teori reliabilitas
dikembangkan untuk menentukan ketidak ajegan tersebut. Setiap pengukuran baik
dalam sains maupun dalam penilaian kelas selalu mengandung kesalahan
pengukuran . pengukuran meteran dengan skala mm misalkanya memiliki
kesalahan pengukuran seberar 0,01 mm. Pengukuran dengan skala cm memiliki
kesalahan pengukuran sebesar 0,1 cm. Konsep dasar reliabilitas juga
menggunakan kesalahan pengukuran tersebut.

Menurut sumarna (2004) setiap skor yang diperoleh peserra tes terdiri atas
tiga hal ; skor amatan yang sering pula disebut sebagai skor perolehan (observed
test score) , skor yang sebenarnya (true score) yaitu skor yang sesuai dengan
kemampuan peserta test yang sebenarnya, dan kesalahan pebgukuran, yaitu
faktor-faktor yang mempengaruhi ketidakajegan suatu pengukuran adalah situasi
yang mempengaruhi perolehan skor. Secara umum konsep dasar tersebut
dinyatakan dalam persamaan matematis sebagai berikut :

Skor perolehan = skor sebenarnya + kesalahan pengukuran

Kesalahan pengukuran merupakan selisih antara skor amatan (perolehan)


dengan skor sebenarnya. Atas dasar konsep ini reliabilitas tes dikembangkan.
Berbagai hasil telah diturunkan dari teori ini yang pada akhirnya mengandung
beberapa implikasi terhadap pengukuran (penilaian berbasis kelas khususnya).
Tabel 1 seperti yang telah kita bahas menunjukkan sumber-sumber kesalahan
perolehan skor yang boleh jadi memberikan kontribusi terhadap ketidakajegan
skor. Teori reliabilitas ditentukan berdasarkan varian antara skor perolehan yang
merupakan penumlahan dari varian skor sebenarnya dengan varian kesalahan
pengukuran yaitu :

σ2x = σ2T + σ2E

Persamaan ini menunjukkan bahwa skor tes ditentukan oleh dua hal, yaitu
reliabilitas skor sebenarnya dua variabilitas kesalahan pengukuran. Jika kesalahan
pengukuran itu memberikan kontribusi yang signifikan, maka tes menjadi tidak
ajeg. Dengan kata lain, apabila varian kesalahan pengukuran relatif tidak berarti ,
maka pengukuran menjadi ajeg. Koefisien reliabilitas (rxx )menyajikan indeks
relatif pengaruh skor sebenarnya dan skor kesalahan pengukuran terhadap skor
yang diperoleh. Persamaan umum reliabilitas diturunkan dari perbandingan antara
varian skor sebenarnya dengan varian skor perolehan :

9.3.1 Metode Sederhana Mengestimasi Reliabilitas

Tujuan utama mengestimasi reliabilitas adalah untuk menentukan seberapa


besar variabilitas yang terjadi akibat adanya kesalahan pengukuran dan seberapa
besar variabilitas skor tes sebenarnya. Menurut teori klasik, sebagaimana telah
diuraikan diatas, reliabilitas dihubungkan dengan pengertian adanya ketepatan
suatu tes dalam pengukurannya. Nunnaly (1970), dan Anastasi (1986)
menyatakan bahwa reliabilitas adalah kestabilan skor yang diperoleh orang sama
ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu
pengukuran ke pengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai
tingkat keajegan atau kemampuan hasil dari dua pengukuran terhadap hal yang
sama. Hasil pengukuran itu diharapkan akan sama apabila pengukuran itu
diulangi.

Reliabilitas memiliki dua keajegan yang pertama adalah keajegan internal,


yakni tingkat sejauh mana butir soal itu homogen baik dari segi tingkat kesukaran
maupun bentuk soalnya. Keajegan yang kdua yaitu keajegan eksternal yakni
tingkat sejauh mana skor dihasilkan tetap sama sepanjang kemampuan orang yang
diukur belum berubah. Perbedaan skor dari suatu pengukuran ke pengukuran
lainnya dapat terjadi . menurut Allen (1979), perbedaan skor dari satu pengukuran
ke pengukuran lain ini terjadi karena adanya standard error of measurement atau
standar kesalahan pengukuran.

Oleh karena itu koefisien reliabilitas harus benar-benar dioerhitungkan


lebih dalam standar kesalahan pengukurannya itu. Untuk itu dalam pengukuran
perlu diidentifikasi sumber-sumber utama yang menyebabkan terjadinya
kesalahan pengukuran tersebut. Nunally (1981) menyebutkan bahwa sumber
kesalahan pengukuran itu antara lain : (a) variasi dalam tes itu sendiri ; (b)
struktur sample yang dipilih dan (c) variasi diantara tes itu digunakan. Menurut
Crocker dan Algina (1986) sumber utama kesalahan pengukuran disebabkan oleh
: (a) perubahan dalam kelebihan waktu yang duji (b) isi bentuk ke bentuk dan (c)
sampel isi soal yang cacat. Sumber kesalahan pengukuran bisa juga terjadi karena
pengaruh teknik pemilhan sampel dan situasi yang ada pada masing-masing
individu yang di jadikan sampel.

Perbedaan pengertian reliabilitas sangat bergantung kepada bagaimana


indeks reliabilitas dihitung. Paling tidak terdapat empat konsep reliabilitas yaitu ;
(a) paralel dan ekuivalen (b) test-retest atau stabilitas (c) split-half atau belah dua
dan (d) interval consistency. Sebagian orang berpendapat bahwa metode keajegan
internal (internal consistency) sehingga pembagian metode menjadi tiga bagian
yaitu ; (a) ekuivalen (b) stabilitas dan (c) internal consistency. Kedua teknik ini
pada prinsipnya sama. Apabila hasil skor tes pertama sama dengan hasil skor tes
kedua, maka tes dikatakan memiliki reliabilitas yang tinggi atau terdapat korelasi
yang tinggi antara hasil tes pertama dengan hasil tes kedua. Kalau antara hasil tes
pertama dan kedua tidak terdapat hubungan atau hubungannya rendah, maka tes
itu dikatakan tidak reliabel (Sudjana, 2001).

Besar kecilnya reliabilitas suatu tes ditentukan oleh besar kecilnya nilai
korelasi hasil tes yang dinamakan indeks reliabilitas. Untuk mengestimasi
reliabilitas banyak formula yang dapat digunakan. Crocker dan Algina (1986)
memberikan pendekatan untuk mengintesmasi reliabilitas dengan memperhatikan
sumber kesalahan utama melalui penggunaan koefisien reliabilitas, ekuivalen, dan
keajegan internal. Guilford (1954) memberikan beberapa modifikasi yang
dilakukan oleh Tucker untuk memperbaiki dan menyederhanakan ketidak
akuratan formula Kuder-Richardson dan pengunaan analisis varian pengukuran
prestasi belajar digunakan internak keajegan seperti formula Cronbach alpha
ataupun Kuder-Richardson. Akan tetapi dalam prakteknya penggunaan formula
itu memngkinkan adanya usaha-usaha tertentu untuk meninggikan koefisien
reliabilitasnya dengan cara mengubah pola susunan skor, sehingga untuk
menghindari hal itu maka penggunaan analisis varian lebih dapat dipertanggung
jawabkan.

Koefisien reliabilitas soal pilihan ganda lebih mudah dimanfaatkan dalam


mengambil keputusan prestasi belajar. Crocker dan Algina (1986) menyebutkan
faktor itu antara lain panjang suatu tes, kecepatan, homogenitas berbelahan dan
tingkat kesukaran soal. Hasil penelitian Aiken et, al (1978) menunjukkan bahwa
pengaruh tingkat kesukaran memegang peranan yang paling besar pada koefisien
reliabilitas.

Semakin sukar soal-soal dalam perangkat tes akan semakin besar pula
variasi skor yang diperoleh belahan. Dengan demikian maka akan semakin besar
pula reliabilitas tes tersebut. Sebaliknya, semakin rendah tingkat kesukaran suatu
soal semakin kecil pula reliabilitasnya. Untuk itu harus dihindari banyakanya
terkaan yang dilakukan peserta tes dan diusahakan menyesuaikan pengetahuan
peserta tes dengan tes yang diujikan kepada mereka.

8.3.2 Metode Tes Ulang (Test-Retest Method)


Pelaksanaan metode tersebut adalah seperangkat tes diadministrasikan
pada sekelompok subjek, kemudian setelah jeda waktu tertentu seperangkat tes
tersebut diadministrasikan ulang pad sekelompok subjek yang sama. Inilah teknik
pengambilan data guna mengukur reliabilitas berdasarkan metode tes ulang.
Tentunya perbedaan antara skor tes pertama dengan skor tes kedua terjadi hanya
karena adanya kesalahan pengukuran. Tentu saja argumen semacam ini agak
kurang berlaku untuk hal-hal psikologis sepeti mengukur kemampuan IQ atau
kemampuan lainnya (Wahidmurni 2010).

Metode tersebut paling tepat diterapkan pada instrumen yang mengukur


trait yang bersifat stabil diantara dua administrasi tes (misalnya nilai-nilai kerja
dan kepribadian). Estimasi reliabilitas diperoleh dengan cara menghitung korelasi
antara skor hasil administrasi pertama (X1) dan skor hasil administrasi kedua (X2)
, yang biasanya ditulis dengan r12. Tipe reliabilitas yang diperoleh dengan cara ini
disebut dengan koefisien stabilitas, karena besarnya r12 merefleksikan sejauh mana
stabilitas posisi masing-masing subjek, relatif pada kelompok tesnya, pada dua
periode administrasi tes.

Faktor-faktor yang mempengaruhi perbedaan antara skor pertama dengan


skor kedua, yaitu : (a) karakteristik yang diukur telah berubah dari tes pertama ke
tes kedua. Contoh misalnya tes kemampuan membaca , menulis, dan berhitung
kelas III SD diadakan pada bulan agustus , tes kedua yaitu tes yang sama
diberikan kepada peserta didik yang sama pada bulan oktober. Kita mengharapkan
terdapat perubahan kemampuan membaca , menulis , dan berhitung pada periode
dua bulan tersebut. Indeks reabilitas yang rendah kita harapkan sebagai akibat
perubahan tersebut ; (b) pengalaman peserta didik dalam mengambil tes yang
sama akan cukup berpengaruh terhadap perolehan skor sebenarnya. Hal ini
dinamakan sebagai reactivity.sebagai contoh misalnya peserta didik yang
mengikuti ujian akhir nasional bahasa indonesia lalu ia memperoleh skor 3.9
menurut standar kelulusan tahun 2004, ia tidak lulus dan harus ikut ujian ulangan.
Apabila soal yang diberikan ujian ulangan sama dengan ujian utama, maka dapat
dipastikan bahwa skor yang diperoleh peserta didik meningkat. Peningkatan ini
terjadi salah satu sebabnya karena ia telah berpengalaman melihat soal
sebelumnya. Untuk mengatasi hal tersebut terjadi, biasanya soal dibuat berbeda
dengan ujian susulan namun masih mengukur kemampuan yang sama.

8.3.3 Metode Tes Paralel (Alternative form method)

Estimasi reliabilitas menggunakan metode tes paralel ditunjukan untuk


mengukur tingkat konsistensi skor antar form yang dapat dibandingkan pada
sekelompok individu yang sama. Usahan ini dimulai dengan mengusahakan dua
skor yang bersifat paralel. Untuk memperoleh yang paralel subjek idealnya
dikenai instrumen yang paralel pula. Instrumen paralel dihasilkan dengan cara
mendesain dua fprm yang mengukur trait yang sama. Metode ekuivalen saring
pula dinamakan alternativeform methods atau double-testtrial method. Metode ini
berkaitan dengan penggunaan dua buah tes yang sama atau relatif sama kepada
peserta didik yang sama. Kesamaan yang dimaksud pad tes adalah kesamaan-
kesamaan tujuan, tingkat kesukaran, dan susunan bahasa.

Metode ekuivalen atau paralel digunakan untuk mengatasi kelemahan


yang terjadi oada metode tes ulang. Ketika dua tes yang digunakan ternyata
berbeda, maka faktor carry over effect tidak menjadi masalah lagi, walaupu bisa
saja faktor mengingat pada jawaban tes pertama sedikit berpengaruh pada tes
kedua, khususnya apabila ditemukan soal yang benar-benar mirip bahkan sama.

Namun tes paralel memiliki kelemahan yaitu penggunaan tes paralel lebih
mahal dan tidak praktis dibandingkan metode tes ulang. Kelemahan berikutnya
adalah sangat sukar membuat dua buah tes yang benar-benar homogen. Hal yang
paling utama adalah tidak adanya jaminan apakah kedua tes yang dugunakan
benar-benar mengukur hal yang sama. Dengan demikian, dua tes yang dirancang
kurang baik akan menghasilkan reliabiitas yang rendah (Surapranata, 2004)

Kesulitan dalam metode ini adalah mengembangkan 2 frm yang bersifat


paralel tersebut, terutaman pada tes yamg mengukur atribut kepribadian. Didala
praktek sangat sulit mengembangkan dua form yang betul-betul paralel.
Olehkarena itu tes ini jarang digunakan dalam tes mengukur kepribadian.

8.3.4 Belah Dua (Split Half Methods)

Metode ini merupakan metode yang sangat sederhana yaitu (a)


menyelenggrakan satu kali tes (b) membagi tes tersebut menjadi dua bagian yang
sama (sama banyak soalnya) dan (c) mengkorelasikan skor kedua belahan ini
untuk mengestimasi reliabilitas tes (Supranata,2004). Metode belah dua dapat
mengatasi kesulitan pada tes ulang dan paralel. Metode ini memungkinkan
mengestimasi reliabilitas tanpa harus menyelengarakan tes dua kali . terdapat
berbagai macam cara mebagi suatu tes. Sebagai contoh 40 soal bahasa indosesia
dibagi menjadi dua bagian. Bagian pertama no 1 sampai no 20 bagian kedua no 21
sampai no 40.kemungkinan kedua belahan ini menghasilkan reliabilitas yang
sangat rendah . misalnya saja soal nomor-nomor awal merupakan soal yang relatif
mudah dibandingkan soal akhir hal ini mungkin saja menjadi kelemahan pada
peserta tes saat mengerjakan soal belahan kedua.

b. Persamaan Flanagan
persamaan lain yang dapat digunakan untuk menentukan reliabilitas belah
dua adalah persamaan flanagan yaitu :
𝑆¹+𝑆 ²
r11 = 2 ( 𝑆2
)
¹

r11 = reliabilitas tes

𝑆 2 = varian belahan dua


2
𝑆 2 = varian belahan pertama
1
𝑆 2 = varian total
𝑡
c. Persamaan Rulon

Berangkat dari asumsi paralelelisme dalam tes yang memiliki form


lebih dari saru, rulon (1939, dalam crocker dan Algina 1986) berpendapat bahwa
variansi perbedaan sjor merupakan setimasi variansi error. Oleh karena itu Rulon
menawarkan persamaan guna memperoleh estimasi reliabilitas dengab persamaan
𝑆 𝑑²
berikut : r11 = 1 𝑆2
¹

2
r11 = reliabilitas tes, 𝑆 = varian beda, d= perbedaan skor belahan pertama dan
¹
2
kedua 𝑆 = varian total
¹

Anda mungkin juga menyukai