Anda di halaman 1dari 26

VALIDITAS DAN RELIABILITAS INSTRUMEN TES DAN NONTES

Disusun untuk memenuhi tugas Evaluasi Pembelajaran Matematika


Dosen Pengampu: Dr. Kartono, M.Si
Rombel: 01













Oleh:
1. Dian Teguh F.
2. Ulfah Rubiati
3. Elmy Melani




JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI SEMARANG
2010

A. Validitas Tes
1. Konsep Validitas
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang
dilakukan oleh penyusun atau pengguna instrumen untuk mengumpulkan data secara
empiris guna mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan
validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.
Di dalam buku Encyclopedia of Educational Evaluation yang ditulis oleh Scarvia
B. Anderson dan kawan-kawan disebutkan:
A test is valid if it measures what it purpose to measure. Atau jika diartikan sebuah
tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Validitas
sebuah tes dapat diketahui dari hasil pemikiran dan dari hasil pengalaman.
Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya,
namun yang terpenting adalah harus mampu mengukur sasaran ukurnya. Hal ini berarti
bahwa validitas merupakan ciri instrumen yang terpenting. Berbagai usaha dilakukan
untuk meningkatkan validitas instrumen, baik langsung ataupun tidak berhubungan
dengan peningkatan validitas instrumen itu sendiri. Untuk menjadi valid maka suatu
instrumen harus dikonstruksi dengan baik dan mencakup materi yang benar-benar
mewakili sasaran ukurnya. Validitas instrumen bersifat relatif terhadap situasi tertentu
dan tergantung pada kondisi tertentu. Instrumen yang mempunyai validitas tinggi
terhadap tujuan atau kegunaan tertentu mungkin akan mempunyai validitas sedang atau
mungkin rendah terhadap tujuan lainnya.
Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas.
Kelima aspek tersebut secara bersama-sama berfungsi sebagai ukuran validitas umum
atau standar untuk semua pengukuran psikologis dan pendidikan. Kelima aspek tersebut
adalah:
(1) Substansi.
Aspek substansi validitas mencakup verifikasi proses utama dalam pengungkapan
tugas penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan
pemodelan proses. Ketika menentukan substansi instrumen, seseorang perlu
mempertimbangkan dua hal pokok: Pertama, tugas penilaian harus mewakili materi
yang akan dinilai. Kedua, penilaian harus ditetapkan berdasarkan fakta-fakta empiris.
(2) Strukrur pensekoran.
Strukrur pensekoran harus secara rasional konsisten dengan apa yang diketahui
tentang sifat hubungan struktural dari keberadaan konstruk yang dipersoalkan.
Struktur internal penilaian harus konsisten dengan apa yang diketahui tentang struktur
internal dari domain konstruk.
(3) Ketergeneralisasian.
Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dan konstruk. Hal ini
memungkinkan penafsiran skor untuk penggeneralisasian secara luas dalam konstruk
yang ditetapkan. Fakta seperti kemampuan generalisasi tersebut tergantung pada
tingkat korelasi suatu tugas dengan tugas lainnya yang juga mewakili konstruk atau
aspek-aspek konstruk.
(4) Faktor-faktor eksternal.
Aspek eksternal dari validitas mengacu pada tingkat hubungan skor assessment
dengan ukuran lain dan perilaku nonassessment yang mencerminkan tinggi, rendah,
dan hubungan interaksi antara konstruk yang ditetapkan.
(5) Akibat dari validitas.
Akibat validitas meliputi bukti dan dasar pemikiran dalam mengevaluasi konsekuensi
penafsiran dan menggunakan skor yang tidak diharapkan dan yang diharapkan.
Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibat yang
merugikan bagi individu dan kelompok yang dihubungkan dengan penyimpangan
dalam penskoran dan penafsiran.
2. Jenis-jenis Validitas
Berdasarkan jenisnya ada dua macam validitas, yaitu validitas logis dan validitas
empiris.
a. Validitas logis
Istilah validitas logis mengandung kata logis berasal dari kata logika, yang
berarti penalaran. Dengan makna demikian maka validitas logis untuk sebuah
instrumen yang memenuhi persyaratan validberdasarkan hasil penalaran. Kondisi
valid tersebut dipandang terpenuhi karena instrumen yang bersangkutan sudah
dirancang secara baik, mengikuti teori dan ketentuan yang ada. Sebagaimana
pelaksanaan tugas lain misalnya membuat sebuah kerangan. Jadi, validitas logis tidak
perlu diuji kondisinya tetapi langsung diperoleh sesudah instrumen tersebut selesai
disusun.
b. Validitas empiris
Istilah validitas empiris memuat kata empiris yang artinya pengalaman.
Sebuah instrumen dapat dikatakan memiliki validitas empiris apabila sudah diuji dari
pengalaman. Sebagai contoh sehari-hari, seseorang dapat diakui jujur oleh
masyarakat apabila dalam pengalaman dibuktikan bahwa orang tersebut memang
jujur. Jadi, validitas empiris tidak dapat hanya dengan menyusun instrumen
berdasarkan ketentuan seperti halnya validitas logis, tetapi harus dibuktikan melalui
pengalaman.
Berdasarkan cara pengambilan keputusan untuk menyatakan valid dan tidaknya
sebuah instrumen, menurut Crocker dan Algina (1986) membedakan tiga jenis validitas,
yaitu validitas isi, validitas konstruk, validitas relasi kriteria.
a. Validitas isi
Sebuah tes dikatakan memiliki validitas isi apabila mengkaji kepadanan sampel
(materi atau isi pelajaran) yang terdapat dalam suatu instrumen. Oleh karena materi
yang diajarkan tertera dalam kurikulum maka validitas isi ini sering disebut validitas
kurikuler.
Validitas isi dapat diusahakan tercapainya sejak saat penyusunanan dengan cara
merinci materi kurikulum atau materi buku pelajaran. Bagaiman cara merinci materi
untuk kepentingan diperolehnya validitas isi sebuah tes akan dibicarakan secara lebih
mendalam pada waktu menjelaskan cara penyusunan tes. Validitas isi biasanya
digunakan untuk menyebut validitas instrumen tes.
b. Validitas konstruk
Sebuah tes dikatakan memiliki validitas apabila butir-butir soal yang membangun
tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan dalam tujuan
instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek berpikir
tersebut sudah sesuai dengan aspek berpikir yang menjadi tujuan instruksional.
Validitas konstruk mengkaji sifat-sifat psikologis yang menjelaskan keragaman
skor responden dalam instrumen tertentu. Validitas ini biasanya digunakan untuk
menyebut validitas instrumen non tes.
Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan
validitas kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-
syarat yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997).
Validitas konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak,
dengan gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak
dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur
konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembambangkan
diujicobakan secara empiris.
c. Validitas relasi kriteria
Sebuah tes dikatakan memeiliki validitas relasi kriteria apabila membandingkan
skor responden dengan satu atau lebih variable eksternal. Variabel eksternal bisa
berupa criteria bahwa tes diharapkan memprediksi, seperti hubungan dengan tes lain
yang diduga mengukur konstruk yang sama dan tes lain yang mengukur hal yang
berbeda. Kriteria adalah variabel perilaku yang akan diprediksi oleh skor tes.
Dalam penetuan koefisien relasi kriteria dapat diperoleh melalui dua prosedur
yang berebeda dari segi waktu pengambilan data (skor) kriterianya,yaitu validitas
konkuren dan validitas prediktif. Validitas prediktif diperoleh apabila pengambilan
skor criteria tidak bersamaan dengan pengambilan skor tes. Apabila skor tes dan skor
kriterianya diperoleh dalam waktuyang relatif sama, maka koefisien korelasi antara
variable itu merupakan koefisien validitas konkuren.

Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir
instrumen dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui
pengkajian secara teoretis dan secara empiris, yang mencakup:
(1)menjelaskan pokok bahasan dan sub pokok bahasan;
(2)menetapkan pokok bahasan dan subpokok bahasan yang diukur oleh setiap butir
instrumen;
(3)mencocokkan butir-butir instrumen dengan pokok bahasan dan subpokokbahasan
yang diukurnya.
3. Cara mengetahui validitas alat ukur
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium,
dalam arti memiliki kesesajaran antara hasil tes tersebut dengan kriterium. Teknik yang
digunakan untuk mengetahui kesejajaran adalah teknik korelasi product moment yang
dikemukakan oleh Pearson.
Rumus korelasi product moment ada dua macam, yaitu:
a. Korelasi product moment dengan simpangan, dan
b. Korelasi product moment dengan angka kasar.
Rumus korelasi product moment dengan simpangan:






Keterangan:
xy
r = koefisien korelasi antara variabel X dan variabel Y, dua variabel yang
dikorelasikan ( X X x = dan Y Y y = )
xy
= jumlah perkalia x dan y
2
x = kuadrat dari x
2
y = kuadrat dari y
Rumus korelasi product moment dengan angka kasar:







Jika diperbandingkan dengan validitas soal yang dihitung dengan rumus
simpangan, ternyata terdapat perbedaan sebesar 0,003, lebih besar yang dihitung dengan
( )( )

=
2 2
y x
xy
xy
r

( )( )
( ) ( ) ( ) ( )
2
2
2
2




=
Y Y N X X N
Y X XY N
r
XY

rumus simpangan. Hal ini wajar karena dalam mengerjakan perkalian atau penjumlahan
jika diperoleh 3 atau angka di belakang koma dilakukan pembulatan ke atas. Perbedaan
ini sangat kecil sehingga dapat diabaikan.
Untuk memperjelas pengertian tersebut dapat disampaikan keterangan sebagai
berikut:
- Korelasi positif menunjukkan adanya hubungan sejajar antara dua hal. Misalnya hal
pertama nilainya naik, hal kedua ikut naik. Sebaliknya jika hal pertama turun, yang
kedua ikut turun.
- Korelasi negatif menunjukkan adanya hubungan kebalikan antara dua hal. Misalnya
hal pertama nilainya naik, justru yang kedua turun. Sebaliknya jika yang pertama
turun, yang kedua naik.
Keadaan hubungan antara dua hal yang kita jumpai dalam kehidupan sehari-hari
tidak selalu hanya positif atau negatif saja, tetapi mungkin 0. Besarnaya korelasi pun
tidak menentu.
Koefisien korelasi selalu terdapat antara 1,00 sampai +1,00. Namun karena dalam
menghitung sering dilakukan pembulatan angka-angka, sangat mungkin diperoleh
koefisien >1,00. Koefisien negatif menunjukkan hubungan kebalikan sedangkan
koefisien positif menunjukkan adanya kesejajaran untuk mengadakan intrepetasi
mengenai besarnya koefisien korelasi adalah sebagai berikut:
o Antara 0,8001,00 : sangat tinggi
o Antara 0,6000,800 : tinggi
o Antara 0,4000,600 : cukup
o Antara 0,2000,400 : rendah
o Antara 0,000,200 : sangat rendah
Penafsiran harga koefisien korelasi ada dua cara, yaitu:
1. Dengan melihat harga r dan diinterpretasikan misalnya korelasi tinggi, cukup, dan
sebagainya.
2. Dengan berkonsultasi ke tabel harga kritik rproduct moment sehingga dapat diketahui
signifikan tidaknya korelasi tersebut. Jika harga r lebih kecil dari harga kritik dalam
tabel, maka korelasi tersebut tidak signifikan. Begitu juga sebaliknya.
4. Validitas butir soal atau validitas item
Di samping mencari validitas soal perlu juga dicari validitas item. Pengertian umum
untuk validitas item adalah demikian sebuah item dikatakan valid apabila mempunyai
dukungan yang besar terhadap skor total. Skor pada item menyebakan skor total menjadi
tinggi atau rendah. Dengan kata lain dapat dikemukakan bahwa sebuah item memiliki
validitas yang tinggi jika skor pada item mempunyai kesejajaran dengan skor total.
Kesejajaran ini dapat diartikan dengan korelasi sehingga untuk mengetahui validitas item
digunakan rumus korelasi.
Contoh perhitungan:
TABEL ANALISIS ITEM UNTUK PERHITUNGAN VALIDITAS ITEM
No. Nama
Butir soal/item Skor
total 1 2 3 4 5 6 7 8 9 10
1. Hartati 1 0 1 0 1 1 1 1 1 1 8
2. Yoyok 0 0 1 0 1 0 0 1 1 1 5
3. Oktaf 0 1 0 0 0 1 0 1 0 1 4
4. Wendi 1 1 0 0 1 1 0 0 1 0 5
5. Diana 1 1 1 1 1 1 0 0 0 0 6
6. Paul 1 0 1 0 1 0 1 0 0 0 4
7. Susana 1 1 1 1 1 1 1 0 0 0 7
8. Helen 0 1 0 1 1 1 1 1 1 1 8
Keterangan:
Skor 1 bagi item yang dijawab benar
Skor 0 bagi item yang dijawab salah.
Akan dihitung validitas item untuk soal nomor 6. Maka skor item no.6 disebut
variabel X dan skor total disebut variabel Y.
Untuk menghitung validitas item nomor 6, dibuat terlebih dahulu tabel
persiapannya sebagai berikut.
TABEL PERSIAPAN UNTUK MENGHITUNG VALIDITAS ITEM NOMOR 6
No. Nama X Y
1. Hartati 1 8
2. Yoyok 0 5
Keterangan:
X = skor item nomor 6
Y = skor total
Dari perhitungan kalkulator diperoleh data sebagai
berikut:
6 =

X 6
2
=

X 17 , 6 =
p
X
46 =

Y 288
2
=

Y 75 , 0
8
6
= = p
37 =

XY 57 , 5 =
t
X 25 , 0
8
2
= = q
Data dimasukkan ke dalam rumus korelasi product moment dengan angka kasar
sebagai berikut:

( )( )
( ) ( ) ( ) ( )
2
2
2
2




=
Y Y N X X N
Y X XY N
r
XY

( )( )
2 2
46 288 8 6 6 8
46 6 37 8


=
XY
r



( )( ) 2116 2304 36 48
276 297


=


188 12
20

=



2256
20
=


421 , 0
497 , 47
20
= =

Koefisien validitas item nomor 6 adalah 0,421. Dilihat sepintas bilangan ini
memang sesuai dengan kenyataannya. Validitas item tersebut kurang meyakinkan. Tentu
saja validitasnya tidak tinggi.
3. Oktaf 1 3
4. Wendi 1 5
5. Diana 1 6
6. Paul 0 4
7. Susana 1 7
8. Helen 1 8
Masih ada cara lain untuk menghitung validitas item. Salah satu cara yang terkenal
adalah menggunakan rumus
pbi
yang rumus lengkapnya adalah sebagai berikut:






Keterangan:

pbi
= koefisien korelasi biserial
M
p
= rerata skor dari subjek yang menjawab betul bagi item yang dicari
validitasnya
M
t
= rerata skor total
S
t
= standar deviasi dari skor total
p = proporsi siswa yang menjawab benar

|
|
.
|

\
|
=
siswa seluruh jumlah
benar menjawab yang siswa banyak
p
q = proporsi siwa yang menjawab salah
(q = 1 - p)
Apabila item 6 dicari validitasnya dengan rumus ini maka perhitungannya melelui
langkah-langkah sebagai berikut:
1. Mencari
17 , 6
6
37
6
8 7 6 5 3 8
= =
+ + + + +
=
p
M
2. Mencari
75 , 5
8
46
8
8 7 4 6 5 3 5 8
= =
+ + + + + + +
=
t
M
3. Dari perhitungan diperoleh harga standar deviasi, yaitu 7139 , 1 =
n
o atau
8323 , 1
1
=
n
o . Untuk n kecil, diambil standar deviasi yang 7139 , 1 =
n
o .
q
p
S
M M
t
t p
pbi

=

4. Menentukan harga p, yaitu 75 , 0
8
6
=
5. Menentukan harga q, yaitu 25 , 0
8
2
= atau 25 , 0 75 , 0 1 =
6. Memasukkan ke rumus
pbi

q
p
S
M M
t
t p
pbi

=

25 , 0
75 , 0
7139 , 1
75 , 5 17 , 6
=

7321 , 1
7139 , 1
42 , 0
=

4244 , 0 =

Dari perhitungan validitas item 6 dengan dua cara ternyata hasilnya berbeda tetapi
sangat kecil, yaitu 0,0034. Mungkin hal ini disebabkan karena adanya pembulatan angka.
5. Tes standar sebagai kriterium dalam menentukan validitas
Tes terstandar (standardized test) adalah tes yang telah dicobakan berkali-kali
sehingga dapat dijamin kebaikannya. Sebuah tes terstandar biasanya memiliki identitas
antara lain: sudah dicobakan berapa kali dan di mana, berapa koefisien validitas,
reliabilitas, taraf kesukaran, daya pembeda dan lain-lain keterangan yang dianggap perlu.
Cara menentukan validitas soal yang menggunakan tes terstandar sebagai kriterium
dilakukan dengan mengalikan koefisien validitas tes terstandar tersebut.
Dari tabel sebelumnya, jika dari tes terstandar diketahui bahwa validitasnya 0,89
maka bilangan 0,421 belum merupakan validitas soal mata pelajaran yang dicari.
Validitas tersebut harus dikalikan dengan 0,89 yang hasilnya 21449 , 0 89 , 0 421 , 0 = .
6. Validitas faktor
Selain validitas soal secara keseluruhan dan validitas butir atau item, masih ada lagi
yang perlu diketahui validitasnya, yaitu faktor-faktor atau bagian keseluruhan materi.
Setiap keseluruhan materi pelajaran terdiri dari pokok-pokok bahasan atau mungkin
sekelompok pokok bahasan yang merupakan satu kesatuan.
Contoh:
Guru akan mengevaluasi penguasaan siswa untuk tiga pokok bahasan,yaitu:
persamaan linear satu variabel, himpunan, dan segiempat. Untuk keperluan ini guru
tersebut membuat 30 butir soal, untuk persamaan linear satu variabel 8 butir, untuk
himpunan 12 butir, dan untuk segiempat 10 butir.
Apabila guru ingin mengetahui validitas faktor, maka ada 3 faktor dalam soal ini.
Seperti halnya pengertian validitas butir, pengertian validitas faktor adalah sebagai
berikut: butir-butir soal dalam faktor dikatakan valid apabila mempunyai dukungan yang
besar terhadap soal-soal secara keseluruhan. Sebagai tanda bahwa butir-butir faktor
tersebut mempunyai dukungan yang besar terhadap seluruh soal, yakni apabila jumlah
skor untuk butir-butir faktor tersebut menunjukkan adanya kesejajaran dengan skor total.
Cara mengetahui kesejajaran tersebut digunakan juga rumus korelasi product
moment. Misalnya kita akan mengetahui validitas factor 1, yakni soal-soal untuk materi
persamaan linear satu variabel, kita bisa membuat tabel kesejajaran skor faktor 1 dengan
skor total sama seperti ketika membuat tabel validitas pada item soal. Dan kemudian
dimasukkan ke dalam rumus korelasi product moment. Harga r yang diperoleh
menunjukkan indeks validitas faktor 1. Untuk faktor 2 dan 3 caranya sama.
TABEL UNTUK MENGHITUNG KESEJAJARAN SKOR FAKTOR 1 DENGAN
SKOR TOTAL
Nama subjek Skor faktor 1
(X)
Skor faktor 2
(Y)
X
2
Y
2
XY
Amir 6 19 36 361 114
Hasan 7 25 49 625 175
Ninda 4 17 16 289 68
Warih 3 12 9 144 36
Irzal 8 29 64 841 232
Gandi 6 23 36 529 138
Santo 5 19 25 361 95
Tini 7 26 49 676 182
Yanti 5 16 25 256 80
Hamid 4 15 16 225 60
Dedi 7 26 49 676 182
Desi 8 30 64 900 240
Wahyu 5 20 25 400 100
Jumlah 75 277 463 6283 1702

7. Validitas Instrumen Nontes




B. Reliabilitas Tes
1. Konsep reliabilitas
Sudah diterangkan dalam persyaratan tes, bahwa reliabilitas berhubungan dengan
masalah kepercayaan. Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang
tinggi jika tes tersebut dapat memberikan hasil yang tetap. Maka pengertian reliabilitas
tes, berhubungan dengan masalah ketetapan hasil tes. Konsep reliabilitas ini tidak akan
sulit dimengerti apabila pembaca telah memahami konsep validitas.
Sehubungan dengan reliabilitas ini, Scarvia B. Anderson dan kawan-kawan
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabilitas ini penting. Dalam
hal ini validitas lebih penting, dan reliabilitas ini perlu, karena menyokong terbentuknya
validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya, sebuah tes yang
valid biasanya reliabel.
A reliable measure in one that provides consistent and stable indication of the
characteristic being investigated.
Untuk dapat memperoleh gambaran yang ajeg memang sulit karena unsur kejiwaan
manusia itu sendiri tidak ajeg. Misalnya: kemampuan, kecakapan, sikap, dan sebagainya
yang berubah dari waktu ke waktu.
Secara garis besar ada 3 hal yang mempengaruhi hasil tes, yaitu:
a. Hal yang berhubungan dengan tes itu sendiri, yaitu panjang tes dan kualitas butir-
butir solanya.
Tes yang terdiri dari banyak butir lebih valid dibandingkan dengan tes yang
hanya terdiri dari beberapa butir soal. Tinggi rendahnya validitas menunjukkan
tinggo rendahnya reliabilitas tes. Maka semakin panjang tes, maka reliabilitasnya
semakin tinggi. Dalam menghitung besarnya reliabilitas yang berhubung dengan
penambahan banyaknya butir soal dalam tes ini ada sebuah rumus yang diberikan
oleh Spearman dan Brown sehingga terkenal dengan rumus Spearman-Brown.
Rumusnya adalah:
r n
nr
r
nn
) 1 ( 1 +
=
Keterangan:
nn
r = besarnya koefisien reliabilitas sesudah tes tersebut ditambah butir soal
baru
n = berapa kali butir-butir soal itu ditambah
r = besarnya koefisien reliabilitas sebelum butir-butir soalnya ditambah
Adakalanya penambahan butir-butir soal tes tidak berarti bahkan adakalanya
merugikan. Hal ini disebabkan karena:
1) Sampai pada suatu batas tertentu, penambahan banyaknya butir soal sudah tidak
menambah tinggi reliabilitas tes.
2) Penambahan tingginyareliabilitas tes tidak sebanding nilainya dengan waktu,
biaya, dan tenaga yang dikeluarkan untuk itu. Kulaitas butir-butir soal
ditentukan oleh:
a) Jelas tidaknya rumusan soal
b) Baik tidaknya pengarahan soal kepada jawaban sehingga tidak
menimbulkan salah jawab
c) Petunjuknya jelas sehingga mudah dan cepat dikerjakan.
b. Hal yang berhubungan dengan tercoba (testee)
Suatu tes yang dicobakan kepada kelompok yang terdiri dari banyak siswa
akan mencerminkan keragaman hasil yang menggambarkan besar kecilnya
reliabilitas tes. Tes yang diobakan kepada bukan kelompok terpilih, akan
menunjukkan reliabilitas yang lebih besardaripada yang dicobakan pada kelompok
tertentu yang diambil secara dipilih.
c. Hal yang berhubungan dengan penyelenggaraan tes
Sudah disebutkan bahwa factor penyelenggaraan tes yang bersifat
administratif, sangat menentukan hasil tes.
Contoh:
1) Petunjuk yang diberikan sebelum tes dimulai, akan member ketenangan kepada
para tester dalam mengerjakan tes, dan dalam penyelenggaraan tidak akan
banyak terdapat pertanyaan
2) Pengawas yang tertib akan mempengaruhi hasil yang diberikan oleh siswa
terhadap tes
3) Suasana lingkungan dan tempat tes akan mempengaruhi hasil tes.
2. Cara-cara mencari besarnya reliabilitas
Untuk mengetahui ketetapan suatu tes dapat dilihat dari kesejajaran hasil. Seperti
halnya beberapa teknik juga menggunakan rumus korelasi product moment untuk
mengetahui validitas, rumus tersebut juga digunakan menentukan kesejajaran hasil dalam
reliabilitas tes.
Kriterium yang digunakan untuk mengetahui ketetapan ada yang berada di luar tes
(consistency external) dan pada tes itu sendiri (consistency internal).
a. Metode bentuk parallel (equivalent)
Tes paralel atau tes ekuivalen adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda. Dalam
istilah bahasa Inggris disebut alternate-form method (parallel forms).
Dalam menggunakan metode tes parallel ini pengetes harus menyiapkan dua
buah tes, dan masing-masing dicobakan pada kelompok siswa yang sama. Oleh
karena itu, ada yang menyebutkan double test-double-trial method. Penggunaan
faktor masih ingat soalnya yang dalam evaluasi disebut adanya practice-effect
dan carry-over effect, artinya ada faktor yang dibawa oleh pengikut tes karena
sudah mengerjakan soal tersebut.
Kelemahan dari metode ini adalah pengetes pekerjaannya berat karena harus
menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk
mencobakan dua kali tes.
b. Metode tes ulang (test-retest method)
Metode tes ulang dilakukan orang untuk menghindari penyusunan dua seri tes.
Dalam menggunakan metode ini pengetes hanya memiliki satu seri tes tetapi
dicobakan dua kali, dan metode ini sering disebut single-test-double-trial method.
Kemudian hasil kali tes tersebut dihitung korelasinya.
Untuk tes yang banyak mengungkap pengetahuan dan pemahaman, cara ini
kurang mengena karena tercoba akan masih ingat butir-butir soalnya. Tenggang
waktu dalam pemberian tes perlu diperhatikan karena factor ini juga mempengaruhi
reliabilitas tes.
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes
pertama. Hal ini tidak menjadi masalah karena pengetes harus sadar akan adanya
practice effect dan carry over effect. Yang terpenting adalah adanya kesejajaran
hasil atau ketetapan hasil yang ditunjukkan oleh koefisien korelasi yang tinggi.
Ketika pelaksanaan tes kedua pastilah tampak skornya naik, tetapi kenaikannya
dialami oleh seluruh siswa yang dites. Metode ini juga disebut self-correlation
method karena mengkorelasikan hasil dari tes yang sama.
c. Metode belah dua (split-half method)
Kelemahan penggunaan dua metode sebelumnya dapat diatasi dengan metode
ketiga yaitu metode belah dua. Dalam menggunakan metode ini pengetes hanya
menggunakan sebuah tes dan dicobakan satu kali, yang biasa disebut single-test-
single-trial method.
Pada metode belah dua tidak dapat ditafsirkan langsung koefisien korelasinya,
tetapi pada waktu membelah dua dan mengkorelasikan dua belahan, baru diketahui
reliabilitas separo tes. Untuk mengetahui reliabilitas seluruh tes harus digunakan
rumus Spearman-Brown sebagai berikut:






Keterangan:
|
.
|

\
|
+
=
2
1
2
1
2
1
2
1
11
1
2
r
r
r

2
1
2
1
r = korelasi antara skor-skor setiap belahan tes.
11
r = koefisien reliabilitas yang sudah disesuaikan.
Banyak pemakai metode ini salah membelah hasil tes pada waktu
menganalisis. Yang perlu diperhatikan adalah dalam membelah item atau butir soal
bukan mengelompokkan separo hasil peserta tes dan separo yang lain kemudian
mengkorelasikannya. Bagi pemakai metode ini harus ingat bahwa banyaknya butir
soal harus genap agar dapat dibelah.
Ada dua cara membelah butir soal ini yaitu:
1) Membelah atas item-item genap dan item-iten ganjil yang disebut belahan
ganjil-genap
2) Membelah atas item-item awal dan item-item akhir yaitu separo jumlah pada
nomor-nomor awal dan separo pada nomor-nomor akhir yang disebut belahan
awal-akhir.
Contoh perhitungan reliabilitas dengan metode belah dua
TABEL ANALISIS ITEM TES MATEMATIKA
No. Nama
Nomor item 1,3,5,
7,9
2,4,6,
8,10
1,2,3
,4,5
6,7,8
,9,10
1 2 3 4 5 6 7 8 9 10 Skor
total
ganjil genap awal
Akhir
1. Hartati 1 0 1 0 1 1 1 1 1 1 8 5 3 3 5
2. Yoyok 0 0 1 0 1 0 0 1 1 1 5 3 2 2 3
3. Oktaf 0 1 0 0 0 1 0 1 0 1 4 0 4 1 3
4. Wendi 1 1 0 0 1 1 0 0 1 0 5 3 2 3 2
5. Diana 1 1 1 1 1 1 0 0 0 0 6 3 3 5 1
6. Paul 1 0 1 0 1 0 1 0 0 0 4 4 0 3 1
7. Susan 1 1 1 1 1 1 1 0 0 0 7 4 3 5 2
8. Helen 0 1 0 1 1 1 1 1 1 1 8 5 5 3 5



1) Pembelahan ganjil-genap
No. Nama
Item ganjil
(1,3,5,7,9)
(X)
Item genap
(2,4,6,8,10)
(Y)
1. Hartati 5 3
2. Yoyok 3 2
3. Oktaf 0 4
4. Wendi 3 2
5. Diana 3 3
6. Paul 4 0
7. Susan 4 3
8. Helen 5 5

2) Pembelahan awal-akhir
No. Nama
Item awal
(1,2,3,4,5)
(X)
Item akhir
(6,7,8,9,10)
(Y)
1. Hartati 3 5
2. Yoyok 2 3
3. Oktaf 1 3
4. Wendi 3 2
5. Diana 5 1
6. Paul 3 1
7. Susan 5 2
8. Helen 3 5

3) Penggunaan rumus Flanagon


|
|
.
|

\
|
+
=
2
2
2
2
1
11
1 2
t
S
S S
r


Keterangan:
11
r = reliabilitas tes
2
1
S = varians belahan pertama (varian skor item ganjil)
2
2
S = varians belahan kedua (varians skor item genap)
2
t
S = varians total yaitu varians skor total
4) Penggunaan rumus Rulon







Keterangan:
2
d
S = varians beda
d = difference yaitu prebedaan antara skor belahan pertama dengan skor
belahan kedua
5) Penggunaan rumus K-R. 20






Keterangan:
r
11
= reliabilitas tes secara keseluruhan
p = proporsi subjek yang menjawab item dengan benar
q = proporsisubjek yang menjawab item dengan salah (q=1-p)
2
2
11
1
t
d
S
S
r =

|
|
.
|

\
|
|
.
|

\
|

=

2
2
11
1 S
pq S
n
n
r

pq= jumlah hasil perkalian antara p dan q


n = banyaknya item
S = standar deviasi dari tes (akar dari varians)
Contoh penggunaan rumus K-R. 20 (biasa digunakan dalam kasus pilihan
ganda) :
Tabel perhitungan mencari reliabilitas tes dengan K-R. 20
No. Nama
Nomor item Skor
total 1 2 3 4 5 6 7
1. Wardoyo 1 0 1 1 1 1 0 5
2. Benny 0 1 1 0 1 1 1 5
3. Hanafi 0 0 0 0 1 0 1 2
4. Rahmand 0 1 1 1 1 1 1 6
5. Tanti 1 0 0 0 1 0 0 2
6. Nadia 0 1 1 1 1 0 0 4
7. Tini 0 0 0 1 1 1 0 3
8. Budi 0 1 0 1 1 0 0 3
9. Daron 0 1 0 1 1 0 0 3
10. Yakub 0 0 0 1 1 0 0 2
N
p
2 5 4 7 10 4 3 35
p 0,2 0,5 0,4 0,7 1 0,4 0,3
q 0,8 0,5 0,6 0,3 0 0,6 0,7
pq 0,16 0,25 0,24 0,21 0 0,24 0,21 1,31
Kemudian hasil dari tabel disubstitusikan ke dalam rumus K-R. 20
|
|
.
|

\
|
|
.
|

\
|

=

2
2
11
1 S
pq S
n
n
r

2
2
36 , 1
31 , 1 36 , 1
6
7
=

S = 1,56 (dicari dengan kalkulator)

85 , 1
31 , 1 85 , 1
17 , 1

=


85 , 1
54 , 0
17 , 1 =


3415 , 0 29 , 0 17 , 1 = =

Dibulatkan menjadi 0,342.
Jadi reliabilitas tes tersebut adalah 0,342.
6) Penggunaan rumus K-R. 21




Keterangan:
M = mean atau rerata skor total
7) Penggunaan rumus Hoyt

atau


keterangan:
r
11
= reliabilitas seluruh soal
V
r
= varians responden
V
s
= varians sisa
Untuk mencari reliabilitas suatu soal dilakukan dengan langkah-langkah
sebagai berikut:
(1) Mencari jumlah kuadrat responden
(2) Mencari jumlah kuadrat item
(3) Mencari jumlah kuadrat total
|
|
.
|

\
|

|
.
|

\
|

=
2 11
) (
1
1
t
nS
M n M
n
n
r

r
s
V
V
r =1
11
r
s r
V
V V
r

=
11
(4) Mencari jumlahkuadrat sisa
(5) Mencari varians responden dan varians sisa dengan tabel F
(6) Memasukkan ke dalam rumus r
11
3. Mencari reliabilitas tes bentuk uraian
Menilai soal bentuk uraian tidak dapat dilakukan dengan pemberian nilai benar
atau salaah. Suatu butir soal uraian menghendaki gradualisasi penilaian. Barangkali
butir soal nomor 1 penilaian terendah 0 tertinggi 8, tetapi butir soal nomor 2 nilai
tertinggi hanya 5, dan butir soal nomor 3 sampai 10, dan sebagainya.
Untuk keperluan mencari reliabilitas soal keseluruhan perlu juga dilakukan analisis
butir soal seperti halnya soal bentuk objektif. Skor untuk masing-masing butir soal
dicantumkan pada kolom item menurut apa adanya. Rumus yang digunakan adalah rumus
alpha sebagai berikut:





Keterangan:

11
r = reliabilitas yang dicari

2
i
o = jumlah varians skor tiap-tiap item

2
t
o = varians total
Contoh perhitungan mencari reliabilitas pada soal uraian:
TABEL ANALISIS ITEM
No. Nama
Nomor item Skor
total
Kuadrat
skor total 1 2 3 4 5 6
1. Hana 10 6 8 8 10 10 52 2704
2. Isna 6 4 4 6 6 5 31 961
3. Inay 8 2 6 8 7 8 39 1521
4. Tia 7 3 7 7 6 6 36 1296
|
|
.
|

\
|

|
.
|

\
|

=

2
2
11
1
1
t
i
n
n
r
o
o

5. Resti 0 5 3 2 4 4 18 324
6. Rika 2 4 2 8 6 8 30 900
7. Ani 4 3 6 6 6 6 31 961
8. Sita 5 5 5 7 7 7 36 1296
9. Tami 5 5 4 6 8 5 33 1089
10. Alfi 3 6 3 4 6 6 28 784
Jumlah 50 43 48 62 66 65 334 11836
Jumlah
kuadrat
328 201 264 418 458 451 2120


Dengan data yang tertera dalam tabel, dicari varians tiap-tiap item dahulu baru
dijumlahkan.
Ingat rumus varians, yaitu:
( )
N
N
X
X
2
2
2


= o atau
( )
N
X
N
X
t
t
t
2
2
2
= o
Varians untuk item no.1:
8 , 7
10
78
10
250 328
10
10
50
328
2
) 1 (
2
= =

= o
Varians untuk item no.2:
61 , 1
10
1 , 16
10
9 , 184 201
10
10
43
201
2
) 2 (
2
= =

= o
Varians untuk item no. 3:
36 , 3
10
6 , 33
10
4 , 230 264
10
10
48
264
2
) 3 (
2
= =

= o
Varians untuk item no. 4:
36 , 3
10
6 , 33
10
4 , 384 418
10
10
62
418
2
) 4 (
2
= =

= o
Varians untuk item no. 5:
24 , 2
10
4 , 22
10
6 , 435 458
10
10
66
458
2
) 5 (
2
= =

= o
Varians untuk item no. 6:
85 , 2
10
5 , 28
10
5 , 422 451
10
10
65
451
2
) 6 (
2
= =

= o
Jumlah varians semua item 22 , 21 85 , 2 24 , 2 36 , 3 36 , 3 61 , 1 8 , 7
2
= + + + + + =
i
o
04 , 68
10
4 , 680
10
6 , 11155 11836
10
10
334
11836
2
2
= =

=
t
o

Kemudian dimasukkan ke dalam rumus alpha
8256 , 0 688 , 0
5
6
) 312 , 0 1 (
5
6
04 , 68
22 , 21
1
1 6
6
11
= = = |
.
|

\
|

|
.
|

\
|

= r

Dengan diperolehnya koefisien korelasi yakni r
11
sebenarnya baru diketahui tinggi
rendahnya koefisien tersebut. Lebih sempurnanya penghitungan reliabilitas sampai pada
kesimpulan, sebaliknya hasil tersebut dikonsultasikan dengan tabel r product moment.
Bagi mahasiswa yang menulis skripsi dan ingin menguji reliabilitas angket yang
digunakan untuk mengumpulkan data, rumus alpha ini dapat juga diterapkan. Kesalahn
fatal yang sering kita jumpai adalah penggunaan teknik belah dua untuk menghitung
reliabilitas angket. Dalam menggunakan teknik belah dua, peneliti harus selalu ingat
persyaratannya, antara lain bahwa belahan pertama dengan belahan kedua yang dicari
kesejajarannya harus seimbang.
C. Kesalahan pengukuran Baku (standart error of measurement)
Kesalahan pengukuran baku berkaitan dengan nilai skor tes pada kelompok
tertentu. SEM mengukur variabel kesalahan dari sebuah pengukuran dan secara langsung
berhubungan dengan kesalahan variansi skor.
Rumus yang digunakan dalam kesalahan pengukuran baku adalah:


Keterangan:
SEM / SE = Standar Error Measurment
S
x
2
= varians
S
x
= akar varians / standar deviasi
Selain itu, kesalahan pengukuran baku berhubungan dengan nilai reliabilitas yang
ada.Begitu pula sebaliknya. Jika tes reliabilitas sama dengan 0, maka kesalahan
pengukuran baku sama dengan standart deviasinya, jika tes reliabilitasnya +1,00
merupakan kemungkinan terbesar, kesalahan pengukuran bakunya sama dengan 0. Jadi
semakin tinggi nilai reliabilitas pada suatu instrument baik tes maupun nontes, maka
semakin rendah tingkat kesalahan dalam pengukuran.










) 1 ( ) 1 (
2
xx x xx x
r S r S SE SEM = = =