Anda di halaman 1dari 11

Bowo Sugiharto: Validitas dan Reliabilitas, hal: 1

BAB VII
ANALISIS INSTRUMEN
A. Standar Kompetensi
Mahasiswa mampu melakukan analisis instrumen.
B. Kompetensi Dasar
1. Mahasiswa dapat melakukan analisis validitas instrumen.
2. Mahasiswa dapat melakukan analisis reliabilitas instrumen.
C. Isi Materi
1. Validitas
Validitas berasal dari bahasa Inggris dari kata validity yang berarti
keabsahan atau kebenaran. Dalam konteks alat ukur atau instrumen asesmen,
validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam
melakukan fungsi ukurnya. Sebuah instrumen yang valid akan menghasilkan data
yang tepat seperti yang diinginkan. Sebagai contoh, jika kita ingin mengetahui
berat maka alat ukur yang tepat adalah timbangan atau neraca bukan meteran,
termometer, atau alat yang lain. Dengan kata lain, s ifat valid memberikan
pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang
sesungguhnya dari apa yang diinginkan.
Contoh di atas barang kali terlalu sederhana dan mudah untuk mengecek
dan mengendalikannya. Berbeda halnya jika kita akan mela kukan pengukuran
dalam dunia pembelajaran atau dunia pendidikan, tidak sesederhana seperti pada
pengukuran berat ataupun panjang. Untuk mengetahui alat ukur prestasi belajar
apakah valid atau tidak maka perlu dipelajari dengan hati -hati.
Validitas sangat berkaitan dengan tujuan pengukuran. Validitas tidak
berlaku secara umum bagi semua pengukuran. Suatu tes mempunyai hasil ukuran
yang baik (valid) untuk suatu tujuan tertentu yang sepesifik tetapi tidak valid
untuk tujuan yang lain atau bahkan untuk tujuan y ang sama pada kelompok yang
lain.
Linn & Gronlund (2000) mengemukakan hakikat validitas tes dan asesmen
sebagai berikut.
1. Validitas menyatakan ketepatan interpretasi hasil bukan pada prosedurnya.
2. Validitas merupakan persoalan yang berkaitan dengan derajat (tingkatan),
sebagai konsekuensinya kita harus menghindari pemikiran hasil asesmen
sebagai valid atau tidak valid. Oleh karena validitas adalah persoalan
derajad maka sebuah instrumen dapat dikategorikan mempunyai derajad
validitas tinggi, sedang, dan rendah.
3. Validitas selalu bersifat khusus untuk penggunaan atau interpretasi
tertentu. Tidak ada asesmen yang valid untuk semua tujuan. Sebagai
contoh, hasil tes aritmatika mungkin mempunyai tingkat validitas yang
tinggi untuk kemampuan hitung, validitas yang r endah untuk alasan-alasan
aritmatika, dan mempunyai derajat validitas sedang untuk memprediksi
kesuksesan prestasi matematika yang akan datang.
4. Validitas merupakan kesatuan konsep. Hakikat konsep validitas dipandang
sebagai sebuah kesatuan konsep berdasark an berbagai macam bagian dari
fakta.
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 2
5. Validitas melibatkan sebuah keputusan evaluatif yang menyeluruh.
a. Macam-macam Validitas
Validitas dapat dibedakan menjadi 3 macam yaitu validitas isi ( content
validity), validitas konstruksi (construct validity), dan validitas berdasar kriteria
(criterion related validity). Validitas berdasar kriteria dapat dibedakan menjadi
dua macam yaitu, validitas konkuren (validitas ada sekarang, concurent validity)
dan validitas prediktif (predictive validity).
1) Validitas Isi (Content Validity)
Validitas isi disebut juga validitas kurikuler. Oleh karena itu, validitas ini
erat kaitannya dengan materi yang akan diukur dalam tes. Tentu saja materi yang
dimaksud adalah materi yang terdapat dalam kurikulum. Validitas isi
mencerminkan sejauh mana butir-butir dalam tes mencerminkan materi yang
disajikan dalam kurikulum. Sebuah tes dikatakan memiliki validitas isi jika butir -
butir tes bersifat representatif terhadap isi materi dalam kurikulum tersebut.
Pengujian validitas isi tidak melalui prosedur pengujian secara statistik,
melainkan melalui analisis secara rasional. Pengetahuan terhadap kurikulum
menjadi dasar berpijak yang penting untuk dapat melakukan analisis validitas isi.
Cara yang praktis untuk melakukan analisis validitas i si adalah dengan melihat
apakah butir-butir tes telah disusun sesuai dengan blue-print (kisi-kisi) yang sudah
dirancang sebelumnya. Blue print menjadi acuan dalam menuangkan domain atau
ranah dan indikator yang akan diukur dalam tes.
2) Validitas Konstruk (Construct Validity)
Validitas konstruk adalah validitas yang menyangkut bangunan teoretik
variabel yang akan diukur. Sebuah tes dikatakan mempunyai validitas konstruk
apabila butir-butir soal yang disusun dalam tes mengukur setiap aspek berpikir
dari sebuah variabel yang akan diukur melalui tes tersebut.
Seperti halnya validitas isi, untuk mempertinggi validitas konstruk dapat
dilakukan dengan cara memerinci dan memasangkan setiap butir soal dengan
setiap aspek. Pengujian validitas konstruk diperlukan an alisis statistik yang
kompleks seperti prosedur analisis faktor.
Salah satu prosedur pengujian validitas konstruk yang tidak terlalu
kompleks dapat dilakukan dengan pendekatan multi-trait multi-method. Dua atau
lebih trait yang diukur melalui dua atau lebi h metode dapat diuji secara serentak
dengan pendekatan ini, sehingga akan diperoleh adanya bukti adanya validitas
diskriminan dan validitas konvergen.
Validitas diskriminan ditunjukkan oleh rendahnya korelasi antara faktor
skala atau tes yang mengukur trai t yang berbeda terutama bila digunakan metode
yang sama. Validitas konvergen ditunjukkan oleh tingginya korelasi skor tes -tes
yang mengukur trait yang sama dengan menggunakan metode yang berbeda.
3) Validitas Berdasarkan Kriteria
Sesuai dengan namanya,val iditas ini didasarkan pada kriteria tertentu.
Dengan demikian bukti adanya validitas ditunjukkan adanya hubungan
korelasional skor pada tes yang bersangkutan dengan skor suatu kriteria.
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 3
Pengujian validitas ini bersifat empirik, artinya pengujian hanya dapa t
dilakukan setelah mendapatkan data di lapangan. Apabila berdasarkan hasil
analisis yang dilakukan terhadap data hasil pengamatan di lapangan terbukti
bahwa tes hasil belajar dapat mengukur hasil belajar yang seharusnya diungkap
secara tepat maka berarti alat tes tersebut mempunyai validitas empirik. Untuk
keperluan pengujian jenis validitas ini dapat dilakukan dengan dua cara yaitu dari
segi kemampuannya dalam melakukan ramalan ( predictive validity) serta daya
ketepatan bandingannya (concurent validity).
Perbedaan utama antara validitas ramalan dengan validitas bandingan
adalah ketersediaan pembanding (kriterium). Pada validitas ramalan , kriterium
diperoleh pada waktu yang akan datang setelah dilakukan tes yang akan diukur
validitasnya tersebut. Sedangkan pada validitas bandingan, kriterium sudah ada
atau dapat diperoleh pada saat yang sama dengan waktu untuk memperoleh data
tentang tes yang akan diukur validitasnya tersebut tanpa harus menunggu masa
yang akan datang.
a) Validitas ramalan (predictive validity)
Sebagai ilustrasi adalah adanya tes masuk Perguruan Tinggi Negeri.
Setelah melalui serangkaian tes maka hanya calon mahasiswa yang mempunyai
skor tinggi yang diterima oleh panitia seleksi mahasiswa baru. Sesungguhnya
keputusan panitia seleksi yang hanya menerima mahasiswa yang mempunyai skor
tinggi saja berarti sudah memprediksikan bahwa calon mahasiswa dengan skor
tinggi tersebut kelak yang akan lebih berhasil dalam studinya. Sedangkan para
calon mahasiswa yang mempunyai skor sedang apalagi rendah dipr ediksikan akan
banyak menemui kendala dalam studinya. Oleh karena itu tes yang digunakan
dalam seleksi calon mahasiwa baru tersebut akan mempunyai tingkat validitas
prediktif yang tinggi apabila secara empirik terbukti bahwa prestasi belajar
mereka juga baik. Dengan demikian antara skor tes masuk dengan prestasi belajar
harus mempunyai korelasi yang positif.
Pada kasus di atas, yang dipermasalahkan validitasnya adalah tes masuk.
Oleh karena itu hasil belajar pada masa perkuliahan digunakan sebagai tolok uku r
(kriterium). Adanya kesejajaran, kesesuaian, kesamaan arah antara tes seleksi
masuk dengan hasil belajar mempunyai korelasi yang positif.
b) Validitas bandingan (Concurent Validity)
Validitas ini sering pula disebut sebagai validitas ada sekarang, validi tas
sama saat, validitas pengalaman, dan validitas empiris. Disebut sebagai validitas
ada sekarang karena pengujiannya berdasarkan pengalaman yang saat ini sudah
ada di tangan. Disebut sebagai validitas sama saat karena validitas ini segera dapat
kita peroleh informasinya pada saat yang sama dengan waktu diperolehnya data
hasil tes yang diukur validitasnya tersebut. Disebut validitas pengalaman (empiris)
karena validitas ini dikaitkan dengan pengalaman yang sudah ada. Dalam hal ini
pengalaman digunakan sebagai kriterium.
Guna menentukan validitas bandingan ini tidak perlu menunggu waktu
untuk membuktikannya. Seperti disebutkan pada alenia di atas bahwa yang
berfungsi sebagai kriterium adalah data hasil pengalaman. Apabila data dari tes
yang ada sekarang mempunyai hubungan yang searah dengan data hasil
pengalaman maka dikatakan telah mempunyai validitas bandingan.
b. Faktor-faktor yang mempengaruhi validitas
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 4
Banyak faktor yang menyebabkan hasil asesmen tidak valid. Beberapa di
antaranya tampak jelas dan mudah untuk menghindarinya. Tidak ada guru yang
akan berpikir untuk mengukur pengetahuan biologi dengan asesmen matematika.
Demikian pula juga tidak ada guru yang akan mengukur kemampuan
memecahkan masalah (problem solving) biologi kelas 7 SMP dengan
menggunakan asesmen yang didesain untuk kelas 12 SMA. Dalam dua contoh
tersebut sudah sangat jelas hasil asesmen akan menjadi tidak valid.
Faktor yang mempengaruhi validitas tes antara lain:
1. Faktor dari dalam tes itu sendiri
Pengujian terhadap butir tes secara hati-hati akan menunjukkan apakah tes
yang digunakan untuk mengukur isi materi atau fungsi -fungsi mental yang akan
diases oleh guru. Bagaimanapun juga, beberapa faktor berikut dapat menjaga
butir tes dari fungsi yang dikehendaki dan dengan demikian juga terj aga dari
rendahnya validitas hasil asesmen. Lima faktor yang pertama dapat diterapkan
sejajar dengan asesmen penampilan siswa secara luas ser ta tes-tes tradisional.
Lima faktor yang terakhir lebih diterapkan secara langsung terhadap tes pilihan
dan tes dengan jawaban singkat dengan jawaban benar atau salah.
a. Petunjuk yang tidak jelas. Petunjuk yang tidak jelas menyebabkan siswa
kehilangan waktu untuk sekedar memahami petunjuk pengerjaan atau bahkan
tidak dapat melakukan apa yang seharusnya dilakukan.
b. Penggunaan kosa kata dan struktur kalimat yang sulit. Penggunaan kosa kata
atau struktur kalimat yang sulit dapat menyebabkan siswa terjebak untuk
pemahaman terhadap pemahaman maksud dari sebuah pertanyaan bukan
untuk menyelesaikan pertanyaan itu sendiri.
c. Ambiguitas. Ambiguitas yaitu adanya kemungkinan multi tafsir juga
menyebabkan menurunnya validitas sebuah tes.
d. Alokasi waktu yang tidak cukup. Seyogyanya sebuah tes disediakan waktu
yang cukup untuk mengerjakan seluruh butir tes yang ada. Kekurangan waktu
dalam menyelesaikan sebuah tes bisa jadi bukan karena siswa tidak mampu
untuk menyelesaikan tesnya tetapi karena keterbatasan kesempatan untuk
mengerjakannya.
e. Penekanan yang berlebihan terhadap aspek tertentu, sehingga terlalu mudah
ditebak kecenderungan dari jawaban soal akan menyebabkan menurunnya
tingkat validitas soal.
f. Kualitas butir tes yang tidak memadai untuk mengukur hasil belajar . Kualitas
yang tidak memadai misalnya tes dimaksudkan untuk megukur kemampuan
berpikir tingkat tinggi (higher order thinking) jelas tidak cukup hanya
digunakan tes yang bersifat untuk mengungkap pengetahuan faktual saja.
g. Susunan tes yang jelek.
h. Tes terlalu pendek.
i. Penyusunan butir tes yang tidak runtut .
j. Pola jawaban yang mudah ditebak, misalnya pada soal pilihan ganda
jawabannya adalah A semua, atau B semua atau menunjukkan pola tertentu
misalnya D, C, B, A, D, C, B, A, dan sebagainya.
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 5
2. Faktor berfungsinya tes dan prosedur mengajar .
3. Faktor administrasi dan penskoran. Pemberian skor terhadap jawaban
siswa (testee) harus dilakukan secara hati-hati jangan sampai salah tulis
atau meremehkan selisih angka walaupun hanya sedikit. Hal ini akan
menyebabkan hasil pengujian terhadap validitas akan memberikan makna
yang berbeda.
4. Faktor tanggapan siswa. Tanggapan siswa yang tidak serius bias anya
dijumpai pada saat siswa diminta untuk mengisi sebuah angket. Hal ini
akan menyebabkan siswa mengisi angket secara sembarangan karena
merasa tidak penting maupun alasan -alasan yang lain. Oleh karena itu
berikan angket pada waktu dan kondisi yang tepat .
5. Hakikat kelompok dan kriteria. Seperti sudah dijelaskan di atas bahwa
validitas bersifat spesifik. Sebuah asesmen atau instrumen alat ukur
mungkin hanya valid untuk kelompok tertentu saja dan tidak valid untuk
kelompok yang lain. Sebagai contoh misalnya sebuah tes diujicobakan
pada sekelompok siswa pada sebuah sekolah dengan kualitas biasa -biasa
saja tentu akan berbeda hasilnya jika tes yang sama diberikan pada
sekelompok siswa pada sekolah yang favorit.
2. Reliabilitas
Pada bagian di atas telah dibahas mengenai validitas. Val iditas adalah
sebuah evaluasi terhadap ketepatan interpretasi dan penggunaan hasil asesmen.
Validitas mempunyai arti sejauh mana ketepatan dan kecermatan alat ukur mampu
melakukan fungsi ukurnya. Selain validitas, alat ukur yang baik juga harus
reliabel.
Oleh karena itu, alat ukur yang baik adalah alat ukur yang valid dan
reliabel. Hubungan antara validitas dengan reliabilitas dapat digambarkan
sebagaimana tembakan yang selalu tepat mengenai sasaran yang diinginkan,
seperti ilustrasi pada gambar di bawah ini.
a.Valid dan reliabel b. Tidak valid dan tidak reliabel c. Tidak valid tetapi reliabel
Gambar 1. Validitas dan Reliabilitas
Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat
dipercaya (tahan uji). Sebuah tes dikatakan mempunyai reliabilitas yang tinggi
jika tes terebut memberikan data hasil yang ajeg (tetap) walaupun diberikan pada
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 6
waktu yang berbeda kepada responden yang sama. Hasil tes yang tetap atau
seandainya berubah maka perubahan i tu tidak signifikan maka tes tersebut
dikatakan reliabel. Oleh karena itu reliabilitas sering disebut dengan
keterpercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya.
Seperti diuraikan di atas sebuah alat ukur yang baik harus valid d an
reliabel. Namun demikian validitas lebih penting dibandingkan dengan
reliabilitas. Reliabilitas merupakan penyokong validitas. Sebuah alat ukur yang
valid selalu reliabel. Akan tetapi alat ukur yang reliabel belum tentu valid, seperti
digambarkan pada ilustrasi di atas.
Seperti halnya validitas, reliabilitas juga merupakan tingkatan. Tingkat
atau kadar reliabilitas dinyatakan dengan koefisien reliabilitas. Berikut ini akan
dibahas macam-macam metode mencari besarnya koefisien reliabilitas.
a. Metode Mencari Koefisien Reliabilitas
1) Metode Tes Ulang (Test Retest Method)
Metode ini diterapkan untuk menghindari adanya penyusunan dua seri tes.
Teknisnya adalah sebuah tes yang sama diberikan dua kali kepada responden yang
sama dengan jarak waktu tertentu. Jika hasil tes pertama mempunyai kesejajaran
dengan hasil tes yang kedua maka tes tersbut dikatakan reliable. Oleh karena
pengujian ini dilakukan terhadap sebuah tes yang diujicobakan dua kali maka
sering disebut pula sebagai single-test-double-trial-method.
Kelemahan metode ini adalah jika jeda waktu tes terlalu singkat sedangkan
soal tes banyak mengungkapkan aspek pengetahuan maka responden cenderung
masih mengingat materi yang diteskan, sehingga ada kemungkinan hasil tes yang
kedua lebih baik daripada hasil te s pertama. Sebaliknya jika jeda waktu tes
pertama dengan kedua terlalu lama dikhawatirkan banyak faktor serta situasi dan
kondisi sudah banyak berubah dan mempengaruhi hasil tes yang kedua.
2) Metode Tes Sejajar (Equivalent)
Metode ini mengharuskan adanya dua buah seri soal yang mempunyai
kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetpai butir -butir
soalnya berbeda. Dengan kata lain, dua buah tes yang digunakan harus sejajar
(paralel, equivalen). Koefisien relibiabilitas diperoleh dengan me ngkorelasikan
hasil tes pertama dengan hasil tes kedua. Oleh karena metode ini menggunakan
dua buah tes yang berbeda dan diteskan pada siswa yang sama maka disebut juga
doubl test double trial method. Sudah tentu metode ini akan menambah
kerepotan. Inilah kelemahan metode ini.
Kelebihan dari metode ini adalah dapat memperbaiki kelemahan pada
metode pertama yaitu terhindarnya dari kondisi siswa masih mengingat materi
tes pertama. Aspek ingatan dan hafalan pada pengerjaan tes pertama tidak
terbawa pada saat mengerjakan tes yang kedua.
3) Metode Tes Tunggal (Single Test Single Trial)
Metode tes tunggal dilihat dari kepraktisannya lebih praktis dari pada dua
metode sebelumnya. Metode ini hanya melakukan sekali tes kepada sekelompok
subjek. Dengan demikian tidak perlu menunggu waktu maupun harus mempunyai
data dari tes sejenis untuk dapat menentukan reliabilitasnya.
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 7
Koefisien reliabilitas dapat diperoleh dengan cara membelah instrumen
menjadi dua, tiga, empat, atau bahkan sebanyak butir yang dimiliki oleh
instrumen tersebut. Teknik perhitungannya tergantung pada banyaknya belahan,
bentuk, serta sifat alat ukurnya. Beberapa teknik yang sering digunakan untuk
menentukan koefisien reliabilitas dengan metode tes tunggal ini antara lain:
Formula-formula Kuder Richardson (KR
20
dan KR
21
), Formula Spearman-Brown,
Formula Rulon, Formula Alpha, Formula C. Hoyt, Formula Analisis Varians,
Formula Kristof, Formula Flanagan, dan sebagainya.
a) Formula Kuder Richardson (KR
20
)
Formula KR
20
dapat diterapkan pada instrumen yang yang mempunyai
data skor dikotomi dari tes yang seolah -olah dibagi-bagi menjadi belahan
sebanyak butir yang dimiliki. Hasil perhitungan dengan rumus KR
20
lebih teliti,
tetapi perhitungan lebih rumit.
Rumus:
Keterangan:
r
11
= koefisien reliabilitas
n = banyaknya butir soal
s
2
= varians skor total
p = proporsi subjek yang menjawab soal secara benar
q = proporsi subjek yang menjawab soal secara salah (q = 1 p)
Contoh perhitungan koefisien reliabilitas dengan KR
20
:
b) Formula Kuder Richardson (KR
21
)
Formula KR
21
lebih sederhana dalam perhitungannya. Kelemahannya
adalah kurang teliti dibandingkan dengan KR
20
. Rumusnya adalah sebagai
berikut:
Keterangan:
r
11
= koefisien reliabilitas
n = banyaknya butir soal
1 = bilangan konstan
M
t
= mean total (rata-rata hitung dari skor total)
S
t
2
= varian total
c) Formula Spearman-Brown
Formula Spearman-Brown hanya dapat diterapkan pada soal yang
mempunyai jumlah butir genap. Formula ini menggunakan teknik belah dua ( split
half method), yaitu soal dibelah menjadi 2 bagian (belahan ganjil dan belahan
genap atau belahan kiri dengan belahan kanan ). Kedua belahan tersebut sejajar.
Formulanya adalah sebagai berikut:
|
|

'

|

'

=
_
2
2
11
s
pq s
1 - n
n
r
, )
|
|

'

'

=
) (S (n)
M - n M
1
1 - n
n
r
2
t
t t
11
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 8
Keterangan:
r
11
= koefisien reliabilitas
r
hh
= koefisien korelasi product moment antara skor belahan satu
dengan skor belahan yang lain
1 & 2 = bilangan konstan
c) Formula Rulon
Formula Rulon ini juga dapat diterapkan dengan belah dua ( split half
method) seperti halnya pada formula Spearman -Brown. Hanya saja cara
pandannya terhadap reliabilitas be rbeda dengan Spearman-Brown. Menurut Rulon
reliabilitas dapat dipandang dari adanya selisih skor yang diperoleh oleh
responden pada belahan pertama dengan belahan kedua. Selisih tersebut yang
menjadi sumber variasi error sehingga bila dibandingkan dengan v ariasi skor akan
dapat menjadi dasar untuk melakukan estimasi reliabilitas tes. Formula Rulon
adalah sebagai berikut.
Keterangan:
r
11
= koefisien reliabilitas
S
d
2
= varians perbedaan skor belahan
S
t
2
= varians skor total
1 = bilangan konstan
d) Formula Alpha
Formula-formula di atas (Spearman-Brown, KR, Rulon) hanya berlaku
untuk soal objektif yang mempunyai kemungkinan jawaban benar dan salah.
Sedangkan untuk soal yang mempunyai gradualitas skor jawaban misalnya pada
soal uraian ataupun pada angket ( tes sikap) formula yang paling pas adalah
dengan menggunakan Formula Alpha. Hal ini dimungkinkan karena Formula
Alpha mengakomodasi adanya variasi skor dalam setiap butir soal. Rumus yang
digunakan adalah sebagai berikut.
Keterangan:
r
11
= koefisien reliabilitas
S
i
2
= varians skor tiap-tiap butir soal
S
t
2
= varians skor total
1 = bilangan konstan
hh
hh
11
r 1
2r
r
+
=
2
t
2
d
11
S
S
1 r =
|
|

'

'

=
_
_
2
t
2
i
11
S
S
1
1 - n
n
r
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 9
e) Formula C. Hoyt
Berbeda dengan formula-formula yang lain, C. Hoyt memandang bahwa
sebuah tes dapat dipandang sebagai sebuah interaksi faktorial di mana skor-skor
tes dianggap sebagai hasil eksperimen. Dalam hal ini, berlaku sebagai faktor I
adalah subjek (responden) sedangkan faktor II adalah butir soal. Dengan demikian
masing-masing sel terdiri atas satu subjek, untuk selanjutnya dapat dicari interaksi
antara subjek dengan butir soal.
Kelebihan formula ini adalah dapat diterapkan baik pada soal yang
mempunyai skor dikotomi 1 dan 0 maupun pada soal yang mempunyai variasi
skor pada butirnya (tes sikap maupun tes uraian). Rumus yang digunakan adalah
sebagai berikut.
Keterangan:
r
11
= koefisien reliabilitas
MK
e
= mean kuadrat interaksi antara subjek dengan butir soal
MK
s
= mean kuadrat antarsubjek
1 = bilangan konstan
f) Formula Flanagan
Reliabilitas pada formula Flanagan tidak didasarkan pada ada tidaknya
korelasi antara belahan I dengan belahan II. Dasar dari formula Flanagan adalah
jumlah kuadrat deviasi (varians) pada tes belahan I, jumlah kuadrat (varians)
deviasi pada tes belahan II, dan jumlah kuadrat deviasi (varians) skor total.
Formula yang digunakan adalah sebagai berikut:
Keterangan:
r
11
= koefisien reliabilitas
S
1
2
= varians skor belahan 1
S
2
2
= varians skor belahan 2
S
t
2
= varians skor total
2 & 1 = bilangan konstan
k. Faktor-faktor yang mempengaruhi reliabilit as
1. Jumlah butir tes
Umumnya semakin besar jumlah butir soal tes samakin tinggi pula
reliabilitasnya. Hal ini terjadi karena semakin panjang tes (semakin banyak butir
soal) sehingga semakin banyak perilaku yang terukur dengan lebih tepat. Skor-
skor yang diperoleh tepat dan kemungkinan sedikit mengalami penyimpangan
(distorsi) oleh adanya faktor -faktor yang sudah biasa dikenal dengan sebuah tes
yang diberikan atau kurangnya pemahaman terhadap apa yang diharapkan pada
sebuah tes yang diberikan.
s
e
11
MK
MK
1 r =
|
|

'
+
=
2
t
2
2
2
1
11
S
S S
1 2 r
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 10
2. Penyebaran skor
Sebagai catatan awal, koefisien reliabilitas secara langsung dipengaruhi
oleh penyebaran skor dalam kelompok yang diukur. Hal-hal lain menjadi sama,
semakin besar penyebaran skor maka semakin besar pula indeks reliabilitas yang
diperoleh. Karena semakin besar indeks reliabilitas yang dihasilkan ketika
individu-individu berada pada posisi yang relatif sama dalam sebuah kelompok
sebuah asesmen dengan asesmen yang lain, hal ini secara alami mengikuti bahwa
segala sesuatu yang mengurangi kemungkinan bergeser nya posisi dalam
kelompok juga turut andil dalam memperbesar koefisien reliabilitas. Dalam kasus
ini, semakin besar perbedaan skor individu mengurangi kemungkinan pergeseran
pososi. Dengan kata lain kesalahan dalam pengukuran kurang berpengaruh
terhadap posisi relatif individu ketika perbedaan -perbedaan di antara anggota-
anggota kelompok yang besar. Hal ini terjadi ketika skornya tersebar luas.
3. Objektivitas
Objektivitas sebuah alat ukur menyatakan derajad untuk pemberi skor
kompeten yang sama mendapatkan ha sil yang sama. Sebagian besar tes bakat dan
tes prestasi standar mempunyai objektivitas yang tinggi. Butir-butir skor tes
objektif seperti pilihan ganda dan skor yang dihasilkan tidak dipengaruhi oleh
keputusan dan pendapat pemberi skor. Semakin tinggi tin gkat objektivitas tes
semakin tinggi pula tingkat reliabilitasnya.
4. Metode estimasi reliabi litas
Saat menguji koefisien reliabilitas tes standar, memutuskan metode yang
digunakan untuk menentukan besarnya koefisien reliabilitas merupakan hal yang
penting. Secara umum, besarnya koefisien reliabilitas berkaitan erat dengan
metode yang digunakan untuk estimasi reliabilitas.
a. Metode tes ulang (Test Retest Method) : mungkin hasilnya lebih besar
dibandingkan dengan metode belah dua jika interval waktunya pendek. Koefisien
reliabilitas yang dihasilkan menjadi lebih kecil jika interval waktu tesnya
ditingkatkan.
b. Tes sejajar (Equivalent Test) tanpa waktu interval: Koefisien reliabilitas
cenderung lebih rendah dibandingkan dengan metode belah dua atau tes ulang
yang menggunakan interval waktu singkat.
c. Tes Sejajar dengan interval waktu: koefisien menjadi lebih kecil seiring
dengan peningkatan interval waktu tes.
d. Metode belah dua (Split-half Method): Metode ini menyediakan sebuah
indikasi konsistensi internal t es.
D. Tugas Terstruktur
Pak Umar Bakri ingin mengetahui a pakah soal ulangan Biologi yang dibuatnya
sudah valid dan reliabel untuk mengukur hasil belajar materi sistem pernapasan.
Untuk keperluan ini, Pak Umar Bakri melakukan uji coba pada sejumlah siswa.
Hasil uji coba tersebut adalah sebagai berikut.
No
Resp.
No. Butir Soal
1 2 3 4 5 6 7 8 9 10
1 1 1 1 1 1 0 0 1 1 0
2 1 1 1 1 1 1 0 1 1 0
3 1 1 0 1 1 1 0 1 1 0
4 1 1 0 1 0 0 0 1 0 0
Bowo Sugiharto: Validitas dan Reliabilitas, hal: 11
No
Resp.
No. Butir Soal
1 2 3 4 5 6 7 8 9 10
5 1 0 1 0 0 1 0 1 1 0
6 1 0 0 1 0 0 0 1 0 0
7 1 0 0 1 0 0 0 1 0 0
8 1 0 0 1 0 0 0 1 0 0
9 1 0 0 1 0 1 0 1 1 0
10 0 1 1 1 0 1 0 1 1 1
11 1 0 0 1 0 0 0 1 0 0
12 1 1 1 1 0 1 0 1 1 0
13 1 0 1 1 0 0 0 1 1 0
14 1 0 0 1 0 0 0 1 1 0
15 1 0 1 1 0 0 1 0 1 0
16 1 0 0 1 0 1 0 1 1 0
17 1 1 1 1 0 1 0 1 1 1
18 1 0 0 1 0 1 0 1 1 0
19 1 0 1 1 0 1 0 1 1 0
20 1 0 0 1 0 0 0 1 1 0
Pertanyaan:
a. Butir soal nomor berapakah yang mempunyai koefisien validitas paling
rendah?
b. Butir soal nomor berapakah yang mempunyai koefisien validitas paling
tinggi?
c. Berapakah koefisien reliabilitas tes tersebut jika dihitung dengan formula
Sperman-Brown?
Daftar Pustaka
Arikunto, S. 1995. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara
Azwar, S. 2002. Tes Prestasi Fungsi dan Pengembangan Pengukuran Prestasi
Belajar. Edisi II. Yogyakarta: Pustaka Pelajar.
Linn, R.L, Grondlund, N.E. 2000. Measurement and Assessment In Teaching .
Eighth edition. New Jersey: Merril an imprint of Prentice Hall.
Sudjiono, A. 2005. Pengantar Evaluasi Pendidikan. Jakarta: PT Raja Grafindo
Persada.