Buku Uji Validitas Dan Reliabilitas PDF

H. MIFTACHUL ‘ULUM, ST.
,MM
BUKU
UJI VALIDITAS DAN UJI RELIABILITAS
Edisi Pertama
2016
1. PENDAHULUAN
A. Latar Belakang.
Kesadaran akan perbedaan individual, pengakuan bahwa individu tidaklah sama
satu dengan yang lainnya, tampak secara eksplisit ketika studi mengenai hal yang
dimulai oleh Sir Francis Galton (1822-1911) dengan mendirikan laboratorium
antropometrisnya guna mengembangkan pengukuran terhadap berbagai ketrampilan
sensori dan motorik. Di Perancis, atas desakan pentingnya membedakan antara anak
yang mampu dari yang tidak mampu belajar, Alfred Binet (1857-1911) menyusun alat
pengukuran intelegensi pertama pada pada tahun 1905 yang ternyata merupakan nenek
moyang berbagai test intelegensi dan test kemampuan psikologis lain yang banyak
dikenal sekarang. Seiring dengan itu, Karl Pearson (1857-1936) yang dikenal sebagai
Bapak Statistika, mengembangkan banyak tehknik statistika guna analisis data yang
melandasi teori-teori pengukuran yang ada sekarang termasuk koefesien korelasi product
moment yang sangat terkenal itu dan juga chi-square goodness-of-fit test.
Buku pertama mengenai teori pengukuran ditulis oleh E.L Thorndike dan
diterbitkan pada tahun 1904 berjudul An Introduction to The Theory of Mental and Social
Measure-ments. Enam tahun kemudian, definisi reliabilitas pertama kali dirumuskan oleh
Charles Spearman ditahun 1910 sewaktu ia memperkenalkan istilah reliability sebagai
koefesien korelasi antara satu belahan dan belahan lain dari berbagai pengukuran
terhadap hal yang sama.
Menjelang tahun 1937 reliabilitas test bentuk tunggal ditegakkan melalui
produser test ulang atau dengan membagi test menjadi dua bentuk pararel. Kemudian
ditahun 1937, Kuder dan Richardson menggunakan struktur varians-kovarians item dari
suatu test tunggal guna menghitung koefesien reliabilitas yang antara lain dikenal dengan
nama KR-20 dan KR-21. Di tahun 1939, sewaktu Kenneth H. Baker di USA dan W.B
Jackson di Inggris menerapkan analisis varians guna menguji item-item test, dimulailah
perpaduan antara pendekatan korelasional Pearsonian dan pendekatan rancangan

analisis eksperimental Fisherian. Beberapa tahun kemudian, Cyril Hoyt pun merintis
penggunaan analisis varians dalam menghitung reliabilitas.
Sekalipun dasar-dasar teori pengukuran yang ada sekarang ini dianggap telah
selesai dibangun pada tahun-tahun 1950-an, tetapi riset dibidang metode pengukuran
psikologi atau psikometri terus berlanjut. Berbagai tehnik dan formula komputasi telah
dikembangkan sejak itu. Analisis ulang dengan studi yang lebih mendalam telah
membuahkan modifikasi yang menjadikan formula-formula reliabilitas memperoleh
bentuknya yang lebih praktis dan sederhana, dan seiring dengan perkembangan
komputer yang meningkatkan kemampuan bekerja dengan banyak angka telah pula
dihasilkan formula yang lebih teruji serta estimasi yang lebih cermat. Hal ini tampak
antara lain dengan dirumuskannya formula komputasi reliabilitas untuk test belah tiga
(Kristoff, 1974) dan test belah dua dengan panjang berbeda (Feldt, 1975)
Di lain pihak, teori mengenai validitas sebelum tahun 1950 hampir seluruhnya
merupakan teori mengenai prediksi. Baru kemudian perhatian banyak ditujukan pada
interprestasi deskriptif dan eksplanatif suatu validitas dan tulisan-tulisanpun banyak
ditujukan pada interprestasi deskriptif dan teoritis serta persyaratan prosedurilnya. Aliran
ini dirintis oleh Coreton (1951). Aspek validitas mendapat tempat selayaknya setelah APA
(American Psychological Association) ditahun 1966 menerbitkan versi tunggal Standart
for Educational and Psychological Test. Di sini secara eksplisit validitas dibagi atas
criterion-related, content, dan construct validity.
Porsi terbesar buku ini diberikan bagi pembicaraan mengenai reliabilitas. Hal itu
bukan karena reliabilitas lebih penting dari pada validitas, tetapi karena reliabilitas
merupakan informasi pertama yang harus diperoleh oleh para pemakai test dan karena
bahan terbanyak yang harus dibicarakan adalah mengenai reliabilitas. Di samping itu,
ada beberapa hal yang berkaitan dengan masalah validitas yang akan lebih mudah
dimengerti bila pengertian mengenai reliabilitas telah dikuasai, misalnya pembicaraan
mengenai koreksi terhadap atenuasi dan pendekatan multi-trait multi-method validity.
Sebab itu pula pembicaraan mengenai reliabilitas didahulukan.

Semula buku kecil ini direncanakan sebagai bagian dari masalah teori
pengukuran yang disederhanakan. Namun kemudian, mengingat aspek praktisnya akan
lebih mungkin dimanfaatkan bila disertakan pula prosedur komputasi praktis, maka
beberapa contoh aplikasi diikut sertakan, bahkan dengan disertai pula oleh beberapa hal
khusus yang kadang-kadang diperlukan dalam estimasi reliabilitas alat ukur tertentu.
Asumsi bahwa pembaca sudah berbekal Statistika Dasar, tentu sangat pada
tempatnya. Namun berikut initetap diberikan beberapa simbol dan formula statistika yang
sangat erat berkaitan dengan prosedur komputasi reliabilitas dan validitas.
B. Sekedar Statistika.
N
1.  X i  X1  X 2  X 3  .....  X n
1
: Jumlah skor X i dimana i bergerak dari i = 1 sampai dengan i = N
2. N   Xi
N
: Mean distribusi X i (untuk populasi dilambangkan oleh u X )
2 (  Xi )2
X 
2 N
3. S  i
X N
2
: Varians distribusi X i (untuk populasi dilambangkan oleh σ )
X
( X i ) (  Yi )
 X i Yi 
4. S xy  N
N
: Kovarians distribusi Xi dan Yi. (untuk populasi dilambangkan oleh  XY )
5.
( X ) ( Y )
 XY -
r XY  N
   

2
2 _ (X)   2 (  Y )2 
 X   Y  
 N   N 
 
: Koefesien korelasi product-moment antara X dan Y – diseder-hanakan dari

berbagai subscripts. (untuk populasi dilambangkan oleh  XY )
2 RELIABILITAS
Kalau kita mengukur panjang sebuah meja kayu dengan menggunakan sebuah
meteran berulang-ulang, baik dalam tenggang waktu yang singkat maupun tenggang
waktu yang lama, maka hasil ukur kita akan dapat dipastikan selalu menunjukan angka
yang sama selama panjang meja tersebut memang belum berubah. Kita katakan bahwa
meteran tersebut reliabel, atau konsisten, atau dapat diandalkan, atau stabil. Demikian
pula kalau kita melakukan pengukuran terhadap variabel fisik lainnya, misalnya waktu
yang diperlukan oleh seorang perenang guna menempuh jarak 200 meter dengan
kecepatan rata-rata yang diperlukan oleh perenang tersebut dari start sampai finish. Bila
kecepatan rata-ratanya sama, maka waktu tempuhnya akan ditunjukan oleh stopwatch
tersebut konsisten. Kita katakan bahwa pengukuran oleh stopwatch tersebut konsisten.
Dalam pengukuran aspek fisik, reliabilitas pada umumnya sangat tinggi.
Hal yang berbeda akan kita jumpai dalam pengukuran aspek psikologis dan
sosial. Misalnya dalam pengukuran terhadap intelegensi, pengukuran terhadap sikap
masyarakat mengenai suatu hal, pengukuran terhadap kecenderungan mendapat
kecelakaan, pengukuran sifat kepemimpinan, dan lain sebagainya. Aspek sosial-
psikologis demikian tak dapat diukur dengan kepastian dan konsistensi yang tinggi
karena hasil ukurnya tidak dapat lepas dari pengaruh hal-hal tidak relevan di luar maksud
pengukuran, alat ukur itu sendiri sangat mungkin bukan alat yang tepat untuk mengukur
aspek yang kita inginkan dan dirancang tidak dengan cukup baik sehingga menimbulkan
penafsiran dan cara jawab yang berbeda-beda oleh subjek yang diukur, ingat bahwa
subjek ukur dalam hal ini adalah manusia. Kemudian cara penyajian test, suasana hati
dan sikap subjek terhadap test, motivasi, dan kondisi fisik subjek, keadaan ruang
pengujian, cara memberikan test, dan sebagainya sangat mungkin berpengaruh terhadap
jawaban apa yang diberikan oleh subjek sehingga walaupun aspek yang diukur pada
subjek sebenarnya tidak berubah akan tetapi andaikan dilakukan pengukuran ualang
terhadap subjek yang sama, sangat mungkin hasil yang diperoleh ternyata berbeda.
Dengan kata lain, hasil pengukuran tidak menjadi reliabel. Semua hal yang tidak relevan
yang ikut mempengaruhi hasil pengukuran merupak sumber ketidak reliabelan.
Kesalahan pengukuran yang merupakan komponen ketidak reliabelan memang lebih
banyak terdapat pada pengukuran sosial-psikologis daripada pengukuran aspek fisik.
Istilah reliabilitas sering disamakan dengan consistency, stability, atau
dependability, yang pada prinsipnya menunjukan sejauh mana pengukuran itu dapat
memberikan hasil yang relatif tidak berbeda bila dilakukan pengukuran kembali terhadap
subjek yang sama. Namun demikian, sebagaimana akan dibicarakan nanti, reliabilitas
alat ukur tidak harus selalu diuji dengan melakukan test ulang. Berbagai tehnik telah
memungkinkan pengujian reliabilitas dengan tidak memerlukan lebih dari satu kali
pengukuran.
Pendekatan dan penafsiran teoritis terhadap reliabilitas dapat ditempuh melalui
berbagai cara. Dalam pembahasan berbagai akan diikuti asumsi dan interpretasi dari
classical true score theory.
A. Beberapa Interpretasi.
Dalam classical true score theory, reliabilitas pengukuran yang dilambangkan
oleh  xx’ (  adalah huruf Yunani rho ) dapat dilihat dari berbagai interpretasi.
1.  xx’ = Korelasi antara observed-score (skor-tampak) dari dua alat yang pararel.
Dalam interpretasi ini, apabila setiap subjek mendapat skor yang sama pada test
X dan test X’ yang pararel, dan terdapat varians pada masing-masing distribusi
skor-tampak itu, maka kedua test tersebut mempunyai reliabilitas sempurna (  xx’
= 1.0 ). Apabila tidak semua subjek mendapat skor yang sama pada test X dan
test X’ , maka korelasi antara kedua test tidak sempurna (  xx’ < 1.0 ).
2 2
2.  xx’ =  / 
T X
Koefesien reliabilitas dinyatakan oleh rasio varians true-score (skor-murni)
terhadap varians skor-tampak, atau oleh proporsi varians skor-tampak yang
merupakan varians skor-murni.

2 2
Bila suatu test memiliki reliabilitas sempurna, maka harga  /  = 1.0, yaitu
T X
semua varians skor-tampak merupakan varians skor murni, tidak mengandung
varians kesalahan. Setiap perbedaan skor-tampak yang terjadi merupakan
2 2
perbedaan skor-murni,  =  . Dengan kata lain, pada reliabilitas yang
T X
sempurna, pengukuran terjadi tanpa kesalahan. Adanya kesalahan pengukuran
2 2
akan menyebabkan harga komponen  /  lebih kecil daripada 1.0 dan
T X
semakin kecillah proporsi varians skor-tampak yang merupakan varian skor-
murni dan test tersebut semakin kurang reliabel.
2
3.  xx’ = 
XT
Interpretasi ini menyatakan bahwa koefesien reliabilitas adalah sama dengan
kuadrat korelasi antara skor-tampak dan skor-murni. Jadi, misalnya kalau  xx’ =
.81, maka  XT = .90.
Bila  xx’ = .49, maka  XT = .70.
Bilamana 0.0 <  xx’ < 1.0, kita dapat melihat bahwa  xx’ < XT yaitu korelasi
skor-tampak dari dua test yang pararel. Hubungan ini dapat dilukiskan sebagai
berikut :
10 -
.9 -
.5 -
 XT
Gambar 2.1 hubungan

 xx’ dan  XT
I I I
0 .2.5 .X1 1.0 Sesungguhnya karena skor
 xx’
suatu test tidak dapat
berkolerasi dengan skor variabel lain lebih tinggi daripada dengan skor-murninya
sendiri, maka korelasi maksimal antara skor-tampak suatu test dengan skor-
tampak variabel lain adalah sama dengan  XT x atau sama dengan ρ xx'
yaitu akar kuadrat reliabilitasnya. Bila test X dianggap prediktor dan Y adalah
variabel kreterianya, maka korelasi X dan Y yaitu  XY disebut koefesien validitas.
Karena  XY tak dapat lebih besar daripada  XT x , maka  XY tidak pula dapat
lebih besar daripada ρ xx' . Jadi validitas akan dipengaruhi oleh reliabilitas.
2 2
4.  xx’ = 1 -  / 
E X
Interprestasi ini menghubungkan reliabilitas dengan error-variace (varians-
kesalahan) dan varians skor-tampak.
Apabila suatu pengukuran hanya berisi kesalahan random semata-mata, maka
2 2
varians skor-tampak merupakan varians kesalahan keseluruhnya,  =  .
E X
Dalam hal ini maka harga  xx’ = 1-1=0 artinya test tersebut sama sekali tidak
2
reliabel. Kalau pengukuran tidak mengandung kesalahan sama sekali, maka 
E
2 2
= 0 dan harga komponen  /  = 0 , dan  xx’ = 1 - 1= 0. Dengan kata lain
E X
reliabilitas test tersebut sempurna karena pengukuran yang dilakukan tanpa
kesalahan.
2
Varians (derajat heteroginitas) skor-tampak,  mempunyai pengaruh penting
X
terhadap reliabilitas. Bila di asumsikan bahwa varians kesalahan adalah konstan,
2 2
maka besarnya varians skor-tampak sangat menentukan harga  /  . Kalau
E X
2 2 2 2
sampel heterogen, maka haraga  /  akan kecil dan  xx’ = 1-  / 
E X E X
2 2
akan besar. Bila sampel homogen maka harga  /  akan besar dan dan 
E X
2 2
xx’ = 1-  /  menjadi kecil.
E X
Dengan kata lain, estimasi reliabilitas yang didasarkan data dari sampel yang
heterogen cenderung menghasilkan koefesien reliabilitas yang lebih tinggi
daripada kalau didasarkan pada data dari sampel yang homogen.
Kesimpulan Interpretasi.
Interpretasi reliabilitas menurut classical true-score theory dapat disimpulkan
sebagai berikut :
1. Bila  xx’ = 1 , maka :
a. Pengukuran dibuat tanpa kesalahan
b. Bagi semua subjek, X = T,
2 2
c. Semua varians skor-tampak merefleksikan varians skor-murni ( / 
X T
d. Perbedaan di antara skor-tampak merupakan perbedaan skor-murni
e. Korelasi antara skor-tampak dan skor-murni sama dengan 1, (  XT = 1)
f. Korelasi antara skor-tampak dengan kesalahan sama dengan 0, (  XE = 1)
2. Bila  XX = 0, maka :
a. Pengukuran berisi kesalahan random semata-mata,
b. Bagi semua subjek, X = E,
2
c. Semua varians skor-tampak merupakan varians kesalahan ( =
X
2
 )
E
d. Semua perbedaan diantara skor-tampak mencerminkan kesalahan
pengukuran.
e. Korelasi antara skor-tampak dan skor-murni adalah 0, (  XT = 0)

f. Korelasi skor-tampak dan kesalahan adalah 1, (  XE = 1)
3. Bila 0 <  XX’ < 1, maka :
a. Sebagian pengukuran mengandung kesalahan.
b. X = T = E
c. Varians skor-tampak terdiri atas varians skor-murni dan varians kesalahan (
2 2 2
 X=  T +  E)
d. Perbedaan di antara skor-tampak mungkin mencerminkan perbedaan skor-
murni maupun kesalahan pengukuran.
e.  XT = ρ xx'
f.  XE = 1 ρ XX'
2 2
g.  XX’ =  / 
T X
h. Makin besar  XX’ makin besarlah kepercayaan kita dalam mengestimasi T
dari X, karena varians kesalahan akan semakin kecil.
B. Metode - Metode Estimasi.
Harga koefesien reliabilitas yang sesungguhnya,  XX’ tidak di ketahui. Apa yang
dapat dilakukan adalah melakukan estimasi reliabilitas berdasarkan skor-tampak melalui
antara lain, metode-metode yang di uraikan dibawah ini yang akan menghasilkan harga 
XX’ sebagai estimasi terhadap  XX’ .
1. Metode Test-Retest.
Metode test-retest dilakukan dengan menggunakan test yang sama pada
kelompok subjek yang sama dua kali dengan memberi tenggang waktu yang cukup di
antara kedua penyajian tersebut. Dengan menghitung korelasi antara distribusi skor-
tampak kedua penyajian, akan di peroleh koefesien reliabilitas test yang bersangkutan.
Koefesien korelasi sempurna hanya akan diperoleh bila setiap subjek mendapat skor
yang sama pada kedua penyajian bila distribusi skor kelompok tersebut varians tidak
sama dengan nol.
Prosedur test-retest dapat dilakukan sebagai berikut :
_____
Subjek XI waktu X II
S1 X II X III
S2 X 2I X 2II
S3 X 3I X 3II
:
:
Sn X nI X nII
r XX’ = r I.II
Keterangan :
S I = Subjek yang ke i ; i = 1,2,3, …….., n
X j = Penyajian test X yang ke j ; j = I, II
X ij = Skor subjek ke i pada penyajian ke j
Contoh :
Subjek XI X II
A 40 42
B 43 43
C 39 38
D 52 50
E 50 51
F 44 45
G 44 44
H 51 49
I 48 49
J 47 46
N = 10  X I = 458  X II = 457
2 2
 X = 21160 X = 21037
I II
 X I X II = 21090
Tabel 2.1 : Distribusi skor test X pada penyajian pertama X I dan pada penyajian kedua
X II setelah tenggang waktu tertentu.
Koefeien reliabilitas test X dapat dihitung dengan menggunakan formula korelasi
product-moment dari pearson,

(458) (457)
21090 
r I.II  10
 (458) 2   (457) 2 


21160   21030  

10  

10 

r I.II  r XX'   .954

167.109
Metode test-retest sangat peka terhadap masalah carry-over effect di antara
kedua penyajian. Skor subjek pada penyajian kedua sangat mungkin dipengaruhi oleh
penyajian test yang pertama. Misalnya, bila subjek masih ingat jawaban yang diberikanya
pada penyajian pertama, ada kemungkinan pada penyajian kedua ia sekedar mengulangi
saja jawaban tersebut. Hal ini akan meningkatkan korelasi antara dua penyajian dan
dapat menyebabkan overestimasi terhadap  XX’ . Ada kemungkinan pula terjadi
peningkatan hasil test karena subjek berlatih dan belajar sesuatu dalam tenggang waktu
di antara kedua penyajian. Apabila peningkatan ini tidak searah dan tidak sama besar
pada semua subjek, maka korelasi r XX’ akan tercemar, akibatnya akan terjadi
underestimasi terhadap  XX’ .
Perubahan sikap subjek juga dapat mempengaruhi estimasi reliabilitas. Kalau
pada penyajian kedua subjek sikap negatif, menolak bekerja dengan bersungguh-
sungguh, atau dengan sengaja memberi jawaban sekenaknya , akan mengakibatkan
pula korelasi yang rendah
Masalah lain dalam prosedur test-retest adalah masalah menentukan lamanya
waktu yang harus disediakan di antara dua penyajian test. Kalau tenggang waktu terlalu
singkat, sangat mungkin terjadi carry-over effect akibat memory, practice, atau suasana
hati subjek. Bila tenggang waktu diberikan terlalu panjang, dapat mengakibatkan carry
over effect yang ditimbulkan oleh perubahan suasana hati subjek, atau bertambahnya
informasi yang diperoleh subjek dalam aspek yang diukur oleh test yang bersangkutan.
Karena itu metode test-retest lebih cocok untuk digunakan dalam mengestimasi
reliabilitas test yang mengukur traits yang stabil selama tenggang waktu penyajian dan
tak mudah dipengaruhi carry over effect.
Estimasi reliabilitas dengan metode parallel-forms dilakukan dengan menghitung
korelasi skor-tampak antara dua test yang pararlel yang disajikan pada kelompok subjek
yang sama. Dikarenakan hampir tidak mungkin untuk memperoleh dua test yang pararlel,
maka biasanya digunakan alternate-forms sebagai pengganti. Alternate-forms adalah
dua test yang mengukur satu trait yang sama dan disusun sedemikian rupa sehingga
menjadi separalel mungkin sehingga keduanya dapat mempunyai distribusi skor-tampak
dengan mean, varians, dan korelasi dengan test lain yang sama besar.
Kalau test X dan alternate-test Z dikenakan pada sekelompok subjek, dan skor-
tampak pada kedua test tersebut dikorelasikan maka koefesien korelasi r XZ yang
diperoleh akan mencerminkan reliabilitas test tersebut dan juga mencerminkan seberapa
pararlel keduanya. Prosedur ini dapat digambarkan sebagai berikut :
Subjek Test Alternate-test

X Z
S1 X1 Z1
S2 X2 Z2
S3 X3 Z3
:
:
Sn Xn Zn
r XX’ = r XZ
Keterangan :
S i = Subjek yang ke i
X i = Skor subjek yang ke I pada test X
Z i = Skor subjek yang ke I pada test Z
i = 1, 2, 3, ………., n
2. Metode
Contoh :
Subjek Nomor item Belahan

1 2 3 4 5 6 7 8 9 10 11 12 Y1 Y2 X
A 1 1 0 1 2 2 2 1 2 1 1 2 8 8 16
B 1 1 0 0 2 2 1 2 2 2 1 1 7 8 15
C 0 0 1 1 2 2 0 0 1 1 2 2 6 6 12
D 0 0 0 0 1 1 1 1 2 2 2 2 6 6 12
E 1 1 0 0 1 1 0 0 2 2 1 1 5 5 10
F 2 2 1 1 0 0 2 2 1 1 0 0 6 6 12
G 2 2 2 2 2 2 1 1 1 1 1 1 9 9 18
H 0 1 0 0 1 0 2 2 1 1 0 0 4 4 8
I 0 0 0 1 1 1 1 2 2 1 1 0 5 5 10
J 2 1 2 0 0 2 2 1 1 0 1 0 8 4 12
N = 10  Y1 = 64  Y2 = 61
2 2
Y = Y = 399
1 2
 Y1 Y2 = 407
Tabel 2.2 : Distribusi skor item-item bernomor ganjil (belahan Y1) dan skor item-item
bernomor genap (belahan Y2)
Sebagimana pada metode test-retest, korelasi antara skor X dan skor Z dihitung
dengan formula product moment.
Penggunaan prosedur estimasi reliabilitas dengan metode alternate-forms
ataupun parallel-forms tidak menjamin hilangnya carry over effect, terutama yang
diakibatkan oleh sikap, suasana hati, maupun cara respon subjek. Akibatnya dapat
berupa overestimasi maupun under-estimasi terhadap  XX’ . Disamping itu masalah
sulitnya menyusun dua test yang dapat dianggap alternate-form menjadi salah satu
kelemahan dan tidak praktisnya metode ini.
3. Metode Internal Consistency
Metode internal cosistency hanya memerlukan satu kali penyajian test saja
(dikenal dengan nama singel-trial administration) dan karena itu masalah-masalah yang
timbul akibat penyajian yang berulang dapat dihindari.
Salah satu prosedur dalam metode internal cosistency yang sangat populer
adalah yang menghasilkan estimasi reliabilitas split-half (belah dua). Test yang akan
diestimasi reliabilitasnya dibelah menjadi dua bagian yang diuasahan paralel.
Pembelahan ini dilakukan setelah keseluruhan test sebagai kesatuan dikenakan pada
para subjek. Kemudian dapat diperoleh distribusi skor-tampak subjek untuk belahan
pertama dan belahan ke dua.
Ilustrasinya sebagai berikut :

Subjek Test X
Belahan Belahan
Y1 Y2
S1 Y11 Y12
S2 Y21 Y22
S3 Y31 Y32
:
:
Sn Yn1 Yn2
Keterangan :
Si = Subjek yang ke i
Yj = Belahan ke j
Y ij = Skor subjek ke i pada belahan ke j
X = Y1 + Y2
i = 1, 2, 3, …………., n
j = 1, 2
Contoh
Contoh pada zetingan folio
Korelasi antara belahan Y1 dan belahan Y2 dihitung dengan tehnik product
moment menghasilkan :
(64)(61)
407 
ry y  10
1 2   
 64 2   612 
432   399  

 10   10 
r y1y2 = .676
Harga r y1y2 ini baru merupakan koefisien korelasi antara kedua belahan test,
belum merupakan koefisien reliabilitas test X. prosudur komputasi reliabilitas X
selanjutnya tergantung pada sifat distribusi kedua belahan.
a) Spearman-Brown Prophecy Formula
Apabila terdapat alasan kuat untuk menganggap bahwa belahan Y 1 dan Y2
adalah paralel, maka estimasi reliabilitas keseluruhan test X yaitu r XX’ dapat dilakukan
dengan menggunakan formula Spearman-Brown pada koefisien korelasi antara skor
pada belahan Y1 dan belahan Y2.
2r y1y2
r xx ' 
1  r y1y2
Dimana :
r Y1Y2 = Koefisien korelasi antara kedua belahan.
r XX’ = Koefisien reliabilitas keseluruhan test X.
Jadi kalau diperoleh korelasi sebesar r Y1Y2 = .676 dari kedua belahan, maka
koefisien reliabilitas test X adalah :
2 (0.676)
r xx' 
1  0,676
r XX’ = .8067
Harga r XX’ selalu akan lebih tinggi dari pada harga r Y1Y2 karena r XX’
adalah reliabilitas keseluruhan test, sedangkan r Y1Y2 merupakan reliabilitas seperdua
test. Kenaikan setelah dikenakannya formula Spearman-Brown untuk beberapa harga
reliabilitas dapat dilihat pada tabel berikut :
r Y1Y2 r XX’
.00 .00
.20 .33
.40 .57
.60 .75
.80 .89
1.00 1.00
Tabel 2.3. Kenaikan r Y1Y2 menjadi r XX’
Reliabilitas dan Panjang Test.
Reliabilitas baru r XX’ dikarenakan penambahan jumlah item ini sering pula
disebut stepped-up reliability. Untuk mendapatkan estimasi reliabilitas baru dengan
cermat sebagai efek memperpanjang test seperti diatas, suatu asumsi yang harus dapat
dipenuhi adalah asumsi mengenai homogenitas antara item-item dalam test setelah
perpanjangan. Hal itu dapat dicapai apabila item-item baru yang ditambahkan merupakan
komponen paralel bagi item-item yang sudah ada.

Hubungan antara banyaknya item baru yang ditambahkan dengan efek terhadap
peningkatan reliabilitas test tidak menunjukan hubungan linier. Tingginya koefisien
reliabilitas setelah perpanjangan test merupakan fungsi dari koefisien reliabilitas semula r
YY” dan J. Gambar berikut memberikan ilustrasi hubungan antara panjang test dengan
reliabilitas.
10 r yy’ = .80
r yy’ = .60
9 r yy’ = .40
8 r yy’ = .20
7
0 1 2 3 4 5 6 7 8 9 10
Gambar 2.2 : Efek penambahan item terhadap peningkatan reliabilitas test.
Tampak pada gambar 2.2 bahwa untuk test yang reliabilitasnya relatif rendah (
dalam gambar r yy’ = .20 ), penambahan item yang memperpanjang test menjadi 10 kali
lipatpun ( J = 10 ) tidak menjamin tercapainya reliabilitas yang sempurna. Namun
demikian, bila J terus bertambah besar mendekati  , maka reliabilitas test akan
mendekati r XX’ = 1.00 asalkan komponen yang ditambahkan adalah paralel dan
reliabilitas semua (r YY’) tidak sama dengan nol.
Spearman-Brown Prophecy Formula dapat pula digunakan untuk estimasi
reliabilitas yang akan diperoleh apabila dikehendaki untuk memperpendek test. Suatu
test yang mempunyai reliabilitas r XX’ dan akan diperpendek menjadi 1/J dari panjang
semula, akan mempunyai reliabilitas :
1/J ( r xx' )
r yy' 
1  (1/ J  1) r xx'
Contoh :
Misalkan suatu test yang berisi 100 item mempunyai reliabilitas r XX’ = .90
dan ingin diperpendek menjadi hanya 60 item. Reliabilitas test tersebut setelah
diperpendek dapat diestimasi sebagai berikut :
r xx' ( 1  r yy' )
J 
r yy' ( 1  r xx' )
Dimana :
R YY’ = Reliabilitas semula
R XX’ = Reliabilitas yang dikehendaki
J = Rasio jumlah item test yang baru dan jumlah item test semula.
Contoh :
Bila reliabilitas semula r YY’ = .30 dan ingin ditingkatkan menjadi r XX’ = .60,
maka :
J  .60 ( 1  .30 )
.30 ( 1  .60 )
J = 3 12
Kalau jumlah item semula adalah k, maka banyaknya item baru yang harus
ditambahkan adalah sebanyak Jk - k. Andaikan item test semula berjumlah k = 20,
dengan J = 3 12 maka item baru yang harus ditambahkan adalah sebanyak 3 12 (20) -
20 = 50 item
Tampaklah bahwa untuk menaikan reliabilitas diperlukan penambahan item yang
berlipat jumlahnya, terutama bila reliabilitas semula memang relatif rendah. Hal itu tentu
tidak mudah untuk dilakukan karena peningkatan reliabilitas yang diharapkan hanya akan
tercapai bila item-item yang ditambahkan itu dapat menjadi bagian homogen dari test
keseluruhan.
b) Split-Half dengan Tehnik Rulon.
Rulon (1939) mengetengahkan suatu tehnik estiamsi reliabilitas belah dua tanpa
perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Varians yang
perlu diperhitungkan dalam tehnik adalah varians kesalahan. Menurut Rulon varians
distribusi perbedaan skor pada belahan-belahan test seluruhnya dicantumkan oleh
varians kesalahan masing-masing belahan. Varians kesalahan masing-masing belahan
ini bersama-sama ( foto copynya terhapus) ……………………..
Rumus reliabilitas Rulon adalah :
2 2
r xx'  1  S / S
d X
Dimana :
2
S = Varians distribusi perbedaan skor kedua belahan.
d
2
S = Varians distribusi skor total.
X
Contoh :
Dengan menggunakan data pada tabel 2.2 diperoleh distribusi perbedaan skor
sebagai berikut :
Belahan d
Subjek d2 X X2
Y1 Y2 ( Y1 - Y2 )
A 8 8 0 0 16 256
B 7 8 -1 1 15 225
C 6 6 0 0 12 144
D 6 6 0 0 12 144
E 5 5 0 0 10 100
F 6 6 0 0 12 144
G 9 9 0 0 18 324
H 4 4 0 0 8 64
I 5 5 0 0 10 100
J 8 4 4 16 12 144
N = 10 64 61 d=3 d2 = 17 125 1645
Tabel 2.4 : Distribusi perbedaan skor belahan Y1 dan belahan Y2.
2
Varians X, telah diketahui S = 8.249 sedangkan varians d dapat dihitung :
X
2
2 17  3
S  10
d
10
2
S  1.61
d
Sehingga
r XX’ = 1 - 1.61 / 8.249
r XX’ = .8048
Koefisien ini adalah koefisien reliabilitas keseluruhan test, bukan reliabilitas
separuhnya. Di samping itu rumus Rulon dapat dikenakan pada dua testyang paralel,
yang dalam hal ini kita kemudian harus menggunakan koreksi Spearman-Brown terhadap
koefisien yang diperoleh dengan J = 1

2
Koefisien Alpha
Apabila distribusi skor pada belahan Y1 dan belahan Y2 tidak memiliki varians
yang sama atau tidak cukup alasan untuk menganggap kedua belahan tersebut paralel,
maka estimasi keseluruhan test dapat diperoleh dengan menggunakan koefisien Alpha
(Cronbach, 1951)
 
2 2 2
2 S  ( S  S ) 

 X Y1 Y2 
α 
2

S
X
Keterangan :
2
S = Varians skor subjek pada belahan Yj ; j = 1, 2
Yj
2
S = Varians skor subjek pada keseluruhan test X
X
 = Koefisien reliabilitas Alpha
Contoh :
Dari tabel 2.2 varians skor pada belahan Y1 dan Y2 dapat dicari,
2
432  ( 64 )
2
S  10
Y1 10
2
S  2.239
Y1
Sedangkan varians Y2 adalah :
2
399  ( 61 )
2
S  10
Y2 10
2
S  2.689
Y2
2
dan varians X, S = 8.249, sehingga
X
α  2  8.249  ( 2.239  2.689 )

8.249
 = .805
Koefisien alpha akan memberikan harga yang lebih kecil atau sama besar
dengan harga reliabilitas yang sebenarnya (  XX’ ), jadi akan selalu ada kemungkinan
bahwa reliabilitas test yang sebenarnya adalah lebih tinggi daripada koefisien alpha.
Harga r XX’ yang dihitung dengan formula Spearman-Brown dan harga koefisien
alpha akan lebih tinggi apabila korelasi antara kedua belahan test juga tinggi, sebaliknya
apabila kedua belahan test berkorelasi rendah maka r XX’ dan koefisien alpha juga akan
rendah. Di lain pihak kedua belahan tersebut dapat menghasilkan korelasi tinggi hanya
kalau keduanya mengukur trait yang sama atau trait berbeda yang berkorelasi tinggi. Jadi
reliabilitas Spearman-Brown dan koefisien alpha dapat dianggap sebagai indeks internal-
consistency atau indeks homogenitas test.
Pembelahan test tidak terbatas pada pembelahan test menjadi dua belahan saja.
Adalah mungkin untuk membelah test menjadi lebih dari dua komponen atau dua
belahan ( J > 2 ).
Formula koefisien alpha dapat digunakan untuk estimasi test yang dibelah
menjadi J komponen dengan menghitung varians skor tiap-tiap belahan serta varians
skor total. Formula dimaksud akan menghasilkan estimasi reliabilitas yang baik hanya
bila isi test yang bersangkutan adalah homogen, yaitu mengukur trait tunggal. Formula
umum koefisien alpha adalah :

 2 J 2
S
   S 
 J   X 1 YJ 
    
 J  1 
S
2 
 
 X 
 
Dimana :
2
S = Varians skor subjek pada keseluruhan test X yang terbagi atas J belahan.
X
2
S = Varians skor subjek pada belahan yang ke j ; j = 1, 2, 3, …..j
Yj
J = Banyaknya belahan
Formula-Formula Kuder-Richardson.
Apabila setiap komponen atau belahan test merupakan item yang diberi skor
dikotomi (dichotomous), yaitu terdiri atas angka 0 dan 1, maka formula alpha akan
mengambil bentuk khusus sebagai formula Kuder-Richardson-20 (1937) yang disebut
juga koefisien -20 (Cronbach, 1951) :
 2 J 
S
   Pi ( 1  P i ) 
 J  1
KR  20    X 
 J  1 
 S
2 

 X 
 
Keterangan :
Pi = Proporsi subjek yang mendapat skor 1 pada item i , yaitu banyaknya subjek
yang mendapat skor 1 dibagi dengan banyaknya seluruh subjek.
2
S = Varians skor test X
X
J = Banyaknya belahan test, dalam hal ini adalah banyaknya item test.
Kuder dan Richardson merumuskan pula formulanya guna menghitung
reliabilitas test yang terdiri atas item dikotomi, dengan menggunakan rata-rata proporsi
subjek yang mendapat skor 1. Rumusan ini dikenal dengan nama formula Kuder-
Richardson -21.
 2 
S  J P (1 P )
 J   X 
KR  21    
 J  1 
S
2 
 
 X 
 
Keterangan :
2
S = Varians skor test X
X
P = Rata-rata proporsi subjek yang mendapat nilai 1 pada setiap item, atau
jumlah seluruh harga Pi dibagi oleh banyaknya item.
J = Banyaknya item test.
Contoh :
Nomor item
Subjek 1 2 3 4 5 6 7 8 9 10 11 12 X X2
A 1 0 1 1 0 0 1 1 0 1 0 0 6 36
B 1 0 1 1 0 1 0 0 1 1 0 0 6 36
C 0 0 1 0 1 1 1 0 1 1 0 1 7 49
D 0 1 0 0 0 0 0 1 0 0 1 1 4 16
E 1 1 1 1 0 1 1 1 1 0 1 1 10 100
F 0 0 1 0 1 1 0 0 0 0 1 0 4 16
G 1 0 0 0 0 0 0 0 0 0 0 0 1 1
H 0 1 0 1 0 1 1 1 1 1 0 0 7 49
I 1 1 1 1 1 1 1 0 0 0 0 1 8 64
J 0 0 1 1 0 0 0 1 1 1 1 0 6 36
Pi .5 .4 .7 .6 .3 .6 .5 .5 .5 .5 .4 .4  Pi = 5.9
(1-Pi) .5 .6 .3 .4 .7 .4 .5 .5 .5 .5 .6 .6
Pi (1-Pi) .25 .21 .21 .25 .25 .24  Pi (1-Pi)=2.87
.24 .24 .24 .25 .25 .24
N = 10 X = 59 X2 = 403
Tabel 2.5 Distribusi skor dikotomi.
Perhitungan reliabilitas KR-20 adalah sebagai berikut :
Banyaknya item = J = 12
Harga Pi adalah banyaknya skor 1 untuk item i dibagi 10, sehingga untuk seluruh item
diperoleh Pi dan ( 1 – Pi ),
 Pi (1 – Pi ) = 27
2
Varians X, adalah S = 5.489
X
KR  20   12   5.489  2.87 
   
12  1  5.489 
KR  20  .520
Sedangkan komputasi dengan menggunakan formula KR-21 adalah sebagai
berikut :
J
 Pi
P   5.9  42
J 12
KR  21   12   5.489  12 (.492 ) ( 1  .492 ) 

  
12  1  5.489 

KR  21  .495
Kalau taraf kesukaran item-item (Pi) dalam test adalah sama, maka formula KR-
20 dan KR-21 akan menghasilkan estimasi reliabilitas yang identik. Ketidaksamaan taraf
kesukaran item menyebabkan koefisien KR-21 lebih rendah daripada KR-20 dan
merupakan underestimasi terhadap reliabilitas test yang sesungguhnya.
Untuk kemudahan komputasi, maka koefisien KR-21 dapat pula dihitung dengan
formula berikut :
 
 
KR  21  
 J   1  X  X2 / J
 
 J  1   S
2 
 
 X 
Dengan menggunakan data yang sama pada tabel 2.5 contoh komputasinya
adalah sebagai berikut :
X   X  59  5.9
N 10
 
KR  21   12   1  5.9  (5.9) / 12 
 2
12  1  5.489
 
KR  21  .4948
Hasil ini identik dengan hasil komputasi dengan formula KR-21 sebelumnya.
Beberapa cara Pembelahan Test.
Ada beberapa cara untuk melakukan pembelahan test yang akan diestimasi
reliabilitasnya.
Pertama adalah cara pembelahan odd-even yang mengelompokan semua item
bernomor ganjil sebagai belahan pertama (Y 1) dan mengelompokan semua item
bernomor genap sebagai belahan kedua (Y2). Pembelahan odd-even dapat dilakukan
setelah test dikenakan pada subjek dalam urutan aslinya sebagai suatu keseluruhan.
Cara kedua adalah membelah menurut Order atau urutan nomor item. Cara ini
mengelompokan setengah dari test mulai dari nomor item pertama dan mengelompokan
setengah sisanya sebagai belahan kedua. Kalau banyaknya item adalah k, maka
belahan pertama terdiri dari item nomor 1 sampai dengan nomor k/2 + 1 sampai dengan
nomor k. Untuk cara pembelahan seperti ini, item-item belahan Y1 dan belahan Y2
dikenakan pada subjek sebagai dua test yang terpisah. Jadi seakan-akan mengenakan
dua alternate-forms berturut-turut.
Cara yang lebih sophisticated adalah cara pembelahan yang disebut matched
random subsets (Gulliksen, 1950). Cara ini memerlukan perhitungan Pi masing-masing
item dan koefisien korelasi masing-masing item dengan skor total test ( r iX ). Data Pi dan
r iX ini kemudian dijadikan dasar untuk meletakan setiap item pada posisinya dalam
suatu grafik. Item-item yang terletak berdekatan posisinya dalam grafik dipasangkan dua-
dua dan dari setiap pasangan item secara random diambil suatu item untuk dimasukan
kebelahan Y1 dan pasangannya dimasukkan ke belahan Y2. Gambar berikut
memperlihatkan contoh pengelompokkan item guna membentuk dua belahan yang
masing-masing terdiri atas tiga item.
10 -
E
F
5 - A C
B D
| |
0 5 10
pi
Gambar 2.3 Pembelahan test dengan cara matched random subsets.
Kemungkinan kombinasi item untuk belahan Y1 dan belahan Y2 bila dibuat
pasangan secara random adalah A, C, E, - B, D, F ; A, C, F – B, D, E ; B, C, E – A, D, F ;
dan B, C, F – A, D, E.
Estimasi reliabilitas dengan metode split-half hendaknya tidak digunakan pada
speed-test umumnya subjek akan menjawab benar setiap item yang sempat
dikerjakannya. Dengan pembelahan odd-even maka skor subjek pada kedua belahan
akan hampir identik sehingga akan mengangkat koefisien reliabilitasnya mendekati r XX’ =
1.0. dan ini merupakan overestimasi terhadap reliabilitas yang sesungguhnya.
Dikarenakan dalam speed-test indeks kesukaran item tergantung pada posisi urutannya,
maka membelah dengan cara matched random subsets pun tidak dapat digunakan.
Demikian pula pembelahan menurut order atau urutan akan menurunkan koefisien
reliabilitas mendekati nol dikarenakan skor subjek yang cenderung lebih tinggi pada
belahan pertama yang terdiri dari item-item bernomor awal.
c) Pendekatan Analisis Varians.
Di samping menggunakan tehnik-tehnik korelasi, reliabilitas test dapat diestimasi
melalui pendekatan analisis varians yang antara lain diusulkan oleh Hoyt (1941).
Matriks skor item dalam hal ini dianggap sebagai desain faktorial dua jalan tanpa
replikasi, yang dikenal juga dengan sebutan treatment x subjek design.
Rumus dasar reliabilitas Hoyt adalah :
s2
r xx'  1  r2
ss
Dimana :
S2
r = Varians residu yang pada analisis treatment x subject adalah mean
kuadrat interaksi antara item dan subjek yaitu MKis .

S s2 = Varians subjek merupakan mean kuadrat antar subjek yaitu MK s .
Mean kuadrat (MK) diperoleh dengan membagi jumlah kuadrat (JK) dengan
derajat kebebasan (db) yang bersangkutan.
(  X ij ) 2
Variasi total, Jk T   X2 
ij NJ
db T  NJ  1
J 2
X (  X ij ) 2
Variasi subjek, Jk s  i 
J NJ
db s  N1
N 2
 X (  X ij ) 2
j
Variasi item, Jki  
N NJ
db i  J  1
Variasi residu, Jkis  JKT  Jks  Jki
dbis  ( N  1 ) ( J  1 )
N = Banyaknya subjek
J = Banyaknya item.
Contoh
Dengan menggunakan data dari tabel 2.5

Nomor item
Subjek 1 2 3 4 5 6 7 8 9 10 11 12 X X2
A 1 0 1 1 0 0 1 1 0 1 0 0 6 36
B 1 0 1 1 0 1 0 0 1 1 0 0 6 36
C 0 0 1 0 1 1 1 0 1 1 0 1 7 49
D 0 1 0 0 0 0 0 1 0 0 1 1 4 16
E 1 1 1 1 0 1 1 1 1 0 1 1 10 100
F 0 0 1 0 1 1 0 0 0 0 1 0 4 16
G 1 0 0 0 0 0 0 0 0 0 0 0 1 1
H 0 1 0 1 0 1 1 1 1 1 0 0 7 49
I 1 1 1 1 1 1 1 0 0 0 0 1 8 64
J 0 0 1 1 0 0 0 1 1 1 1 0 6 36
Xj 5 4 7 6 3 6 5 5 5 5 4 4  X ij = 59
25 14 49 36 9 36 25 25 25 25 16 16
 X2  x ij2 = 403
j
N = 10 J = 12
Tabel 2.6 Data pindahan dari tabel 2.5 untuk komputasi anava.
JKT = 12 + 12 + 02 + …… + 02 -
( 59 )2 = 59 - 3481 = 29.992
(10 ) (12 ) 120
dbT = 120 - 1 = 119
JKS =
62  62  72 ...... 42 - ( 59 )2 = 403  3481 = 4.575
12 (10 ) (12 ) 12 120
dbS = 10 - 1 = 9
Jk i =
52  42  72  ..... 42 - ( 59 )2 - 303  3481 = 1.292
10 (10 ) (12 ) 10 120
db i = 12 - 1 = 11
JK is = 29.992 - 4.575 - 1.292 = 24.125
db is = (10 - 1) (12 - 1) = 99
Hasil komputasi ini dimasukkan ke tabel ringkasan anawa,
Variasi Jk Db Mk
Total 29.992 119 -
Item 1.292 11 -
Subjek 4.575 9 .508
Residu 24.125 99 .244
Tabel 2.7 Ringkasan anawa guna perhitungan reliabilitas Hoyt.
Jadi ;
r xx’ = 1 -
.244
.508
r xx’ = .5197
Hasil yang diperoleh ini sama dengan koefisien reliabilitas yang dihitung dengan
formula KR – 20 karena untuk item dikotomi secara aljabar reliabilitas Hyot
adalah identik dengan KR – 20. Sebagaimana Kr – 20 maka koefisien Hyot juga
menghasilkan underestimasi terhadap reliabilitas test yang sebenarnya, terutama
bila test itu pendek.
C. Beberapa Kasus Khusus.
Reliabilitas Skor-Gabungan (composite-score)
Skor gabungan adalah skor total dari penjumlahan skor-skor komponen (subtest)
dengan memperhitungkan bobot relatif masing-masing komponen tersebut. Dalam hal ini,
setiap komponen mungkin memberikan bobot tersendiri sebagai bagian dari test
keseluruhan.
Reliabilitas skor gabungan merupakan fungsi dari reliabilitas, penyebar skor,
interkorelasi, dan bobot relatif masing-masing komponennya. Formula untuk menghitung
koefisien reliabilitas skor gabungan dirumuskan oleh Monsier-(1943) sebagai berikut :
 W 2 S2   W 2 S2 r
r sg = 1 -
j j j j j j'
 W 2 S2  2  W W S S
j j j k j k r jk
Keterangan :
r sg = Koefisien reliabilitas skor gabungan.
wj = Bobot relatif komponen j
w k = Bobot relatif komponen k
sj = Deviasi standart komponen k
r jj = Koefisien reliabilitas komponen masing-masing
r jk = Koefisien korelasi antara dua komponen yang berbeda
Contoh
Subjek Komponen Test X
I II III ( I + 2II + III )
A 6 2 3 13
B 8 4 6 22
C 10 6 8 30
D 10 5 7 27
E 9 4 7 24
F 5 2 3 12
G 7 3 4 17
H 6 2 4 14
I 9 6 7 28
J 9 5 8 27
N = 10  X j = 79 39 57  X = 214
 X2 = 5000
 X 2 = 653 175 361
j
wj = 1 2 1
Tabel 2.8 Distribusi skor komponen dan skor gabungan.
Dari data diatas, diandaikan reliabilitas masing-masing komponen telah dihitung,
yaitu :
r 11’ = .81, r 22’ = .79, dan r 33’ = .86
Bobot relatif komponen II adalah 2, karena itu skor pada komponen II
dikalikan 2. Selanjutnya dengan tehnik korelasi product moment, koefisien korelasi antar
komponen dapat dihitung dan hasilnya adalah :
r I.II = .93, r I.III = .95, dan r II.III = .93
Deviasi standart masing-masing komponen dihitung dari data diatas adalah :
S 1 = 1.7, S 2 = 1.51, dan S 3 = 1.9
Sehingga diperoleh :
 w2 s2 = (1)2 (1.7)2 + (2)2 (1.51)2 + (1)2 (1.9)2

j j
= 15.656
 w 2 s 2 r jj = (1)2 (1.7)2 (.81) + (2)2 (1.51)2 (.79)2 + (1)2 (1.9)2 (.86)

j j
= 12.679
 w j w k s j s k r jk = (1) (2) (1.7) (1.51) (9.3) = 4.775
(1) (1) (1.7) (1.9) (.95) = 3.069
(2) (1) (1.51) (1.9) (.93) =

5.336 
13.170
r sg = 1 -
15.656  12.679 = .93
15.656  2 (13.179 )
Inilah koefisien reliabilitas skor-gabungan X yang terdiri dari tiga subtest :
Reliabilitas skor – perbedaan.
Kadang-kadang, distribusi skor individu diperoleh dari perbedaan skor
intraindividual pada dua test dijadikan sebagai skor pengukuran yang ingin dicari
reliabilitasnya, d = X j - X k , formula hitungnya adalah (Mosier, 1943) :

r jj'  rkk'  r jk'
r dd’ =
2 ( 1  r jk )
Keterangan :
r dd’ = Koefisien reliabilitas skor-perbedaan
r jj’ = Koefisien reliabilitas test X j
r kk’ = Koefisien reliabilitas test X k
r jk = koefisien korelasi X j dan X k
Contoh :
Subjek Test d
X1 X2 (X1 - X2)
A 42 16 26
B 56 20 36
C 44 16 28
D 49 18 31
E 50 18 32
F 52 19 33
G 43 17 26
H 48 18 30
I 41 14 27
J 54 21 33
N = 10  X = 479 177
 X2 = 23191 3171
 X1 X2 = 8569
Tabel 2.9 Distribusi skor-perbedaan d = X1 - X2
Korelasi antara X1 dan X2 yang dihitung dengan tehnik korelasi product moment adalah r
12 = .935
Untuk contoh perhitungan dengan data tabel 2.9, diandaikan bahwa koefisien
reliabilitas X1 adalah r 11’ = .96 dan koefisien reliabilitas X2 adalah r 22’ = .94.
Maka koefisien reliabilitas skor-perbedaan d = X1 - X2 dihitung sebagai
berikut :
.96  .94  2 (.935 )

r dd' 
2 (1  .935 )
r dd'  .23
Reliabilitas Ratings
Ratings adalah pemberian skor subjektif terhadap aspek tertentu berdasarkan
observasi langsung atau tidak langsung. Dikarenakan unsur subjektivitas ini, naka
sebaiknya prosedur rating dilakukan oleh lebih dari satu orang raters.
Koefisien reliabilitas rating dapat dicari dengan melakukan rating ulangdan
mengkorelasikan hasil kedua ratings tersebut ( biasanya dengan tehnik korelasi rank-
order ). Jadi semacam prosedur replikasi oleh rater yang sama terhadap subjek yang
sama. Tentu saja prosedur ini, sebagaimana juga prosedur test-retest, akan membawa
resiko besarnya varians kesalahan dikarenakan faktor memory pada pihak rater.
Umumnya cara yang lebih disukai adalah dengan menggunakan beberapa raters
yang berbeda. Sekalipun akan tetap ada sumber varians kesalahan diantara para raters,
tetapi dapat diperkirakan bahwa kesalahan ini akan lebih kecil daripada varians
kesalahan dalam prosedur rating-ulang oleh seorang rater.
Ebel (1951) memberikan rumus guna menghitung estimasi reliabilitas ratings bila
terdapat banyak k raters yang melakukan rating terhadap N subjek. Rumus ini akan
menghasilkan koefisien yang pada dasarnya merupakan rata-rata inter korelasi ratings
diantara semua kombinasi pasangan raters yang mungkin dibuat, dan merupakan mean
reliabilitas untuk satu rater.
S S2  S 2
r
r 11' 
S S  ( k  1) S 2
2
r
Keterangan ;
r 11' = Koefisien reliabilitas rating dari seorang rater.
S S2 = varians antar subjek, MkS
S r2 = varians residu, varians interaksi subjek (s) dan raters (t) yaitu Mkts
k = banyanya raters.
Contoh :
Berikut adalah hasil ratings terhadap 10 orang subjek yang dilakukan oleh rater
I, II, dan III.
Subjek Rater  XS  X2
I II III S
A 4 3 2 9 29
B 5 6 5 16 86
C 7 7 8 22 162
D 9 8 9 26 226
E 4 5 6 15 77
F 7 5 4 16 90
G 7 7 7 21 147
H 9 6 8 23 181
I 3 4 5 12 50
J 6 5 6 17 97
N = 10
 Xt 61 56 60  X = 177
 X2 411 334 400  X2 = 1145
j
Tabel 2.10 Hasil ratings terhadap 10 orang subjek oleh 3 orang raters.
Jumlah kuadrat total, Jk T
(177) 2
= 42 + 32 + 22 + ….. + 62 - = 100.7
( 3) (10 )
dbT = (10) (3) - 1 = 29
Jumlah kuadrat antar raters, Jk t
 61  56  60 
2 2 2 (177 ) 2
10 30
Jk t = 1.4
db t = 3 - 1 = 2
Jumlah kuadrat antar subjek, Jk S
 9  16  ....... 17 
2 2 2 (177 ) 2
9 30
Jk S = 82.7
db S = 10 - 1 = 9
Jumlah kuadrat residu, Jk S = 100.7 - 1.4 - 82.7 = 16.6
db S = 9 x 2 = 18
Hasil perhitungan ini kemudian dimasukkan kedalam tabel ringkasan anava.

Variasi Jk db Mk
Total 100.7 29 -
Raters 1.4 2 -
Subjek 82.7 9 9.189
Residu 16.6 18 .922
Tabel 2.11 Ringkasan anava guna perhitungan reliabilitas ratings.
Sehingga koefisien reliabilitas dari seorang rater adalah :
r 11'  9.189  .922

9.189  ( 3 1) (.922 )
r 11'  .749
Sedangkan kalau ingin dihitung koefisien reliabilitas rata-rata dari k raters,
rumusnya adalah :
S s2  S 2
r
r kk' 
Ss2
Sehingga dengan 3 orang raters dari data tabel 2.10 kita peroleh :
9.189  .922
r kk' 
9.189
r kk'  .899
Formula Kristoff untuk Test Belah-Tiga.
Dalam prosedur single trial administration kadang-kadang ditemui kasus dimana
jumlah item test adalah ganjil. Seringkali dimungkinkan untuk membelah test tersebut
menjadi tiga bagian. Setiap bagian atau belahan tidak perlu sama panjang tetapi harus
diasumsikan sebagai memiliki isi yang homogen (congeneric)
Kristoff (1974) merumuskan formulanya dengan melakukan estimasi terhadap
varians skor-murni sebagai berikut :
2 
S 12 S 13 S 12 S 23 S 13 S 23
ST    2 (S12  S13  S 23 )
S 23 S 13 S 12
Keterangan :
S T2 = Varians skor-murni
S Jk = Kovarians belahan Y j dan belahan Y k
Kemudian sebagaimana rumusan reliabilitas, maka
r xx'  S T
2 / S2
X
Contoh : S ? = ( Tidak tahu )

1 2 3 4 5 6 7 8 9 10 11 12 Y1 Y2 Y3 X
A 1 1 0 1 2 2 2 1 2 1 1 2 5 5 6 16
B 1 1 0 0 2 2 1 2 2 2 1 1 4 6 5 15
C 0 0 1 1 2 2 0 0 1 1 2 2 2 4 6 12
D 0 0 0 0 1 1 1 1 2 2 2 2 3 4 5 12
E 1 1 0 0 1 1 0 0 2 2 1 1 3 3 4 10
F 2 2 1 1 0 0 2 2 1 1 0 0 6 4 2 12
G 2 2 2 2 2 2 1 1 1 1 1 1 6 6 6 18
H 0 1 0 0 1 0 2 2 1 1 0 0 3 4 1 8
I 0 0 0 1 1 1 1 2 2 1 1 0 3 4 3 10
J 2 1 2 0 0 2 2 1 1 0 1 0 4 3 5 12
N =10  Y1 = 39 43 43  Y2 = 61
2 2
Y = 169 195 213  Y = 399
1 2
 Y1 Y2 = 174  Y1 Y3 = 169  Y2 Y3 = 191
Tabel 2.12 Distribusi skor item dengan belah-tiga dimana Y1 adalah
Item 1 + 4 + 7 + 10. Y2 adalah item 2 + 5 + 8 + 11 dan
Y3 adalah item 3 + 6 + 9 + 12
Komputasi kovarians antar ketiga belahan menghasilkan.
S12 = .63, S13 = .13, dan S23 = .61.
Varians skor-murni kemudian dapat dihitung
2  ( .63 ) ( .13 ) ( .63 ) ( .61 ) ( .13 ) ( .61 )

ST    2 (.63  .13  .61 )
.61 .13 .63
2  5.9653 .
ST
Varians X, S 2X diperoleh dari

( 125 ) 2
1645 
S 2X  10  8.25
10
Reliabilitas test dihitung sebagai
r XX’ = 5.95653 / 8.28
r XX’ = .722
Reliabilitas Belah - Dua dengan Panjang Berbeda.
Kadang-kadang suatu test tidak dapat dibelah menjadi lebih dari dua belahan,
sedangkan membagi test tersebut menjadi dua belahan yang sama panjang tak dapat
dilakukan. Pembelahan atas dua belahan yang tak sama panjang ini masih dapat
menghasilkan bagian yang isinya homogen, namun karena asumsi  - equivalent tak
terpenuhi, maka estimasi dengan koefisien  tak dapat diterapkan.
Untuk itu, Feldt (1975) memberikan rumusnya sebagai berikut :
4 S Y1 Y2
r xx' 
 2 2  2
 S y1  S Y2 
S2  



X S2
 X 
 
Keterangan :
S Y Y = kovarians belahan Y1 dan Y2.

1 2
2
Sy = varians belahan Y j ; j = 1,2
j
S2 = varians skor total X
X
Contoh :
1 2 3 4 5 6 7 8 9 10 11 12 13 Y1 Y2 X
A 1 1 0 1 2 2 2 1 2 1 1 2 1 9 8 17
B 1 1 0 0 2 2 1 2 2 2 1 1 2 9 8 17
C 0 0 1 1 2 2 0 0 1 1 2 2 1 7 6 13
D 0 0 0 0 1 1 1 1 2 2 2 2 1 7 6 13
E 1 1 0 0 1 1 0 0 2 2 1 1 2 7 5 12
F 2 2 1 1 0 0 2 2 1 1 0 0 0 6 6 12
G 2 2 2 2 2 2 1 1 1 1 1 1 1 10 9 19
H 0 1 0 0 1 0 2 2 1 1 0 0 2 6 4 10
I 0 0 0 1 1 1 1 2 2 1 1 0 1 6 5 11
J 2 1 2 0 0 2 2 1 1 0 1 0 0 8 4 12
N =10  Yj = 75 61  X = 136
2
Y = 581 399
j  X2 =
1930
 Y1 Y2 = 475
Tabel 2.13 Distributor skor item X dengan belahan Y1 adalah item bernomor ganjil (7
item) dan belahan Y2 adalah item bernomor genap (6 item).
Kovarians kedua belahan adalah s Y1 y2 = 1.75
Varians belahan masing-masing diperoleh :
S2Y1  1.85, S2Y2  2.69
Sedangkan varians skor total X, S2X  8.04 sehingga

4 (1.75 )
r xx' 
 1.85  2.69  2
8.04   
 8.04 
r xx'  .872 .
D. Kesalahan Standard Pengukuran.
Untuk menafsirkan kecermatan pengukuran skor individual dalam test, pada test
psikologi yang standard umumnya disertakan pula informasi mengenai besarnya
kesalahan standard pengukuran (standard error of measurement). Angka kesalahan
standard pengukuran ini dapat dipakai sebagai dasar melihat reliabilitas test tersebut bila
kita mempunyai varians skor-tampak dari kelompok : subjek yang bersangkuta.
Derivasinya adalah sebagai berikut :
ρ xx'  1  σ 2E / σ 2X
σ 2X  σ 2E
ρ xx' 
σ 2X
σ 2X ρ XX'  σ 2X  σ 2E
σ 2E  σ 2X  σ 2X ρ XX'
σ 2E  σ 2X ( 1  ρ XX' )
σE  σX 1  ρ XX'
Dalam aplikasi praktisnya, kesalahan standard pengukuran ini disimbolkan oleh
sE .
SE  SX 1  r XX'
Dimana :
S X = Deviasi standard distribusi skor X

r XX’ = Koefisien reliabilitas test X
Dengan menetapkan taraf signifikansi tertentu, dapatlah dibuat suatu interval
kepercayaan dalam mengestimasi skor-murni subjek yaitu :
X - ZC . SE  T  X + ZC . SE
Dimana :
X = Skor-tampak yang diperoleh subjek pada test.

Z C = Nilai kritis dari tabel deviasi normal standard pada taraf signifikansi yang
dikehendaki.
T = Skor-murni.
S E = Kesalahan standard pengukuran.
Contoh :
Suatu test yang mempunyai reliabilitas r XX’ = .80 dengan deviasi standard skor
X sebesar S X = 4.0 akan mempunyai kesalahan standard pengukuran sebesar :
SE  4.0 1  .80
SE  1.789
Untuk estimasi skor-murni subjek, bila dikehendaki taraf kepercayaan 95% maka
nilai kritis ZC dilihat pada tabel deviasi normal standard untuk harga p = .025 (taraf
kepercayaan 95% sama dengan taraf signifikansi 5% atau p = .05. Untuk kedua ujung
distribusi maka p = .05 ini harus dibagi dua masing-masing sebesar p = .025 ).
Dalam contoh ini ternyata nilai ZC adalah 1.96.
Dengan demikian, bila seorang subjek mendapat skor-tampak X = 24 , misalnya
maka interval kepercayaan dalam mengestimasi skor-murninya adalah :
24 - 1.96 (1.789)  T  24 + 1.96 (1.789)

20.494  T  27.506
Interprestasi terhadap interval ini adalah bahwa pada kelompok subjek tersebut ,
diantara seratus kejadian skor X = 24 hanya ada 5 peluang dimana skor-murninya lebih
kecil dari 20.494 atau lebih besar dari 27.506.
Ada dua hal yang ditunjukan oleh interval semacam ini. Pertama adalah
besarnya variabilitas yang mungkin terjadi bila dilakukan test ulang, dan kedua adalah
sebaran skor yang mungkin mencakup skor-murni subjek.
Untuk tidak menyesatkan, maka interval kepercayaan ini harus dibuat atas
terpenuhinya beberapa asumsi, yaitu :
a) Asumsi-asumsi yang berlaku bagi classical treu-score theory.

b) Asumsi normalitas distribusi kesalahan pengukuran, dan,
c) Asumsi bahwa SE adalah sama bagi semua subjek ( asumsi homoscedasticity ).
3. VALIDITAS
Validitas didefinisikan sebagai ukuran seberapa cermat suatu test melakukan
fungsi ukurnya. Test hanya dapat melakukan fungsinya dengan cermat kalau ada
“sesuatu” yang diukurnya. Jadi untuk dikatakan valid, test harus mengukur sesuatu dan
melakukannya dengan cermat.
Apabila kita ingin mengetahui berat sebuah cincin emas, maka kita harus
menggunakan timbangan emas agar hasil ukur itu dapat dapat dikatakan valid. Sebuah
timbangan beras memang mengukur “beras” tetapi tidak cukup cermat guna mengukur
berat emas. Karena itu sebuah timbangan beras tidak valid guna mengukur berat emas.
Demikian pula bila kita ingin menghitung waktu tempuh yang kita perlukan dari suatu kota
ke kota lainnya dengan mengendarai mobil, sebuah jam tangan biasa adalah valid untuk
digunakan. Tetapi jam tangan yang sama tidak cukup valid guna mengukur waktu yang
diperlukan seorang atlit pelari cepat dalam menempuh jarak 100 meter, karena kita
memerlukan unit waktu terkecil sampai pada pecahan detik.
Menggunakan alat ukur yang memang berfungsi mengukur sesuatu aspek tetapi
tidak dapat menghasilkan hasil ukur yang teliti akan menimbulkan varians kesalahan.
Suatu alat ukur yang validitasnya tinggi akan mempunyai varians kesalahan yang kecil
sehingga kita dapat percaya bahwa angka yang dihasilkannya merupakan angka yang
sebenarnya. Inilah yang dalam classical true-score theory diartikan sebagai validitas
intrinsik yaitu akar kuadrat rasio varians skor-murni dan varians skor-tampak atau akar
kuadrat reliabilitas, r XY  σT
2 / σ2 .
X
Dalam hal test psikologi, validitas seperti yang digambarkan diatas adalah lebih
sulit dicapai. Pengukuran yang menyangkut aspek sosial-psikologis mempunyai lebih
banyak sumber varians-kesalahan daripada pengukuran aspek fisik. Kita hampir tidak
pernah dapat yakin bahwa validitas intrinsik telah tercapai, atau bahwa test yang kita
gunakan telah tepat dan cermat untuk mengukur aspek yang ingin kita ukur.
Sebagaimana halnya pada pengujian reliabilitas, apa yang dapat kita lakukan adalah
mengadakan estimasi dengan cara yang benar terhadap ketepatan dan kecermatan test
dalam melakukan fungsinya. Dengan tehnik tertentu kita mencoba melihat aspek apakah
yang diukur oleh suatu test, dan seberapa jauh kita dapat mempercayai hasilnya.
Lebih lanjut pengertian validitas suatu test tidaklah berlaku umum untuk semua
tujuan ukur. Sebuah test biasanya hanya menghasilkan ukuran yang valid untuk satu
tujuan ukur tertentu. Karena itu predikat valit seperti dalam pernyataan “test in valid”
tidaklah benar. Pernyataan valid harus diiringi oleh keterangan yang menunjukan kepada
tujuan, yaitu valid untuk mengukur apa. Lebih jauh, valid bagi siapa. Karena itu suatu test
yang sangat valid guna pengambilan suatu keputusan dapat sangat tidak berguna dalam
pengambilan keputusan lainnya.
Perlu pula dipahami bahwa dalam proses validasi, sebetulnya kita tidak bertujuan
melakukan validasi test tetapi malakukan validasi terhadap interprestasi data yang
diperoleh oleh prosedur tertentu (Cronbach, 1971).
A. Tipe-tipe Umum.
Tergantung pada pendekatannya, validitas dapt dibagimenurut berbagai tipe.
Berikut ini akan diikuti tipe-tipe validitas menurut yang ditetapkan oleh American
Psychological Association yaitu content validity, construct validity, dan criterion-related
validity.
1. Content validity.
Validasi content suatu test harus menjawab pertanyaan “sejauh mana item-item
test itu mencakup keseluruhan situasi yang ingin diukur oleh test tersebut”.
Sejauhmana suatu test memiliki content validity ditetapkan menurut analisis
rasional terhadap isi test, yang penilaiannya didasarkan atas pertimbangan subjektif
individual. Prosedur validitasnya tidak melibatkan perhitungan statistik apapun.
Terdapat dua macam tipe content validity, yaitu face validity dan logical validity.
Face Validity.
Face validity tercapai apabila pemeriksaan terhadap item-item test memberikan
kesimpulan bahwa test tersebut mengukur aspek yang relevan. Dasar penyimpulannya
lebih banyak diletakkan pada common sense atau akal sehat. Kesimpulan ini dapat
diperoleh oleh siapa saja walaupun tentu tidak semua orang diharapkan setuju
menyatakan bahwa test A , misalnya memiliki content validity yang baik. Akan tetapi
seorang yang ingin menggunakan test tersebut harus punya keyakinan terlebih dahulu
bahwa dari segi content, test itu adalah valid. Kalau tidak, maka kuranglah alasan untuk
tetap memakainya.
Validitas tipe ini tentu tidak menjadi hal yang perlu dirisaukan apabila suatu test
telah terbukti valid lewat pengujian validitas tipe lain yang lebih dapat diandalkan.
Dapatlah dikatakan bahwa face validity adalah tipe validitas yang paling rendah
signifikansinya.
Logical Validity.
Logical validity disebut juga sampling validity. Tipe validitas ini menurut batasan
yang seksama terhadap kawasan (dominan) perilaku yang diukur dan suatu desain logis
yang dapat mencakup bagian-bagian kawasan perilaku tersebut.
Sejauh mana tipe tipe validitas ini telah terpenuhi dapat dilahat dari cakupan
item-item yang ada dalam test. Apakah keseluruhan item tersebut telah merupak sampel
yang representatif bagi seluruh item yang mungkin dibuat, ataukah item tersebut berisi
hal-hal yang kurang relevan dan meninggalkan hal-hal yang seharusnya menjadi isi test.
Dalam penyusunan test prestasi, logical validity sangat penting artinya. Salah
satu cara agar tuntutan validitas ini dapat terpenuhi adalah dengan menyusun suatu
perencanaan isi test menurut semacam blue-print yang disandarkan pada rencana
pelajaran atau program latihan yang akan diuji. Blue-print test dapat membantu agar
penulisan item tidak meninggalkan hal penting yang harus ada dalam test dan sekaligus
menjaganya agat tetap berada dalam batas cakupan isi yang relevan.
2. Construct Validity.
Construct validity menunjuk sejauh mana suatu test mengukur theoretical
construct yang menjadi dasar penyusunan test itu. Pengukuran construct validity
merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai
trait (sifat) yang diukur. Namun pada situasi-situasi tertentu adanya bukti construct
validity mungkin diperlihatkan.
Campbell dan Fiske (1959) mengembangkan suatu pendekatan terhadap
construct validity yang mereka sebut multi trait-multimethod validity. Validasi dengan
multi-trait multi-method digunakan dengan mengenakan lebih dari satu macam metode
untuk mengukur lebih dari satu macam trait.
Dengan menggunakan matriks validitas maka interkorelasi antar trait dan antar
metode dapat dilihat, dimana korelasi antar setiap variabel dengan dirinya sendiri tidak
dituliskan sama dengan 1.00, tetapi diganti oleh koefisien reliabilitasnya.
Secara ideal, koefisien reliabilitas yang ada pada diagonal matriks harus tinggi.
Demikian pula koefisien korelasi antar metode yang mengukur dua macam trait yang
berbeda, harus rendah.
Bila huruf melambangkan trait yaitu A dan B dan angka melambangkan metode,
yaitu 1 dan 2 , maka gambar berikut memperlihatkan matriks ideal validitas multitrait-
multimethod dengan cara metode untuk mengukur dua macam trait.
A1 B1 A2 B2
A1 r A1A1(T) r A1B1(R) r A1A2(T) r A1B2(R)
B1 r B1B1(T) r B1A2(R) r B1B2(T)
A2 r A2A2(T) r A2B2(R)
B2 r B2B2(T)
Gambar 3.1 Matriks ideal multitrait – multimethod validity.
Keterangan :
A1 dan A2 adalah dua metode berbeda yang mengukur satu macam trait yang
sama yaitu A.
A1 dan B1 adalah dua macam trait berbeda yang diukur oleh satu metode yang
sama yaitu metode 1.
T = Tinggi
R = Rendah
Korelasi antara setiap variabel dengan dirinya sendiri, yaitu r A1A1, r B1B1, r A2A2,
dan r B2B2 masing-masing dinyatakan oleh koefisien reliabilitas setiap variabel (dalam
diagonal).
Dari gambar 3.1 dapat ditunjukan dua tipe validitas, yaitu convergent validity dan
discriminant validity. Adanya convergent validity diperlihatkan oleh korelasi-korelasi yang
tinggi antara skor test yang mengukur trait yang sama dengan metode yang berbeda
(dalam hal ini adalah r A1A2 dan r B1B2). Adanya discriminant validity diperlihatkan oleh
korelasi-korelasi yang rendah diantara skor test yang mengukur trait berbeda ( r A1B1, r
A1b2, r A2B1), terutama bila trait yang berbeda itu diukur oleh metode yang sama ( r A1B1
dan r A2B2). Koefisien korelasi yang rendah ini menunjukan bahwa memang test-test
tersebut mempunyai daya beda yang baik dan mengukur trait yang spesifik.
Tipe lain dari construct validity adalah factorial validity. Suatu faktor adalah
variabel hipotesis yang mempengaruhi skor pada satu atau lebih variabel variabel yang
tampak. Factorial validity ditegakkan melalui suatu prosedur statistika yan sophisticated
yang disebut analisis faktor. Penelaahan sekilas terhadap matriks korelasi antar faktor
tidaklah cukup untuk menjadi dasar validasi faktorial.
3 Criterion Related Validity.
Prosedur guna mencapai creterion-related validity menghendaki adanya kreteria
eksternal yang dapat dihubungkan dengan skor test yang diuji validitasnya. Kretia adalah
variabel perilaku yang akan diprediksi oleh skor test. Koefisien korelasi antara skor test
(X) dengan skor kreteri (Y) merupakan koefisien validitas yang disimbolkan oleh  XY.
Koefisien ini dapat diperoleh melalui dua prosedur yang berbeda dari segi waktu
pengambilan data (skor) kriterianya, masing-masing akan menghasilkan predictive
validity dan concurrent validity.
Predictive validity diperoleh apabila pengambilan skor kreteria tidak bersamaan
dengan pengambilan skor test. Setelah subjek dikenai test yang akan dicari validitas
prediktifnya, lalu diberikan tenggang waktu tertentu sebelum skor kreteria diambil dari
subjek yang sama. Umpamanya, untuk melihat validitas prediktif test masuk perguruan
tinggi, maka skor kreterianya dapat diambil dari indeks prestasi yang dicapai setelah
beberapa semester atau beberapa tahun kemudian. Koefisien korelasi antara skor test
masuk perguruan tinggi dan indeks prestasi tersebut merupakan koefisien validitas
prediktif test masuk. Contoh lain adalah bila kita mengkorelasikan suatu test bakat dalam
penempatan karyawan deng performansi kerjanya setelah satu atau dua tahun. Dalam
hal ini maka performansi kerja merupakan kreteri untuk melihat validitas prediktif test
bakat.
Prosedur validasi prediktif memerlukan waktu yang banyak dan mungkin pula
biaya yang besarkarena prosedur ini pada dasarnya bukan pekerjaan yang dianggap
selesai setelah sekali melakukan analisis, melainkan lebih merupakan kontinyuitas dalam
mengembangkan test sebagai prediktor. Sebagaimana pada umumnya prosedur validitas
jenis lain, validasi prediktif harus diiringi oleh peningkatan kualitas item test berupa
modifikasi dan pengembangan item-item baru, agar prosedur yang dilakukan itu
mempunyai arti yang lebih besar dan tidak menjadi sekedar pengujian validitas secara
deskritif saja.
Apabila skor test dan skor kreterianya diperoleh dalam waktu yang relatif sama,
maka koefisien korelasi antara kedua variabel itu merupakan koefisien concurrent
validity. Misalnya dalam penyusunan suatu skala self-concept yang baru, kita dapat
menguji validitasnya dengan mengenakan skala tersebut bersama skala self-concept lain
yang sudah standard dan valid, umpamanya TSCS (Tennessee Self-Concept Scale).
Korelasi antara skala yang baru disusun dan skala TSCS sebagai kreterianya ini
merupakan koefeisien concurrent validity skala yang baru.
Problem utama dalam penegakan criterion-related validity biasanya menyangkut
masalah menemukan kreteria validasi yang tepat. Tidak selalu kreteria itu dapat
ditentukan dengan mudah karena konsepsi mengenai trait yang diukur oleh test dan oleh
kreteria seringkali tidak sama. Pada validitas prediktifpun para ahli tidak selalu
sependapat mengenai apakah suatu variabel adalah tepat dipakai sebagai kreteria guna
melihat daya prediksi test yang sedang diuji validitasnya.

B Koefisien Validitas dan Variasi Skor-Murni Prediktor.
Telah ditunjukan dalam pembicaraan mengenai reliabilitas bahwa besarnya
koefisien reliabilitas tergantung antara lain pada variasi skor-murni. Sekarang akan kita
lihat efek variasi tersebut terhadap koefisien validitas.
Sebagai pegangan praktis, dapat dikatakan bahwa validitas diuji dengan cara
menghitung kecocokan antara skor-tampak test dan skor kreterianya. Akan tetapi, dalam
berbagai hal sering terjadi apa yang disebut restriksi sebaran (restrictionof range) baik
pada distribusi skor kreteria.
Pada contoh test seleksi masuk perguruan tinggi, setiap calon mahasiswa
dikenai test masuk yang pada dasarnya adalah prediktor terhadap keberhasilan belajar
mereka setelah menjadi mahasiswa. Mereka yang mencapai skor tertentu dapat diterima
dan dibolehkan belajar diperguruan tinggi, sedangkan sisanya ditolak. Karena test masuk
tersebut dirancang guna membedakan antara mereka yang memiliki kemungkinan
terbesar untuk berhasil dalam belajar diperguruan tinggi dan yang tidak, maka
selayaknya bila kriteria yang dipakai sebagai indikator keberhasilan itu adalah indeks
prestasi (IP) mereka setelah beberapa semester menjadi mahasiswa. Hanya saja, karena
tidak semua calon mahasiswa dapat diterima maka skor kriteria hanya dapat diperoleh
dari mereka yang diterima menjadi mahasiswa saja, jadi merupakan sampel yang relatif
homogen karena hanya diambil dari ujung distribusi skor test masuk. Jadi, korelasi antara
skor prediktor dan skor kreteria hanya dapat dihitung berdasarkan data sampel yang
relatif terbatas heteroginitasnya.
Hal inilah yang disebut restriksi sebaran.

Crilerion
Test
Gambar 3.2 Restriksi sebaran.
Bagaimana efek restriksi sebaran ini terhadap koefisien validitas ? Bila skor
prediktor adalah X dan skor kreteria adalah Y, maka korelasi X dan Y adalah r XY dan
kesalahan standard estimasi (standard error of estimate) dilukiskan sebagai :
SY . X  SY 1  rXY
2
2
rXY  1  S2Y . X / S2Y
Dimana :
SY . X = Kesalahan standard estimasi X terhadap Y, yaitu deviasi standard
distribusi Y untuk harga X tertentu.
SY = Deviasi standard skor kreteria Y (distribusi marginal)
r XY = Koefisien korelasi antara prediktor X dan kreteria Y.
Dengan asumsi homoscedasticity, maka harga S 2Y akan mengecil akibat
restriksi sistematis yang terjadi, sedangkan harga S 2Y . X tidak terpengaruh. Karena itu
komponen S2Y. X / S2Y akan membesar rX

2
.Y
akan mengecil. Jadi koefisien validitas
rXY menjadi rendah. Secara umum dapat dikatakan bahwa restriksi sebaran yang
menjadikan variasi skor-murni prediktor mengecil akan menghasilkan underestimasi
terhadap koefisien validitas prediktif yang sesungguhnya.
C Koreksi Terhadap Atenuasi.
Korelasi antara skor suatu test dengan skor lain tidak dapat lebih tinggi daripada
korelasi skor test itu dengan skor murninya sendiri. Telah kita ketahui bahwa kuadrat
korelasi skor test dengan skor-murninya merupakan reliabilitas test itu, sedangkan
korelasi skor test dengan skor test lain yang merupakan kreteria merupakan koefisien
validitas test tersebut. Dengan kata lain, reliabilitas test akan mempengaruhi validitasnya.
Bila XT adalah korelasi skor test dengan skor-murninya dan XX’ adalah
reliabilitas test X , sedangkan Y adalah skor test lain sebagai kriteria, maka XY  XT
atau XT  ρ XX'
Kalau skor test X dan skor kreteria Y sama-sama kurang reliabel, maka koefisien
validitas XY akan lebih rendah daripada semestinya andaikan test X dan kreteria Y
sama sekali tidak mengandung kesalahan pengukuran. Penurunan korelasi antara kedua
pengukuran yang disebabkan kekurangreliabelan keduanya ini disebut efek atenuasi
(attenuation).
Dalam clasical true-score theory, korelasi antara skor-murni test dan skor-murni
kreteria ( TxTy ) dianggap sebagai koreksi terhadap atenuasi, sebagaimana dirumuskan
pertama kali oleh Spearman (1904).
ρ XY
ρ TxTy 
ρ XX' ρ YY'
Keterangan :
 XY = Koefisien validitas X tanpa koreksi terhadap atenuasi.
 XY = Koefisien reliabilitas X
 XY = Koefisien reliabilitas Y
Sebagai contoh, test mempunyai koefisien reliabilitas r XX’ = .88 dan kreteria Y
mempunyai koefisien reliabilitas r YY’ = .84. Koefisien korelasi antara X dan Y, diketahui
sebesar r XY = .67. Koefisien ini merupakan koefisien validitas X yang besarnya
dibatasi oleh ketidaksempurnaan reliabilitas X dan Y. Estimasi terhadap korelasi skor-
murni TX dan TY adalah :
r TxTy  .67
(.88) (.84)
r TxTy  .78
Semakin tinggi reliabilitas test X dan kreteria Y, maka r XY akan semakin
mendekati r TxTy. Pada kasus ekstrim dimana reliabilitas X dan Y adalah sempurna maka
harga r XY akan sama dengan harga r TxTy.
Koreksi terhadap atenuasi dikarenakan ketidak reliabelan salah satu variabel
saja, dapat dilakukan dengan formula :
r XY r XY
r XTy  atau r TxY 
r YY' r XX'
r XTy adalah koreksi untuk atenuasi akibat ketidakreliabelan skor kreteria Y dan r
TxY adalah koreksi untuk atenuasi akibat ketidakreliabelan skor test X.
D Validitas Dan Panjang Test.
Bilamana panjang test ditingkatkan dengan menambahkan sejumlah item baru
yang isinya pararel dengan isi test semula, maka reliabilitas test akan meningka. Hal ini
sudah dibicarakan pada bab terdahulu.
Test yang reliabilitasnya meningkat akan bertambah pula tinggi validitasnya.
Semakin besar proporsi varians skor-tampak yang merupakan varians skor-murni
(artinya, semakin reliabel) maka semakin besar pula proporsi varians yang sama-sama
dimiliki oleh test dan kreterianya (artinya, semakin valid).
Telah diketahui bahwa validitas maksimum test yang mempunyai reliabilitas r XX’
adalah r XX' . Dengan bertambah panjangnya test sebesar J kali panjang semula,
maka validitas maksimumnya dapat dilambangkan sebagai r XX' j sehingga rasio
antara validitas maksimum setelah penambahan dan sebelum penambahan item adalah :
r XYJ (maks) / r XY (maks)  r XX'J / r XX'
r XYJ (maks)  r XY (maks) r XX'J / r XX'
dimana :
r XYJ (maks) = Validitas maksimum setelah memperpanjang test menjadi J kali
jumlah item semula.

r XY (maks) = Validitas maksimum sebelum penambahan item.
r XX’J = Reliabilitas setelah penambahan item.
r XX’ = Reliabilitas sebelum penambahan item.
Apabila validitas dan reliabilitas test sebelum penambahan item diketahui, maka
estimasi terhadap validitasnya setelah penambahan item dapat dihitung dengan formula :
r XYJ  r XY J /  1  ( J - 1 ) r XX' 


Keterangan :
r XYJ = Koefisien validitas setelah penambahan item.
r XY = Koefisien validitas sebelum penambahan item.
r XX’ = Koefisien reliabilitas sebelum penambahan item.
J = Rasio jumlah item setelah dan sebelum penambahan.
Contoh :
Suatu test yang terdiri dari 50 item mempunyai reliabilitas r XX’ = .85 dan
koefisien validitas r XY = .76. Bila ditambahkan 25 item lagi, maka validitasnya akan
meningkat sebagai berikut :
Jumlah item setelah ditambah adalah 50 + 25 = 75.
J = 75 / 50 = 1 1 2
r XYJ  .76 11 2 / 1

 (11 2  1 ) .85 
r XYJ  .779
Jelaslah bahwa peningkatan validitas dengan menambahkan panjang test
menjadi 1 1 2 kali aslinya tidak banyak berarti. Hal ini benar terutama bagi test yang
sudah cukup panjang dan mempunyai koefisien validitas yang cukup tinggi. Efek
penambahan item terhadap peningkatan reliabilitas tampak lebih jelas daripada efeknya
terhadap peningkatan validitas.
Dalam tabel berikut ditunjukan contoh perbandingan peningkatan koefisien
validitas dan koefisien reliabilitas dengan menambah panjang test beberapa kali lipat.
J r XX’ r XY
1 .800 .500
2 .889 .527
3 .923 .537
4 .941 .542
5 .952 .545
6 .960 .547
Tabel 3.1 Estimasi koefisien reliabilitas dan koefisien validitas suatu test yang
mempunyai reliabilitas .800 dan validitas .500, bila panjangnya
ditingkatkan J kali.
Tampak dari tabel diatas bahwa koefisien validitas meningkat tidak secepat
koefisien reliabilitas bila test ditingkatkan panjangnya. Bila test diperpanjang 6 kali
panjang semula, dari tabel diatas terlihat bahwa koefisien reliabilitas meningkat dari .800
menjadi .960 , sedangkan koefisien validitas meningkat hanya dari .500 ke .547.
Peningkatan yang berarti umumnya akan terjadi bila test semula adalah test pendek dan
validitasnya tidak tinggi. Karena itu, dalam penyusunan test mencoba meningkatkan
validitas dengan cara menambah banyak item hanya memadai dilakukan bila test semula
memang masih mempunyai sedikit item dan rendah validitasnya.
E. Pendekatan Internal Consistency Dalam Validitas Item.
Pada tipe validitas predictive dan concurrent yang dikategorikan sebagai
criterion-related validity, kriteria yang digunakan adalah skor test atau skor pengukuran
lain yang disebut sebagai kriteria eksternal. Test atau pengukuran lain yang dijadikan
kriteria eksternal ini harus dapat menghasilkan skor yang vakid dan reliabel, barulah
dianggap layak untuk digunakansebagai kriteria validasi.
Dalam prosedur seleksi item pada test prestasi, berbagai skala sikap dan test
kemampuan lain; umumnya item-item dipilih menurut daya diskriminasinya. Daya
diskriminasi ini diperlihatkan oleh indeks atau koefisien yang dihitung menurut formula
tertentu.
Pada skala sikap model Likert, misalnya bila skor jawaban subjek telah dibagi
dua kelompok menjadi golongan “atas” dan golongan “bawah” menurut tingginya skor
total, maka indeks diskriminasi item dapat dihitung dengan t-test sebagai berikut :
XA  XB
ti 
s 2A s2
 B
nA nB
Dimana :
t i = Nilai t sebagai indeks diskriminasi item i
X A = Mean distribusi skor golongan “atas” yang biasanya diambilkan dari 25%
subjek yang mempunyai skor total tertinggi untuk item i.
X B = Mean skor subjek golongan “dibawah” untuk item i.
s 2A = Varians skor subjek golongan “atas” untuk item i.
s 2B = Varians skor subjek golongan “bawah” untuk item i.
nA = jumlah subjek golongan “atas”.
nB = jumlah subjek golongan “bawah”.
Harga t i yang diperoleh kemudian di konsultasikan pada tabel harga kritis t
dengan derajat kebebasan (db) = n A + n B - 2. Harga t i yang signifikan menunjukan
bahwa daya beda item itu dapat dianggap baik. Apabila jumlah subjek pada masing-
masing golongan “atas” dan golongan “bawah” lebih dari 25 orang, maka t i = 1.75 dapat
dianggap sebagai batas minimal indeks diskriminasi yang seharusnya (Allen L. Edward,
tt).
Cara seleksi item yang juga sering dilakukan pada berbagai bentuk pengukuran
adalah dengan menguji korelasi antara skor item dengan skor total. Dalam hal ini,
koefisien korelasi yang tinggi menunjukan kesesuaian antara fungsi item dengan fungsi
ukur test secara keseluruhan. Prosedur ini disebut validasi item dengan menggunakan
kreteria internal consistency. Sebagai kreterianya dapat digunakan skor total komponen
test (subtest) atau skor total keseluruhan test, tergantung apakah test tersebut terdiri atas
komponen yang independen satu sama lain atau terdiri atas komponen yang relatif
homogen.
Bila item test diberi skor dikotomi, yaitu 0 atau 1 , maka tehnik korelasi yang
digunakan adalah tehnik korelasi point biserial ( r

pb ).
X  Xt p
r pb  i
st q
Dimana :
X i = Mean skor subjek yang mendapat nilai 1 pada item i.
X t = Mean skor sebelum subjek.
s t = Deviasi standard skor seluruh subjek.
P = Proporsi subjek yang mendapat nilai 1 pada item i. Bila N adalah jumlah
seluruh subjek, maka p adalah jumlah subjek yang mendapat skor 1
pada item i dibagi oleh N.
q = 1 - p
Contoh :
Lihat data pada tabel 2.5 sebagai contoh akan dilihat validitas item nomor 2, jadi
i = 2.
Mereka yang mendapat nilai 1 pada item 2 adalah subjek D, E, H, dan I. Skor masing-
masing adalah 4, 10, 7, dan 8, sehingga mean skor mereka adalah :
X 2  ( 4  10  7  8 ) / 4  7.25
Mean skor keseluruhan subjek adalah X t = 59/10 = 5.9 dan deviasi standardnya
adalah s t = 2.343. Sedangkan p telah diketahui sebesar 4/10 atau .4 sehingga q =
.6
7.25  5.9 .4
r pb 
2.343 .6
r pb  .47
Apabila diinginkan perhitungan yang lebih cermat, hendaknya korelasi r pb
dihitung antara skor item dengan skor total yang telah dikurangi skor item. Kalau tidak,
maka r pb yang diperoleh sebenarnya merupakan koefisien yang tidak bersih karena skor
total sendiri berisi skor item yang sedang diuji validitasnya. Contoh komputasinya adalah
X 2  ( 3  9  6  7 ) / 4  6.25
X t  5.5 s t  2.156
6.25  5.5 .4
r pb 
2.156 .6
r pb  .28
Komputasi yang terakhir ini akan banyak artinya terutama bila test yang bersangkutan
mempunyai sedikit item. Bila item yang ada dalam test besar jumlahnya, maka
mengurangi skor total dengan skor item yang sedang diuji validitasnya tidak menjadi hal
yang penting.
Kalau skor item bukan dikotomi, tetapi dapat dianggap berskala interval, maka
tehnik korelasi product moment dapat digunakan.
Sebagai contoh, dapat dipakai data pada tabel 2.13. Validitas item nomor 1 diuji
dengan menghitung korelasinya dengan skor total X.
Diketahui :
 X1  9  X 2  15
1
X  136 X2  1930
 X1 X  132 N  10
Dimana :
X 1 = skor subjek pada item nomor 1.
X = Skor total subjek.

( 9 ) (136 )
132 
rX X  10
1    
 (9) 2   (136 ) 2 
 15    1930  
 10   10 
   
r X X  .408
1
Untuk korelasi akibat berikutnya skor item kedalam skor total, kemudian
dilakukan koreksi yang disebut the correction of item-total correlation for spurious overlap
(Guilford, 1956)
r' X X σ X  σ
i
r' X X  i
i
σ 2X  σ i2  2r X X σ σ X
i i
Dimana :
r X X = Koefisien korelasi antara item dengan total atau antara subtest

i
dengan total.
 i = Deviasi standard skot item atau skor subtest.
 X = Deviasi standard skor total.
Dari contoh data yang sama, deviasi standard skor item dan skor total dapat
dihitung.
s i = .69 dan s X = 8.04
Maka untuk korelasi akibat spurious overlap diperoleh :
(.408 ) (8.04 )  .69

r' X X 
i
(8.04 ) 2  (.69 ) 2  2 (.408 ) (.69 ) (8.04 )
r X X  .333
i
Koefisien korelasi antara item dan skor total merupakan indeks validitas item
dalam arti kesesuaian item dengan skor total dalam membedakan subjek yang mendapat
skor tinggi dan yang mendapat skor rendah. Koefisien korelasi yang relatif tinggi tentu
merupakan indikator kualitas item yang diinginkan. Apalagi kalau sebagian besaritem
dalam testmempunyai korelasi tinggi dengan skor total, hal demikian dapat pula dianggap
sebagai indikasi homogenitas item.
Namun tingginya korelasi antara item-item dengan skor total hendaknya jangan
sampai memberikan kesimpulan yang keliru bahwa test tersebut telah memenuhi kreteria
validitas intrinsiknya. Validitas dalam arti bahwa test tersebut benar melakukan fungsi
ukur yang seharusnya, belum ditunjukanoleh tingginya koefisien korelasi item-total saja.
Untuk mengetahui bahwa test memang mengukur apa yang seharusnya diukur olehnya,
maka analisis validitas dengan kreteria eksternal tidak dapat ditinggalkan. Apalagi kalau
test tersebut dimaksudkan sebagai alat diagnose aspek kepribadian atau aspek
kemampuan potensial yang dimiliki oleh individu.

4. KATA AKHIR
A. Memilih Tehnik Estimasi Yang Tepat.
Berbagai tehnik estimasi reliabilitas yang dikenakan pada data yang sama tidak
dapat diharapkan akan menghasilkan koefisien yang sama.
Perbedaan konsepsi yang melandasi atau ide dasar yang ada pada suatu tehnik
komputasi, sifat distribusi skor kelompok subjek, homogenitas item-item test, indikasi apa
yang ditunjukan oleh koefisien yang dihitung dengan tehnik tertentu, dan sebagainya,
semua akan berpengaruh terhadap hasil komputasi yang akan diperoleh. Oleh sebab itu,
agar tidak memperoleh estimasi yang menyesatkan, kita perlu memperhatikan sifat test
yang dihitung reliabilitasnya dan memahami indikasi yang bakal ditunjukan oleh tehnik
komputasi yang akan digunakan.
Koefisien alpha dan formula-formula Kuder-Richardson menghasilkan
underestimasi te5rhadap reliabilitas test karena koefisien yang didapatnya merupakan
batas terendah reliabilitasnya yang sebenarnya. Lagi pula, metode-metode ini hendaknya
hanya digunakan pada test yang berisi item-item homogen, karena koefisien alpha dan
koefisien Kuder-Richardson disamping menunjukan reliabilitas test juga dapat dianggap
indikator homogenitas item. Bila koefisien alpha dan formula Kuder-Richardson
diterapkan pada suatu test yang berisi berbagai macam traits, maka akan menghasilkan
koefisien yang rendah.
Spearman-Brown propechy formula hanya dapat dikenakan pada belahan test
yang pararel agar diperoleh estimasi reliabilitas yang cermat. Bila belahan-belahan
tersebut tidak pararel, maka underestimasi dan overestimasi terhadap reliabilitas sangat
mungkin terjadi.
Bila isi test adalah homogen, maka tehnik komputasi reliabilitas belah-tiga Kristoff
akan merupakan pilihan yang lebih menarik dibandingkan dengan menerapkan koefisien
alpha dengan tiga-belahan. Sedangkan apabila panjang test yang akan dibelah dua
adalah tidak sama, maka estimasi reliabilitas dapat dilakukan dengan formula Feldt.
Tehnik analisis varians Hoyt umumnya menghasilkan koefisien reliabilitas yang
tinggi, namun apabila item-item test tidak diskor dikotomi, maka tehnik ini seringkali
memberikan koefisien yang rendah.
Masalah memilih tehnik estimasi yang tepat untuk validitas test adalah lebih
sederhana. Karena tehnik korelasi menjadi hampir satu-satunya tehnik statistika yang
mendasari setiap perhitungan validitas, maka tipe validitas mana yang akan diuji dari
suatu test boleh dikatakan hanya ditentukan oleh tujuan penggunaan test itu sendiri.
Untuk mengungkapan aspek kepribadian, umumnya validitas construct menjadi
perhartian utama. Untuk test yang dimaksudkan guna memperoleh deskripsi terhadap
bakat ataupun kemampuan umum (intelegensi), maka validitas tipe concurrent akan perlu
ditegakkan. Bila test tersebut diperlukan dalam prediksi performansi, maka validitas
prediktifnya perlu diuji. Sedangkan validitas content sangat penting artinya pada
pemeriksaan kualitas test prestasi belajar.
Agak berbeda dengan prosedur estimasi reliabilitas yang cukup dilakukan
dengan satu tehnik komputasi yang tepat saja, pada estimasi validitas kadang-kadang
lebih dari satu tipe perlu diuji. Hal ini juga ada kaitannya dengan tujuan penggunaan test
yang bersangkutan.
B Berapa Tinggi Koefisien yang diinginkan ?
Sekalipun reliabilitas bukan satu-satunya informasi penting dalam menilai
kualitas test, namun tetap merupakan informasi yang tidak dapat ditinggalkan. Guilford
(1954) menyatakan bahwa kadang-kadang koefisien reliabilitas yang sangat tinggi dapat
menimbulkan rasa aman semu dalam diri pemakai test. Hal ini dikarenakan bobot faktor
dalam test itu merupakan fakta yang harus lebih diperhitungkan. Arti skor dan apa yang
dapat diprediksi oleh skor test itu terbatas semata-mata pada faktor-faktor relevan yang
ada didalamnya.
Pada umumnya test yang disusun sekarang ini lebih mementingkan aspek
internal consistency. Seberapa tinggi koefisien reliabilitas seharusnya, sukar dinyatakan
secara pasti. Tidak ada rumusan khusus yang menjadi batas kapan suatu koefisien
reliabilitas dapat dinyatakan cukup tinggi sebagai indikasi bahwa test yang bersangkutan
adalah reliabel. Sekedar menunjukan signifikansi koefisien reliabilitas yang dihitung
dengan tehnik korelasi, tidak merupakan jawaban atas terpenuhinya tingkat reliabilitas
yang layak.
Berbagai macam fungsitest menuntut tingkat reliabilitas minimal yang tidak sama.
Guna tujuan diagnosis dan prediksi, sesungguhnya test dituntut untuk mempunyai
koefisien reliabilitas setinggi mungkin. Namun kadang-kadang koefisien reliabilitas yang
rendahpun, misalnya r XX’ = .40 masih cukup berarti dalam hal-hal tertentu terutama bila
test yang bersangkutan dipakai bersama-sama dengan test lain dalam suatu perangkat
alat pengukuran.
Suatu keadaan dimana reliabilitas sangat penting artinya adalah bila kita
melakukan estimasi validitas prediktif. Skor yang dijadikan kreteria validasinya harus
disertai informasi mengenai reliabilitas, agar kita dapat mengetahui berapa efektifnya
prediksi yang dapat dilakukan (lihat pembicaraan mengenai koreksi untuk atenuasi)
Agaknya aturan main yang paling praktis adalah menyertakan informasi hasil
pengujian reliabilitas dan kesalahan standard pengukuran dalam test yang kita gunakan
agar mereka yang ingin menilai hasil pengukuran test tersebut atau yang ingin
menggunakan dapat mengevaluasi sendiri seberapa jauh ia dapat mengandalkan
kepercayaannya pada test tersebut dan apakah ia cukup puas dengan estimasi
reliabilitas seperti yang ditunjukkan oleh koefisien reliabilitas yang telah diperoleh.
Bagaimana besarnya koefisien reliabilitas harus diinterprestasikan, dalam hal ini
haruslah disadari bahwa pertama, reliabilitas test yang diestimasi dengan satu tehnik
pada suatu situasi dan sampel tertentu sangat mungkin tidak akan sama dengan hasil
estimasi oleh tehnik lain, dalam situasi lain, dan menggunakan sampel lain. Karena itu,
interprestasinya harus spesifik sebagai koefisien reliabilitas bagi sampel dan situasi
tertentu. Kedua, koefisien reliabilitas hanyalah mengindikasikan besarnya inkonsistensi
skor, bukan secara langsung menyatakan sebab-sebab inkonsistensi tersebut. Ketiga,

reliabilitas bukanlah segala-galanya, tetapi baru satu langkah dalam pengukuran
psikologi.
Sebagaimana dengan halnya reliabilitas, dalam interpretasi koefisien validitas
pun tidak ada rumusan khusus yang menyatakan bahwa koefisien validitas harus
menyapai angka tertentu agar dapat dinyatakan sebagai valid. Halnya saja dalam
mengestimasi validitas, umumnya tuntutan akan koefisien yang tinggi tidak begitu besar
seperti pada koefisien reliabilitas. Koefisien validitas yang tidak begitu tinggi biasanya
lebih dapat ditolelir daripada koefisien reliabilitas yang rendah. Hal ini sangat
memungkinkan disebabkan koefisien validitas pada dasarnya diperoleh dari korelasi test
dengan kreteria yang berupa ukuran lain, jadi tidaklah mudah untuk memperoleh validitas
yang tinggi.
Sesungguhnya dalam melihat koefisien validitas, sebaiknya tidak dipersoalkan
apakah koefisien yang dihitung dengan tehnik korelasi itu signifikan atau tidak
berdasarkan suatu harga kritis, akan tetapi interprestasinya dikembalikan kepada mereka
yang akan menggunakan hasil ukur tersebut. Mereka mungkin puas dengan koefisien
validitas tertentu, atau mungkin tidak dapat memberi toleransi bagi koefisien yang tidak
begitu tinggi.
Hal yang lebih penting untuk dipersoalkan adalah sejauh mana suatu test dapat
berguna dalam pengambilan keputusan. Suatu test yang menunjukan koefisien validitas
yang rendah pun mungkin masih dapat bermanfaatdalam hal-hal tertentu, misalnya
apabila hasil pengukuran test itu akan dipakai hanya untuk meletakkan subjek dalam
suatu jenjang kedudukan relatif pada suatu kelompok, atau dalam seleksi item guna
melihat daya diskriminasi item atau melihat konsistensiitem dengan tujuan test.
Hal tersebut hendaknya tidak untuk disalahartikan bahwa kita mudah memberi
toleransi pada koefisien validitas yang rendah, tetapi sebagai peganganpraktis bahwa
disamping usaha mencapai koefisien yang setinggi mungkin, haruslah disadari akan
keterbatasan validitas yang dapat dicapai oleh berbagai jenis dan tipe test, serta kriteria
yang dipakai dalam prosedur validitasnya.

Dengan demikian, pengujian reliabilitas dan validitas test serta penyertaan hasil
komputasi koefisien reliabilitas dan validitas dalam laporan mengenai suatu test tidak
saja merupakan justifikasi penggunaan test tersebut, tetapi juga menjadi dasar penilaian
test oleh para pemakai hasil ukur test tersebut.

REFERENSI
Allen, M. J. & Yen, W. M. Introduction to Measurement Theory Monterey : Brooks / Cole
Publishing Company, 1979.
Campbell, D.T & Fiske, D.W. Convergent and Discriminant Validition by the Multitrait-
multimethod Matrix. Psichological Bulletin, 1959, 56, 81 – 105.
Cronbach, L.J. Coefficient Alpha and Internal Structure of Tests. Psychometrika, 1951,
16, 297 – 334.
------- Test Validition. Dalam R. L. Thorndike (ed), Educational Measurement (2nd.ed),
Washington, D.C. : American council on Education, 1971.
Cureton, E. E. Validity. Dalam E. F. Lindquist (ed), Educational Measurement,
Washington, D.C. : American Council on Education, 1951.
Ebel, R. L. Estimation of the Reliability of Rantings, Psychometrika, 1951, 16, 407 – 424.
Edward, A. L. Technique of A:titude Scale Construction, New York : Appleton Century
Croft, INC, tt.
Feldt, L. S. Estimation of the Reliability of a Test Divided into Two Parts of Unequal
Length, Psycometrika, 1975, 40, 557 – 561.
Guilford, J. P. Psychometrika Method (2nd.ed), New York : Mc-Graw-Hill, 1954.
------- Fundamental Statistics in Psycology and Education (3rd.ed), New York : McGraw-
Hill , 1956.
Gulliksen, H. Theory of Mental Tests, New York : Wiley, 1950.
Hoyt, C. Test Reliability Obtained by Analysis of Variance, Psychometrika, 1941, 6, 153 –
160.
Kristoff, W, Estimation of Reliability and True Score Variance from a Split of a Test into
Three Arbitrary Parts Psychometrika, 1974, 39, 491-499.
Kuder, G, F. & Richardson, M. W, The Theory of the Estimation of Test Reliability,
Psychometrika, 1973, 2, 151 – 168.
Mosier, C. I, On the Reliability of a Weighted composite, Psycometrika, 1943, 8, 161 –
168.
Rulon, P.J, A Simplified Procedure for Determining the Reliability of a Test by Split-
Halves, Harvard Educational Review. 1939, 9, 99 – 103.
Spearman, C. The Proof and Measurement of Association between Two Things,
American Journal of Psychology, 1904, 15, 72 – 101.

Buku Uji Validitas Dan Reliabilitas PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Buku Uji Validitas Dan Reliabilitas PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

H. MIFTACHUL ‘ULUM, ST.

Kesadaran akan perbedaan individual, pengakuan bahwa individu tidaklah sama

dimulai oleh Sir Francis Galton (1822-1911) dengan mendirikan laboratorium

antropometrisnya guna mengembangkan pengukuran terhadap berbagai ketrampilan

Charles Spearman ditahun 1910 sewaktu ia memperkenalkan istilah reliability sebagai

terhadap hal yang sama.

Menjelang tahun 1937 reliabilitas test bentuk tunggal ditegakkan melalui

perpaduan antara pendekatan korelasional Pearsonian dan pendekatan rancangan

penggunaan analisis varians dalam menghitung reliabilitas.

membuahkan modifikasi yang menjadikan formula-formula reliabilitas memperoleh

interprestasi deskriptif dan eksplanatif suatu validitas dan tulisan-tulisanpun banyak

(American Psychological Association) ditahun 1966 menerbitkan versi tunggal Standart

criterion-related, content, dan construct validity.

dimengerti bila pengertian mengenai reliabilitas telah dikuasai, misalnya pembicaraan

mengenai koreksi terhadap atenuasi dan pendekatan multi-trait multi-method validity.

Sebab itu pula pembicaraan mengenai reliabilitas didahulukan.

pengukuran yang disederhanakan. Namun kemudian, mengingat aspek praktisnya akan

sangat erat berkaitan dengan prosedur komputasi reliabilitas dan validitas.

: Koefesien korelasi product-moment antara X dan Y – diseder-hanakan dari

Dalam pengukuran aspek fisik, reliabilitas pada umumnya sangat tinggi.

sosial. Misalnya dalam pengukuran terhadap intelegensi, pengukuran terhadap sikap

masyarakat mengenai suatu hal, pengukuran terhadap kecenderungan mendapat

kecelakaan, pengukuran sifat kepemimpinan, dan lain sebagainya. Aspek sosial-

Kesalahan pengukuran yang merupakan komponen ketidak reliabelan memang lebih

banyak terdapat pada pengukuran sosial-psikologis daripada pengukuran aspek fisik.

Istilah reliabilitas sering disamakan dengan consistency, stability, atau

Pendekatan dan penafsiran teoritis terhadap reliabilitas dapat ditempuh melalui

classical true score theory.

Dalam classical true score theory, reliabilitas pengukuran yang dilambangkan

Koefesien reliabilitas dinyatakan oleh rasio varians true-score (skor-murni)

terhadap varians skor-tampak, atau oleh proporsi varians skor-tampak yang

merupakan varians skor-murni.

semua varians skor-tampak merupakan varians skor murni, tidak mengandung

varians kesalahan. Setiap perbedaan skor-tampak yang terjadi merupakan

sempurna, pengukuran terjadi tanpa kesalahan. Adanya kesalahan pengukuran

semakin kecillah proporsi varians skor-tampak yang merupakan varian skor-

murni dan test tersebut semakin kurang reliabel.

Interpretasi ini menyatakan bahwa koefesien reliabilitas adalah sama dengan

.81, maka  XT = .90.

Bila  xx’ = .49, maka  XT = .70.

Gambar 2.1 hubungan

variabel kreterianya, maka korelasi X dan Y yaitu  XY disebut koefesien validitas.

Interprestasi ini menghubungkan reliabilitas dengan error-variace (varians-

kesalahan) dan varians skor-tampak.

Apabila suatu pengukuran hanya berisi kesalahan random semata-mata, maka

reliabilitas test tersebut sempurna karena pengukuran yang dilakukan tanpa

terhadap reliabilitas. Bila di asumsikan bahwa varians kesalahan adalah konstan,

heterogen cenderung menghasilkan koefesien reliabilitas yang lebih tinggi

daripada kalau didasarkan pada data dari sampel yang homogen.

Interpretasi reliabilitas menurut classical true-score theory dapat disimpulkan

1. Bila  xx’ = 1 , maka :

a. Pengukuran dibuat tanpa kesalahan

b. Bagi semua subjek, X = T,

d. Perbedaan di antara skor-tampak merupakan perbedaan skor-murni

e. Korelasi antara skor-tampak dan skor-murni sama dengan 1, (  XT = 1)

f. Korelasi antara skor-tampak dengan kesalahan sama dengan 0, (  XE = 1)

a. Pengukuran berisi kesalahan random semata-mata,

b. Bagi semua subjek, X = E,

d. Semua perbedaan diantara skor-tampak mencerminkan kesa- lahan

e. Korelasi antara skor-tampak dan skor-murni adalah 0, (  XT = 0)

3. Bila 0 <  XX’ < 1, maka :

a. Sebagian pengukuran mengandung kesalahan.

c. Varians skor-tampak terdiri atas varians skor-murni dan varians kesalahan (