,MM
BUKU
UJI VALIDITAS DAN UJI RELIABILITAS
Edisi Pertama
2016
1. PENDAHULUAN
A. Latar Belakang.
satu dengan yang lainnya, tampak secara eksplisit ketika studi mengenai hal yang
sensori dan motorik. Di Perancis, atas desakan pentingnya membedakan antara anak
yang mampu dari yang tidak mampu belajar, Alfred Binet (1857-1911) menyusun alat
pengukuran intelegensi pertama pada pada tahun 1905 yang ternyata merupakan nenek
moyang berbagai test intelegensi dan test kemampuan psikologis lain yang banyak
dikenal sekarang. Seiring dengan itu, Karl Pearson (1857-1936) yang dikenal sebagai
Bapak Statistika, mengembangkan banyak tehknik statistika guna analisis data yang
melandasi teori-teori pengukuran yang ada sekarang termasuk koefesien korelasi product
moment yang sangat terkenal itu dan juga chi-square goodness-of-fit test.
Buku pertama mengenai teori pengukuran ditulis oleh E.L Thorndike dan
diterbitkan pada tahun 1904 berjudul An Introduction to The Theory of Mental and Social
Measure-ments. Enam tahun kemudian, definisi reliabilitas pertama kali dirumuskan oleh
koefesien korelasi antara satu belahan dan belahan lain dari berbagai pengukuran
produser test ulang atau dengan membagi test menjadi dua bentuk pararel. Kemudian
ditahun 1937, Kuder dan Richardson menggunakan struktur varians-kovarians item dari
suatu test tunggal guna menghitung koefesien reliabilitas yang antara lain dikenal dengan
nama KR-20 dan KR-21. Di tahun 1939, sewaktu Kenneth H. Baker di USA dan W.B
Jackson di Inggris menerapkan analisis varians guna menguji item-item test, dimulailah
Sekalipun dasar-dasar teori pengukuran yang ada sekarang ini dianggap telah
selesai dibangun pada tahun-tahun 1950-an, tetapi riset dibidang metode pengukuran
psikologi atau psikometri terus berlanjut. Berbagai tehnik dan formula komputasi telah
dikembangkan sejak itu. Analisis ulang dengan studi yang lebih mendalam telah
bentuknya yang lebih praktis dan sederhana, dan seiring dengan perkembangan
komputer yang meningkatkan kemampuan bekerja dengan banyak angka telah pula
dihasilkan formula yang lebih teruji serta estimasi yang lebih cermat. Hal ini tampak
antara lain dengan dirumuskannya formula komputasi reliabilitas untuk test belah tiga
(Kristoff, 1974) dan test belah dua dengan panjang berbeda (Feldt, 1975)
Di lain pihak, teori mengenai validitas sebelum tahun 1950 hampir seluruhnya
merupakan teori mengenai prediksi. Baru kemudian perhatian banyak ditujukan pada
ditujukan pada interprestasi deskriptif dan teoritis serta persyaratan prosedurilnya. Aliran
ini dirintis oleh Coreton (1951). Aspek validitas mendapat tempat selayaknya setelah APA
for Educational and Psychological Test. Di sini secara eksplisit validitas dibagi atas
Porsi terbesar buku ini diberikan bagi pembicaraan mengenai reliabilitas. Hal itu
bukan karena reliabilitas lebih penting dari pada validitas, tetapi karena reliabilitas
merupakan informasi pertama yang harus diperoleh oleh para pemakai test dan karena
bahan terbanyak yang harus dibicarakan adalah mengenai reliabilitas. Di samping itu,
ada beberapa hal yang berkaitan dengan masalah validitas yang akan lebih mudah
lebih mungkin dimanfaatkan bila disertakan pula prosedur komputasi praktis, maka
beberapa contoh aplikasi diikut sertakan, bahkan dengan disertai pula oleh beberapa hal
khusus yang kadang-kadang diperlukan dalam estimasi reliabilitas alat ukur tertentu.
Asumsi bahwa pembaca sudah berbekal Statistika Dasar, tentu sangat pada
tempatnya. Namun berikut initetap diberikan beberapa simbol dan formula statistika yang
B. Sekedar Statistika.
N
1. X i X1 X 2 X 3 ..... X n
1
: Jumlah skor X i dimana i bergerak dari i = 1 sampai dengan i = N
2. N Xi
N
: Mean distribusi X i (untuk populasi dilambangkan oleh u X )
2 ( Xi )2
X
2 N
3. S i
X N
2
: Varians distribusi X i (untuk populasi dilambangkan oleh σ )
X
( X i ) ( Yi )
X i Yi
4. S xy N
N
: Kovarians distribusi Xi dan Yi. (untuk populasi dilambangkan oleh XY )
5.
( X ) ( Y )
XY -
r XY N
2
2 _ (X) 2 ( Y )2
X Y
N N
Kalau kita mengukur panjang sebuah meja kayu dengan menggunakan sebuah
meteran berulang-ulang, baik dalam tenggang waktu yang singkat maupun tenggang
waktu yang lama, maka hasil ukur kita akan dapat dipastikan selalu menunjukan angka
yang sama selama panjang meja tersebut memang belum berubah. Kita katakan bahwa
meteran tersebut reliabel, atau konsisten, atau dapat diandalkan, atau stabil. Demikian
pula kalau kita melakukan pengukuran terhadap variabel fisik lainnya, misalnya waktu
yang diperlukan oleh seorang perenang guna menempuh jarak 200 meter dengan
kecepatan rata-rata yang diperlukan oleh perenang tersebut dari start sampai finish. Bila
kecepatan rata-ratanya sama, maka waktu tempuhnya akan ditunjukan oleh stopwatch
tersebut konsisten. Kita katakan bahwa pengukuran oleh stopwatch tersebut konsisten.
Hal yang berbeda akan kita jumpai dalam pengukuran aspek psikologis dan
psikologis demikian tak dapat diukur dengan kepastian dan konsistensi yang tinggi
karena hasil ukurnya tidak dapat lepas dari pengaruh hal-hal tidak relevan di luar maksud
pengukuran, alat ukur itu sendiri sangat mungkin bukan alat yang tepat untuk mengukur
aspek yang kita inginkan dan dirancang tidak dengan cukup baik sehingga menimbulkan
penafsiran dan cara jawab yang berbeda-beda oleh subjek yang diukur, ingat bahwa
subjek ukur dalam hal ini adalah manusia. Kemudian cara penyajian test, suasana hati
dan sikap subjek terhadap test, motivasi, dan kondisi fisik subjek, keadaan ruang
pengujian, cara memberikan test, dan sebagainya sangat mungkin berpengaruh terhadap
jawaban apa yang diberikan oleh subjek sehingga walaupun aspek yang diukur pada
subjek sebenarnya tidak berubah akan tetapi andaikan dilakukan pengukuran ualang
terhadap subjek yang sama, sangat mungkin hasil yang diperoleh ternyata berbeda.
Dengan kata lain, hasil pengukuran tidak menjadi reliabel. Semua hal yang tidak relevan
yang ikut mempengaruhi hasil pengukuran merupak sumber ketidak reliabelan.
dependability, yang pada prinsipnya menunjukan sejauh mana pengukuran itu dapat
memberikan hasil yang relatif tidak berbeda bila dilakukan pengukuran kembali terhadap
subjek yang sama. Namun demikian, sebagaimana akan dibicarakan nanti, reliabilitas
alat ukur tidak harus selalu diuji dengan melakukan test ulang. Berbagai tehnik telah
memungkinkan pengujian reliabilitas dengan tidak memerlukan lebih dari satu kali
pengukuran.
berbagai cara. Dalam pembahasan berbagai akan diikuti asumsi dan interpretasi dari
A. Beberapa Interpretasi.
oleh xx’ ( adalah huruf Yunani rho ) dapat dilihat dari berbagai interpretasi.
1. xx’ = Korelasi antara observed-score (skor-tampak) dari dua alat yang pararel.
Dalam interpretasi ini, apabila setiap subjek mendapat skor yang sama pada test
X dan test X’ yang pararel, dan terdapat varians pada masing-masing distribusi
skor-tampak itu, maka kedua test tersebut mempunyai reliabilitas sempurna ( xx’
= 1.0 ). Apabila tidak semua subjek mendapat skor yang sama pada test X dan
test X’ , maka korelasi antara kedua test tidak sempurna ( xx’ < 1.0 ).
2 2
2. xx’ = /
T X
2 2
perbedaan skor-murni, = . Dengan kata lain, pada reliabilitas yang
T X
2 2
akan menyebabkan harga komponen / lebih kecil daripada 1.0 dan
T X
2
3. xx’ =
XT
kuadrat korelasi antara skor-tampak dan skor-murni. Jadi, misalnya kalau xx’ =
Bilamana 0.0 < xx’ < 1.0, kita dapat melihat bahwa xx’ < XT yaitu korelasi
skor-tampak dari dua test yang pararel. Hubungan ini dapat dilukiskan sebagai
berikut :
10 -
.9 -
.5 -
XT
I I I
0 .2.5 .X1 1.0 Sesungguhnya karena skor
xx’
suatu test tidak dapat
berkolerasi dengan skor variabel lain lebih tinggi daripada dengan skor-murninya
sendiri, maka korelasi maksimal antara skor-tampak suatu test dengan skor-
tampak variabel lain adalah sama dengan XT x atau sama dengan ρ xx'
yaitu akar kuadrat reliabilitasnya. Bila test X dianggap prediktor dan Y adalah
Karena XY tak dapat lebih besar daripada XT x , maka XY tidak pula dapat
lebih besar daripada ρ xx' . Jadi validitas akan dipengaruhi oleh reliabilitas.
2 2
4. xx’ = 1 - /
E X
2 2
varians skor-tampak merupakan varians kesalahan keseluruhnya, = .
E X
Dalam hal ini maka harga xx’ = 1-1=0 artinya test tersebut sama sekali tidak
2
reliabel. Kalau pengukuran tidak mengandung kesalahan sama sekali, maka
E
2 2
= 0 dan harga komponen / = 0 , dan xx’ = 1 - 1= 0. Dengan kata lain
E X
kesalahan.
2
Varians (derajat heteroginitas) skor-tampak, mempunyai pengaruh penting
X
2 2
maka besarnya varians skor-tampak sangat menentukan harga / . Kalau
E X
2 2 2 2
sampel heterogen, maka haraga / akan kecil dan xx’ = 1- /
E X E X
2 2
akan besar. Bila sampel homogen maka harga / akan besar dan dan
E X
2 2
xx’ = 1- / menjadi kecil.
E X
Dengan kata lain, estimasi reliabilitas yang didasarkan data dari sampel yang
Kesimpulan Interpretasi.
sebagai berikut :
2 2
c. Semua varians skor-tampak merefleksikan varians skor-murni ( /
X T
2. Bila XX = 0, maka :
2
c. Semua varians skor-tampak merupakan varians kesalahan ( =
X
2
)
E
pengukuran.
b. X = T = E
2 2 2
X= T + E)
e. XT = ρ xx'
f. XE = 1 ρ XX'
2 2
g. XX’ = /
T X
Harga koefesien reliabilitas yang sesungguhnya, XX’ tidak di ketahui. Apa yang
antara lain, metode-metode yang di uraikan dibawah ini yang akan menghasilkan harga
1. Metode Test-Retest.
kelompok subjek yang sama dua kali dengan memberi tenggang waktu yang cukup di
antara kedua penyajian tersebut. Dengan menghitung korelasi antara distribusi skor-
tampak kedua penyajian, akan di peroleh koefesien reliabilitas test yang bersangkutan.
Koefesien korelasi sempurna hanya akan diperoleh bila setiap subjek mendapat skor
yang sama pada kedua penyajian bila distribusi skor kelompok tersebut varians tidak
_____
Subjek XI waktu X II
S1 X II X III
S2 X 2I X 2II
S3 X 3I X 3II
:
:
Sn X nI X nII
r XX’ = r I.II
Keterangan :
Contoh :
Subjek XI X II
A 40 42
B 43 43
C 39 38
D 52 50
E 50 51
F 44 45
G 44 44
H 51 49
I 48 49
J 47 46
N = 10 X I = 458 X II = 457
2 2
X = 21160 X = 21037
I II
X I X II = 21090
Tabel 2.1 : Distribusi skor test X pada penyajian pertama X I dan pada penyajian kedua
X II setelah tenggang waktu tertentu.
kedua penyajian. Skor subjek pada penyajian kedua sangat mungkin dipengaruhi oleh
penyajian test yang pertama. Misalnya, bila subjek masih ingat jawaban yang diberikanya
pada penyajian pertama, ada kemungkinan pada penyajian kedua ia sekedar mengulangi
saja jawaban tersebut. Hal ini akan meningkatkan korelasi antara dua penyajian dan
peningkatan hasil test karena subjek berlatih dan belajar sesuatu dalam tenggang waktu
di antara kedua penyajian. Apabila peningkatan ini tidak searah dan tidak sama besar
pada semua subjek, maka korelasi r XX’ akan tercemar, akibatnya akan terjadi
pada penyajian kedua subjek sikap negatif, menolak bekerja dengan bersungguh-
waktu yang harus disediakan di antara dua penyajian test. Kalau tenggang waktu terlalu
singkat, sangat mungkin terjadi carry-over effect akibat memory, practice, atau suasana
hati subjek. Bila tenggang waktu diberikan terlalu panjang, dapat mengakibatkan carry
over effect yang ditimbulkan oleh perubahan suasana hati subjek, atau bertambahnya
informasi yang diperoleh subjek dalam aspek yang diukur oleh test yang bersangkutan.
Karena itu metode test-retest lebih cocok untuk digunakan dalam mengestimasi
reliabilitas test yang mengukur traits yang stabil selama tenggang waktu penyajian dan
korelasi skor-tampak antara dua test yang pararlel yang disajikan pada kelompok subjek
yang sama. Dikarenakan hampir tidak mungkin untuk memperoleh dua test yang pararlel,
dua test yang mengukur satu trait yang sama dan disusun sedemikian rupa sehingga
dengan mean, varians, dan korelasi dengan test lain yang sama besar.
Kalau test X dan alternate-test Z dikenakan pada sekelompok subjek, dan skor-
tampak pada kedua test tersebut dikorelasikan maka koefesien korelasi r XZ yang
diperoleh akan mencerminkan reliabilitas test tersebut dan juga mencerminkan seberapa
Keterangan :
S i = Subjek yang ke i
X i = Skor subjek yang ke I pada test X
Z i = Skor subjek yang ke I pada test Z
i = 1, 2, 3, ………., n
2. Metode
Contoh :
Tabel 2.2 : Distribusi skor item-item bernomor ganjil (belahan Y1) dan skor item-item
bernomor genap (belahan Y2)
Sebagimana pada metode test-retest, korelasi antara skor X dan skor Z dihitung
ataupun parallel-forms tidak menjamin hilangnya carry over effect, terutama yang
diakibatkan oleh sikap, suasana hati, maupun cara respon subjek. Akibatnya dapat
sulitnya menyusun dua test yang dapat dianggap alternate-form menjadi salah satu
Metode internal cosistency hanya memerlukan satu kali penyajian test saja
(dikenal dengan nama singel-trial administration) dan karena itu masalah-masalah yang
Salah satu prosedur dalam metode internal cosistency yang sangat populer
adalah yang menghasilkan estimasi reliabilitas split-half (belah dua). Test yang akan
Pembelahan ini dilakukan setelah keseluruhan test sebagai kesatuan dikenakan pada
para subjek. Kemudian dapat diperoleh distribusi skor-tampak subjek untuk belahan
Keterangan :
Si = Subjek yang ke i
Yj = Belahan ke j
Y ij = Skor subjek ke i pada belahan ke j
X = Y1 + Y2
i = 1, 2, 3, …………., n
j = 1, 2
Contoh
moment menghasilkan :
(64)(61)
407
ry y 10
1 2
64 2 612
432 399
10 10
r y1y2 = .676
Harga r y1y2 ini baru merupakan koefisien korelasi antara kedua belahan test,
adalah paralel, maka estimasi reliabilitas keseluruhan test X yaitu r XX’ dapat dilakukan
dengan menggunakan formula Spearman-Brown pada koefisien korelasi antara skor
2r y1y2
r xx '
1 r y1y2
Dimana :
r Y1Y2 = Koefisien korelasi antara kedua belahan.
r XX’ = Koefisien reliabilitas keseluruhan test X.
Jadi kalau diperoleh korelasi sebesar r Y1Y2 = .676 dari kedua belahan, maka
2 (0.676)
r xx'
1 0,676
r XX’ = .8067
Harga r XX’ selalu akan lebih tinggi dari pada harga r Y1Y2 karena r XX’
r Y1Y2 r XX’
.00 .00
.20 .33
.40 .57
.60 .75
.80 .89
1.00 1.00
Tabel 2.3. Kenaikan r Y1Y2 menjadi r XX’
Reliabilitas baru r XX’ dikarenakan penambahan jumlah item ini sering pula
cermat sebagai efek memperpanjang test seperti diatas, suatu asumsi yang harus dapat
dipenuhi adalah asumsi mengenai homogenitas antara item-item dalam test setelah
perpanjangan. Hal itu dapat dicapai apabila item-item baru yang ditambahkan merupakan
reliabilitas setelah perpanjangan test merupakan fungsi dari koefisien reliabilitas semula r
YY” dan J. Gambar berikut memberikan ilustrasi hubungan antara panjang test dengan
reliabilitas.
10 r yy’ = .80
r yy’ = .60
9 r yy’ = .40
8 r yy’ = .20
7
0 1 2 3 4 5 6 7 8 9 10
Gambar 2.2 : Efek penambahan item terhadap peningkatan reliabilitas test.
Tampak pada gambar 2.2 bahwa untuk test yang reliabilitasnya relatif rendah (
dalam gambar r yy’ = .20 ), penambahan item yang memperpanjang test menjadi 10 kali
demikian, bila J terus bertambah besar mendekati , maka reliabilitas test akan
mendekati r XX’ = 1.00 asalkan komponen yang ditambahkan adalah paralel dan
reliabilitas yang akan diperoleh apabila dikehendaki untuk memperpendek test. Suatu
test yang mempunyai reliabilitas r XX’ dan akan diperpendek menjadi 1/J dari panjang
1/J ( r xx' )
r yy'
1 (1/ J 1) r xx'
Contoh :
Misalkan suatu test yang berisi 100 item mempunyai reliabilitas r XX’ = .90
dan ingin diperpendek menjadi hanya 60 item. Reliabilitas test tersebut setelah
r xx' ( 1 r yy' )
J
r yy' ( 1 r xx' )
Dimana :
R YY’ = Reliabilitas semula
R XX’ = Reliabilitas yang dikehendaki
J = Rasio jumlah item test yang baru dan jumlah item test semula.
Contoh :
Bila reliabilitas semula r YY’ = .30 dan ingin ditingkatkan menjadi r XX’ = .60,
maka :
J .60 ( 1 .30 )
.30 ( 1 .60 )
J = 3 12
Kalau jumlah item semula adalah k, maka banyaknya item baru yang harus
dengan J = 3 12 maka item baru yang harus ditambahkan adalah sebanyak 3 12 (20) -
20 = 50 item
berlipat jumlahnya, terutama bila reliabilitas semula memang relatif rendah. Hal itu tentu
tidak mudah untuk dilakukan karena peningkatan reliabilitas yang diharapkan hanya akan
tercapai bila item-item yang ditambahkan itu dapat menjadi bagian homogen dari test
keseluruhan.
Rulon (1939) mengetengahkan suatu tehnik estiamsi reliabilitas belah dua tanpa
perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Varians yang
perlu diperhitungkan dalam tehnik adalah varians kesalahan. Menurut Rulon varians
distribusi perbedaan skor pada belahan-belahan test seluruhnya dicantumkan oleh
2 2
r xx' 1 S / S
d X
Dimana :
2
S = Varians distribusi perbedaan skor kedua belahan.
d
2
S = Varians distribusi skor total.
X
Contoh :
Dengan menggunakan data pada tabel 2.2 diperoleh distribusi perbedaan skor
sebagai berikut :
Belahan d
Subjek d2 X X2
Y1 Y2 ( Y1 - Y2 )
A 8 8 0 0 16 256
B 7 8 -1 1 15 225
C 6 6 0 0 12 144
D 6 6 0 0 12 144
E 5 5 0 0 10 100
F 6 6 0 0 12 144
G 9 9 0 0 18 324
H 4 4 0 0 8 64
I 5 5 0 0 10 100
J 8 4 4 16 12 144
N = 10 64 61 d=3 d2 = 17 125 1645
2
Varians X, telah diketahui S = 8.249 sedangkan varians d dapat dihitung :
X
2
2 17 3
S 10
d
10
2
S 1.61
d
Sehingga
r XX’ = .8048
separuhnya. Di samping itu rumus Rulon dapat dikenakan pada dua testyang paralel,
yang dalam hal ini kita kemudian harus menggunakan koreksi Spearman-Brown terhadap
Koefisien Alpha
Apabila distribusi skor pada belahan Y1 dan belahan Y2 tidak memiliki varians
yang sama atau tidak cukup alasan untuk menganggap kedua belahan tersebut paralel,
maka estimasi keseluruhan test dapat diperoleh dengan menggunakan koefisien Alpha
(Cronbach, 1951)
2 2 2
2 S ( S S )
X Y1 Y2
α
2
S
X
Keterangan :
2
S = Varians skor subjek pada belahan Yj ; j = 1, 2
Yj
2
S = Varians skor subjek pada keseluruhan test X
X
= Koefisien reliabilitas Alpha
Contoh :
Dari tabel 2.2 varians skor pada belahan Y1 dan Y2 dapat dicari,
2
432 ( 64 )
2
S 10
Y1 10
2
S 2.239
Y1
Sedangkan varians Y2 adalah :
2
399 ( 61 )
2
S 10
Y2 10
2
S 2.689
Y2
2
dan varians X, S = 8.249, sehingga
X
= .805
Koefisien alpha akan memberikan harga yang lebih kecil atau sama besar
dengan harga reliabilitas yang sebenarnya ( XX’ ), jadi akan selalu ada kemungkinan
bahwa reliabilitas test yang sebenarnya adalah lebih tinggi daripada koefisien alpha.
Harga r XX’ yang dihitung dengan formula Spearman-Brown dan harga koefisien
alpha akan lebih tinggi apabila korelasi antara kedua belahan test juga tinggi, sebaliknya
apabila kedua belahan test berkorelasi rendah maka r XX’ dan koefisien alpha juga akan
rendah. Di lain pihak kedua belahan tersebut dapat menghasilkan korelasi tinggi hanya
kalau keduanya mengukur trait yang sama atau trait berbeda yang berkorelasi tinggi. Jadi
reliabilitas Spearman-Brown dan koefisien alpha dapat dianggap sebagai indeks internal-
Pembelahan test tidak terbatas pada pembelahan test menjadi dua belahan saja.
Adalah mungkin untuk membelah test menjadi lebih dari dua komponen atau dua
belahan ( J > 2 ).
Formula koefisien alpha dapat digunakan untuk estimasi test yang dibelah
menjadi J komponen dengan menghitung varians skor tiap-tiap belahan serta varians
skor total. Formula dimaksud akan menghasilkan estimasi reliabilitas yang baik hanya
bila isi test yang bersangkutan adalah homogen, yaitu mengukur trait tunggal. Formula
Dimana :
2
S = Varians skor subjek pada keseluruhan test X yang terbagi atas J belahan.
X
2
S = Varians skor subjek pada belahan yang ke j ; j = 1, 2, 3, …..j
Yj
J = Banyaknya belahan
Formula-Formula Kuder-Richardson.
Apabila setiap komponen atau belahan test merupakan item yang diberi skor
dikotomi (dichotomous), yaitu terdiri atas angka 0 dan 1, maka formula alpha akan
2 J
S
Pi ( 1 P i )
J 1
KR 20 X
J 1
S
2
X
Keterangan :
Pi = Proporsi subjek yang mendapat skor 1 pada item i , yaitu banyaknya subjek
yang mendapat skor 1 dibagi dengan banyaknya seluruh subjek.
2
S = Varians skor test X
X
J = Banyaknya belahan test, dalam hal ini adalah banyaknya item test.
reliabilitas test yang terdiri atas item dikotomi, dengan menggunakan rata-rata proporsi
subjek yang mendapat skor 1. Rumusan ini dikenal dengan nama formula Kuder-
Richardson -21.
2
S J P (1 P )
J X
KR 21
J 1
S
2
X
Keterangan :
2
S = Varians skor test X
X
P = Rata-rata proporsi subjek yang mendapat nilai 1 pada setiap item, atau
jumlah seluruh harga Pi dibagi oleh banyaknya item.
J = Banyaknya item test.
Contoh :
Nomor item
Subjek 1 2 3 4 5 6 7 8 9 10 11 12 X X2
A 1 0 1 1 0 0 1 1 0 1 0 0 6 36
B 1 0 1 1 0 1 0 0 1 1 0 0 6 36
C 0 0 1 0 1 1 1 0 1 1 0 1 7 49
D 0 1 0 0 0 0 0 1 0 0 1 1 4 16
E 1 1 1 1 0 1 1 1 1 0 1 1 10 100
F 0 0 1 0 1 1 0 0 0 0 1 0 4 16
G 1 0 0 0 0 0 0 0 0 0 0 0 1 1
H 0 1 0 1 0 1 1 1 1 1 0 0 7 49
I 1 1 1 1 1 1 1 0 0 0 0 1 8 64
J 0 0 1 1 0 0 0 1 1 1 1 0 6 36
Pi .5 .4 .7 .6 .3 .6 .5 .5 .5 .5 .4 .4 Pi = 5.9
(1-Pi) .5 .6 .3 .4 .7 .4 .5 .5 .5 .5 .6 .6
Pi (1-Pi) .25 .21 .21 .25 .25 .24 Pi (1-Pi)=2.87
.24 .24 .24 .25 .25 .24
N = 10 X = 59 X2 = 403
Tabel 2.5 Distribusi skor dikotomi.
Banyaknya item = J = 12
Harga Pi adalah banyaknya skor 1 untuk item i dibagi 10, sehingga untuk seluruh item
diperoleh Pi dan ( 1 – Pi ),
Pi (1 – Pi ) = 27
2
Varians X, adalah S = 5.489
X
KR 20 12 5.489 2.87
12 1 5.489
KR 20 .520
Sedangkan komputasi dengan menggunakan formula KR-21 adalah sebagai
berikut :
J
Pi
P 5.9 42
J 12
KR 21 .495
Kalau taraf kesukaran item-item (Pi) dalam test adalah sama, maka formula KR-
20 dan KR-21 akan menghasilkan estimasi reliabilitas yang identik. Ketidaksamaan taraf
kesukaran item menyebabkan koefisien KR-21 lebih rendah daripada KR-20 dan
Untuk kemudahan komputasi, maka koefisien KR-21 dapat pula dihitung dengan
formula berikut :
KR 21
J 1 X X2 / J
J 1 S
2
X
Dengan menggunakan data yang sama pada tabel 2.5 contoh komputasinya
X X 59 5.9
N 10
KR 21 12 1 5.9 (5.9) / 12
2
12 1 5.489
KR 21 .4948
Hasil ini identik dengan hasil komputasi dengan formula KR-21 sebelumnya.
Ada beberapa cara untuk melakukan pembelahan test yang akan diestimasi
reliabilitasnya.
Pertama adalah cara pembelahan odd-even yang mengelompokan semua item
bernomor genap sebagai belahan kedua (Y2). Pembelahan odd-even dapat dilakukan
setelah test dikenakan pada subjek dalam urutan aslinya sebagai suatu keseluruhan.
Cara kedua adalah membelah menurut Order atau urutan nomor item. Cara ini
mengelompokan setengah dari test mulai dari nomor item pertama dan mengelompokan
setengah sisanya sebagai belahan kedua. Kalau banyaknya item adalah k, maka
belahan pertama terdiri dari item nomor 1 sampai dengan nomor k/2 + 1 sampai dengan
nomor k. Untuk cara pembelahan seperti ini, item-item belahan Y1 dan belahan Y2
dikenakan pada subjek sebagai dua test yang terpisah. Jadi seakan-akan mengenakan
Cara yang lebih sophisticated adalah cara pembelahan yang disebut matched
item dan koefisien korelasi masing-masing item dengan skor total test ( r iX ). Data Pi dan
r iX ini kemudian dijadikan dasar untuk meletakan setiap item pada posisinya dalam
suatu grafik. Item-item yang terletak berdekatan posisinya dalam grafik dipasangkan dua-
dua dan dari setiap pasangan item secara random diambil suatu item untuk dimasukan
10 -
E
F
5 - A C
B D
| |
0 5 10
pi
dan B, C, F – A, D, E.
speed-test umumnya subjek akan menjawab benar setiap item yang sempat
dikerjakannya. Dengan pembelahan odd-even maka skor subjek pada kedua belahan
akan hampir identik sehingga akan mengangkat koefisien reliabilitasnya mendekati r XX’ =
Dikarenakan dalam speed-test indeks kesukaran item tergantung pada posisi urutannya,
maka membelah dengan cara matched random subsets pun tidak dapat digunakan.
Demikian pula pembelahan menurut order atau urutan akan menurunkan koefisien
reliabilitas mendekati nol dikarenakan skor subjek yang cenderung lebih tinggi pada
melalui pendekatan analisis varians yang antara lain diusulkan oleh Hoyt (1941).
Matriks skor item dalam hal ini dianggap sebagai desain faktorial dua jalan tanpa
s2
r xx' 1 r2
ss
Dimana :
S2
r = Varians residu yang pada analisis treatment x subject adalah mean
Mean kuadrat (MK) diperoleh dengan membagi jumlah kuadrat (JK) dengan
( X ij ) 2
Variasi total, Jk T X2
ij NJ
db T NJ 1
J 2
X ( X ij ) 2
Variasi subjek, Jk s i
J NJ
db s N1
N 2
X ( X ij ) 2
j
Variasi item, Jki
N NJ
db i J 1
dbis ( N 1 ) ( J 1 )
N = Banyaknya subjek
J = Banyaknya item.
Contoh
JKS =
62 62 72 ...... 42 - ( 59 )2 = 403 3481 = 4.575
12 (10 ) (12 ) 12 120
dbS = 10 - 1 = 9
Jk i =
52 42 72 ..... 42 - ( 59 )2 - 303 3481 = 1.292
10 (10 ) (12 ) 10 120
db i = 12 - 1 = 11
db is = (10 - 1) (12 - 1) = 99
Variasi Jk Db Mk
Total 29.992 119 -
Item 1.292 11 -
Subjek 4.575 9 .508
Residu 24.125 99 .244
Tabel 2.7 Ringkasan anawa guna perhitungan reliabilitas Hoyt.
Jadi ;
r xx’ = 1 -
.244
.508
r xx’ = .5197
Hasil yang diperoleh ini sama dengan koefisien reliabilitas yang dihitung dengan
Skor gabungan adalah skor total dari penjumlahan skor-skor komponen (subtest)
dengan memperhitungkan bobot relatif masing-masing komponen tersebut. Dalam hal ini,
setiap komponen mungkin memberikan bobot tersendiri sebagai bagian dari test
keseluruhan.
W 2 S2 W 2 S2 r
r sg = 1 -
j j j j j j'
W 2 S2 2 W W S S
j j j k j k r jk
Keterangan :
Contoh
Subjek Komponen Test X
I II III ( I + 2II + III )
A 6 2 3 13
B 8 4 6 22
C 10 6 8 30
D 10 5 7 27
E 9 4 7 24
F 5 2 3 12
G 7 3 4 17
H 6 2 4 14
I 9 6 7 28
J 9 5 8 27
N = 10 X j = 79 39 57 X = 214
X2 = 5000
X 2 = 653 175 361
j
wj = 1 2 1
Tabel 2.8 Distribusi skor komponen dan skor gabungan.
yaitu :
dikalikan 2. Selanjutnya dengan tehnik korelasi product moment, koefisien korelasi antar
Sehingga diperoleh :
= 12.679
r sg = 1 -
15.656 12.679 = .93
15.656 2 (13.179 )
intraindividual pada dua test dijadikan sebagai skor pengukuran yang ingin dicari
Keterangan :
Contoh :
Subjek Test d
X1 X2 (X1 - X2)
A 42 16 26
B 56 20 36
C 44 16 28
D 49 18 31
E 50 18 32
F 52 19 33
G 43 17 26
H 48 18 30
I 41 14 27
J 54 21 33
N = 10 X = 479 177
X2 = 23191 3171
X1 X2 = 8569
Tabel 2.9 Distribusi skor-perbedaan d = X1 - X2
Korelasi antara X1 dan X2 yang dihitung dengan tehnik korelasi product moment adalah r
12 = .935
Untuk contoh perhitungan dengan data tabel 2.9, diandaikan bahwa koefisien
reliabilitas X1 adalah r 11’ = .96 dan koefisien reliabilitas X2 adalah r 22’ = .94.
berikut :
r dd' .23
Reliabilitas Ratings
observasi langsung atau tidak langsung. Dikarenakan unsur subjektivitas ini, naka
sebaiknya prosedur rating dilakukan oleh lebih dari satu orang raters.
mengkorelasikan hasil kedua ratings tersebut ( biasanya dengan tehnik korelasi rank-
order ). Jadi semacam prosedur replikasi oleh rater yang sama terhadap subjek yang
sama. Tentu saja prosedur ini, sebagaimana juga prosedur test-retest, akan membawa
resiko besarnya varians kesalahan dikarenakan faktor memory pada pihak rater.
Umumnya cara yang lebih disukai adalah dengan menggunakan beberapa raters
yang berbeda. Sekalipun akan tetap ada sumber varians kesalahan diantara para raters,
tetapi dapat diperkirakan bahwa kesalahan ini akan lebih kecil daripada varians
Ebel (1951) memberikan rumus guna menghitung estimasi reliabilitas ratings bila
terdapat banyak k raters yang melakukan rating terhadap N subjek. Rumus ini akan
menghasilkan koefisien yang pada dasarnya merupakan rata-rata inter korelasi ratings
diantara semua kombinasi pasangan raters yang mungkin dibuat, dan merupakan mean
S S2 S 2
r
r 11'
S S ( k 1) S 2
2
r
Keterangan ;
S r2 = varians residu, varians interaksi subjek (s) dan raters (t) yaitu Mkts
k = banyanya raters.
Contoh :
Berikut adalah hasil ratings terhadap 10 orang subjek yang dilakukan oleh rater
Subjek Rater XS X2
I II III S
A 4 3 2 9 29
B 5 6 5 16 86
C 7 7 8 22 162
D 9 8 9 26 226
E 4 5 6 15 77
F 7 5 4 16 90
G 7 7 7 21 147
H 9 6 8 23 181
I 3 4 5 12 50
J 6 5 6 17 97
N = 10
Xt 61 56 60 X = 177
X2 411 334 400 X2 = 1145
j
Tabel 2.10 Hasil ratings terhadap 10 orang subjek oleh 3 orang raters.
(177) 2
= 42 + 32 + 22 + ….. + 62 - = 100.7
( 3) (10 )
dbT = (10) (3) - 1 = 29
61 56 60
2 2 2 (177 ) 2
10 30
Jk t = 1.4
db t = 3 - 1 = 2
9 16 ....... 17
2 2 2 (177 ) 2
9 30
Jk S = 82.7
db S = 10 - 1 = 9
db S = 9 x 2 = 18
r 11' .749
rumusnya adalah :
S s2 S 2
r
r kk'
Ss2
Sehingga dengan 3 orang raters dari data tabel 2.10 kita peroleh :
9.189 .922
r kk'
9.189
r kk' .899
jumlah item test adalah ganjil. Seringkali dimungkinkan untuk membelah test tersebut
menjadi tiga bagian. Setiap bagian atau belahan tidak perlu sama panjang tetapi harus
2
S 12 S 13 S 12 S 23 S 13 S 23
ST 2 (S12 S13 S 23 )
S 23 S 13 S 12
Keterangan :
S T2 = Varians skor-murni
r xx' S T
2 / S2
X
r XX’ = .722
Kadang-kadang suatu test tidak dapat dibelah menjadi lebih dari dua belahan,
sedangkan membagi test tersebut menjadi dua belahan yang sama panjang tak dapat
dilakukan. Pembelahan atas dua belahan yang tak sama panjang ini masih dapat
menghasilkan bagian yang isinya homogen, namun karena asumsi - equivalent tak
4 S Y1 Y2
r xx'
2 2 2
S y1 S Y2
S2
X S2
X
Keterangan :
Contoh :
Subjek Nomor item Belahan
1 2 3 4 5 6 7 8 9 10 11 12 13 Y1 Y2 X
A 1 1 0 1 2 2 2 1 2 1 1 2 1 9 8 17
B 1 1 0 0 2 2 1 2 2 2 1 1 2 9 8 17
C 0 0 1 1 2 2 0 0 1 1 2 2 1 7 6 13
D 0 0 0 0 1 1 1 1 2 2 2 2 1 7 6 13
E 1 1 0 0 1 1 0 0 2 2 1 1 2 7 5 12
F 2 2 1 1 0 0 2 2 1 1 0 0 0 6 6 12
G 2 2 2 2 2 2 1 1 1 1 1 1 1 10 9 19
H 0 1 0 0 1 0 2 2 1 1 0 0 2 6 4 10
I 0 0 0 1 1 1 1 2 2 1 1 0 1 6 5 11
J 2 1 2 0 0 2 2 1 1 0 1 0 0 8 4 12
N =10 Yj = 75 61 X = 136
2
Y = 581 399
j X2 =
1930
Y1 Y2 = 475
Tabel 2.13 Distributor skor item X dengan belahan Y1 adalah item bernomor ganjil (7
item) dan belahan Y2 adalah item bernomor genap (6 item).
r xx' .872 .
Untuk menafsirkan kecermatan pengukuran skor individual dalam test, pada test
standard pengukuran ini dapat dipakai sebagai dasar melihat reliabilitas test tersebut bila
ρ xx' 1 σ 2E / σ 2X
σ 2X σ 2E
ρ xx'
σ 2X
σ 2X ρ XX' σ 2X σ 2E
σ 2E σ 2X σ 2X ρ XX'
σ 2E σ 2X ( 1 ρ XX' )
σE σX 1 ρ XX'
Dalam aplikasi praktisnya, kesalahan standard pengukuran ini disimbolkan oleh
sE .
SE SX 1 r XX'
Dimana :
X - ZC . SE T X + ZC . SE
Dimana :
Contoh :
Suatu test yang mempunyai reliabilitas r XX’ = .80 dengan deviasi standard skor
SE 4.0 1 .80
SE 1.789
Untuk estimasi skor-murni subjek, bila dikehendaki taraf kepercayaan 95% maka
nilai kritis ZC dilihat pada tabel deviasi normal standard untuk harga p = .025 (taraf
kepercayaan 95% sama dengan taraf signifikansi 5% atau p = .05. Untuk kedua ujung
distribusi maka p = .05 ini harus dibagi dua masing-masing sebesar p = .025 ).
Interprestasi terhadap interval ini adalah bahwa pada kelompok subjek tersebut ,
diantara seratus kejadian skor X = 24 hanya ada 5 peluang dimana skor-murninya lebih
Ada dua hal yang ditunjukan oleh interval semacam ini. Pertama adalah
besarnya variabilitas yang mungkin terjadi bila dilakukan test ulang, dan kedua adalah
Untuk tidak menyesatkan, maka interval kepercayaan ini harus dibuat atas
fungsi ukurnya. Test hanya dapat melakukan fungsinya dengan cermat kalau ada
“sesuatu” yang diukurnya. Jadi untuk dikatakan valid, test harus mengukur sesuatu dan
Apabila kita ingin mengetahui berat sebuah cincin emas, maka kita harus
menggunakan timbangan emas agar hasil ukur itu dapat dapat dikatakan valid. Sebuah
timbangan beras memang mengukur “beras” tetapi tidak cukup cermat guna mengukur
berat emas. Karena itu sebuah timbangan beras tidak valid guna mengukur berat emas.
Demikian pula bila kita ingin menghitung waktu tempuh yang kita perlukan dari suatu kota
ke kota lainnya dengan mengendarai mobil, sebuah jam tangan biasa adalah valid untuk
digunakan. Tetapi jam tangan yang sama tidak cukup valid guna mengukur waktu yang
diperlukan seorang atlit pelari cepat dalam menempuh jarak 100 meter, karena kita
Menggunakan alat ukur yang memang berfungsi mengukur sesuatu aspek tetapi
tidak dapat menghasilkan hasil ukur yang teliti akan menimbulkan varians kesalahan.
Suatu alat ukur yang validitasnya tinggi akan mempunyai varians kesalahan yang kecil
sehingga kita dapat percaya bahwa angka yang dihasilkannya merupakan angka yang
sebenarnya. Inilah yang dalam classical true-score theory diartikan sebagai validitas
intrinsik yaitu akar kuadrat rasio varians skor-murni dan varians skor-tampak atau akar
kuadrat reliabilitas, r XY σT
2 / σ2 .
X
Dalam hal test psikologi, validitas seperti yang digambarkan diatas adalah lebih
banyak sumber varians-kesalahan daripada pengukuran aspek fisik. Kita hampir tidak
pernah dapat yakin bahwa validitas intrinsik telah tercapai, atau bahwa test yang kita
gunakan telah tepat dan cermat untuk mengukur aspek yang ingin kita ukur.
Sebagaimana halnya pada pengujian reliabilitas, apa yang dapat kita lakukan adalah
mengadakan estimasi dengan cara yang benar terhadap ketepatan dan kecermatan test
dalam melakukan fungsinya. Dengan tehnik tertentu kita mencoba melihat aspek apakah
yang diukur oleh suatu test, dan seberapa jauh kita dapat mempercayai hasilnya.
Lebih lanjut pengertian validitas suatu test tidaklah berlaku umum untuk semua
tujuan ukur. Sebuah test biasanya hanya menghasilkan ukuran yang valid untuk satu
tujuan ukur tertentu. Karena itu predikat valit seperti dalam pernyataan “test in valid”
tidaklah benar. Pernyataan valid harus diiringi oleh keterangan yang menunjukan kepada
tujuan, yaitu valid untuk mengukur apa. Lebih jauh, valid bagi siapa. Karena itu suatu test
yang sangat valid guna pengambilan suatu keputusan dapat sangat tidak berguna dalam
Perlu pula dipahami bahwa dalam proses validasi, sebetulnya kita tidak bertujuan
melakukan validasi test tetapi malakukan validasi terhadap interprestasi data yang
A. Tipe-tipe Umum.
Berikut ini akan diikuti tipe-tipe validitas menurut yang ditetapkan oleh American
validity.
1. Content validity.
Validasi content suatu test harus menjawab pertanyaan “sejauh mana item-item
test itu mencakup keseluruhan situasi yang ingin diukur oleh test tersebut”.
rasional terhadap isi test, yang penilaiannya didasarkan atas pertimbangan subjektif
Terdapat dua macam tipe content validity, yaitu face validity dan logical validity.
Face Validity.
kesimpulan bahwa test tersebut mengukur aspek yang relevan. Dasar penyimpulannya
lebih banyak diletakkan pada common sense atau akal sehat. Kesimpulan ini dapat
diperoleh oleh siapa saja walaupun tentu tidak semua orang diharapkan setuju
menyatakan bahwa test A , misalnya memiliki content validity yang baik. Akan tetapi
seorang yang ingin menggunakan test tersebut harus punya keyakinan terlebih dahulu
bahwa dari segi content, test itu adalah valid. Kalau tidak, maka kuranglah alasan untuk
tetap memakainya.
Validitas tipe ini tentu tidak menjadi hal yang perlu dirisaukan apabila suatu test
telah terbukti valid lewat pengujian validitas tipe lain yang lebih dapat diandalkan.
Dapatlah dikatakan bahwa face validity adalah tipe validitas yang paling rendah
signifikansinya.
Logical Validity.
Logical validity disebut juga sampling validity. Tipe validitas ini menurut batasan
yang seksama terhadap kawasan (dominan) perilaku yang diukur dan suatu desain logis
Sejauh mana tipe tipe validitas ini telah terpenuhi dapat dilahat dari cakupan
item-item yang ada dalam test. Apakah keseluruhan item tersebut telah merupak sampel
yang representatif bagi seluruh item yang mungkin dibuat, ataukah item tersebut berisi
hal-hal yang kurang relevan dan meninggalkan hal-hal yang seharusnya menjadi isi test.
Dalam penyusunan test prestasi, logical validity sangat penting artinya. Salah
satu cara agar tuntutan validitas ini dapat terpenuhi adalah dengan menyusun suatu
perencanaan isi test menurut semacam blue-print yang disandarkan pada rencana
pelajaran atau program latihan yang akan diuji. Blue-print test dapat membantu agar
penulisan item tidak meninggalkan hal penting yang harus ada dalam test dan sekaligus
menjaganya agat tetap berada dalam batas cakupan isi yang relevan.
2. Construct Validity.
construct yang menjadi dasar penyusunan test itu. Pengukuran construct validity
merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai
trait (sifat) yang diukur. Namun pada situasi-situasi tertentu adanya bukti construct
construct validity yang mereka sebut multi trait-multimethod validity. Validasi dengan
multi-trait multi-method digunakan dengan mengenakan lebih dari satu macam metode
Dengan menggunakan matriks validitas maka interkorelasi antar trait dan antar
metode dapat dilihat, dimana korelasi antar setiap variabel dengan dirinya sendiri tidak
Secara ideal, koefisien reliabilitas yang ada pada diagonal matriks harus tinggi.
Demikian pula koefisien korelasi antar metode yang mengukur dua macam trait yang
Bila huruf melambangkan trait yaitu A dan B dan angka melambangkan metode,
yaitu 1 dan 2 , maka gambar berikut memperlihatkan matriks ideal validitas multitrait-
A1 B1 A2 B2
A2 r A2A2(T) r A2B2(R)
B2 r B2B2(T)
Gambar 3.1 Matriks ideal multitrait – multimethod validity.
Keterangan :
A1 dan A2 adalah dua metode berbeda yang mengukur satu macam trait yang
sama yaitu A.
A1 dan B1 adalah dua macam trait berbeda yang diukur oleh satu metode yang
T = Tinggi
R = Rendah
Korelasi antara setiap variabel dengan dirinya sendiri, yaitu r A1A1, r B1B1, r A2A2,
dan r B2B2 masing-masing dinyatakan oleh koefisien reliabilitas setiap variabel (dalam
diagonal).
Dari gambar 3.1 dapat ditunjukan dua tipe validitas, yaitu convergent validity dan
tinggi antara skor test yang mengukur trait yang sama dengan metode yang berbeda
(dalam hal ini adalah r A1A2 dan r B1B2). Adanya discriminant validity diperlihatkan oleh
korelasi-korelasi yang rendah diantara skor test yang mengukur trait berbeda ( r A1B1, r
A1b2, r A2B1), terutama bila trait yang berbeda itu diukur oleh metode yang sama ( r A1B1
dan r A2B2). Koefisien korelasi yang rendah ini menunjukan bahwa memang test-test
tersebut mempunyai daya beda yang baik dan mengukur trait yang spesifik.
Tipe lain dari construct validity adalah factorial validity. Suatu faktor adalah
variabel hipotesis yang mempengaruhi skor pada satu atau lebih variabel variabel yang
tampak. Factorial validity ditegakkan melalui suatu prosedur statistika yan sophisticated
yang disebut analisis faktor. Penelaahan sekilas terhadap matriks korelasi antar faktor
eksternal yang dapat dihubungkan dengan skor test yang diuji validitasnya. Kretia adalah
variabel perilaku yang akan diprediksi oleh skor test. Koefisien korelasi antara skor test
(X) dengan skor kreteri (Y) merupakan koefisien validitas yang disimbolkan oleh XY.
Koefisien ini dapat diperoleh melalui dua prosedur yang berbeda dari segi waktu
dengan pengambilan skor test. Setelah subjek dikenai test yang akan dicari validitas
prediktifnya, lalu diberikan tenggang waktu tertentu sebelum skor kreteria diambil dari
subjek yang sama. Umpamanya, untuk melihat validitas prediktif test masuk perguruan
tinggi, maka skor kreterianya dapat diambil dari indeks prestasi yang dicapai setelah
beberapa semester atau beberapa tahun kemudian. Koefisien korelasi antara skor test
masuk perguruan tinggi dan indeks prestasi tersebut merupakan koefisien validitas
prediktif test masuk. Contoh lain adalah bila kita mengkorelasikan suatu test bakat dalam
penempatan karyawan deng performansi kerjanya setelah satu atau dua tahun. Dalam
hal ini maka performansi kerja merupakan kreteri untuk melihat validitas prediktif test
bakat.
Prosedur validasi prediktif memerlukan waktu yang banyak dan mungkin pula
biaya yang besarkarena prosedur ini pada dasarnya bukan pekerjaan yang dianggap
selesai setelah sekali melakukan analisis, melainkan lebih merupakan kontinyuitas dalam
jenis lain, validasi prediktif harus diiringi oleh peningkatan kualitas item test berupa
modifikasi dan pengembangan item-item baru, agar prosedur yang dilakukan itu
mempunyai arti yang lebih besar dan tidak menjadi sekedar pengujian validitas secara
deskritif saja.
Apabila skor test dan skor kreterianya diperoleh dalam waktu yang relatif sama,
maka koefisien korelasi antara kedua variabel itu merupakan koefisien concurrent
validity. Misalnya dalam penyusunan suatu skala self-concept yang baru, kita dapat
menguji validitasnya dengan mengenakan skala tersebut bersama skala self-concept lain
yang sudah standard dan valid, umpamanya TSCS (Tennessee Self-Concept Scale).
Korelasi antara skala yang baru disusun dan skala TSCS sebagai kreterianya ini
masalah menemukan kreteria validasi yang tepat. Tidak selalu kreteria itu dapat
ditentukan dengan mudah karena konsepsi mengenai trait yang diukur oleh test dan oleh
kreteria seringkali tidak sama. Pada validitas prediktifpun para ahli tidak selalu
sependapat mengenai apakah suatu variabel adalah tepat dipakai sebagai kreteria guna
koefisien reliabilitas tergantung antara lain pada variasi skor-murni. Sekarang akan kita
Sebagai pegangan praktis, dapat dikatakan bahwa validitas diuji dengan cara
menghitung kecocokan antara skor-tampak test dan skor kreterianya. Akan tetapi, dalam
berbagai hal sering terjadi apa yang disebut restriksi sebaran (restrictionof range) baik
Pada contoh test seleksi masuk perguruan tinggi, setiap calon mahasiswa
dikenai test masuk yang pada dasarnya adalah prediktor terhadap keberhasilan belajar
mereka setelah menjadi mahasiswa. Mereka yang mencapai skor tertentu dapat diterima
dan dibolehkan belajar diperguruan tinggi, sedangkan sisanya ditolak. Karena test masuk
terbesar untuk berhasil dalam belajar diperguruan tinggi dan yang tidak, maka
selayaknya bila kriteria yang dipakai sebagai indikator keberhasilan itu adalah indeks
prestasi (IP) mereka setelah beberapa semester menjadi mahasiswa. Hanya saja, karena
tidak semua calon mahasiswa dapat diterima maka skor kriteria hanya dapat diperoleh
dari mereka yang diterima menjadi mahasiswa saja, jadi merupakan sampel yang relatif
homogen karena hanya diambil dari ujung distribusi skor test masuk. Jadi, korelasi antara
skor prediktor dan skor kreteria hanya dapat dihitung berdasarkan data sampel yang
Bagaimana efek restriksi sebaran ini terhadap koefisien validitas ? Bila skor
prediktor adalah X dan skor kreteria adalah Y, maka korelasi X dan Y adalah r XY dan
SY . X SY 1 rXY
2
2
rXY 1 S2Y . X / S2Y
Dimana :
restriksi sistematis yang terjadi, sedangkan harga S 2Y . X tidak terpengaruh. Karena itu
rXY menjadi rendah. Secara umum dapat dikatakan bahwa restriksi sebaran yang
Korelasi antara skor suatu test dengan skor lain tidak dapat lebih tinggi daripada
korelasi skor test itu dengan skor murninya sendiri. Telah kita ketahui bahwa kuadrat
korelasi skor test dengan skor-murninya merupakan reliabilitas test itu, sedangkan
korelasi skor test dengan skor test lain yang merupakan kreteria merupakan koefisien
validitas test tersebut. Dengan kata lain, reliabilitas test akan mempengaruhi validitasnya.
Bila XT adalah korelasi skor test dengan skor-murninya dan XX’ adalah
reliabilitas test X , sedangkan Y adalah skor test lain sebagai kriteria, maka XY XT
Kalau skor test X dan skor kreteria Y sama-sama kurang reliabel, maka koefisien
validitas XY akan lebih rendah daripada semestinya andaikan test X dan kreteria Y
sama sekali tidak mengandung kesalahan pengukuran. Penurunan korelasi antara kedua
(attenuation).
Dalam clasical true-score theory, korelasi antara skor-murni test dan skor-murni
ρ XY
ρ TxTy
ρ XX' ρ YY'
Keterangan :
XY = Koefisien reliabilitas X
XY = Koefisien reliabilitas Y
Sebagai contoh, test mempunyai koefisien reliabilitas r XX’ = .88 dan kreteria Y
mempunyai koefisien reliabilitas r YY’ = .84. Koefisien korelasi antara X dan Y, diketahui
r TxTy .67
(.88) (.84)
r TxTy .78
Semakin tinggi reliabilitas test X dan kreteria Y, maka r XY akan semakin
mendekati r TxTy. Pada kasus ekstrim dimana reliabilitas X dan Y adalah sempurna maka
r XY r XY
r XTy atau r TxY
r YY' r XX'
r XTy adalah koreksi untuk atenuasi akibat ketidakreliabelan skor kreteria Y dan r
yang isinya pararel dengan isi test semula, maka reliabilitas test akan meningka. Hal ini
(artinya, semakin reliabel) maka semakin besar pula proporsi varians yang sama-sama
Telah diketahui bahwa validitas maksimum test yang mempunyai reliabilitas r XX’
adalah r XX' . Dengan bertambah panjangnya test sebesar J kali panjang semula,
antara validitas maksimum setelah penambahan dan sebelum penambahan item adalah :
dimana :
Apabila validitas dan reliabilitas test sebelum penambahan item diketahui, maka
estimasi terhadap validitasnya setelah penambahan item dapat dihitung dengan formula :
Keterangan :
Contoh :
Suatu test yang terdiri dari 50 item mempunyai reliabilitas r XX’ = .85 dan
koefisien validitas r XY = .76. Bila ditambahkan 25 item lagi, maka validitasnya akan
J = 75 / 50 = 1 1 2
r XYJ .76 11 2 / 1
(11 2 1 ) .85
r XYJ .779
menjadi 1 1 2 kali aslinya tidak banyak berarti. Hal ini benar terutama bagi test yang
sudah cukup panjang dan mempunyai koefisien validitas yang cukup tinggi. Efek
penambahan item terhadap peningkatan reliabilitas tampak lebih jelas daripada efeknya
validitas dan koefisien reliabilitas dengan menambah panjang test beberapa kali lipat.
J r XX’ r XY
1 .800 .500
2 .889 .527
3 .923 .537
4 .941 .542
5 .952 .545
6 .960 .547
Tabel 3.1 Estimasi koefisien reliabilitas dan koefisien validitas suatu test yang
mempunyai reliabilitas .800 dan validitas .500, bila panjangnya
ditingkatkan J kali.
Tampak dari tabel diatas bahwa koefisien validitas meningkat tidak secepat
koefisien reliabilitas bila test ditingkatkan panjangnya. Bila test diperpanjang 6 kali
panjang semula, dari tabel diatas terlihat bahwa koefisien reliabilitas meningkat dari .800
menjadi .960 , sedangkan koefisien validitas meningkat hanya dari .500 ke .547.
Peningkatan yang berarti umumnya akan terjadi bila test semula adalah test pendek dan
validitasnya tidak tinggi. Karena itu, dalam penyusunan test mencoba meningkatkan
validitas dengan cara menambah banyak item hanya memadai dilakukan bila test semula
criterion-related validity, kriteria yang digunakan adalah skor test atau skor pengukuran
lain yang disebut sebagai kriteria eksternal. Test atau pengukuran lain yang dijadikan
kriteria eksternal ini harus dapat menghasilkan skor yang vakid dan reliabel, barulah
Dalam prosedur seleksi item pada test prestasi, berbagai skala sikap dan test
diskriminasi ini diperlihatkan oleh indeks atau koefisien yang dihitung menurut formula
tertentu.
Pada skala sikap model Likert, misalnya bila skor jawaban subjek telah dibagi
dua kelompok menjadi golongan “atas” dan golongan “bawah” menurut tingginya skor
total, maka indeks diskriminasi item dapat dihitung dengan t-test sebagai berikut :
XA XB
ti
s 2A s2
B
nA nB
Dimana :
X A = Mean distribusi skor golongan “atas” yang biasanya diambilkan dari 25%
bahwa daya beda item itu dapat dianggap baik. Apabila jumlah subjek pada masing-
masing golongan “atas” dan golongan “bawah” lebih dari 25 orang, maka t i = 1.75 dapat
dianggap sebagai batas minimal indeks diskriminasi yang seharusnya (Allen L. Edward,
tt).
Cara seleksi item yang juga sering dilakukan pada berbagai bentuk pengukuran
adalah dengan menguji korelasi antara skor item dengan skor total. Dalam hal ini,
koefisien korelasi yang tinggi menunjukan kesesuaian antara fungsi item dengan fungsi
ukur test secara keseluruhan. Prosedur ini disebut validasi item dengan menggunakan
kreteria internal consistency. Sebagai kreterianya dapat digunakan skor total komponen
test (subtest) atau skor total keseluruhan test, tergantung apakah test tersebut terdiri atas
komponen yang independen satu sama lain atau terdiri atas komponen yang relatif
homogen.
Bila item test diberi skor dikotomi, yaitu 0 atau 1 , maka tehnik korelasi yang
X Xt p
r pb i
st q
Dimana :
P = Proporsi subjek yang mendapat nilai 1 pada item i. Bila N adalah jumlah
q = 1 - p
Contoh :
Lihat data pada tabel 2.5 sebagai contoh akan dilihat validitas item nomor 2, jadi
i = 2.
Mereka yang mendapat nilai 1 pada item 2 adalah subjek D, E, H, dan I. Skor masing-
X 2 ( 4 10 7 8 ) / 4 7.25
Mean skor keseluruhan subjek adalah X t = 59/10 = 5.9 dan deviasi standardnya
.6
7.25 5.9 .4
r pb
2.343 .6
r pb .47
Apabila diinginkan perhitungan yang lebih cermat, hendaknya korelasi r pb
dihitung antara skor item dengan skor total yang telah dikurangi skor item. Kalau tidak,
maka r pb yang diperoleh sebenarnya merupakan koefisien yang tidak bersih karena skor
total sendiri berisi skor item yang sedang diuji validitasnya. Contoh komputasinya adalah
X 2 ( 3 9 6 7 ) / 4 6.25
X t 5.5 s t 2.156
6.25 5.5 .4
r pb
2.156 .6
r pb .28
Komputasi yang terakhir ini akan banyak artinya terutama bila test yang bersangkutan
mempunyai sedikit item. Bila item yang ada dalam test besar jumlahnya, maka
mengurangi skor total dengan skor item yang sedang diuji validitasnya tidak menjadi hal
yang penting.
Kalau skor item bukan dikotomi, tetapi dapat dianggap berskala interval, maka
Sebagai contoh, dapat dipakai data pada tabel 2.13. Validitas item nomor 1 diuji
Diketahui :
X1 9 X 2 15
1
X1 X 132 N 10
Dimana :
r X X .408
1
Untuk korelasi akibat berikutnya skor item kedalam skor total, kemudian
dilakukan koreksi yang disebut the correction of item-total correlation for spurious overlap
(Guilford, 1956)
r' X X σ X σ
i
r' X X i
i
σ 2X σ i2 2r X X σ σ X
i i
Dimana :
dengan total.
Dari contoh data yang sama, deviasi standard skor item dan skor total dapat
dihitung.
r X X .333
i
Koefisien korelasi antara item dan skor total merupakan indeks validitas item
dalam arti kesesuaian item dengan skor total dalam membedakan subjek yang mendapat
skor tinggi dan yang mendapat skor rendah. Koefisien korelasi yang relatif tinggi tentu
merupakan indikator kualitas item yang diinginkan. Apalagi kalau sebagian besaritem
dalam testmempunyai korelasi tinggi dengan skor total, hal demikian dapat pula dianggap
Namun tingginya korelasi antara item-item dengan skor total hendaknya jangan
sampai memberikan kesimpulan yang keliru bahwa test tersebut telah memenuhi kreteria
validitas intrinsiknya. Validitas dalam arti bahwa test tersebut benar melakukan fungsi
ukur yang seharusnya, belum ditunjukanoleh tingginya koefisien korelasi item-total saja.
Untuk mengetahui bahwa test memang mengukur apa yang seharusnya diukur olehnya,
maka analisis validitas dengan kreteria eksternal tidak dapat ditinggalkan. Apalagi kalau
test tersebut dimaksudkan sebagai alat diagnose aspek kepribadian atau aspek
Berbagai tehnik estimasi reliabilitas yang dikenakan pada data yang sama tidak
Perbedaan konsepsi yang melandasi atau ide dasar yang ada pada suatu tehnik
komputasi, sifat distribusi skor kelompok subjek, homogenitas item-item test, indikasi apa
yang ditunjukan oleh koefisien yang dihitung dengan tehnik tertentu, dan sebagainya,
semua akan berpengaruh terhadap hasil komputasi yang akan diperoleh. Oleh sebab itu,
agar tidak memperoleh estimasi yang menyesatkan, kita perlu memperhatikan sifat test
yang dihitung reliabilitasnya dan memahami indikasi yang bakal ditunjukan oleh tehnik
batas terendah reliabilitasnya yang sebenarnya. Lagi pula, metode-metode ini hendaknya
hanya digunakan pada test yang berisi item-item homogen, karena koefisien alpha dan
diterapkan pada suatu test yang berisi berbagai macam traits, maka akan menghasilkan
yang pararel agar diperoleh estimasi reliabilitas yang cermat. Bila belahan-belahan
tersebut tidak pararel, maka underestimasi dan overestimasi terhadap reliabilitas sangat
mungkin terjadi.
Bila isi test adalah homogen, maka tehnik komputasi reliabilitas belah-tiga Kristoff
akan merupakan pilihan yang lebih menarik dibandingkan dengan menerapkan koefisien
alpha dengan tiga-belahan. Sedangkan apabila panjang test yang akan dibelah dua
adalah tidak sama, maka estimasi reliabilitas dapat dilakukan dengan formula Feldt.
Tehnik analisis varians Hoyt umumnya menghasilkan koefisien reliabilitas yang
tinggi, namun apabila item-item test tidak diskor dikotomi, maka tehnik ini seringkali
Masalah memilih tehnik estimasi yang tepat untuk validitas test adalah lebih
sederhana. Karena tehnik korelasi menjadi hampir satu-satunya tehnik statistika yang
mendasari setiap perhitungan validitas, maka tipe validitas mana yang akan diuji dari
suatu test boleh dikatakan hanya ditentukan oleh tujuan penggunaan test itu sendiri.
perhartian utama. Untuk test yang dimaksudkan guna memperoleh deskripsi terhadap
bakat ataupun kemampuan umum (intelegensi), maka validitas tipe concurrent akan perlu
ditegakkan. Bila test tersebut diperlukan dalam prediksi performansi, maka validitas
prediktifnya perlu diuji. Sedangkan validitas content sangat penting artinya pada
dengan satu tehnik komputasi yang tepat saja, pada estimasi validitas kadang-kadang
lebih dari satu tipe perlu diuji. Hal ini juga ada kaitannya dengan tujuan penggunaan test
yang bersangkutan.
kualitas test, namun tetap merupakan informasi yang tidak dapat ditinggalkan. Guilford
(1954) menyatakan bahwa kadang-kadang koefisien reliabilitas yang sangat tinggi dapat
menimbulkan rasa aman semu dalam diri pemakai test. Hal ini dikarenakan bobot faktor
dalam test itu merupakan fakta yang harus lebih diperhitungkan. Arti skor dan apa yang
dapat diprediksi oleh skor test itu terbatas semata-mata pada faktor-faktor relevan yang
ada didalamnya.
Pada umumnya test yang disusun sekarang ini lebih mementingkan aspek
secara pasti. Tidak ada rumusan khusus yang menjadi batas kapan suatu koefisien
reliabilitas dapat dinyatakan cukup tinggi sebagai indikasi bahwa test yang bersangkutan
dengan tehnik korelasi, tidak merupakan jawaban atas terpenuhinya tingkat reliabilitas
yang layak.
Berbagai macam fungsitest menuntut tingkat reliabilitas minimal yang tidak sama.
Guna tujuan diagnosis dan prediksi, sesungguhnya test dituntut untuk mempunyai
rendahpun, misalnya r XX’ = .40 masih cukup berarti dalam hal-hal tertentu terutama bila
test yang bersangkutan dipakai bersama-sama dengan test lain dalam suatu perangkat
alat pengukuran.
Suatu keadaan dimana reliabilitas sangat penting artinya adalah bila kita
melakukan estimasi validitas prediktif. Skor yang dijadikan kreteria validasinya harus
disertai informasi mengenai reliabilitas, agar kita dapat mengetahui berapa efektifnya
prediksi yang dapat dilakukan (lihat pembicaraan mengenai koreksi untuk atenuasi)
Agaknya aturan main yang paling praktis adalah menyertakan informasi hasil
pengujian reliabilitas dan kesalahan standard pengukuran dalam test yang kita gunakan
agar mereka yang ingin menilai hasil pengukuran test tersebut atau yang ingin
kepercayaannya pada test tersebut dan apakah ia cukup puas dengan estimasi
reliabilitas seperti yang ditunjukkan oleh koefisien reliabilitas yang telah diperoleh.
haruslah disadari bahwa pertama, reliabilitas test yang diestimasi dengan satu tehnik
pada suatu situasi dan sampel tertentu sangat mungkin tidak akan sama dengan hasil
estimasi oleh tehnik lain, dalam situasi lain, dan menggunakan sampel lain. Karena itu,
interprestasinya harus spesifik sebagai koefisien reliabilitas bagi sampel dan situasi
psikologi.
pun tidak ada rumusan khusus yang menyatakan bahwa koefisien validitas harus
menyapai angka tertentu agar dapat dinyatakan sebagai valid. Halnya saja dalam
mengestimasi validitas, umumnya tuntutan akan koefisien yang tinggi tidak begitu besar
seperti pada koefisien reliabilitas. Koefisien validitas yang tidak begitu tinggi biasanya
lebih dapat ditolelir daripada koefisien reliabilitas yang rendah. Hal ini sangat
memungkinkan disebabkan koefisien validitas pada dasarnya diperoleh dari korelasi test
dengan kreteria yang berupa ukuran lain, jadi tidaklah mudah untuk memperoleh validitas
yang tinggi.
apakah koefisien yang dihitung dengan tehnik korelasi itu signifikan atau tidak
berdasarkan suatu harga kritis, akan tetapi interprestasinya dikembalikan kepada mereka
yang akan menggunakan hasil ukur tersebut. Mereka mungkin puas dengan koefisien
validitas tertentu, atau mungkin tidak dapat memberi toleransi bagi koefisien yang tidak
begitu tinggi.
Hal yang lebih penting untuk dipersoalkan adalah sejauh mana suatu test dapat
berguna dalam pengambilan keputusan. Suatu test yang menunjukan koefisien validitas
yang rendah pun mungkin masih dapat bermanfaatdalam hal-hal tertentu, misalnya
apabila hasil pengukuran test itu akan dipakai hanya untuk meletakkan subjek dalam
suatu jenjang kedudukan relatif pada suatu kelompok, atau dalam seleksi item guna
melihat daya diskriminasi item atau melihat konsistensiitem dengan tujuan test.
Hal tersebut hendaknya tidak untuk disalahartikan bahwa kita mudah memberi
toleransi pada koefisien validitas yang rendah, tetapi sebagai peganganpraktis bahwa
disamping usaha mencapai koefisien yang setinggi mungkin, haruslah disadari akan
keterbatasan validitas yang dapat dicapai oleh berbagai jenis dan tipe test, serta kriteria
komputasi koefisien reliabilitas dan validitas dalam laporan mengenai suatu test tidak
saja merupakan justifikasi penggunaan test tersebut, tetapi juga menjadi dasar penilaian
Campbell, D.T & Fiske, D.W. Convergent and Discriminant Validition by the Multitrait-
Cronbach, L.J. Coefficient Alpha and Internal Structure of Tests. Psychometrika, 1951,
Ebel, R. L. Estimation of the Reliability of Rantings, Psychometrika, 1951, 16, 407 – 424.
Feldt, L. S. Estimation of the Reliability of a Test Divided into Two Parts of Unequal
------- Fundamental Statistics in Psycology and Education (3rd.ed), New York : McGraw-
Hill , 1956.
160.
Kristoff, W, Estimation of Reliability and True Score Variance from a Split of a Test into
168.
Rulon, P.J, A Simplified Procedure for Determining the Reliability of a Test by Split-