Anda di halaman 1dari 64

H. MIFTACHUL ‘ULUM, ST.

,MM

BUKU
UJI VALIDITAS DAN UJI RELIABILITAS

Edisi Pertama
2016
1. PENDAHULUAN

A. Latar Belakang.

Kesadaran akan perbedaan individual, pengakuan bahwa individu tidaklah sama

satu dengan yang lainnya, tampak secara eksplisit ketika studi mengenai hal yang

dimulai oleh Sir Francis Galton (1822-1911) dengan mendirikan laboratorium

antropometrisnya guna mengembangkan pengukuran terhadap berbagai ketrampilan

sensori dan motorik. Di Perancis, atas desakan pentingnya membedakan antara anak

yang mampu dari yang tidak mampu belajar, Alfred Binet (1857-1911) menyusun alat

pengukuran intelegensi pertama pada pada tahun 1905 yang ternyata merupakan nenek

moyang berbagai test intelegensi dan test kemampuan psikologis lain yang banyak

dikenal sekarang. Seiring dengan itu, Karl Pearson (1857-1936) yang dikenal sebagai

Bapak Statistika, mengembangkan banyak tehknik statistika guna analisis data yang

melandasi teori-teori pengukuran yang ada sekarang termasuk koefesien korelasi product

moment yang sangat terkenal itu dan juga chi-square goodness-of-fit test.

Buku pertama mengenai teori pengukuran ditulis oleh E.L Thorndike dan

diterbitkan pada tahun 1904 berjudul An Introduction to The Theory of Mental and Social

Measure-ments. Enam tahun kemudian, definisi reliabilitas pertama kali dirumuskan oleh

Charles Spearman ditahun 1910 sewaktu ia memperkenalkan istilah reliability sebagai

koefesien korelasi antara satu belahan dan belahan lain dari berbagai pengukuran

terhadap hal yang sama.

Menjelang tahun 1937 reliabilitas test bentuk tunggal ditegakkan melalui

produser test ulang atau dengan membagi test menjadi dua bentuk pararel. Kemudian

ditahun 1937, Kuder dan Richardson menggunakan struktur varians-kovarians item dari

suatu test tunggal guna menghitung koefesien reliabilitas yang antara lain dikenal dengan

nama KR-20 dan KR-21. Di tahun 1939, sewaktu Kenneth H. Baker di USA dan W.B

Jackson di Inggris menerapkan analisis varians guna menguji item-item test, dimulailah

perpaduan antara pendekatan korelasional Pearsonian dan pendekatan rancangan


analisis eksperimental Fisherian. Beberapa tahun kemudian, Cyril Hoyt pun merintis

penggunaan analisis varians dalam menghitung reliabilitas.

Sekalipun dasar-dasar teori pengukuran yang ada sekarang ini dianggap telah

selesai dibangun pada tahun-tahun 1950-an, tetapi riset dibidang metode pengukuran

psikologi atau psikometri terus berlanjut. Berbagai tehnik dan formula komputasi telah

dikembangkan sejak itu. Analisis ulang dengan studi yang lebih mendalam telah

membuahkan modifikasi yang menjadikan formula-formula reliabilitas memperoleh

bentuknya yang lebih praktis dan sederhana, dan seiring dengan perkembangan

komputer yang meningkatkan kemampuan bekerja dengan banyak angka telah pula

dihasilkan formula yang lebih teruji serta estimasi yang lebih cermat. Hal ini tampak

antara lain dengan dirumuskannya formula komputasi reliabilitas untuk test belah tiga

(Kristoff, 1974) dan test belah dua dengan panjang berbeda (Feldt, 1975)

Di lain pihak, teori mengenai validitas sebelum tahun 1950 hampir seluruhnya

merupakan teori mengenai prediksi. Baru kemudian perhatian banyak ditujukan pada

interprestasi deskriptif dan eksplanatif suatu validitas dan tulisan-tulisanpun banyak

ditujukan pada interprestasi deskriptif dan teoritis serta persyaratan prosedurilnya. Aliran

ini dirintis oleh Coreton (1951). Aspek validitas mendapat tempat selayaknya setelah APA

(American Psychological Association) ditahun 1966 menerbitkan versi tunggal Standart

for Educational and Psychological Test. Di sini secara eksplisit validitas dibagi atas

criterion-related, content, dan construct validity.

Porsi terbesar buku ini diberikan bagi pembicaraan mengenai reliabilitas. Hal itu

bukan karena reliabilitas lebih penting dari pada validitas, tetapi karena reliabilitas

merupakan informasi pertama yang harus diperoleh oleh para pemakai test dan karena

bahan terbanyak yang harus dibicarakan adalah mengenai reliabilitas. Di samping itu,

ada beberapa hal yang berkaitan dengan masalah validitas yang akan lebih mudah

dimengerti bila pengertian mengenai reliabilitas telah dikuasai, misalnya pembicaraan

mengenai koreksi terhadap atenuasi dan pendekatan multi-trait multi-method validity.

Sebab itu pula pembicaraan mengenai reliabilitas didahulukan.


Semula buku kecil ini direncanakan sebagai bagian dari masalah teori

pengukuran yang disederhanakan. Namun kemudian, mengingat aspek praktisnya akan

lebih mungkin dimanfaatkan bila disertakan pula prosedur komputasi praktis, maka

beberapa contoh aplikasi diikut sertakan, bahkan dengan disertai pula oleh beberapa hal

khusus yang kadang-kadang diperlukan dalam estimasi reliabilitas alat ukur tertentu.

Asumsi bahwa pembaca sudah berbekal Statistika Dasar, tentu sangat pada

tempatnya. Namun berikut initetap diberikan beberapa simbol dan formula statistika yang

sangat erat berkaitan dengan prosedur komputasi reliabilitas dan validitas.

B. Sekedar Statistika.

N
1.  X i  X1  X 2  X 3  .....  X n
1
: Jumlah skor X i dimana i bergerak dari i = 1 sampai dengan i = N

2. N   Xi
N
: Mean distribusi X i (untuk populasi dilambangkan oleh u X )

2 (  Xi )2
X 
2 N
3. S  i

X N
2
: Varians distribusi X i (untuk populasi dilambangkan oleh σ )
X
( X i ) (  Yi )
 X i Yi 
4. S xy  N
N
: Kovarians distribusi Xi dan Yi. (untuk populasi dilambangkan oleh  XY )
5.
( X ) ( Y )
 XY -
r XY  N
   

2
2 _ (X)   2 (  Y )2 
 X   Y  
 N   N 
 

: Koefesien korelasi product-moment antara X dan Y – diseder-hanakan dari


berbagai subscripts. (untuk populasi dilambangkan oleh  XY )
2 RELIABILITAS

Kalau kita mengukur panjang sebuah meja kayu dengan menggunakan sebuah

meteran berulang-ulang, baik dalam tenggang waktu yang singkat maupun tenggang

waktu yang lama, maka hasil ukur kita akan dapat dipastikan selalu menunjukan angka

yang sama selama panjang meja tersebut memang belum berubah. Kita katakan bahwa

meteran tersebut reliabel, atau konsisten, atau dapat diandalkan, atau stabil. Demikian

pula kalau kita melakukan pengukuran terhadap variabel fisik lainnya, misalnya waktu

yang diperlukan oleh seorang perenang guna menempuh jarak 200 meter dengan

kecepatan rata-rata yang diperlukan oleh perenang tersebut dari start sampai finish. Bila

kecepatan rata-ratanya sama, maka waktu tempuhnya akan ditunjukan oleh stopwatch

tersebut konsisten. Kita katakan bahwa pengukuran oleh stopwatch tersebut konsisten.

Dalam pengukuran aspek fisik, reliabilitas pada umumnya sangat tinggi.

Hal yang berbeda akan kita jumpai dalam pengukuran aspek psikologis dan

sosial. Misalnya dalam pengukuran terhadap intelegensi, pengukuran terhadap sikap

masyarakat mengenai suatu hal, pengukuran terhadap kecenderungan mendapat

kecelakaan, pengukuran sifat kepemimpinan, dan lain sebagainya. Aspek sosial-

psikologis demikian tak dapat diukur dengan kepastian dan konsistensi yang tinggi

karena hasil ukurnya tidak dapat lepas dari pengaruh hal-hal tidak relevan di luar maksud

pengukuran, alat ukur itu sendiri sangat mungkin bukan alat yang tepat untuk mengukur

aspek yang kita inginkan dan dirancang tidak dengan cukup baik sehingga menimbulkan

penafsiran dan cara jawab yang berbeda-beda oleh subjek yang diukur, ingat bahwa

subjek ukur dalam hal ini adalah manusia. Kemudian cara penyajian test, suasana hati

dan sikap subjek terhadap test, motivasi, dan kondisi fisik subjek, keadaan ruang

pengujian, cara memberikan test, dan sebagainya sangat mungkin berpengaruh terhadap

jawaban apa yang diberikan oleh subjek sehingga walaupun aspek yang diukur pada

subjek sebenarnya tidak berubah akan tetapi andaikan dilakukan pengukuran ualang

terhadap subjek yang sama, sangat mungkin hasil yang diperoleh ternyata berbeda.

Dengan kata lain, hasil pengukuran tidak menjadi reliabel. Semua hal yang tidak relevan
yang ikut mempengaruhi hasil pengukuran merupak sumber ketidak reliabelan.

Kesalahan pengukuran yang merupakan komponen ketidak reliabelan memang lebih

banyak terdapat pada pengukuran sosial-psikologis daripada pengukuran aspek fisik.

Istilah reliabilitas sering disamakan dengan consistency, stability, atau

dependability, yang pada prinsipnya menunjukan sejauh mana pengukuran itu dapat

memberikan hasil yang relatif tidak berbeda bila dilakukan pengukuran kembali terhadap

subjek yang sama. Namun demikian, sebagaimana akan dibicarakan nanti, reliabilitas

alat ukur tidak harus selalu diuji dengan melakukan test ulang. Berbagai tehnik telah

memungkinkan pengujian reliabilitas dengan tidak memerlukan lebih dari satu kali

pengukuran.

Pendekatan dan penafsiran teoritis terhadap reliabilitas dapat ditempuh melalui

berbagai cara. Dalam pembahasan berbagai akan diikuti asumsi dan interpretasi dari

classical true score theory.

A. Beberapa Interpretasi.

Dalam classical true score theory, reliabilitas pengukuran yang dilambangkan

oleh  xx’ (  adalah huruf Yunani rho ) dapat dilihat dari berbagai interpretasi.

1.  xx’ = Korelasi antara observed-score (skor-tampak) dari dua alat yang pararel.

Dalam interpretasi ini, apabila setiap subjek mendapat skor yang sama pada test

X dan test X’ yang pararel, dan terdapat varians pada masing-masing distribusi

skor-tampak itu, maka kedua test tersebut mempunyai reliabilitas sempurna (  xx’

= 1.0 ). Apabila tidak semua subjek mendapat skor yang sama pada test X dan

test X’ , maka korelasi antara kedua test tidak sempurna (  xx’ < 1.0 ).

2 2
2.  xx’ =  / 
T X

Koefesien reliabilitas dinyatakan oleh rasio varians true-score (skor-murni)

terhadap varians skor-tampak, atau oleh proporsi varians skor-tampak yang

merupakan varians skor-murni.


2 2
Bila suatu test memiliki reliabilitas sempurna, maka harga  /  = 1.0, yaitu
T X

semua varians skor-tampak merupakan varians skor murni, tidak mengandung

varians kesalahan. Setiap perbedaan skor-tampak yang terjadi merupakan

2 2
perbedaan skor-murni,  =  . Dengan kata lain, pada reliabilitas yang
T X

sempurna, pengukuran terjadi tanpa kesalahan. Adanya kesalahan pengukuran

2 2
akan menyebabkan harga komponen  /  lebih kecil daripada 1.0 dan
T X

semakin kecillah proporsi varians skor-tampak yang merupakan varian skor-

murni dan test tersebut semakin kurang reliabel.

2
3.  xx’ = 
XT

Interpretasi ini menyatakan bahwa koefesien reliabilitas adalah sama dengan

kuadrat korelasi antara skor-tampak dan skor-murni. Jadi, misalnya kalau  xx’ =

.81, maka  XT = .90.

Bila  xx’ = .49, maka  XT = .70.

Bilamana 0.0 <  xx’ < 1.0, kita dapat melihat bahwa  xx’ < XT yaitu korelasi

skor-tampak dari dua test yang pararel. Hubungan ini dapat dilukiskan sebagai

berikut :

10 -
.9 -

.5 -
 XT

Gambar 2.1 hubungan


 xx’ dan  XT

I I I
0 .2.5 .X1 1.0 Sesungguhnya karena skor
 xx’
suatu test tidak dapat
berkolerasi dengan skor variabel lain lebih tinggi daripada dengan skor-murninya

sendiri, maka korelasi maksimal antara skor-tampak suatu test dengan skor-

tampak variabel lain adalah sama dengan  XT x atau sama dengan ρ xx'

yaitu akar kuadrat reliabilitasnya. Bila test X dianggap prediktor dan Y adalah

variabel kreterianya, maka korelasi X dan Y yaitu  XY disebut koefesien validitas.

Karena  XY tak dapat lebih besar daripada  XT x , maka  XY tidak pula dapat

lebih besar daripada ρ xx' . Jadi validitas akan dipengaruhi oleh reliabilitas.

2 2
4.  xx’ = 1 -  / 
E X

Interprestasi ini menghubungkan reliabilitas dengan error-variace (varians-

kesalahan) dan varians skor-tampak.

Apabila suatu pengukuran hanya berisi kesalahan random semata-mata, maka

2 2
varians skor-tampak merupakan varians kesalahan keseluruhnya,  =  .
E X

Dalam hal ini maka harga  xx’ = 1-1=0 artinya test tersebut sama sekali tidak

2
reliabel. Kalau pengukuran tidak mengandung kesalahan sama sekali, maka 
E

2 2
= 0 dan harga komponen  /  = 0 , dan  xx’ = 1 - 1= 0. Dengan kata lain
E X

reliabilitas test tersebut sempurna karena pengukuran yang dilakukan tanpa

kesalahan.

2
Varians (derajat heteroginitas) skor-tampak,  mempunyai pengaruh penting
X

terhadap reliabilitas. Bila di asumsikan bahwa varians kesalahan adalah konstan,

2 2
maka besarnya varians skor-tampak sangat menentukan harga  /  . Kalau
E X

2 2 2 2
sampel heterogen, maka haraga  /  akan kecil dan  xx’ = 1-  / 
E X E X
2 2
akan besar. Bila sampel homogen maka harga  /  akan besar dan dan 
E X

2 2
xx’ = 1-  /  menjadi kecil.
E X

Dengan kata lain, estimasi reliabilitas yang didasarkan data dari sampel yang

heterogen cenderung menghasilkan koefesien reliabilitas yang lebih tinggi

daripada kalau didasarkan pada data dari sampel yang homogen.

Kesimpulan Interpretasi.

Interpretasi reliabilitas menurut classical true-score theory dapat disimpulkan

sebagai berikut :

1. Bila  xx’ = 1 , maka :

a. Pengukuran dibuat tanpa kesalahan

b. Bagi semua subjek, X = T,

2 2
c. Semua varians skor-tampak merefleksikan varians skor-murni ( / 
X T

d. Perbedaan di antara skor-tampak merupakan perbedaan skor-murni

e. Korelasi antara skor-tampak dan skor-murni sama dengan 1, (  XT = 1)

f. Korelasi antara skor-tampak dengan kesalahan sama dengan 0, (  XE = 1)

2. Bila  XX = 0, maka :

a. Pengukuran berisi kesalahan random semata-mata,

b. Bagi semua subjek, X = E,

2
c. Semua varians skor-tampak merupakan varians kesalahan ( =
X

2
 )
E

d. Semua perbedaan diantara skor-tampak mencerminkan kesa- lahan

pengukuran.

e. Korelasi antara skor-tampak dan skor-murni adalah 0, (  XT = 0)


f. Korelasi skor-tampak dan kesalahan adalah 1, (  XE = 1)

3. Bila 0 <  XX’ < 1, maka :

a. Sebagian pengukuran mengandung kesalahan.

b. X = T = E

c. Varians skor-tampak terdiri atas varians skor-murni dan varians kesalahan (

2 2 2
 X=  T +  E)

d. Perbedaan di antara skor-tampak mungkin mencerminkan per- bedaan skor-

murni maupun kesalahan pengukuran.

e.  XT = ρ xx'

f.  XE = 1 ρ XX'

2 2
g.  XX’ =  / 
T X

h. Makin besar  XX’ makin besarlah kepercayaan kita dalam mengestimasi T

dari X, karena varians kesalahan akan semakin kecil.

B. Metode - Metode Estimasi.

Harga koefesien reliabilitas yang sesungguhnya,  XX’ tidak di ketahui. Apa yang

dapat dilakukan adalah melakukan estimasi reliabilitas berdasarkan skor-tampak melalui

antara lain, metode-metode yang di uraikan dibawah ini yang akan menghasilkan harga 

XX’ sebagai estimasi terhadap  XX’ .

1. Metode Test-Retest.

Metode test-retest dilakukan dengan menggunakan test yang sama pada

kelompok subjek yang sama dua kali dengan memberi tenggang waktu yang cukup di

antara kedua penyajian tersebut. Dengan menghitung korelasi antara distribusi skor-

tampak kedua penyajian, akan di peroleh koefesien reliabilitas test yang bersangkutan.

Koefesien korelasi sempurna hanya akan diperoleh bila setiap subjek mendapat skor
yang sama pada kedua penyajian bila distribusi skor kelompok tersebut varians tidak

sama dengan nol.

Prosedur test-retest dapat dilakukan sebagai berikut :

_____
Subjek XI waktu X II

S1 X II X III
S2 X 2I X 2II
S3 X 3I X 3II
:
:
Sn X nI X nII
r XX’ = r I.II
Keterangan :

S I = Subjek yang ke i ; i = 1,2,3, …….., n

X j = Penyajian test X yang ke j ; j = I, II

X ij = Skor subjek ke i pada penyajian ke j

Contoh :

Subjek XI X II
A 40 42
B 43 43
C 39 38
D 52 50
E 50 51
F 44 45
G 44 44
H 51 49
I 48 49
J 47 46
N = 10  X I = 458  X II = 457
2 2
 X = 21160 X = 21037
I II
 X I X II = 21090
Tabel 2.1 : Distribusi skor test X pada penyajian pertama X I dan pada penyajian kedua
X II setelah tenggang waktu tertentu.

Koefeien reliabilitas test X dapat dihitung dengan menggunakan formula korelasi

product-moment dari pearson,


(458) (457)
21090 
r I.II  10
 (458) 2   (457) 2 


21160   21030  

10  

10 

r I.II  r XX'   .954


167.109

Metode test-retest sangat peka terhadap masalah carry-over effect di antara

kedua penyajian. Skor subjek pada penyajian kedua sangat mungkin dipengaruhi oleh

penyajian test yang pertama. Misalnya, bila subjek masih ingat jawaban yang diberikanya

pada penyajian pertama, ada kemungkinan pada penyajian kedua ia sekedar mengulangi

saja jawaban tersebut. Hal ini akan meningkatkan korelasi antara dua penyajian dan

dapat menyebabkan overestimasi terhadap  XX’ . Ada kemungkinan pula terjadi

peningkatan hasil test karena subjek berlatih dan belajar sesuatu dalam tenggang waktu

di antara kedua penyajian. Apabila peningkatan ini tidak searah dan tidak sama besar

pada semua subjek, maka korelasi r XX’ akan tercemar, akibatnya akan terjadi

underestimasi terhadap  XX’ .

Perubahan sikap subjek juga dapat mempengaruhi estimasi reliabilitas. Kalau

pada penyajian kedua subjek sikap negatif, menolak bekerja dengan bersungguh-

sungguh, atau dengan sengaja memberi jawaban sekenaknya , akan mengakibatkan

pula korelasi yang rendah

Masalah lain dalam prosedur test-retest adalah masalah menentukan lamanya

waktu yang harus disediakan di antara dua penyajian test. Kalau tenggang waktu terlalu

singkat, sangat mungkin terjadi carry-over effect akibat memory, practice, atau suasana

hati subjek. Bila tenggang waktu diberikan terlalu panjang, dapat mengakibatkan carry

over effect yang ditimbulkan oleh perubahan suasana hati subjek, atau bertambahnya

informasi yang diperoleh subjek dalam aspek yang diukur oleh test yang bersangkutan.

Karena itu metode test-retest lebih cocok untuk digunakan dalam mengestimasi
reliabilitas test yang mengukur traits yang stabil selama tenggang waktu penyajian dan

tak mudah dipengaruhi carry over effect.

Estimasi reliabilitas dengan metode parallel-forms dilakukan dengan menghitung

korelasi skor-tampak antara dua test yang pararlel yang disajikan pada kelompok subjek

yang sama. Dikarenakan hampir tidak mungkin untuk memperoleh dua test yang pararlel,

maka biasanya digunakan alternate-forms sebagai pengganti. Alternate-forms adalah

dua test yang mengukur satu trait yang sama dan disusun sedemikian rupa sehingga

menjadi separalel mungkin sehingga keduanya dapat mempunyai distribusi skor-tampak

dengan mean, varians, dan korelasi dengan test lain yang sama besar.

Kalau test X dan alternate-test Z dikenakan pada sekelompok subjek, dan skor-

tampak pada kedua test tersebut dikorelasikan maka koefesien korelasi r XZ yang

diperoleh akan mencerminkan reliabilitas test tersebut dan juga mencerminkan seberapa

pararlel keduanya. Prosedur ini dapat digambarkan sebagai berikut :

Subjek Test Alternate-test


X Z
S1 X1 Z1
S2 X2 Z2
S3 X3 Z3
:
:
Sn Xn Zn
r XX’ = r XZ

Keterangan :

S i = Subjek yang ke i
X i = Skor subjek yang ke I pada test X
Z i = Skor subjek yang ke I pada test Z
i = 1, 2, 3, ………., n

2. Metode

Contoh :

Subjek Nomor item Belahan


1 2 3 4 5 6 7 8 9 10 11 12 Y1 Y2 X
A 1 1 0 1 2 2 2 1 2 1 1 2 8 8 16
B 1 1 0 0 2 2 1 2 2 2 1 1 7 8 15
C 0 0 1 1 2 2 0 0 1 1 2 2 6 6 12
D 0 0 0 0 1 1 1 1 2 2 2 2 6 6 12
E 1 1 0 0 1 1 0 0 2 2 1 1 5 5 10
F 2 2 1 1 0 0 2 2 1 1 0 0 6 6 12
G 2 2 2 2 2 2 1 1 1 1 1 1 9 9 18
H 0 1 0 0 1 0 2 2 1 1 0 0 4 4 8
I 0 0 0 1 1 1 1 2 2 1 1 0 5 5 10
J 2 1 2 0 0 2 2 1 1 0 1 0 8 4 12
N = 10  Y1 = 64  Y2 = 61
2 2
Y = Y = 399
1 2
 Y1 Y2 = 407

Tabel 2.2 : Distribusi skor item-item bernomor ganjil (belahan Y1) dan skor item-item
bernomor genap (belahan Y2)

Sebagimana pada metode test-retest, korelasi antara skor X dan skor Z dihitung

dengan formula product moment.

Penggunaan prosedur estimasi reliabilitas dengan metode alternate-forms

ataupun parallel-forms tidak menjamin hilangnya carry over effect, terutama yang

diakibatkan oleh sikap, suasana hati, maupun cara respon subjek. Akibatnya dapat

berupa overestimasi maupun under-estimasi terhadap  XX’ . Disamping itu masalah

sulitnya menyusun dua test yang dapat dianggap alternate-form menjadi salah satu

kelemahan dan tidak praktisnya metode ini.

3. Metode Internal Consistency

Metode internal cosistency hanya memerlukan satu kali penyajian test saja

(dikenal dengan nama singel-trial administration) dan karena itu masalah-masalah yang

timbul akibat penyajian yang berulang dapat dihindari.

Salah satu prosedur dalam metode internal cosistency yang sangat populer

adalah yang menghasilkan estimasi reliabilitas split-half (belah dua). Test yang akan

diestimasi reliabilitasnya dibelah menjadi dua bagian yang diuasahan paralel.

Pembelahan ini dilakukan setelah keseluruhan test sebagai kesatuan dikenakan pada

para subjek. Kemudian dapat diperoleh distribusi skor-tampak subjek untuk belahan

pertama dan belahan ke dua.

Ilustrasinya sebagai berikut :


Subjek Test X
Belahan Belahan
Y1 Y2
S1 Y11 Y12
S2 Y21 Y22
S3 Y31 Y32
:
:
Sn Yn1 Yn2

Keterangan :

Si = Subjek yang ke i
Yj = Belahan ke j
Y ij = Skor subjek ke i pada belahan ke j
X = Y1 + Y2
i = 1, 2, 3, …………., n
j = 1, 2

Contoh

Contoh pada zetingan folio

Korelasi antara belahan Y1 dan belahan Y2 dihitung dengan tehnik product

moment menghasilkan :

(64)(61)
407 
ry y  10
1 2   
 64 2   612 
432   399  

 10   10 

r y1y2 = .676

Harga r y1y2 ini baru merupakan koefisien korelasi antara kedua belahan test,

belum merupakan koefisien reliabilitas test X. prosudur komputasi reliabilitas X

selanjutnya tergantung pada sifat distribusi kedua belahan.

a) Spearman-Brown Prophecy Formula

Apabila terdapat alasan kuat untuk menganggap bahwa belahan Y 1 dan Y2

adalah paralel, maka estimasi reliabilitas keseluruhan test X yaitu r XX’ dapat dilakukan
dengan menggunakan formula Spearman-Brown pada koefisien korelasi antara skor

pada belahan Y1 dan belahan Y2.

2r y1y2
r xx ' 
1  r y1y2

Dimana :
r Y1Y2 = Koefisien korelasi antara kedua belahan.
r XX’ = Koefisien reliabilitas keseluruhan test X.

Jadi kalau diperoleh korelasi sebesar r Y1Y2 = .676 dari kedua belahan, maka

koefisien reliabilitas test X adalah :

2 (0.676)
r xx' 
1  0,676
r XX’ = .8067

Harga r XX’ selalu akan lebih tinggi dari pada harga r Y1Y2 karena r XX’

adalah reliabilitas keseluruhan test, sedangkan r Y1Y2 merupakan reliabilitas seperdua

test. Kenaikan setelah dikenakannya formula Spearman-Brown untuk beberapa harga

reliabilitas dapat dilihat pada tabel berikut :

r Y1Y2 r XX’
.00 .00
.20 .33
.40 .57
.60 .75
.80 .89
1.00 1.00
Tabel 2.3. Kenaikan r Y1Y2 menjadi r XX’

Reliabilitas dan Panjang Test.

Reliabilitas baru r XX’ dikarenakan penambahan jumlah item ini sering pula

disebut stepped-up reliability. Untuk mendapatkan estimasi reliabilitas baru dengan

cermat sebagai efek memperpanjang test seperti diatas, suatu asumsi yang harus dapat

dipenuhi adalah asumsi mengenai homogenitas antara item-item dalam test setelah

perpanjangan. Hal itu dapat dicapai apabila item-item baru yang ditambahkan merupakan

komponen paralel bagi item-item yang sudah ada.


Hubungan antara banyaknya item baru yang ditambahkan dengan efek terhadap

peningkatan reliabilitas test tidak menunjukan hubungan linier. Tingginya koefisien

reliabilitas setelah perpanjangan test merupakan fungsi dari koefisien reliabilitas semula r

YY” dan J. Gambar berikut memberikan ilustrasi hubungan antara panjang test dengan

reliabilitas.

10 r yy’ = .80
r yy’ = .60
9 r yy’ = .40

8 r yy’ = .20
7

0 1 2 3 4 5 6 7 8 9 10
Gambar 2.2 : Efek penambahan item terhadap peningkatan reliabilitas test.
Tampak pada gambar 2.2 bahwa untuk test yang reliabilitasnya relatif rendah (

dalam gambar r yy’ = .20 ), penambahan item yang memperpanjang test menjadi 10 kali

lipatpun ( J = 10 ) tidak menjamin tercapainya reliabilitas yang sempurna. Namun

demikian, bila J terus bertambah besar mendekati  , maka reliabilitas test akan

mendekati r XX’ = 1.00 asalkan komponen yang ditambahkan adalah paralel dan

reliabilitas semua (r YY’) tidak sama dengan nol.

Spearman-Brown Prophecy Formula dapat pula digunakan untuk estimasi

reliabilitas yang akan diperoleh apabila dikehendaki untuk memperpendek test. Suatu

test yang mempunyai reliabilitas r XX’ dan akan diperpendek menjadi 1/J dari panjang

semula, akan mempunyai reliabilitas :

1/J ( r xx' )
r yy' 
1  (1/ J  1) r xx'
Contoh :

Misalkan suatu test yang berisi 100 item mempunyai reliabilitas r XX’ = .90

dan ingin diperpendek menjadi hanya 60 item. Reliabilitas test tersebut setelah

diperpendek dapat diestimasi sebagai berikut :

r xx' ( 1  r yy' )
J 
r yy' ( 1  r xx' )

Dimana :
R YY’ = Reliabilitas semula
R XX’ = Reliabilitas yang dikehendaki
J = Rasio jumlah item test yang baru dan jumlah item test semula.
Contoh :

Bila reliabilitas semula r YY’ = .30 dan ingin ditingkatkan menjadi r XX’ = .60,

maka :

J  .60 ( 1  .30 )
.30 ( 1  .60 )
J = 3 12

Kalau jumlah item semula adalah k, maka banyaknya item baru yang harus

ditambahkan adalah sebanyak Jk - k. Andaikan item test semula berjumlah k = 20,

dengan J = 3 12 maka item baru yang harus ditambahkan adalah sebanyak 3 12 (20) -

20 = 50 item

Tampaklah bahwa untuk menaikan reliabilitas diperlukan penambahan item yang

berlipat jumlahnya, terutama bila reliabilitas semula memang relatif rendah. Hal itu tentu

tidak mudah untuk dilakukan karena peningkatan reliabilitas yang diharapkan hanya akan

tercapai bila item-item yang ditambahkan itu dapat menjadi bagian homogen dari test

keseluruhan.

b) Split-Half dengan Tehnik Rulon.

Rulon (1939) mengetengahkan suatu tehnik estiamsi reliabilitas belah dua tanpa

perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Varians yang

perlu diperhitungkan dalam tehnik adalah varians kesalahan. Menurut Rulon varians
distribusi perbedaan skor pada belahan-belahan test seluruhnya dicantumkan oleh

varians kesalahan masing-masing belahan. Varians kesalahan masing-masing belahan

ini bersama-sama ( foto copynya terhapus) ……………………..

Rumus reliabilitas Rulon adalah :

2 2
r xx'  1  S / S
d X

Dimana :

2
S = Varians distribusi perbedaan skor kedua belahan.
d

2
S = Varians distribusi skor total.
X

Contoh :

Dengan menggunakan data pada tabel 2.2 diperoleh distribusi perbedaan skor

sebagai berikut :

Belahan d
Subjek d2 X X2
Y1 Y2 ( Y1 - Y2 )
A 8 8 0 0 16 256
B 7 8 -1 1 15 225
C 6 6 0 0 12 144
D 6 6 0 0 12 144
E 5 5 0 0 10 100
F 6 6 0 0 12 144
G 9 9 0 0 18 324
H 4 4 0 0 8 64
I 5 5 0 0 10 100
J 8 4 4 16 12 144
N = 10 64 61 d=3 d2 = 17 125 1645

Tabel 2.4 : Distribusi perbedaan skor belahan Y1 dan belahan Y2.

2
Varians X, telah diketahui S = 8.249 sedangkan varians d dapat dihitung :
X

2
2 17  3
S  10
d
10

2
S  1.61
d
Sehingga

r XX’ = 1 - 1.61 / 8.249

r XX’ = .8048

Koefisien ini adalah koefisien reliabilitas keseluruhan test, bukan reliabilitas

separuhnya. Di samping itu rumus Rulon dapat dikenakan pada dua testyang paralel,

yang dalam hal ini kita kemudian harus menggunakan koreksi Spearman-Brown terhadap

koefisien yang diperoleh dengan J = 1


2

Koefisien Alpha

Apabila distribusi skor pada belahan Y1 dan belahan Y2 tidak memiliki varians

yang sama atau tidak cukup alasan untuk menganggap kedua belahan tersebut paralel,

maka estimasi keseluruhan test dapat diperoleh dengan menggunakan koefisien Alpha

(Cronbach, 1951)

 
2 2 2
2 S  ( S  S ) 

 X Y1 Y2 
α 
2

S
X

Keterangan :

2
S = Varians skor subjek pada belahan Yj ; j = 1, 2
Yj
2
S = Varians skor subjek pada keseluruhan test X
X
 = Koefisien reliabilitas Alpha

Contoh :

Dari tabel 2.2 varians skor pada belahan Y1 dan Y2 dapat dicari,

2
432  ( 64 )
2
S  10
Y1 10

2
S  2.239
Y1
Sedangkan varians Y2 adalah :

2
399  ( 61 )
2
S  10
Y2 10

2
S  2.689
Y2

2
dan varians X, S = 8.249, sehingga
X

α  2  8.249  ( 2.239  2.689 )


8.249

 = .805

Koefisien alpha akan memberikan harga yang lebih kecil atau sama besar

dengan harga reliabilitas yang sebenarnya (  XX’ ), jadi akan selalu ada kemungkinan

bahwa reliabilitas test yang sebenarnya adalah lebih tinggi daripada koefisien alpha.

Harga r XX’ yang dihitung dengan formula Spearman-Brown dan harga koefisien

alpha akan lebih tinggi apabila korelasi antara kedua belahan test juga tinggi, sebaliknya

apabila kedua belahan test berkorelasi rendah maka r XX’ dan koefisien alpha juga akan

rendah. Di lain pihak kedua belahan tersebut dapat menghasilkan korelasi tinggi hanya

kalau keduanya mengukur trait yang sama atau trait berbeda yang berkorelasi tinggi. Jadi

reliabilitas Spearman-Brown dan koefisien alpha dapat dianggap sebagai indeks internal-

consistency atau indeks homogenitas test.

Pembelahan test tidak terbatas pada pembelahan test menjadi dua belahan saja.

Adalah mungkin untuk membelah test menjadi lebih dari dua komponen atau dua

belahan ( J > 2 ).

Formula koefisien alpha dapat digunakan untuk estimasi test yang dibelah

menjadi J komponen dengan menghitung varians skor tiap-tiap belahan serta varians

skor total. Formula dimaksud akan menghasilkan estimasi reliabilitas yang baik hanya

bila isi test yang bersangkutan adalah homogen, yaitu mengukur trait tunggal. Formula

umum koefisien alpha adalah :


 2 J 2
S
   S 
 J   X 1 YJ 
    
 J  1 
S
2 
 
 X 
 

Dimana :

2
S = Varians skor subjek pada keseluruhan test X yang terbagi atas J belahan.
X
2
S = Varians skor subjek pada belahan yang ke j ; j = 1, 2, 3, …..j
Yj
J = Banyaknya belahan

Formula-Formula Kuder-Richardson.

Apabila setiap komponen atau belahan test merupakan item yang diberi skor

dikotomi (dichotomous), yaitu terdiri atas angka 0 dan 1, maka formula alpha akan

mengambil bentuk khusus sebagai formula Kuder-Richardson-20 (1937) yang disebut

juga koefisien -20 (Cronbach, 1951) :

 2 J 
S
   Pi ( 1  P i ) 
 J  1
KR  20    X 
 J  1 
 S
2 

 X 
 

Keterangan :

Pi = Proporsi subjek yang mendapat skor 1 pada item i , yaitu banyaknya subjek
yang mendapat skor 1 dibagi dengan banyaknya seluruh subjek.
2
S = Varians skor test X
X

J = Banyaknya belahan test, dalam hal ini adalah banyaknya item test.

Kuder dan Richardson merumuskan pula formulanya guna menghitung

reliabilitas test yang terdiri atas item dikotomi, dengan menggunakan rata-rata proporsi

subjek yang mendapat skor 1. Rumusan ini dikenal dengan nama formula Kuder-

Richardson -21.
 2 
S  J P (1 P )
 J   X 
KR  21    
 J  1 
S
2 
 
 X 
 

Keterangan :

2
S = Varians skor test X
X
P = Rata-rata proporsi subjek yang mendapat nilai 1 pada setiap item, atau
jumlah seluruh harga Pi dibagi oleh banyaknya item.
J = Banyaknya item test.

Contoh :

Nomor item
Subjek 1 2 3 4 5 6 7 8 9 10 11 12 X X2
A 1 0 1 1 0 0 1 1 0 1 0 0 6 36
B 1 0 1 1 0 1 0 0 1 1 0 0 6 36
C 0 0 1 0 1 1 1 0 1 1 0 1 7 49
D 0 1 0 0 0 0 0 1 0 0 1 1 4 16
E 1 1 1 1 0 1 1 1 1 0 1 1 10 100
F 0 0 1 0 1 1 0 0 0 0 1 0 4 16
G 1 0 0 0 0 0 0 0 0 0 0 0 1 1
H 0 1 0 1 0 1 1 1 1 1 0 0 7 49
I 1 1 1 1 1 1 1 0 0 0 0 1 8 64
J 0 0 1 1 0 0 0 1 1 1 1 0 6 36
Pi .5 .4 .7 .6 .3 .6 .5 .5 .5 .5 .4 .4  Pi = 5.9
(1-Pi) .5 .6 .3 .4 .7 .4 .5 .5 .5 .5 .6 .6
Pi (1-Pi) .25 .21 .21 .25 .25 .24  Pi (1-Pi)=2.87
.24 .24 .24 .25 .25 .24
N = 10 X = 59 X2 = 403
Tabel 2.5 Distribusi skor dikotomi.

Perhitungan reliabilitas KR-20 adalah sebagai berikut :

Banyaknya item = J = 12

Harga Pi adalah banyaknya skor 1 untuk item i dibagi 10, sehingga untuk seluruh item

diperoleh Pi dan ( 1 – Pi ),

 Pi (1 – Pi ) = 27

2
Varians X, adalah S = 5.489
X

KR  20   12   5.489  2.87 
   
12  1  5.489 

KR  20  .520
Sedangkan komputasi dengan menggunakan formula KR-21 adalah sebagai

berikut :

J
 Pi
P   5.9  42
J 12

KR  21   12   5.489  12 (.492 ) ( 1  .492 ) 


  
12  1  5.489 

KR  21  .495

Kalau taraf kesukaran item-item (Pi) dalam test adalah sama, maka formula KR-

20 dan KR-21 akan menghasilkan estimasi reliabilitas yang identik. Ketidaksamaan taraf

kesukaran item menyebabkan koefisien KR-21 lebih rendah daripada KR-20 dan

merupakan underestimasi terhadap reliabilitas test yang sesungguhnya.

Untuk kemudahan komputasi, maka koefisien KR-21 dapat pula dihitung dengan

formula berikut :

 
 
KR  21  
 J   1  X  X2 / J
 
 J  1   S
2 
 
 X 

Dengan menggunakan data yang sama pada tabel 2.5 contoh komputasinya

adalah sebagai berikut :

X   X  59  5.9
N 10

 
KR  21   12   1  5.9  (5.9) / 12 
 2
12  1  5.489
 

KR  21  .4948

Hasil ini identik dengan hasil komputasi dengan formula KR-21 sebelumnya.

Beberapa cara Pembelahan Test.

Ada beberapa cara untuk melakukan pembelahan test yang akan diestimasi

reliabilitasnya.
Pertama adalah cara pembelahan odd-even yang mengelompokan semua item

bernomor ganjil sebagai belahan pertama (Y 1) dan mengelompokan semua item

bernomor genap sebagai belahan kedua (Y2). Pembelahan odd-even dapat dilakukan

setelah test dikenakan pada subjek dalam urutan aslinya sebagai suatu keseluruhan.

Cara kedua adalah membelah menurut Order atau urutan nomor item. Cara ini

mengelompokan setengah dari test mulai dari nomor item pertama dan mengelompokan

setengah sisanya sebagai belahan kedua. Kalau banyaknya item adalah k, maka

belahan pertama terdiri dari item nomor 1 sampai dengan nomor k/2 + 1 sampai dengan

nomor k. Untuk cara pembelahan seperti ini, item-item belahan Y1 dan belahan Y2

dikenakan pada subjek sebagai dua test yang terpisah. Jadi seakan-akan mengenakan

dua alternate-forms berturut-turut.

Cara yang lebih sophisticated adalah cara pembelahan yang disebut matched

random subsets (Gulliksen, 1950). Cara ini memerlukan perhitungan Pi masing-masing

item dan koefisien korelasi masing-masing item dengan skor total test ( r iX ). Data Pi dan

r iX ini kemudian dijadikan dasar untuk meletakan setiap item pada posisinya dalam

suatu grafik. Item-item yang terletak berdekatan posisinya dalam grafik dipasangkan dua-

dua dan dari setiap pasangan item secara random diambil suatu item untuk dimasukan

kebelahan Y1 dan pasangannya dimasukkan ke belahan Y2. Gambar berikut

memperlihatkan contoh pengelompokkan item guna membentuk dua belahan yang

masing-masing terdiri atas tiga item.

10 -

E
F
5 - A C
B D

| |
0 5 10
pi

Gambar 2.3 Pembelahan test dengan cara matched random subsets.

Kemungkinan kombinasi item untuk belahan Y1 dan belahan Y2 bila dibuat

pasangan secara random adalah A, C, E, - B, D, F ; A, C, F – B, D, E ; B, C, E – A, D, F ;

dan B, C, F – A, D, E.

Estimasi reliabilitas dengan metode split-half hendaknya tidak digunakan pada

speed-test umumnya subjek akan menjawab benar setiap item yang sempat

dikerjakannya. Dengan pembelahan odd-even maka skor subjek pada kedua belahan

akan hampir identik sehingga akan mengangkat koefisien reliabilitasnya mendekati r XX’ =

1.0. dan ini merupakan overestimasi terhadap reliabilitas yang sesungguhnya.

Dikarenakan dalam speed-test indeks kesukaran item tergantung pada posisi urutannya,

maka membelah dengan cara matched random subsets pun tidak dapat digunakan.

Demikian pula pembelahan menurut order atau urutan akan menurunkan koefisien

reliabilitas mendekati nol dikarenakan skor subjek yang cenderung lebih tinggi pada

belahan pertama yang terdiri dari item-item bernomor awal.

c) Pendekatan Analisis Varians.

Di samping menggunakan tehnik-tehnik korelasi, reliabilitas test dapat diestimasi

melalui pendekatan analisis varians yang antara lain diusulkan oleh Hoyt (1941).

Matriks skor item dalam hal ini dianggap sebagai desain faktorial dua jalan tanpa

replikasi, yang dikenal juga dengan sebutan treatment x subjek design.

Rumus dasar reliabilitas Hoyt adalah :

s2
r xx'  1  r2
ss

Dimana :

S2
r = Varians residu yang pada analisis treatment x subject adalah mean

kuadrat interaksi antara item dan subjek yaitu MKis .


S s2 = Varians subjek merupakan mean kuadrat antar subjek yaitu MK s .

Mean kuadrat (MK) diperoleh dengan membagi jumlah kuadrat (JK) dengan

derajat kebebasan (db) yang bersangkutan.

(  X ij ) 2
Variasi total, Jk T   X2 
ij NJ
db T  NJ  1
J 2
X (  X ij ) 2
Variasi subjek, Jk s  i 
J NJ

db s  N1
N 2
 X (  X ij ) 2
j
Variasi item, Jki  
N NJ

db i  J  1

Variasi residu, Jkis  JKT  Jks  Jki

dbis  ( N  1 ) ( J  1 )
N = Banyaknya subjek
J = Banyaknya item.
Contoh

Dengan menggunakan data dari tabel 2.5


Nomor item
Subjek 1 2 3 4 5 6 7 8 9 10 11 12 X X2
A 1 0 1 1 0 0 1 1 0 1 0 0 6 36
B 1 0 1 1 0 1 0 0 1 1 0 0 6 36
C 0 0 1 0 1 1 1 0 1 1 0 1 7 49
D 0 1 0 0 0 0 0 1 0 0 1 1 4 16
E 1 1 1 1 0 1 1 1 1 0 1 1 10 100
F 0 0 1 0 1 1 0 0 0 0 1 0 4 16
G 1 0 0 0 0 0 0 0 0 0 0 0 1 1
H 0 1 0 1 0 1 1 1 1 1 0 0 7 49
I 1 1 1 1 1 1 1 0 0 0 0 1 8 64
J 0 0 1 1 0 0 0 1 1 1 1 0 6 36
Xj 5 4 7 6 3 6 5 5 5 5 4 4  X ij = 59
25 14 49 36 9 36 25 25 25 25 16 16
 X2  x ij2 = 403
j
N = 10 J = 12
Tabel 2.6 Data pindahan dari tabel 2.5 untuk komputasi anava.
JKT = 12 + 12 + 02 + …… + 02 -
( 59 )2 = 59 - 3481 = 29.992
(10 ) (12 ) 120
dbT = 120 - 1 = 119

JKS =
62  62  72 ...... 42 - ( 59 )2 = 403  3481 = 4.575
12 (10 ) (12 ) 12 120
dbS = 10 - 1 = 9

Jk i =
52  42  72  ..... 42 - ( 59 )2 - 303  3481 = 1.292
10 (10 ) (12 ) 10 120
db i = 12 - 1 = 11

JK is = 29.992 - 4.575 - 1.292 = 24.125

db is = (10 - 1) (12 - 1) = 99

Hasil komputasi ini dimasukkan ke tabel ringkasan anawa,

Variasi Jk Db Mk
Total 29.992 119 -
Item 1.292 11 -
Subjek 4.575 9 .508
Residu 24.125 99 .244
Tabel 2.7 Ringkasan anawa guna perhitungan reliabilitas Hoyt.

Jadi ;

r xx’ = 1 -
.244
.508
r xx’ = .5197

Hasil yang diperoleh ini sama dengan koefisien reliabilitas yang dihitung dengan

formula KR – 20 karena untuk item dikotomi secara aljabar reliabilitas Hyot

adalah identik dengan KR – 20. Sebagaimana Kr – 20 maka koefisien Hyot juga

menghasilkan underestimasi terhadap reliabilitas test yang sebenarnya, terutama

bila test itu pendek.

C. Beberapa Kasus Khusus.

Reliabilitas Skor-Gabungan (composite-score)

Skor gabungan adalah skor total dari penjumlahan skor-skor komponen (subtest)

dengan memperhitungkan bobot relatif masing-masing komponen tersebut. Dalam hal ini,
setiap komponen mungkin memberikan bobot tersendiri sebagai bagian dari test

keseluruhan.

Reliabilitas skor gabungan merupakan fungsi dari reliabilitas, penyebar skor,

interkorelasi, dan bobot relatif masing-masing komponennya. Formula untuk menghitung

koefisien reliabilitas skor gabungan dirumuskan oleh Monsier-(1943) sebagai berikut :

 W 2 S2   W 2 S2 r
r sg = 1 -
j j j j j j'
 W 2 S2  2  W W S S
j j j k j k r jk

Keterangan :

r sg = Koefisien reliabilitas skor gabungan.

wj = Bobot relatif komponen j

w k = Bobot relatif komponen k

sj = Deviasi standart komponen k

r jj = Koefisien reliabilitas komponen masing-masing

r jk = Koefisien korelasi antara dua komponen yang berbeda

Contoh
Subjek Komponen Test X
I II III ( I + 2II + III )
A 6 2 3 13
B 8 4 6 22
C 10 6 8 30
D 10 5 7 27
E 9 4 7 24
F 5 2 3 12
G 7 3 4 17
H 6 2 4 14
I 9 6 7 28
J 9 5 8 27

N = 10  X j = 79 39 57  X = 214
 X2 = 5000
 X 2 = 653 175 361
j
wj = 1 2 1
Tabel 2.8 Distribusi skor komponen dan skor gabungan.

Dari data diatas, diandaikan reliabilitas masing-masing komponen telah dihitung,

yaitu :

r 11’ = .81, r 22’ = .79, dan r 33’ = .86

Bobot relatif komponen II adalah 2, karena itu skor pada komponen II

dikalikan 2. Selanjutnya dengan tehnik korelasi product moment, koefisien korelasi antar

komponen dapat dihitung dan hasilnya adalah :

r I.II = .93, r I.III = .95, dan r II.III = .93

Deviasi standart masing-masing komponen dihitung dari data diatas adalah :

S 1 = 1.7, S 2 = 1.51, dan S 3 = 1.9

Sehingga diperoleh :

 w2 s2 = (1)2 (1.7)2 + (2)2 (1.51)2 + (1)2 (1.9)2


j j
= 15.656

 w 2 s 2 r jj = (1)2 (1.7)2 (.81) + (2)2 (1.51)2 (.79)2 + (1)2 (1.9)2 (.86)


j j

= 12.679

 w j w k s j s k r jk = (1) (2) (1.7) (1.51) (9.3) = 4.775

(1) (1) (1.7) (1.9) (.95) = 3.069

(2) (1) (1.51) (1.9) (.93) =


5.336 
13.170

r sg = 1 -
15.656  12.679 = .93
15.656  2 (13.179 )

Inilah koefisien reliabilitas skor-gabungan X yang terdiri dari tiga subtest :

Reliabilitas skor – perbedaan.

Kadang-kadang, distribusi skor individu diperoleh dari perbedaan skor

intraindividual pada dua test dijadikan sebagai skor pengukuran yang ingin dicari

reliabilitasnya, d = X j - X k , formula hitungnya adalah (Mosier, 1943) :


r jj'  rkk'  r jk'
r dd’ =
2 ( 1  r jk )

Keterangan :

r dd’ = Koefisien reliabilitas skor-perbedaan

r jj’ = Koefisien reliabilitas test X j

r kk’ = Koefisien reliabilitas test X k

r jk = koefisien korelasi X j dan X k

Contoh :

Subjek Test d
X1 X2 (X1 - X2)
A 42 16 26
B 56 20 36
C 44 16 28
D 49 18 31
E 50 18 32
F 52 19 33
G 43 17 26
H 48 18 30
I 41 14 27
J 54 21 33
N = 10  X = 479 177
 X2 = 23191 3171
 X1 X2 = 8569
Tabel 2.9 Distribusi skor-perbedaan d = X1 - X2

Korelasi antara X1 dan X2 yang dihitung dengan tehnik korelasi product moment adalah r

12 = .935

Untuk contoh perhitungan dengan data tabel 2.9, diandaikan bahwa koefisien

reliabilitas X1 adalah r 11’ = .96 dan koefisien reliabilitas X2 adalah r 22’ = .94.

Maka koefisien reliabilitas skor-perbedaan d = X1 - X2 dihitung sebagai

berikut :

.96  .94  2 (.935 )


r dd' 
2 (1  .935 )

r dd'  .23
Reliabilitas Ratings

Ratings adalah pemberian skor subjektif terhadap aspek tertentu berdasarkan

observasi langsung atau tidak langsung. Dikarenakan unsur subjektivitas ini, naka

sebaiknya prosedur rating dilakukan oleh lebih dari satu orang raters.

Koefisien reliabilitas rating dapat dicari dengan melakukan rating ulangdan

mengkorelasikan hasil kedua ratings tersebut ( biasanya dengan tehnik korelasi rank-

order ). Jadi semacam prosedur replikasi oleh rater yang sama terhadap subjek yang

sama. Tentu saja prosedur ini, sebagaimana juga prosedur test-retest, akan membawa

resiko besarnya varians kesalahan dikarenakan faktor memory pada pihak rater.

Umumnya cara yang lebih disukai adalah dengan menggunakan beberapa raters

yang berbeda. Sekalipun akan tetap ada sumber varians kesalahan diantara para raters,

tetapi dapat diperkirakan bahwa kesalahan ini akan lebih kecil daripada varians

kesalahan dalam prosedur rating-ulang oleh seorang rater.

Ebel (1951) memberikan rumus guna menghitung estimasi reliabilitas ratings bila

terdapat banyak k raters yang melakukan rating terhadap N subjek. Rumus ini akan

menghasilkan koefisien yang pada dasarnya merupakan rata-rata inter korelasi ratings

diantara semua kombinasi pasangan raters yang mungkin dibuat, dan merupakan mean

reliabilitas untuk satu rater.

S S2  S 2
r
r 11' 
S S  ( k  1) S 2
2
r

Keterangan ;

r 11' = Koefisien reliabilitas rating dari seorang rater.

S S2 = varians antar subjek, MkS

S r2 = varians residu, varians interaksi subjek (s) dan raters (t) yaitu Mkts

k = banyanya raters.

Contoh :
Berikut adalah hasil ratings terhadap 10 orang subjek yang dilakukan oleh rater

I, II, dan III.

Subjek Rater  XS  X2
I II III S
A 4 3 2 9 29
B 5 6 5 16 86
C 7 7 8 22 162
D 9 8 9 26 226
E 4 5 6 15 77
F 7 5 4 16 90
G 7 7 7 21 147
H 9 6 8 23 181
I 3 4 5 12 50
J 6 5 6 17 97
N = 10
 Xt 61 56 60  X = 177
 X2 411 334 400  X2 = 1145
j

Tabel 2.10 Hasil ratings terhadap 10 orang subjek oleh 3 orang raters.

Jumlah kuadrat total, Jk T

(177) 2
= 42 + 32 + 22 + ….. + 62 - = 100.7
( 3) (10 )
dbT = (10) (3) - 1 = 29

Jumlah kuadrat antar raters, Jk t

 61  56  60 
2 2 2 (177 ) 2
10 30
Jk t = 1.4

db t = 3 - 1 = 2

Jumlah kuadrat antar subjek, Jk S

 9  16  ....... 17 
2 2 2 (177 ) 2
9 30
Jk S = 82.7

db S = 10 - 1 = 9

Jumlah kuadrat residu, Jk S = 100.7 - 1.4 - 82.7 = 16.6

db S = 9 x 2 = 18

Hasil perhitungan ini kemudian dimasukkan kedalam tabel ringkasan anava.


Variasi Jk db Mk
Total 100.7 29 -
Raters 1.4 2 -
Subjek 82.7 9 9.189
Residu 16.6 18 .922

Tabel 2.11 Ringkasan anava guna perhitungan reliabilitas ratings.

Sehingga koefisien reliabilitas dari seorang rater adalah :

r 11'  9.189  .922


9.189  ( 3 1) (.922 )

r 11'  .749

Sedangkan kalau ingin dihitung koefisien reliabilitas rata-rata dari k raters,

rumusnya adalah :

S s2  S 2
r
r kk' 
Ss2

Sehingga dengan 3 orang raters dari data tabel 2.10 kita peroleh :

9.189  .922
r kk' 
9.189

r kk'  .899

Formula Kristoff untuk Test Belah-Tiga.

Dalam prosedur single trial administration kadang-kadang ditemui kasus dimana

jumlah item test adalah ganjil. Seringkali dimungkinkan untuk membelah test tersebut

menjadi tiga bagian. Setiap bagian atau belahan tidak perlu sama panjang tetapi harus

diasumsikan sebagai memiliki isi yang homogen (congeneric)

Kristoff (1974) merumuskan formulanya dengan melakukan estimasi terhadap

varians skor-murni sebagai berikut :

2 
S 12 S 13 S 12 S 23 S 13 S 23
ST    2 (S12  S13  S 23 )
S 23 S 13 S 12

Keterangan :
S T2 = Varians skor-murni

S Jk = Kovarians belahan Y j dan belahan Y k

Kemudian sebagaimana rumusan reliabilitas, maka

r xx'  S T
2 / S2
X

Contoh : S ? = ( Tidak tahu )

Subjek Nomor item Belahan


1 2 3 4 5 6 7 8 9 10 11 12 Y1 Y2 Y3 X
A 1 1 0 1 2 2 2 1 2 1 1 2 5 5 6 16
B 1 1 0 0 2 2 1 2 2 2 1 1 4 6 5 15
C 0 0 1 1 2 2 0 0 1 1 2 2 2 4 6 12
D 0 0 0 0 1 1 1 1 2 2 2 2 3 4 5 12
E 1 1 0 0 1 1 0 0 2 2 1 1 3 3 4 10
F 2 2 1 1 0 0 2 2 1 1 0 0 6 4 2 12
G 2 2 2 2 2 2 1 1 1 1 1 1 6 6 6 18
H 0 1 0 0 1 0 2 2 1 1 0 0 3 4 1 8
I 0 0 0 1 1 1 1 2 2 1 1 0 3 4 3 10
J 2 1 2 0 0 2 2 1 1 0 1 0 4 3 5 12
N =10  Y1 = 39 43 43  Y2 = 61
2 2
Y = 169 195 213  Y = 399
1 2
 Y1 Y2 = 174  Y1 Y3 = 169  Y2 Y3 = 191
Tabel 2.12 Distribusi skor item dengan belah-tiga dimana Y1 adalah
Item 1 + 4 + 7 + 10. Y2 adalah item 2 + 5 + 8 + 11 dan
Y3 adalah item 3 + 6 + 9 + 12

Komputasi kovarians antar ketiga belahan menghasilkan.

S12 = .63, S13 = .13, dan S23 = .61.

Varians skor-murni kemudian dapat dihitung

2  ( .63 ) ( .13 ) ( .63 ) ( .61 ) ( .13 ) ( .61 )


ST    2 (.63  .13  .61 )
.61 .13 .63
2  5.9653 .
ST

Varians X, S 2X diperoleh dari


( 125 ) 2
1645 
S 2X  10  8.25
10
Reliabilitas test dihitung sebagai

r XX’ = 5.95653 / 8.28

r XX’ = .722

Reliabilitas Belah - Dua dengan Panjang Berbeda.

Kadang-kadang suatu test tidak dapat dibelah menjadi lebih dari dua belahan,

sedangkan membagi test tersebut menjadi dua belahan yang sama panjang tak dapat

dilakukan. Pembelahan atas dua belahan yang tak sama panjang ini masih dapat

menghasilkan bagian yang isinya homogen, namun karena asumsi  - equivalent tak

terpenuhi, maka estimasi dengan koefisien  tak dapat diterapkan.

Untuk itu, Feldt (1975) memberikan rumusnya sebagai berikut :

4 S Y1 Y2
r xx' 
 2 2  2
 S y1  S Y2 
S2  



X S2
 X 
 

Keterangan :

S Y Y = kovarians belahan Y1 dan Y2.


1 2
2
Sy = varians belahan Y j ; j = 1,2
j
S2 = varians skor total X
X

Contoh :
Subjek Nomor item Belahan
1 2 3 4 5 6 7 8 9 10 11 12 13 Y1 Y2 X
A 1 1 0 1 2 2 2 1 2 1 1 2 1 9 8 17
B 1 1 0 0 2 2 1 2 2 2 1 1 2 9 8 17
C 0 0 1 1 2 2 0 0 1 1 2 2 1 7 6 13
D 0 0 0 0 1 1 1 1 2 2 2 2 1 7 6 13
E 1 1 0 0 1 1 0 0 2 2 1 1 2 7 5 12
F 2 2 1 1 0 0 2 2 1 1 0 0 0 6 6 12
G 2 2 2 2 2 2 1 1 1 1 1 1 1 10 9 19
H 0 1 0 0 1 0 2 2 1 1 0 0 2 6 4 10
I 0 0 0 1 1 1 1 2 2 1 1 0 1 6 5 11
J 2 1 2 0 0 2 2 1 1 0 1 0 0 8 4 12
N =10  Yj = 75 61  X = 136
2
Y = 581 399
j  X2 =
1930
 Y1 Y2 = 475
Tabel 2.13 Distributor skor item X dengan belahan Y1 adalah item bernomor ganjil (7
item) dan belahan Y2 adalah item bernomor genap (6 item).

Kovarians kedua belahan adalah s Y1 y2 = 1.75

Varians belahan masing-masing diperoleh :

S2Y1  1.85, S2Y2  2.69

Sedangkan varians skor total X, S2X  8.04 sehingga


4 (1.75 )
r xx' 
 1.85  2.69  2
8.04   
 8.04 

r xx'  .872 .

D. Kesalahan Standard Pengukuran.

Untuk menafsirkan kecermatan pengukuran skor individual dalam test, pada test

psikologi yang standard umumnya disertakan pula informasi mengenai besarnya

kesalahan standard pengukuran (standard error of measurement). Angka kesalahan

standard pengukuran ini dapat dipakai sebagai dasar melihat reliabilitas test tersebut bila

kita mempunyai varians skor-tampak dari kelompok : subjek yang bersangkuta.

Derivasinya adalah sebagai berikut :

ρ xx'  1  σ 2E / σ 2X

σ 2X  σ 2E
ρ xx' 
σ 2X

σ 2X ρ XX'  σ 2X  σ 2E

σ 2E  σ 2X  σ 2X ρ XX'

σ 2E  σ 2X ( 1  ρ XX' )

σE  σX 1  ρ XX'
Dalam aplikasi praktisnya, kesalahan standard pengukuran ini disimbolkan oleh

sE .

SE  SX 1  r XX'

Dimana :

S X = Deviasi standard distribusi skor X


r XX’ = Koefisien reliabilitas test X

Dengan menetapkan taraf signifikansi tertentu, dapatlah dibuat suatu interval

kepercayaan dalam mengestimasi skor-murni subjek yaitu :

X - ZC . SE  T  X + ZC . SE

Dimana :

X = Skor-tampak yang diperoleh subjek pada test.


Z C = Nilai kritis dari tabel deviasi normal standard pada taraf signifikansi yang
dikehendaki.
T = Skor-murni.
S E = Kesalahan standard pengukuran.

Contoh :

Suatu test yang mempunyai reliabilitas r XX’ = .80 dengan deviasi standard skor

X sebesar S X = 4.0 akan mempunyai kesalahan standard pengukuran sebesar :

SE  4.0 1  .80
SE  1.789

Untuk estimasi skor-murni subjek, bila dikehendaki taraf kepercayaan 95% maka

nilai kritis ZC dilihat pada tabel deviasi normal standard untuk harga p = .025 (taraf

kepercayaan 95% sama dengan taraf signifikansi 5% atau p = .05. Untuk kedua ujung

distribusi maka p = .05 ini harus dibagi dua masing-masing sebesar p = .025 ).

Dalam contoh ini ternyata nilai ZC adalah 1.96.

Dengan demikian, bila seorang subjek mendapat skor-tampak X = 24 , misalnya

maka interval kepercayaan dalam mengestimasi skor-murninya adalah :

24 - 1.96 (1.789)  T  24 + 1.96 (1.789)


20.494  T  27.506

Interprestasi terhadap interval ini adalah bahwa pada kelompok subjek tersebut ,

diantara seratus kejadian skor X = 24 hanya ada 5 peluang dimana skor-murninya lebih

kecil dari 20.494 atau lebih besar dari 27.506.

Ada dua hal yang ditunjukan oleh interval semacam ini. Pertama adalah

besarnya variabilitas yang mungkin terjadi bila dilakukan test ulang, dan kedua adalah

sebaran skor yang mungkin mencakup skor-murni subjek.

Untuk tidak menyesatkan, maka interval kepercayaan ini harus dibuat atas

terpenuhinya beberapa asumsi, yaitu :

a) Asumsi-asumsi yang berlaku bagi classical treu-score theory.


b) Asumsi normalitas distribusi kesalahan pengukuran, dan,
c) Asumsi bahwa SE adalah sama bagi semua subjek ( asumsi homoscedasticity ).
3. VALIDITAS

Validitas didefinisikan sebagai ukuran seberapa cermat suatu test melakukan

fungsi ukurnya. Test hanya dapat melakukan fungsinya dengan cermat kalau ada

“sesuatu” yang diukurnya. Jadi untuk dikatakan valid, test harus mengukur sesuatu dan

melakukannya dengan cermat.

Apabila kita ingin mengetahui berat sebuah cincin emas, maka kita harus

menggunakan timbangan emas agar hasil ukur itu dapat dapat dikatakan valid. Sebuah

timbangan beras memang mengukur “beras” tetapi tidak cukup cermat guna mengukur

berat emas. Karena itu sebuah timbangan beras tidak valid guna mengukur berat emas.

Demikian pula bila kita ingin menghitung waktu tempuh yang kita perlukan dari suatu kota

ke kota lainnya dengan mengendarai mobil, sebuah jam tangan biasa adalah valid untuk

digunakan. Tetapi jam tangan yang sama tidak cukup valid guna mengukur waktu yang

diperlukan seorang atlit pelari cepat dalam menempuh jarak 100 meter, karena kita

memerlukan unit waktu terkecil sampai pada pecahan detik.

Menggunakan alat ukur yang memang berfungsi mengukur sesuatu aspek tetapi

tidak dapat menghasilkan hasil ukur yang teliti akan menimbulkan varians kesalahan.

Suatu alat ukur yang validitasnya tinggi akan mempunyai varians kesalahan yang kecil

sehingga kita dapat percaya bahwa angka yang dihasilkannya merupakan angka yang

sebenarnya. Inilah yang dalam classical true-score theory diartikan sebagai validitas

intrinsik yaitu akar kuadrat rasio varians skor-murni dan varians skor-tampak atau akar

kuadrat reliabilitas, r XY  σT
2 / σ2 .
X

Dalam hal test psikologi, validitas seperti yang digambarkan diatas adalah lebih

sulit dicapai. Pengukuran yang menyangkut aspek sosial-psikologis mempunyai lebih

banyak sumber varians-kesalahan daripada pengukuran aspek fisik. Kita hampir tidak

pernah dapat yakin bahwa validitas intrinsik telah tercapai, atau bahwa test yang kita

gunakan telah tepat dan cermat untuk mengukur aspek yang ingin kita ukur.

Sebagaimana halnya pada pengujian reliabilitas, apa yang dapat kita lakukan adalah
mengadakan estimasi dengan cara yang benar terhadap ketepatan dan kecermatan test

dalam melakukan fungsinya. Dengan tehnik tertentu kita mencoba melihat aspek apakah

yang diukur oleh suatu test, dan seberapa jauh kita dapat mempercayai hasilnya.

Lebih lanjut pengertian validitas suatu test tidaklah berlaku umum untuk semua

tujuan ukur. Sebuah test biasanya hanya menghasilkan ukuran yang valid untuk satu

tujuan ukur tertentu. Karena itu predikat valit seperti dalam pernyataan “test in valid”

tidaklah benar. Pernyataan valid harus diiringi oleh keterangan yang menunjukan kepada

tujuan, yaitu valid untuk mengukur apa. Lebih jauh, valid bagi siapa. Karena itu suatu test

yang sangat valid guna pengambilan suatu keputusan dapat sangat tidak berguna dalam

pengambilan keputusan lainnya.

Perlu pula dipahami bahwa dalam proses validasi, sebetulnya kita tidak bertujuan

melakukan validasi test tetapi malakukan validasi terhadap interprestasi data yang

diperoleh oleh prosedur tertentu (Cronbach, 1971).

A. Tipe-tipe Umum.

Tergantung pada pendekatannya, validitas dapt dibagimenurut berbagai tipe.

Berikut ini akan diikuti tipe-tipe validitas menurut yang ditetapkan oleh American

Psychological Association yaitu content validity, construct validity, dan criterion-related

validity.

1. Content validity.

Validasi content suatu test harus menjawab pertanyaan “sejauh mana item-item

test itu mencakup keseluruhan situasi yang ingin diukur oleh test tersebut”.

Sejauhmana suatu test memiliki content validity ditetapkan menurut analisis

rasional terhadap isi test, yang penilaiannya didasarkan atas pertimbangan subjektif

individual. Prosedur validitasnya tidak melibatkan perhitungan statistik apapun.

Terdapat dua macam tipe content validity, yaitu face validity dan logical validity.

Face Validity.

Face validity tercapai apabila pemeriksaan terhadap item-item test memberikan

kesimpulan bahwa test tersebut mengukur aspek yang relevan. Dasar penyimpulannya
lebih banyak diletakkan pada common sense atau akal sehat. Kesimpulan ini dapat

diperoleh oleh siapa saja walaupun tentu tidak semua orang diharapkan setuju

menyatakan bahwa test A , misalnya memiliki content validity yang baik. Akan tetapi

seorang yang ingin menggunakan test tersebut harus punya keyakinan terlebih dahulu

bahwa dari segi content, test itu adalah valid. Kalau tidak, maka kuranglah alasan untuk

tetap memakainya.

Validitas tipe ini tentu tidak menjadi hal yang perlu dirisaukan apabila suatu test

telah terbukti valid lewat pengujian validitas tipe lain yang lebih dapat diandalkan.

Dapatlah dikatakan bahwa face validity adalah tipe validitas yang paling rendah

signifikansinya.

Logical Validity.

Logical validity disebut juga sampling validity. Tipe validitas ini menurut batasan

yang seksama terhadap kawasan (dominan) perilaku yang diukur dan suatu desain logis

yang dapat mencakup bagian-bagian kawasan perilaku tersebut.

Sejauh mana tipe tipe validitas ini telah terpenuhi dapat dilahat dari cakupan

item-item yang ada dalam test. Apakah keseluruhan item tersebut telah merupak sampel

yang representatif bagi seluruh item yang mungkin dibuat, ataukah item tersebut berisi

hal-hal yang kurang relevan dan meninggalkan hal-hal yang seharusnya menjadi isi test.

Dalam penyusunan test prestasi, logical validity sangat penting artinya. Salah

satu cara agar tuntutan validitas ini dapat terpenuhi adalah dengan menyusun suatu

perencanaan isi test menurut semacam blue-print yang disandarkan pada rencana

pelajaran atau program latihan yang akan diuji. Blue-print test dapat membantu agar

penulisan item tidak meninggalkan hal penting yang harus ada dalam test dan sekaligus

menjaganya agat tetap berada dalam batas cakupan isi yang relevan.

2. Construct Validity.

Construct validity menunjuk sejauh mana suatu test mengukur theoretical

construct yang menjadi dasar penyusunan test itu. Pengukuran construct validity

merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai
trait (sifat) yang diukur. Namun pada situasi-situasi tertentu adanya bukti construct

validity mungkin diperlihatkan.

Campbell dan Fiske (1959) mengembangkan suatu pendekatan terhadap

construct validity yang mereka sebut multi trait-multimethod validity. Validasi dengan

multi-trait multi-method digunakan dengan mengenakan lebih dari satu macam metode

untuk mengukur lebih dari satu macam trait.

Dengan menggunakan matriks validitas maka interkorelasi antar trait dan antar

metode dapat dilihat, dimana korelasi antar setiap variabel dengan dirinya sendiri tidak

dituliskan sama dengan 1.00, tetapi diganti oleh koefisien reliabilitasnya.

Secara ideal, koefisien reliabilitas yang ada pada diagonal matriks harus tinggi.

Demikian pula koefisien korelasi antar metode yang mengukur dua macam trait yang

berbeda, harus rendah.

Bila huruf melambangkan trait yaitu A dan B dan angka melambangkan metode,

yaitu 1 dan 2 , maka gambar berikut memperlihatkan matriks ideal validitas multitrait-

multimethod dengan cara metode untuk mengukur dua macam trait.

A1 B1 A2 B2

A1 r A1A1(T) r A1B1(R) r A1A2(T) r A1B2(R)

B1 r B1B1(T) r B1A2(R) r B1B2(T)

A2 r A2A2(T) r A2B2(R)

B2 r B2B2(T)
Gambar 3.1 Matriks ideal multitrait – multimethod validity.

Keterangan :

A1 dan A2 adalah dua metode berbeda yang mengukur satu macam trait yang

sama yaitu A.

A1 dan B1 adalah dua macam trait berbeda yang diukur oleh satu metode yang

sama yaitu metode 1.

T = Tinggi

R = Rendah
Korelasi antara setiap variabel dengan dirinya sendiri, yaitu r A1A1, r B1B1, r A2A2,

dan r B2B2 masing-masing dinyatakan oleh koefisien reliabilitas setiap variabel (dalam

diagonal).

Dari gambar 3.1 dapat ditunjukan dua tipe validitas, yaitu convergent validity dan

discriminant validity. Adanya convergent validity diperlihatkan oleh korelasi-korelasi yang

tinggi antara skor test yang mengukur trait yang sama dengan metode yang berbeda

(dalam hal ini adalah r A1A2 dan r B1B2). Adanya discriminant validity diperlihatkan oleh

korelasi-korelasi yang rendah diantara skor test yang mengukur trait berbeda ( r A1B1, r

A1b2, r A2B1), terutama bila trait yang berbeda itu diukur oleh metode yang sama ( r A1B1

dan r A2B2). Koefisien korelasi yang rendah ini menunjukan bahwa memang test-test

tersebut mempunyai daya beda yang baik dan mengukur trait yang spesifik.

Tipe lain dari construct validity adalah factorial validity. Suatu faktor adalah

variabel hipotesis yang mempengaruhi skor pada satu atau lebih variabel variabel yang

tampak. Factorial validity ditegakkan melalui suatu prosedur statistika yan sophisticated

yang disebut analisis faktor. Penelaahan sekilas terhadap matriks korelasi antar faktor

tidaklah cukup untuk menjadi dasar validasi faktorial.

3 Criterion Related Validity.

Prosedur guna mencapai creterion-related validity menghendaki adanya kreteria

eksternal yang dapat dihubungkan dengan skor test yang diuji validitasnya. Kretia adalah

variabel perilaku yang akan diprediksi oleh skor test. Koefisien korelasi antara skor test

(X) dengan skor kreteri (Y) merupakan koefisien validitas yang disimbolkan oleh  XY.

Koefisien ini dapat diperoleh melalui dua prosedur yang berbeda dari segi waktu

pengambilan data (skor) kriterianya, masing-masing akan menghasilkan predictive

validity dan concurrent validity.

Predictive validity diperoleh apabila pengambilan skor kreteria tidak bersamaan

dengan pengambilan skor test. Setelah subjek dikenai test yang akan dicari validitas

prediktifnya, lalu diberikan tenggang waktu tertentu sebelum skor kreteria diambil dari

subjek yang sama. Umpamanya, untuk melihat validitas prediktif test masuk perguruan
tinggi, maka skor kreterianya dapat diambil dari indeks prestasi yang dicapai setelah

beberapa semester atau beberapa tahun kemudian. Koefisien korelasi antara skor test

masuk perguruan tinggi dan indeks prestasi tersebut merupakan koefisien validitas

prediktif test masuk. Contoh lain adalah bila kita mengkorelasikan suatu test bakat dalam

penempatan karyawan deng performansi kerjanya setelah satu atau dua tahun. Dalam

hal ini maka performansi kerja merupakan kreteri untuk melihat validitas prediktif test

bakat.

Prosedur validasi prediktif memerlukan waktu yang banyak dan mungkin pula

biaya yang besarkarena prosedur ini pada dasarnya bukan pekerjaan yang dianggap

selesai setelah sekali melakukan analisis, melainkan lebih merupakan kontinyuitas dalam

mengembangkan test sebagai prediktor. Sebagaimana pada umumnya prosedur validitas

jenis lain, validasi prediktif harus diiringi oleh peningkatan kualitas item test berupa

modifikasi dan pengembangan item-item baru, agar prosedur yang dilakukan itu

mempunyai arti yang lebih besar dan tidak menjadi sekedar pengujian validitas secara

deskritif saja.

Apabila skor test dan skor kreterianya diperoleh dalam waktu yang relatif sama,

maka koefisien korelasi antara kedua variabel itu merupakan koefisien concurrent

validity. Misalnya dalam penyusunan suatu skala self-concept yang baru, kita dapat

menguji validitasnya dengan mengenakan skala tersebut bersama skala self-concept lain

yang sudah standard dan valid, umpamanya TSCS (Tennessee Self-Concept Scale).

Korelasi antara skala yang baru disusun dan skala TSCS sebagai kreterianya ini

merupakan koefeisien concurrent validity skala yang baru.

Problem utama dalam penegakan criterion-related validity biasanya menyangkut

masalah menemukan kreteria validasi yang tepat. Tidak selalu kreteria itu dapat

ditentukan dengan mudah karena konsepsi mengenai trait yang diukur oleh test dan oleh

kreteria seringkali tidak sama. Pada validitas prediktifpun para ahli tidak selalu

sependapat mengenai apakah suatu variabel adalah tepat dipakai sebagai kreteria guna

melihat daya prediksi test yang sedang diuji validitasnya.


B Koefisien Validitas dan Variasi Skor-Murni Prediktor.

Telah ditunjukan dalam pembicaraan mengenai reliabilitas bahwa besarnya

koefisien reliabilitas tergantung antara lain pada variasi skor-murni. Sekarang akan kita

lihat efek variasi tersebut terhadap koefisien validitas.

Sebagai pegangan praktis, dapat dikatakan bahwa validitas diuji dengan cara

menghitung kecocokan antara skor-tampak test dan skor kreterianya. Akan tetapi, dalam

berbagai hal sering terjadi apa yang disebut restriksi sebaran (restrictionof range) baik

pada distribusi skor kreteria.

Pada contoh test seleksi masuk perguruan tinggi, setiap calon mahasiswa

dikenai test masuk yang pada dasarnya adalah prediktor terhadap keberhasilan belajar

mereka setelah menjadi mahasiswa. Mereka yang mencapai skor tertentu dapat diterima

dan dibolehkan belajar diperguruan tinggi, sedangkan sisanya ditolak. Karena test masuk

tersebut dirancang guna membedakan antara mereka yang memiliki kemungkinan

terbesar untuk berhasil dalam belajar diperguruan tinggi dan yang tidak, maka

selayaknya bila kriteria yang dipakai sebagai indikator keberhasilan itu adalah indeks

prestasi (IP) mereka setelah beberapa semester menjadi mahasiswa. Hanya saja, karena

tidak semua calon mahasiswa dapat diterima maka skor kriteria hanya dapat diperoleh

dari mereka yang diterima menjadi mahasiswa saja, jadi merupakan sampel yang relatif

homogen karena hanya diambil dari ujung distribusi skor test masuk. Jadi, korelasi antara

skor prediktor dan skor kreteria hanya dapat dihitung berdasarkan data sampel yang

relatif terbatas heteroginitasnya.

Hal inilah yang disebut restriksi sebaran.


Crilerion
Test
Gambar 3.2 Restriksi sebaran.

Bagaimana efek restriksi sebaran ini terhadap koefisien validitas ? Bila skor

prediktor adalah X dan skor kreteria adalah Y, maka korelasi X dan Y adalah r XY dan

kesalahan standard estimasi (standard error of estimate) dilukiskan sebagai :

SY . X  SY 1  rXY
2

2
rXY  1  S2Y . X / S2Y

Dimana :

SY . X = Kesalahan standard estimasi X terhadap Y, yaitu deviasi standard

distribusi Y untuk harga X tertentu.

SY = Deviasi standard skor kreteria Y (distribusi marginal)

r XY = Koefisien korelasi antara prediktor X dan kreteria Y.

Dengan asumsi homoscedasticity, maka harga S 2Y akan mengecil akibat

restriksi sistematis yang terjadi, sedangkan harga S 2Y . X tidak terpengaruh. Karena itu

komponen S2Y. X / S2Y akan membesar rX


2
.Y
akan mengecil. Jadi koefisien validitas

rXY menjadi rendah. Secara umum dapat dikatakan bahwa restriksi sebaran yang

menjadikan variasi skor-murni prediktor mengecil akan menghasilkan underestimasi

terhadap koefisien validitas prediktif yang sesungguhnya.

C Koreksi Terhadap Atenuasi.

Korelasi antara skor suatu test dengan skor lain tidak dapat lebih tinggi daripada

korelasi skor test itu dengan skor murninya sendiri. Telah kita ketahui bahwa kuadrat

korelasi skor test dengan skor-murninya merupakan reliabilitas test itu, sedangkan
korelasi skor test dengan skor test lain yang merupakan kreteria merupakan koefisien

validitas test tersebut. Dengan kata lain, reliabilitas test akan mempengaruhi validitasnya.

Bila XT adalah korelasi skor test dengan skor-murninya dan XX’ adalah

reliabilitas test X , sedangkan Y adalah skor test lain sebagai kriteria, maka XY  XT

atau XT  ρ XX'

Kalau skor test X dan skor kreteria Y sama-sama kurang reliabel, maka koefisien

validitas XY akan lebih rendah daripada semestinya andaikan test X dan kreteria Y

sama sekali tidak mengandung kesalahan pengukuran. Penurunan korelasi antara kedua

pengukuran yang disebabkan kekurangreliabelan keduanya ini disebut efek atenuasi

(attenuation).

Dalam clasical true-score theory, korelasi antara skor-murni test dan skor-murni

kreteria ( TxTy ) dianggap sebagai koreksi terhadap atenuasi, sebagaimana dirumuskan

pertama kali oleh Spearman (1904).

ρ XY
ρ TxTy 
ρ XX' ρ YY'

Keterangan :

 XY = Koefisien validitas X tanpa koreksi terhadap atenuasi.

 XY = Koefisien reliabilitas X

 XY = Koefisien reliabilitas Y

Sebagai contoh, test mempunyai koefisien reliabilitas r XX’ = .88 dan kreteria Y

mempunyai koefisien reliabilitas r YY’ = .84. Koefisien korelasi antara X dan Y, diketahui

sebesar r XY = .67. Koefisien ini merupakan koefisien validitas X yang besarnya

dibatasi oleh ketidaksempurnaan reliabilitas X dan Y. Estimasi terhadap korelasi skor-

murni TX dan TY adalah :

r TxTy  .67
(.88) (.84)

r TxTy  .78
Semakin tinggi reliabilitas test X dan kreteria Y, maka r XY akan semakin

mendekati r TxTy. Pada kasus ekstrim dimana reliabilitas X dan Y adalah sempurna maka

harga r XY akan sama dengan harga r TxTy.

Koreksi terhadap atenuasi dikarenakan ketidak reliabelan salah satu variabel

saja, dapat dilakukan dengan formula :

r XY r XY
r XTy  atau r TxY 
r YY' r XX'

r XTy adalah koreksi untuk atenuasi akibat ketidakreliabelan skor kreteria Y dan r

TxY adalah koreksi untuk atenuasi akibat ketidakreliabelan skor test X.

D Validitas Dan Panjang Test.

Bilamana panjang test ditingkatkan dengan menambahkan sejumlah item baru

yang isinya pararel dengan isi test semula, maka reliabilitas test akan meningka. Hal ini

sudah dibicarakan pada bab terdahulu.

Test yang reliabilitasnya meningkat akan bertambah pula tinggi validitasnya.

Semakin besar proporsi varians skor-tampak yang merupakan varians skor-murni

(artinya, semakin reliabel) maka semakin besar pula proporsi varians yang sama-sama

dimiliki oleh test dan kreterianya (artinya, semakin valid).

Telah diketahui bahwa validitas maksimum test yang mempunyai reliabilitas r XX’

adalah r XX' . Dengan bertambah panjangnya test sebesar J kali panjang semula,

maka validitas maksimumnya dapat dilambangkan sebagai r XX' j sehingga rasio

antara validitas maksimum setelah penambahan dan sebelum penambahan item adalah :

r XYJ (maks) / r XY (maks)  r XX'J / r XX'

r XYJ (maks)  r XY (maks) r XX'J / r XX'

dimana :

r XYJ (maks) = Validitas maksimum setelah memperpanjang test menjadi J kali

jumlah item semula.


r XY (maks) = Validitas maksimum sebelum penambahan item.

r XX’J = Reliabilitas setelah penambahan item.

r XX’ = Reliabilitas sebelum penambahan item.

Apabila validitas dan reliabilitas test sebelum penambahan item diketahui, maka

estimasi terhadap validitasnya setelah penambahan item dapat dihitung dengan formula :

r XYJ  r XY J /  1  ( J - 1 ) r XX' 




Keterangan :

r XYJ = Koefisien validitas setelah penambahan item.

r XY = Koefisien validitas sebelum penambahan item.

r XX’ = Koefisien reliabilitas sebelum penambahan item.

J = Rasio jumlah item setelah dan sebelum penambahan.

Contoh :

Suatu test yang terdiri dari 50 item mempunyai reliabilitas r XX’ = .85 dan

koefisien validitas r XY = .76. Bila ditambahkan 25 item lagi, maka validitasnya akan

meningkat sebagai berikut :

Jumlah item setelah ditambah adalah 50 + 25 = 75.

J = 75 / 50 = 1 1 2

r XYJ  .76 11 2 / 1

 (11 2  1 ) .85 

r XYJ  .779

Jelaslah bahwa peningkatan validitas dengan menambahkan panjang test

menjadi 1 1 2 kali aslinya tidak banyak berarti. Hal ini benar terutama bagi test yang

sudah cukup panjang dan mempunyai koefisien validitas yang cukup tinggi. Efek

penambahan item terhadap peningkatan reliabilitas tampak lebih jelas daripada efeknya

terhadap peningkatan validitas.

Dalam tabel berikut ditunjukan contoh perbandingan peningkatan koefisien

validitas dan koefisien reliabilitas dengan menambah panjang test beberapa kali lipat.
J r XX’ r XY
1 .800 .500
2 .889 .527
3 .923 .537
4 .941 .542
5 .952 .545
6 .960 .547
Tabel 3.1 Estimasi koefisien reliabilitas dan koefisien validitas suatu test yang
mempunyai reliabilitas .800 dan validitas .500, bila panjangnya
ditingkatkan J kali.

Tampak dari tabel diatas bahwa koefisien validitas meningkat tidak secepat

koefisien reliabilitas bila test ditingkatkan panjangnya. Bila test diperpanjang 6 kali

panjang semula, dari tabel diatas terlihat bahwa koefisien reliabilitas meningkat dari .800

menjadi .960 , sedangkan koefisien validitas meningkat hanya dari .500 ke .547.

Peningkatan yang berarti umumnya akan terjadi bila test semula adalah test pendek dan

validitasnya tidak tinggi. Karena itu, dalam penyusunan test mencoba meningkatkan

validitas dengan cara menambah banyak item hanya memadai dilakukan bila test semula

memang masih mempunyai sedikit item dan rendah validitasnya.

E. Pendekatan Internal Consistency Dalam Validitas Item.

Pada tipe validitas predictive dan concurrent yang dikategorikan sebagai

criterion-related validity, kriteria yang digunakan adalah skor test atau skor pengukuran

lain yang disebut sebagai kriteria eksternal. Test atau pengukuran lain yang dijadikan

kriteria eksternal ini harus dapat menghasilkan skor yang vakid dan reliabel, barulah

dianggap layak untuk digunakansebagai kriteria validasi.

Dalam prosedur seleksi item pada test prestasi, berbagai skala sikap dan test

kemampuan lain; umumnya item-item dipilih menurut daya diskriminasinya. Daya

diskriminasi ini diperlihatkan oleh indeks atau koefisien yang dihitung menurut formula

tertentu.

Pada skala sikap model Likert, misalnya bila skor jawaban subjek telah dibagi

dua kelompok menjadi golongan “atas” dan golongan “bawah” menurut tingginya skor

total, maka indeks diskriminasi item dapat dihitung dengan t-test sebagai berikut :
XA  XB
ti 
s 2A s2
 B
nA nB

Dimana :

t i = Nilai t sebagai indeks diskriminasi item i

X A = Mean distribusi skor golongan “atas” yang biasanya diambilkan dari 25%

subjek yang mempunyai skor total tertinggi untuk item i.

X B = Mean skor subjek golongan “dibawah” untuk item i.

s 2A = Varians skor subjek golongan “atas” untuk item i.

s 2B = Varians skor subjek golongan “bawah” untuk item i.

nA = jumlah subjek golongan “atas”.

nB = jumlah subjek golongan “bawah”.

Harga t i yang diperoleh kemudian di konsultasikan pada tabel harga kritis t

dengan derajat kebebasan (db) = n A + n B - 2. Harga t i yang signifikan menunjukan

bahwa daya beda item itu dapat dianggap baik. Apabila jumlah subjek pada masing-

masing golongan “atas” dan golongan “bawah” lebih dari 25 orang, maka t i = 1.75 dapat

dianggap sebagai batas minimal indeks diskriminasi yang seharusnya (Allen L. Edward,

tt).

Cara seleksi item yang juga sering dilakukan pada berbagai bentuk pengukuran

adalah dengan menguji korelasi antara skor item dengan skor total. Dalam hal ini,

koefisien korelasi yang tinggi menunjukan kesesuaian antara fungsi item dengan fungsi

ukur test secara keseluruhan. Prosedur ini disebut validasi item dengan menggunakan

kreteria internal consistency. Sebagai kreterianya dapat digunakan skor total komponen

test (subtest) atau skor total keseluruhan test, tergantung apakah test tersebut terdiri atas

komponen yang independen satu sama lain atau terdiri atas komponen yang relatif

homogen.
Bila item test diberi skor dikotomi, yaitu 0 atau 1 , maka tehnik korelasi yang

digunakan adalah tehnik korelasi point biserial ( r


pb ).

X  Xt p
r pb  i
st q

Dimana :

X i = Mean skor subjek yang mendapat nilai 1 pada item i.

X t = Mean skor sebelum subjek.

s t = Deviasi standard skor seluruh subjek.

P = Proporsi subjek yang mendapat nilai 1 pada item i. Bila N adalah jumlah

seluruh subjek, maka p adalah jumlah subjek yang mendapat skor 1

pada item i dibagi oleh N.

q = 1 - p

Contoh :

Lihat data pada tabel 2.5 sebagai contoh akan dilihat validitas item nomor 2, jadi

i = 2.

Mereka yang mendapat nilai 1 pada item 2 adalah subjek D, E, H, dan I. Skor masing-

masing adalah 4, 10, 7, dan 8, sehingga mean skor mereka adalah :

X 2  ( 4  10  7  8 ) / 4  7.25

Mean skor keseluruhan subjek adalah X t = 59/10 = 5.9 dan deviasi standardnya

adalah s t = 2.343. Sedangkan p telah diketahui sebesar 4/10 atau .4 sehingga q =

.6

7.25  5.9 .4
r pb 
2.343 .6

r pb  .47
Apabila diinginkan perhitungan yang lebih cermat, hendaknya korelasi r pb

dihitung antara skor item dengan skor total yang telah dikurangi skor item. Kalau tidak,

maka r pb yang diperoleh sebenarnya merupakan koefisien yang tidak bersih karena skor

total sendiri berisi skor item yang sedang diuji validitasnya. Contoh komputasinya adalah

X 2  ( 3  9  6  7 ) / 4  6.25

X t  5.5 s t  2.156

6.25  5.5 .4
r pb 
2.156 .6

r pb  .28

Komputasi yang terakhir ini akan banyak artinya terutama bila test yang bersangkutan

mempunyai sedikit item. Bila item yang ada dalam test besar jumlahnya, maka

mengurangi skor total dengan skor item yang sedang diuji validitasnya tidak menjadi hal

yang penting.

Kalau skor item bukan dikotomi, tetapi dapat dianggap berskala interval, maka

tehnik korelasi product moment dapat digunakan.

Sebagai contoh, dapat dipakai data pada tabel 2.13. Validitas item nomor 1 diuji

dengan menghitung korelasinya dengan skor total X.

Diketahui :

 X1  9  X 2  15
1

X  136 X2  1930

 X1 X  132 N  10

Dimana :

X 1 = skor subjek pada item nomor 1.

X = Skor total subjek.


( 9 ) (136 )
132 
rX X  10
1    
 (9) 2   (136 ) 2 
 15    1930  
 10   10 
   

r X X  .408
1

Untuk korelasi akibat berikutnya skor item kedalam skor total, kemudian

dilakukan koreksi yang disebut the correction of item-total correlation for spurious overlap

(Guilford, 1956)

r' X X σ X  σ
i
r' X X  i
i
σ 2X  σ i2  2r X X σ σ X
i i

Dimana :

r X X = Koefisien korelasi antara item dengan total atau antara subtest


i

dengan total.

 i = Deviasi standard skot item atau skor subtest.

 X = Deviasi standard skor total.

Dari contoh data yang sama, deviasi standard skor item dan skor total dapat

dihitung.

s i = .69 dan s X = 8.04

Maka untuk korelasi akibat spurious overlap diperoleh :

(.408 ) (8.04 )  .69


r' X X 
i
(8.04 ) 2  (.69 ) 2  2 (.408 ) (.69 ) (8.04 )

r X X  .333
i

Koefisien korelasi antara item dan skor total merupakan indeks validitas item

dalam arti kesesuaian item dengan skor total dalam membedakan subjek yang mendapat

skor tinggi dan yang mendapat skor rendah. Koefisien korelasi yang relatif tinggi tentu

merupakan indikator kualitas item yang diinginkan. Apalagi kalau sebagian besaritem
dalam testmempunyai korelasi tinggi dengan skor total, hal demikian dapat pula dianggap

sebagai indikasi homogenitas item.

Namun tingginya korelasi antara item-item dengan skor total hendaknya jangan

sampai memberikan kesimpulan yang keliru bahwa test tersebut telah memenuhi kreteria

validitas intrinsiknya. Validitas dalam arti bahwa test tersebut benar melakukan fungsi

ukur yang seharusnya, belum ditunjukanoleh tingginya koefisien korelasi item-total saja.

Untuk mengetahui bahwa test memang mengukur apa yang seharusnya diukur olehnya,

maka analisis validitas dengan kreteria eksternal tidak dapat ditinggalkan. Apalagi kalau

test tersebut dimaksudkan sebagai alat diagnose aspek kepribadian atau aspek

kemampuan potensial yang dimiliki oleh individu.


4. KATA AKHIR

A. Memilih Tehnik Estimasi Yang Tepat.

Berbagai tehnik estimasi reliabilitas yang dikenakan pada data yang sama tidak

dapat diharapkan akan menghasilkan koefisien yang sama.

Perbedaan konsepsi yang melandasi atau ide dasar yang ada pada suatu tehnik

komputasi, sifat distribusi skor kelompok subjek, homogenitas item-item test, indikasi apa

yang ditunjukan oleh koefisien yang dihitung dengan tehnik tertentu, dan sebagainya,

semua akan berpengaruh terhadap hasil komputasi yang akan diperoleh. Oleh sebab itu,

agar tidak memperoleh estimasi yang menyesatkan, kita perlu memperhatikan sifat test

yang dihitung reliabilitasnya dan memahami indikasi yang bakal ditunjukan oleh tehnik

komputasi yang akan digunakan.

Koefisien alpha dan formula-formula Kuder-Richardson menghasilkan

underestimasi te5rhadap reliabilitas test karena koefisien yang didapatnya merupakan

batas terendah reliabilitasnya yang sebenarnya. Lagi pula, metode-metode ini hendaknya

hanya digunakan pada test yang berisi item-item homogen, karena koefisien alpha dan

koefisien Kuder-Richardson disamping menunjukan reliabilitas test juga dapat dianggap

indikator homogenitas item. Bila koefisien alpha dan formula Kuder-Richardson

diterapkan pada suatu test yang berisi berbagai macam traits, maka akan menghasilkan

koefisien yang rendah.

Spearman-Brown propechy formula hanya dapat dikenakan pada belahan test

yang pararel agar diperoleh estimasi reliabilitas yang cermat. Bila belahan-belahan

tersebut tidak pararel, maka underestimasi dan overestimasi terhadap reliabilitas sangat

mungkin terjadi.

Bila isi test adalah homogen, maka tehnik komputasi reliabilitas belah-tiga Kristoff

akan merupakan pilihan yang lebih menarik dibandingkan dengan menerapkan koefisien

alpha dengan tiga-belahan. Sedangkan apabila panjang test yang akan dibelah dua

adalah tidak sama, maka estimasi reliabilitas dapat dilakukan dengan formula Feldt.
Tehnik analisis varians Hoyt umumnya menghasilkan koefisien reliabilitas yang

tinggi, namun apabila item-item test tidak diskor dikotomi, maka tehnik ini seringkali

memberikan koefisien yang rendah.

Masalah memilih tehnik estimasi yang tepat untuk validitas test adalah lebih

sederhana. Karena tehnik korelasi menjadi hampir satu-satunya tehnik statistika yang

mendasari setiap perhitungan validitas, maka tipe validitas mana yang akan diuji dari

suatu test boleh dikatakan hanya ditentukan oleh tujuan penggunaan test itu sendiri.

Untuk mengungkapan aspek kepribadian, umumnya validitas construct menjadi

perhartian utama. Untuk test yang dimaksudkan guna memperoleh deskripsi terhadap

bakat ataupun kemampuan umum (intelegensi), maka validitas tipe concurrent akan perlu

ditegakkan. Bila test tersebut diperlukan dalam prediksi performansi, maka validitas

prediktifnya perlu diuji. Sedangkan validitas content sangat penting artinya pada

pemeriksaan kualitas test prestasi belajar.

Agak berbeda dengan prosedur estimasi reliabilitas yang cukup dilakukan

dengan satu tehnik komputasi yang tepat saja, pada estimasi validitas kadang-kadang

lebih dari satu tipe perlu diuji. Hal ini juga ada kaitannya dengan tujuan penggunaan test

yang bersangkutan.

B Berapa Tinggi Koefisien yang diinginkan ?

Sekalipun reliabilitas bukan satu-satunya informasi penting dalam menilai

kualitas test, namun tetap merupakan informasi yang tidak dapat ditinggalkan. Guilford

(1954) menyatakan bahwa kadang-kadang koefisien reliabilitas yang sangat tinggi dapat

menimbulkan rasa aman semu dalam diri pemakai test. Hal ini dikarenakan bobot faktor

dalam test itu merupakan fakta yang harus lebih diperhitungkan. Arti skor dan apa yang

dapat diprediksi oleh skor test itu terbatas semata-mata pada faktor-faktor relevan yang

ada didalamnya.

Pada umumnya test yang disusun sekarang ini lebih mementingkan aspek

internal consistency. Seberapa tinggi koefisien reliabilitas seharusnya, sukar dinyatakan

secara pasti. Tidak ada rumusan khusus yang menjadi batas kapan suatu koefisien
reliabilitas dapat dinyatakan cukup tinggi sebagai indikasi bahwa test yang bersangkutan

adalah reliabel. Sekedar menunjukan signifikansi koefisien reliabilitas yang dihitung

dengan tehnik korelasi, tidak merupakan jawaban atas terpenuhinya tingkat reliabilitas

yang layak.

Berbagai macam fungsitest menuntut tingkat reliabilitas minimal yang tidak sama.

Guna tujuan diagnosis dan prediksi, sesungguhnya test dituntut untuk mempunyai

koefisien reliabilitas setinggi mungkin. Namun kadang-kadang koefisien reliabilitas yang

rendahpun, misalnya r XX’ = .40 masih cukup berarti dalam hal-hal tertentu terutama bila

test yang bersangkutan dipakai bersama-sama dengan test lain dalam suatu perangkat

alat pengukuran.

Suatu keadaan dimana reliabilitas sangat penting artinya adalah bila kita

melakukan estimasi validitas prediktif. Skor yang dijadikan kreteria validasinya harus

disertai informasi mengenai reliabilitas, agar kita dapat mengetahui berapa efektifnya

prediksi yang dapat dilakukan (lihat pembicaraan mengenai koreksi untuk atenuasi)

Agaknya aturan main yang paling praktis adalah menyertakan informasi hasil

pengujian reliabilitas dan kesalahan standard pengukuran dalam test yang kita gunakan

agar mereka yang ingin menilai hasil pengukuran test tersebut atau yang ingin

menggunakan dapat mengevaluasi sendiri seberapa jauh ia dapat mengandalkan

kepercayaannya pada test tersebut dan apakah ia cukup puas dengan estimasi

reliabilitas seperti yang ditunjukkan oleh koefisien reliabilitas yang telah diperoleh.

Bagaimana besarnya koefisien reliabilitas harus diinterprestasikan, dalam hal ini

haruslah disadari bahwa pertama, reliabilitas test yang diestimasi dengan satu tehnik

pada suatu situasi dan sampel tertentu sangat mungkin tidak akan sama dengan hasil

estimasi oleh tehnik lain, dalam situasi lain, dan menggunakan sampel lain. Karena itu,

interprestasinya harus spesifik sebagai koefisien reliabilitas bagi sampel dan situasi

tertentu. Kedua, koefisien reliabilitas hanyalah mengindikasikan besarnya inkonsistensi

skor, bukan secara langsung menyatakan sebab-sebab inkonsistensi tersebut. Ketiga,


reliabilitas bukanlah segala-galanya, tetapi baru satu langkah dalam pengukuran

psikologi.

Sebagaimana dengan halnya reliabilitas, dalam interpretasi koefisien validitas

pun tidak ada rumusan khusus yang menyatakan bahwa koefisien validitas harus

menyapai angka tertentu agar dapat dinyatakan sebagai valid. Halnya saja dalam

mengestimasi validitas, umumnya tuntutan akan koefisien yang tinggi tidak begitu besar

seperti pada koefisien reliabilitas. Koefisien validitas yang tidak begitu tinggi biasanya

lebih dapat ditolelir daripada koefisien reliabilitas yang rendah. Hal ini sangat

memungkinkan disebabkan koefisien validitas pada dasarnya diperoleh dari korelasi test

dengan kreteria yang berupa ukuran lain, jadi tidaklah mudah untuk memperoleh validitas

yang tinggi.

Sesungguhnya dalam melihat koefisien validitas, sebaiknya tidak dipersoalkan

apakah koefisien yang dihitung dengan tehnik korelasi itu signifikan atau tidak

berdasarkan suatu harga kritis, akan tetapi interprestasinya dikembalikan kepada mereka

yang akan menggunakan hasil ukur tersebut. Mereka mungkin puas dengan koefisien

validitas tertentu, atau mungkin tidak dapat memberi toleransi bagi koefisien yang tidak

begitu tinggi.

Hal yang lebih penting untuk dipersoalkan adalah sejauh mana suatu test dapat

berguna dalam pengambilan keputusan. Suatu test yang menunjukan koefisien validitas

yang rendah pun mungkin masih dapat bermanfaatdalam hal-hal tertentu, misalnya

apabila hasil pengukuran test itu akan dipakai hanya untuk meletakkan subjek dalam

suatu jenjang kedudukan relatif pada suatu kelompok, atau dalam seleksi item guna

melihat daya diskriminasi item atau melihat konsistensiitem dengan tujuan test.

Hal tersebut hendaknya tidak untuk disalahartikan bahwa kita mudah memberi

toleransi pada koefisien validitas yang rendah, tetapi sebagai peganganpraktis bahwa

disamping usaha mencapai koefisien yang setinggi mungkin, haruslah disadari akan

keterbatasan validitas yang dapat dicapai oleh berbagai jenis dan tipe test, serta kriteria

yang dipakai dalam prosedur validitasnya.


Dengan demikian, pengujian reliabilitas dan validitas test serta penyertaan hasil

komputasi koefisien reliabilitas dan validitas dalam laporan mengenai suatu test tidak

saja merupakan justifikasi penggunaan test tersebut, tetapi juga menjadi dasar penilaian

test oleh para pemakai hasil ukur test tersebut.


REFERENSI

Allen, M. J. & Yen, W. M. Introduction to Measurement Theory Monterey : Brooks / Cole

Publishing Company, 1979.

Campbell, D.T & Fiske, D.W. Convergent and Discriminant Validition by the Multitrait-

multimethod Matrix. Psichological Bulletin, 1959, 56, 81 – 105.

Cronbach, L.J. Coefficient Alpha and Internal Structure of Tests. Psychometrika, 1951,

16, 297 – 334.

------- Test Validition. Dalam R. L. Thorndike (ed), Educational Measurement (2nd.ed),

Washington, D.C. : American council on Education, 1971.

Cureton, E. E. Validity. Dalam E. F. Lindquist (ed), Educational Measurement,

Washington, D.C. : American Council on Education, 1951.

Ebel, R. L. Estimation of the Reliability of Rantings, Psychometrika, 1951, 16, 407 – 424.

Edward, A. L. Technique of A:titude Scale Construction, New York : Appleton Century

Croft, INC, tt.

Feldt, L. S. Estimation of the Reliability of a Test Divided into Two Parts of Unequal

Length, Psycometrika, 1975, 40, 557 – 561.

Guilford, J. P. Psychometrika Method (2nd.ed), New York : Mc-Graw-Hill, 1954.

------- Fundamental Statistics in Psycology and Education (3rd.ed), New York : McGraw-

Hill , 1956.

Gulliksen, H. Theory of Mental Tests, New York : Wiley, 1950.

Hoyt, C. Test Reliability Obtained by Analysis of Variance, Psychometrika, 1941, 6, 153 –

160.

Kristoff, W, Estimation of Reliability and True Score Variance from a Split of a Test into

Three Arbitrary Parts Psychometrika, 1974, 39, 491-499.

Kuder, G, F. & Richardson, M. W, The Theory of the Estimation of Test Reliability,

Psychometrika, 1973, 2, 151 – 168.

Mosier, C. I, On the Reliability of a Weighted composite, Psycometrika, 1943, 8, 161 –

168.
Rulon, P.J, A Simplified Procedure for Determining the Reliability of a Test by Split-

Halves, Harvard Educational Review. 1939, 9, 99 – 103.

Spearman, C. The Proof and Measurement of Association between Two Things,

American Journal of Psychology, 1904, 15, 72 – 101.

Anda mungkin juga menyukai