Anda di halaman 1dari 60

1.

Test conceptualization
2. Test construction
3. Test try out
4. Item analysis
5. Test revision

(Cohen & Swerdlik, 2005)

1
Sebelum menyusun sebuah tes, perlu diperhatikan
pertanyaan-pertanyaan sbb:

 Apa yang ingin diukur oleh tes (review literatur & teori
yang mendasari konstruk)
 Apa tujuan tes? Untuk seleksi, penempatan, diagnosis,
konseling, prediksi?
 Apakah tes yang akan disusun memang dibutuhkan?
apakah sudah ada tes yang serupa sebelumnya
apa beda dan kelebihan tes yang akan disusun?
 Siapa yang akan menggunakan tes tersebut?
 Kepada siapa tes ini akan diberikan? (Karakteristik testee)
 Bagaimana tes diadministrasikan (individual, kelompok,
computer)
 Bagaimana format item yang ideal (B-S, PG, Likert scale
dll)
2
 Membuat item sesuai format yang
ditentukan sebelumnya

 Tentukan teknik penyekoran

3
 Diberikan kepada sejumlah subjek dengan
karakteristik yang sama dengan subjek yang
dituju

 Melakukan uji reliabilitas dan validitas

4
 Item-item dianalisis secara kualitatif dan
kuantitatif/empiris

5
 Dari hasil analisis item dilakukan revisi
terhadap tes

 Dilakukan lagi try out dan seterusnya


hingga diperoleh syarat tes yang baik
terpenuhi

6
RELIABILITAS (1)

PSIKOMETRI
DISKUSIKAN

Apakah tes yang diberikan pada


si A menggambarkan secara pasti
kondisi sesungguhnya dari A?
Jika tidak, faktor-faktor apa yang
menyebabkan hal tersebut?
Apakah artinya kita tidak bisa
mempercayai sepenuhnya hasil
dari tes tersebut?
Dasar Pemikiran
Ada perbedaan antara obtained score dgn true score.
Obtained score: hasil pengukuran.
True score: ukuran yang sesungguhnya dimiliki
subyek.
Error of measurement: kesenjangan antara observed
score dengan true score (Crocker & Algina, 1986).

Mengapa terjadi error of measurement?


Sumber-Sumber Error

1. Peserta tes
Misal: sakit, cemas, gugup, lupa

2. Penyelenggara tes
Misal: kurang profesional dalam
memberikan instruksi atau skoring

3. Instrumen
Misal: tes yang tidak valid
RELIABILITAS

Reliabilitas menunjukkan seberapa besar


perbedaan skor yg diperoleh bersumber pada
perbedaan dalam atribut yang diukur, dan bukan
berasal dari measurement error.
Reliabilitas mengacu pada konsistensi skor
seseorang yg diperoleh ketika diukur dgn tes
yg sama pada situasi berbeda, dgn serangkaian
item yg setara, atau dalam variabel yg diteliti.
(Anastasi & Urbina, 1997) 11
Metode Estimasi Koefisien Reliabilitas

Salah satu syarat alat ukur yg baik adalah


mendapatkan hasil ukur yg relatif sama pada
subyek yg sama dlm kondisi sama.
Anastasi & Urbina (1997) memberikan pengertian
reliabilitas berkaitan dgn metode estimasi
koefisien reliabilitas.
Reliabilitas = konsistensi skor yg diperoleh
seseorang, ketika dilakukan pengukuran kembali:
- dengan tes yg sama di saat berbeda,
- dengan tes berbeda tapi item-itemnya setara.
(Anastasi & Urbina, 1997)
Metode Estimasi Koefisien Reliabilitas
Secara umum, ada metode estimasi reliabilitas
dibedakan ats dua prosedur (Crocker & Algina,
1986, Cohen & Swerdlik, ..):
1. Prosedur yang membutuhkan dua kali
administrasi tes
• Test-retest reliability method
• Alternate-form reliability method

2. Prosedur yang membutuhkan satu kali


administrasi tes (single trial)
• Split half
• Kuder Richardson
• Coefficient Alpha
PERTANYAAN DALAM PENGUJIAN
RELIABILITAS

1. Apakah skor tes X konsisten antar waktu? (coefficient


of stability)
2. Bila ada dua tes setara yang mengukur X, apakah
skor yang diperoleh konsisten? (coefficient of
equivalent)
3. Apakah item-item tes X konsisten dalam mengukur
satu trait/atribut? (coefficient of internal consistency)
4. Apakah skor tes X yg dihasilkan seorang penyekor
konsisten dengan skor tes yg dihasilkan penyekor
lain? (interscorer reliability)
TWO ADMINISTRATION
PROCEDURE

• Dilakukan dengan memberikan


tes dalam dua kali
pengambilan, pada subyek
yang sama, dengan tes yang
sama atau dua tes yang setara
• Reliabilitas: konsistensi skor
yang diperoleh dari dua kali
pengambilan tes
TWO ADMINISTRATION
PROCEDURE

• Terdiri dari 2 metode:


1. Test retest reliability method
2. Alternate form reliability
method
Test-Retest Reliability Method

• Konsistensi Pengukuran  diukur dgn alat yg


sama pada waktu berbeda
• Koefisien reliabilitas  korelasi antarskor pada
dua hasil pengukuran pada subjek yang sama
(coefficient of stability)
• Digunakan pada tes yang bertujuan mengukur
konstruk/ karakteristik yang relatif tidak berubah
dari waktu ke waktu (temporal stability)
• Mis. Kepribadian
Test-Retest Reliability Method

Jenis Error:
Time-sampling error

Sumber Error: perbedaan kondisi eksternal


& internal
a. Maturity d. trauma
b. learning e. suhu
c. experience f. kebisingan
d. counseling/therapy h. instruksi
Test-Retest Reliability Method
• Perlu diwaspadai kemungkinan adanya carry-
over effect error (pemberian tes pertama
memengaruhi skor tes pada pemberian kedua
kalinya)
• Metode ini cocok untuk tes yg tdk
dipengaruhi proses belajar.
• Perlu ada cara lain agar konsistensi skor dpt
diperoleh tanpa menggunakan tes yg sama.
Alternate-Form Reliability Method

= Paralel-Form; Equivalent-Form
- Mengetahui konsistensi skor pada dua tes yang
setara.
- Dua tes dikatakan paralel bila memenuhi spesifikasi
yang sama:
jumlah item, bentuk item, cakupan isi, rentang dan
derajat kesulitan item, instruksi, batas waktu, contoh,
serta format.
 Sehingga distribusinya (mean & SD) sama
Coefficient of equivalence
Alternate-Form Reliability Method

1. immediate alternate-form
2. delayed alternate-form
Alternate-Form Reliability Method

a. Immediate Alternate Form


- Pengujian 2 tes yg paralel pada subjek &
waktu yg sama.
- Error yg terjadi:
- content-sampling error : perbedaan
content pada kedua tes
ALTERNATE-FORM RELIABILITY

b. Delayed alternate-form
= test-retest with alternate-form
- subjek diukur dgn sebuah tes pada suatu
waktu, kemudian diukur dgn tes yg paralel
pada waktu yg lain.
- 2 jenis error yang terjadi:
- time-sampling error
- content-sampling error
SINGLE ADMINISTRATION
PROCEDURE

• Ada kondisi dimana pengukuran


hanya dapat dilakukan satu kali
saja, misal: tidak memungkinkan
untuk melakukan tes retes, tidak
ada tes yg paralel, waktu yg
diberikan sangat terbatas, dsb.
• Disebut juga single trial/ single test
administration
SINGLE ADMINISTRATION
PROCEDURE
• Reliabilitas: konsistensi respon subyek
pada item atau sekelompok item pada
satu kali pengambilan tes

• Metode yg dapat digunakan:


1. KR & Koefisien Alpha
2. Scorer reliability
Kuder Richardson (KR) Method
• Metode KR reliability digunakan pada tes yang item-
itemnya mengukur 1 atribut/trait yg sama ->
homogen/item consistency
• KR: formula untuk menghitung reliabilitas sebuah tes
yang memiliki item dikotomi (diberi skor 1 atau 0)
- Sumber error:
* Content sampling
* Content heterogeneity
Coefficient Alpha Method

- Cronbach (1951) membuat rumus yang dapat


digunakan untuk data yang bersifat non
dikotomi (skor > 1) => Alpha-Cronbach
- Tujuan pengujian reliabilitas: melihat
homogenitas/item consistency
- Jika item bersifat dikotomi, hasil Cronbach
Alpha = KR20 (rumus keduanya pada dasarnya
sama)
Coefficient Alpha Method

- Merupakan metode yang paling


umum untuk melakukan pengujian
reliabilitas melalui internal consistency
(Kaplan & Saccuzo, 2005)

- Sumber Error: content sampling &


content heterogeneity
SCORER RELIABILITY

• Reliabilitas: konsistensi skor tes yg


diperoleh subyek dari dua atau lebih
penyekor.
• Diperlukan apabila tes bersifat open-
ended
(misal: essay, tes proyeksi, observasi)
• Error yg terjadi: interscorer difference
Teknik Pengukuran Reliabilitas dikaitkan
dengan Bentuk dan Jumlah Pengambilan Tes
(Anastasi & Urbina, 1997)

Testing Test-Forms Required


Session
Required One Two

One

Two
Teknik Pengukuran Reliabilitas dikaitkan
dengan Bentuk dan Jumlah Pengambilan Tes
(Anastasi & Urbina, 1997)

Testing Test-Forms Required


Session
Required One Two
Kuder-Richardson Alternate-Form
One Alpha cronbach (Immediate)

Test-Retest Alternate-Form
Two (Delayed)
Sumber error Dihubungkan dengan Koefisien
Reliabilitas (Anastasi & Urbina, 1997)
Type of Reliability Coefficient Error Variance

Test-retest Time sampling


Alternate-form Content sampling
(immediate)
Alternate-form (delayed) Time sampling & content
sampling
Split-Half Content sampling
Kuder-Richardson dan Content sampling &
Coefficient Alpha content heterogeneity
Scorer Interscorer differences
INTERPRETASI
KOEFISIEN RELIABILITAS

Berapa batasan koefisien reliabilitas?


• Anastasi & Urbina (1997): secara umum 0,8
• Kaplan & Saccuzzo (1989): terkait tujuan
tes
- research: 0,7 – 0,8
- clinical (diagnosis): 0,95
INTERPRETASI
KOEFISIEN RELIABILITAS

Interpretasi reliabilitas harus terkait dgn


metode reliabilitas yg digunakan

Contoh:
Tes loneliness:
 metode tes-retes rX1X2= 0,56 (tes tidak stabil
antar waktu)
 α = 0,82 (tes secara internal konsisten)
INTERPRETASI
KOEFISIEN RELIABILITAS
• Koefisien reliabilitas juga digunakan untuk
mendapatkan informasi mengenai besar
variabilitas skor tes yg disebabkan oleh error
of measurement & true score.

Contoh: rX1X2= 0.80  80% dari varians observed


score merupakan varians true score dan 20%
merupakan varians error
INTERPRETASI
KOEFISIEN RELIABILITAS
Contoh:
Tes loneliness:
 metode tes-retes rX1X2= 0,56 (tes tidak stabil antar
waktu)
rX1X2= 0.56  56% dari varians observed score
merupakan varians true score dan 44% merupakan
varians error (time sampling error)

 α = 0,82 (tes secara internal konsisten)


82% dari varians observed score merupakan varians
true score dan 18% merupakan varians error (content
sampling dan content heterogeneity error )
INTERPRETASI
KOEFISIEN RELIABILITAS
• Jadi interpretasi reliabilitas harus terkait dengan
metode reliabilitas yang digunakan dan error yang
terdapat dalam metode.

• Dari contoh, dapat disimpulkan:


- Sebuah alat ukur dapat konsisten dlm suatu hal, tetapi
dpt juga tdk konsisten dlm hal lain.
- Penentuan apakah suatu tes reliabel harus
memperhatikan metode pengujian yg digunakan dan
kemungkinan error yg ada
- Besar error yg ditolerir terkait dgn tujuan alat ukur
VALIDITAS
VALIDITAS

Pengertian:
 Berkaitan dengan apa yang diukur oleh tes
dan seberapa tepat tes mengukur apa yang
hendak diukur (Anastasi & Urbina, 1997)

 Kesesuaian antara skor tes dengan kualitas


dari yang diukur (Kaplan & Saccuzzo, 2005)
FUNGSI VALIDITAS
Menerangkan:
 atribut/konstruk/faktor yang diukur
oleh suatu tes
 seberapa jauh hal itu diukur
 apa yang dapat diartikan/ditafsirkan
dari sebuah skor tes
Nama tes tidak dapat dijadikan pegangan
mengenai apa yang diukur oleh tes
PROSEDUR VALIDASI
Semua prosedur untuk menetapkan validitas tes
harus mempertimbangkan:
Hubungan antara skor tes dengan fakta-
fakta lain yang independent dan
observable dari konstruk yang akan diukur
(= kriteria)
Hubungan antara skor tes dengan kriteria 
koefisien validitas.
MACAM VALIDITAS
Sesuai dengan tujuan penggunaan tes, ada tiga macam
validitas:
1. Content Validity (Validitas Isi)
Ukuran sejauh mana suatu tes valid jika digunakan untuk
mengukur isi ranah tingkahlaku tertentu.
2. Criterion Related Validity (Validitas Kriteria):
Menunjukkan efektivitas suatu tes dalam memprediksi
performa individu pada aktivitas tertentu. Ada 2:
a. Predictive Validity (validitas peramalan):
Ukuran sejauh mana suatu test valid dalam
meramalkan hal-tertentu.
b. Concurent Validity (validitas diagnostik/validitas
konkuren):
Ukuran sejauh mana suatu test valid dalam
mendiagnosa keadaan seseorang (dalam hal tertentu)
MACAM VALIDITAS
3. Construct Validity (Validitas Konstruk):
Ukuran sejauh mana sebuah tes mengukur suatu
konstruk teoritis atau trait tertentu.
 Konstruk adalah dimensi psikologis yang telah
dirumuskan secara jelas, rinci dan operasional
 Tes yang valid untuk mengukur konstruk X belum
tentu valid mengukur konstruk Y
1. VALIDITAS ISI (Content Validity)
 Pengertian: Suatu pengujian sistimatis
terhadap isi suatu tes untuk menentukan
apakah tes sudah mencakup sampel yang
representatif dari ‘behavior domain’ yang akan
diukur.
 Validitas isi biasanya digunakan pada tes yang
ditujukan untuk mengukur seberapa jauh
individu telah menguasai suatu keterampilan
atau hasil belajar.
 Tujuannya untuk menilai apakah item-item tes
secara tepat menggambarkan domain atau
konstruk yang hendak diukur
 Contoh penggunaan: kuesioner pengetahuan
1. VALIDITAS ISI (Content Validity)
Cara menguji:
- Dibuat perbandingan antara hal-hal yang tercakup
dalam kuesioner dengan cakupan isi/materi yang
harusnya dikuasai (indikator tingkah laku)

- Dinilai oleh ahli  expert judgement

- Contoh: pengetahuan 3 M (menutup, menguras,


mengubur)  dibuat indikator perilaku dari tiap
dimensi kemudian dicocokan dengan item/soal yang
telah dibuat
FACE VALIDITY

Face validity jangan disamakan dengan


content validity.

Face Validity bukan validitas dalam pengertian


teknis, karena tidak mengukur apa yang
sesungguhnya ingin diukur oleh tes, melainkan
hanya kesan dari peserta tes tentang apa yang
diukur oleh tes.
Face validity berfungsi untuk membina rapport dan
meningkatkan motivasi peserta tes.
Validitas Kriteria
(Criterion-Related Validity)

 Menunjukkan efektivitas suatu tes


dalam memprediksi performa individu
pada aktivitas tertentu
Validitas Kriteria
Dibedakan atas:
1. Validitas peramalan (Predictive Val):
ukuran ketepatan fungsi suatu tes untuk meramalkan
suatu ‘non-test behavior’ di masa mendatang
hasil tes -------------------------- perilaku di masa datang
(skor tes inteligensi) (keberhasilan studi PT)

2. Validitas konkuren (Concurrent Val):


ukuran ketepatan fungsi suatu tes dalam
menggambarkan keadaan saat ini
hasil tes ---------------------- perilaku saat ini
(skor tes agresivitas) (perilaku agresif)
Perbedaan Predictive dan
Concurrent Validity
 ANASTASI: tergantung tujuannya
 meramalkan  predictive validity
 mendiagnosa  concurrent validity
 CRONBACH: waktu tersedianya kriteria/evidence
 kriteria/evidence di waktu yad  predictive validity
 kriteria/evidence saat ini  concurrent validity
 Teknik concurrent validation dianggap lebih praktis
karena jangka waktu antara tes dan pengukuran
kriteria/evidence adalah pendek

 Metode penghitungan validitas adalah dengan


menghubungkan skor tes dengan skor kriteria  chi
square, korelasi
Menentukan Kriteria
 Isi dari tes (perilaku yang akan diramalkan/
didiagnosa) perlu diselidiki
 Kriteria perlu diteliti (Thorndike):
 Ditinjau seberapa jauh kriteria bisa diskor atau
dirumuskan secara operasional
 Perlu diperhatikan kekhususan dari kriteria (perbedaan
tempat, waktu, situasi  perbedaan koef. validitas
tes)
Jenis kriteria utk Predictive &
Concurrent Validation
Anastasi & Urbina (1997) memberikan 7 kriteria umum:

1. Prestasi akademik (academic achievement)


2. Hasil evaluasi belajar pada kursus keterampilan
(performance in specialized training)
3. Penilaian terhadap ‘actual performance’ di
pekerjaan tertentu (job performance)
4. Hasil tes pada 2 kelompok kontras (contrasted group)
5. Diagnosis psikiatri (psychiatric diagnosis)
6. ‘Rating’
7. Tes yang sudah ada yang sering digunakan
dan dinilai baik (previously available test)
Validitas Konstruk
(Construct Validity)

Validitas konstruk:
ukuran seberapa tepat tes mengukur suatu
theoretical construct tertentu (trait maupun
abilities)
Dasar pemikiran:
 dalam pengujian valditas dituntut informasi dari
berbagai macam sumber yang memberikan
gambaran tentang hakikat dari konstuk atau
yang ingin diukur  informasi yang berasal dari
teori
 tes yang valid untuk mengukur konstruk X belum
tentu valid mengukur konstruk Y
Validitas Konstruk
(Construct Validity)

Penting!!  Pelajari teori seputar konstruk


yang akan diukur (mis: inteligensi, anxiety,
stress, depresi, dsb)
Teknik Pengujian
Validitas Konstruk
1. Developmental Changes:
menguji validitas tes yang akan digunakan untuk
mengukur konstruk, yang menurut teori
perubahannya mengikuti tahapan perkembangan
(mis: inteligensi)
2. Correlation With Other Test:
menguji validitas tes yang digunakan untuk mengukur
konstruk yang terbukti sudah diukur oleh tes lain
3. Factor analysis:
mem-validasi sekaligus sejumlah tes dengan
menganalisis pola inter-korelasi nya (faktor yang
dihasilkan melalui analisis faktor)
Teknik Pengujian
Validitas Konstruk
4. Internal Consistency:
menguji validitas tes untuk mengukur konstruk yang
bersifat uni-dimensi (bukan gabungan beberapa sub-
konstruk)
Dasar pemikiran:
 Jika suatu tes sangat homogen, besar kemungkinan
tes itu hanya mengukur satu konstruk dan tidak
terpengaruh oleh konstruk lain
Catatan:
Pengujian dengan teknik internal consistency kadang-
kadang digunakan (secara terpaksa) ketika tidak
ada/sulit menemukan ‘kriteria luar’ lainnya
Teknik Pengujian
Validitas Konstruk
5. Convergent & Discriminant Validation:
Dasar pemikiran:
tes yang mengukur O seharusnya secara jelas
berkorelasi dengan tes lain yang memang mengukur
O (convergent factors) dan sekaligus tidak tidak
berkorelasi dengan tes yang tidak mengukur O
(discriminant factors)
Prosedur pengujian:
 menentukan satu atau lebih tes yang seharusnya
berkorelasi dengan tes yang diuji
 menentukan satu atau lebih tes yang seharusnya
tidak berkorelasi dgn tes yang diuji validitasnya
 memeriksa apakah hasil perhitungan korelasi sesuai
dengan teori
Teknik Pengujian
Validitas Konstruk

6. Intervensi Eksperimental
 Menguji validitas tes dengan cara membandingkan
skor sebelum & sesudah dilakukannya intervensi
eksperimental (pretest & posttest).
 Intervensi bisa berupa pelatihan atau pemberian
perlakuan tertentu kepada subjek.
 Contoh: konstruk agresivitas, kecemasan, stress
Kriteria Pengukuran Validitas
Jenis Validitas Kriteria yg dapat
digunakan
Validitas Isi Hal yang tercakup dalam ranah
tingkahlaku yang diukur
Validitas Kesan Kesan orang yang ditest
Validitas Prediktif Nilai dalam variabel yang
diramalkan
Validitas Konkuren Indikator dari “dimensi” yang
didiagnosis
Validitas Konstruk Indikator dari Konstruk yang
secara teoretis relevan
Interpretasi Koefisien Validitas
(Anastasi & Urbina, 1997)

 Harus signifikan pada level tertentu & cukup


tinggi untuk dapat mengidentifikasi &
membedakan individu
 Terkait dengan tujuan tes
 Terkait dengan teori konstruk
 Dikaitkan dengan metode pengujian validitas.
 Khusus pada criterion-validity, korelasi
diharapkan signifikan & tinggi.
Contoh Interpretasi
 Koefisien korelasi sebesar 0,6 (signifikan pada LOS
0,05) sebagai hasil uji validitas konstruk antara tes X
dengan tes Y (yang mengukur konstruk kreativitas),
menunjukkan bahwa 36% proporsi varians tes X
diakibatkan oleh tes Y. Dengan demikian, tes X dapat
dikatakan valid untuk mengukur konstruk kreativitas.

 Koefisien korelasi sebesar 0,8 (signifikan pada LOS


0,05) sebagai hasil uji validitas prediktif antara tes
SPMB dengan nilai IPK, menunjukkan bahwa 64%
proporsi varians nilai IPK diakibatkan oleh tes SPMB.
Dengan demikian, tes X dapat dikatakan valid untuk
memprediksi keberhasilan belajar di perguruan tinggi.

Anda mungkin juga menyukai