Pertemuan ke :3
Perameter pada pendekatan teori klasik merupakan informasi statistik yang sangat bergantung pada
subjek yang dikenakan tes serta parameternya tidak melekat pada skala/butir. Semuanya
merupakan informasi terhadap kelompok sampel.
Data untuk mengestimasi daya diskriminasi butir didapatkan melalui real testing situation; (1)dimana
butir-butir sudah melalui tahap validitas isi, (2)soal tes sudah dalam bentuk booklet hanya saja soal masih
banyak, (3)situasi saat pengambilan data disesuaikan seperti suasana tes sesungguhnya, dan (4)subjek
tidak tahu jika tes dilakukan dalam kepentingan analisis/uji coba.
1. Indeks Diskriminasi Butir (d)
Mudah dan sering digunakan untuk perhitungan manual. Untuk memperoleh indeks diskriminasi item,
kelompok subjek dibagi menjadi dua kelompok, yakni kelompok subjek yang memiliki skor total tertinggi
dan kelompok subjek yang memiliki skor total terendah sesuai dengan batas yang ditetapkan. Misalnya,
skor total 100, batas kelompok yang bisa digunakan adalah 50 (median).
𝒏 𝒊𝑻 𝒏𝒊𝑹
Rumus: d= −
𝒏𝑻 𝒏𝑹
Opsi A B C* D E Omit
Tinggi 15 5 80 0 0 0
Rendah 40 20 10 20 5 5
Missal: N= 200
nT= 100
nR= 100
𝑛𝑖𝑇 𝑛𝑖𝑅
maka: d = −
𝑛𝑇 𝑛𝑅
80
d= − 100
10
10
0
d = 0,70
Indeks ini memiliki kisaran kemungkinan -1,0 hingga +1,0. Ebel (1965) menawarkan panduan untuk
interpretasi butir berdasarkan indeks diskriminasi itemnya, sebagai berikut:
Indeks Diskriminasi Interpretasi
0,4 < d butir berfungsi sangat baik
0,30 < d < 0,39 butir sudah baik, mungkin diperlukan revisi kecil
0,20 < d < 0,29 butir masih meragukan dan perlu direvisi
0,20 > d butir harus dibuang atau direvisi total
i1 X 1
1 70
1 60
0
0 15
0 30
1 90 Ẋ X
1 45 0 60 100
0 10
0 40
. .
Maka, estimasi daya diskriminasi butir dapat dilakukan dengan korelasi butir-total rix
Batas penerimaan butir dengan korelasi butir-total adalah 0,30. Batas minimum dapat diturunkan sampai
dengan 0,2 dengan mempertimbangkan keterwakilan aspek dan indikator dalam butir-butir dan tujuan
dibuatnya alat ukur. Dapat diestimasi dengan software SPSS.
Dalam estimasi dengan butir yang sedikit, mungkin terjadi over estimasi, karena didalam X masih
terkandung butir yang dikorelasi. Oleh sebab itu harus dikoreksi dengan mengurangi butir tersebut dalam
skor X (ri(x-i)).
digunakan pada skor dikotomi alami, missal: laki-laki dan perempuan (American style)
digunakan pada skor dikotomi artifisial (atau variabel continum atau diskrit yang dikotomikan). Misalnya,
kaya dan miskin, puas dan tidak puas. Kebanyakan penelitian psikologi menggunakan dikotomi artifisial.
Perlu diketahui bahwa korelasi biserial bukan korelasi product moment sehingga koefisien korelasinya
mungkin saja lebih dari 1,00. Jika nilai rbis/rpbis negatif (-), artinya responden yang seharusnya mendapat
nilai rendah justru lebih banyak mampu menjawab. Sedangkan yang pintar tidak bisa menjawab aitem
tersebut. Dapat dilakukan dengan bantuan software ITEMAN atau Excel.
Tingkat kesukaran sifatnya informative. Sehingga butir dengan P kecil atau p besar tidak dinyatakan butir
tersebut baik atau buruk.
1. Proporsi P
𝑛𝑖
Rumus: P / Pi =
𝑛𝑡𝑜𝑡
maka, semakin kecil nilai P maka butir soal tersebut semakin sulit karena semakin sedikit yang berhasil
menjawab dengan benar. Nilai P dapat dinyatakan dalam bentuk persentase (%).
Distraktor berfungsi baik jika: mampu menarik/dipilih oleh kelompok siswa yang kurang menguasai
bahan pelajaran atau tidak memiliki kemampuan, paling sedikit dippilih oleh 5% peserta tes untuk
4 pilihan jawaban dan 3% peserta tes untuk 5 pilihan jawaban.
Distraktor tidak berfungsi dengan baik jika: tidak memiliki proportion of endorsing/ tidak ada yang
memilih (baik dari kelompok siswa tinggi atau rendah). Artinya distraktor tersebut terlalu terlihat tidak
mungkin menjadi jawaban. Atau jika yang memilih distraktor tersebut lebih banyak adalah kelompok
siswa tinggi/pintar. Artinya, ada kemungkinan terjadi salah kunci jawaban.
Estimasi validitas tampang tidak menghasilkan koefisien reliabilitas. Face validity atau validitas tampang
berkaitan dengan appearance alat tes (booklet), font yang digunakan, ukuran font (size), pengaturan
letak soal dan pilihan jawaban. Begitu juga dengan lembar jawaban. Sehingga perlu dibuatkan dengan
sangat baik dan serius.
Estimasi validitas isi (logical) tes mengandalkan keakuratan menentukan domain tes. Indikator/item di
dalam instrumen pengukuran harus representatif dari domain yang hendak ukur. Penekanan pendekatan
validasi konten salah satunya adalah penilaian (judgement) ahli atau profesional. Yang dimaksud ahli
disini adalah ahli pada domain apa yang kita ukur. Mengembangkan pengukuran mengenai produk atau
konsumen, dapat melibatkan penilaian ahli pemasaran. Mengembangkan pengukuran mengenai
gangguan psikologis pada anak dapat melibatkan penilaian psikolog.
Skor CVR pada tiap aitem dapat berkisar antara 1 hingga -1. Skor yang tinggi menunjukkan validitas
konten yang lebih tinggi untuk item tersebut. Sebuah aitem yang memiliki CVR=0 menunjukkan bahwa
separuh panel memberikan penilaian item tersebut sebagai aitem yang relevan dengan domain yang
diukur. Dengan demikian, setiap nilai positif menunjukkan bahwa lebih dari setengah dari panel diberi
nilai item tersebut termasuk pada kategori aitem yang cukup baik untuk dilibatkan dalam instrumen
pengukuran. Selama proses validasi konten, ahli menggunakan definisi domain ukur yang kita susun
sebagai dasar untuk menilai sejauh mana aitem mereprentasikan domain ukur yang dimaksudkan.
𝟐𝒏𝒆
Formula untuk menentukan CVR = ( )−𝟏
𝒏
Setelah dilakukan perhitungan dan menghasilkan CVR, Lawshe juga memberikan panduan untuk kita
apakah suatu item tersebut diterima atau tidak. Rambu-rambu untuk menilai CVR tersebut ditampilkan
dalam tabel di bawah ini.
2. Validitas Kriteria/Criterion-Related
Validitas Prediktif dan Konkuren. rxy y= kriteria validitas (kuantitatif). Kriteria tidak harus berupa sebuah
tes, tetapi bisa berupa ukuran apa saja yang penting ada relevansinya dengan tes tersebut. Yang
dikorelasikan dengan kriteria adalah output tes tersebut, misal IQ atau raw score. Kriteria yang digunakan
harus memiliki reliabilitas yang tinggi karena adanya efek atenuasi (penurunan validitas karena reliabilitas
kriterianya underestimate).
Validitas Konkuren adalah validitas empiris karena hasilnya sesuai dengan pengalaman. Hasil tes
dikorelasikan dengan hasil tes yang sudah ada, misal nilai uas semester ini dengan nilai uas semester lalu.
Atau korelasi dengan gold standard.
Validitas Prediktif digunakan untuk meramalkan apa yang terjadi pada masa depan, misal tes TPA atau
SNMPTN meramalkan/memprediksi keberhasilan dalam perkuliahan.
3. Validitas Konstrak
Validitas faktorial. Dilakukan dengan analisis faktor. Analisis faktor (seperti pada SPSS) mengeluarkan
output dari confirmatory factor analysis. Namun estimasi ini tidak mengeluarkan koefisien validitas.
Multitrait-Multimethod. Estimasi validitas ini dilakukan dengan mengkorelasikan tes dengan tes lain.
Korelasi yang tinggi antara atribut yang sama walaupun diukur dengan metode yang berbeda, disebut
memiliki validitas konvergen. Korelasi yang rendah antara atribut yang berbeda, entah dengan metode
yang sama ataupun dengan metode berbeda, disebut memiliki validitas diskriminan. Namun angka
korelasi tidak menunjukkan koefisien validitas. Angkanya hanya bersifat informatif.
By known-group. Estimasi validitas ini menggunakan 2 kelompok yang sudah diketahui berbeda pada
atribut yang diukur. Misalnya tes kemampuan numerik. Diestimasi dengan mengujikan pada kelompok
sekolah unggulan jurusan IPA dibandingkan dengan kelompok sekolah jurusan bahasa. Rata-rata skornya
dibandingkan (t-test). Jika rata-rata skor sekolah jurusan IPA lebih tinggi (>) maka alat tes dinyatakan
valid.
Metode test-retest ditinggalkan karena (1) perubahan yang terjadi bisa saja karena atributnya yang
memang berubah (misalnya sikap) sehingga metode ini lebih sesuai untuk atribut yang lebih
menetap/laten (misal kepribadian), (2) membutuhkan waktu yang lama.
2. Paralel Form
Dua buah tes yang memiliki domain ukur yang sama dan setara dalam hal parameter butirnya
dikorelasikan hasil ukurnya. Bentuk paralel ini ditinggalkan karena sangat sulit untuk membuat dua buah
alat tes yang benar-benar paralel (paralel dalam hal atribut, mean skor, dan varians skor)
Koefisien reliabilitas bergerak antara 0 sampai 1 (korelasi). Batas 0,9 dapat digunakan untuk alat ukur
yang digunakan sebagai acuan diagnostik. Sedangkan untuk keperluan riset, 0,8 bisa diterima.
3. Single Trial Administration
Metode ini tidak lagi melihat nilai X (skor total), karena tidak ada pembandingnya (tidak ada hasil tes
paralel ataupun hasil tes ulang). Yang dilihat adalah konsistensi antar-butir dalam alat ukur yang sama
atau konsistensi internal.
Konsistensinya dilihat dengan cara membelah alat tes dibelah berdasarkan jumlah butir (bisa belah 2
sama panjang, belah 2 tidak sama panjang, belah tiga sama panjang, dan lainnya).
Prinsip pembagian butirnya harus memperhatikan (1) dibagi sama banyak lebih dianjurkan dibandingkan
dengan pembagian tidak sama panjang, (2) masing-masing bagian/belahan tidak terdiri dari sangat
sedikit butir (jadi, jika ada 60 butir akan lebih baik dibagi 30:30 dibandingkan 20:20:20), (3) jika butir
terlalu sedikit untuk dibagi, maka lebih baik dibagi sejumlah butir tersebut, (4) usahakan varians skor tiap
kelompok itu setara.
Reliabilitas dilambangkan dengan rxx’, artinya dia isa dibandingkan dengan dirinya sendiri. Meskipun pada
pengukuran di waktu yang berbeda mendapat nilai yang berbeda dari sebelumnya, konsistensinya
dinyatakan saat pola/tingkatannya tidak berubah.
Misal:
Tes1 Tes2
1 2 4
2 3 5
3 5 7
4 7 9
5 9 11
Dalam mengembangkan dan membuat butir tes kognitif, terdapat dua hal lain yang harus
diperhatikan, yaitu unidimensionalitas dan independensi lokal.
Unidimensionalitas
Memastikan bahwa alat ukur mengukur satu atribut. Membuktikan unidimensionalitas dengan analisis
faktor. Misal: soal matematika yang seharusnya digunakan untuk mengukur kemampuan berhitung
disajikan dalam bahasa inggris, sehingga atribut yang diukur bukan hanya kemampuan berhitung tetapi
juga kemampuan bahasa inggris dan pemahaman bacaan.
Independensi Lokal
Butir-butir tidak boleh memberikan petunjuk bagi butir berikutnya. Kemampuan menjawab/perfomansi
karena informasi pada soal sebelumnya. (probabilitas menjawab benar karena soal telah terlebih
dahulu terlokalisasi, biasanya pada soal cerita).