Anda di halaman 1dari 7

Matakuliah : Konstruksi Alat Ukur Psikologi

Pertemuan ke :3

Parameter Butir-Butir Tes Kognitif (Teori Klasik)


Parameter butir merupakan kriteria-kriteria yang digunakan dalam evaluasi butir.

Perameter pada pendekatan teori klasik merupakan informasi statistik yang sangat bergantung pada
subjek yang dikenakan tes serta parameternya tidak melekat pada skala/butir. Semuanya
merupakan informasi terhadap kelompok sampel.

Estimasi Parameter Daya Diskriminasi Butir


Daya diskriminasi butir menunjukkan kemampuan butir dalam membedakan mana subjek yang pintar
dan bodoh, atau yang memiliki dan tidak memiliki atribut. Daya diskriminasi butir sifatnya diagnosis, bisa
dipakai untuk eleminasi butir. Maka, jika butir memiliki daya diskriminasi rendah, butir tersebut dapat
dibuang/diperbaiki.

Data untuk mengestimasi daya diskriminasi butir didapatkan melalui real testing situation; (1)dimana
butir-butir sudah melalui tahap validitas isi, (2)soal tes sudah dalam bentuk booklet hanya saja soal masih
banyak, (3)situasi saat pengambilan data disesuaikan seperti suasana tes sesungguhnya, dan (4)subjek
tidak tahu jika tes dilakukan dalam kepentingan analisis/uji coba.
1. Indeks Diskriminasi Butir (d)
Mudah dan sering digunakan untuk perhitungan manual. Untuk memperoleh indeks diskriminasi item,
kelompok subjek dibagi menjadi dua kelompok, yakni kelompok subjek yang memiliki skor total tertinggi
dan kelompok subjek yang memiliki skor total terendah sesuai dengan batas yang ditetapkan. Misalnya,
skor total 100, batas kelompok yang bisa digunakan adalah 50 (median).
𝒏 𝒊𝑻 𝒏𝒊𝑹
Rumus: d= −
𝒏𝑻 𝒏𝑹

𝑛𝑖𝑇 = jumlah kelompok tinggi yang menjawab benar


𝑛𝑇 = jumlah kelompok tinggi
𝑛𝑖𝑅 = jumlah kelompok rendah yang menjawab benar
𝑛𝑅= jumlah kelompok rendah
Contoh:

Opsi A B C* D E Omit
Tinggi 15 5 80 0 0 0
Rendah 40 20 10 20 5 5
Missal: N= 200
nT= 100
nR= 100
𝑛𝑖𝑇 𝑛𝑖𝑅
maka: d = −
𝑛𝑇 𝑛𝑅
80
d= − 100
10
10
0
d = 0,70
Indeks ini memiliki kisaran kemungkinan -1,0 hingga +1,0. Ebel (1965) menawarkan panduan untuk
interpretasi butir berdasarkan indeks diskriminasi itemnya, sebagai berikut:
Indeks Diskriminasi Interpretasi
0,4 < d butir berfungsi sangat baik
0,30 < d < 0,39 butir sudah baik, mungkin diperlukan revisi kecil
0,20 < d < 0,29 butir masih meragukan dan perlu direvisi
0,20 > d butir harus dibuang atau direvisi total

2. Korelasi butir-total / item-total correlation


Bisa digunakan tidak hanya pada skor dikotomi.

Jika, butir nomor 1 dianalisis setelah diujikan terhadap


100 orang, lalu diperoleh hasil sbb: i

i1 X 1
1 70
1 60
0
0 15
0 30
1 90 Ẋ X
1 45 0 60 100
0 10
0 40
. .
Maka, estimasi daya diskriminasi butir dapat dilakukan dengan korelasi butir-total rix
Batas penerimaan butir dengan korelasi butir-total adalah 0,30. Batas minimum dapat diturunkan sampai
dengan 0,2 dengan mempertimbangkan keterwakilan aspek dan indikator dalam butir-butir dan tujuan
dibuatnya alat ukur. Dapat diestimasi dengan software SPSS.

Dalam estimasi dengan butir yang sedikit, mungkin terjadi over estimasi, karena didalam X masih
terkandung butir yang dikorelasi. Oleh sebab itu harus dikoreksi dengan mengurangi butir tersebut dalam
skor X (ri(x-i)).

3. Biserial (rbis) atau Poin Biserial (rpbis)


Formulasi khusus jika ingin korelasi skor dikotomi (alami dan artifisial)
𝚾𝒊− 𝚾 𝒑
rpbis 𝑺𝒙
√𝟏−𝒑

digunakan pada skor dikotomi alami, missal: laki-laki dan perempuan (American style)

rpbis (𝚾𝒊− 𝚾)𝐩


𝑺𝒙 𝒚

digunakan pada skor dikotomi artifisial (atau variabel continum atau diskrit yang dikotomikan). Misalnya,
kaya dan miskin, puas dan tidak puas. Kebanyakan penelitian psikologi menggunakan dikotomi artifisial.

Dimana Xi = Nilai rata-rata skor tes kelompok yang menjawab benar


X = Nilai rata-rata skor tes seluruh kelompok
Sx = Standar deviasi skor X
p = proporsi subjek yang menjawab
benar y = tinggi ordinat dari kurva

Perlu diketahui bahwa korelasi biserial bukan korelasi product moment sehingga koefisien korelasinya
mungkin saja lebih dari 1,00. Jika nilai rbis/rpbis negatif (-), artinya responden yang seharusnya mendapat
nilai rendah justru lebih banyak mampu menjawab. Sedangkan yang pintar tidak bisa menjawab aitem
tersebut. Dapat dilakukan dengan bantuan software ITEMAN atau Excel.

Parameter Tingkat Kesukaran


Parameter yang menunjukkan proporsi kesukaran butir dibandingkan dengan butir lainnya dalam tes.
Dalam teori klasik, parameter tingkat kesukaran soal hanya berlaku pada kelompok sampel. Tingkat
kesukaran akan berubah jika kelompok sampel berubah. Selain itu, tidak bisa disimpulkan bahwa soal
yang sulit adalah lebih baik. Penggunaan soal sulit atau mudah lebih bergantung pada tujuan penggunaan
alat tes.

Tingkat kesukaran sifatnya informative. Sehingga butir dengan P kecil atau p besar tidak dinyatakan butir
tersebut baik atau buruk.
1. Proporsi P
𝑛𝑖
Rumus: P / Pi =
𝑛𝑡𝑜𝑡

ni = banyaknya subjek yang menjawab benar


ntot = banyaknya subjek yang menjawab

maka, semakin kecil nilai P maka butir soal tersebut semakin sulit karena semakin sedikit yang berhasil
menjawab dengan benar. Nilai P dapat dinyatakan dalam bentuk persentase (%).

Parameter Eferktivitas Distraktor


Analisis terhadap distraktor dilakukan untuk melihat distraktor yang kurang berfungsi dengan baik pda
bentuk soal pilihan ganda.

Distraktor berfungsi baik jika: mampu menarik/dipilih oleh kelompok siswa yang kurang menguasai
bahan pelajaran atau tidak memiliki kemampuan, paling sedikit dippilih oleh 5% peserta tes untuk
4 pilihan jawaban dan 3% peserta tes untuk 5 pilihan jawaban.

Distraktor tidak berfungsi dengan baik jika: tidak memiliki proportion of endorsing/ tidak ada yang
memilih (baik dari kelompok siswa tinggi atau rendah). Artinya distraktor tersebut terlalu terlihat tidak
mungkin menjadi jawaban. Atau jika yang memilih distraktor tersebut lebih banyak adalah kelompok
siswa tinggi/pintar. Artinya, ada kemungkinan terjadi salah kunci jawaban.

Estimasi Validitas (rxy)


Estimasi terhadap validitas dilakukan dengan pengujian dengan kelompok orang/kriteria lain di luar alat
ukur/tes yang kita buat. Oleh sebab itu lambangnya korelasi skor x dengan y (r xy).
1. Validitas Konten
Validitas Isi harus ditegakkan terlebih dahulu.

Estimasi validitas tampang tidak menghasilkan koefisien reliabilitas. Face validity atau validitas tampang
berkaitan dengan appearance alat tes (booklet), font yang digunakan, ukuran font (size), pengaturan
letak soal dan pilihan jawaban. Begitu juga dengan lembar jawaban. Sehingga perlu dibuatkan dengan
sangat baik dan serius.

Estimasi validitas isi (logical) tes mengandalkan keakuratan menentukan domain tes. Indikator/item di
dalam instrumen pengukuran harus representatif dari domain yang hendak ukur. Penekanan pendekatan
validasi konten salah satunya adalah penilaian (judgement) ahli atau profesional. Yang dimaksud ahli
disini adalah ahli pada domain apa yang kita ukur. Mengembangkan pengukuran mengenai produk atau
konsumen, dapat melibatkan penilaian ahli pemasaran. Mengembangkan pengukuran mengenai
gangguan psikologis pada anak dapat melibatkan penilaian psikolog.

Content Validity Ratio (CVR)


A Quantitative Approach to Content Validity tahun 1975, Lawshe mengembangkan pendekatan
mengestimasi validitas isi, dimana sejumlah Subject Matter Experts (SME) diminta untuk menilai apakah
item kita esensi bagi operasionalisasi konstrak teoritik tes. Untuk mengukur CVR, sejumlah ahli (panel)
diminta untuk memeriksa setiap item pada instrumen pengukuran. Penyekoran terdiri dari tiga alternatif,
yaitu aitem tertentu adalah relevan, kurang relevan atau tidak relevan dengan domain yang diukur.

Skor CVR pada tiap aitem dapat berkisar antara 1 hingga -1. Skor yang tinggi menunjukkan validitas
konten yang lebih tinggi untuk item tersebut. Sebuah aitem yang memiliki CVR=0 menunjukkan bahwa
separuh panel memberikan penilaian item tersebut sebagai aitem yang relevan dengan domain yang
diukur. Dengan demikian, setiap nilai positif menunjukkan bahwa lebih dari setengah dari panel diberi
nilai item tersebut termasuk pada kategori aitem yang cukup baik untuk dilibatkan dalam instrumen
pengukuran. Selama proses validasi konten, ahli menggunakan definisi domain ukur yang kita susun
sebagai dasar untuk menilai sejauh mana aitem mereprentasikan domain ukur yang dimaksudkan.
𝟐𝒏𝒆
Formula untuk menentukan CVR = ( )−𝟏
𝒏

dimana ne = banyaknya SME yang menganggap butir representatif/esensial


n = banyaknya SME yang memberikan penilaian

Setelah dilakukan perhitungan dan menghasilkan CVR, Lawshe juga memberikan panduan untuk kita
apakah suatu item tersebut diterima atau tidak. Rambu-rambu untuk menilai CVR tersebut ditampilkan
dalam tabel di bawah ini.

2. Validitas Kriteria/Criterion-Related
Validitas Prediktif dan Konkuren. rxy y= kriteria validitas (kuantitatif). Kriteria tidak harus berupa sebuah
tes, tetapi bisa berupa ukuran apa saja yang penting ada relevansinya dengan tes tersebut. Yang
dikorelasikan dengan kriteria adalah output tes tersebut, misal IQ atau raw score. Kriteria yang digunakan
harus memiliki reliabilitas yang tinggi karena adanya efek atenuasi (penurunan validitas karena reliabilitas
kriterianya underestimate).
Validitas Konkuren adalah validitas empiris karena hasilnya sesuai dengan pengalaman. Hasil tes
dikorelasikan dengan hasil tes yang sudah ada, misal nilai uas semester ini dengan nilai uas semester lalu.
Atau korelasi dengan gold standard.

Validitas Prediktif digunakan untuk meramalkan apa yang terjadi pada masa depan, misal tes TPA atau
SNMPTN meramalkan/memprediksi keberhasilan dalam perkuliahan.

3. Validitas Konstrak
Validitas faktorial. Dilakukan dengan analisis faktor. Analisis faktor (seperti pada SPSS) mengeluarkan
output dari confirmatory factor analysis. Namun estimasi ini tidak mengeluarkan koefisien validitas.

Multitrait-Multimethod. Estimasi validitas ini dilakukan dengan mengkorelasikan tes dengan tes lain.
Korelasi yang tinggi antara atribut yang sama walaupun diukur dengan metode yang berbeda, disebut
memiliki validitas konvergen. Korelasi yang rendah antara atribut yang berbeda, entah dengan metode
yang sama ataupun dengan metode berbeda, disebut memiliki validitas diskriminan. Namun angka
korelasi tidak menunjukkan koefisien validitas. Angkanya hanya bersifat informatif.

By known-group. Estimasi validitas ini menggunakan 2 kelompok yang sudah diketahui berbeda pada
atribut yang diukur. Misalnya tes kemampuan numerik. Diestimasi dengan mengujikan pada kelompok
sekolah unggulan jurusan IPA dibandingkan dengan kelompok sekolah jurusan bahasa. Rata-rata skornya
dibandingkan (t-test). Jika rata-rata skor sekolah jurusan IPA lebih tinggi (>) maka alat tes dinyatakan
valid.

Estimasi Reliabilitas Hasil Ukur


Reliabel artinya konsisten, stabil, presisi tinggi.

Jumlah Alat Jumlah


Tes Pengetesan
Test-Retest 1 2
Paralel Form 2 1
Single Trial Administration 1 1

Teknik estimasi reliabilitas:


1. Test-retest
Sebuah (1) alat ukur/tes dilakukan pengujian berulang kali. Hasil pengujian pertama kemudian
dikorelasikan dengan hasil pengujian kedua. Model ini cocok digunakan untuk model essay. Namun
dirasa kurang efisien masalah waktu serta kemungkinan terjadinya efek belajar.

Metode test-retest ditinggalkan karena (1) perubahan yang terjadi bisa saja karena atributnya yang
memang berubah (misalnya sikap) sehingga metode ini lebih sesuai untuk atribut yang lebih
menetap/laten (misal kepribadian), (2) membutuhkan waktu yang lama.
2. Paralel Form
Dua buah tes yang memiliki domain ukur yang sama dan setara dalam hal parameter butirnya
dikorelasikan hasil ukurnya. Bentuk paralel ini ditinggalkan karena sangat sulit untuk membuat dua buah
alat tes yang benar-benar paralel (paralel dalam hal atribut, mean skor, dan varians skor)

Koefisien reliabilitas bergerak antara 0 sampai 1 (korelasi). Batas 0,9 dapat digunakan untuk alat ukur
yang digunakan sebagai acuan diagnostik. Sedangkan untuk keperluan riset, 0,8 bisa diterima.
3. Single Trial Administration
Metode ini tidak lagi melihat nilai X (skor total), karena tidak ada pembandingnya (tidak ada hasil tes
paralel ataupun hasil tes ulang). Yang dilihat adalah konsistensi antar-butir dalam alat ukur yang sama
atau konsistensi internal.
Konsistensinya dilihat dengan cara membelah alat tes dibelah berdasarkan jumlah butir (bisa belah 2
sama panjang, belah 2 tidak sama panjang, belah tiga sama panjang, dan lainnya).
Prinsip pembagian butirnya harus memperhatikan (1) dibagi sama banyak lebih dianjurkan dibandingkan
dengan pembagian tidak sama panjang, (2) masing-masing bagian/belahan tidak terdiri dari sangat
sedikit butir (jadi, jika ada 60 butir akan lebih baik dibagi 30:30 dibandingkan 20:20:20), (3) jika butir
terlalu sedikit untuk dibagi, maka lebih baik dibagi sejumlah butir tersebut, (4) usahakan varians skor tiap
kelompok itu setara.

Reliabilitas dilambangkan dengan rxx’, artinya dia isa dibandingkan dengan dirinya sendiri. Meskipun pada
pengukuran di waktu yang berbeda mendapat nilai yang berbeda dari sebelumnya, konsistensinya
dinyatakan saat pola/tingkatannya tidak berubah.
Misal:
Tes1 Tes2
1 2 4
2 3 5
3 5 7
4 7 9
5 9 11

Membuat tes yang reliabel:


a. buat butir pernyataan atau pertanyaan yang menanyakan sesuatu yang serupa, bahwa yang diukur
adalah hal yang sama.
b. Tidak membuat pertanyaan dengan tingkat kesukaran yang terlalu berbeda antara butir 1 dan lainnya.

Dalam mengembangkan dan membuat butir tes kognitif, terdapat dua hal lain yang harus
diperhatikan, yaitu unidimensionalitas dan independensi lokal.

Unidimensionalitas
Memastikan bahwa alat ukur mengukur satu atribut. Membuktikan unidimensionalitas dengan analisis
faktor. Misal: soal matematika yang seharusnya digunakan untuk mengukur kemampuan berhitung
disajikan dalam bahasa inggris, sehingga atribut yang diukur bukan hanya kemampuan berhitung tetapi
juga kemampuan bahasa inggris dan pemahaman bacaan.

Independensi Lokal
Butir-butir tidak boleh memberikan petunjuk bagi butir berikutnya. Kemampuan menjawab/perfomansi
karena informasi pada soal sebelumnya. (probabilitas menjawab benar karena soal telah terlebih
dahulu terlokalisasi, biasanya pada soal cerita).

Anda mungkin juga menyukai