Puti Febrayosi
Fakultas Psikologi UIN Jakarta
Abstrak:
Tujuan penelitian ini adalah untuk mengetahui apakah terdapat perbedaan
atau bias pada data unidimensional second order namun sering diperlakukan
sebagai unidimensional hanya pada tingkat pertama atau first order, serta
mengetahui sejauh mana pengaruh panjang tes, heterogenitas tingkat
kesukaran dan daya pembeda apabila terdapat perbedaan atau bias terhadap
kemampuan responden. Penelitian ini merupakan penelitian simulasi Monte
Carlo dengan 27 model percobaan dan setiap model direplikasi sebanyak 50
kali. Model second order unidimensional yang dibangkitkan memiliki panjang
tes 20, 40 dan 60 item, dengan heterogenitas tingkat kesukaran dan daya
pembeda 0,025, 0,10 dan 0, 20. Software komputer yang digunakan adalah
Mplus, dengan bantuan estimator Bayesian. Untuk mengetahui apakah terdapat
perbedaan atau bias antara first order dan second order maka yang dilihat
nilai mean yang dihasilkan lebih besar dari nol. Hasil penelitian ini
menunjukan: (1) semua model unidimensional pada second order namun
dianalisis sebagai unidimensional pada first order hasil yang diperoleh
mengenai theta ( atau kemampuan responden) tidak memberikan gambaran
yang sebenarnya, karena terdapat bias atau perbedaan dari nilai mean yang
dihasilkan lebih besar dari nol; (2) bias atau perbedaan dari theta ( atau
kemampuan responden) paling besar dihasilkan oleh panjang tes 20 item
dengan daya pembeda 0.20 dan tingkat kesukaran 0,10 sedangkan bias atau
perbedaan dari theta ( atau kemampuan responden) paling kecil dihasilkan
oleh panjang tes 60 item dengan daya pembeda dan tingkat kesukaran 0,20; (3)
disamping itu, berdasarkan hasil perhitungan diperoleh R square sebesar
0.130, hal ini berarti 13% bias responden dapat dijelaskan oleh bervariasinya
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 243
panjang tes, heterogenitas tingkat kesukaran dan daya pembeda dengan indeks
signifikansi sebesar 0.007 (p < 0.05). Dengan demikian apabila data
unidimensional pada second order namun menganalisisnya hanya pada first
order unidimensional menghasilkan bias serta tidak memberikan gambaran
seutuhnya mengenai kemampuan responden. Kalaupun tetap memberlakukan
first order pada data unidimensional second order, bias paling kecil diperoleh
dengan panjang tes yang lebih besar. Dalam penelitian ini tes dengan panjang
60 item bias yang dihasilkan lebih rendah dibandingkan tes dengan panjang 20
item.
244 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
dalam teori tes klasik (observed score baru), qualification testing (meng-
= X) terdiri dari skor sebenarnya (true kualifikasikan seseorang sesuai pada
score = T) dan skor kesalahan (error level-level tertentu), evaluasi program
score = E). Nilai true score dan assessment, bidang klinis serta
merupakan nilai rata-rata yang metode pengukuran dan penelitian.
diperoleh dari pengulangan tes IRT digunakan secara luas dalam
menggunakan soal tes yang sama, dan pengembangan tes, analisis dan
menentukan kemampuan peserta tes seleksi item, penyetaraan tes, analisis
dengan cara menjumlahkan skor bias item sampai dengan tes adaptif
amatan yang diperoleh peserta. Hal secara komputer atau computerized
ini dapat dilakukan apabila item-item adaptive test, CAT (du Toit, 2003).
di dalamnya memiliki tingkat Pendekatan teori tes klasik dan
kesukaran dan daya pembeda nilai IRT memiliki sudut pandang yang
yang sama serta uni-dimensional. Jika berbeda, tes klasik lebih berorientasi
kondisi di atas dapat terpenuhi, maka kepada test secara keseluruhan
skor pada item-item tersebut dapat sedangkan IRT memfokuskan pada
langsung dihitung dengan item IRT (pola jawaban responden).
menjumlahkan semua skor pada item Menurut Hambleton (1991) keung-
tersebut artinya skor total atau skor gulan yang dimiliki IRT antara lain:
mentah tanpa pembobotan (Umar, (a) karakteristik item tidak tergantung
2012). Namun, kenyataannya pada responden; (b) nilai kemampuan
unidimensional test sulit terpenuhi responden tidak tergantung pada tes
karena tingkat kesukaran dan daya yang dikerjakan; (c) model lebih
pembeda yang bervariasi. Apabila ini menekankan tingkatan (level) butir
digunakan maka dapat menimbulkan soal daripada tingkatan tes; (d) tidak
kerugian bagi pemakai hasil tes memerlukan tes paralel untuk
tersebut, terlebih lagi jika digunakan menghitung koefisien realibilitas; dan
untuk mengambil sebuah keputusan. (e) model menyediakan ukuran yang
Maka keputusan tersebut menjadi tepat untuk setiap skor kemampuan.
kurang valid, hasilnya bias, makin IRT memiliki dua postulat
besar penyimpangannya dan (Hambleton, 1991) yakni (a) performa
pemanfaatan raw score pada tes dari responden dapat diprediksi atau
klasik menjadi kurang bermanfaat. dijelaskan oleh sekumpulan faktor
Untuk mengatasi kelemahan yang disebut dengan traits, laten
teori tes klasik, maka berkembanglah traits atau kemampuan (b) hubungan
item response theory (IRT). Teori ini antara performa responden dalam
berkembang sangat pesat, tidak hanya item dengan performa responden
pada bidang pendidikan dan psikologi, dalam traits dapat dijelaskan melalui
namun digunakan juga pada fungsi yang disebut dengan item cha-
rekruitmen dan seleksi (misal, racteristic function atau item
penerimaan pegawai atau mahasiswa characteristic curve (ICC). Fungsi ini
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 245
menggambarkan bahwa semakin arbitrary symbol (bukan menunjukan
tinggi kemampuan seseorang maka skor yang teramati). Perbedaan ketiga
semakin besar kemungkinan atau model tersebut tergantung dari
peluang seseorang untuk menjawab banyaknya parameter yang digunakan
benar item tersebut. untuk menggambarkan karakteristik
Model yang digunakan dalam item dalam model.
item characteristic function atau item Model satu parameter logistik
characteristic curve (ICC) merupakan merupakan model yang sering
persamaan matematika yang meng- digunakan dalam IRT. Model ini
gambarkan hubungan antara kemung- disebut dengan model satu parameter
kinan jawaban yang benar dan karena hanya terdapat satu parameter
kemampuan responden. Pada mulanya item didalamnya yakni tingkat
bentuk penyelesaian ICC meng- kesukaran item yang dinotasikan
gunakan model kurva normal, namun dengan huruf “b”. Jadi, kemungkinan
karena sulitnya penghitungan maka jawaban benar responden hanya
digunakanlah bentuk kurva logistik. ditentukan oleh tingkat kesukaran
Model logistik yang digunakan item, sedangkan daya beda dianggap
untuk data dikotomi dikenal dengan sama untuk semua item dalam sebuah
sebutan model satu, dua dan tiga tes. Dalam Hambleton, Swaminathan
parameter logistik. Perbedaan nama ini & Rogers (1991) persamaan model 1
dikarenakan jumlah parameter yang parameter logistik sebagai berikut:
e − bi
digunakan didalamnya yaitu tingkat =1+e − bi
i = 1, 2, … n
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 247
Hambleton, 1991) mengusulkan keuntungan karena lebih mudah
model dua parameter yang meng- dihitung dari pada kurva normal
gunakan item kurva karakteristik item ogive. Model logistik lebih
dengan fungsi distribusi logistik: "mathematically tractable" dari pada
model normal ogive karena normal
−
ogive melibatkan integrasi fungsi
=
1 +−
eksplisit dari parameter item dan
= 1, 2, … kemampuan. Penafsiran Pi (), bi, ai
Keterangan: dan pada dasarnya sama seperti
= probabilitas dari pada penafsiran dalam model normal
kemampuan responden ogive. Nilai konstanta D merupakan
() yang dapat menjawab faktor penyesuaian skala. Sehingga
item ke-i dengan benar perbedaan antara nomal ogive dan
= parameter daya pembeda logistik pada 2PL kurang dari 0.01
= parameter tingkat untuk semua nilai . Jadi apabila kita
kesukaran item menggunakan normal ogive dan
= jumlah item dalam tes logistik tidak memberikan perbedaan
e = nilai transedental yang berarti dan signifikan. Daya
(eksponen) sebesar 2.718 beda model 2 parameter dalam kurva
D = faktor penskalaan karakteristik item disebut dengan
sebesar 1.7 slope parameter¸sedangkan tingkat
kesukaran disebut dengan location
atau persamaan model 2 parameter yang dapat parameter.
ditulis dengan cara yang lain, apabila pembilang
dan penyebut dari persamaan di atas digantikan Model tiga parameter logistik
dengan − − , sehingga , menjadi: dapat diperoleh dari model dua
1
=
1+ − − parameter dengan menambahkan
Atau ditulis lebih sederhana menjadi parameter ketiga, dinotasikan ci.
− − -1
Bentuk matematis dari kurva logistik
= 1+
tiga parameter ditulis
Birnbaum menggantikan fungsi
distribusi dua parameter yang awalnya Pi () = ci + (1 – ci) P2 ()
fungsi normal ogive menjadi logistik
kumulatif dalam bentuk item kurva i = 1, 2, … n\
karakteristik. Kurva logistik memiliki Keterangan:
= probabilitas dari
responden dengan
kemampuan () untuk
dapat menjawab item ke-
i dengan benar
= parameter daya pembeda
248 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
= parameter tingkat mempengaruhi hasil estimasi kemam-
kesukaran item puan peserta tes (Lord & Novick
= parameter tebakan atau dalam Ching-Fung, 2002), tetapi
pseudo guessing beberapa faktor lain seperti dimensi
= jumlah item dalam tes dari tes, format jawaban responden,
dan jumlah sampel yang digunakan.
e = nilai transedental
Bahkan, keberhasilan dari IRT
(eksponen) sebesar 2.718
terletak pada prosedur yang memadai
D = faktor penskalaan yang digunakan dalam estimasi
sebesar 1.7 parameter tersebut.
Estimasi parameter dapat
Dalam hal kurvakarakteristik dilakukan dalam beberapa cara. Namun
item, parameter ini menyediakan yang paling banyak digunakan adalah
asimptot lebih tinggi dari 0 (nol) dan metode maximum likelihood.
mewakili probabilitas peserta ujian Estimasi maximum likelihood
dengan kemampuan sangat rendah membutuhkan jumlah sampel yang
untuk menjawab item dengan benar. cukup besar dan penggunaan estimasi
Parameter dimasukkan ke dalam ini dapat diaplikasikan dalam berbagai
model untuk memperhitungkan ke- model. Namun sebenarnya estimasi
mungkinan responden menebak dalam kemampuan individu dalam IRT tidak
tes yang itemnya bersifat pilihan hanya terbatas pada estimasi
ganda. Biasanya, diasumsikan sebagai maximum likelihood ada beberapa
nilai yang lebih kecil dari nilai yang prosedur estimasi lain diantaranya
akan terjadi jika peserta ujian regresi logistik (Reynolds, Perkins &
menebak secara acak pada item test. Brutten dalam Ching-Fung, 2002),
Lord (dalam Hambleton, minimum chi-quadrant (Zwinderman
Swaminathan & Rogers, 1991) men- & van der Wollenberg dalam Ching-
catat, bahwa fenomena ini mungkin Fung, 2002) dan prosedur estimasi
dapat dikaitkan dengan kecerdikan model Bayesian (Mislevy, Baker
pembuat item dalam mengembangkan dalam Ching-Fung, 2002). Namun,
pilihan (distractor atau pengecoh) penelitian kali ini menggunakan
yang menarik untuk dipilih tetapi estimasi Bayesian dikarenakan
tidak merupakan jawaban benar. terdapat beberapa situasi yang tidak
Untuk alasan seperti ini, tidak boleh dapat diselesaikan menggunakan
disebut "parameter menebak atau estimasi maximum likelihood.
guessing". Dalam Hambleton (1991)
Penggunaan model dan fungsi Likelihood (atau log-likelihood)
parameter item yang berbeda, akan memiliki keterbatasan seperti (a) ketika
menghasilkan estimasi kemampuan responden menjawab semua item
orang yang berbeda. Dalam IRT, tidak dengan benar atau salah, yang estimasi
hanya parameter item yang akan maximum likelihood-
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 249
nya dinyatakan = +∞ atau = -∞, dianggap konstan dan respon terhadap
(b) ketika terdapat beberapa pola setiap item yang dijawab adalah
respon yang aneh. Di samping itu, independent (tidak saling bergantung).
salah satu ciri dari estimasi maximum Kemampuan yang dinyatakan dalam
likelihood ialah asimptotik, dimana model adalah satu-satunya faktor yang
diperlukan sampel yang besar dan mempengaruhi respon peserta tes pada
menggunakan tes yang panjang (item butir-butir soal.
yang cukup banyak), sehingga theta Unidimensi dalam IRT meru-
(kemampuan responden) pada pakan syarat yang harus dipenuhi
estimasi maximum likelihood akan dimana item tersebut mendefinisikan
terdistribusi secara normal dan tidak satu konstruk utama atau dimensi.
bias. Namun pada kenyataannya Jika ada banyak item yang tidak
jarang ditemui bahwa estimasi sejajar dengan konstruk utama, maka
terhadap kemampuan responden dapat diartikan sebagai multidimensi
dilakukan dengan peserta yang dan lebih dari satu. Situasi IRT yang
jumlahnya ribuaan seperti pada memenuhi asumsi unidimensi atau
seleksi pegawai atau penerimaan homogenitas item jarang terjadi baik
mahasiswa baru dan menggunakan tes dalam bidang dipendidikan maupun
dengan jumlah item yang banyak psikologi. Hal ini mungkin dise-
(jarang menggunakan item di atas babkan selain dari faktor kognitif,
200). Untuk kondisi yang demikian juga dipengaruhi oleh personality
estimasi Bayesian lebih presisi responden dalam menjawab item per-
digunakan untuk mengestimasi tanyaan yakni kecepatan kerja,
kemampuan responden dalam jumlah instruksi yang ada, guessing atau
yang besar dengan item yang sedikit. kecenderungan menebak. Selain dari
Penjelasan mengenai estimator diri responden, faktor tersebut juga
Bayesian akan dipaparkan dalam bisa berasal dari rangsangan item soal
metode penelitian. yang sedang diberikan seperti
Selanjutnya, sebelum memper- panjangnya teks (pertanyaan ataupun
gunakan IRT (Hambleton, 1991) hal pernyataan yang ada), tabel, gambar,
yang terpenting harus diperhatikan peta, atau grafik yang tersaji pada
ialah terpenuhinya dua asumsi dasar soal. Sebagai contoh, tes matematika
yakni unidimensi (unidimensionality) dengan item pertanyaan yang sangat
dan independensi lokal (local panjang dan berbelit-belit akan
independence). Unidimensi diartikan menyebabkan responden (siswa) sulit
bahwa apa yang diukur melalui untuk memahami isi pertanyaan dari
beberapa kumpulan item atau soal soal tersebut, dan membutuhkan
hanya mengukur satu traits. kemampuan membaca yang cukup
Sedangkan, asumsi local-indepen- besar. Ketika berhadapan responden
dence dimaknai sebagai kemampuan dengan latar belakang yang berbeda,
individu item dalam performa tes beberapa diantaranya mungkin cukup
250 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
mahir untuk membaca dan memahami persepsi mengenai sesuatu yang terdiri
soal cerita matematika, akibatnya dari beberapa dimensi diperlakukan
kemampuan membaca mungkin sebagai satu nilai. Misalnya skala
sekunder dimensi (Almond, Heath, kepribadian big five yang terdiri dari
Helwig, Rozek-Tedesco & Tindal, lima dimensi yakni neuroticism,
dalam Bo Zhang, 2008). Disamping extraversion, openness to
itu, adanya gambar, tabel, grafik atau experience, agreeableness, dan
peta yang ada pada soal untuk conscientiousness, diperlakukan de-
menyelesaikan pertanyaan akan ngan menskor semua item pernyataan
menyulitkan siswa dengan kemam- sebagai satu kesatuan.
puan imajinasi gambar yang lemah. Sebagian besar sistem pen-
Ketika asumsi unidimensional skoran masih memperlakukan uni-
sudah terpenuhi, tahapan selanjutnya dimensional first order terhadap tes
ialah bagaimana memperlakukan yang didalamnya terdiri dari beberapa
penskoringan unidimensional pada dimensi. Lalu bagaimana hasilnya jika
sebuah tes apabila terdapat beberapa scoring atau penskoran diperlakukan
dimensi yang membentuk di dengan cara unidimen-sional second
dalamnya. Hal yang biasa dan paling order. Ini diartikan bahwa sebuah tes
sering dilakukan ialah memper- yang terdiri dari beberapa dimensi di
lakukannya dan menganggap sebagai dalamnya, terlebih dahulu diskor pada
unidimensional pada tingkat pertama dimensi masing-masing, kemudian nilai
atau first order. Seperti yang kesemua dimensi tersebut diestimasi
dilakukan oleh guru-guru di sekolah untuk mendapatkan nilai kumulatif dari
misalnya pada pelajaran bahasa kesemua dimensi yang ada sehingga
inggris materi yang diujikan terdiri nilai inilah yang dianggap sebagai
dari reading, listening dan writing, kemampuan respon-den pada tes
ataupun pelajaran matematika yang tersebut. Unidimensional second order
terdiri dari beberapa sub materi rasanya belum sering ditemui
misalnya logartima, persamaan fungsi dilapangan. Untuk evaluasi belajar di
kuadrat, trigonometri dan ruang tiga sekolah, unidimensional second order
dimensi. Sebagai nilai akhir, guru sebaiknya dilakukan karena apabila
hanya memberikan satu nilai tiap guru memberikan penilaian terhadap
pelajaran tertentu dari beberapa sub sub-bab atau dimensi dan tidak
materi yang diujikan didalamnya. langsung mem-berikan final score,
Tidak hanya bidang pendidikan yang maka dapat membantu siswa menge-
memperlakukan kondisi tersebut, tahui dimana letak kekurangan atau
namun untuk bidang psikologi hal ini ketidak-mampuan pada sub-bab
tampaknya juga masih banyak tertentu.
diterapkan. Seorang peneliti masih Unidimensional second order
menskor sebuah skala yang digunakan ialah model pengukuran yang terdiri
untuk mengukur perilaku ataupun dari dua tingkat. Tingkat pertama
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 251
menjelaskan hubungan antara variabel second order, yang biasanya
observed atau variabel measured diagonal
dengan variabel laten, sedangkan pada € = matrik kovarians dari
tingkat kedua menjelaskan hubungan komponen unik atau error pada
antara variabel laten di tingkat first order, dimana baris dan
pertama dengan variabel laten di kolom pada matriks
tingkat ke dua (Joreskog dan Sorbom, merupakan banyaknya error,
1996). Persamaan analisis faktor biasanya juga diagonal
second order model y, yakni
Gambar di bawah ini adalah
Y = y ( + ) + € bentuk dari analisis faktor model y
Keterangan: dengan first order faktor dan error
y = matriks faktor loading dari first pengukuran € dengan Y sebagai
order, dimana baris dari variabel observednya, sehingga
matrik merupakan banyaknya menjadi Y = + €. Sekarang,
y
variabel observed dan kolom
dari matriks ialah banyaknya variabel digantikan dengan set
variabel laten. faktor dari , sehingga disebut dengan
= matriks faktor loading dari faktor second order, bahwa = +
second order, dimana baris . Dimana adalah matrix faktor
dari matrik merupakan loading second order dan adalah
banyaknya variabel laten pada vector dari variabel unik untuk .
Gabungan dari Y = y + € dan =
first order dan kolom dari
matriks ialah banyaknya + memberikan Y = y ( + ) +
variabel laten pada second € dengan matrik kovarians ∑ = y
order. ( + ) y + €. inilah yang
= vector dari faktor variabel digunakan untuk menguji Ho: S - =
latent pada second order 0.
= vector dari komponen unik
atau error pada second order
€ = vector dari komponen unik atau
error pada first order
= matriks kovarians dari faktor
variabel latent pada second
order, dimana baris dan kolom
pada matriks merupakan
banyaknya variabel laten pada
second order
= matriks kovarians dari kom-
ponen unik atau error pada
252 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
1
1 2
2
3
3
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 253
bantuan estimator Bayesian (Muthen, Rumusan di atas diperoleh karena
2010). Ide dasar estimator Bayesian P(B) dalam perhitungannya bersifat
adalah memodifikasi fungsi likelihood konstan. Di dalam rumus tersebut
dengan cara memasukkan informasi probabilitas P(AB) (posterior) adalah
sebelum kita mendapatkan parameter sama dengan likelihood dari data B
kemampuan. Prosedur bayesian meru- dalam kondisi berlakunya hipotesis A
pakan prosedur yang menggunakan (P(BA)) dikalikan (diboboti) dengan
atau menggabungkan pengetahuan probabilitas hipotesis A (prior).
subjektif (terdahulu) tentang para-meter Dengan kata lain probabilitas benar
yang akan ditaksir dengan informasi tidaknya hipotesis A dalam kondisi
yang diperoleh dari data sampel. data B sudah diperoleh (P(AB)),
Informasi terdahulu disebut disebut adalah sama dengan probabilitas dari
juga dengan informasi prior, diperoleh data dalam kondisi hipotesis A
dari distribusi parameter berlaku (likelihood) dikalikan dengan
tersebut. Informasi dari data probabilitas hipotesis A yang ber-
dirangkum dalam fungsi likelihood. dasarkan pengalaman atau penge-
Penggabungan dari informasi prior tahuan yang sudah ada sebelumnya
dan informasi dari data akan (prior). Pada konteks ini P(AB)
menghasilkan informasi posterior. disebut posterior. Sebagai kesimpulan
Teorema Bayes menyatakan atau ringkasnya, pobabilitas posterior
bahwa probabilitas kondisional adalah likelihood yang dikoreksi atau
(conditional probability) dari suatu disesuaikan dengan probabilitas prior
peristiwa A jika peristiwa B sudah (pengetahuan atau teori yang telah
terjadi (probabilitas terjadinya dimiliki sebelumnya).
peristiwa A jika kondisi B sudah Rumusan diatas dapat juga ditulis
diketahui) (Umar, 2012) adalah dalam bentuk:
posterior likelihood * prior
= ()
()
254 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
di mana f () adalah distribusi prior Panjang test yang disimulasi mewakili
dari hipotesis atau pengetahuan. test pendek dan tes panjang. Sesuai
Selanjutnya, karena f (u | ), pada dengan pernyataan Mislevy & Bock
kenyataannya adalah fungsi likelihood (1990), tes pendek merupakan tes
maka persamaan di atas dapat ditulis yang terdiri dari 11 sampai 20 soal,
sebagai: sedangkan tes panjang lebih dari 20
f ( u) L (u ) f () soal. Oleh sebab itu, dalam penelitian
Setelah menentukan software ini menggunakan 20, 40 dan 60. Tes
dengan estimator yang akan dengan panjang 20 mewakili tes
digunakan maka penelitian simulasi pendek sedangkan tes dengan panjang
ini melakukan beberapa langkah, 40 dan 60 mewakili tes panjang.
yakni. Heterogenitas tingkat kesukaran dan
Pertama, sesuai dengan tujuan daya pembeda ditentukan dengan nilai
penelitian simulasi, maka dibutuhkan varians 0,025, 0,10 dan 0,20.
desain penelitian yang nantinya akan Berdasarkan panjang tes, hetero-
mempermudah membangkitkan data genitas tingkat kesukaran dan daya
serta menganalsisnya. Independent pembeda akan ada 3 x 3 x 3 = 27
variable dalam penelitian ini ialah model data yang dibangkitkan seperti
panjang tes, heterogenitas tingkat tabel di bawah ini:
kesukaran dan daya pembeda.
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 255
faktor loading gamma () yakni dari terdapat perbedaan atau bias antara
eta () ke ksai (), dan jumlah first order dan second order pada data
responden yang sama pada setiap second order unidimensional, maka
model yakni empat dimensi dengan peneliti menghitung nilai selisih atau
1000 responden atau examinee. bias atau error atau deviasi dari
Kedua, untuk memastikan data analisis tersebut, dengan rumus:
Bias atau Deviasi = −
yang sudah dibangkitkan memiliki
model second order unidimensional Keterangan:
dilakukan uji exploratory factor
analysis (EFA) dan confirmatory factor = theta estimate (hasil analisis menggunakan
analysis (CFA) pada beberapa replikasi first order unidimensional)
= theta true (hasil analisis menggunakan
second order unidimensional)
di keseluruhan model. Hasil analisis
data menggunakan EFA dengan cara
melihat eigenvalue di atas satu harus Hasil analisis pada second order
sebanyak empat buah. Jika hal ini unidimensional data namun diper-
terjadi maka data yang berhasil lakukan sebagai first order unidimen-
dibangkitkan memiliki empat dimensi sional memiliki atau menghasilkan
pada second order unidimensional. bias atau deviasi jika hasil
Selanjutnya, untuk mengetahui apa-kah pengurangan theta estimate dengan
keempat dimensi tersebut theta true lebih besar dari nol. Namun
jika hasil pengurangan kedua theta
membentuk second order, maka
sama dengan nol maka tidak terdapat
dilakukan uji CFA. Hasil dari CFA
bias atau deviasi pada data second
yang membentuk second order
order unidimensional tetapi sering
ditunjukan P-Value di atas 0.05 (tidak
diperlakukan sebagai first order
signifikan). Ini artinya tidak ada
unidimensional.
perbedaan antara data replikasi
dengan model yang ada atau
diinginkan. Namun, apabila P-Value Hasil Penelitian
lebih kecil dari 0.05 maka data Di dalam setiap model terdiri
replikasi yang dibangkitkan tidak dari 50 replikasi, dimana tiap
membentuk second order unidimen- replikasinya akan memiliki mean dan
sional. standar deviasi dari 1000 bias
responden (dengan menggunakan
Ketiga, data second order
rumus di atas). Maka sebuah model
unidimensional yang sudah dibangkit-
akan memiliki 50 nilai mean dan
kan akan dianalisis sebagai first order
unidimensional dan second order
unidimensional. Nilai first order
dianggap sebagai estimate sedangkan
nilai second order dianggap sebagai
true score. Untuk melihat apakah
256 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
standar deviasi. Dari 50 nilai mean dihasilkan antar replikasi dalam
tersebut (antar replikasi) akan sebuah model. Berikut hasil
diperoleh nilai mean dan standar perhitungan mean dan standar deviasi
deviasi. Nilai ini yang digunakan dari mean bias responden antar
untuk melihat rata-rata bias yang replikasi untuk keseluruhan model:
Hasil nilai mean di atas order dengan second order pada data
memang tidak dibulatkan dua angka second order unidimensional. Per-
dibelakang koma dikarenakan bedaan diantara 27 model tidak terlalu
perbedaan mean yang dihasilkan oleh bervariasi karena nilai yang
setiap model nantinya tidak terlihat dihasilkan berkisar antara 0.211427
jelas. Pada tabel di atas dapat dilihat hingga 0.249048. Untuk lebih
nilai mean bias antar replikasi untuk jelasnya berikut grafik mean dari
27 model, lebih besar dari nol artinya mean bias responden antar replikasi:
terdapat perbedaan antara analisis first
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 257
Dari grafik di atas, dapat dilihat dari mean bias responden antar
bahwa puncak tertinggi hasil replikasi untuk semua model
penghitungan mean dari mean bias perbedaannnya tidak terlalu jauh. Hal
responden antar replikasi terdapat pada ini dapat dilihat penurunan grafik
panjang tes 20 item dengan model CB tidak terlalu curam dan nilai mean
(daya beda 0.20 dan tingkat kesukaran pada grafik berkisar antara 0.25
0.025), sedangkan titik terendah dari hingga 0.21.
grafik tersebut terdapat pada tes dengan Dari nilai mean di atas, dapat
panjang 60 item model CC (daya beda dikelompokan menjadi mean tinggi,
dan tingkat mean sedang dan mean rendah, seperti
kesukaran 0.20). Namun apabila dapat dilihat pada tabel di bawah ini:
dilihat secara kasat mata nilai mean
TK Panjang Tes
20 40 60
DB 0.025 0.10 0.20 0.025 0.10 0.20 0.025 0.10 0.20
0.025
0.10
0.20 Tinggi Rendah
Keterangan:
Mean bias tinggi
Mean bias sedang
Mean bias rendah
258 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
beda 0.10 & tingkat kesukaran 0.025), replikasi satu dengan yang lainnya
BB (daya beda & tingkat kesukaran dalam setiap model yang ada, maka
0.10) dan CB (daya beda 0.20 & dihitung standar deviasi dari mean
tingkat 0.10). bias responden antar replikasi untuk
Selanjutnya untuk melihat keseluruhan model, seperti table di
bagaimana fluktuasi atau bervariasi- bawah ini:
nya mean bias responden antar
TK Panjang Tes
20 40 60
DB 0.025 0.10 0.20 0.025 0.10 0.20 0.025 0.10 0.20
0.025 0.009926 0.011219 0.011182 0.007313 0.007838 0.008194 0.007809 0.008884 0.007998
0.10 0.010318 0.015945 0.009668 0.007102 0.008980 0.008862 0.009578 0.007032 0.008538
0.20 0.008626 0.106832 0.011850 0.007547 0.009967 0.015140 0.007750 0.010622 0.007175
Dari tabel di atas dapat dilihat dengan nilai 0.106832 ada pada
bahwa standar deviasi dari mean bias model 20-CB yakni panjang tes 20
responden antar replikasi yang item, daya beda 0.20 dan tingkat
dihasilkan sangat kecil bahkan kesukaran 0.10. Sedangkan nilai
mendekati nol. Ini artinya mean bias standar deviasi dari mean bias
antar replikasi satu dengan yang responden antar replikasi paling kecil
lainnya sebanyak 50 kali replikasi dengan nilai 0.007032 dihasilkan pada
dalam setiap model tidak bervariasi panjang tes 60 item dengan daya beda
atau homogen, apabila diteruskan dan tingkat kesukaran 0.10. Untuk
untuk mereplikasi maka nilai mean lebih jelas melihat bagaimana
bias yang dihasilkan akan sama. perbedaan standar deviasi dari mean
Namun jika dilihat pada tabel nilai bias responden antar replikasi dalam
standar deviasi dari mean bias setiap model, maka peneliti sertakan
responden antar replikasi paling besar grafik dari nilai tersebut di bawah ini:
BB-60
AB-
AA-
AC-
CC-
CA-
CB-
CB-
BC-
BB-
BC-
BC-
CC-
20
40
60
40
60
20
40
40
40
60
60
60
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 259
Pada grafik jelas terlihat dengan nilai antara 0.20 hingga
panjang tes 20 item dengan model CB mendekati 0.00.
(daya beda 0.20 dan tingkat kesukaran Nilai mean bias responden antar
0.10) memiliki puncak yang paling replikasi dalam setiap model dapat
tinggi. Sedangkan titik terendah dari digunakan untuk mengetahui sejauh
grafik dimiliki oleh model 60-BB apa interaksi dari pengaruh
yakni panjang tes 60 item, daya beda heterogenitas daya pembeda, tingkat
dan tingkat kesukaran 0.10. kesukaran dan panjang tes serta
Penurunan grafik terlihat jelas dari pengaruh heterogenitas tingkat
model 20-CB ke model 20-BB dari kesukaran dan panjang tes jika daya
sekitar nilai 0.10 ke 0.02, namun pembeda dalam nilai yang sama.
setelah itu grafik terlihat konstan Berikut hasil penghitungannya:
Dari tabel di atas dapat second order pada data second order
diketahui bahwa interaksi antara unidimensional.
panjang tes, heterogenitas daya beda
dan tingkat kesukaran memiliki nilai Kesimpulan
R2 = 0.130 dan nilai signifikansi = Penelitian yang dilakukan
0.007. Maka dapat dikatakan bahwa terhadap second order unidimensional
pengaruh panjang tes, heterogenitas data namun sering diperlakukan
daya beda dan tingkat kesukaran bisa sebagai first order unidimensional
meramalkan 13% dari mean bias atau menghasilkan kesimpulan: (1) ter-
perbedaan antara first order dengan dapat bias atau perbedaan antara
260 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
keduanya sehingga theta ( atau terdapat bias sehingga hasil yang ada
kemampuan responden) yang dipe- tidak memberikan gambaran seutuh-
roleh atau dihasilkan melalui analisis nya mengenai kemampuan responden
first order unidimensional tidak yang sedang dianalisis. Kalaupun
menggambarkan keadaan yang tetap memberlakukan first order pada
sebenarnya; (2) setiap replikasi dari data unidimensional second order
keseluruhan model percobaan bias paling kecil diperoleh dengan
menghasilkan nilai lebih besar dari panjang tes yang lebih besar. Dalam
nol artinya setiap replikasi yang penelitian ini tes dengan panjang 60
dilakukan menunjukan bias antara item bias yang dihasilkan lebih rendah
first order dengan second order; (3) dibandingkan tes dengan panjang 20
dari 27 model percobaan, secara rata- item.
rata mean bias paling besar dihasilkan Rekomendasi untuk penelitian
panjang tes yang paling kecil yakni 20 berikutnya yang tertarik mengadakan
item dengan tingkat kesukaran 0,10 penelitian dengan studi simulasi
dan daya beda 0,20, sedangkan mean Monte Carlo menggunakan model
bias paling kecil dihasilkan oleh second order unidimensional dapat
panjang tes paling besar yakni 60 item melihat pengaruh dari variabel-
dengan tingkat kesukaran dan daya variabel lain, seperti bagaimanakah
pembeda 0,20; (4) dilihat dari pengaruh jumlah responden, pengaruh
kelompok mean tinggi, sedang dan jenis distribusi, pengaruh jumlah
rendah, secara rata-rata maka tes dimensi atau faktor, atau pengaruh
dengan panjang 20 item akan tinggi rendahnya nilai faktor loading
menghasilkan mean bias tinggi dari gamma ().
keseluruhan model, mean bias sedang
dihasilkan oleh tes dengan panjang 40 Daftar Pusataka
item dan tes dengan panjang 60 item
Crocker, L., & Algina, J. (1986).
menghasilkan mean bias rendah; (5)
Introduction to classical and
terdapat interaksi yang signifikan
modern test theory. Florida:
antara panjang tes, heterogenitas
Harcourt Brace Jovanich Collage
tingkat kesukaran dan daya beda
Publish.
sebesar 13% dari mean bias atau
du Toit, ME. (2003). IRT from SSI:
perbedaan antara first order dengan
Bilog-MG, Multilog, Parscale,
second order pada data second order
Testfact. Lincolnwood, IL:
unidimensional.
Scientific Software International.
Bagi para peneliti atau Embretson, S.E., & Reise, S. P.
mahasiswa yang memiliki data (2000). Item response theory for
unidimensional pada second order psychology. London: Lawrence
namun menganalisisnya hanya pada Erlbaum Associates, Publishers.
first order unidimensional alangkah
baiknya hal ini tidak dilakukan karena
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 261
Fung, C. (2002). Ability Estimation Mislevy, R.J. & Bock, R.D. (1990).
Under Different Item BILOG 3: Item analysis & test
Parameterization And Scoring scoring with binary logistic
Models. Dissertation, University models. Moorseville: Scientific
of North Texas. Software, Inc.
Hambleton, R.K., & Swaminathan, H. Muthen, L.K., & Muthen, B.O.
(1985). Item response theory, (2010). Mplus, statistical analysis
principle and application. with latent variables user’s
Boston: Kluwer Nijhoff guide. Los Angeles: StatModel.
Publishing. Umar, J. (2012). Bahan kuliah
Hambleton, R.K., Swaminathan, H., psikometri: Analisis Faktor.
& Rogers, J.H. (1991). Jakarta: Tidak dipublikasikan.
Fundamentals of item response Umar, J. (2012). Mengenal lebih
theory. California: SAGE dekat konsep reliabilitas skor tes.
Publications. Jurnal Pengukuran Psikologi dan
Joreskog, K.G., & Sorbom, Dag. Pendidikan Indonesia. 1: No. 2.
(1996). Lisrel 8, User’s Zhang, B. (2008). Application of
Reference Guide. Chicago: SSI, Unidimensional Item Response
Inc (Scientific Software Models to Test With Item s
International). Sensitive to Secondary
Kaplan, R.M., & Saccuzo, D.P. Dimension. The Journal of
(1993). Psychological Testing: Experimental Education. 77(2),
Principles, Applications, and 147-166
Issues.Third edition.California:
Brooks/Cole Publishing.
262 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012