1 PB

ESTIMASI TRUE SCORE
PADA SECOND ORDER UNIDIMENSIONAL

DATA: SEBUAH STUDI SIMULASI MONTE
CARLO TENTANG DAMPAK PANJANG TES,
TINGKAT KESUKARAN DAN DAYA PEMBEDA
ITEM
Puti Febrayosi
Fakultas Psikologi UIN Jakarta
Abstrak:
Tujuan penelitian ini adalah untuk mengetahui apakah terdapat perbedaan
atau bias pada data unidimensional second order namun sering diperlakukan
sebagai unidimensional hanya pada tingkat pertama atau first order, serta
mengetahui sejauh mana pengaruh panjang tes, heterogenitas tingkat
kesukaran dan daya pembeda apabila terdapat perbedaan atau bias terhadap
kemampuan responden. Penelitian ini merupakan penelitian simulasi Monte
Carlo dengan 27 model percobaan dan setiap model direplikasi sebanyak 50
kali. Model second order unidimensional yang dibangkitkan memiliki panjang
tes 20, 40 dan 60 item, dengan heterogenitas tingkat kesukaran dan daya
pembeda 0,025, 0,10 dan 0, 20. Software komputer yang digunakan adalah
Mplus, dengan bantuan estimator Bayesian. Untuk mengetahui apakah terdapat
perbedaan atau bias antara first order dan second order maka yang dilihat
nilai mean yang dihasilkan lebih besar dari nol. Hasil penelitian ini
menunjukan: (1) semua model unidimensional pada second order namun
dianalisis sebagai unidimensional pada first order hasil yang diperoleh
mengenai theta ( atau kemampuan responden) tidak memberikan gambaran
yang sebenarnya, karena terdapat bias atau perbedaan dari nilai mean yang
dihasilkan lebih besar dari nol; (2) bias atau perbedaan dari theta ( atau
kemampuan responden) paling besar dihasilkan oleh panjang tes 20 item
dengan daya pembeda 0.20 dan tingkat kesukaran 0,10 sedangkan bias atau
perbedaan dari theta ( atau kemampuan responden) paling kecil dihasilkan
oleh panjang tes 60 item dengan daya pembeda dan tingkat kesukaran 0,20; (3)
disamping itu, berdasarkan hasil perhitungan diperoleh R square sebesar
0.130, hal ini berarti 13% bias responden dapat dijelaskan oleh bervariasinya
Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012 243
panjang tes, heterogenitas tingkat kesukaran dan daya pembeda dengan indeks
signifikansi sebesar 0.007 (p < 0.05). Dengan demikian apabila data
unidimensional pada second order namun menganalisisnya hanya pada first
order unidimensional menghasilkan bias serta tidak memberikan gambaran
seutuhnya mengenai kemampuan responden. Kalaupun tetap memberlakukan
first order pada data unidimensional second order, bias paling kecil diperoleh
dengan panjang tes yang lebih besar. Dalam penelitian ini tes dengan panjang
60 item bias yang dihasilkan lebih rendah dibandingkan tes dengan panjang 20
item.
Kata Kunci: second order unidimensional, panjang tes, tingkat kesukaran,

daya pembeda, dan monte carlo
Pendahuluan atau yang ingin diketahui. Analisis

terhadap kualitas item dilakukan baik
Secara sederhana, tes dide- secara kualitatif maupun kuantitatif.
finisikan sebagai alat ukur atau Analisis item secara kualitatif ialah
prosedur (Ronald, 2010), sedangkan mengkaji secara teoritik item tes yang
pengetesan (Kaplan, 1993) diartikan telah disusun, dengan memperhatikan
sebagai pengukuran atau teknik yang tiga aspek, yaitu aspek materi, aspek
digunakan untuk mengukur perilaku konstruksi, dan aspek bahasa.
atau membantu memahami dan Sedangkan analisis item secara
memprediksi perilaku. Pengetesan kuantitatif dapat menggunakan
baik di bidang pendidikan ataupun pendekatan teori tes klasik (classical
psikologi memiliki tujuan tertentu test theory) maupun teori respon item
seperti menempatkan seseorang pada (item response theory).
tempat yang tepat sesuai dengan Teori tes klasik merupakan
bidangnya, menjadi bahan per- sebuah teori yang sudah digunakan
timbangan untuk kebijakan yang akan dalam kurun waktu yang lama,
diambil, atau bahan evaluasi proses sehingga sebagian besar orang yang
belajar mengajar. Untuk itu tes yang terkait dengan dunia pendidikan dan
digunakan harus memiliki kualitas psikologi telah mengetahui dan
item yang baik dan berkualitas tinggi. memahami konsep serta penerapan-nya.
Analisis item bertujuan untuk Salah satu keunggulan dari tes ini
mengidentifikasi mana item-tem yang terletak pada konsepnya yang
baik, kurang ataupun tidak baik sama sederhana untuk menghitung koefisien
sekali, sehingga ketika digunakan validitas dan reliabilitas tes, parameter
hasil tes tersebut benar-benar sudah soal dan kemudahan menentukan
mengukur apa yang hendak diukur kemampuan peserta. Skor amatan
244 Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, Vol I, No 4, Oktober 2012
dalam teori tes klasik (observed score baru), qualification testing (meng-
= X) terdiri dari skor sebenarnya (true kualifikasikan seseorang sesuai pada
score = T) dan skor kesalahan (error level-level tertentu), evaluasi program
score = E). Nilai true score dan assessment, bidang klinis serta
merupakan nilai rata-rata yang metode pengukuran dan penelitian.
diperoleh dari pengulangan tes IRT digunakan secara luas dalam
menggunakan soal tes yang sama, dan pengembangan tes, analisis dan
menentukan kemampuan peserta tes seleksi item, penyetaraan tes, analisis
dengan cara menjumlahkan skor bias item sampai dengan tes adaptif
amatan yang diperoleh peserta. Hal secara komputer atau computerized
ini dapat dilakukan apabila item-item adaptive test, CAT (du Toit, 2003).
di dalamnya memiliki tingkat Pendekatan teori tes klasik dan
kesukaran dan daya pembeda nilai IRT memiliki sudut pandang yang
yang sama serta uni-dimensional. Jika berbeda, tes klasik lebih berorientasi
kondisi di atas dapat terpenuhi, maka kepada test secara keseluruhan
skor pada item-item tersebut dapat sedangkan IRT memfokuskan pada
langsung dihitung dengan item IRT (pola jawaban responden).
menjumlahkan semua skor pada item Menurut Hambleton (1991) keung-
tersebut artinya skor total atau skor gulan yang dimiliki IRT antara lain:
mentah tanpa pembobotan (Umar, (a) karakteristik item tidak tergantung
2012). Namun, kenyataannya pada responden; (b) nilai kemampuan
unidimensional test sulit terpenuhi responden tidak tergantung pada tes
karena tingkat kesukaran dan daya yang dikerjakan; (c) model lebih
pembeda yang bervariasi. Apabila ini menekankan tingkatan (level) butir
digunakan maka dapat menimbulkan soal daripada tingkatan tes; (d) tidak
kerugian bagi pemakai hasil tes memerlukan tes paralel untuk
tersebut, terlebih lagi jika digunakan menghitung koefisien realibilitas; dan
untuk mengambil sebuah keputusan. (e) model menyediakan ukuran yang
Maka keputusan tersebut menjadi tepat untuk setiap skor kemampuan.
kurang valid, hasilnya bias, makin IRT memiliki dua postulat
besar penyimpangannya dan (Hambleton, 1991) yakni (a) performa
pemanfaatan raw score pada tes dari responden dapat diprediksi atau
klasik menjadi kurang bermanfaat. dijelaskan oleh sekumpulan faktor
Untuk mengatasi kelemahan yang disebut dengan traits, laten
teori tes klasik, maka berkembanglah traits atau kemampuan (b) hubungan
item response theory (IRT). Teori ini antara performa responden dalam
berkembang sangat pesat, tidak hanya item dengan performa responden
pada bidang pendidikan dan psikologi, dalam traits dapat dijelaskan melalui
namun digunakan juga pada fungsi yang disebut dengan item cha-
rekruitmen dan seleksi (misal, racteristic function atau item
penerimaan pegawai atau mahasiswa characteristic curve (ICC). Fungsi ini
menggambarkan bahwa semakin arbitrary symbol (bukan menunjukan
tinggi kemampuan seseorang maka skor yang teramati). Perbedaan ketiga
semakin besar kemungkinan atau model tersebut tergantung dari
peluang seseorang untuk menjawab banyaknya parameter yang digunakan
benar item tersebut. untuk menggambarkan karakteristik
Model yang digunakan dalam item dalam model.
item characteristic function atau item Model satu parameter logistik
characteristic curve (ICC) merupakan merupakan model yang sering
persamaan matematika yang meng- digunakan dalam IRT. Model ini
gambarkan hubungan antara kemung- disebut dengan model satu parameter
kinan jawaban yang benar dan karena hanya terdapat satu parameter
kemampuan responden. Pada mulanya item didalamnya yakni tingkat
bentuk penyelesaian ICC meng- kesukaran item yang dinotasikan
gunakan model kurva normal, namun dengan huruf “b”. Jadi, kemungkinan
karena sulitnya penghitungan maka jawaban benar responden hanya
digunakanlah bentuk kurva logistik. ditentukan oleh tingkat kesukaran
Model logistik yang digunakan item, sedangkan daya beda dianggap
untuk data dikotomi dikenal dengan sama untuk semua item dalam sebuah
sebutan model satu, dua dan tiga tes. Dalam Hambleton, Swaminathan
parameter logistik. Perbedaan nama ini & Rogers (1991) persamaan model 1
dikarenakan jumlah parameter yang parameter logistik sebagai berikut:
e  − bi
digunakan didalamnya yaitu tingkat  =1+e  − bi
i = 1, 2, … n
kesukaran, daya beda dan pseudo Keterangan:

guessing. Sedangkan untuk data = probabilitas bagi
politomi terdapat beberapa model yaitu responden dengan
partial credit model (PCM), graded kemampuan () untuk
response model (GRM), dan dapat menjawab item ke-
generalized partial credit model i dengan benar
(GPCM). Namun, penelitian kali ini = parameter tingkat
hanya memfokuskan pada pola respon kesukaran item i
dikotomi dengan menggunakan model = jumlah item dalam tes
dua parameter logistik. e = nilai transedental
Model logistik dalam IRT (eksponen) sebesar 2.718
memiliki persamaan bentuk umum = berbentuk kurva “huruf
(Crocker & Aligna, 1986) yakni:
x
S” yang memiliki nilai
Pg  =
1+ x antara 0 dan 1.
di mana e adalah dasar dari sistem
natural logaritma, x merupakan
Di bawah ini merupakan gambar kurva karakteristik item model 1PL
Gambar 2.1. Kurva karakteristik item model 1 parameter logistik
Parameter bi untuk item adalah mudah, dan nilai-nilai bi dekat +2.0

titik pada skala kemampuan dimana termasuk item yang sangat sulit.
probabilitas atau kemungkinan respon Pada model 2 parameter
yang benar sebesar 0.5. Parameter ini logistik, kemungkinan responden
menunjukkan posisi ICC dalam untuk menjawab benar ditentukan
kaitannya dengan skala kemampuan. oleh dua parameter yakni tingkat
Semakin besar nilai parameter bi, kesukaran dan daya pembeda. Setiap
semakin besar kemampuan yang item memiliki daya beda yang
diperlukan responden untuk memiliki berbeda-beda. Dalam Hambleton,
kesempatan 50% menjawab item Swaminathan & Rogers (1991)
dengan benar. Item dikatakan sulit apabila terdapat item dengan daya
apabila terletak di sebelah kanan atau pembeda besar maka kurva yang
lebih tinggi pada skala kemampuan; ditampilkan akan menanjak tajam,
sedangkan item yang mudah berada di dibandingkan item dengan daya
sebelah kiri atau di bawah pada skala pembeda kecil, yang kurvanya akan
kemampuan. Ketika nilai kemampuan lebih landai. Secara teoritis, nilai
dari kelompok diubah, sedemikian parameter daya pembeda terletak
sehingga nilai rata-rata menjadi 0 dan
diantara -∞ dan +∞, namun efektif
standar deviasi menjadi 1 (satu), maka
pada nilai 0 hingga 2. Model 2PL
nilai bi menjadi lebih bervariasi yang dikembangkan oleh Lord (dalam
(biasanya) berada pada interval -2 Hambleton, 1991) berdasarkan
sampai dengan +2. Nilai bi dekat -2.0 distribusi normal kumulatif (normal
maka termasuk item yang sangat ogive). Kemudian, Birnbaum (dalam
Hambleton, 1991) mengusulkan keuntungan karena lebih mudah
model dua parameter yang meng- dihitung dari pada kurva normal
gunakan item kurva karakteristik item ogive. Model logistik lebih
dengan fungsi distribusi logistik: "mathematically tractable" dari pada
model normal ogive karena normal
−
ogive melibatkan integrasi fungsi
=
1 +−
eksplisit dari parameter item dan
= 1, 2, … kemampuan. Penafsiran Pi (), bi, ai
Keterangan: dan  pada dasarnya sama seperti
= probabilitas dari pada penafsiran dalam model normal
kemampuan responden ogive. Nilai konstanta D merupakan
() yang dapat menjawab faktor penyesuaian skala. Sehingga
item ke-i dengan benar perbedaan antara nomal ogive dan
= parameter daya pembeda logistik pada 2PL kurang dari 0.01
= parameter tingkat untuk semua nilai . Jadi apabila kita
kesukaran item menggunakan normal ogive dan
= jumlah item dalam tes logistik tidak memberikan perbedaan
e = nilai transedental yang berarti dan signifikan. Daya
(eksponen) sebesar 2.718 beda model 2 parameter dalam kurva
D = faktor penskalaan karakteristik item disebut dengan
sebesar 1.7 slope parameter¸sedangkan tingkat
kesukaran disebut dengan location
atau persamaan model 2 parameter yang dapat parameter.
ditulis dengan cara yang lain, apabila pembilang
dan penyebut dari persamaan di atas digantikan Model tiga parameter logistik
dengan − − , sehingga , menjadi: dapat diperoleh dari model dua
1
=
1+ − − parameter dengan menambahkan
Atau ditulis lebih sederhana menjadi parameter ketiga, dinotasikan ci.
− − -1
Bentuk matematis dari kurva logistik
= 1+
tiga parameter ditulis
Birnbaum menggantikan fungsi
distribusi dua parameter yang awalnya Pi () = ci + (1 – ci) P2 ()
fungsi normal ogive menjadi logistik
kumulatif dalam bentuk item kurva i = 1, 2, … n\
karakteristik. Kurva logistik memiliki Keterangan:
= probabilitas dari
responden dengan
kemampuan () untuk
dapat menjawab item ke-
i dengan benar
= parameter daya pembeda
= parameter tingkat mempengaruhi hasil estimasi kemam-
kesukaran item puan peserta tes (Lord & Novick
= parameter tebakan atau dalam Ching-Fung, 2002), tetapi
pseudo guessing beberapa faktor lain seperti dimensi
= jumlah item dalam tes dari tes, format jawaban responden,
dan jumlah sampel yang digunakan.
e = nilai transedental
Bahkan, keberhasilan dari IRT
(eksponen) sebesar 2.718
terletak pada prosedur yang memadai
D = faktor penskalaan yang digunakan dalam estimasi
sebesar 1.7 parameter tersebut.
Estimasi parameter dapat
Dalam hal kurvakarakteristik dilakukan dalam beberapa cara. Namun
item, parameter ini menyediakan yang paling banyak digunakan adalah
asimptot lebih tinggi dari 0 (nol) dan metode maximum likelihood.
mewakili probabilitas peserta ujian Estimasi maximum likelihood
dengan kemampuan sangat rendah membutuhkan jumlah sampel yang
untuk menjawab item dengan benar. cukup besar dan penggunaan estimasi
Parameter dimasukkan ke dalam ini dapat diaplikasikan dalam berbagai
model untuk memperhitungkan ke- model. Namun sebenarnya estimasi
mungkinan responden menebak dalam kemampuan individu dalam IRT tidak
tes yang itemnya bersifat pilihan hanya terbatas pada estimasi
ganda. Biasanya, diasumsikan sebagai maximum likelihood ada beberapa
nilai yang lebih kecil dari nilai yang prosedur estimasi lain diantaranya
akan terjadi jika peserta ujian regresi logistik (Reynolds, Perkins &
menebak secara acak pada item test. Brutten dalam Ching-Fung, 2002),
Lord (dalam Hambleton, minimum chi-quadrant (Zwinderman
Swaminathan & Rogers, 1991) men- & van der Wollenberg dalam Ching-
catat, bahwa fenomena ini mungkin Fung, 2002) dan prosedur estimasi
dapat dikaitkan dengan kecerdikan model Bayesian (Mislevy, Baker
pembuat item dalam mengembangkan dalam Ching-Fung, 2002). Namun,
pilihan (distractor atau pengecoh) penelitian kali ini menggunakan
yang menarik untuk dipilih tetapi estimasi Bayesian dikarenakan
tidak merupakan jawaban benar. terdapat beberapa situasi yang tidak
Untuk alasan seperti ini, tidak boleh dapat diselesaikan menggunakan
disebut "parameter menebak atau estimasi maximum likelihood.
guessing". Dalam Hambleton (1991)
Penggunaan model dan fungsi Likelihood (atau log-likelihood)
parameter item yang berbeda, akan memiliki keterbatasan seperti (a) ketika
menghasilkan estimasi kemampuan responden menjawab semua item
orang yang berbeda. Dalam IRT, tidak dengan benar atau salah, yang estimasi
hanya parameter item yang akan maximum likelihood-
nya dinyatakan  = +∞ atau  = -∞, dianggap konstan dan respon terhadap
(b) ketika terdapat beberapa pola setiap item yang dijawab adalah
respon yang aneh. Di samping itu, independent (tidak saling bergantung).
salah satu ciri dari estimasi maximum Kemampuan yang dinyatakan dalam
likelihood ialah asimptotik, dimana model adalah satu-satunya faktor yang
diperlukan sampel yang besar dan mempengaruhi respon peserta tes pada
menggunakan tes yang panjang (item butir-butir soal.
yang cukup banyak), sehingga theta Unidimensi dalam IRT meru-
(kemampuan responden) pada pakan syarat yang harus dipenuhi
estimasi maximum likelihood akan dimana item tersebut mendefinisikan
terdistribusi secara normal dan tidak satu konstruk utama atau dimensi.
bias. Namun pada kenyataannya Jika ada banyak item yang tidak
jarang ditemui bahwa estimasi sejajar dengan konstruk utama, maka
terhadap kemampuan responden dapat diartikan sebagai multidimensi
dilakukan dengan peserta yang dan lebih dari satu. Situasi IRT yang
jumlahnya ribuaan seperti pada memenuhi asumsi unidimensi atau
seleksi pegawai atau penerimaan homogenitas item jarang terjadi baik
mahasiswa baru dan menggunakan tes dalam bidang dipendidikan maupun
dengan jumlah item yang banyak psikologi. Hal ini mungkin dise-
(jarang menggunakan item di atas babkan selain dari faktor kognitif,
200). Untuk kondisi yang demikian juga dipengaruhi oleh personality
estimasi Bayesian lebih presisi responden dalam menjawab item per-
digunakan untuk mengestimasi tanyaan yakni kecepatan kerja,
kemampuan responden dalam jumlah instruksi yang ada, guessing atau
yang besar dengan item yang sedikit. kecenderungan menebak. Selain dari
Penjelasan mengenai estimator diri responden, faktor tersebut juga
Bayesian akan dipaparkan dalam bisa berasal dari rangsangan item soal
metode penelitian. yang sedang diberikan seperti
Selanjutnya, sebelum memper- panjangnya teks (pertanyaan ataupun
gunakan IRT (Hambleton, 1991) hal pernyataan yang ada), tabel, gambar,
yang terpenting harus diperhatikan peta, atau grafik yang tersaji pada
ialah terpenuhinya dua asumsi dasar soal. Sebagai contoh, tes matematika
yakni unidimensi (unidimensionality) dengan item pertanyaan yang sangat
dan independensi lokal (local panjang dan berbelit-belit akan
independence). Unidimensi diartikan menyebabkan responden (siswa) sulit
bahwa apa yang diukur melalui untuk memahami isi pertanyaan dari
beberapa kumpulan item atau soal soal tersebut, dan membutuhkan
hanya mengukur satu traits. kemampuan membaca yang cukup
Sedangkan, asumsi local-indepen- besar. Ketika berhadapan responden
dence dimaknai sebagai kemampuan dengan latar belakang yang berbeda,
individu item dalam performa tes beberapa diantaranya mungkin cukup
mahir untuk membaca dan memahami persepsi mengenai sesuatu yang terdiri
soal cerita matematika, akibatnya dari beberapa dimensi diperlakukan
kemampuan membaca mungkin sebagai satu nilai. Misalnya skala
sekunder dimensi (Almond, Heath, kepribadian big five yang terdiri dari
Helwig, Rozek-Tedesco & Tindal, lima dimensi yakni neuroticism,
dalam Bo Zhang, 2008). Disamping extraversion, openness to
itu, adanya gambar, tabel, grafik atau experience, agreeableness, dan
peta yang ada pada soal untuk conscientiousness, diperlakukan de-
menyelesaikan pertanyaan akan ngan menskor semua item pernyataan
menyulitkan siswa dengan kemam- sebagai satu kesatuan.
puan imajinasi gambar yang lemah. Sebagian besar sistem pen-
Ketika asumsi unidimensional skoran masih memperlakukan uni-
sudah terpenuhi, tahapan selanjutnya dimensional first order terhadap tes
ialah bagaimana memperlakukan yang didalamnya terdiri dari beberapa
penskoringan unidimensional pada dimensi. Lalu bagaimana hasilnya jika
sebuah tes apabila terdapat beberapa scoring atau penskoran diperlakukan
dimensi yang membentuk di dengan cara unidimen-sional second
dalamnya. Hal yang biasa dan paling order. Ini diartikan bahwa sebuah tes
sering dilakukan ialah memper- yang terdiri dari beberapa dimensi di
lakukannya dan menganggap sebagai dalamnya, terlebih dahulu diskor pada
unidimensional pada tingkat pertama dimensi masing-masing, kemudian nilai
atau first order. Seperti yang kesemua dimensi tersebut diestimasi
dilakukan oleh guru-guru di sekolah untuk mendapatkan nilai kumulatif dari
misalnya pada pelajaran bahasa kesemua dimensi yang ada sehingga
inggris materi yang diujikan terdiri nilai inilah yang dianggap sebagai
dari reading, listening dan writing, kemampuan respon-den pada tes
ataupun pelajaran matematika yang tersebut. Unidimensional second order
terdiri dari beberapa sub materi rasanya belum sering ditemui
misalnya logartima, persamaan fungsi dilapangan. Untuk evaluasi belajar di
kuadrat, trigonometri dan ruang tiga sekolah, unidimensional second order
dimensi. Sebagai nilai akhir, guru sebaiknya dilakukan karena apabila
hanya memberikan satu nilai tiap guru memberikan penilaian terhadap
pelajaran tertentu dari beberapa sub sub-bab atau dimensi dan tidak
materi yang diujikan didalamnya. langsung mem-berikan final score,
Tidak hanya bidang pendidikan yang maka dapat membantu siswa menge-
memperlakukan kondisi tersebut, tahui dimana letak kekurangan atau
namun untuk bidang psikologi hal ini ketidak-mampuan pada sub-bab
tampaknya juga masih banyak tertentu.
diterapkan. Seorang peneliti masih Unidimensional second order
menskor sebuah skala yang digunakan ialah model pengukuran yang terdiri
untuk mengukur perilaku ataupun dari dua tingkat. Tingkat pertama
menjelaskan hubungan antara variabel second order, yang biasanya
observed atau variabel measured diagonal
dengan variabel laten, sedangkan pada € = matrik kovarians dari
tingkat kedua menjelaskan hubungan komponen unik atau error pada
antara variabel laten di tingkat first order, dimana baris dan
pertama dengan variabel laten di kolom pada matriks
tingkat ke dua (Joreskog dan Sorbom, merupakan banyaknya error,
1996). Persamaan analisis faktor biasanya juga diagonal
second order model y, yakni
Gambar di bawah ini adalah
Y = y ( + ) + € bentuk dari analisis faktor model y
Keterangan: dengan first order faktor  dan error
y = matriks faktor loading dari first pengukuran € dengan Y sebagai
order, dimana baris dari variabel observednya, sehingga
matrik merupakan banyaknya menjadi Y =   + €. Sekarang,
y
variabel observed dan kolom
dari matriks ialah banyaknya variabel  digantikan dengan set
variabel laten. faktor dari , sehingga disebut dengan
 = matriks faktor loading dari faktor second order, bahwa  =  +
 second order, dimana baris . Dimana  adalah matrix faktor
dari matrik merupakan loading second order dan  adalah
banyaknya variabel laten pada vector dari variabel unik untuk .
Gabungan dari Y = y  + € dan  =
 first order dan kolom dari
matriks ialah banyaknya  +  memberikan Y = y ( + ) +
variabel laten pada second € dengan matrik kovarians ∑ = y
order. ( + ) y + €.  inilah yang
 = vector dari faktor variabel digunakan untuk menguji Ho: S -  =
latent pada second order 0.
 = vector dari komponen unik
atau error pada second order
€ = vector dari komponen unik atau
error pada first order
 = matriks kovarians dari faktor
variabel latent pada second
 order, dimana baris dan kolom
pada matriks merupakan
banyaknya variabel laten pada
second order
 = matriks kovarians dari kom-
ponen unik atau error pada
1
1 2
2
3
3
Berdasarkan uraian di muka, sama seperti first order unidimen-

peneliti tertarik untuk melihat sional; (3) bagaimanakah pengaruh
bagaimanakah sebuah tes jika panjang tes, heterogenitas tingkat
memiliki model unidimensional kesukaran dan daya pembeda jika
second order namun biasanya terdapat bias antara second order
diperlakukan sebagai unidimensional unidimensional dan first order
first order. Peneliti tertarik untuk unidimensional.
menemukan jawaban dari beberapa
pertanyaan, diantaranya: (1) apakah Metode Penelitian
terdapat perbedaan hasil dalam Penelitian ini merupakan
mengestimasi kemampuan seseorang penelitian simulasi Monte Carlo yang
jika data yang ada memiliki model dirancang dan dibayangkan apabila
second order unidimensional, namun terjadi di dunia nyata atau sebenarnya.
diperlakukan sebagai first order Software yang digunakan untuk
unidimensional; (2) dalam kondisi membangkitkan data serta meng-
seperti apakah second order analisisnya sebagai first order dan
unidimensional bisa diperlakukan second order ialah MPlus dengan
bantuan estimator Bayesian (Muthen, Rumusan di atas diperoleh karena
2010). Ide dasar estimator Bayesian P(B) dalam perhitungannya bersifat
adalah memodifikasi fungsi likelihood konstan. Di dalam rumus tersebut
dengan cara memasukkan informasi probabilitas P(AB) (posterior) adalah
sebelum kita mendapatkan parameter sama dengan likelihood dari data B
kemampuan. Prosedur bayesian meru- dalam kondisi berlakunya hipotesis A
pakan prosedur yang menggunakan (P(BA)) dikalikan (diboboti) dengan
atau menggabungkan pengetahuan probabilitas hipotesis A (prior).
subjektif (terdahulu) tentang para-meter Dengan kata lain probabilitas benar
yang akan ditaksir dengan informasi tidaknya hipotesis A dalam kondisi
yang diperoleh dari data sampel. data B sudah diperoleh (P(AB)),
Informasi terdahulu disebut disebut adalah sama dengan probabilitas dari
juga dengan informasi prior, diperoleh data dalam kondisi hipotesis A
dari distribusi parameter berlaku (likelihood) dikalikan dengan
tersebut. Informasi dari data probabilitas hipotesis A yang ber-
dirangkum dalam fungsi likelihood. dasarkan pengalaman atau penge-
Penggabungan dari informasi prior tahuan yang sudah ada sebelumnya
dan informasi dari data akan (prior). Pada konteks ini P(AB)
menghasilkan informasi posterior. disebut posterior. Sebagai kesimpulan
Teorema Bayes menyatakan atau ringkasnya, pobabilitas posterior
bahwa probabilitas kondisional adalah likelihood yang dikoreksi atau
(conditional probability) dari suatu disesuaikan dengan probabilitas prior
peristiwa A jika peristiwa B sudah (pengetahuan atau teori yang telah
terjadi (probabilitas terjadinya dimiliki sebelumnya).
peristiwa A jika kondisi B sudah Rumusan diatas dapat juga ditulis
diketahui) (Umar, 2012) adalah dalam bentuk:

posterior  likelihood * prior
 = ()
()
Di dalam pendekatan bayesian, Ini diartikan bahwa likelihood dari

estimasi parameter pada sebuah data digunakan sebagai bahan untuk
model statistik, dilakukan dengan cara memperbaharui informasi prior
menyederhankan rumusan di atas sehingga menjadi sebuah informasi
menjadi persamaan yang bersifat posterior yang siap dipakai.
proporsionalnya yakni (Hambleton, Hubungan di atas juga berlaku untuk
1991): fungsi padat (densitas), dimana A
P (A  B)  P (B  A) P (A) adalah theta () dan B adalah pola
dimana simbol  diartikan sebagai respon item yang teramati (u). Dalam
“proporsional terhadap”, A sebagai Hambleton (1991) teorema bayes
hipotesis atau parameter sedangkan B dapat ditulis seperti dibawah ini
merupakan data yang diperoleh.
f ( u)  f (u ) f ()
di mana f () adalah distribusi prior Panjang test yang disimulasi mewakili
dari hipotesis atau pengetahuan. test pendek dan tes panjang. Sesuai
Selanjutnya, karena f (u | ), pada dengan pernyataan Mislevy & Bock
kenyataannya adalah fungsi likelihood (1990), tes pendek merupakan tes
maka persamaan di atas dapat ditulis yang terdiri dari 11 sampai 20 soal,
sebagai: sedangkan tes panjang lebih dari 20
f ( u)  L (u ) f () soal. Oleh sebab itu, dalam penelitian
Setelah menentukan software ini menggunakan 20, 40 dan 60. Tes
dengan estimator yang akan dengan panjang 20 mewakili tes
digunakan maka penelitian simulasi pendek sedangkan tes dengan panjang
ini melakukan beberapa langkah, 40 dan 60 mewakili tes panjang.
yakni. Heterogenitas tingkat kesukaran dan
Pertama, sesuai dengan tujuan daya pembeda ditentukan dengan nilai
penelitian simulasi, maka dibutuhkan varians 0,025, 0,10 dan 0,20.
desain penelitian yang nantinya akan Berdasarkan panjang tes, hetero-
mempermudah membangkitkan data genitas tingkat kesukaran dan daya
serta menganalsisnya. Independent pembeda akan ada 3 x 3 x 3 = 27
variable dalam penelitian ini ialah model data yang dibangkitkan seperti
panjang tes, heterogenitas tingkat tabel di bawah ini:
kesukaran dan daya pembeda.
Skema Simulasi Sebanyak 27 Model

TS Panjang Tes
20 40 60
DB 0,025 0,10 0,20 0,025 0,10 0,20 0,025 0,10 0,20
0,025 AA AB AC AA AB AC AA AB AC
0,10 BA BB BC BA BB BC BA BB BC
0,20 CA CB CC CA CB CC CA CB CC
Keterangan:
Panjang tes terdiri dari 20, 40 dan 60 item
DB = Daya beda dengan heterogenitas 0,025, 0,10 dan 0,20
TK = Tingkat kesukaran dengan heterogenitas 0,025, 0,10 dan 0,20
Keseluruhan model akan direplikasi Ching-Fung, 2002), ia melakukan

sebanyak 50 kali yang nantinya akan replikasi sebanyak 5 hingga 50 dan
dianalisis sebagai second order dan menemukan bahwa estimasi parame-
first order unidimensional data. ter kemampuan dan item akan stabil
Penentuan jumlah replikasi ini setelah direplikasi lebih dari 50 kali.
mengacu pada penelitian sebelumnya Sementara itu, dependent variabel
yang dilakukan oleh Kamata (dalam ialah jumlah dimensi, nilai muatan
faktor loading gamma () yakni dari terdapat perbedaan atau bias antara
eta () ke ksai (), dan jumlah first order dan second order pada data
responden yang sama pada setiap second order unidimensional, maka
model yakni empat dimensi dengan peneliti menghitung nilai selisih atau
1000 responden atau examinee. bias atau error atau deviasi dari
Kedua, untuk memastikan data analisis tersebut, dengan rumus:
Bias atau Deviasi =  − 
yang sudah dibangkitkan memiliki
model second order unidimensional Keterangan:
dilakukan uji exploratory factor
analysis (EFA) dan confirmatory factor  = theta estimate (hasil analisis menggunakan
analysis (CFA) pada beberapa replikasi  first order unidimensional)
 = theta true (hasil analisis menggunakan
second order unidimensional)
di keseluruhan model. Hasil analisis
data menggunakan EFA dengan cara
melihat eigenvalue di atas satu harus Hasil analisis pada second order
sebanyak empat buah. Jika hal ini unidimensional data namun diper-
terjadi maka data yang berhasil lakukan sebagai first order unidimen-
dibangkitkan memiliki empat dimensi sional memiliki atau menghasilkan
pada second order unidimensional. bias atau deviasi jika hasil
Selanjutnya, untuk mengetahui apa-kah pengurangan theta estimate dengan
keempat dimensi tersebut theta true lebih besar dari nol. Namun
jika hasil pengurangan kedua theta
membentuk second order, maka
sama dengan nol maka tidak terdapat
dilakukan uji CFA. Hasil dari CFA
bias atau deviasi pada data second
yang membentuk second order
order unidimensional tetapi sering
ditunjukan P-Value di atas 0.05 (tidak
diperlakukan sebagai first order
signifikan). Ini artinya tidak ada
unidimensional.
perbedaan antara data replikasi
dengan model yang ada atau
diinginkan. Namun, apabila P-Value Hasil Penelitian
lebih kecil dari 0.05 maka data Di dalam setiap model terdiri
replikasi yang dibangkitkan tidak dari 50 replikasi, dimana tiap
membentuk second order unidimen- replikasinya akan memiliki mean dan
sional. standar deviasi dari 1000 bias
responden (dengan menggunakan
Ketiga, data second order
rumus di atas). Maka sebuah model
unidimensional yang sudah dibangkit-
akan memiliki 50 nilai mean dan
kan akan dianalisis sebagai first order
unidimensional dan second order
unidimensional. Nilai first order
dianggap sebagai estimate sedangkan
nilai second order dianggap sebagai
true score. Untuk melihat apakah
standar deviasi. Dari 50 nilai mean dihasilkan antar replikasi dalam
tersebut (antar replikasi) akan sebuah model. Berikut hasil
diperoleh nilai mean dan standar perhitungan mean dan standar deviasi
deviasi. Nilai ini yang digunakan dari mean bias responden antar
untuk melihat rata-rata bias yang replikasi untuk keseluruhan model:
Mean dari Mean Bias Responden Antar Replikasi

TK Panjang Tes
20 40 60
DB 0.025 0.10 0.20 0.025 0.10 0.20 0.025 0.10 0.20
0.025 0.217970 0.221603 0.222158 0.214270 0.213413 0.213201 0.216436 0.216982 0.212910
0.10 0.221981 0.237308 0.226984 0.217351 0.222092 0.223161 0.224492 0.217380 0.214382
0.20 0.221388 0.249048 0.225523 0.219023 0.230012 0.240291 0.215902 0.220012 0.211427
Keterangan:
Panjang tes terdiri dari 20, 40 dan 60 item
DB = Daya beda dengan heterogenitas 0.025, 0.10 dan 0.20
TK = Tingkat kesukaran dengan heterogenitas 0.025, 0.10 dan 0.20
Hasil nilai mean di atas order dengan second order pada data
memang tidak dibulatkan dua angka second order unidimensional. Per-
dibelakang koma dikarenakan bedaan diantara 27 model tidak terlalu
perbedaan mean yang dihasilkan oleh bervariasi karena nilai yang
setiap model nantinya tidak terlihat dihasilkan berkisar antara 0.211427
jelas. Pada tabel di atas dapat dilihat hingga 0.249048. Untuk lebih
nilai mean bias antar replikasi untuk jelasnya berikut grafik mean dari
27 model, lebih besar dari nol artinya mean bias responden antar replikasi:
terdapat perbedaan antara analisis first
Mean dari mean antar replikasi

0.260000
0.250000
0.240000
0.230000
0.220000
0.210000
0.200000
0.190000
Dari grafik di atas, dapat dilihat dari mean bias responden antar
bahwa puncak tertinggi hasil replikasi untuk semua model
penghitungan mean dari mean bias perbedaannnya tidak terlalu jauh. Hal
responden antar replikasi terdapat pada ini dapat dilihat penurunan grafik
panjang tes 20 item dengan model CB tidak terlalu curam dan nilai mean
(daya beda 0.20 dan tingkat kesukaran pada grafik berkisar antara 0.25
0.025), sedangkan titik terendah dari hingga 0.21.
grafik tersebut terdapat pada tes dengan Dari nilai mean di atas, dapat
panjang 60 item model CC (daya beda dikelompokan menjadi mean tinggi,
dan tingkat mean sedang dan mean rendah, seperti
kesukaran 0.20). Namun apabila dapat dilihat pada tabel di bawah ini:
dilihat secara kasat mata nilai mean
TK Panjang Tes
20 40 60
DB 0.025 0.10 0.20 0.025 0.10 0.20 0.025 0.10 0.20
0.025
0.10
0.20 Tinggi Rendah
Keterangan:
Mean bias tinggi
Mean bias sedang
Mean bias rendah
Pada tabel di atas, mean di sebanyak dua model. Sedangkan

kelompok tinggi didominasi oleh tes untuk heterogenitas daya beda dan
dengan panjang 20 item dan 40 item, tingkat kesukaran yang tidak ada
hanya satu model dengan panjang tes dalam mean kelompok sedang ialah
60 item yang termasuk di dalamnya. model AC, BC dan CC (daya
Dilihat dari daya beda dan tingkat pembeda 0.025, 0.10 dan 0.20 dengan
kesukarannya dalam mean tinggi tidak tingkat kesukaran yang sama 0.20).
ada model dengan heterogenitas AA Untuk mean pada kelompok rendah
(daya beda 0.025 & tingkat kesukaran sangat didominasi dengan panjang tes
0.025), AB (daya beda 0.025 & tingkat 60 item sebanyak enam model, tiga
kesukaran 0.10) dan CA (daya beda model dengan jumlah item 40 dan tes
0.20 & tingkat kesukaran 0.025). Untuk dengan panjang 20 item tidak ada
mean di kelompok sedang, masih satupun di dalam kelompok mean
didominasi oleh model dengan panjang rendah. Heterogenitas daya pembeda
tes 20 item, panjang tes 40 item dan dan tingkat kesukaran yang tidak ada
panjang tes 60 item di kelompok tinggi yakni BA (daya
beda 0.10 & tingkat kesukaran 0.025), replikasi satu dengan yang lainnya
BB (daya beda & tingkat kesukaran dalam setiap model yang ada, maka
0.10) dan CB (daya beda 0.20 & dihitung standar deviasi dari mean
tingkat 0.10). bias responden antar replikasi untuk
Selanjutnya untuk melihat keseluruhan model, seperti table di
bagaimana fluktuasi atau bervariasi- bawah ini:
nya mean bias responden antar
TK Panjang Tes
20 40 60
DB 0.025 0.10 0.20 0.025 0.10 0.20 0.025 0.10 0.20
0.025 0.009926 0.011219 0.011182 0.007313 0.007838 0.008194 0.007809 0.008884 0.007998
0.10 0.010318 0.015945 0.009668 0.007102 0.008980 0.008862 0.009578 0.007032 0.008538
0.20 0.008626 0.106832 0.011850 0.007547 0.009967 0.015140 0.007750 0.010622 0.007175
Dari tabel di atas dapat dilihat dengan nilai 0.106832 ada pada
bahwa standar deviasi dari mean bias model 20-CB yakni panjang tes 20
responden antar replikasi yang item, daya beda 0.20 dan tingkat
dihasilkan sangat kecil bahkan kesukaran 0.10. Sedangkan nilai
mendekati nol. Ini artinya mean bias standar deviasi dari mean bias
antar replikasi satu dengan yang responden antar replikasi paling kecil
lainnya sebanyak 50 kali replikasi dengan nilai 0.007032 dihasilkan pada
dalam setiap model tidak bervariasi panjang tes 60 item dengan daya beda
atau homogen, apabila diteruskan dan tingkat kesukaran 0.10. Untuk
untuk mereplikasi maka nilai mean lebih jelas melihat bagaimana
bias yang dihasilkan akan sama. perbedaan standar deviasi dari mean
Namun jika dilihat pada tabel nilai bias responden antar replikasi dalam
standar deviasi dari mean bias setiap model, maka peneliti sertakan
responden antar replikasi paling besar grafik dari nilai tersebut di bawah ini:
Standar deviasi dari mean antar replikasi

0.120000
0.100000
0.080000
0.060000
0.040000
STD
0.020000
0.000000
CB-20
BB-60
AB-
AA-
AC-
CC-
CA-
CB-
CB-
BC-
BB-
BC-
BC-
CC-
20
40
60
40
60
20
40
40
40
60
60
60
Pada grafik jelas terlihat dengan nilai antara 0.20 hingga
panjang tes 20 item dengan model CB mendekati 0.00.
(daya beda 0.20 dan tingkat kesukaran Nilai mean bias responden antar
0.10) memiliki puncak yang paling replikasi dalam setiap model dapat
tinggi. Sedangkan titik terendah dari digunakan untuk mengetahui sejauh
grafik dimiliki oleh model 60-BB apa interaksi dari pengaruh
yakni panjang tes 60 item, daya beda heterogenitas daya pembeda, tingkat
dan tingkat kesukaran 0.10. kesukaran dan panjang tes serta
Penurunan grafik terlihat jelas dari pengaruh heterogenitas tingkat
model 20-CB ke model 20-BB dari kesukaran dan panjang tes jika daya
sekitar nilai 0.10 ke 0.02, namun pembeda dalam nilai yang sama.
setelah itu grafik terlihat konstan Berikut hasil penghitungannya:
Type III Mean

Source df F Sig.
Sum of Squares Square
Corrected model .102a 26 .004 7.635 .000
Intercept 66.372 1 66.372 129380.222 .000
Item .025 2 .012 24.005 .000
Dayabeda .020 2 .010 19.703 .000
Kesukaran .010 2 .005 9.683 .000
Item * Dayabeda .011 4 .003 5.254 .000
Item * Kesukaran .018 4 .005 8.858 .000
Dayabeda * Kesukaran .007 4 .002 3.514 .007
Item * Dayabeda * Kesukaran .011 8 .001 2.654 .007
Error .679 1323 .001
Total 67.152 1350
Corrected Total .781 1349
a. R Squared = .130 (Adjusted R Squared = .113)
Dari tabel di atas dapat second order pada data second order
diketahui bahwa interaksi antara unidimensional.
panjang tes, heterogenitas daya beda
dan tingkat kesukaran memiliki nilai Kesimpulan
R2 = 0.130 dan nilai signifikansi = Penelitian yang dilakukan
0.007. Maka dapat dikatakan bahwa terhadap second order unidimensional
pengaruh panjang tes, heterogenitas data namun sering diperlakukan
daya beda dan tingkat kesukaran bisa sebagai first order unidimensional
meramalkan 13% dari mean bias atau menghasilkan kesimpulan: (1) ter-
perbedaan antara first order dengan dapat bias atau perbedaan antara
keduanya sehingga theta ( atau terdapat bias sehingga hasil yang ada
kemampuan responden) yang dipe- tidak memberikan gambaran seutuh-
roleh atau dihasilkan melalui analisis nya mengenai kemampuan responden
first order unidimensional tidak yang sedang dianalisis. Kalaupun
menggambarkan keadaan yang tetap memberlakukan first order pada
sebenarnya; (2) setiap replikasi dari data unidimensional second order
keseluruhan model percobaan bias paling kecil diperoleh dengan
menghasilkan nilai lebih besar dari panjang tes yang lebih besar. Dalam
nol artinya setiap replikasi yang penelitian ini tes dengan panjang 60
dilakukan menunjukan bias antara item bias yang dihasilkan lebih rendah
first order dengan second order; (3) dibandingkan tes dengan panjang 20
dari 27 model percobaan, secara rata- item.
rata mean bias paling besar dihasilkan Rekomendasi untuk penelitian
panjang tes yang paling kecil yakni 20 berikutnya yang tertarik mengadakan
item dengan tingkat kesukaran 0,10 penelitian dengan studi simulasi
dan daya beda 0,20, sedangkan mean Monte Carlo menggunakan model
bias paling kecil dihasilkan oleh second order unidimensional dapat
panjang tes paling besar yakni 60 item melihat pengaruh dari variabel-
dengan tingkat kesukaran dan daya variabel lain, seperti bagaimanakah
pembeda 0,20; (4) dilihat dari pengaruh jumlah responden, pengaruh
kelompok mean tinggi, sedang dan jenis distribusi, pengaruh jumlah
rendah, secara rata-rata maka tes dimensi atau faktor, atau pengaruh
dengan panjang 20 item akan tinggi rendahnya nilai faktor loading
menghasilkan mean bias tinggi dari gamma ().
keseluruhan model, mean bias sedang
dihasilkan oleh tes dengan panjang 40 Daftar Pusataka
item dan tes dengan panjang 60 item
Crocker, L., & Algina, J. (1986).
menghasilkan mean bias rendah; (5)
Introduction to classical and
terdapat interaksi yang signifikan
modern test theory. Florida:
antara panjang tes, heterogenitas
Harcourt Brace Jovanich Collage
tingkat kesukaran dan daya beda
Publish.
sebesar 13% dari mean bias atau
du Toit, ME. (2003). IRT from SSI:
perbedaan antara first order dengan
Bilog-MG, Multilog, Parscale,
second order pada data second order
Testfact. Lincolnwood, IL:
unidimensional.
Scientific Software International.
Bagi para peneliti atau Embretson, S.E., & Reise, S. P.
mahasiswa yang memiliki data (2000). Item response theory for
unidimensional pada second order psychology. London: Lawrence
namun menganalisisnya hanya pada Erlbaum Associates, Publishers.
first order unidimensional alangkah
baiknya hal ini tidak dilakukan karena
Fung, C. (2002). Ability Estimation Mislevy, R.J. & Bock, R.D. (1990).
Under Different Item BILOG 3: Item analysis & test
Parameterization And Scoring scoring with binary logistic
Models. Dissertation, University models. Moorseville: Scientific
of North Texas. Software, Inc.
Hambleton, R.K., & Swaminathan, H. Muthen, L.K., & Muthen, B.O.
(1985). Item response theory, (2010). Mplus, statistical analysis
principle and application. with latent variables user’s
Boston: Kluwer Nijhoff guide. Los Angeles: StatModel.
Publishing. Umar, J. (2012). Bahan kuliah
Hambleton, R.K., Swaminathan, H., psikometri: Analisis Faktor.
& Rogers, J.H. (1991). Jakarta: Tidak dipublikasikan.
Fundamentals of item response Umar, J. (2012). Mengenal lebih
theory. California: SAGE dekat konsep reliabilitas skor tes.
Publications. Jurnal Pengukuran Psikologi dan
Joreskog, K.G., & Sorbom, Dag. Pendidikan Indonesia. 1: No. 2.
(1996). Lisrel 8, User’s Zhang, B. (2008). Application of
Reference Guide. Chicago: SSI, Unidimensional Item Response
Inc (Scientific Software Models to Test With Item s
International). Sensitive to Secondary
Kaplan, R.M., & Saccuzo, D.P. Dimension. The Journal of
(1993). Psychological Testing: Experimental Education. 77(2),
Principles, Applications, and 147-166
Issues.Third edition.California:
Brooks/Cole Publishing.

1 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

ESTIMASI TRUE SCORE

PADA SECOND ORDER UNIDIMENSIONAL

Kata Kunci: second order unidimensional, panjang tes, tingkat kesukaran,

Pendahuluan atau yang ingin diketahui. Analisis

kesukaran, daya beda dan pseudo Keterangan:

Gambar 2.1. Kurva karakteristik item model 1 parameter logistik

Parameter bi untuk item adalah mudah, dan nilai-nilai bi dekat +2.0

Berdasarkan uraian di muka, sama seperti first order unidimen-

Di dalam pendekatan bayesian, Ini diartikan bahwa likelihood dari

Skema Simulasi Sebanyak 27 Model

Keseluruhan model akan direplikasi Ching-Fung, 2002), ia melakukan

Mean dari Mean Bias Responden Antar Replikasi

Mean dari mean antar replikasi

Pada tabel di atas, mean di sebanyak dua model. Sedangkan

Standar deviasi dari mean antar replikasi

Type III Mean

Anda mungkin juga menyukai