Theory 1

PENDAHULUAN
Analisis item dapat dilakukan dengan pendekatan teori tes klasik (Clasical Test
Theory atau CTT) dan teori tes modern yang dikenal dengan teori respons item (Item
Respons Theory atau IRT).
Pemilihan item tes dalam prosedur pengembangan tes menggunakan CTT didasarkan
pada: (a) nilai kesukaran item, dan (b) korelasi skor item dan skor total atau disingkat
korelasi item-total. Item yang memiliki korelasi item-total paling tinggi dipakai sebagai
elemen suatu tes untuk membentuk suatu skala dengan konsistensi internal tinggi guna
memperkecil sumbangan error acak skor-skor tes. Distribusi skor-skor tes total yang
diperoleh dari lapangan dibandingkan dengan distribusi yang diinginkan oleh pengembang
tes. Sejumlah item mungkin perlu diganti untuk memperoleh sedekat/semirip mungkin antara
distribusi skor total yang diinginkan dan distribusi skor total yang diperoleh dari lapangan.
Format-format paralel pada umumnya diciptakan untuk memperoleh distribusidistribusi skor
tes yang identik. Kesamaan dari nilai rata-rata, varians, dan error skor ditafsirkan sebagai
bukti bahwa format tes-tes bersifat paralel (Stark et. al., 2001).
Langkah pertama sebelum penulisan item mulai, pengembang tes harus mempunyai
suatu pemahaman yang baik tentang konstrak variabel (kemampuan) yang akan diukur.
Menurut Stark et. al. dengan mengacu pendapat Nunnally et. al., berdasarkan ”rule of
thumb” lazimnya disepakati bahwa banyaknya item tes yang harus dibuat sedikitnya dua kali
dari banyaknya item tes final yang diperlukan. Sejumlah besar item pilihan ganda diperlukan,
jika format-format ganda harus dikembangkan. Item-item tersebut harus diteskan terlebih
dahulu menggunakan suatu sampel yang serupa dengan populasi pelamar. Sampel ini, yang
diacu selanjutnya sebagai suatu sampel yang dijadikan pedoman saat kalibrasi, harus besar,
agar cukup untuk menyediakan statistika item CTT yang stabil. Item-item dengan korelasi
item-total tinggi harus tercakup di dalam tes karena item-item tersebut meningkatkan
konsistensi skala internal (reliabilitas), dan hal seperti itu akan mereduksi standard error
pengukuran. Kesukaran item (nilai p) juga harus dipertimbangkan untuk membuat suatu tes
dengan distribusi skor total yang diinginkan (Stark et. al., 2001).
Untuk memperoleh distribusi skor skala yang diinginkan dilakukan penggantian item.
Agar skalanya meningkat maka maka item dengan nilai p yang rendah harus digantikan
dengan nilai p yang tinggi. Untuk memperkecil dampak penggantian item terhadap
reliabilitas skala, yakni dengan mencoba menggantikan item-item yang memiliki korelasi
item-total yang rendah sebelum menghapus item-item yang memiliki daya pembeda yang
lebih tinggi. Dapat pula dalam praktik, beberapa penyeimbangan konten/isi juga diperlukan.
Setelah dilakukan penggantian kemudian dianalisis lagi.

Ada keterbatasan penggunaan pendekatan CTT (Stark et. al., 2001). Pertama,
statistika CTT bergantung kepada subpopulasi penempuh tes. Berbeda grup penempuh tes
berbeda pula nilai rata-rata skor dari atribut variabel yang diukur. Dengan demikian, para
pengembang tes harus hati-hati ketika memilih sampel untuk kalibrasi item. Jika
sampelsampel kalibrasi berbeda karakteristik/sifat dengan sampel operasional (sampel
populasi yang sesungguhnya sebagai target), properti-properti psikometri hasil pengukuran
akan berubah secara dramatis. Kedua, di dalam CTT, ketepatan pengukuran suatu tes
(galat baku atau standard error pengukuran) secara implisit dirata-ratakan ke semua level
kemampuan yang diukur. Dengan demikian, ketepatan pengukuran pada level-level skor
yang tertentu tidak dikenal/tidak diketahui. Oleh karena itu, dikembangkan analisis item
menggunakan teori respons item atau item response theory (IRT).
Kegiatan mengkonstruksi tes menggunakan pendekatan IRT, seperti halnya pada

penggunaan pendekatan CTT, penulis harus membuat dua sampai tiga kali banyaknya item
seperti yang diinginkan di dalam format final. Dalam IRT diperlukan sampel kalibrasi
heterogen yang besar. Model IRT yang lebih kompleks, seperti model IRT untuk skala
politomus, memerlukan sampel lebih besar untuk mengestimasi parameter. Sebelum
mengestimasi parameter item, perlu untuk melakukan suatu analisis item menurut teori tes
klasik untuk menghapuskan item-item yang mempunyai skor mendekati nihil (tidak atau
sedikit sekali yang dapat mengerjakan), tentu saja item yang demikian akan memiliki
korelasi-korelasi item-total negatif. Item ini akan menyebabkan permasalahan
konvergensi/pemusatan (Stark et. al. (2001). Demikian pula item yang mempunyai skor
prefect, dimana untuk tes pilihan ganda skor prefect adalah 1 untuk setiap testi atau
person/case.
Program analisis atau disebut program kalibrasi menggunakan IRT adalah

mendasarkan pda distribusi logistik, yakni distribusi yang menyerupai distribusi normal
dengan nilai logistik D sebesar 1,7.
Analisis item menggunakan IRT ada yang melakukan kalibrasi berdasar berdasar satu
parameter yakni hanya didasaran pada tingkat kesukaran (diberi simbol βatau b) sehingga
disebut model satu paramemeter logistik tau model 1-PL atau disebut Model Rasch (Rasch
Model). Ada yang mendasarkan pada dua parameter, yakni daya beda (diberi simbol a) dan
tingkat kesukaran (b) sehingga disebut model 2-PL. Ada pula yang mendasarkan pada tiga
parmeter, yakni daya pembeda, tngkat kesukaran, dan guessing (diberi simbol c), sehingga
disebut Model 3-PL.
Berdasarkan skala yang digunakan ada yang hanya dibuat skala dikotomus, yakni
hanya dibedakan menjadi dua kategori yakni kategori 1 untuk skor 0 dan kategori 2 untuk
skor 1, seperti skor tes pilihan yang pada akhirnya hanya ditetapkan benar atau salah. Ada
pula yang dapat dibuat dalam bentuk skala politomus, yakni hanya dibedakan lebih dari dua
kategori. Misalnya, testi iminta mengemukakan dua faktor yang menjadi penyebab terjadinya
suatu peristiwa. Dengan demikian, jawaban testi ada tiga kategori, yakni kategori 1 untuk
skor 0 (testi tidak menjawab), kategori 2 untuk skor 1 (testi hanya mengemukakan dengan
benar satu faktor penyebab), dan kategori 3 untuk skor 2 (testi dapat mengnyebutkan
dengan benar dua faktor penyebab yang dimaksudkan).
PEMBAHASAN
A. Ukuran sampel
Semakin bertambah banyak parameter di dalam model politomus sebagai lawan
model dikotomus, akan semakin bertambah pula informasi di dalam data. Namun,
diperlukan estimasi yang stabil di dalam ukuran sampel yang sama. Ukuran sampel untuk
data politomus menggunakan Graded Model (GM) yang merupakan model 2-PL sekitar
250 dapat diterima untuk aplikasi dalam penelitian, sedangkan 500 sampai 1000 untuk
penggunaan operasional (Muraki & Bock, 1998: 35). Ahli lain ada yang menyatakan
bahwa untuk keperluan kalibrasi dalam IRT ukuran sampel antara 200 sampai 1000
tergantung model yang dipilih. Penelitian disertasi dapat menggunakan sampel yang kecil
(Crocker & Algina, 1986: 322). Sebagian ahli menyatakan bahwa ukuran sampel khusus
untuk model 1-PL berupa Rasch Model (RM) antara 30 sampai 300 dengan batas INFIT t
sebesar -2 sampai +2 (Bond & Fox, 2007: 43). Jadi dalam hal ini menggunakan batas
kesalahan 5%, sehingga besarnya nilai INFIT t ±1,96 atau dibulatkan menjadi ±2,0.
Dengan demikian, suatu item menjadi tidak fit menurut Model
Rasch bila memiliki nilai <-2,0 atau > +2,0 ( probability atau peluang <0,05)
B. Simulasi Program Wingen dengan 5 Kali Replikasi

1. Pengaruh N terhadap kestabilan item parameter estimate (software WinGen dan
Bilog MG yang di fix model 1 parameter). Jumlah item (n)=30, N=100, 500, 1000,
replikasi 5, kriteria: korelasi dan MSD.
a. Dengan mengganti jumlah dari peserta tes maka akan dapat diketahui bahwa N
sangat mempengaruhi dari nilai b (tingkat kesukaran) pada model satu parameter
(1PL).
Hasil korelasi pada Interpretasi output generate WinGen dan BILOG-MG dibuat
rekapitulasi yang selanjutnya b dari 5 kali replikasi kemudian dikorelasikan dengan
parameter b sehingga didapatkan hasil rekapitulasi seperti dibawah ini :
PESERTA b
N=100 0.98971
N=500 0.99681
N=1000 0.99818
Series1
1
0.998 0.99817861
0.9968086
0.996
0.994
0.992
0.99 0.989705022
0.988
0.986
0.984
N=100 N=500 N=1000
Gambar 1. Grafik hasil korelasi dari nilai b
Dari grafik diatas dapat disimpulkan bahwa parameter tingkat kesukaran (b)
akan terpengaruh ketika kita meningkatkan jumlah peserta tes, yakni semakin
banyak peserta tes maka hasil korelasi parameter b akan makin meningkat pula.
b. Hasil korelasi dan perhitungan MSD (Mean Square Deviation) menunjukan hal yang
berkebalikan yaitu semakin besar N (jumlah peserta) maka MSDnya akan semakin
mengecil. Hal ini dekarenakan Hasil dari RMSD adalah sama dengan MSE (mean
square error) dimana semakin tinggi nilai E (error) maka akan semakin tinggi pula
nilai b (tingkat kesukaran).
Berdasarkan rumus diatas maka dapat dilihat, ketika nilai 𝜃 dikurangi kemudian
dikuadratkan dikalikan dengan Error maka hasil dari nilai RMSDnya akan semakin
kecil.
Peserta MSD
N=100 0.04735
N=500 0.02984
N=1000 0.00856
Series1
0.05
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
N=100 N=500 N=1000
Gambar 2. Grafik hasil korelasi RMSD
Kesimpulan : Pada poin pertama dapat disimpulkan bahwa :

a. Semakin besar N (jumlah peserta) maka nilai korelasi b akan semakin tinggi
b. Semakin besar N (jumlah peserta) maka nilai RMSD nya akan semakin kecil
(menurun)
2. Pengaruh n (jumlah item) terhadap examinee parameter estimate, n=20, 60, 100
dengan model fix 1 parameter, N=5000
Melihat pengaruh n (banyak butir soal) terhadap examinee parameter estimate

(estimasi kemampuan peserta tes) dengan 5000 peserta tes, model 1PL dan dengan
mengubah jumlah dari masing-masing n (butir soal) dengan 5 kali replikasi. Dari output
WinGen dan BILOG-MG didapatkan hasil rekapitulasi korelasi seperti dibawah ini
SOAL Ѳ True
n=20 0.931
n=60 0.963
n=100 0.966
Series1
0.97
0.96
0.95
0.94
0.93
0.92
0.91
n=20 n=60 n=100
Gambar 3. Grafik hasil korelasi Theta peserta
Dari data di atas dapat disimpulkan bahwa jumlah soal dengan peserta tes yang
sama akan berpengaruh terhadap nilai true, dimana semakin besar jumlah soal
maka estimasi kemampuan peserta tes ( ) akan semakin tinggi pula.
3. Pengaruh model terhadap kestabilan item dan parameter estimasi fix N n

respons
Dengan simulasi yang dilakukan dengan program WinGen dengan 5 kali

replikasi dengan masing-masing peserta tes berjumalh 500 dan butir soal 40 butir
dengan generate data WinGen dengan masing-masing 3 model (1PL, 2PL dan 3PL)
maka didapatkan hasil korelasi pada setiap model parameter estimatee dibawah :
Parameter b
IPL 0.99776
2PL 0.9607
3PL 0.80069
Series1
1.2
1
0.8
0.6
0.4
0.2
0
IPL 2PL 3PL
Gambar 4. Grafik hasil korelasi b dengan model

Dari rekapitulasi diatas dapat dilihat pada tiap model terdapat perbedaan yang
signifikan yaitu semakin kompleks model maka nilai parameter b akan semakin
meningkat.
Parameter MSD
IPL 0.00814
2PL 0.09269
3PL 0.68716
Series1
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
IPL 2PL 3PL
Gambar 5. Grafik hasil korelasi RMSD dengan model
Dari hasil rekapitulasi diatas dapat dilihat nilai RMSD akan berkebalikan dengan
parameter (b) yaitu tingkat kesukaran soal jadi hasil yang didapatkan nilai RMSD pada
model parameter akan semakin tinggi apabila semakin banyak pula model yang
digunakan (paling tinggi 3PL model).
4. Pengaruh N dan n terhadap kestabilan item parameter dan examinee estimate.

Dengan melakukan simulasi yang bervariatif yaitu dengan mengubah jumlah N
(peserta) dan n (butir soal)
N dan n b
N=1000 n=50 0.99881705
N=5000 n=20 0.9996616
N=5000 n=100 0.99977638
1
0.9995
0.999
0.9985
0.998
N=1000 n=50 N=5000 n=20 N=5000 n=100
Series1
Gambar 6.Grafik pengaruh N dan n terhadap korelasi parameter b
Dari rekapitulasi diatas maka dapat dilihat bahwa N (jumlah peserta) yang besar
akan menambah estimasi parameter b (tingkat kesulitan), sedangkan butir yang
banyak memiliki pengaruh tetapi tidak besar terhadap estimasi item parameter b.
5. Pengaruh N (jumlah peserta), n (jumlah butir) dan model (1PL, 2PL, 3PL)
terhadap kestabilan item parameter (b)
a. Pengaruh N, n dan model terhadap nilai parameter b

Untuk melihat bagaimana pengaruh dari banyaknya N dan n serta pemilihan
model yang paling tepat untuk mendapatkan nilai b yang tinggi dilakukan simulasi
berdasarkan tiga aspek tersebut. Berikut ini adalah hasil kalibrasi dari output
WinGen dan BILOG-MG setelah dilakukan replikasi sebanyak lima kali pada tiap
model.
Tabel 1. Hasil rekapitulasi kalibrasi data simulasi (nilai b)

b 1PL 2PL 3PL
N=100 n=60 0.99892771 0.96742274 0.77664278
N=5000 n=20 0.99979951 0.98644727 0.60462866

N=5000
n=100 0.99978006 0.99194823 0.65525522
b Score
N=100 n=60 N=5000 n=20 N=5000 n=100
1.2
1
0.8
0.6
0.4
0.2
0
1PL 2PL 3PL
Gambar 7. Grafik hasil rekapitulasi data kalibrasi (parameter b)
Dari grafik diatas terlihat bahwa pada model pengukuran 1PL tidak begitu
terlihat pengaruh dari jumlah N dan n terhadap nilai b. Pada model pengukuran 2PL
terlihat bahwa korelasi paling tinggi adalah jumlah peserta (N) dan jumlah soal (n)
paling besar maka akan menghasilkan korelasi paling besar. Tetapi pada model
pengukuran 3PL menunjukkan hal yang berkebalikan yaitu jumlah N yang rendah
dan n tinggi akan cocok dengan model pengukuran ini. Sedangkan N tinggi dengan
n rendah akan mendapatkan nilai b yang rendah.
b. Pengaruh N, n dan model terhadap nilai estimasi kemampuan peserta (θ true)

Untuk melihat bagaimana pengaruh dari banyaknya N dan n serta pemilihan model
yang paling tepat untuk mendapatkan nilai estimasi kemampuan θ yang tinggi
dilakukan simulasi berdasarkan tiga aspek tersebut. Berikut ini adalah hasil
kalibrasi dari output WinGen dan BILOG-MG setelah dilakukan replikasi sebanyak
lima kali pada tiap model.
Tabel 2. Hasil rekapitulasi kalibrasi data simulasi (nilai θ)
θ 1PL 2PL 3PL
N=100 n=60 0.96275535 0.94452516 0.92834906
N=5000 n=20 0.93355387 0.86081596 0.81377405

N=5000 n=100 0.96601211 0.95751541 0.95176044
Theta Score
N=100 n=60 N=5000 n=20 N=5000 n=100
1
0.95
0.9
0.85
0.8
0.75
0.7
1PL 2PL 3PL
Gambar 8. Grafik hasil rekapitulasi data kalibrasi (Theta Score)
Dari grafik diatas terlihat bahwa estimasi nilai θ yang baik adalah dengan
jumlah peserta banyak, butir soal banyak serta model parameter yang paling simpel
(1PL). Dengan demikian dapat disimpulkan bahwa jumlah peserta, jumlah butir soal
dan model estimasi parameter keseluruhan mempengaruhi estimasi kemampuan
peserta (θ).
Langkah yang dapat digunakan untuk memilih model pengukuran serta

besarnya peserta serta banyaknya butir menjadi sebuah pengaruh tersendiri. Maka
dari keseluruhan dapat dibuat rekapitulasi hasil output WinGen dan BILOG-MG yang
sudah dikalibrasi dengan menggunakan program Ecxel pada tabel dibawah ini.
Tabel 3. Rekapitulasi Kecocokan Model

No N n Model b θ
1 Tinggi Tinggi 1PL Tinggi
2PL Tinggi
3PL Tinggi
2 Tinggi Rendah 1PL Tinggi
2PL Rendah
3PL Rendah
3 Rendah Tinggi 1PL Tinggi
2PL Tinggi
3PL Rendah
KESIMPULAN
Jadi untuk memaksimalkan nilai estimasi theta (θ) yang tinggi maka perlu melihat dari
besar N (peserta), n (butir) dan model yang digunakan (1PL, 2PL atau 3PL) sehingga dapat
menjadi sebuah instrumen yang baik dan teruji secara empiris.
DAFTAR PUSTAKA
Bond, T.G. & Fox, Ch.M. (2007). Applying the rasch model: Fundamental measurement
in the human sciences. 2-nd ed. Mahwah, New Jersey: Lawrence Erlbaum
Associates, Publishers.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Foundamentals of item
responses theory. Newbury Park: Sage Publications.
Han, Kyung T. & Hambleton, R.K. (2007). User’s manual for WinGen2: Windows
software that generates IRT model parameters and item response. (Media
elektronik]. Massachusetts: Center for Educational Assessment.
Keeves, J.P. & Masters, G.N. (1999). Introduction. In: Masters, G.N. & Keeves, J.P. (1999).
Advances in measurement in educational research
and assessment.
Amasterdam: Pergamon, An imprint of Elsevier Science.
Messick, S. (1988). The one and future issues of validity: Assessing the meanng and
consequences of measurement. In: Waine, H. & Braun, H.I. (1988). Test validity.
Hillsdale, New Jersey: Lawrence Erlbaum Associates, Publishers.

Stark, S., Chernyshenko, S., Chuah, D.,Wayne Lee, & Wilington, P. (2001). IRT modeling
lab: Test Development Using Classical Test Theory [Versi elektronik]. Urbana:
University of Illinois.

Theory 1

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Theory 1

Diunggah oleh

Hak Cipta:

Format Tersedia

PENDAHULUAN

Setelah dilakukan penggantian kemudian dianalisis lagi.

Kegiatan mengkonstruksi tes menggunakan pendekatan IRT, seperti halnya pada

Program analisis atau disebut program kalibrasi menggunakan IRT adalah

B. Simulasi Program Wingen dengan 5 Kali Replikasi

Gambar 1. Grafik hasil korelasi dari nilai b

nilai b (tingkat kesukaran).

Gambar 2. Grafik hasil korelasi RMSD

Kesimpulan : Pada poin pertama dapat disimpulkan bahwa :

Melihat pengaruh n (banyak butir soal) terhadap examinee parameter estimate

Gambar 3. Grafik hasil korelasi Theta peserta

3. Pengaruh model terhadap kestabilan item dan parameter estimasi fix N n

Dengan simulasi yang dilakukan dengan program WinGen dengan 5 kali

Gambar 4. Grafik hasil korelasi b dengan model

Gambar 5. Grafik hasil korelasi RMSD dengan model

4. Pengaruh N dan n terhadap kestabilan item parameter dan examinee estimate.

Gambar 6.Grafik pengaruh N dan n terhadap korelasi parameter b

a. Pengaruh N, n dan model terhadap nilai parameter b

Tabel 1. Hasil rekapitulasi kalibrasi data simulasi (nilai b)

N=100 n=60 0.99892771 0.96742274 0.77664278

N=5000 n=20 0.99979951 0.98644727 0.60462866

Gambar 7. Grafik hasil rekapitulasi data kalibrasi (parameter b)

b. Pengaruh N, n dan model terhadap nilai estimasi kemampuan peserta (θ true)

Tabel 2. Hasil rekapitulasi kalibrasi data simulasi (nilai θ)

θ 1PL 2PL 3PL

N=100 n=60 0.96275535 0.94452516 0.92834906

N=5000 n=20 0.93355387 0.86081596 0.81377405

Gambar 8. Grafik hasil rekapitulasi data kalibrasi (Theta Score)

Langkah yang dapat digunakan untuk memilih model pengukuran serta

Tabel 3. Rekapitulasi Kecocokan Model

Hillsdale, New Jersey: Lawrence Erlbaum Associates, Publishers.

Anda mungkin juga menyukai