TRB - K8 - KALIBRASI TES - Rev1

KALIBRASI TES
Disusun untuk memenuhi tugas:

Mata Kuliah : Teori Respon Butir
Dosen Pengampu : Prof. Dr. Drs. Edi Istiyono, M. Si.
Oleh:
Nadhifa Qatrunnada (18302241023)
Alifia Vidyanti Suharjono (18302241038)
Muhammad Dicky Hidayatullah (18302244010)
Fahma Firda Fahmita (18302244022)
JURUSAN PENDIDIKAN FISIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI YOGYAKARTA
2020
KATA PENGANTAR
Assalamualaikum wr.wb
Dengan menyebut nama Allah SWT yang Maha Pengasih lagi Maha
Panyayang, kami panjatkan puja dan puji syukur kehadirat-Nya, yang telah
melimpahkan rahmat, hidayah, dan inayah-Nya kepada kita, sehingga kami dapat
menyelesaikan makalah teori respon butir yang berjudul “Kalibrasi Tes”.
Makalah ini kami buat dengan semaksimal mungkin untuk memenuhi tugas
mata kuliah teori respon butir. Kami juga berterima kasih kepada bapak Prof. Dr. Drs.
Edi Istiyono M.Si. yang telah membantu kami dalam memberi wawasan terkait isi
makalah ini.
Kami menyadari seutuhnya bahwa makalah ini masih jauh dari kata sempurna
baik dari segi susunan kalimat maupun tata bahasanya. Oleh karena itu, kami terbuka
untuk menerima kritik, saran, dan masukan yang bersifat membangun dari para
pembaca.
Semoga makalah tentang Kalibrasi Tes ini bisa memberi manfaat dan
menginspirasi bagi para pembaca.
Wasalamuallaikum wr.wb.
Yogyakarta, 17 November 2020
Kelompok 8
i|K a l ib r a s i Te s
DAFTAR ISI
KATA PENGANTAR...................................................................................................i
DAFTAR ISI.................................................................................................................ii
BAB VIII.......................................................................................................................1
Pendahuluan..............................................................................................................1
8.1 Kalibrasi dan Teori Respon Butir................................................................2
8.2 Macam Kalibrasi...........................................................................................5
8.2.1 Kalibrasi terpisah (separate calibration).................................................6
8.2.2 Kalibrasi serentak (concurrent calibration)............................................8
8.2.3 Fixed Calibration.......................................................................................9
8.3 Kelebihan dan Kelemahan IRT.................................................................10
8.4 Langkah Kalibrasi.......................................................................................12
Latihan Soal................................................................................................................17
DAFTAR PUSTAKA.................................................................................................18
ii | K a l i b r a s i T e s
BAB VIII
PENDAHULUAN
Kalibrasi butir adalah proses estimasi untuk menentukan parameter-parameter

butir berdasarkan model Item Response Theory (IRT). Item Response Theory atau
teori respons butir merupakan teori tentang bagaimana variabel orang dan variabel
butir menentukan data respons ketika seseorang menjawab butir tersebut (Umar,
1999). Sehingga model teori respon butir dapat diestimasikan menggunakan kalibrasi
butir.
Teori respons butir mempunyai kelebihan dibandingkan teori tes klasik, yaitu
statistik butir tidak tergantung pada kelompok, skor tes yang diperoleh dapat
menggambarkan kemampuan individu, tidak memerlukan tes yang paralel untuk
menghitung koefisien reliabilitas, dan dapat menyediakan ukuran yang tepat untuk
setiap skor kemampuan. Teori respons butir didasarkan pada dua postulat, yaitu: (1)
kemampuan setiap individu pada suatu butir soal dapat diperkirakan dengan
seperangkat faktor yang disebut karakteristik laten (latenttraits), (2) hubungan antara
kemampuan individu pada suatu butir dan perangkat kemampuan yang mendasarinya
sesuai dengan grafik fungsi monoton, yang disebut kurva karakteristik butir (ICC=
Item Characteristic Curve). Kurva karakteristik butir menunjukkan bahwa semakin
tinggi tingkat kemampuan individu, semakin besar peluang menjawab benar suatu
butir.
Ketika akan menyusun perangkat soal untuk suatu tes, pengembang dapat
menggunakan butir soal yang telah dikalibrasi ditambah dengan butir-butir soal baru.
Pada keadaan ini, permasalahan yang muncul adalah bagaimana menempatkan
parameter butir yang baru atau parameter butir pada tes sebelumnya, apakah perlu
untuk ditempatkan pada skala butir-butir yang telah dikalibrasi atau pada skala yang
baru. Cara untuk menempatkan parameter estimasi dari dua kelompok yang terpisah
kedalam skala yang sama, dapat dilakukan dengan menghitung parameter estimasi
untuk setiap kelompok dan kemudian mengubah skala dengan menggunakan
commonitems. Hal ini dapat dilakukan melalui proses kalibrasi. Butir-butir yang telah
dikalibrasi ditempatkan sebagai butir bersama atau common-items pada perangkat soal
yang baru.
1|K a l ib r a s i T e s
1
8.1 Kalibrasi dan Teori Respon Butir
Asumsi yang mendasari teori respons butir adalah unidimensi,
independensi lokal, dan invarian. Asumsi unidimensi menyatakan bahwa pada
setiap tes, hanya ada satu kemampuan yang diukur oleh butir-butir tes tersebut.
Hal ini berarti bahwa asumsi unidimensi dipenuhi jika butir tes hanya mengukur
satu kemampuan. Asumsi unidimensi pada praktiknya tidak dapat dipenuhi
secara ketat karena adanya factor-faktor kognitif, kepribadian, dan faktor
pelaksanaan tes, seperti kecemasan, motivasi, dan kecenderungan untuk
menebak.
Asumsi lain pada teori respons butir adalah independensi lokal.
Independensi local terjadi jika kemampuan yang mempengaruhi performansi tes
bersifat konstan, artinya respons peserta tes dalam menjawab suatu butir tes
bebas secara statistik terhadap respons peserta tes itu dalam menjawab butir
lainnya. Asumsi independensi local menyatakan bahwa tidak ada korelasi antara
respons peserta tes pada butir soal yang berbeda. Hal ini menunjukkan bahwa
kemampuan yang dinyatakan dalam model merupakan satu-satunya faktor yang
mempengaruhi respons peserta tes terhadap butir soal. Jika faktor-faktor yang
mempengaruhi prestasi konstan, maka respons subjek terhadap pasangan butir
yang manapun akan independen secara statistic satu sama lain. Asumsi
independensi local akan terpenuhi jika jawaban peserta terhadap suatu butir soal
tidak mempengaruhi jawaban peserta terhadap butir soal yang lain.
Menurut Hambleton, Swaminathan, & Rogers (1991: 10), independensi
lokal secara matematis dinyatakan sebagai berikut.
n
P ( u1 ,u 2 , … , un∨θ )=P ( u1|θ ) , P ( u2|θ ) , … , P ( u n|θ )=∏ P ( ui|θ )Keterangan:
i=1
P ( u1 ,u 2 , … , un∨θ ) : probabilitas peserta tes dengan kemampuan menjawab

benar butir ke-1 hingga butir ke-n.
P ( u2|θ ) : probabilitas peserta tes dengan kemampuan menjawab
benar butir ke-i.
i : nomor butir tes = 1, 2, 3, ..., n
n : banyaknya butir tes.
Invariansi parameter adalah karakteristik butir soal yang tidak tergantung

pada distribusi parameter kemampuan peserta tes dan parameter ciri peserta tidak
tergantung pada ciri butir soal. Hal ini berarti bahwa kemampuan seseorang tidak
akan berubah hanya karena mengerjakan tes yang berbeda tingkat kesulitannya
dan parameter butir tidak akan berubah hanya karena diujikan pada kelompok
peserta tes yang berbeda tingkat kemampuannya.
Invariansi parameter kemampuan dapat diketahui dengan
mengadministrasikan dua perangkat tes atau lebih yang mempunyai tingkat
kesulitan yang berbeda pada sekolompok peserta tes. Invariansi parameter
kemampuan akan diperoleh jika hasil estimasi kemampuan peserta tes tidak
berbeda pada setiap perangkat tes yang diujikan. Demikian pula halnya dengan
invariansi parameter butir tidak akan berubah jika diujikan pada kelompok
peserta tes yang berbeda-beda kemampuannya.
Selain memenuhi persyaratan unidimensi, independensi lokal, dan
invariansi parameter, hal lain dalam teori respons butir yang juga perlu
diperhatikan adalah penentuan model respons. Teori respons butir menggunakan
pendekatan probabalistik untuk menyatakan hubungan antara kemampuan
individu dengan harapan menjawab benar. Model distribusi yang digunakan
adalah distribusi logistik.
Ada tiga model logistik dalam teori respos butir, yaitu model logistik satu,
dua, dan tiga parameter. Model-model ini sesuai untuk data respons butir yang
diskor dikotomus (Hambleton, Swaminathan, & Rogers, 1991: 12). Yang
membedakan ketiga model ini adalah banyaknya parameter yang digunakan untuk
menggambarkan karakteristik butir pada setiap model logistiknya atau parameter-
parameter butir. Parameter-parameter butir tersebut adalah indeks kesukaran butir
(b), indeks daya beda butir (a), dan tebakan semu (c). Ketiga unsur ini
berhubungan sehingga menghasilkan fungsi atau lengkungan respons yang
disebut juga kurva karakteristik butir.
Hubungan ini diartikan bahwa ada suatu butir yang direspon oleh
sejumlah peserta tes. Respons peserta tes terhadap butir tersebut ditentukan oleh
ciri butir dan ciri peserta tersebut. Ciri individu dinyatakan sebagai parameter θ
dan ciri butir dinyatakan sebagai parameter butir a, b, dan c. Respons individu
terhadap butir dinyatakan dalam bentuk probabilitas jawaban yang benar P ( θ ).
Hubungan ini untuk butir ke-j, dinyatakan sebagai berikut
P j ( θ ) =φ(θ , a j ,b j , c j )
P j ( θ ) menyatakan probabilitas jawaban benar untuk butir ke-j,
parameter menyatakan ciri individu yang dapat berupa kemampuan akademik
peserta tes, parameter daya beda butir, parameter kesukaran butirdan parameter
faktor tebakan semu atau pseudo-guessing.
Parameter ciri individu θ membentuk suatu kontinum yang membentang
tidak terbatas, yaitu -∞ ≤ ≤ +∞. Hasil pengukuran di bidang pendidikan sering
menyebar pada bentuk distribusi probabilitas normal, di mana nilai baku yang
digunakan terletak antara -3 hingga +3. Untuk mengestimasi parameter-parameter
pada teori respons butir diperlukan suatu ukuran banyaknya peserta yang cukup
besar. Ukuran banyaknya peserta untuk mengestimasi parameter tergantung dari
model yang dipakai. Model tiga parameter memerlukan peserta tes yang lebih
besar dibandingkan jika menggunakan model dua parameter atau satu parameter.
Demikian juga halnya jika menggunakan model dua parameter, maka peserta tes
yang diperlukan lebih besar dibandingkan jika menggunakan model satu
parameter.
Model logistik tiga parameter adalah model yang paling umum dari ketiga
model. Dengan kurva berbentuk S dan asimptut yang lebih rendah, model ini
sangat tepat ketika individu dengan kemampuan rendah terkadang dapat
merespons dengan benar butir yang sulit (Hulin, Drasgow, & Parsons, 1983: 29).
Tes-tes kemampuan yang menggunakan format pilihan ganda dan instrumen
sikap adalah contoh situasi dimana model logistik tiga parameter cocok untuk
digunakan. Peserta tes cenderung untuk memilih jawaban terbaik yang mereka
anggap paling menarik jika mereka tidak dapat menemukan jawabannya.
Manfaat potensial penggunaan pendekatan IRT dalam analisis butir tes
terutama dalam proses kalibrasi butir. Ketika akan menyusun perangkat soal
untuk suatu tes, pengembang dapat menggunakan butir soal yang telah dikalibrasi
ditambah dengan butir-butir soal baru. Pada keadaan ini, permasalahan yang
muncul adalah bagaimana menempatkan parameter butir yang baru atau
parameter butir pada tes sebelumnya, apakah perlu untuk ditempatkan pada skala
butir-butir yang telah dikalibrasi atau pada skala yang baru. Cara untuk
menempatkan parameter estimasi dari dua kelompok yang terpisah kedalam skala
yang sama, dapat dilakukan dengan menghitung parameter estimasi untuk setiap
kelompok dan kemudian mengubah skala dengan menggunakan common-items.
Hal ini dapat dilakukan melalui proses kalibrasi. Butir-butir yang telah dikalibrasi
ditempatkan sebagai butir bersama atau common-items pada perangkat soal yang
baru.
Menurut Standards for Educational and Psychological Testing
(1999:172), kalibrasi dalam IRT merupakan proses estimasi parameter-parameter
dari fungsi respons suatu butir. Fungsi respons suatu butir memuat dua parameter,
yaitu parameter butir dan parameter orang. Menurut Wells, Subkoviak, & Serlin
(2002), proses kalibrasi digunakan untuk mengestimasi parameter butir soal, dan
mengamati kemampuan butirbutir soal dalam membedakan antartingkat trait
laten. Menurut Yen & Fitzpatrick (2006: 129), kalibrasi butir adalah
mengestimasi parameter, yaitu menentukan estimasi parameter butir dan
parameter kemampuan data respons butir pada model IRT. Dengan demikian
kalibrasi adalah proses estimasi parameter butir dan parameter orang untuk
mengetahui kedudukan butir dan orang dalam suatu instrumen tes berdasarkan
model IRT.
8.2 Macam Kalibrasi

Ada tiga cara kalibrasi yaitu kalibrasi terpisah (separate calibration),
kalibrasi serentak (concurrent calibration), dan kalibrasi tetap (fixed calibration).
Pada beberapa penelitian (Li, et al , 1997; Ban, et al, 2001, Taehoon & Petersen,
2009), kalibrasi fixed parameter disebut sebagai fixed item parameter calibration
dan fixed abc. Li, et al. (1997). menyatakan bahwa kalibrasi Fixed ABC
menghasilkan hasil penyetaraan yang lebih stabil, terutama untuk parameter c
dan pada penyetaraan horizontal. Hasil kalibrasi fixed parameter terhadap
estimasi dan kalibrasi terpisah secara umum konsisten. Hasil simulasi
menunjukkan bahwa kalibrasi fixed parameter dan kalibrasi serentak
menghasilkan estimasi parameter butir dan kemampuan yang sangat akurat dan
stabil. Hasil penelitian tersebut juga menunjukkan bahwa kalibrasi fixed
parameter menghasilkan estimasi yang lebih akurat dan stabil dibandingkan
kalibrasi serentak pada tes yang relatif mudah. Menurut Taehoon & Petersen
(2009) kalibrasi fixed parameter menunjukkan hasil yang konsisten dibandingkan
dua metode kalibrasi yang lainnya, yaitu kalibrasi serentak (concurrent
calibration) dan kalibrasi terpisah (separate calibration).
Terdapat tiga cara kalibrasi yaitu: kalibrasi terpisah (separate calibration),
kalibrasi serentak (concurrent calibration), dan kalibrasi tetap (fixed calibration)
8.2.1 Kalibrasi terpisah (separate calibration)

Pada metode kalibrasi terpisah, parameter-parameter butir pada setiap test
diestimasi secara terpisah atau sendiri-sendiri (Hanson & Beguin, 2002).
Parameter-parameter butir di estimasi secara terpisah untuk setiap kelompok
dari beberapa kelompok atau kelompok-kelompok yang tidak ekivalen.
Parameter-parameter yang dihasilkan pada setiap kelompok tidak pada skala
umum. Untuk mendapatkan skala umum yang didasari pada satu skala yaitu
skala (0,1), maka skala lainnya yang berasal dari kalibrasi terpisah harus
dikonversi terlebih dahulu kedalam skala dasar.
Ketika kalibrasi terpisah digunakan pada model dikotomus teori respons
butir, terdapat beberapa metode yang dapat digunakan untuk menghasillkan
hubungan atau persamaan koefisien A dan B. Koefisien transformasi A dan B
dihasilkan dari estimasi parameter butir dari common items pada dua test.
Secara umum, jika terdapat dua set estimasi parameter butir, satu set dari
kelompok base dan lainya dari kelompok target, tugasnya adalah bagian butir
dan estimasi kemampuan dari kelompok target diatas metrik dari kelompok
base. Estimasi parameter butir dari kelompok target, termasuk untuk common
items, ditempatkan diatas metrik dari kelompok base melalui koefisien.
Parameter butir pada common items antara dua kelompok digunakan untuk
mengestimasi transformasi skala parameter, misalnya parameter butir pada
kelompok target ditempatkan pada skala parameter butir pada kelompok base.
Setelah transformasi metrik dan supaya mecapai simetri dari transormasi,
estimasi parameter butir dari kelompok base dan transformasi estimasi
parameter butir dari kelompok target untuk common items adalah merata-
ratakan dengan memperoleh estimasi final.
Beberapa metode yang dapat digunakan yaitu Mean/metode Sigma
(Marco,1977), Mean/metode Mean (Loyd & Hoover, 1980), dan metode kurva
karakteristik tes dengan kata lain metode Haebara (Haebara, 1980) dan metode
Stocking-Lord (Stocking & Lord, 1983).
8.2.1.1 Mean/metode Sigma
Metode sigma menggunakan nilai rata-rata hitung dan simpangan
baku/standar deviasi untuk mengestimasi parameter a dan b untuk
kesulitan butir dari common items pada testI dan J. Secara matematis
dinyatakan sebagai berikut.
σ ( bJ )
A=
σ (bI )
B=μ ( b J ) −A ( b I )
Dengan:
A dan B : koefisien penyetaraan
σ (bJ ) : simpangan baku parameter b untuk butir-butir pada
skala J
σ (bI ) : simpangan baku parameter b untuk butir-butir pada
skala I
μ (bJ ) : nilai rata-rata hitung parameter b untuk butir-butir
pada skala I
μ (bI ) : nilai rata-rata hitung parameter b untuk butir-butir
pada skala J
8.2.1.2 Mean/metode Mean
Metode mean menggunakan nilai rata-rata hitung dari estimasi
parameter a dan b. Secara matematis dinyatakan sebagai berikut.
μ( aI )
A=
μ (aJ )
B=μ ( b J ) −A ( b I )
Dengan:
A dan B : koefisien penyetaraan
σ ( aJ ) : simpangan baku parameter a untuk butir-butir pada skala J
σ ( aI ) : simpangan baku parameter a untuk butir-butir pada skala I
μ ( b J ) : nilai rata-rata hitung parameter b untuk butir-butir pada skala I
μ ( b I ) : nilai rata-rata hitung parameter b untuk butir-butir pada skala
J
8.2.1.3 Metode Haebara
Metode Haebara menggunakan penjumlahan kuadrat selisih antara
karakteristik kurva butir untuk setiap butir pada indivi du dengan
kemampuan θ. Jika kemampuan θdiketahui, maka jumlah kuadrat
selisih semua butir secara matematis dinyatakan sebagai berikut.
2
a^
H ( θ i )= ∑
J
[ (|
pi ( θJ|a^j , b^j , c^j )− pi θ J I , ^
A
A , B , c^I )]
Perbedaan antara kurva karakteristik butir pada dua skala adalah
kuadrat dan jumlah dari semua butir. Dengan H adalah kumulasi
semua peserta tes untuk mendapakan konstanta transformasi, A dan
B. Berdasarkan kriteria dapat disederhanakan menjadi berikut.
H=∑ H ( θ i )
i
8.2.1.4 Metode Stocking-Lord

Metode Stocking-Lord menggunakan kuadrat selisih antara
karakteristik kurva tes pada kemampuan θ.
S ( θi ) =¿ ¿
Setiap kurva karakteristik butir dari semua common items dapat
digunakan untuk menghitung kurva karakteristik tes. Selisih antara
kurva karakteristik butir pada dua skala kemudian dikuadratkan,
sehingga S if semua peserta tes dijumlahkan untuk menemukan
konstanta transformasi A dan B yang dapat disederhanakan dengan
persamaan berikut.
S=∑ S ( θi )
i
Beberapa penelitian menunjukkan bahwa transformasi dengan

metode Stocking dan Lord dan metode Haebara menhasilkan
estimasi lebih stabil dibandingkan menggunakan Mean/metode Mean
dan Mean/metode Sigma.
8.2.2 Kalibrasi serentak (concurrent calibration)
Kalibrasi serentak mengestimasi parameter pada semua butir dan pada
semua tes pada satu kali proses estimasi dan menempatkan semua estimasi
parameter pada skala yang sama, yaitu (0,1) atau pada skala umum.
Ketika kalibrasi serentak dilakukan, kalibrasi beberapa kelompok secara
bersamaan atau serentak dapat digunakan program estimasi seperti Bilog-MG
dan Multilog. Kedua program tersebut menggunakan kebolehjadian
maksimum marjinal untuk mengestimasi parameter yang cocok dengan model
logistik tiga parameter. Semua data di estimasi dan hasil semua estimasi
ditempatkan pada skala umum melalui satu kali proses estimasi.
Kalibrasi serentak melibatkan estimasi butir dan parameter kemampuan
dengan single run, mengkombinasikan data dari kedua atau beberapa
kelompok dan memperlakukan butir dengan tidak mengambil kelompok
tertentu meskipun tidak terjangkau atau hilang. Variasi seperti ini mungkin
juga dengan estimasi parameter yang mana common items dari kelompok base
diatur tetap dan sisa parameter butir yang diestimasi menggunakan data dari
kelompok target.
8.2.3 Fixed Calibration
Metode fixed parameter calibration menghasilkan skala bersama dengan
cara menetapkan parameter common items kemudian mengestimasi parameter
common items dan butir yang bukan butir bersama untuk kemudian
ditempatkan pada skala yang sama. Terdapat dua metode fixed calibration,
yaitu metode fixed C dan metode fixed ABC. Pada fixed C, estimasi parameter
c dari tes referensi digunakan sebagai nilai awal untuk tes target, dan
keduanya tidak diestimasi lagi, sedangkan parameter a dan b diestimasi.
Setelah estimasi parameter butir, proses untuk menemukan nilai A dan B yang
digunakan pada transformasi linear, sama seperti pada metode kalibrasi
terpisah.
Prinsip dasar dari metode fixed ABC adalah menetapkan estimasi
parameter a, b, dan c pada common items dari tes sebelumnya dan kemudian
mengestimasi parameter butir sisa yang bukan common items bersama-sama
dengan common items, sehingga butir sisa yang bukan common items berada
pada skala yang sama dengan common items. Metode fixed ABC banyak
digunakan pada kalibrasi on-line yang digunakan pada CAT (Ban, et al., 2001)
Metode ini juga digunakan pada pengembangan bank soal (Li, et al, 1997).
Metode fixed ABC dan metode kalibrasi serentak, mengestimasi parameter
berdasarkan respons kelompok peserta yang diakumulasi dari beberapa tes,
sehingga ukuran sampel menjadi relatif besar. Keadaan ini meminimalisir
masalah ketidakakuratan estimasi parameter b dan c, yang mungkin terjadi
pada kelompok peserta tes dengan kemampuan rendah. Jadi metode fixed
ABC mempunyai beberapa sifat yang juga dimiliki oleh metode kalibrasi
serentak dan hal ini memungkinkan diperoleh hasil pengkaitan yang lebih
stabil dibandingkan metode kalibrasi terpisah yang menggunakan transformasi
skala.
8.3 Kelebihan dan Kelemahan IRT

Kelemahan-kelemahan dari teori tes klasik memicu lahirnya Item Response
Theory (IRT) atau teori respons butir. IRT merupakan kerangka umum dari
fungsi matematika yang menjelaskan interaksi antara subjek dan butir tes
(Sumintono & Widhiarso, 2013).
Untuk mengetahui kelebihan analisis IRT, maka para guru perlu mengetahui
keterbatasan analisis secara klasik. Keterbatasan model pengukuran secara klasik
bila dibandingkan dengan teori jawaban butir soal adalah seperti berikut
(Hambleton Swaminathan, dan Rogers, 1991: 2-5).
1) Tingkat kemampuan dalam teori klasik adalah “true score”. Jika tes sulit
artinya tingkat kemampuan peserta didik mudah. Jika tes mudah artinya
tingkat kemampuan peserta didik tinggi
2) Tingkat kesukaran soal didefinisikan sebagai proporsi peserta didik
dalam grup yang menjawab benar soal. Mudah atau sulitnya butir soal
tergantung pada peserta didik yang dites dan kemampuan tes yang
diberikan
3) Daya pembeda, reliabilitas dan validitas soal/tes didefinisikan
berdasarkan grup peserta didik.
Kelebihan IRT adalah bahwa:
1) IRT tidak berdasarkan grup dependent
2) Skor siswa dideskripsikan bukan test dependent
3) Model ini menekankan pada tingkat butir soal bukan tes
10 | K a l i b r a s i T e s
4) IRT tidak memerlukan pararel tes untuk menentukan relilabiltas tes
5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk
setiap skor tingkat kemampuan
Kelemahan teori tes klasik atas diperkuat Hambleton dan Swaminathan
(1985: 1-3) yaitu:
1) Tingkat kesukaran dan daya pembeda tergantung pada sampel
2) Penggunaan metode dan teknik untuk desain dan analisis tes dengan
memperbandingkan kemampuan siswa pada pembagian kelompok atas,
tengah, bawah. Meningkatknya validitas skor tes diperoleh dari tingkat
kesukaran tes dihubungkan degan tingkat kemampuan setiap siswa
3) Konsep reliabilitas tes didefinisikan dari istilah tes pararel
4) Tidak ada dasar teori untuk menentukan bagaimana siswa memperoleh
tes yang sesuai dengan kemampuan siswa
5) Standar eror of measurement (SEM) hanya berlaku untuk seluruh peserta
didik
Selanjutnya Hambleton dan Swaminatha (1985:13) menyatakan bahwa
tujuan utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi
kemampuan. Ada tiga keuntungan IRT adalah
1) Asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat
kemampuan peserta didik adalah independen
2) Asumsi pada populasi tingkat kesukaran, daya pembeda merupakan
independen sampel yang menggambarkan untuk tujuan kalibrasi soal
3) Statistik yang digunakan untuk menghitung tingkat kemampuan siswa
diperkiran dapat terlaksana (Hambleton dan Swaminathan, 1985:11).
Jadi, IRT merupakan hubungan antara probabilitas jawaban suatu butir soal
yang benar dan kemampuan siswa atau tingkatan/level prestasi siswa. Namun
kelemahan bekerja dengan model IRT adalah bekerja melalui suatu proses yang
sulit karena kelebihan IRT adalah:
1) Tanpa varian pada parameter butir soal
2) Tanpa varian pada parameter abilitas
3) Adanya ketepatan pada pengukuran lokal (Bejar, 1983: 3-4).
Ada empat macam model IRT (Hambleton, 1993: 154-157; Hambleton dan
Swaminathan; 1985: 34-50).
1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data
yang hanya menitikberatkan pada parameter tingkat kesukaran soal.
2) Model dua parameter, yaitu untuk menganalisis data yang hanya
menitikberatkan pada parameter tingkat kesukaran dan daya pembeda
soal
3) Model tiga parameter, yaitu untuk menganalisis data yang
menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda
soal, dan menebak (guessing)
4) Model empat parameter, yaitu untuk menganalisis data yang
menitikberatkan pada parameter tingkat kesukaran soal, daya beda soal,
menebak, dan penyebab lain.
(Hambleton dan Swaminathan; 1985: 48) menjelaskan bahwa siswa yang
memiliki kemampuan tinggi tidak selalu menjawab soal dengan betel. Kadang-
kadang mereka sembrono (mengerjakan dengan serampangan), memiliki
informasi yang berlebihan, sehingga mereka menjawab salah satu suatu soal.
Untuk mengatasi masalag ini diperlukan model 4 parameter.
Dari keempat model itu tidak sama penekanannya dan tiap model memiliki
kelebihan dan kekurangan. Kelebihan dan kekurangan dapat diklasifikasikan
sesuai dengan jumlah parameter yang ditentukan pada masing-masing model dan
tujuan menggunakan model yang bersangkurtan.
8.4 Langkah Kalibrasi

Prosedur estimasi dapat dilakukan dengan tangan atau komputer. Ada
beberapa langkah yang dapat dilakukan dalam mengkalibrasi butir dan mengukur
kemampuan orang dengan tangan (Wright and Linacre, 1992: 32-45) seperti
berikut ini :
1) Menyusun Jawaban
Menyusun jawaban peserta didik untuk setiap butir soal ke dalam tabel.
Dalam menyusun jawaban peserta didik untuk setiap butir ke dalam tabel
perlu disediakan kolom: (1) siswa, (2) butir soal, (3) skor siswa, dan (4) skor
butir soal. Data berbentuk angka 1 untuk jawaban benar dan 0 untuk jawaban
salah.
2) Mengedit Data
Berdasarkan model Rasch, butir soal yang dijawab siswa betul semua
atau salah semua dan siswa yang dapat menjawab dengan betul semua atau
salah semua, soal atau siswa yang bersangkutan tidak dianalisis atau
dikeluarkan dari tabel. Pada langkah kedua ini perlu disediakan tambahan
kolom: (1) proporsi skor siswa dan (2) proporsi skor butir soal. Proporsi skor
peserta didik adalah skor siswa : jumlah butir soal; sedangkan proporsi skor
soal adalah skor soal : jumlah siswa.
3) Menghitung Distribusi
Menghitung distribusi skor soal berdasarkan skor soal yang sudah diedit,
maka skor soal diklasifikasikan menjadi beberapa kelompok berdasarkan skor
yang sama. Untuk memudahkan penghitungan distribusi skor butir soal, maka
perlu disusun beberapa kolom di dalam tabel, seperti kolom:
a) Kelompok skor soal (i), yaitu kelompok skor yang didasarkan pada skor
soal yang sama, kolom ini berhubungan langsung dengan kolom 2 dan
kolom 3;
b) Nomor butir soal;
c) Skor soal (si);
d) Frekuensi soal (fi) yaitu jumlah soal yang memiliki skorsoal sama;
e) Proporsi benar (pi) yaitu si : jumlah peserta tes;
f) Proporsi salah (1− pi );
g) Logit (log odds unit)-proporsi salah (xi) yaitu ln [(1− pi)/ pi ];
h) hasil kali frekuensi soal dengan logit proporsi salah (fixi);
i) Kuadrat logit proporsi salah (fixi)2;
j) Hasil kali frekuensi soal dengan kuadrat logit proporsi salah(fixi2);
k) Inisial kalibrasi butir soal yaitu di° = xi - nilal ratarata skor soal, dan hasil
kali antara frekuensi soal dengan kuadrat nilai rata-rata skor (fix ?).
4) Menghitung Distribusi Skor Peserta Didik

Untuk memudahkan di dalam menghitung distribusi distribusi skor peserta
didik perlu disusun beberapa kolom yaitu kolom:
a) kemungkinan skor peserta didik (r) yang disusun secara berurutan
dimulai dan skor terendah sampai tertinggi;
b) skor peserta didik, yaitu berupa toli skor peserta didik;
c) rekuensi peserta didik (nr) yang memperoleh skor;
d) proporsi benar (Pi-) yaitu skor peserta peserta didik dibagi jumlah
soal;
e) logit proporsi benar (Yr) yaitu ln [Pr /(1−Pr)];
f) perkalian antara frekuensi siswa dengan logit proporsi benar (nrYr);
g) logic proporsi benar yang dikuadraktan (Yr kuadrat); kuadrat);
h) hasil perkalian antara frekuensi frekuensi peserta peserta didik dengan
logic proporsi benar yang dikuadratkan (nrYr kuadrat);
i) inisial pengukuran kemampuan peserta didik (br Yr);
j) perkalian antara frekuensi peserta didik dengan nilai rata-rata skor
peserta didik (nrYr kuadrat).
5) Menghitung Faktor Ekspansi

Menghitung faktor ekspansi kemampuan peserta didik (x) dan kesukaran
butir soal (Y). Dalam menghitung faktor ekspansi diperlukan variasi
distribusi kelompok skor soal (U) dan variance distribusi kelompok skor
siswa (V). Faktor ekspansi kemampuan peserta didik terhadap keluasan tes
adalah X =¿. Faktor ekspansi kemampuan peserta didik terhadap penyebaran
sampel adalah X =−¿.
6) Menghitung Tingkat Kesukaran Dan Kesalahan Standar Butir Soal

Dalam menghitung tingkat kesukaran dan kesalahan standar soal perlu
disusun beberapa kolom di dalam tabel, yaitu kolom:
a) kelompok skor soal (1);
b) nomor soal;
c) inisial kalibrasi soal (d);
d) faktor ekspansi kesukaran soal terhadap penyebaran sampel (Y);
e) tingkat kesukaran soal atau Yd i = d i;
f) skor soal (S);
g) kesalahan standar kalibrasi soal yang dikoreksi [SE( d i)]atau
SE=¿
7) Menghitung Tingkat Kemampuan dan Kesalahan Standar Siswa

Dalam menghitung tingkat kemampuan dan kesalahan standar siswa
disusun beberapa kolom, yaitu kolom:
a) kemungkinan skor siswa (r);
b) initial pengukuran kemampuan siswa (br);
c) faktor ekspansi kemampuan siswa terhadap keluasan tes (X);
d) tingkat kemampuan siswa (br) atau (Xbr);
e) kesalahan standar pengukuran kemampuan siswa yang dikoreksi
[SE( br)] yaitu X ¿ ;
f) peserta tes.
8) Menghitung Probabilitas Atau Peluang Menjawab Benar Setiap Butir Soal

[P(0)}
Untuk menghitung peluang menjawab benar setiap butir pada model
Rasch atau model satu parameter digunakan rumus berikut ini.
Pi ( 0 ) =e I X °−bi ¿ ¿
1+ e D (O−bi )
Atau
1
Pi ( 0 ) =
1+ e D ( O−bi )
Estimasi data yang lebih teliti dan akurat hasilnya adalah menggunakan
komputer seperti menggunakan program Bigsteps. Dalam program Bigsteps,
estimasi data digunakan metode Appoximation Maximum Likelihood
(PROX) dan Unconditional Maximum Likelihood (UCON). Untuk
menghasilkan hasil yang akurat, estimasi data dengan komputer dapat
melakukan iterasi maksimum untuk metode PROX, misal bisa sampai 20 kali
kemudian dilanjutkan dengan metode UCON sampai dengan 50 kali
tergantung banyaknya data. Perbedaan hasil kalibrasi pada setiap iterasi
semakin lama semakin kecil dan akan berhenti bila prosesnya sudah
terpenuhi (converge) atau lebih kecil dari 0,01.
Kriteria data sesuai dengan model Rasch adalah apabila hasil korelasi
point bhiserial tidak negatif dan outfitnya < 2 baik outfit butir soal maupun
outfit orang. Hal ini menunjukkan bahwa data adalah fit dengan model.
Maksudnya bahwa data soal sesuai dengan model Rasch atau valid yang
memiliki mean= 0 dan SD=1. Metode pengujian fit tergantung pada jumlah
butir soal dalam tes: (a) tes sangat pendek (10 atau beberapa butir), (b) tes
pendek (11-20 butir), atau (c) tes panjang ( >20 butir).
Outfit orang maksudnya statistik orang menunjukkan bagaimana
perilaku yang tidak diharapkan pada butir soal yang mempunyai tingkat
kesukaran jauh dengan kemampuan orang yang bersangkutan. Adapun Outfit
butir maksudnya statistik butir soal menunjukkan bagaimana perilaku yang
tidak diharapkan dari orang yang mempunyai kemampuan lebih dengan
tingkat kesukaran butir yang bersangkutan.
Dalam pelaksanaannya, analisis secara IRT tidak serumit seperti
penjelasan di atas. Pelaksanaannya sangat mudah dipahami oleh para guru
karena dalam analisis digunakan program komputer, seperti program
RASCAL, PASCAL, BIGSTEPS, atau QUEST. Untuk mengenal lebih jauh
program-program ini, bacalah pada bab berikutnya.
Latihan Soal
1. Diketahui :
X = Skor UN
UN TB
N Y = Skor Tes Buatan Guru
X Y
1 20 15 N = Siswa
2 15 19 Lakukan kalibrasi terhadap tes buatan
3 22 10
4 24 20
guru dibandingkan dengan tes UN dalam
5 17 13 mata pelajaran fisika, dengan
6 12 11
memperhatikan perolehan skor seperti
7 17 14
8 18 17 pada tabel berikut ini
9 20 16
10 25 11
11 34 20
12 40 21
13 22 19
14 30 27
15 18 21
16 20 29
17 23 13
18 27 17
19 13 21
20 24 34
21 16 19
17 | K a l i b22r a s i T e25s 20
23 21 10
24 18 11
25 13 13
DAFTAR PUSTAKA
Baker, F.B. , & Kim, S.H. (2017). The Basics of Item Response Theory Using R.
Switzerland: Springer International Publishing AG.
Chen, K. (2019). A Comparison of Fixed Item Parameter Calibration Methods and
Reporting Score Scales in The Development of an Item Pool. Tesis master,
tidak diterbitkan, University of Iowa.
Huriaty, D. (2015). Metode Kalibrasi dan Desain Tes Berdasarkan Teori Respon Butir
(IRT). Jurnal Pendidikan Matematika, Vol 1, No 3.
Kim, S.H. & Cohen, A.S. (1996). A Comparison of Linking and Concurrent
Calibration Under Item Response Theory. American Educational Research
Association.
Wright, Benjamin D., & Linacre, John M. (1992). A User’s Guide to BIGSTEPS;
Rasch Model Computer Program Version 2.2. Chicago: MESA Press. Wright,
B. D., & Stone.

TRB - K8 - KALIBRASI TES - Rev1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TRB - K8 - KALIBRASI TES - Rev1

Diunggah oleh

Hak Cipta:

Format Tersedia

KALIBRASI TES

Disusun untuk memenuhi tugas:

JURUSAN PENDIDIKAN FISIKA

Kalibrasi butir adalah proses estimasi untuk menentukan parameter-parameter

P ( u1 ,u 2 , … , un∨θ ) : probabilitas peserta tes dengan kemampuan menjawab

Invariansi parameter adalah karakteristik butir soal yang tidak tergantung

8.2 Macam Kalibrasi

8.2.1 Kalibrasi terpisah (separate calibration)

8.2.1.4 Metode Stocking-Lord

Beberapa penelitian menunjukkan bahwa transformasi dengan

8.3 Kelebihan dan Kelemahan IRT

8.4 Langkah Kalibrasi

4) Menghitung Distribusi Skor Peserta Didik

5) Menghitung Faktor Ekspansi

6) Menghitung Tingkat Kesukaran Dan Kesalahan Standar Butir Soal

7) Menghitung Tingkat Kemampuan dan Kesalahan Standar Siswa

8) Menghitung Probabilitas Atau Peluang Menjawab Benar Setiap Butir Soal

Anda mungkin juga menyukai