Anda di halaman 1dari 9

PANDUAN PRAKTIKUM TEORI RESPON BUTIR

Analisis Butir dengan Pendekatan Klasik dan Modern

Dosen Pengampu:
Didik Setyawarno, M.Pd

SEPTEMBER-DESEMBER, 2018
JURUSAN PENDIDIKAN IPA, FAKULTAS MATEMATIKA DAN
ILMU PENGETAHUAN ALAM
Kampus Pusat UNY, Jln Colombo No 1, Yogyakarta 55281
PRAKTIKUM 13
ANALISIS BIAR BUTIR DENGAN APLIKASI ITEMAN 4, QUEST, DAN XCALIBRE

A. Tujuan
Mahasiswa mampu menganalisis butir soal dengan menggunakan aplikasi Iteman 4.3, Quest, dan Xcalibre
untuk menganalisis bias butir

B. Bias Butir
Bias Item dan istilah DIF (Differential Item Functioning) sering digunakan oleh para pakar pengukuran untuk
merujuk pada konsep yang sama. Suatu item dikatakan bias apabila dua kelompok yang memiliki kemampuan
sama memperoleh hasil yang berbeda pada item tersebut. Suatu butir atau item terdeteksi DIF apabila butir
tersebut memiliki tingkat kesukaran yang berbeda secara signifikan antara kelompok yang dibandingkan.
Bagi satu kelompok suatu butir dianggap sulit sementara bagi kelompok lain dianggap mudah. Ada dua
kelompok metode pendeteksian DIF yaitu metode yang berdasarkan pendekatan teori tes klasik dan metode
yang berdasarkan pendekatan IRT (item response theory). Berdasarkan pendekatan teori tes klasik,
pendeteksian DIF menggunakan skor total terobservasi (total observed score) sebagai representasi kemampuan
peserta tes. Sementara berdasarkan pendekatan item response theory, pendeteksian DIF memiliki dua
pendekatan yang berbeda yaitu: berpusat pada pengukuran DIF melalui indeks dan berpusat pada uji
statistik. Saat ini metode pendeteksian DIF berdasarkan IRT lebih umum digunakan dibandingkan dengan
metode pendeteksian DIF berdasarkan teori tes klasik. Prosedur analisis bias pada butir dilakukan dengan
membagi kelompok peserte tes menjadi dua kelompok yang diduga mengalami bias butir. Kelompok yang
diselidiki apakah ada item yang bias disebut kelompok fokus (focal group) dan kelompok pembandingnya
disebut kelompok acuan (reference group).
Salah satu cara deteksi DIF dengan pendekatan IRT adalah model test o f b difference yaitu metode
perbandingan parameter b yang digunakan untuk mendeteksi DIF item-item tes. Model test o f b difference
merupakan model pengukuran yang didasarkan pada satu parameter yaitu tingkat kesukaran soal atau Rasch
Model. Tingkat kesukaran item soal yang disimbulkan dengan delta atau threshold values, dimana d1 adalah
tingkat kesukaran item soal dari kelompok satu sedangkan d2 adalah tingkat kesukaran item soal dari
kelompok dua. Kriteria untuk menentukan item soal terindikasi DIF ditinjau dari tingkat kesukaran soal dengan
pendekatan IRT (Rasch Model dengan aplikasi QUEST) apabila d1 – d2 >0,50 atau d1 - d2 < -0,50. Selain
dilihat dari d1 – d2, dapat juga dilihat dari INFIT MNSQ (0,77-1,30) dari subkelompok masing-masing, jika
butir tidak fit oleh kelompok 1, sedang kelompok 2 fit, maka disimpulkan butir tersebut mengadung DIF/ bias
butir.
Metode lain dengan pendekatan IRT adalah dengan melihat grafik hubungan andara peluang menjawab
benar terhadap kemampuan masing-masing kelompok (kelompok 1 dan kelompok 2).
120.00 1.000
0.900
100.00 0.800
80.00 0.700
0.600
60.00 Male 0.500 Male
0.400
40.00 0.300 Female
Female 0.200
20.00 0.100
0.00 0.000
0.90
2.20
-3.00
-1.70
-0.40
0.60
1.50
2.40
-3.00
-2.10
-1.20
-0.30

4, 00
Ai 

 0,005 | P
 4 , 00
i1  Pi 2 |
Jika nilai A > 0,5 dinyatakan butir mengandung DIF/ bias butir.
Salah satu cara deteksi DIF dengan pendekatan tes klasik adalah metode yang ditemukan oleh Mantel dan
Haenszel yang kemudian terkenal dengan metode Mantel-Haenszel (MH). Mantel dan Haenszel menampilkan
prosedur untuk suatu studi pemadanan kelompok yang oleh Holland dan Thayer dipakai untuk mendeteksi DIF.
Metode ini merupakan metode yang powerful dan digunakan di Educational Testing Service (ETS) di Amerika
Serikat. Prosedur analisis DIF dengan metode MH yaitu:
1. populasi (seluruh peserta tes) dibagi ke dalam subpopulasi yang diduga terkena bias butir dan
dinamakan subpopulasi referensi (R) dan subpopulasi fokus (F). Misal subpopulasi berdasarkan jenis
kelamin, maka subpopulasi pertama adalah laki-laki dan subpopulasi kedua adalah perempuan.
2. skor dibagi ke dalam K level dimana pada setiap level, banyaknya responden pada setiap
subpopulasi berdasarkan jawaban betul dan salah.
3. mentabulasikan jawaban betul dan salah dari masing-masing subpopulasi dan level sebagi berikut.
Subpopulasi Betul Salah Jumlah
Kel. Referensi MRbk MRsk MRk
Kel. Fokus MFbk MFsk MFk
Jumlah Mbk Msk Mk
Persamaan matematis dalam pengujian DIF dengan metode MH sebagai berikut.
K
M Rbk M Fsk
 Mk
 MH  kK1
M Rsk M Fbk

k 1 Mk
Ukuran bias butir delta dapat dihitung dari:
bias-MH = – 2,35 ln MH
Makin negatif makin sukar butir itu bagi subpopulasi focus. Penggunaan metode Mantel-Haenszel berdasarkan
asumsi-asumsi sebagai berikut.
1. Tes hanya mengukur satu dimensi (unidimensi);
2. Kemampuan peserta tes dinyatakan dalam skor total yang diperoleh peserta tes dari seluruh item soal
dengan menganggap setiap item soal mempunyai bobot yang lama;
3. Level kemampuan peserta tes dapat digolongkan ke dalam M kelompok yang berurutan; dan
4. Setiap peserta tes dapat dikelompokkan ke dalam satu dan hanya satu kelompok, yaitu kelompok
acuan atau kelompok fokus.
Hasil perhitungan statistic dari metode MH mengikuti distribusi Chi Square dengan persamaan matematis
sebagai berikut.
2
 K K
M bk M Rk 
  Rbk  M
| M  | 0,5
 
k 1 k 1
 MH
2
K
k

M bk M sk M Rk M Fk
k 1 Mk
Kriteria dari metode MH untuk menentukan item soal terindikasi DIF adalah X2hitung > X2 tabel, atau X2hitung >
3,841; untuk α= 0,05 atau 5%, df = 1.
Program QUEST, ITEMAN 4, dan Xcalibre dapat digunakan untuk melakukan deteksi DIF dari suatu butir atau
item. Berikut disajikan contoh hasil analisis dengan aplikasi QUEST dari 10 butir.
Berdasarkan hasil analisis dari aplikasi QUEST pada tabel di atas, dapat diinterpretasikan sebagai berikut.
1. Hasil analisis DIF dengan pendekatan IRT (Rasch Model) dengan ketentuan bahwa butir atau item
mengalami bias/ DIF jika d1 – d2 >0,50 atau d1 - d2 < -0,50, sehingga dapat disimpulkan bahwa
butir atau item nomor 7 dan 10 dengan nilai d1 – d2 masing-masing 0,84 dan -1,00. Butir nomor 7
nilai delta d1 (kelompok laki-laki) = -0,49, sedangkan nilai delta d2 (kelompok perempuan) =-1,33.

Hasil delta masing-masing kelompok tersebut untuk butir nomor 7menggambarkan bahwa kelompok
laki-laki (-0,49) lebih sukar mengerjakannya dari pada kelompok perempuan (-1,33). Demikian juga
untuk butir nomor 10, delta d1 (kelompok laki-laki) = -1,99, sedangkan nilai delta d2 (kelompok
perempuan) =-1,00, dapat disimpulkan bahwa kelompok laki-laki lebih mudah mengerjakan daripada
kelompok perempuan. Sehingga dapat disimpulkan dua butir tersebut menggandung DIF.
2. Hasil analisis DIF dengan pendekatan tes klasik (classical test theory) dengan metode MH dengan
ketentuan bahwa butir atau item mengalami bias/ DIF jika X2hitung > X2 tabel, atau X2hitung > 3,841 atau
nilai p < 0,05; untuk α= 0,05 atau 5%, df = 1. Berdasarkan hasil analisis dengan aplikasi QUEST
terlihat bahwa butir nomor 7 dan 10 mengalami bias/ DIF dengan nilai X2hitung masing-masing 8,71 dan
8,39 dimana nilai tersebut lebih besar dari 3,841.
Selain itu untuk mengetahui kelompok mana yang lebih sulit/ lebih mudah dalam mengerjakan butir juga
dapat dilihat dari plot grafik berikut.

Mantel-Haenszel
The Mantel-Haenszel (M-H) coefficient is reported for each item as an odds ratio. The coefficient is a
weighted average of the odds ratios for each θ level. If the odds ratio is less than 1.0, then the item is more
likely to be correctly endorsed by the reference group than the focal group. Likewise, odds ratios greater
than 1.0 indicate that the focal group was more likely to correctly endorse the item than the focal group.
The M-H coefficient is standardized through a log transformation, which is referred as M-H D DIF (Dorans
& Holland, 1993). The transformed value less than 0 indicates a reference group advantage whereas a
value greater than 0 indicates the item is more likely to be correctly endorsed by the focal group than the
reference group. The RTF file contains the overall M-H coefficient for an item; the CSV output file also
includes the odds ratios for each θ level. These ratios can be used to determine if the DIF present was
constant for all abilities (uniform DIF) or varied conditional on θ (crossing DIF). The M-H coefficient is not
sensitive to crossing DIF, so null results should be checked to confirm that crossing DIF was not present.
z-test Statistic
The negative of the natural logarithm of the M-H odds ratio was divided by its standard error to obtain
the z-test statistic used to test the significance of the M-H against a null of zero DIF (odds ratio of 1.0). This
test statistic is provided only in the CSV output file.
p
The two-tailed p value associated with the z test for DIF. Items with p values less than .05 will be flagged
as having significant DIF.
Bias Against
This is the group the item is flagged as potentially disfavoring, or “biased against,” when the p value is less
than .05. In the context of the M-H test for DIF, the group that the item is disfavoring has a lower probability
of a correct response than the other group, controlling for ability level. The item should be reviewed by a
content expert to determine if there is indeed a bias issue.
Item information
Seq. ID Model Key Scored Num Options Domain Flags
2 2 3PL C Yes 5 1

Classical statistics
N P S-Rpbis T-Rpbis Alpha w/o M-H M-H D p Bias Against
32 0.656 0.043 0.194 0.401 0.541 1.446 0.544 N/A

IRT parameters
a b C a SE b SE c SE Chi-sq df p z Resid p
0.302 -0.912 0.233 0.814 0.878 0.839 15.081 12 0.237 0.469 0.639

Option statistics
Option N Prop. S-Rpbis T-Rpbis Mean SD
A 3 0.094 0.042 -0.033 -0.045 0.302
B 3 0.094 0.005 -0.078 -0.140 0.338
C 21 0.656 0.043 0.194 0.115 0.778 **KEY**
D 3 0.094 -0.033 -0.091 -0.166 0.645
E 2 0.063 -0.102 -0.138 -0.331 0.185
Omit 0
Not Admin 0
C. Data Butir Soal
Gunakan data dari praktikum 3 atau data yang lain.
Catatan diusahakan setiap kelompok mengambil satu sekolah yang berbeda.

D. Prosedur Analisis
Analisis dengan QUEST
Siapkan file data jawaban siswa dan sintak/ perintah untuk menjalankan di aplikasi QUEST di notepad.
1. Contoh file sintak.

2. Contoh file data jawaban peserta tes

Analisis dengan Xcalibre & Iteman 4


Input data jawaban di notepad

Input data control


E. Tugas
1. Lakukan analisis DIF dengan QUEST untuk melihat apakah terdapat butir yang bias atau tidak baik
secara klasik (metode MH) maupun modern (metode uji beda aspek tingkat kesulitan butir)
2. Dari data yang sama lakukan analisis DIF dengan aplikasi Iteman 4 dan Xcalibre (data maksimal 50
butir dan responden maksimal 50 dari data yang ada). Buatlah panduan analisisnya juga dari
prosedur tersebut.

F. Kesimpulan
Buatlah interpretasi dari hasil keluaran hasil analisis tersebut dan berikan kesimpulan untuk masing-masing
butir terkait dengan kualitasnya.

Anda mungkin juga menyukai