Anda di halaman 1dari 6

Internasional J. Soc. Sci. & Pendidikan 2016 Vol.

6 Edisi 1, ISSN: 2223-4934 E


dan 2227-393X Efek dari DIF besaran, Focal Grup Ukuran Sampel, dan DIF
Ratio pada Kinerja SIBTEST
Dengan
Sevilay Kilmen Fakultas Pendidikan, Abant Izzet Baysal University, Golkoy, Bolu, Turki.
Abstrak
Penelitian ini difokuskan pada penentuan efek diferensial barang berfungsi (DIF) besarnya, ukuran sampel kelompok fokus, dan
rasio DIF dalam uji kekuatan statistik dan Ketik mengontrol laju Simultan Barang prosedur Bias Uji data simulasi. Persentase
item DIF adalah 10%, 20%, dan 30% dari item pada tes 20-item. Sedang dan besar besaran DIF diuji. Kemampuan yang
dihasilkan secara acak dari distribusi normal N (0,1) dan berubah untuk setiap replikasi. Untuk menguji pengaruh rasio ukuran
sampel pada kinerja SIBTEST, 1000 peserta ujian yang dihasilkan untuk kelompok referensi dan nomor bervariasi dari peserta
ujian yang dihasilkan untuk kelompok fokus (1000, 500, dan 250). 3600 1-0 matriks data yang dihasilkan oleh WinGEN2. SIBTEST
digunakan untuk menghitung statistik DIF. Power dan Tipe I tingkat kesalahan dihitung untuk setiap kondisi eksperimental,
berdasarkan 100 ulangan. Menurut hasil, kondisi dengan DIF moderat memiliki Tipe I tingkat kontrol kesalahan lebih baik
dibandingkan dengan DIF besar. Kekuatan SIBTEST meningkat sebagai ukuran sampel kelompok fokus meningkat. Daya
maksimum (100%) diamati pada kondisi DIF yang berisi rasio DIF 10% besar.
Kata kunci: Teori Respon Butir; diferensial barang berfungsi, SIBTEST, DIF besarnya, rasio DIF, rasio ukuran sampel.

1.Pendahuluan
ItemDifferential berfungsi (DIF) adalah “manifestasi bias diamati ketika peserta ujian dari kelompok yang berbeda
memiliki probabilitas yang berbeda atau kemungkinan menjawab item dengan benar, setelah mengendalikan
kemampuan” (Awuor, 2008). DIF terjadi ketika individu dari kelompok yang berbeda memiliki skor item yang
diharapkan tidak sama atau pencocokan pada primer sifat, atribut, atau kemampuan tes dirancang untuk mengukur
(Lopez Rivas, 2012). Dua kategori DIF yang seragam dan seragam. Seragam DIF terjadi ketika probabilitas bereaksi
dengan benar untuk item seragam lebih tinggi untuk salah satu dari dua kelompok di semua tingkat kemampuan;
kelompok-kelompok ini disebut referensi dan kelompok fokus. Seragam DIF mengacu pada kasus di mana item
mendiskriminasikan berbeda antara kelompok (Finch, 2005). Item yang menampilkan DIF adalah risiko untuk
validitas uji; barang-barang ini harus diidentifikasi dan dihapus dari tes dalam proses yang disebut barang
pemurnian. Ada beberapa metode deteksi DIF yang umum digunakan: SIBTEST (Shealy & Stout, 1993), Crossing
SIBTEST (Li & Stout, 1996), Mantel-Haenszel (MH) Chi-square (Holland & Thayer, 1988), uji rasio kemungkinan
IRT ( Thissen, Steinberg, & WAINER, 1993), regresi logistik (Swaminathan & Rogers, 1990), beberapa indikator,
beberapa penyebab (MIMIC) analisis faktor konfirmatori (MacIntosh & Hashim, 2003; Muthen, Kao, & Burstein,
1991), dan MULTISIB (Stout, Li, Nandakumar & Bolt, 1997). SIBTEST adalah metode deteksi DIF non-parametrik
yang tidak memerlukan kalibrasi model (Ackerman & Evans, 1992). SIBTEST secara bersamaan dapat
mengevaluasi DIF di beberapa item tes dan memungkinkan seseorang untuk memilih subtes yang cocok. Untuk
peserta ujian, SIBTEST membandingkan proporsi rata-rata yang benar pada subtes untuk referensi dan fokus peserta
ujian kelompok (Narayanan & Swaminatthan, 1994). SIBTEST mendeteksi Bias dengan membandingkan respons
dari peserta ujian dalam referensi dan kelompok fokus yang dialokasikan untuk sampah berdasarkan skor mereka
dalam "cocok subtes". Hipotesis statistik yang diuji oleh SIBTEST adalah (Stout & Roussos, 1996):

Dimana parameter menentukan jumlah DIF untuk item, dan didefinisikan seperti yang diharapkan perbedaan mean
tertimbang dalam probabilitas respon yang benar pada item antara referensi dan kelompok fokus peserta ujian
kemampuan identik (Stout & Roussos, 1996). Beberapa studi meneliti kinerja SIBTEST dalam berbagai kondisi.
Narayanan & Swaminathan (1994) mengambil perbedaan kemampuan antara fokus dan kelompok referensi, rasio
DIF, dan ukuran sampel sebagai faktor dimanipulasi dan mereka dibandingkan SIBTEST dengan MH. Mereka
memutuskan bahwa SIBTEST dan prosedur MH sama-sama kuat untuk mendeteksi DIF seragam untuk sama
distribusi kemampuan, tetapi SIBTEST mengungguli MH ketika referensi dan kelompok fokus distribusi
kemampuan yang tidak setara. MH dan SIBTEST yang, sampai batas tertentu, tergantung pada ukuran sampel;
menentukan kekuatan prosedur ini direkomendasikan untuk sampel kecil, mengingat rasio referensi dan ukuran
sampel kelompok fokus. Kinerja SIBTEST dipengaruhi oleh ukuran sampel dan panjang tes (Rogers &
Swaminathan 1993; Roussos & Stout, 1996), perbedaan kemampuan, jumlah item dalam ujian, rasio ukuran sampel,
dan persentase dan besarnya DIF (Awour, 2008; Atalay Kabasakal, Arsan, gok, & Kelecioğlu 2014); Kinerja
SIBTEST tidak terpengaruh oleh perbedaan rata-rata kemampuan (Pei & Lie, 2010). Sementara SIBTEST
dipengaruhi oleh persentase DIF, secara memadai dapat mendeteksi DIF, bahkan ketika 60% dari item yang
terkandung DIF dan ukuran sampel setidaknya 1.000 peserta ujian per kelompok (Gierl, Gotzmann, & Boughton,
2004). Lei dan Li (2013) telah meneliti efek dari ukuran sampel yang kecil dan besaran DIF pada SIBTEST dan
metode deteksi DIF lainnya; mereka memutuskan bahwa ukuran sampel yang lebih besar positif mempengaruhi
kinerja SIBTEST.
Penelitian ini difokuskan pada penentuan kinerja SIBTEST dari SIBTEST di bawah kondisi yang bervariasi. Setelah
memeriksa literatur, studi yang disebutkan di atas tidak memeriksa rasio DIF, besaran DIF, dan rasio ukuran sampel
dalam desain sepenuhnya menyeberang, yang memungkinkan kita untuk meneliti interaksi variabel dan kinerja DIF.
Tujuan dari penelitian ini adalah untuk menyelidiki efek dari DIF besarnya, ukuran sampel kelompok fokus, dan rasio
DIF pada kekuatan statistik SIBTEST dan Ketik mengontrol tingkat.
2. Metode
Dimanipulasi faktor
Dalam penelitian ini, data uji simulasi digunakan untuk membandingkan 18 kondisi pengujian yang berbeda,
bervariasi besarnya DIF, ukuran sampel kelompok fokus, dan rasio DIF. Dalam studi simulasi, item DIF dikenal
apriori; Oleh karena itu, kesalahan Tipe I dan kekuasaan diperkirakan dari persentase positif palsu dan positif sejati
terpisah dari ulangan. Sebuah kesalahan Tipe I terjadi ketika item diidentifikasi sebagai DIF, tapi DIF tidak
disimulasikan. Persentase deteksi item simulasi menjadi DIF digunakan perkiraan empiris dari kekuasaan (Lee,
Cohen & Toro, 2009). Studi simulasi untuk menyelidiki kekuatan dan Jenis tingkat I kesalahan dari SIBTEST
dengan faktor dimanipulasi dilakukan sebagai berikut:
• Ukuran sampel kelompok focal: 250, 500, dan 1000;
• Jumlah item dengan DIF: 2 (10%), 4 (20%), dan 6 (30%) item dalam 20-item panjang tes
• Besaran DIF: 0,4 per item DIF dan 0,8 per item DIF
Data Generation
Suatu program komputer yang disebut Wingen (Han, 2006) dikembangkan untuk menghasilkan data respon butir
dikotomis dan polytomous untuk beberapa model IRT dan untuk banyak kondisi yang timbul dalam praktek.
WINGEN memberikan masukan dialog untuk memperkenalkan DIF atau parameter item yang hanyut dalam data
simulasi. Dengan beberapa file baca-in pilihan di Wingen, pengguna dapat memiliki beberapa kelompok ujian dan
beberapa set item / tes (Han & Hambleton, 2007). Dalam studi ini, dua puluh satu dimensi, dichotomously-mencetak
tes item yang dihasilkan oleh WinGen2 sesuai dengan dua parameter model yang IRT logistik. The parameter
berkisar 0,533-1,399, dengan rata-rata 0,954 dan standar deviasi 0,196. Parameter b yang dihasilkan secara acak dari
distribusi normal. Pada langkah pertama pembuatan data, salah satu bentuk tes simulatif, disebut bentuk tes
kelompok referensi, dan enam bentuk tes yang dihasilkan dengan DIF untuk kelompok fokus. Menurut Shepard,
Camilli, dan Williams (2008), perbedaan parameter b 0,20 adalah DIF moderat setidaknya dideteksi, 0,35
diproduksi, dan 0,64 diproduksi DIF besar. Dipotong poin ini digunakan dalam penelitian ini.
Jenis DIF dimodelkan sebagai seragam. Bentuk tes ini terdiri dari 20 item masing-masing dan diciptakan dalam hal
DIF besaran dan rasio:
• bentuk tes dengan dua item DIF moderat
• bentuk tes dengan empat DIF item moderat
• bentuk tes dengan enam DIF item moderat
• bentuk tes dengan dua DIF besar item
• bentuk tes dengan empat item DIF besar
• bentuk tes dengan enam item DIF besar
Uniform DIF disimulasikan dengan menjaga parameter untuk referensi dan kelompok fokus sama tetapi
memvariasikan parameter b untuk kedua kelompok. Seperti terlihat pada Tabel 1, dua (item 19 dan 20), empat (item
17, 18, 19, dan 20), dan enam item (item 15, 16, 17, 18, 19, dan 20) dimodelkan untuk menampilkan seragam DIF
besaran moderat dengan meningkatkan b parameter kelompok fokus oleh 0,4. Item dimodelkan lagi untuk
menampilkan DIF seragam besar dengan meningkatkan b parameter kelompok fokus oleh 0,8. Parameter Item untuk
kelompok fokus adalah sama dengan yang untuk kelompok referensi kecuali item yang parameter dimanipulasi untuk
menunjukkan menengah dan seragam besar DIF.
Pada langkah kedua, kemampuan yang dihasilkan secara acak dari distribusi normal N (0,1) melalui WinGen2. Nilai-
nilai kemampuan orang tersebut berubah untuk setiap replikasi. Untuk menguji pengaruh rasio ukuran sampel pada
kinerja SIBTEST, 1000 peserta ujian yang dihasilkan untuk kelompok referensi dan nomor bervariasi dari peserta
ujian yang dihasilkan untuk kelompok fokus: 1000, 500, dan 250. Kombinasi antarareferensi dan kelompok fokus
dilakukan dalam rasio 1: 1, 1: 2, dan 1: 4; di setiap kondisi, 100 ulangan dilakukan. Data set yang unik yang dihasilkan
untuk kedua referensi dan kelompok fokus di setiap replikasi. Dengan demikian data respon dari 3600 item yang
dihasilkan (1800 untuk kelompok fokus dan 1800 untuk kelompok referensi). Nilai DIF telah diperoleh dengan
menggunakan SIBTEST.

Kriteria evaluasi
Tipe I kesalahan didefinisikan proporsi kali item non-DIF ditandai salah sebagai item DIF di ulangan; dengan kata
lain, jumlah positif palsu dibagi dengan jumlah ulangan (Lopez Rivas, 2012). Dalam sebuah penelitian simulasi,
kesalahan Tipe I terjadi ketika item diidentifikasi sebagai DIF, tapi DIF tidak disimulasikan (Lee, Cohen & Toro,
2009). Ketika Type tingkat kesalahan saya tinggi, itu berarti bahwa non item DIF yang salah ditandai sebagai item
DIF. Di sisi lain, daya didefinisikan sebagai jumlah kali item yang dikenal untuk menunjukkan DIF ditandai dengan
metode deteksi DIF; oleh karena itu, jumlah positif sejati dibagi dengan jumlah ulangan (Lopez Rivas, 2012).
Persentase deteksi item simulasi menjadi DIF digunakan perkiraan empiris dari kekuasaan (Lee, Cohen & Toro,
2009). Bila daya yang tinggi, itu berarti DIF item diidentifikasi dengan benar. Kekuatan dan Tipe I tingkat kesalahan
statistik yang dihitung lebih dari 100 ulangan.
3. Temuan dan Diskusi
Hasil disajikan pada Tabel 2. Tabel 2 berisi kekuatan dan tingkat kesalahan Tipe I sebagai fungsi dari besarnya DIF
(moderat dan besar), rasio DIF di tes (10%, 20%, dan 30%), dan ukuran sampel kelompok fokus (250, 500, dan
1000).
hasil SIBTEST dengan tipe terkecil tingkat kesalahan memiliki 10% DIF moderat untuk semua ukuran sampel. Untuk
semua kondisi di mana persentase item DIF adalah 30%, tingkat kesalahan Tipe I telah sangat meningkat. Untuk
kondisi tersebut di atas, kondisi dengan tipe tertinggi saya kesalahan adalah DIF30% besar kondisi ukuran sampel
kelompok fokus 1000. Ketika kelompok fokus ukuran sampel 500 dengan moderat 10% DIF, ada Jenis sedikit saya
kesalahan dari dalam kondisi lain. Tingkat kesalahan tipe I meningkat proporsi item yang menunjukkan DIF
meningkat (dari 10% sampai 30%), yang sepakat dengan hasil Narayanan dan Swaminathan (1994).
Ketika hasil penelitian saat ini dibandingkan dengan Awuor (2008) 's dan Atalay Kabasakal et al. (2014) temuan,
tingkat kekuatan studi ini lebih tinggi dari hasil saat ini, mungkin karena besaran DIF sedang dan besar yang berbeda,
parameter, parameter b, dan panjang tes di Awuor ini (2008), Gierl, Gotzmann, & Boughton (2004) dan Atalay
Kabasakal et al. (2014) studi. Misalnya, 20- tes item yang digunakan dalam penelitian ini, sedangkan tes 50-item yang
digunakan dalam (2008) studi Awuor ini. Dalam Gierl, Gotzmann, & (2004) studi Boughton ini, proporsi DIF
dimanipulasi menjadi 20, 40, dan 60% dari tes 40 butir. Juga, fokus dan ukuran sampel kelompok referensi yang sama.
Hasil kekuatan yang lebih tinggi yang diperoleh dalam penelitian ini mungkin karena kondisi pengujian yang berbeda
ketika mereka dibandingkan dengan penelitian ini.
DIF besarnya dipengaruhi kinerja SIBTEST dalam penelitian ini; kekuatan SIBTEST meningkat besaran DIF
meningkat 0,4-0,8. Kondisi besarnya DIF besar diproduksi kekuatan statistik yang besar. SIBTEST memiliki kekuatan
yang paling memadai di bawah 10% kondisi DIF besar. Hasil mendukung temuan Awour (2008) dan Narayanan dan
Swaminathan (1994).
Daya rendah untuk deteksi DIF diperoleh ketika ukuran sampel kelompok fokus kecil. Kekuatan termiskin terlihat
saat ukuran sampel kelompok fokus adalah 250. Dalam penelitian ini, kekuatan SIBTEST meningkat focal ukuran
sampel kelompok meningkat. Dengan kata lain, ukuran sampel positif mempengaruhi kinerja SIBTEST. Hasil ini
mendukung temuan Awour (2008), Finch (2005), Lei dan Li (2013), Gierl, Gotzmann, dan Broughton (2004),
González-ROMA et al. (2006), Narayanan dan Swaminathan (1994), Rogers dan Swaminathan (1993) dan Zheng,
Gierl & Cui (2007). Menurut Narayanan & Swaminathan (1994), hasil ini tidak mengherankan karena distribusi
empiris diharapkan untuk mendekati distribusi teoritis sebagai ukuran sampel meningkat. Menurut Gierl, Gotzmann,
dan Broughton (2004), SIBTEST disediakan deteksi DIF yang memadai karena penolakan item yang salah kurang
dari 5% dan penolakan benar lebih besar dari 80% saat DIF adalah seimbang dan ukuran sampel setidaknya 1000
peserta ujian per kelompok. Menurut González-Roma et al. (2006), batas kekuatan yang cukup harus 70%. Dengan
DIF besar dan ukuran sampel yang sama (N = 1000), prosedur SIBTEST menunjukkan kekuatan statistik yang cukup;
Namun, kondisi DIF moderat diproduksi listrik yang tak mencukupi (≤70%). Selain itu, ditetapkan bahwa kekuatan
SIBTEST meningkat sebagai rasio DIF menurun. . Sebaliknya, di Atalay Kabasakal et al (2014) studi, rasio ukuran
sampel dan rasio DIF tidak mempengaruhi kekuatan SIBTEST; ini mungkin karena panjang tes yang berbeda dan
rasio ukuran sampel yang berbeda di Atalay Kabasakal et al. (2014) studi.
4. Keterbatasan dan Rekomendasi
Penelitian ini memiliki beberapa keterbatasan. Keterbatasan pertama adalah bahwa hanya fokus ukuran sampel
kelompok, besaran DIF, dan rasio DIF dimanipulasi dalam penelitian ini; dalam penelitian masa depan, variabel yang
berbeda dapat dimanipulasi. Jenis DIF dimodelkan sebagai seragam dalam penelitian ini; efek seragam DIF tidak
diperkirakan. Keterbatasan lain adalah bahwa kemampuan dimodelkan dengan model logistik dua parameter dan
distribusi normal. Selain itu, fokus dan referensi kelompok memiliki perbedaan kemampuan serupa. Menurut Finch
(2005) dan Wang dan Yeh (2003), perbedaan kemampuan antara referensi dan kelompok fokus terpengaruh kesalahan
Tipe I; Oleh karena itu, perbedaan kemampuan antara fokus dan referensi kelompok dan berbeda Barang model Teori
Response (satu parameter, tiga parameter, dan model multidimensi) dapat diteliti. Kinerja SIBTEST juga dapat
diperiksa terhadap data real di mana grading adalah 1-0 dan beberapa kategori yang dilakukan bersama-sama atau
dinilai sebagai beberapa kategori dengan ukuran sampel yang berbeda. Penelitian ini terbatas pada metode SIBTEST.
Tipe I kesalahan dan kekuasaan dapat diteliti di bawah kondisi yang berbeda dengan metode deteksi DIF berbeda.
Referensi
Ackerman, TA, & Evans, JA (1994). Pengaruh skor pendingin dalam melakukan DIF
analisis. Terapan Psikologi Pengukuran, 18 (4) 329-342.
Atalay-Kabasakal, K., Arsan, N., gok, B. & Kelecioğlu, H. (2014). Membandingkan Pertunjukan (Tipe I error dan
Power) dari IRT Kemungkinan Ratio SIBTEST dan Mantel-Haenszel Metode dalam Penentuan Differential Barang
Berfungsi. Ilmu Pendidikan: Teori & Praktek, 14 (6), 2186-2193. doi: 10,12738 / estp.2014.6.2165
Awour, RA (2008). Pengaruh ukuran sampel yang tidak sama pada kekuatan deteksi DIF: Sebuah IRT- berdasarkan
Monte Carlo Studi dengan SIBTEST dan procdures Mantel-Heanszel. Tidak diterbitkan disertasi doktor, Virginia
Polytechnic Institude dan Universitas Negeri, USA.
Finch, H. (2005). Model MIMIC sebagai metode untuk mendeteksi DIF: Perbandingan dengan Mantel-Haenszel,
SIBTEST, dan Rasio Kemungkinan IRT. Terapan Psikologi Pengukuran, 29 (4), 278-295.
Gierl, MJ, & Bolt, DM (2001). Menggambarkan penggunaan regresi nonparametrik untuk menilai barang diferensial
dan bundel fungsi antara beberapa kelompok. International Journal of Testing, 1, 249-270.
Gierl, MJ, Gotzmann, A., & Boyghton, KA (2004). Kinerja SIBTEST ketika persen
DIF item besar. Pengukuran Terapan Pendidikan, 17 (3), 241-264.
Han, KT & Hambleton, RK (2007). Panduan Pengguna untuk WINGEN: Software Windows yang Menghasilkan IRT
Parameter Model dan Item Responses1Center untuk Laporan Penelitian Penilaian Pendidikan No 642. Amherst, MA:
University of Massachusetts, Pusat Penilaian Pendidikan.
Holland, PW, & Thayer, DT (1987). Catatan tentang penggunaan model log-linear untuk distribusi probabilitas diskrit
pas (ETS Penelitian Rep. No. RR-87-31). Princeton, NJ: Educational Testing Service.
Lei, PW & Li, H. (2013). DIF estimasi kecil-sampel menggunakan SIBTEST, Cochran Z, danLog-Linear.
smoothing Terapan Psikologi Pengukuran, 37 (5), 397-416. doi: 10,1177 / 0146621613478150.
Li, HH & Stout, W. (1996) .A prosedur baru untuk deteksi melintasi Differential Barang Berfungsi.
Psychometrika, 61, 647-677.
Lopez Rivas, GE (2012). Deteksi dan Klasifikasi Jenis DIF Menggunakan Parametrik dan Nonparametrik Metode:
Sebuah perbandingan dari IRT-Kemungkinan Ratio Test, Crossing-SIBTEST, dan Prosedur Regresi Logistik. Tidak
diterbitkan disertasi doktor, University of South Florida, Amerika Serikat.
Narayanan, P. & Swaminathan H. (1994). Kinerja Mantel-Haenszel Simultan Barang Bias Tata Cara Mendeteksi
Differential Barang Berfungsi. Terapan Psikologi Pengukuran, 18 (4), 315-328.
Pei, LK, & Li, J. (2010). Efek yang tidak sama kemampuan varians pada kinerja regresi logistik, Mantel-Haenszel,
SIBTEST IRT, dan rasio kemungkinan IRT untuk deteksi DIF. Terapan Psikologi Pengukuran, 34 (6), 453-456. doi:
10,1177 / 0146621610367789.
Rogers, HJ, & Swaminathan, H. (1993). Perbandingan regresi logistik dan prosedur Mantel-Haenszel untuk
mendeteksi diferensial barang berfungsi. Terapan Psikologi Pengukuran, 17 (2), 105-116.
Roussos, LA, & Stout, WF (1996). Studi simulasi dari efek ukuran sampel yang kecil dan parameter item yang
dipelajari di SIBTEST dan kinerja kesalahan Mantel-Haenszel tipe I. Jurnal Pendidikan Pengukuran, 33 (2), 215-230.
Shealy, R. & Stout, W. (1993). Sebuah model berbasis pendekatan standarisasi yang memisahkan benar Bias / DIF
dari kelompok kemampuan perbedaan dan mendeteksi Bias / DTF serta barang Bias / DIF. Psychometrika, 59, 159-
194.
Shepard, LA, Camilli, G., & Williams, DM (1985) .Validity teknik pendekatan untuk mendeteksi
barang Bias. Jurnal Pendidikan Pengukuran, 22 (2), 77-105.
Stout, W., Li, H. -H., Nandakumar, R., & Bolt, D. (1997). MULTISIB: Sebuah prosedur untuk menyelidiki DIF
ketika tes adalah sengaja dua dimensi. Terapan Psikologi Pengukuran, 21 (3), 195-213.
Stout, W., & Roussos, L. (1995). SIBTEST pengguna manual. Urbana: University of Illinois.
Swaminathan, H. & Rogers, HJ (1990). Mendeteksi barang diferensial berfungsi menggunakan prosedur regresi
logistik. Jurnal Pendidikan Pengukuran, 27 (4), 361-370. doi: 10,1111 / j.1745- 3984.1990.tb00754.x
Thissen, D., Steinberg, L., & Weiner, H. (1993). Deteksi fungsi diferensial menggunakan parameter model respon
butir. Dalam PW Holland & H. WAINER (Eds.), Differential Barang Berfungsi (pp. 67-113). Hillsdale, NJ: Lawrence
Erlbaum.
Wang, W.-C. & Yeh, Y.-L. (2003). Pengaruh metode jangkar item pada item yang diferensial berfungsi deteksi dengan
tes rasio kemungkinan. Terapan Psikologi Pengukuran, 27 (6), 479-498. doi: 10,1177 / 0146621603259902.
Zheng, Y., Gierl, MJ, & Cui, Y. (2007, April). Menggunakan data real untuk membandingkan deteksi dan efek
tindakan ukuran DIF antara prosedur perapian-Haenszel, SIBTEST dan Regresi Logistik. Sebuah makalah yang
disajikan pada pertemuan tahunan Dewan Nasional Pengukuran dalam Pendidikan: Chicago, ILL.
Bolt, DM (2000). Pendekatan SIBTEST untuk menguji hipotesis DIF menggunakan item tes yang dirancang secara
eksperimental. Jurnal Pendidikan Pengukuran, 37 (4), 307-327. doi: 10,1111 / j.1745- 3984.2000.tb01089.x
Lee, YS, Cohen, A. & Toro, M. (2009). Memeriksa kesalahan tipe I dan kekuatan untuk mendeteksi barang diferensial
dan fungsi testlet. Asia Pacific Pendidikan Review, 10 (3), 365-375 doi: 10,1007 / s12564- 009-9039-7

Anda mungkin juga menyukai