Bias Butir Pada Alat Ukur Tes
Bias Butir Pada Alat Ukur Tes
Oleh
Widiatmoko
E.: moko.geong@gmail.com
W.: http://widiatmoko.blog.com
Hakikat DIF
Banyak definisi tentang DIF (Differential Item Functioning) atau lebih
dikenal sebagai bias butir. Ditengarai bahwa bias butir pertama kali dikenalkan
oleh Shepard (1960) ketika meneliti penyebab rendahnya hasil suatu tes pada
kelompok minoritas. Jadi, tes ini dimaksudkan sebagai komposit butir dan bias
yang dimaksud adalah bias tes. Secara umum, dikatakan bahwa bias tes adalah
sekor tes pada satu kelompok atau lebih peserta ujian yang meningkat atau
menurun secara sistematik karena faktor-faktor yang tidak bertalian dengan
konstruk yang diukur oleh tes. Dikatakan pula bias tes adalah sebagai
kecenderungan tes secara berbeda untuk mengukur konstruk tertentu yang
bukan berdasarkan pada kemampuan yang berbeda, melainkan karena tes
tersebut tidak valid mengukur kelompok tertentu.
Setakat ini diketahui dari pendapat Shepard (1982) bahwa bias tes
merupakan bentuk tes yang tidak valid. Ketidakvalidan suatu tes ditandai oleh
adanya isyarat seperti struktur kalimat dan bahasa yang secara konseptual
meningkatkan ketidakadilan bagi kelompok tertentu.
Ada juga pendapat lain yang mengamangkan bahwa bias adalah sebagai
adanya karakteristik suatu butir yang menyebabkan performansi berbeda pada
setiap individu yang berkemampuan sama dari etnik, gender, budaya, dan
agama yang berbeda. Jadi, bias dapat berbentuk gender, budaya, etnik, agama,
bahasa, atau kelompok. Butir disebut bias manakala ia mengandungi isi atau
bahasa yang menguntungkan subkelompok peserta ujian secara berbeda atau
manakala struktur atau format butir tidak menguntungkan sebagian
subkelompok peserta ujian.
Di Indonesia, tes berskala nasional masih menjadi bahan perdebatan. Tes
tersebut diselenggarakan oleh Departemen Pendidikan Nasional dalam bentuk
Ujian Nasional. Penggunaan nilai UN akan sesat atau menyebabkan masalah
manakala ternyata butir-butir UN memihak kelompok tertentu sehingga dua
peserta ujian dari kelompok yang berbeda dengan kemampuan yang sama
memiliki peluang menjawab betul secara berbeda.
Hal ini sebagaimana pendapat Hulin yang mengatakan bahwa bias butir
terjadi manakala individu berkemampuan sama dari subkelompok berbeda
memiliki probabilitas berbeda untuk menjawab butir dengan betul (Hulin, 1983).
Demikian pula, Ironson dalam Hambleton mengatakan bahwa bias butir
dipahami sebagai jumlah daerah di antara dua kurva karakteristik butir di mana
peserta ujian berkemampuan sama tetapi dari kelompok berbeda memiliki
probabilitas yang tidak sama untuk menjawab butir dengan betul (Hambleton,
1983).
Sebenarnya, istilah DIF lebih sering digunakan daripada istilah bias untuk
memerikan data empirik yang diperoleh dalam pencarian bias. Menurutnya,
suatu butir menunjukkan DIF manakala kelompok mayoritas dan minoritas
berbeda dalam performansi rata-rata mereka terhadap butir. Definisi ini tidak
mempertimbangkan variabel lain seperti perbedaan kemampuan antarkelompok
yang mengakibatkan perbedaan nilai p (Hambleton, 1991).
Dengan demikian, disimpulkan bahwa yang dimaksud dengan DIF
adalah suatu karakteristik butir yang menyebabkan probabilitas responden-
responden yang berkemampuan sama untuk menjawab butir-butir pada
perangkat tes dengan betul secara berbeda yang disebabkan oleh berbagai faktor,
seperti etnik, gender, budaya, bahasa, atau agama. Ini juga merupakan
ketidakstabilan karakteristik butir yang berpengaruh pada sekor komposit tes.
Di samping itu, butir berindikasi DIF merupakan butir yang tidak mampu
mengukur apa yang hendak diukur di dalam perangkat tes. Dengan demikian,
penentuan indikasi ada tidaknya DIF pada butir memerlukan analisis statistik
butir yang komprehensif sehingga perangkat tes yang digunakan betul-betul
sebagai alat ukur yang valid.
Pustaka Acuan
Alderson, J. Charles. Judgements in language testing. Di dalam D. Douglas dan
Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected
Papers from the 1990 Language Testing Research Colloquium, hh. 46-57. Virginia:
TESOL. 1993.
Alderson, J. Charles. The relationship between grammar and reading in an
English for academic purposes test battery. Di dalam D. Douglas dan Carol
Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from
the 1990 Language Testing Research Colloquium, hh. 203-219. Virginia: TESOL.
1993.
Bachman, Lyle F., F. Davidson, dan J. Foulkes. A comparison of the abilities
measured by the Cambridge and Educational Testing Service EFL test
batteries. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of
Language Testing Research: Selected Papers from the 1990 Language Testing
Research Colloquium, hh. 25-45. Virginia: TESOL. 1993.
Douglas, D. dan Larry Selinker. Performance on a general versus a field-specific
test of speaking proficiency by international teaching assistants. Di dalam D.
Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research:
Selected Papers from the 1990 Language Testing Research Colloquium, hh. 235-256.
Virginia: TESOL. 1993.
Hambelton, Ronald K., H. Swaminathan, dan H.J. Rogers. Fundamentals of Item
Response Theory. California: Sage Publications, 1991.
Hudson, Thom. Testing the specificity of ESP reading skills. Di dalam D. Douglas
dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected
Papers from the 1990 Language Testing Research Colloquium, hh. 58-82. Virginia:
TESOL. 1993.
Hulin, Charles L., Fritz Drasgow, dan Charles K. Parsons. Item Response Theory:
Application to Psychological Measurement. USA: Dow Jones-Irwin, 1983.
Ironson, Gail H. Using item response theory to measure bias. Di dalam Ronald K.
Hambleton (Ed.). Applications of Item Response Theory. Vancouver: Educational
Research Institute of British Columbia, 1983.
Madsen, Harold S. dan R.L. Jones. Classifications of oral proficiency tests. Di
dalam Adrian S. Palmer, Peter J.M. Groot, dan George A.T. (Eds.). The
Construct Validation of Tests of Communicative Competence. Washington, D.C.:
TESOL, 1981.
Perkins, Kyle dan Sheila Brutten. A comparison of indices for the identification of
misfitting items. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New
Decade of Language Testing Research: Selected Papers from the 1990 Language
Testing Research Colloquium, hh. 83-97. Virginia: TESOL. 1993.
Popham, James W. Modern Educational Measurement. Englewood Cliffs, New
Jersey: Prentice-Hall, 1981.
Takala, Sauli dan F. Kaftandjieva. Test Fairness: a DIF Analysis of an L2 Vocabulary
Test. sjtakala@cc.jyu.fi. 2003.