Anda di halaman 1dari 8

BIAS BUTIR PADA ALAT UKUR TES

Oleh
Widiatmoko
E.: moko.geong@gmail.com
W.: http://widiatmoko.blog.com

Akselerasi pembelajaran selalu diiringi dengan inovasi peranti lunak, seperti


kurikulum, metoda, teknik, pendekatan, dan evaluasi. Salah satu yang menjadi
perhatian besar kalangan pendidik adalah penyelenggaraan evaluasi
pembelajaran yang berlangsung pada awal, proses, dan akhir program. Secara
lebih khusus, para ahli menekuni bidang pengukuran, termasuk di dalamnya
pengembangan alat ukur, baik berupa tes maupun nontes. Alat ukur tes atau
lebih dikenal dengan tes telah menyita banyak waktu untuk mencarikan
penyelesaian atasnya secara akurat yang bertalian dengan hasil ukur tersebut.
Para ahli tes telah memprakarsai perubahan paradigma penyelenggaraan tes,
dari teori tes klasik ke teori tes moderen - dikenal sebagai teori responsi butir.
Teori tes ini telah menimbulkan rangsangan disiplin ilmu pengetahuan untuk
mengembangkannya dengan pendekatan analisis teori responsi butir. Salah satu
disiplin ilmu pengetahuan yang mengembangkan tes dengan pendekatan teori
responsi butir adalah tes bahasa.

Variasi Kajian Pengukuran di Bidang Bahasa


Istilah pengukuran merupakan istilah yang sebangun dengan istilah
penelitian. Di sini, digunakan frasa ‘kajian pengukuran’ sebagai istilah yang
berbeda. Ini mengandungi pengertian tentang kajian atau penelitian yang
bertalian dengan alat ukur itu sendiri. Alat ukur ini adalah sebagai unit
analisisnya, utamanya berpadu dengan ilmu bahasa. Alat ukur ini laiknya
berbentuk tes, di samping ada yang nontes.
Setakat ini, kajian tes bahasa banyak diadun oleh para pakar, baik pakar
bahasa maupun pakar pengukuran yang mendekati bahasa sebagai objek
penelitiannya. Berikut ini disaapabilan berbagai jenis kajian pengukuran di
bidang bahasa.
Pertama, Bachman, et.al. dalam judul penelitian A Comparison of the
Abilities Measured by the Cambridge and Educational Testing Service EFL Test Batteries
menyaapabilan hasil penelitian yang membandingkan performansi di antara dua
tes bahasa Inggris yang dipakai secara internasional, Test of English as a Foreign
Language (TOEFL) dan Cambridge First Certificate in English (FCE). Dengan
menggunakan teknik analisis faktor, dilakukan interpretasi sekor tes dari dua
perangkat (battery) tes tersebut dan disimpulkan adanya konstruk kemampuan
bahasa secara komunikatif (Douglas, 1993). Perlu dikesani, secara konseptual,
TOEFL merupakan tes bahasa ‘psikometrik/strukturalis’ (Spolsky, 1978) yang
mewakili kualitas terbaik yang menekankan reliabilitas dan analisis butir. Ini
mencakupii Test of Spoken English (TSE) dan Test of Writing English (TWE) yang
merepresantasikan kerangka linguistik strukturalis. Sedangkan FCE
dikembangkan dengan tradisi sistem ujian negara Inggris yang menekankan
pada keputusan ahli dan pengalaman institusional dalam rancangan tes,
pensekoran, dan interpretasi hasil tes.
Kedua, Alderson dalam judul penelitian Judgments in Language Testing
menemukan hubungan antara keputusan linguis profesional terhadap hakikat
bahasa, pembelajaran, dan hasil belajar bahasa dalam mengkonstruksi tes bahasa
dan data empirik yang dihasilkan dari tes. Hasil analisisnya menyatakan bahwa
validitas dan reliabilitas tes rendah, serta pengetahuan tentang komponen
kemampuan bahasa dan proses pemerolehan bahasa kedua juga rendah
(Douglas, 1993).
Ketiga, Hudson dalam judul penelitian Testing the Specificity of ESP
Reading Skills menemukan implikasi untuk tes acuan kriteria yang bertalian
dengan taraf sukar butir diferensial pada tes membaca sains dengan menerapkan
teori responsi butir (Douglas, 1993).
Keempat, Perkins dan Brutten dalam judul penelitian A Comparison of
Indices for the Identification of Misfitting Items menemukan butir-butir misfitting
untuk siswa yang berbeda tingkat kemahirannya (Douglas, 1993).
Kelima, Alderson dalam judul penelitian The Relationship between Grammar
and Reading in an English for Academic Purposes Test Battery menyimpulkan dari
hasil analisis subtes tata bahasa dan membaca di dalam IELTS bahwa tata bahasa
dinegasikan eksistensinya dari subtes tersebut. Diketahui bahwa tujuan
penelitian itu adalah untuk merevisi tes utama, the English Language Testing
Service (ELTS), menjadi the International English Language Testing System (IELTS)
(Douglas, 1993).
Keenam, Douglas dan Selinker dalam penelitian Performance on a General
Versus a Field-Specific Test of Speaking Proficiency by International Teaching Assistants
menemukan data kualitatif dan data kuantitatif yang responden lakukan secara
berbeda pada tes umum kemahiran berbicara dibandingkan dengan field-specific
measure (Douglas, 1993).
Ketujuh, Madsen dan Jones dalam Palmer melakukan penelitian tes
berbicara. Pertimbangan yang diberikan untuk menyelenggarakan tes ini
mencakupii tujuan kegunaan, latar belakang peserta ujian (usia, tingkat
kemahiran, dan pengalaman bahasa), kriteria (linguistik, komunikatif), dan
prosedur pensekoran. Reliabilitas dan validitas diuji untuk memperoleh
klasifikasi mendalam dalam tes kemahiran berbicara (Palmer, et.al., 1981).
Senyampang telah jelas, disimpulkan bahwa alat ukur yang terdiri atas
sejumlah butir telah diadun dan dikaji secara mendalam. Butir-butir alat ukur
baik pada perangkat tes maupun nontes di bidang bahasa yang menghasilkan
data dikotomi maupun politomi telah menjadi perhatian serius khususnya dari
para ahli psikometrika yang mengkaji bahasa sebagai objek ukurnya.
Disadari, pemenuhan syarat pada alat ukur merupakan determinan
keterukuran konstruk bahasa. Susun-atur butir pada alat ukur itu dalam
keadaan bagaimanapun dapat dikaji. Aneka inti-pati penelitian tersebut
memberikan informasi tentang dinamika pendekatan analisis datanya. Dengan
demikian, mengenali ragam butir pada alat ukur sebagai objek penelitian perlu
terus menerus diamangkan kepada para bahasawan. Satu di antara pengenalan
keragaman kajian butir alat ukur adalah yang bertalian dengan analisis DIF.

Kajian Bias Butir pada Alat Ukur dengan Analisis DIF


Robert L. Williams dalam dua penelitiannya Black Intelligence Test Counter-
balanced for Honkies dan Black Intelligence Test of Cultural Homogeneity menemukan
hasil yang menyatakan bahwa orang hitam Amerika secara sistematik dirugikan
oleh suatu tes yang berpihak kepada orang kulit putih. Orang hitam Amerika ini
beserta orang Amerika Hispanik dan kelompok minoritas lainnya sering
dirugikan oleh tes yang menguntungkan kelompok mayoritas tersebut – orang
kulit putih. Istilah ini selanjutnya dikenal sebagai bias tes (Popham, 1981).
Dengan demikian, tes ini secara substantif bukanlah tes yang valid – mampu
mengukur apa yang hendak diukur.
White (1982) dalam Hulin melakukan penelitian yang bertalian dengan
bias butir pada alat ukur yang digunakan oleh suatu kalangan organisasi untuk
menempatkan para pegawainya ke dalam kelas aristokrasi dan meritokrasi
secara berbeda. Hasil penelitian tersebut menginformasikan bahwa perbedaan
sekor tes di antara para responden itu disebabkan oleh berbagai faktor, seperti
status ekonomi sosial, pendapatan keluarga, dan ras. Secara hipotetik,
dinyatakan bahwa perbedaan tersebut merupakan indikasi adanya bias pada
perangkat tes yang digunakan (Hulin, 1983).
Penelitian yang bertalian dengan bias butir juga dilakukan oleh Takala
dan Kaftandjieva (2003). Mereka melakukan penelitian yang bertujuan untuk
membuat bank butir bahasa Inggris untuk keperluan The Finnish Foreign
Language Certificate Examination. Penelitian tersebut dilakukan dengan
menganalisis DIF (Differential Item Functioning) gender pada tes kosakata bahasa
kedua (L2) dan mempelajari pengaruh gender pada performansi tes yang diukur
dengan mempertimbangkan komposit butir yang berbeda. Latar belakang
penelitian ini dilakukan adalah adanya banyak penelitian yang mengungkap
perbedaan gender dalam penggunaan bahasa dan kemampuan verbal. Ini
sebagaimana yang dilakukan oleh Maccoby dan Jacklin (1974), Thorne dan
Henley (1975), FUMS (1977-79), Thorne et.al. (1983), Einarsson dan Hultman
(1984), Mielikainen (1988), Nuolijarvi (1988), dan Tannen (1986-1990). Hasil
penelitian terhadap butir tes dengan analisis DIF itu menyatakan bahwa wanita
memiliki kemampuan verbal yang lebih tinggi daripada pria.
Pertimbangan-pertimbangan lain adalah sebagai berikut. Pertama, hasil
penelitian Hyde dan Lynn (1988) menyatakan tidak ada perbedaan kemampuan
verbal antara pria dan wanita ditinjau dari gender. Kedua, hasil penelitian Lynn
dan Mulhern (1991), Lynn dan Dai (1993), dan Born dan Lynn (1994) menyatakan
bahwa wanita memperoleh rata-rata nilai lebih rendah pada skala verbal
daripada pria. Ketiga, hasil penelitian Cole (1997) menemukan bahwa wanita
memiliki kemampuan menulis yang baik di antara tahun 1960-1990. Keempat,
hasil penelitian Cole (1997) dan Hyde dan Lynn (1988) menemukan perbedaan
yang kecil pada penguasaan kosakata oleh wanita dibandingkan dengan yang
oleh pria. Kelima, penelitian meta analisis Lynn (1988) menyatakan bahwa 6 dari
56 penelitian kosakata ditemukan adanya perbedaan yang signifikan pada pria
dan 8 perbedaan yang signifikan pada wanita. Meskipun meta analisis
menunjukkan tidak adanya perbedaan yang signifikan pada gender dalam
penguasaan kosakata, disebutkan ada heterogenitas yang signifikan dalam effect
size yang berarti bahwa penelitian-penelitian tersebut tidak dapat direplikasikan
pada penelitian yang lain.
Sebagaimana diungkapkan di atas, di dalam penelitian-penelitian butir
alat ukur tersebut sebagian besar menggunakan analisis DIF termasuk butir-
butir alat ukur di bidang bahasa. DIF (Differential Item Functioning) merupakan
salah satu faktor yang mempengaruhi performansi tes di dalam satu kelompok.
Analisis DIF bukan merupakan hal umum dalam penelitian gender. Ini dapat
ditilik bahwa TOEFL dan FCE tidak menggunakan analisis DIF gender. Ini tidak
berarti bahwa ia berlaku untuk semua instrumen pengukuran lain yang
digunakan di dalam penelitian gender. Dengan demikian penelitian gender perlu
terus menerus dilakukan, utamanya bertalian dengan alat ukur penelitian.
Penelitian yang bertalian dengan perbedaan gender di dalam ragamnya,
secara hipotetik, disebabkan oleh estimasi bias variabel amatan. Selanjutnya,
perbedaan gender aktual memungkinkan mengarah ke DIF gender. Memang,
sangat sedikit pakar yang mengetahui adanya perbedaan gender dan DIF gender
di dalam konteks tes kosakata karena penelitian ini belum banyak diungkap dan
sedikit sekali hasil penelitian yang melaporkan ketiadaan DIF gender atau
banyak butir yang mengandungi DIF gender signifikan tidak didiskusikan dari
sudut pandang isi.
Roznowski dan Reith (1999) mengatakan bahwa tes yang mengandungi
butir DIF dianggap butir yang tidak bias. DIF bukan merupakan kondisi yang
mencukupi terhadap bias butir dan bias tes. Sebaliknya, manakala butir
mengindikasikan DIF sebagai bagian dari bank butir, sangat mungkin tes
tersebut bias karena pilihan butir-butirnya tidak sesuai. Keadaan ini yang
memungkinkan adanya tes bias dan tes adil pada bank butir.
Selanjutnya, analisis DIF tidak berhenti pada tingkat butir melainkan
berlanjut pada pencarian bagaimana butir DIF mempengaruhi sekor tes total
berdasarkan pada komposit butir.

Hakikat DIF
Banyak definisi tentang DIF (Differential Item Functioning) atau lebih
dikenal sebagai bias butir. Ditengarai bahwa bias butir pertama kali dikenalkan
oleh Shepard (1960) ketika meneliti penyebab rendahnya hasil suatu tes pada
kelompok minoritas. Jadi, tes ini dimaksudkan sebagai komposit butir dan bias
yang dimaksud adalah bias tes. Secara umum, dikatakan bahwa bias tes adalah
sekor tes pada satu kelompok atau lebih peserta ujian yang meningkat atau
menurun secara sistematik karena faktor-faktor yang tidak bertalian dengan
konstruk yang diukur oleh tes. Dikatakan pula bias tes adalah sebagai
kecenderungan tes secara berbeda untuk mengukur konstruk tertentu yang
bukan berdasarkan pada kemampuan yang berbeda, melainkan karena tes
tersebut tidak valid mengukur kelompok tertentu.
Setakat ini diketahui dari pendapat Shepard (1982) bahwa bias tes
merupakan bentuk tes yang tidak valid. Ketidakvalidan suatu tes ditandai oleh
adanya isyarat seperti struktur kalimat dan bahasa yang secara konseptual
meningkatkan ketidakadilan bagi kelompok tertentu.
Ada juga pendapat lain yang mengamangkan bahwa bias adalah sebagai
adanya karakteristik suatu butir yang menyebabkan performansi berbeda pada
setiap individu yang berkemampuan sama dari etnik, gender, budaya, dan
agama yang berbeda. Jadi, bias dapat berbentuk gender, budaya, etnik, agama,
bahasa, atau kelompok. Butir disebut bias manakala ia mengandungi isi atau
bahasa yang menguntungkan subkelompok peserta ujian secara berbeda atau
manakala struktur atau format butir tidak menguntungkan sebagian
subkelompok peserta ujian.
Di Indonesia, tes berskala nasional masih menjadi bahan perdebatan. Tes
tersebut diselenggarakan oleh Departemen Pendidikan Nasional dalam bentuk
Ujian Nasional. Penggunaan nilai UN akan sesat atau menyebabkan masalah
manakala ternyata butir-butir UN memihak kelompok tertentu sehingga dua
peserta ujian dari kelompok yang berbeda dengan kemampuan yang sama
memiliki peluang menjawab betul secara berbeda.
Hal ini sebagaimana pendapat Hulin yang mengatakan bahwa bias butir
terjadi manakala individu berkemampuan sama dari subkelompok berbeda
memiliki probabilitas berbeda untuk menjawab butir dengan betul (Hulin, 1983).
Demikian pula, Ironson dalam Hambleton mengatakan bahwa bias butir
dipahami sebagai jumlah daerah di antara dua kurva karakteristik butir di mana
peserta ujian berkemampuan sama tetapi dari kelompok berbeda memiliki
probabilitas yang tidak sama untuk menjawab butir dengan betul (Hambleton,
1983).
Sebenarnya, istilah DIF lebih sering digunakan daripada istilah bias untuk
memerikan data empirik yang diperoleh dalam pencarian bias. Menurutnya,
suatu butir menunjukkan DIF manakala kelompok mayoritas dan minoritas
berbeda dalam performansi rata-rata mereka terhadap butir. Definisi ini tidak
mempertimbangkan variabel lain seperti perbedaan kemampuan antarkelompok
yang mengakibatkan perbedaan nilai p (Hambleton, 1991).
Dengan demikian, disimpulkan bahwa yang dimaksud dengan DIF
adalah suatu karakteristik butir yang menyebabkan probabilitas responden-
responden yang berkemampuan sama untuk menjawab butir-butir pada
perangkat tes dengan betul secara berbeda yang disebabkan oleh berbagai faktor,
seperti etnik, gender, budaya, bahasa, atau agama. Ini juga merupakan
ketidakstabilan karakteristik butir yang berpengaruh pada sekor komposit tes.
Di samping itu, butir berindikasi DIF merupakan butir yang tidak mampu
mengukur apa yang hendak diukur di dalam perangkat tes. Dengan demikian,
penentuan indikasi ada tidaknya DIF pada butir memerlukan analisis statistik
butir yang komprehensif sehingga perangkat tes yang digunakan betul-betul
sebagai alat ukur yang valid.

Implikasi Analisis DIF pada Perangkat Tes


Tes bahasa, khususnya yang berbentuk pilihan berganda sangat rentan
terdapat indikasi adanya DIF. Bukan tidak mungkin, kegiatan pengukuran
kemampuan bahasa Inggris siswa di lembaga pendidikan formal yang lazim
dikenal dengan tes bahasa Inggris menjadi determinan apakah seseorang
dikatakan mampu atau tidak berdasarkan pada sekor komposit tes tersebut.
Sering dijumpai, seorang pelajar memiliki sekor 90 untuk skala 0-100, namun ia
tidak mampu berbahasa Inggris dengan baik. Sebaliknya, seorang pelajar
memiliki sekor 20 untuk skala 0-100, namun ia mampu berbahasa Inggris dengan
baik. Apakah ini berarti bahwa perangkat tes yang diberikan mengindikasikan
adanya DIF? Demikian pula halnya, seseorang yang memiliki kemampuan
matematika yang sangat baik, ketika diberikan perangkat tes matematika dalam
bahasa Inggris, ternyata ia tidak mampu mengerjakannya. Apakah perangkat tes
ini juga mengindikasikan adanya DIF? Tak pelak berbagai jenis perangkat tes
lainnya memungkinkan berpeluang luas adanya indikasi DIF sehingga hasil
ukurnya tidak dapat menampilkan keadaan yang sesungguhnya. Oleh karena
itu, kajian mengenai alat ukur penelitian, khususnya alat ukur tes, di bidang
bahasa masih perlu dikembangkan, dalam hal ini dengan menggunakan
pendekatan teori responsi butir.

Pustaka Acuan
Alderson, J. Charles. Judgements in language testing. Di dalam D. Douglas dan
Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected
Papers from the 1990 Language Testing Research Colloquium, hh. 46-57. Virginia:
TESOL. 1993.
Alderson, J. Charles. The relationship between grammar and reading in an
English for academic purposes test battery. Di dalam D. Douglas dan Carol
Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from
the 1990 Language Testing Research Colloquium, hh. 203-219. Virginia: TESOL.
1993.
Bachman, Lyle F., F. Davidson, dan J. Foulkes. A comparison of the abilities
measured by the Cambridge and Educational Testing Service EFL test
batteries. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of
Language Testing Research: Selected Papers from the 1990 Language Testing
Research Colloquium, hh. 25-45. Virginia: TESOL. 1993.
Douglas, D. dan Larry Selinker. Performance on a general versus a field-specific
test of speaking proficiency by international teaching assistants. Di dalam D.
Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research:
Selected Papers from the 1990 Language Testing Research Colloquium, hh. 235-256.
Virginia: TESOL. 1993.
Hambelton, Ronald K., H. Swaminathan, dan H.J. Rogers. Fundamentals of Item
Response Theory. California: Sage Publications, 1991.
Hudson, Thom. Testing the specificity of ESP reading skills. Di dalam D. Douglas
dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected
Papers from the 1990 Language Testing Research Colloquium, hh. 58-82. Virginia:
TESOL. 1993.
Hulin, Charles L., Fritz Drasgow, dan Charles K. Parsons. Item Response Theory:
Application to Psychological Measurement. USA: Dow Jones-Irwin, 1983.
Ironson, Gail H. Using item response theory to measure bias. Di dalam Ronald K.
Hambleton (Ed.). Applications of Item Response Theory. Vancouver: Educational
Research Institute of British Columbia, 1983.
Madsen, Harold S. dan R.L. Jones. Classifications of oral proficiency tests. Di
dalam Adrian S. Palmer, Peter J.M. Groot, dan George A.T. (Eds.). The
Construct Validation of Tests of Communicative Competence. Washington, D.C.:
TESOL, 1981.
Perkins, Kyle dan Sheila Brutten. A comparison of indices for the identification of
misfitting items. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New
Decade of Language Testing Research: Selected Papers from the 1990 Language
Testing Research Colloquium, hh. 83-97. Virginia: TESOL. 1993.
Popham, James W. Modern Educational Measurement. Englewood Cliffs, New
Jersey: Prentice-Hall, 1981.
Takala, Sauli dan F. Kaftandjieva. Test Fairness: a DIF Analysis of an L2 Vocabulary
Test. sjtakala@cc.jyu.fi. 2003.

Anda mungkin juga menyukai