Implikasi Pengembangan Tes Pada Bidang Bahasa
Implikasi Pengembangan Tes Pada Bidang Bahasa
Oleh
Widiatmoko
e.: moko.geong@gmail.com
w.: http://widiatmoko.blog.com, http://mokogeong.multiply.com
Departemen Pendidikan Nasional
Pengantar
Tes sebagaimana dipahami dalam bidang pendidikan dan psikologi adalah sebuah perangkat untuk
mengukur abilitas peserta ujian (Verschoor, 2007a). Tes yang bertalian dengan bidang tersebut merupakan
peranti untuk mengukur karakteristik laten seseorang. Di dalam kelas, karakteristik peserta ujian adalah
objek ukurnya. Ia didefinisikan juga sebagai sekumpulan pertanyaan, pernyataan, atau tugas yang
sistematik yang memerlukan respon dari peserta ujian dalam rangka keberukuran keterampilan,
pengetahuan, intelegensi, abilitas, atau minat yang dimilikinya (Widiatmoko, 2004). Ying (2005)
mengatakannya sebagai penerapan prosedural untuk mengukur kuantitas dan kualitas suatu variabel.
Dengan demikian, tes sesungguhnya memang digunakan untuk mengukur keterampilan, pengetahuan,
atau atribut psikologis peserta ujian.
Dalam perkembangannya, penyusun perangkat tes mulai memikirkan bagaimana menyusun alat
ukur yang mampu mengukur apa yang hendak diukurnya dan memiliki hasil ukur yang relatif konsisten.
Ini kemudian disebut sebagai konsep validitas dan reliabilitas. Untuk memenuhi syarat valid dan reliabel,
pengembangan tes memerlukan pendekatan sistematik. Downing & Haladyna (2006) menyarankan
beberapa langkah efektif untuk mengembangkan tes. Menurut mereka, langkah-langkah tersebut adalah
(a) menyusun rencana tes secara menyeluruh yang mencakupi penentuan tujuan tes, konstruk yang akan
diukur, dan kerangka dasar untuk penyusunan tes; (b) menentukan definisi isi yang mencakupi ranah isi
dan operasionalisasi ranah; (c) menentukan spesifikasi tes yang mencakupi format tes, panjang tes,
informasi tes, dan format butir tes; (d) mengembangkan butir tes; (e) menentukan penyimpanan butir tes
secara sistematik dengan mempertimbangkan ciri psikometrisnya; (f) melakukan uji coba tes untuk
mengevaluasi ambiguitas, inkonsistensi, dan respon yang tidak lazim yang semuanya bertujuan untuk
mengumpulkan data psikometris; (g) menganalisis butir tes yang mencakupi analisis klasik, analisis
dengan metode respon butir, analisis multidimensionalitas, analisis keberfungsian butir diferensial,
estimasi parameter butir, dan analisis informasi butir; (h) merakit tes baik secara manual maupun dengan
bantuan komputer (automated test assembly); (i) melakukan administrasi tes; (j) melakukan penskoran dan
menentukan batas sukses dengan metode relatif dan metode absolut; dan (k) melaporkan hasil baik yang
berkenaan dengan skor tes total, batas sukses, maupun laporan yang bersifat teknis.
Apabila ditilik ke belakang, sesungguhnya pengembangan alat ukur tes bermula dari konsep
klasik dan disempurnakan melalui konsep respon butir.
Analisis Klasik
Pada 1904, Spearman mengenalkan konsep kekeliruan pengukuran dalam bidang psikologi.
Selang beberapa masa, konsep tersebut kemudian berkembang ke bidang lainnya, termasuk pengajaran
1
bahasa. Menurutnya, skor ujian dari peserta ujian sesungguhnya mengandung elemen acak. Usahanya
untuk mengoreksi korelasi attenuation akibat kekeliruan pengukuran menandai kebangkitan teori tes
klasik (TTK). Di dalam TTK, hubungan antara skor amatan Χ j peserta ujian, skor tulen τ j dan
kekeliruan pengukuran Ε j dapat dirumuskan sebagai: Χ j = τ j + Ε j . Maknanya, kekuatan skor tes
peserta ujian ditentukan oleh sejauh mana abilitas atau profisiensi peserta ujian dan taraf kesukarannya.
Bagaimanapun, di sini selalu ada faktor lain yang mempengaruhi skor tes peserta ujian, seperti kondisi
fisik dan mentalnya, kualitas butir tes, faktor tebakan, dan cerminan indikator dengan isi butir tes. Oleh
karena itu, skor tes dianggap sebagai estimat skor tulen dan kekeliruan pengukuran.
Secara sederhana, skor tulen τ j didefinisikan sebagai skor harapan dari peserta ujian dari
berkali-kali perlakuan. Karena secara alamiah kekeliruan pengukuran dari beberapa kali perlakuan itu
tidak berkorelasi, kekeliruan harapan adalah nol. Sekarang, skor amatan Χ j dan kekeliruan pengukuran
Ε j adalah acak karena adanya dua sumber yang berbeda, yakni penyampelan peserta ujian secara acak
dan penyampelan acak pada distribusi peserta ujian. Apabila J menunjuk pada peserta ujian yang
dipilih secara acak, Fx j (.) sebagai fungsi distribusi skor amatan untuk peserta ujian tertentu, dan Fτ (.)
sebagai fungsi distribusi skor tulen untuk populasi, kemudian inti dari TTK disusun dari persamaan: Xj
~ FXJ ( x;τj ) dan τ J ~ Fτ (τ ). Yang esensial dalam TTK adalah adanya asumsi yang menyatakan bahwa
peserta ujian itu dipilih secara acak, asumsi yang sering terganggu selama pengumpulan data.
Entitas utama pada model tersebut adalah suatu tes yang tetap, lazimnya terdiri atas beberapa
butir. Dua properti butir dalam TTK memainkan peranan penting, yakni taraf kesukaran dan daya
pembeda. Untuk butir berskor dikotomi, taraf kesukaran didefinisikan sebagai skor harapan peserta ujian
yang dipilih secara acak dari populasi dan disimbolkan dengan π i . Biasanya, pengamatan pada suatu
sampel acak ditunjukkan sebagai nilai-p, pi . Daya pembeda dipahami sebagai korelasi biserial titik
antara skor butir dan skor tes, untuk butir i ditunjukkan sebagai ρ it .
Di samping properti butir, dikenal pula properti tes yang juga memainkan peranan penting, yakni
reliabilitas. Reliabilitas dipahami sebagai korelasi kuadrat antara skor tulen dan skor amatan yang
ditunjukkan sebagai ρ 2 Xτ . Satu pendekatan reliabilitas tes adalah alpha Cronbach yang merupakan
konsistensi internal tes atau derajat yang mana semua skor butir itu berkorelasi. Rumus alpha Cronbach
dituliskan sebagai berikut:
Di samping itu, dari persamaan skor amatan peserta ujian di atas, diperoleh persamaan baru yang
menunjukkan bahwa variansi skor amatan s X2 sama dengan jumlah variansi skor tulen sT2 dan variansi
kekeliruan pengukuran s E . Apabila dituliskan, diperoleh rumus: s X = sT + s E . Dari persamaan itu,
2 2 2 2
2
dikatakan bahwa 77% dari variansi skor tes total adalah variansi skor tulen dan sisanya, 23%, adalah
variansi kekeliruan. Nilai reliabilitas tes yang tinggi menunjukkan bahwa variansi kekeliruan hampir
tidak ada dan bahwa skor tes amatan merupakan representasi skor tulen.
Kini, dua kelemahan penggunaan TTK dalam bank butir dapat ditemukan (Verschoor, 2007a).
Pertama, taraf kesukaran, daya pembeda, dan reliabilitas tes bergantung pada populasi peserta ujian.
Populasi yang berbeda akan memberikan karakteristik butir dan tes yang berbeda. Misalnya, skor
harapan suatu butir i , π i akan lebih tinggi pada populasi yang berkemampuan lebih sedangkan daya
pembeda dan reliabilitas tes akan lebih tinggi pada populasi yang lebih heterogen. Dengan demikian,
penyampelan acak menjadi penting meskipun hasil yang diperoleh melalui pengumpulan data tidak
dapat diekstrapolasi kepada populasi lainnya. Kedua, karena tes merupakan entitas utama di dalam TTK,
ia menjadi sukar untuk menggeneralisasikan parameter butir pada tes tersebut ke dalam parameter butir
yang digunakan secara umum. Misalnya, daya pembeda rit tidak dapat digunakan di luar konteks tes,
dan dengan demikian tidak dapat dianggap sebagai parameter daya pembeda butir universal. Manakala
suatu skor butir merupakan bagian skor tes, nilai rit akan cenderung menggelembung. Semakin pendek
suatu tes, semakin besar penggelembungannya. Untuk menjaga kestabilan indeks daya pembeda,
digunakanlah korelasi butir-sisaan rir . Penggelembungan tidak terjadi pada korelasi butir-sisaan.
Namun, masalah baru akan muncul, yakni apabila butir-butir saling berkorelasi secara positif satu
dengan lainnya, korelasi butir-sisaan pada butir itu akan menjadi tinggi dengan mempertimbangkan
adanya perpanjangan tes dengan menggunakan butir-butir yang paralel.
3
terhadap butir, probabilitas jawaban betul oleh peserta ujian j terhadap butir i menurut model L3P
dapat dinyatakan sebagai berikut:
exp(ai (θ − bi ))
Pi (θ ) = P ( X i = 1θ ) = ci + (1 − ci ) , di mana X i adalah skor peserta ujian j
1 + exp(ai (θ − bi ))
terhadap butiri. Apabila diasumsikan ci = 0 untuk semua butir, diperoleh model L2P. Dan, apabila
diasumsikan ai = 1 untuk semua butir, diperoleh model L1P, yang lebih dikenal sebagai model Rasch.
Model logistik sebagaimana diketahui merupakan model yang mengabaikan karakter
deterministik dan karenanya ia mengadopsi karakter probabilistik. Di dalam model logistik itu, yang
penting adalah menentukan lokasi kurva sebagai nilai variabel laten yang berkenaan dengan probabilitas
1.00
Probabilitas
0.50
0.00
-3 -2 -1 0 1 2 3
Abilitas (Theta)
50% menjawab butir tes dengan betul. Perhatikan kurva respon butir tes ini.
Dari kurva respon butir itu, dapat diidentifikasi sejumlah properti. Pertama, kurva bersifat
monotonis. Maknanya, semakin tinggi nilai variabel laten, semakin tinggi probabilitas peserta ujian
menjawab butir dengan betul. Kedua, probabilitas jawaban betul selalu lebih besar dari nol dan lebih kecil
dari satu. Maknanya, selalu ada kemungkinan positif peserta ujian menjawab butir dengan betul
meskipun dalam kadar yang terkecil sekalipun, dan selalu ada kemungkinan keliru peserta ujian
menjawab butir tes. Ketiga, probabilitas 50% peserta ujian menjawab butir dengan betul diperoleh
manakala nilai abilitas ( θ ) sama dengan nilai taraf kesukaran butir. Karena nilai-nilai, baik pada ciri laten
peserta ujian (abilitas) maupun pada ciri butir itu bersifat tak-tentu, dengan demikian disebut parameter
(Verhelst, 2004). Ada istilah parameter ciri laten peserta ujian dan ada istilah parameter ciri butir. Dan,
parameter ciri laten peserta ujian itu berada dalam garis kontinum yang sama dengan parameter ciri butir
tes (Naga, 1992). Maknanya, baik parameter ciri laten peserta ujian maupun parameter ciri butir memiliki
skala yang sama (common scale). Oleh karena itu, selain properti yang telah disebutkan, TRB juga memiliki
properti yang penting untuk dipertimbangkan, yakni model respon butir dan penskalaan.
Di samping itu, hal lain yang berbeda dari TTK adalah masalah kekeliruan pengukuran.
Kekeliruan pengukuran di dalam TRB dinyatakan sebagai kekeliruan baku pengukuran atau kuadratnya
yang merupakan variansi penyampelan θ . Apabila estimasi kebolehjadian maksimum digunakan,
kebalikan fungsi informasi tes I (θ ) sama dengan variansi penyampelan asimptotik estimator θ . Pada
butir berdata dikotomi, dapat ditunjukkan bahwa fungsi informasi itu adalah fungsi informasi butir
I i (θ ) yang dapat dinyatakan sebagai berikut:
{Pi (θ )'}2
I i (θ ) = , di mana Pi (θ )' merupakan derivat Pi (θ ). Dengan menganggap respon
Pi (θ )(1 − Pi (θ ))
momen butir itu independensi lokal, fungsi informasi tes sama dengan jumlah fungsi informasi butir-
butir pada tes tersebut.
4
Pada perkembangan selanjutnya, fungsi informasi butir inilah yang akan dijadikan pijakan untuk
berbagai keperluan.
Penutup
Penyusunan tes terus mengalami dinamika. Dinamika tersebut dapat dilihat dari perubahan
perspektif, dari teori tes klasik ke teori tes modern, lebih dikenal sebagai teori respon butir. Teori tes
klasik berpijak pada tes secara menyeluruh, adanya ketergantungan antara butir tes dan peserta ujian,
dan adanya ketergantungan daya pembeda dan reliabilitas dengan heterogenitas populasi. Sedangkan,
teori respon butir membebaskan ketergantungan antara butir tes dan peserta ujian (konsep invariansi
parameter), respon momen peserta ujian pada satu butir tes tidak mempengaruhi butir tes lainnya
(konsep independensi lokal), dan butir tes hanya mengukur satu dimensi ukur (konsep unidimensi). TRB
dengan sendirinya memfokuskan pada butir tes. Butir-butir tes dengan ciri psikometrisnya akan dijadikan
modal penyusunan bank butir. Melalui uji adaptif, butir-butir tes tersebut dapat dikerjakan oleh peserta
5
ujian dengan ciri laten tertentu. Ciri laten itu memberikan informasi maksimum pada butir. Dengan
demikian, suatu butir yang dapat dijawab dengan betul oleh peserta ujian secara adaptif merupakan butir
yang memiliki fungsi informasi butir maksimum dengan kekeliruan pengukuran sekecil mungkin. Tes
adaptif yang diambilkan dari bank butir sesungguhnya merupakan tes berbasis komputer atau internet
dengan berbagai kelebihannya. Salah satu bidang kajian yang memanfaatkan kelebihan-kelebihan
penggunaan komputer atau internet adalah bidang bahasa. Melalui prosedur adaptif, ragam tes bahasa
dikembangkan, antara lain TOEFL (oleh Educational Testing Service – lembaga pengukuran pendidikan
terbesar di Amerika dan dunia), turcat, nedcat, cats for toddlers, nt2cat (oleh CITO). Oleh karena itu,
pengembangan tes bidang apapun, termasuk bidang bahasa, sesungguhnya tidak dapat berdiri sendiri.
Kontribusi para ahli di bidang matematika, statistika, biologi, fisika, dan psikologi turut mewarnai
perkembangan ragam tes, juga tes bahasa.
Pustaka Rujukan
Downing, S. & Haladyna, T. (2006). Handbook of test development. Mahwah, N.J.: Lawrence Erlbaum
Associates.
Green, B.F. (1983). The promise of tailored tests. Di dalam H. Wainer & S. Messick (Ed.). Principles of
modern psychological measurement, hh. 69-80. Hillsdale, N.J.: Lawrence Erlbaum Associates.
Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley
Publishing Company.
Naga, D.S. (1992). Pengantar teori sekor pada pengukuran pendidikan. Jakarta: Gunadarma.
van der Linden, W.J. & Glas, C. (2000). Computerized adaptive testing: Theory and practice. Boston, MA.:
Kluwer Academic Publishers.
Verhelst, N.D. (2004). Item response theory. Di dalam Relating language examinations to the common european
framework of reference for languages: Learning, teaching, assessment, DGIV/EDU/LANG, 13. Council of
Europe: Language Policy Division, Strasbourg.
Verschoor, A.J. (2007a). Genetic algorithms for automated test assembly. Arnhem: Centraal Instituut voor
ToetsOntwikkeling (CITO).
Verschoor, A.J. (2007b). Computerized adaptive testing. Makalah yang disajikan pada kursus Curriculum
and Assessment for Educational Innovation. Centraal Instituut voor ToetsOntwikkeling (CITO),
Arnhem, 3-21 September.
Widiatmoko. (2004). Language assessment: Bahan ajar diklat tingkat dasar guru bahasa Inggris sekolah menengah
atas. Jakarta: PPPG Bahasa.
Ying, B.P. (2005). Testing and evaluation in second language teaching. Makalah yang disajikan pada
kursus MTCP. Institut Perguruan Bahasa-bahasa Antarabangsa, Kuala Lumpur, 5-30 September.
***