Implikasi Pengembangan Tes Pada Bidang Bahasa

Implikasi Pengembangan Tes pada Bidang Bahasa
Oleh
Widiatmoko
e.: moko.geong@gmail.com
w.: http://widiatmoko.blog.com, http://mokogeong.multiply.com
Departemen Pendidikan Nasional
Pengantar
Tes sebagaimana dipahami dalam bidang pendidikan dan psikologi adalah sebuah perangkat untuk
mengukur abilitas peserta ujian (Verschoor, 2007a). Tes yang bertalian dengan bidang tersebut merupakan
peranti untuk mengukur karakteristik laten seseorang. Di dalam kelas, karakteristik peserta ujian adalah
objek ukurnya. Ia didefinisikan juga sebagai sekumpulan pertanyaan, pernyataan, atau tugas yang
sistematik yang memerlukan respon dari peserta ujian dalam rangka keberukuran keterampilan,
pengetahuan, intelegensi, abilitas, atau minat yang dimilikinya (Widiatmoko, 2004). Ying (2005)
mengatakannya sebagai penerapan prosedural untuk mengukur kuantitas dan kualitas suatu variabel.
Dengan demikian, tes sesungguhnya memang digunakan untuk mengukur keterampilan, pengetahuan,
atau atribut psikologis peserta ujian.
Dalam perkembangannya, penyusun perangkat tes mulai memikirkan bagaimana menyusun alat
ukur yang mampu mengukur apa yang hendak diukurnya dan memiliki hasil ukur yang relatif konsisten.
Ini kemudian disebut sebagai konsep validitas dan reliabilitas. Untuk memenuhi syarat valid dan reliabel,
pengembangan tes memerlukan pendekatan sistematik. Downing & Haladyna (2006) menyarankan
beberapa langkah efektif untuk mengembangkan tes. Menurut mereka, langkah-langkah tersebut adalah
(a) menyusun rencana tes secara menyeluruh yang mencakupi penentuan tujuan tes, konstruk yang akan
diukur, dan kerangka dasar untuk penyusunan tes; (b) menentukan definisi isi yang mencakupi ranah isi
dan operasionalisasi ranah; (c) menentukan spesifikasi tes yang mencakupi format tes, panjang tes,
informasi tes, dan format butir tes; (d) mengembangkan butir tes; (e) menentukan penyimpanan butir tes
secara sistematik dengan mempertimbangkan ciri psikometrisnya; (f) melakukan uji coba tes untuk
mengevaluasi ambiguitas, inkonsistensi, dan respon yang tidak lazim yang semuanya bertujuan untuk
mengumpulkan data psikometris; (g) menganalisis butir tes yang mencakupi analisis klasik, analisis
dengan metode respon butir, analisis multidimensionalitas, analisis keberfungsian butir diferensial,
estimasi parameter butir, dan analisis informasi butir; (h) merakit tes baik secara manual maupun dengan
bantuan komputer (automated test assembly); (i) melakukan administrasi tes; (j) melakukan penskoran dan
menentukan batas sukses dengan metode relatif dan metode absolut; dan (k) melaporkan hasil baik yang
berkenaan dengan skor tes total, batas sukses, maupun laporan yang bersifat teknis.
Apabila ditilik ke belakang, sesungguhnya pengembangan alat ukur tes bermula dari konsep
klasik dan disempurnakan melalui konsep respon butir.
Analisis Klasik
Pada 1904, Spearman mengenalkan konsep kekeliruan pengukuran dalam bidang psikologi.
Selang beberapa masa, konsep tersebut kemudian berkembang ke bidang lainnya, termasuk pengajaran
1
bahasa. Menurutnya, skor ujian dari peserta ujian sesungguhnya mengandung elemen acak. Usahanya
untuk mengoreksi korelasi attenuation akibat kekeliruan pengukuran menandai kebangkitan teori tes
klasik (TTK). Di dalam TTK, hubungan antara skor amatan Χ j peserta ujian, skor tulen τ j dan
kekeliruan pengukuran Ε j dapat dirumuskan sebagai: Χ j = τ j + Ε j . Maknanya, kekuatan skor tes
peserta ujian ditentukan oleh sejauh mana abilitas atau profisiensi peserta ujian dan taraf kesukarannya.
Bagaimanapun, di sini selalu ada faktor lain yang mempengaruhi skor tes peserta ujian, seperti kondisi
fisik dan mentalnya, kualitas butir tes, faktor tebakan, dan cerminan indikator dengan isi butir tes. Oleh
karena itu, skor tes dianggap sebagai estimat skor tulen dan kekeliruan pengukuran.
Secara sederhana, skor tulen τ j didefinisikan sebagai skor harapan dari peserta ujian dari
berkali-kali perlakuan. Karena secara alamiah kekeliruan pengukuran dari beberapa kali perlakuan itu
tidak berkorelasi, kekeliruan harapan adalah nol. Sekarang, skor amatan Χ j dan kekeliruan pengukuran
Ε j adalah acak karena adanya dua sumber yang berbeda, yakni penyampelan peserta ujian secara acak
dan penyampelan acak pada distribusi peserta ujian. Apabila J menunjuk pada peserta ujian yang
dipilih secara acak, Fx j (.) sebagai fungsi distribusi skor amatan untuk peserta ujian tertentu, dan Fτ (.)
sebagai fungsi distribusi skor tulen untuk populasi, kemudian inti dari TTK disusun dari persamaan: Xj
~ FXJ ( x;τj ) dan τ J ~ Fτ (τ ). Yang esensial dalam TTK adalah adanya asumsi yang menyatakan bahwa
peserta ujian itu dipilih secara acak, asumsi yang sering terganggu selama pengumpulan data.
Entitas utama pada model tersebut adalah suatu tes yang tetap, lazimnya terdiri atas beberapa
butir. Dua properti butir dalam TTK memainkan peranan penting, yakni taraf kesukaran dan daya
pembeda. Untuk butir berskor dikotomi, taraf kesukaran didefinisikan sebagai skor harapan peserta ujian
yang dipilih secara acak dari populasi dan disimbolkan dengan π i . Biasanya, pengamatan pada suatu
sampel acak ditunjukkan sebagai nilai-p, pi . Daya pembeda dipahami sebagai korelasi biserial titik
antara skor butir dan skor tes, untuk butir i ditunjukkan sebagai ρ it .
Di samping properti butir, dikenal pula properti tes yang juga memainkan peranan penting, yakni
reliabilitas. Reliabilitas dipahami sebagai korelasi kuadrat antara skor tulen dan skor amatan yang
ditunjukkan sebagai ρ 2 Xτ . Satu pendekatan reliabilitas tes adalah alpha Cronbach yang merupakan
konsistensi internal tes atau derajat yang mana semua skor butir itu berkorelasi. Rumus alpha Cronbach
dituliskan sebagai berikut:
∑ σ i2 ) = k (1 − ∑i =1σ i2 ), di mana k adalah panjang tes, σ 2 adalah variansi tes,

k k
k
α= (1 − k i =1
1− k ∑i =1σ i ρit 1 − k σ X2 X
dan σ i adalah variansi butir.

2
Di samping itu, dari persamaan skor amatan peserta ujian di atas, diperoleh persamaan baru yang
menunjukkan bahwa variansi skor amatan s X2 sama dengan jumlah variansi skor tulen sT2 dan variansi
kekeliruan pengukuran s E . Apabila dituliskan, diperoleh rumus: s X = sT + s E . Dari persamaan itu,
2 2 2 2
reliabilitas dapat juga dirumuskan sebagai berikut:

sT2 s X2 − s E2 sT2
r= = = ; di mana r adalah koefisien reliabilitas. Secara singkat, koefisien
s X2 s X2 sT2 + s E2
reliabilitas merefleksikan rasio variansi skor tulen dengan variansi total. Koefisien reliabilitas juga
menunjukkan berapa banyak variansi skor tes amatan total merupakan variansi skor tulen aktual dan
bagian mana yang merupakan variansi kekeliruan. Apabila estimat reliabilitas tes, misalnya 0,77,
2
dikatakan bahwa 77% dari variansi skor tes total adalah variansi skor tulen dan sisanya, 23%, adalah
variansi kekeliruan. Nilai reliabilitas tes yang tinggi menunjukkan bahwa variansi kekeliruan hampir
tidak ada dan bahwa skor tes amatan merupakan representasi skor tulen.
Kini, dua kelemahan penggunaan TTK dalam bank butir dapat ditemukan (Verschoor, 2007a).
Pertama, taraf kesukaran, daya pembeda, dan reliabilitas tes bergantung pada populasi peserta ujian.
Populasi yang berbeda akan memberikan karakteristik butir dan tes yang berbeda. Misalnya, skor
harapan suatu butir i , π i akan lebih tinggi pada populasi yang berkemampuan lebih sedangkan daya
pembeda dan reliabilitas tes akan lebih tinggi pada populasi yang lebih heterogen. Dengan demikian,
penyampelan acak menjadi penting meskipun hasil yang diperoleh melalui pengumpulan data tidak
dapat diekstrapolasi kepada populasi lainnya. Kedua, karena tes merupakan entitas utama di dalam TTK,
ia menjadi sukar untuk menggeneralisasikan parameter butir pada tes tersebut ke dalam parameter butir
yang digunakan secara umum. Misalnya, daya pembeda rit tidak dapat digunakan di luar konteks tes,
dan dengan demikian tidak dapat dianggap sebagai parameter daya pembeda butir universal. Manakala
suatu skor butir merupakan bagian skor tes, nilai rit akan cenderung menggelembung. Semakin pendek
suatu tes, semakin besar penggelembungannya. Untuk menjaga kestabilan indeks daya pembeda,
digunakanlah korelasi butir-sisaan rir . Penggelembungan tidak terjadi pada korelasi butir-sisaan.
Namun, masalah baru akan muncul, yakni apabila butir-butir saling berkorelasi secara positif satu
dengan lainnya, korelasi butir-sisaan pada butir itu akan menjadi tinggi dengan mempertimbangkan
adanya perpanjangan tes dengan menggunakan butir-butir yang paralel.
Analisis Respon Butir

Pada dekade perang dunia kedua, muncullah tuntutan tentang tes baku. Apabila TTK meletakkan
pada tes secara menyeluruh, teori baru yang muncul ini memfokuskan pada butir tes dan menganggap
parameter butir itu invarian terhadap parameter peserta ujian. Teori baru ini dikenal sebagai teori respon
butir (TRB). Akar TRB ini berasal dari asumsi Thurstone (1925) tentang skala yang mendasarkan pada
butir-butir tes Binet & Simon (1905) tentang perkembangan mental anak. Lazarsfeld (1950)
mengembangkan gagasan Thurstone dengan asumsi independensi lokal pada model ciri laten. Ini
kemudian berkembang menjadi apa yang dikenal sebagai TRB. Rasch (1960) mengenalkan model dengan
menggunakan fungsi logistik sebagai fungsi regresi yang menyerupai fungsi ojaif normal. Birnbaum
(1968) mengembangkan model logistik dua parameter dan tiga parameter dan Masters (1982)
mengembangkan model kredit parsial untuk butir berdata kontinum.
Secara konseptual, TRB bersinggungan dengan pengukuran variabel laten atau variabel tak
teramati yang boleh jadi kualitatif ataupun kuantitatif. Apabila ia kualitatif, responden (peserta ujian)
dikategorikan sebagai kelas atau tipe yang tak teramati; apabila kuantitatif, peserta ujian dapat
direpresentasikan dengan angka atau titik-titik pada garis nyata (Verhelst, 2004). Di dalam garis tersebut,
apabila titik peserta ujian B terletak di sebelah kanan titik peserta ujian A, dikatakan bahwa B itu lebih
mampu atau lebih profisien. Tujuan pengukuran ini adalah untuk menemukan setepat mungkin lokasi A
dan B pada garis nyata itu. Untuk melakukannya, diperlukan informasi ciri peserta ujian – yang diketahui
melalui pemberian butir tes kepada peserta ujian itu. Dalam hal ini, respon butir dianggap sebagai
indikator laten yang membentuk variabel itu.
Memang, kajian sentral dalam TRB sesungguhnya terletak pada asumsi yang menyatakan bahwa
probabilitas jawaban betul oleh peserta ujian terhadap butir dapat dinyatakan sebagai sebuah fungsi
abilitas laten peserta ujian (Verschoor, 2007a). Fungsi ini bergantung pada karakteristik butirnya.
Beberapa model telah dikembangkan dengan berbagai fungsinya. Model yang digunakan luas untuk skor
butir dikotomi adalah model logistik satu, dua, dan tiga parameter (L1P, L2P, L3P). Apabila θ adalah
parameter ciri peserta ujian j , ai daya pembeda, bi taraf kesukaran, dan ci parameter tebakan
3
terhadap butir, probabilitas jawaban betul oleh peserta ujian j terhadap butir i menurut model L3P
dapat dinyatakan sebagai berikut:
exp(ai (θ − bi ))
Pi (θ ) = P ( X i = 1θ ) = ci + (1 − ci ) , di mana X i adalah skor peserta ujian j
1 + exp(ai (θ − bi ))
terhadap butiri. Apabila diasumsikan ci = 0 untuk semua butir, diperoleh model L2P. Dan, apabila
diasumsikan ai = 1 untuk semua butir, diperoleh model L1P, yang lebih dikenal sebagai model Rasch.
Model logistik sebagaimana diketahui merupakan model yang mengabaikan karakter
deterministik dan karenanya ia mengadopsi karakter probabilistik. Di dalam model logistik itu, yang
penting adalah menentukan lokasi kurva sebagai nilai variabel laten yang berkenaan dengan probabilitas
Kurva Responsi Butir
1.00
Probabilitas
0.50
0.00
-3 -2 -1 0 1 2 3
Abilitas (Theta)
50% menjawab butir tes dengan betul. Perhatikan kurva respon butir tes ini.
Dari kurva respon butir itu, dapat diidentifikasi sejumlah properti. Pertama, kurva bersifat
monotonis. Maknanya, semakin tinggi nilai variabel laten, semakin tinggi probabilitas peserta ujian
menjawab butir dengan betul. Kedua, probabilitas jawaban betul selalu lebih besar dari nol dan lebih kecil
dari satu. Maknanya, selalu ada kemungkinan positif peserta ujian menjawab butir dengan betul
meskipun dalam kadar yang terkecil sekalipun, dan selalu ada kemungkinan keliru peserta ujian
menjawab butir tes. Ketiga, probabilitas 50% peserta ujian menjawab butir dengan betul diperoleh
manakala nilai abilitas ( θ ) sama dengan nilai taraf kesukaran butir. Karena nilai-nilai, baik pada ciri laten
peserta ujian (abilitas) maupun pada ciri butir itu bersifat tak-tentu, dengan demikian disebut parameter
(Verhelst, 2004). Ada istilah parameter ciri laten peserta ujian dan ada istilah parameter ciri butir. Dan,
parameter ciri laten peserta ujian itu berada dalam garis kontinum yang sama dengan parameter ciri butir
tes (Naga, 1992). Maknanya, baik parameter ciri laten peserta ujian maupun parameter ciri butir memiliki
skala yang sama (common scale). Oleh karena itu, selain properti yang telah disebutkan, TRB juga memiliki
properti yang penting untuk dipertimbangkan, yakni model respon butir dan penskalaan.
Di samping itu, hal lain yang berbeda dari TTK adalah masalah kekeliruan pengukuran.
Kekeliruan pengukuran di dalam TRB dinyatakan sebagai kekeliruan baku pengukuran atau kuadratnya
yang merupakan variansi penyampelan θ . Apabila estimasi kebolehjadian maksimum digunakan,
kebalikan fungsi informasi tes I (θ ) sama dengan variansi penyampelan asimptotik estimator θ . Pada
butir berdata dikotomi, dapat ditunjukkan bahwa fungsi informasi itu adalah fungsi informasi butir
I i (θ ) yang dapat dinyatakan sebagai berikut:
{Pi (θ )'}2
I i (θ ) = , di mana Pi (θ )' merupakan derivat Pi (θ ). Dengan menganggap respon
Pi (θ )(1 − Pi (θ ))
momen butir itu independensi lokal, fungsi informasi tes sama dengan jumlah fungsi informasi butir-
butir pada tes tersebut.
4
Pada perkembangan selanjutnya, fungsi informasi butir inilah yang akan dijadikan pijakan untuk
berbagai keperluan.
Tes Adaptif dalam Bidang Bahasa

Sebagaimana diketahui bahwa tujuan utama pengetesan adalah untuk mengukur profisiensi
(abilitas, keterampilan, atau pengetahuan) dengan cara yang sahih, andal, dan efisien (van der Linden &
Glas, 2000). Untuk mencapai tujuan itu, diperlukan medium yang dapat diakses oleh siapapun,
kapanpun, dan di manapun. Medium tersebut adalah komputer. Green (1983) mengemukakan beberapa
kelebihan tes bermedium komputer, yakni (a) adanya keamanan tes, (b) kemandirian peserta ujian
mengerjakan tes, dan (c) penskoran dan umpan balik secara langsung. Dengan demikian, pengetesan
melalui komputer merupakan salah satu solusi atas berbagai tuntutan.
Kemudian, tes apa saja yang difasilitasi melalui komputer? Salah satunya adalah TOEFL (Test of
English as a Foreign Language). Bahkan, kini TOEFL sebagai tes profisiensi bahasa sudah mulai dilakukan
secara on-line dengan berbasis internet. Di negara-negara maju, kebutuhan tes berbasis komputer dan
internet sudah merupakan hal yang lumrah. Ia meliputi berbagai ragam tes. Contoh tes bahasa yang
dikembangkan CITO (Centraal Instituut voor ToetsOntwikkeling – lembaga pengukuran pendidikan terbesar
di Eropa) dengan berbasis komputer dan internet adalah turcat (tes membaca bahasa Turki), nedcat (tes
membaca bahasa Belanda), cats for toddlers (tes bahasa untuk anak), dan nt2cat (tes membaca dan
menyimak bahasa Belanda).
Prosedur tes berbasis komputer dan internet mulanya diilhami oleh gagasan Lord (1968). Lord
mendasarkan pemilihan butir tersebut pada fungsi informasi. Tentu, butir-butir yang digunakan dalam
tes itu merupakan butir-butir yang memiliki karakteristik psikometris yang disimpan di dalam bank butir.
Lebih jauh lagi, tes berbasis komputer atau internet dapat digunakan untuk meningkatkan akurasi
statistik skor tes. Yang menarik dicermati adalah komputer mampu menyediakan butir tes sesuai dengan
kemampuan peserta ujian. Ini bersifat adaptif. Maknanya, apabila peserta ujian menjawab butir tes
pertama dengan betul, butir selanjutnya yang memiliki karakteristik taraf kesukaran lebih tinggi akan
diberikan. Butir tes pertama merupakan butir yang bertaraf kesukaran sedang. Sebaliknya, manakala
peserta ujian tidak dapat menjawab butir pertama dengan betul, butir selanjutnya yang memiliki
karakteristik taraf kesukaran lebih rendah akan diberikan (Naga, 1992; Verschoor, 2007b). Tes akan
berhenti manakala ia memenuhi profisiensi yang ditentukan, atau mencapai batas waktu, atau sampai
semua butir dapat dijawab. Dengan perkataan lain, pemilihan butir beradaptasi dengan taraf abilitas
peserta ujian secara individual.
Secara sederhana, properti esensial TRB dalam pengembangan tes adaptif berbasis komputer
mencakupi (a) parameter butir bersifat tetap dalam bank butir, (b) adanya independensi sampel peserta
ujian, (c) taraf kesukaran berada dalam skala yang sama dengan ciri laten peserta ujian, dan (d) informasi
butir bergantung pada ciri laten peserta ujian dengan mempertimbangkan kekeliruan pengukuran sekecil
mungkin (Verschoor, 2007b).
Penutup
Penyusunan tes terus mengalami dinamika. Dinamika tersebut dapat dilihat dari perubahan
perspektif, dari teori tes klasik ke teori tes modern, lebih dikenal sebagai teori respon butir. Teori tes
klasik berpijak pada tes secara menyeluruh, adanya ketergantungan antara butir tes dan peserta ujian,
dan adanya ketergantungan daya pembeda dan reliabilitas dengan heterogenitas populasi. Sedangkan,
teori respon butir membebaskan ketergantungan antara butir tes dan peserta ujian (konsep invariansi
parameter), respon momen peserta ujian pada satu butir tes tidak mempengaruhi butir tes lainnya
(konsep independensi lokal), dan butir tes hanya mengukur satu dimensi ukur (konsep unidimensi). TRB
dengan sendirinya memfokuskan pada butir tes. Butir-butir tes dengan ciri psikometrisnya akan dijadikan
modal penyusunan bank butir. Melalui uji adaptif, butir-butir tes tersebut dapat dikerjakan oleh peserta
5
ujian dengan ciri laten tertentu. Ciri laten itu memberikan informasi maksimum pada butir. Dengan
demikian, suatu butir yang dapat dijawab dengan betul oleh peserta ujian secara adaptif merupakan butir
yang memiliki fungsi informasi butir maksimum dengan kekeliruan pengukuran sekecil mungkin. Tes
adaptif yang diambilkan dari bank butir sesungguhnya merupakan tes berbasis komputer atau internet
dengan berbagai kelebihannya. Salah satu bidang kajian yang memanfaatkan kelebihan-kelebihan
penggunaan komputer atau internet adalah bidang bahasa. Melalui prosedur adaptif, ragam tes bahasa
dikembangkan, antara lain TOEFL (oleh Educational Testing Service – lembaga pengukuran pendidikan
terbesar di Amerika dan dunia), turcat, nedcat, cats for toddlers, nt2cat (oleh CITO). Oleh karena itu,
pengembangan tes bidang apapun, termasuk bidang bahasa, sesungguhnya tidak dapat berdiri sendiri.
Kontribusi para ahli di bidang matematika, statistika, biologi, fisika, dan psikologi turut mewarnai
perkembangan ragam tes, juga tes bahasa.
Pustaka Rujukan
Downing, S. & Haladyna, T. (2006). Handbook of test development. Mahwah, N.J.: Lawrence Erlbaum
Associates.
Green, B.F. (1983). The promise of tailored tests. Di dalam H. Wainer & S. Messick (Ed.). Principles of
modern psychological measurement, hh. 69-80. Hillsdale, N.J.: Lawrence Erlbaum Associates.
Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley
Publishing Company.
Naga, D.S. (1992). Pengantar teori sekor pada pengukuran pendidikan. Jakarta: Gunadarma.
van der Linden, W.J. & Glas, C. (2000). Computerized adaptive testing: Theory and practice. Boston, MA.:
Kluwer Academic Publishers.
Verhelst, N.D. (2004). Item response theory. Di dalam Relating language examinations to the common european
framework of reference for languages: Learning, teaching, assessment, DGIV/EDU/LANG, 13. Council of
Europe: Language Policy Division, Strasbourg.
Verschoor, A.J. (2007a). Genetic algorithms for automated test assembly. Arnhem: Centraal Instituut voor
ToetsOntwikkeling (CITO).
Verschoor, A.J. (2007b). Computerized adaptive testing. Makalah yang disajikan pada kursus Curriculum
and Assessment for Educational Innovation. Centraal Instituut voor ToetsOntwikkeling (CITO),
Arnhem, 3-21 September.
Widiatmoko. (2004). Language assessment: Bahan ajar diklat tingkat dasar guru bahasa Inggris sekolah menengah
atas. Jakarta: PPPG Bahasa.
Ying, B.P. (2005). Testing and evaluation in second language teaching. Makalah yang disajikan pada
kursus MTCP. Institut Perguruan Bahasa-bahasa Antarabangsa, Kuala Lumpur, 5-30 September.
***

Implikasi Pengembangan Tes Pada Bidang Bahasa

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Implikasi Pengembangan Tes Pada Bidang Bahasa

Diunggah oleh

Hak Cipta:

Format Tersedia

Implikasi Pengembangan Tes pada Bidang Bahasa

∑ σ i2 ) = k (1 − ∑i =1σ i2 ), di mana k adalah panjang tes, σ 2 adalah variansi tes,

dan σ i adalah variansi butir.

reliabilitas dapat juga dirumuskan sebagai berikut:

Analisis Respon Butir

Kurva Responsi Butir

Tes Adaptif dalam Bidang Bahasa

Anda mungkin juga menyukai