Item Respons Theory (WWW - Jurnaldikbud.kemdikbud - Go.id)
Item Respons Theory (WWW - Jurnaldikbud.kemdikbud - Go.id)
ABSTRAK: Pengukuran pendidikan meliputi pengukuran hasil belajar dari berbagai bidang, tergantung
objek hasil belajar apa yang ingin diukur. Oleh karena itu, yang menjadi permasalahan dalam artikel ini: 1)
apakah teori responsi butir atau teori tes modern bisa menutupi kelemahan-kelemahan yang ada pada
teori tes klasik; 2) bagaimana implementasi teori responsi butir dalam mengatasi permasalahan-permasalahan
ujian nasional sehingga tidak ada kelompok yang diuntungkan dan kelompok yang dirugikan akibat
pengukuran yang tidak adil? Tujuan dari penulisan artikel ini adalah menjelaskan implementasi teori responsi
butir dalam menutupi kelemahan yang ada pada teori tes klasik dan mengatasi permasalahan ujian nasional,
sehingga tidak ada kelompok yang dirugikan maupun diuntungkan akibat pengukuran yang tidak adil.
Teori responsi butir merupakan alternatif pilihan yang bertujuan melepaskan diri dari ketergantungan tes
yang diberikan dengan sampel peserta tes. Dalam hal ini walaupun soal-soal tersebut dikerjakan oleh
siswa yang pandai atau siswa yang kurang pandai, indikasi tingkat kesukaran suatu soal tetap tidak
berubah. Ada tiga asumsi yang harus dipenuhi dalam teori response butir, yaitu: 1) unidimensi; 2)
independensi lokal; dan 3) invariansi sedangkan karakteristik butir ada tiga, yaitu: 1) taraf sukar butir; 2)
daya beda butir; dan 3) tingkat kebetulan betul pada butir. Untuk mengukur kemampuan peserta tes yang
sangat beragam di Indonesia, seperti Ujian Nasional, seharusnya digunakan juga ujian atau tes yang
berbeda tingkat kesukaran soalnya, supaya adil dan juga akurat hasilnya. Peserta tes atau ujian yang
mengerjakan tes atau ujian yang berbeda tingkat kesukaran soalnya, tetap bisa dibandingkan
kemampuannya, asalkan soal-soal dalam ujian tersebut berasal atau diambil dari bank soal yang sudah
dikalibrasi dengan konsep item response theory.
Kata Kunci: teori responsi butir, unidimensi, bank soal, independensi lokal, invariansi, taraf sukar butir,
tingkat kesukaran soal.
Keywords: item response theory, unidimention, local independence, invariance, item difficulty, item
bank, the dificulty level of items.
719
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
720
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
pengamatan langsung melalui praktik terhadap soal-soal itu sepertinya mudah atau tingkat
sesuatu keterampilan (skill) khusus dari peserta didik. kesukaran soalnya menjadi besar, dan sebaliknya
Objek yang diukur dalam pendidikan antara lain: kalau dikerjakan oleh siswa yang kurang pandai maka
siswa, mahasiswa, guru/dosen. Untuk mendapatkan soal itu sepertinya sukar atau tingkat kesukaran soal
informasi yang akurat tentang karakteristik dan menjadi kecil. Jadi, soal-soal itu tidak konsisten atau
objek yang diteliti, maka perlu alat ukur yang baik berubah-ubah tergantung pada kemampuan
(sahih) yakni alat ukur yang mempersyaratkan kelompok sampel siswa yang menempuh ujian.
beberapa hal, sehingga alat ukur tersebut menghasil- Sejalan dengan itu, jika kelompok peserta tes
kan informasi yang mengandung ketetapan yang yang sama menjawab kelompok butir tes yang
tinggi, dan kesalahan kecil, sehingga hasilnya dapat berbeda maka ciri kelompok peserta akan berubah.
diandalkan (Asmin, 2004). Persyaratan alat ukur Dalam hal ini kemampuan atau sikap para peserta
pendidikan, menurut Cronbach (1990) meliputi berubah semata-mata karena peserta tes yang
kesahihan (validitas) yang diperoleh melalui korelasi menjawab butir tes yang berbeda, sehingga
sebuah tes dengan suatu kriteria tes yang ditentukan, kelompok peserta yang sama dan kelompok butir
dan keterandalan (reliabilitas) alat ukur yakni suatu tes yang berbeda akan menunjukkan ciri peserta
proses yang dilakukan oleh pengguna tes dalam yang berbeda.
mengumpulkan bukti untuk mendukung inferensi yang Pada penskoran klasik ada keterkaitan antara
dibuat berdasarkan skor tes. kedua kelompok butir tes dan kelompok peserta tes,
Menurut teori tes klasik kesahihan meliputi yang memungkinkan munculnya beberapa hal: 1)
kesahihan isi, konstrak, dan kriteria (Crokcer & Algina, kelompok peserta uji tes yang cirinya diskor perlu
1986). Validitas dapat berarti sejauh mana ketepatan mengikuti tes yang sama pada saat yang bersamaan,
dan kecermatan suatu alat ukur dalam melakukan sehingga perlu dihindari kebocoran butir tes sebelum
fungsi ukurnya. Menurut Djaali (2000) bahwa validitas tes dilaksanakan; 2) keterkaitan antara kelompok
tes tinggi apabila tes tersebut menjalankan fungsi butir dan kelompok peserta tes mengakibatkan
ukur secara tepat, atau memberikan hasil ukur yang tafsiran skor diarahkan pada kelompok peserta tes
sesuai dengan maksud dilakukannya pengukuran yang menjawab tes tersebut. Biasanya tafsiran
tersebut. Selanjutnya, reliabilitas artinya sejauh mana tersebut mengacu ke acuan norma; dan 3) tes yang
hasil pengukuran dapat dipercaya. Suatu hasil terlalu mudah atau terlalu sukar tidak akan
pengukuran hanya dapat dipercaya apabila dalam mencerminkan kemampuan peserta tersebut dengan
beberapa kali pelaksanaan pengetesan terhadap akurat, sehingga kedua bentuk tes tersebut
kelompok subyek yang sama diperoleh hasil yang dipertimbangkan untuk diganti.
relatif sama. Responden memiliki kemampuan yang
Pada pengukuran klasik ciri yang unik diper- biasanya berbeda di antara responden. Butir memiliki
lihatkan dari kenyataan bahwa kelompok butir tes taraf sukar butir b yang biasanya berbeda di antara
atau kelompok angket (kuesioner) tidak dapat butir. Pada pengukuran terjadi pertemuan di antara
dipisahkan dari kelompok peserta tes atau kelompok kemampuan responden dengan tara sukar butir.
yang mengisi angket. Artinya, kelompok butir tes/ Jawaban atau tanggapan responden terhadap butir
angket (kuesioner) yang sama harus dijawab oleh membuahkan hasil ukur. Dalam hal tertentu, hasil
kelompok peserta tes yang sama. Jika kelompok ukur menunjukkan salah atau betul. Pada skala
tes yang sama dijawab kelompok peserta uji tes dikotomi, jawaban salah sering diberi skor 0 dan
yang berbeda maka ciri karakteristik kelompok butir jawaban betul diberi skor 1. Hasil ukur dapat juga
itu akan berubah, sehingga taraf kesukaran dan daya dinyatakan dalam bentuk probabilitas jawaban betul
pembeda kelompok butir tes itu akan berubah (nilai dari 0 sampai 1). Probabilitas jawaban betul
semata-mata karena kelompok butir tes tersebut ditentukan oleh padanan di antara kemampuan
ditanggapi oleh kelompok peserta yang berbeda. responden dengan taraf sukar butir.
Menurut Setiadi (1998) bahwa dalam teori klasik, Probabilitas jawaban betul Pgi( ) adalah
statistik soal, misalnya indeks kesukaran soal probabilitas jawaban betul responden ke-g pada butir
tergantung pada sampel pengikut ujian. Kalau tes ke-i. Tidak selalu taraf sukar butir sepadan dengan
tersebut dikerjakan oleh siswa yang pandai maka kemampuan responden. Butir terlalu mudah atau
721
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
terlalu sukar tidak dapat menunjukkan kemampuan ciri butir, walaupun ciri peserta tes berbeda. Dengan
responden, sehingga akurasi pengukuran menjadi kata lain, ciri dari kelompok butir adalah tetap
rendah. Kecocokan di antara kemampuan responden walaupun dijawab peserta tes yang berbeda. Dengan
dengan taraf sukar butir menghasilkan akurasi pengu- demikian, berlaku pula bahwa ciri peserta akan tetap
kuran yang tinggi. Kecocokan di antara kemampuan sama, walaupun mereka menjawab butir tes yang
responden dengan taraf sukar butir menghasilkan berbeda. Secara luas pembahas an te nta ng
akurasi pengukuran tertinggi melalui ketentuan: pengukuran modern dikaji secara mendalam dalam
teori responsi butir.
P() = Pmin + 0,5 (Pmaks– Pmin)
Karena peluang menjawab benar atau Pmaks = Teori Responsi Butir (Item Response Theory)
1 maka ketentuan ini menjadi: Teori Responsi Butir (Item Response Theory
disingkat IRT) dinamai juga sebagai Teori Ciri Laten
P() = Pmin + 0,5 (1 – Pmin) (Latent Trait Theory di singkat L TT) a tau
Lengkungan Karakteristik Butir (Item Characteristic
Pencocokan di antara kemampuan responden
Curv e disingkat ICC). Untuk memudahkan
dengan taraf sukar butir dapat dilakukan jika
pengertian, di sini hanya digunakan istilah IRT.
mereka independen. Jika taraf sukar butir (b) inde-
Seperti disebutkan di atas, pada hakekatnya IRT
penden dari kemampuan () maka dapat dicari nilai
bertujuan untuk mengatasi kelemahan yang
taraf sukar butir yang cocok dengan kemampuan
terdapat pada pengukuran klasik. Pada IRT,
(). peluang jawaban benar yang diberikan siswa, ciri
Pada teori klasik, taraf sukar butir bergantung atau parameter butir, dan ciri atau parameter
(dependent) kepada kemampuan responden. Bagi peserta tes dihubungkan melalui suatu model
responden berkemampuan tinggi, butir menjadi formula yang harus ditaati baik oleh kelompok
tidak sukar (mudah). Bagi responden berkemam- butir te s maupun kelompo k pese rt a tes
puan rendah, butir menjadi sukar. Pada butir tidak (Hambleton & Rogers, 1991). Artinya, butir yang
sukar (mudah), tampak kemampuan responden sama terhadap peserta tes yang berbeda harus
menjadi tinggi. Pada butir sukar, tampak kemam- tunduk pada aturan rumus itu, atau peserta tes
puan responden menjadi rendah. Taraf sukar butir yang sama terhadap butir tes yang berbeda juga
bergantung kepada kemampuan responden. Butir harus patuh terhadap rumus tersebut. Dalam
yang sama akan terasa berat bagi mereka yang proses semacam ini terjadilah apa yang disebut
berkemampuan rendah dan terasa ringan bagi invariansi di antara butir tes dan peserta tes. Pada
mereka yang berkemampuan tinggi. pengukuran modern, taraf sukar butir tidak dikaitkan
Kemampuan responden bergantung kepada langsung dengan kemampuan responden.
taraf sukar butir. Mereka yang mengerjakan butir Perbedaan mendasar antara pengukuran klasik
sukar akan tampak berkemampuan rendah sedang- dengan pengukuran modern terletak pada invariansi
kan mereka yang mengerjakan butir mudah akan penskoran, di mana penskoran modern adalah
tampak berkemampuan tinggi. Teori pengukuran invarians (tidak berubah atau tetap) terhadap butir
klasik (teori ujian klasik) tidak dapat digunakan untuk tes serta terhadap peserta tes. Menurut Lord (1990)
pencocokan kemampuan responden dengan taraf bahwa invariansi parameter-parameter butir tes
sukar butir (karena mereka dependen). Pada teori melalui kelompok peserta tes merupakan karak-
klasik, terdapat interdependensi di antara kemam- teristik yang paling penting dari IRT. Kita biasanya
puan responden dan taraf sukar butir. Sebaiknya cara memikirkan bahwa indeks kesukaran butir tes
penyebutan hasil pengukuran disandingi dengan nama sebagai proporsi jawaban yang benar sehingga sukar
alat ukur. Misalnya, 450 TOEFL, 630 SPMB. untuk membayangkan bagaimana indeks kesukaran
Untuk mengatasi kelemahan pada pengukuran tes dapat menjadi invariant terhadap kelompok
klasik, penggunaan pengukuran modern ditampilkan peserta tes dari tingkat kemampuan yang berbeda.
yakni untuk menganulir ketidakterpisahan antara Pada pengukuran modern, taraf sukar butir
kelompok peserta tes dengan kelompok butir tes. dikaitkan langsung dengan karakteristik butir. Taraf
Artinya, prinsip pengukuran modern adalah penetapan sukar butir pada pengukuran modern terletak pada
722
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
: P() = Pmin + 0,5 (Pmaks–Pmin)= Pmin + 0,5 (1– persamaan : P() = Pmin + (1 – Pmin)
Pmin). Pada pengukuran modern, taraf sukar butir Misalkan suatu butir memiliki parameter butir a1
langsung dikaitkan dengan karakteristik butir. = 1,27 dan b1 = – 0,39. Butir ini diberikan kepada
Kemampuan tinggi dan rendah memiliki taraf sukar responden dengan kemampuan agak rendah dan dari
butir yang sama. Kemampuan responden dan taraf mereka diperoleh lengkungan dengan a1 = 1,27 dan
sukar butir menjadi independen. Pengukuran modern b = – 0,39. Butir yang sama diberikan kepada
dapat digunakan untuk pencocokan kemampuan responden dengan kemampuan agak tinggi dan dari
responden dengan taraf sukar butir. mereka diperoleh lengkungan dengan a1 = 1,27 dan
Teori responsi butir perlu menentukan model b1 = – 0,39. Pada responden dengan kemampuan
karakteristik butir yang digunakan. Model karak- agak rendah. Melalui perhitungan pada data diperoleh
teristik butir dapat berbentuk satu parameter (1P), lengkungan dengan b1 = - 0,39. Terlihat bahwa dua
dua parameter (2P), tiga parameter (3P), atau model hasil ini adalah sama.
lain. Di sini pembahasan dibatasi pada satu sampai
tiga parameter serta pada sekor dikotomi, yaitu: 1P Asumsi Teori Reponsi Butir
: P() = f(b, ) 2P : P() = f(a, b, ) dan 3P : P() Dalam teori responsi butir taraf sukar butir dan daya
= (a, b, c, ). Satu, dua, dan tiga adalah banyaknya beda butir tes tetap sama, walaupun butir tes tersebut
diselesaikan oleh kelompok peserta tes yang berbeda.
parameter butir. Parameter adalah parameter
Untuk itu, teori responsi butir mengembangkan
kemampuan responden. Parameter b adalah
model yang menghubungkan parameter butir dengan
parameter taraf sukar butir. Pada 1P dan 2P, b =
kemampuan peserta tes. Menurut Hambleton (1991)
ketika P() = 0,5. Pada 3P, b = ketika P() = 0,5 asumsi untuk model teori responsi butir secara
(1 + c). Parameter a adalah parameter daya beda mendalam digunakan, sehingga hanya satu
butir. Parameter c adalah parameter terkaan betul kemampuan yang diukur dengan butir-butir tes
jawaban butir. tersebut. Hal ini dinamakan unidimensi. Suatu konsep
yang menghubungkan keunidimensian adalah apa
Tujuan Responsi Butir yang disebut dengan independensi lokal (local
Teori responsi butir membebaskan responden dan independence) yang akan didiskusikan berikutnya.
butir dari interdependensi, sehingga. taraf sukar Asumsi lain dalam model teori responsi butir
butir tidak lagi bergantung kepada kemampuan adalah fungsi karakteristik yang secara khusus
responden. Kemampuan responden tidak lagi melukiskan hubungan antara variabel kemampuan
bergantung kepada taraf sukar butir. Melalui yang tidak teramati dengan variabel kemampuan
independensi di antara taraf sukar butir dan yang teramati. Asumsi-asumsi tersebut juga
kemampuan responden, dapat dipilih butir yang menyangkut karakteristik butir tes yang relevan
cocok dengan responden. Dalam hal terjadi kecocok- terhadap kinerja peserta tes pada suatu butir tes
an di antara taraf sukar butir dan kemampuan tersebut. Perbedaan besar antara model-model Item
responden, maka: kalau taraf sukar butir diketahui, Response Theory dalam pemakaian bersama adalah
kemampuan responden dapat ditentukan. Kalau dalam jumlah dan tipe se rta karakterist ik-
kemampuan responden diketahui, taraf sukar butir karakteristik yang diasumsikan untuk kinerja
dapat ditentukan. peserta tes. Jadi dalam teori responsi butir
Proporsi jawaban benar di dalam sebuah dengan asumsi-asumsi tersebut, maka dalam setiap
kelompok peserta tes tidak secara nyata mengu- soal harus diwakili oleh satu Item Characteristic Curve
kur kesulitan tes tersebut. Proporsi tersebut tidak (ICC). Item Characteristic Curve adalah pernyataan
hanya menjelaskan butir tes tetapi juga kelompok Matematika yang berhubungan dengan probabilitas
peserta yang dites. Ini merupakan suatu tujuan dasar keberhasilan pese rta te s sesuai denga n
untuk kesepakatan analisis statistik butir tes, yang kemampuannya.
dikenal dengan istilah invariansi. Yang menjadi dasar
invariansi adalah taraf sukar butir tidak langsung Unidimensi
dikaitkan dengan kemampuan responden melainkan Asumsi unidimensi terpenuhi apabila butir-butir di
dikaitkan dengan lengkungan karakteristik butir pada dalam perangkat tes hanya mengukur satu kemam-
723
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
puan peserta tes. Misalnya butir-butir yang termuat oleh betul salahnya peserta tes yang lain dalam
di dalam perangkat tes bertujuan untuk mengukur menjawab butir tersebut. Sedangkan indepensi lokal
kemampuan peserta tes dalam mata pelajaran terhadap butir, memiliki arti bahwa betul salahnya
Matematika. Butir-butir yang dikonstruksi berupa soal seorang peserta tes menjawab sebuah butir tidak
cerita dan berbentuk dikotomi. Apabila peserta tes terpengaruh oleh betul salahnya peserta tes dalam
memberi respon yang salah maka tidak dapat menjawab butir yang lain.
diketahui apakah kesalahan itu disebabkan oleh Ada independensi lokal responden terhadap butir
ketimpangan peserta tes pada mata pelajaran dan ada independensi lokal butir terhadap responden.
Matematika atau bahasa. Dalam kenyataannya sulit Pada peserta tes di lokasi yang sama, probabilitas
mendapatkan suatu butir yang mengukur hanya satu menjawab betul P() untuk butir berbeda adalah
kemampuan peserta tes. independen satu terhadap lainnya. Misalkan
Menurut Dali S Naga (1992) bahwa persyarat- responden yang memiliki kemampuan yang sama
an unidimensi ditujukan untuk mempertahankan mengerjakan butir X1, X2, X3, …, XN, maka sesuai
invariansi pada teori responsi butir. Kalau butir tes dengan rumus independensi pada probabilitas, berlaku
sampai mengukur lebih dari satu dimensi, maka P(X1IX2IX3 ......IXN )
jawaban terhadap butir itu merupakan kombinasi dari
berbagai kemampuan peserta tes. Akibatnya, tidak P(X1 ) P(X2 ) P(X 3 ) ......P(XN ) atau
P(X )
lagi diketahui kontribusi dari setiap kemampuan i N
P(X1IX2IX3 ......IXN )
terhadap jawaban peserta tes tersebut. Dengan i
i 1
mengganti butir tes atau kelompok peserta tes, tidak
QP(Xi ) 1 P(Xi )
dapat lagi dipertahankan invariansi pada ukuran ciri
butir tes dan pada ukuran ciri peserta tes, sehingga
ketidakmampuan mempertahankan syarat invariansi Independensi lokal butir terhadap responden.
ini akan bertentangan dengan tujuan teori responsi Pada butir di lokal yang sama, probabilitas men-jawab
butir tersebut. betul P( ) untuk responden berbeda adalah
Dengan terpenuhinya persyaratan unidimensi independen satu terhadap lainnya. Independensi lokal
tersebut maka diperlukan cara untuk menentukan dapat diuji dengan dua cara, yaitu: secara eksak
apakah suatu butir tes merupakan unidimensi atau melalui rumus probabilitas, dan secara statistika
tidak. Untuk hal ini, maka digunakan metode analisis melalui uji ketergantungan khi-kuadrat.
faktor. Dalam hal ini penggunaan analisis faktor
bertujuan untuk memperlihatkan pada kelompok Pengujian Melalui Rumus Probabilitas
faktor mana butir itu berada. Setiap faktor hanya Independensi lokal tercapai apabila data memenuhi
menunjukkan suatu dimensi indikator tes. Dengan rumus independensi pada probabilitas. Berikut contoh
demikian, setiap dimensi indikator tes terhimpun pengujian melalui rumus probabilitas: Responden
dalam satu faktor yang melibatkan beberapa butir mengerjakan butir ke-1 dan ke-2 dengan probabilitas
tes yang diperlukan, Faktor-faktor tersebut mungkin jawaban
meliputi motivasi, kecemasan, kemampuan bekerja
cepat, kecenderungan menebak bila dalam keadaan Butir ke-2
ragu-ragu menjawab, dan keterampilan kognitif di 1 0
dalam menjumlahkan, serta faktor dominan lain yang Butir 1 0,086 0,420 0,506
diukur dengan sehimpunan butir tes (Asmin, 2004). ke-1 0 0,083 0,411 0,494
0,169 0,831 1
Independensi Lokal
Asumsi independensi lokal dibagi menjadi dua yaitu Apakah terdapat independensi lokal? Berdasar-
independensi lokal terhadap respons peserta tes dan kan data di atas maka perhitungan probabilitasnya
independensi lokal terhadap butir tes (James J. Allen adalah sebagai berikut:
& Yen, 1989). Independensi lokal terhadap respons
peserta tes, memiliki arti bahwa betul salahnya P(11)=0,086 P1(1)P2(1) = (0,506)(0,169) = 0,086
peserta tes menjawab sebuah butir tidak terpengaruh P(10)=0,420 P1(1)P2(0) = (0,506)(0,831) = 0,420
724
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
725
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
726
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
Semakin besar indeks tingkat kesukaran yang mempengaruhi karakteristik distribusi sekor
diperoleh dari hasil perhitungan, berarti semakin (mempengaruhi bentuk dan penyebaran sekor tes
mudah soal itu. Probabilitas jawaban betul pada butir atau jumlah soal dan korelasi antar soal); dan 2)
ke-i berhubungan dengan letak terhadap bi atau berhubungan dengan reliabilitas, semakin tinggi
terhadap ( – bi) atau Pi () = f ( – b). Ini dikenal korelasi antar soal semakin tinggi reliabilitas (Dali S.
sebagai kararteristik butir satu parameter Pi () = f Naga, 1998). Demikian pula semakin tinggi nilai
(, bi). Nilai taraf sukar butir ke-i ditentukan oleh – reliabilitas butir tes, semakin tinggi pula validitas butir
bi = 0 atau bi = pada saat Pi () = 0,5. soal tersebut.
Suatu butir dikatakan mudah atau sukar
bergantung dari kemampuan peserta tes. Apabila Daya Beda Butir
kemampuan peserta tes lebih dari taraf sukar butir Ada butir yang memiliki ciri: dapat dijawab dengan
maka dapat dikatakan butir itu mudah dan sebaliknya betul oleh kebanyakan responden yang berke-
apabila kemampuan peserta tes kurang dari taraf mampuan tinggi, tidak dapat dijawab dengan betul
sukar butir maka dapat dikatakan bahwa butir itu oleh kebanyakan responden yang berkemampuan
sukar. Tingkat kes ukaran butir s oal dapat rendah. Butir demikian memiliki daya untuk
mempengaruhi bentuk distribusi total sekor tes. membedakan responden berdasarkan kemampuan
Untuk tes yang sangat sukar (TK<0,25) distribusinya mereka. Butir memiliki parameter berupa daya beda
berbentuk positif skewed, sedangkan tes yang butir. Daya beda butir adalah kemampuan suatu butir
mudah (TK>0,8) distribusinya berbentuk negatif soal dapat membedakan antara peserta didik atau
skewed. warga belajar yang telah menguasai materi yang
Taraf sukar butir mempunyai dua kegunaan, ditanyakan dan warga belajar atau peserta didik yang
yaitu kegunaan bagi guru dan kegunaan bagi belum menguasai materi yang ditanyakan.
pengujian dan pengajaran (Nitko, 1996). Kegunaan Dengan kata lain daya beda butir adalah kemam-
bagi guru adalah: 1) sebagai pengenalan konsep puan suatu butir soal yang dapat membedakan antara
terhadap pembelajaran ulang dan memberi masukan siswa yang telah menguasai materi yang ditanyakan
kepada siswa tentang hasil belajar mereka; dan 2) dan siswa yang belum menguasai materi yang
memperoleh informasi tentang penekanan kurikulum ditanyakan. Jika tes atau soal mengukur hal yang
atau mencurigai terhadap butir soal yang bias. Adapun sama, dapat diharapkan bahwa setiap peserta tes
kegunaannya bagi pengujian dan pengajaran adalah: mampu menjawab soal dengan benar dan yang tidak
1) pengenalan konsep yang diperlukan untuk mampu akan menjawab salah. Tingkat kesukaran
diajarkan ulang; 2) tanda-tanda terhadap kelebihan berpengaruh langsung pada daya pembeda soal. Jika
dan kelemahan pada kurikulum sekolah; 3) memberi setiap orang menjawab benar (p=1), atau jika setiap
masukan kepada siswa; 4) tanda-tanda kemungkin- orang menjawab salah (p=0), maka soal tidak dapat
an adanya butir soal yang bias; dan 5) merakit tes digunakan untuk membedakan kemampuan peserta
yang memiliki ketepatan data soal. tes (Surapranata, 2004). Manfaat daya beda butir
Tingkat kesukaran butir soal juga dapat adalah: 1) untuk meningkatkan mutu setiap soal
digunakan untuk memprediksi kemampuan peserta melalui data empiriknya. Berdasarkan indeks daya
didik oleh pendidik. Misalnya satu butir soal termasuk beda butir, setiap butir soal dapat diketahui apakah
kategori mudah, maka prediksi terhadap informasi butir soal itu baik, direvisi, atau tidak; dan 2) untuk
ini adalah: 1) pengecoh butir soal itu tidak berfungsi; mengetahui seberapa jauh setiap butir soal dapat
dan 2) sebagian besar peserta didik menjawab benar mendeteksi atau membedakan kemampuan siswa,
butir soal itu; artinya bahwa sebagian besar peserta yaitu siswa yang telah memahami atau belum
didik telah memahami materi yang ditanyakan. memahami materi yang diajarkan guru.
Analisis secara klasik ini memiliki keterbatasan, yaitu Apabila suatu butir soal tidak dapat membedakan
tingkat kesukaran sangat sulit untuk mengestimasi kedua kemampuan siswa itu, maka butir soal itu
secara tepat karena estimasi tingkat kesukaran dapat dicurigai kemungkinannya seperti berikut: 1)
dibiaskan oleh sampel. Di samping kedua kegunaan kunci jawaban butir soal itu tidak tepat; 2) butir soal
tersebut, dalam konstruksi tes, taraf sukar butir itu memiliki dua atau lebih kunci jawaban yang benar;
sangat penting karena taraf sukar butir dapat: 1) 3) kompetensi yang diukur tidak jelas; 4) pengecoh
727
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
tidak berfungsi; 5) materi yang ditanyakan terlalu bawah (Surapranata 2004). Adapun kelebihan
sulit, sehingga banyak siswa yang menebak; dan 5) korelasi biserial (Millman & Greene, 1993) adalah:
sebagian besar siswa yang memahami materi yang 1) cenderung lebih stabil dari sampel ke sampel; 2)
ditanyakan berpikir ada yang salah informasi dalam penilaian lebih akurat tentang bagaimana butir tes
butir soalnya. dapat diharapkan untuk membedakan pada beberapa
Indeks daya beda butir juga dinyatakan dalam perbedaan point di skala abilitas; dan 3) value
bentuk proporsi. Semakin tinggi indeks daya beda koefisien korelasi biserial yang sederhana lebih
butir berarti semakin mampu butir yang bersang- langsung berhubungan dengan indikator diskriminasi
kutan membedakan siswa yang telah memahami Item Characteristic Curve (ICC).
materi dengan siswa yang belum memahami materi.
Indeks daya beda berkisar antara -1,00 sampai Tingkat Kebetulan Betul pada Butir
dengan +1,00. Semakin tinggi daya beda butir tes, Ada kalanya butir itu berbentuk pilihan ganda
maka semakin baik butir tes tersebut. Jika daya beda sehingga responden yang tidak memiliki kemampu-
butir negatif berati lebih banyak kelompok bawah an pun masih mungkin menjawab benar melalui
(peserta didik yang tidak memahami materi) terkaan. Dalam bentuk probabilitas, katakan saja
menjawab benar butir tes dibanding dengan bahwa tingkat kebetulan pada jawaban benar adalah
kelompok atas (peserta didik yang memahami materi c, maka untuk butir ini, probabilitas jawaban benar
yang diajarkan guru di kelas). karena kebetulan adalah P() c . Kalau jumlah pilihan
Untuk menggambarkan tentang daya beda butir ganda itu adalah empat (misalkan A, B, C, D), maka
maka dibuat grafik yang menunjukkan kemiringan melalui terkaan saja terdapat 1 di antara 4 kemung-
kurva. Kecuraman pada lengkungan merupakan kinan bahwa jawaban itu benar.
koefisien arah a pada fungsi a(-b). Makin curam Dalam hal ini probabilitas jawaban benar karena
makin besar koefisien arah a. Pada butir ke-i, daya kebetulan adalah ¼ atau 0,25 sehingga c = 0,25
beda butir dinyatakan sebagai koefisien arah yang (Dali S. Naga, 1998). Pada butir pilihan ganda dapat
menunjukkan kecuraman pada lengkungan yakni ai saja terjadi bahwa jawaban betul dicapai melalui
sehingga Pi () = f (ai (-bi)). Selain itu indeks daya terkaan. Jawaban betul ini adalah kebetulan betul.
beda juga bisa dihitung dengan korelasi point biserial Tingkat kebetulan menjawab betul pada butir ke-i
maupun korelasi biserial. Kelebihan korelasi point dinyatakan dengan parameter butir ci dan merupakan
biserial: 1) memberikan refleksi kontribusi soal secara probabilitas jawaban betul minimum. Secara
sesungguhnya terhadap fungsi tes. Maksudnya keseluruhan kita mengenal tiga karakteristik butir,
adalah mengukur ba gaimana baiknya but ir yaitu a, b, dan c. Di samping itu, responden memiliki
berkorelasi dengan kriterion; 2) sederhana dan satu karakteristik yakni kemampuan responden.
langsung berhubungan dengan statistik tes; dan Karakteristik ini juga dikenal sebagai satu parameter
3) tidak pernah mempunyai value 1,00 karena pada karakteristik responden.
hanya variabel-variabel dengan distribusi bentuk Pi() min = ci. Di sini, taraf sukar butir bi tidak
yang sama yang dapat berkorelasi secara tepat, diperoleh melalui probabilitas jawaban betul Pi() =
variabel kriterion dan skor dikotomi tidak mempunyai 0,5 melainkan pada : Pi() = ci + 0,5 (1- ci) = 0,5
bentuk yang sama. Indeks daya pembeda dihitung (1 + ci). Bentangan Pi () tidak lagi dari 0 sampai
atas dasar pembagian kelompok menjadi dua bagian, 1,0 melainkan dari ci sampai 1,0 yakni selebar (1-
yaitu kelompok atas yang merupakan kelompok ci) sehingga: f (ai (- bi)) menjadi (1 ci) f (ai(-
peserta tes yang berkemampuan tinggi dengan bi)) dan probabilitas jawaban betul menjadi: Pi ()
kelompok bawah yaitu kelompok peserta tes yang = ci + (1 - ci) f (ai ( - bi)). Di sini terdapat tiga
berkemampuan rendah. Kemampuan tinggi ditunjuk- parameter butir ai, bi, dan ci sehingga dikenal
kan dengan perolehan skor yang tinggi dan sebagai karakteristik butir tiga parameter dengan
kemampuan rendah ditunjukkan dengan perolehan persamaan: Pi () = f (, ai, bi, ci).
skor yang rendah (Messick, 1989).
Indeks daya pembeda didefinisikan sebagai Penyusunan Tes Hasil Belajar Akhir Ujian
selisih antara proporsi jawaban benar pada kelompok Nasional
atas dengan proporsi jawaban benar pada kelompok Penyusunan Tes Hasil Belajar Akhir baik secara
728
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
lokal maupun Nasional perlu dilakukan secara sumber materi belajar lainnya; 4) membuat kisi-kisi;
terencana dan teratur. Ujian Akhir Nasional 5) penulisan tujuan instruksional khusus; 6) penulisan
dilakukan dengan skala yang lebih besar yang soal; 7) telaah soal (face validity); 8) reproduksi
dilaksanakan setiap tahun, di mana soal-soal yang tes terbatas; 9) uji coba tes; 10) analisis hasil uji
diberikan telah tersimpan dalam Bank Soal coba; 11) revisi soal, dan l2) merakit soal menjadi
sehingga memudahkan untuk diakses dalam tes.
memenuhi kebutuhan tes Ujian Akhir Nasional yang Langkah awal dalam mengembangkan tes adalah
setiap saat dapat diambil bila diperlukan. menetapkan spesifikasi tes, yaitu berisi uraian yang
Menurut Kumaidi (2000) untuk mengem- menunjukkan keseluruhan karakteristik yang harus
bangkan suatu tes dan sejumlah butir soal yang dimiliki suatu tes. Spesifikasi yang jelas akan
defensible maka prosedur pengembangan perlu mempermudah dalam menulis soal, dan siapa saja
ditradisikan, dalam arti proses pengembangan tes yang menulis soal akan menghasilkan tingkat
(d an penulisan butir s oal) d imul ai dengan kesulitan yang relatif sama. Penyusunan spesifikasi
pengembangan rancangan atau kisi-kisi tes, yang tes mencakup kegiatan berikut ini: 1) menentukan
didahului oleh pembedahan kurikulum yang tujuan tes; 2) menyusun kisi-kisi tes; 3) memilih
memuat segala informasi tentang tes tersebut. bentuk tes; dan 4) menentukan panjang tes (Setiadi,
Rancangan tes ini memuat tujuan penilaian yang akan 2009).
dilakukan, tempo (waktu yang ditempuh) untuk Selanjutnya, menurut Setiadi (1998) menyata-
pelaksanaan pengujian, pesan utama kurikulum kan bahwa setiap tahun soal-soal yang digunakan
(sasaran pembelajaran dan garis besar topik materi harus dibuat oleh suatu panitia khusus yang dibentuk
uji), indikator butir soal (ciri-ciri penguasaan materi untuk keperluan ujian nasional, sehingga setiap tahun
uji dan pencapaian sasaran pembelajaran), serta harus dikeluarkan dana yang besar untuk keperluan
jumlah dan bentuk butir soal (per-indikator, per topik, revisi soal-soal tersebut. Untuk keperluan keamanan
dan keseluruhan tes). Sebaran butir soal dalam tes juga diperlukan beberapa alternatif paket tes (paralel
seharusnya memperhatikan keseimbangan tuntutan form), di mana soal-soal pada suatu paket dengan
penguasaan sesuai dengan pesan kurikulum, sehingga paket yang lain dianggap sama tingkat kesukaran
memberi nuansa keterwakilan topik bahasan. soalnya hanya karena dianggap dibuat berdasarkan
Menurut Jihad (2010), ada sembilan langkah pada kisi-kisi yang sama tanpa didasarkan pada data
yang harus ditempuh dalam mengembangkan tes empirik hasil uji coba soal di lapangan.
hasil atau prestasi belajar, yaitu: 1) menyusun Pengembangan rancangan tes ini melibatkan
spesifikasi tes; 2) menulis soal tes; 3) menelaah soal spesialis (termasuk guru) bidang studi, sehingga bila
tes; 4) melakukan uji coba tes; 5) menganalisis butir rancangan tes telah selesai disusun maka rancangan
soal; 6) memperbaiki tes; 7) merakit tes; 8) tes tersebut harus divalidasi, melalui penelaahan pakar
melaksanakan tes; dan 9) menafsirkan hasil tes. dan teman sejawat, sehingga benar-benar sesuai
Khusus mengenai uji coba tes, dalam penyusunan dengan pesan kurikulum. Untuk mengatasi variasi
tes untuk mengukur prestasi hasil pembelajaran yang butir soal yang berlebihan, dengan pemahaman
diselenggarakan oleh guru di kelas seperti ulangan indikator butir soal, ada baiknya dikembangkan apa
harian, ulangan umum, dan ulangan kenaikan kelas, yang disebut oleh Nitko (1992) sebagai spesifikasi
tidak harus dilakukan secara tersendiri. Pembakuan butir soal (item specification). Spesifikasi ini
tes dilakukan melalui beberapa kali ujicoba. menyangkut uraian tentang batasan dan rambu-
Sedangkan Djaali (2004) menjelaskan bahwa, rambu yang harus dipatuhi oleh penulis butir soal.
penyusunan dan pengembangan tes dimak-sudkan Gronlund (1985) menyarankan beberapa hal
untuk memperoleh tes yang valid, sehingga hasil dalam pengkonstruksian tes, diantaranya: 1) stem
ukurnya dapat mencerminkan secara tepat hasil item tersebut sebaiknya memaknai butir itu sendiri
belajar yang dicapai oleh masing-masing individu dan menampilkan masalah tertentu; 2) stem butir
peserta tes setelah selesai mengikuti pembelajaran. tes melibatkan banyak kemungkinan jawaban dan
Adapun langkah-langlah kontruksi tes yang ditempuh bebas dari materi yang tidak relevan; 3) gunakan
adalah sebagai berikut: 1) menetapkan tujuan tes; pernyataan stem butir yang bersifat negatif hanya
2) analisis kurikulum; 3) analisis buku pelajaran dan ketika hasil belajar yang dikehendaki cukup berarti
729
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
730
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah
tingkat kesukaran suatu tes dengan kemampuan tes dengan menggunakan Computer Adaptive Test
siswa yang menjawab adalah sesuatu yang tidak (CAT). Dengan menggunakan CAT permasalahan-
dapat diabaikan. Harus diingat bahwa nilai a (daya permasalahan yang dihadapi dalam pelaksanaan tes
pembeda soal) yang tinggi, dan nilai c (tebakan secara kelompok klasikal seperti yang dilaksanakan
jawaban) yang rendah, tanpa dibarengi nilai b (tingkat dalam Ujian Nasional sekarang ini dapat dihindari.
kesukaran soal) yang mendekati kemampuan () Soal-soal Ujian Nasional harus dikembangkan
akan memberikan nilai fungsi informasi butir tes yang berdasarkan bank soal yang sudah dikalibrasi dengan
rendah. ko ns ep teo ri re sponsi but ir. Pada akhirnya
Pemanfaatan program komputer dalam meng- keberhasilan siswa tidak hanya ditentukan oleh
analisis hasil tes sudah saatnya digunakan terutama faktor hasil ujian hasil belajar saja, akan tetapi
untuk mengatasi berbagai kesalahan yang mungkin faktor-faktor lain, seperti kerajinan, kehadiran, hasil
dilakukan secara manual, sehingga akurasi hasil ujian bulanan, pengerjaan pekerjaan rumah, dan
analisis dapat dipertanggung jawabkan. Untuk masa faktor-faktor lain seharusnya menjadi pertimbangan
yang akan datang disarankan Ujian Nasional sudah lain dalam menentukan kelulusan peserta didik.
dapat melaksanakan ujian dengan sistem individual
Pustaka Acuan
Asmin. 2004. Implementasi Teori Responsi Butir dan Fungsi Informasi Butir Tes dalam Pengujian Hasil
Belajar Akhir di Sekolah. Jurnal Pendidikan dan Kebudayaan, X (48): 234-245.
Azwar, Saifuddin. 2001. Tes Prestasi. Fungsi Pengembangan Pengukuran Prestasi Belajar. Yogyakarta:
Pustaka Pelajar Offset.
Aiken, Lewis R. 1988. Psychological Testing and Assessment. Boston: Allyn and Bacon, Inc.
Crocker, Linda, & Algina, James. 1986. Introduction to classical and modern test theory. New York: Holt,
Rinehart and Winston, Inc.
Cronbach, Lee J. 1990. Essentials of Psychological Testing. New York: Harper Collins Publishers.
Dali S. Naga. 1998. Karakteristik Butir pada Alat Ukur Model Dikotomi, Arkhe: Jurnal Ilmiah Psikologi, III
(4): 34-42.
Dali, S. Naga. 1992. Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta: Besbats.
Djaali. 2004. Pengukuran Dalam Bidang Pendidikan. Jakarta: Program Pascasarjana Universitas Negeri
Jakarta.
Gronlund, Norman. E. 1985. Measurement and Evaluation in Teaching. New York: Macmillan Publishing
Company.
Hambleton, Ronald K; Swaminathan, H; dan Jane Rogers, H. 1991. Fundamentals of Item Response
Theory. London: SagePublications.
Jihad, Asep, Abdul Haris. 2011. Evaluasi Pembelajaran. Multi Pressindo: Yogyakarta.
Kumaidi. 2000. Standardisasi Butir Soal. Jurnal Pendidikan dan Kebudayaan. V (5): 132-143.
Lord, Frederick, M.1990. Aplications of Item Response Theory to Practical Testing Problems. New Jersey:
LawrenceErlbaum Associates, Publishers.
Mary J.Allen and Wendy M Yen, 1989, Introduction to Measurement Theory, California: Broke.
Nitko, Anthony. J. 1992. Criterion Reference Testing Workshop: Handouts and Reading Material Tidak
dipublikasikan). Cipayung, Bogor: Examination Development Unit (Puslitbang Sisjian).
Nitko, Anthony J. 1996. Educational Assessment of Student, Second Edition. Ohio: Merrill an Imprint of
Prentice Hall Englewood Cliff.
Messick, S. 1989. Educational Measurement, 3rd edition, New York: Macmillan.
Millman, Jason and Greene, Jennifer. 1993. The Spesification and Development of Tests of Achievement and
Ability in Robert L. Lin (Editor), Educational Measurement, Third Edition. Phoenix: American Council
on Education, series on Higher Education Oryx Press.
Peraturan Pemerintah Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan
731
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011
Setiadi, Hari. 1998. Bank Soal yang Dikalibrasi dengan Konsep IRT Memecahkan Permasalahan Ujian-ujian
Sistematik yang Diadakan pada Periode-periode Tertentu, Jurnal Kajian Dikbud IV (13).
Setiadi, Hari. 2009. Permasalahan dan Solusinya dalam Pelaksanaan Ujian Nasional di Masa Mendatang,
Matahari: Jurnal Penelitian dan Pendidikan.X (1): 66-74.
Surapranata, Sumarna. 2004. Analisis, Validitas, Reliabilitas Dan Interpretasi Hasil Tes, Rosdakarya:
Bandung.
Wibowo, Mungin Eddy. 2011. Kondisi Psikologis Siswa dalam Menghadapi Ujian Nasional, Buletin
BNSP: Media Komunikasi dan Dialog Standar Pendidikan. VI (1): 7-11.
732