Anda di halaman 1dari 14

Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

Implementasi Teori Responsi Butir (Item Response Theory)


pada Penilaian Hasil Belajar Akhir di Sekolah
Sudaryono
sudaryono2@yahoo.com

ABSTRAK: Pengukuran pendidikan meliputi pengukuran hasil belajar dari berbagai bidang, tergantung
objek hasil belajar apa yang ingin diukur. Oleh karena itu, yang menjadi permasalahan dalam artikel ini: 1)
apakah teori responsi butir atau teori tes modern bisa menutupi kelemahan-kelemahan yang ada pada
teori tes klasik; 2) bagaimana implementasi teori responsi butir dalam mengatasi permasalahan-permasalahan
ujian nasional sehingga tidak ada kelompok yang diuntungkan dan kelompok yang dirugikan akibat
pengukuran yang tidak adil? Tujuan dari penulisan artikel ini adalah menjelaskan implementasi teori responsi
butir dalam menutupi kelemahan yang ada pada teori tes klasik dan mengatasi permasalahan ujian nasional,
sehingga tidak ada kelompok yang dirugikan maupun diuntungkan akibat pengukuran yang tidak adil.
Teori responsi butir merupakan alternatif pilihan yang bertujuan melepaskan diri dari ketergantungan tes
yang diberikan dengan sampel peserta tes. Dalam hal ini walaupun soal-soal tersebut dikerjakan oleh
siswa yang pandai atau siswa yang kurang pandai, indikasi tingkat kesukaran suatu soal tetap tidak
berubah. Ada tiga asumsi yang harus dipenuhi dalam teori response butir, yaitu: 1) unidimensi; 2)
independensi lokal; dan 3) invariansi sedangkan karakteristik butir ada tiga, yaitu: 1) taraf sukar butir; 2)
daya beda butir; dan 3) tingkat kebetulan betul pada butir. Untuk mengukur kemampuan peserta tes yang
sangat beragam di Indonesia, seperti Ujian Nasional, seharusnya digunakan juga ujian atau tes yang
berbeda tingkat kesukaran soalnya, supaya adil dan juga akurat hasilnya. Peserta tes atau ujian yang
mengerjakan tes atau ujian yang berbeda tingkat kesukaran soalnya, tetap bisa dibandingkan
kemampuannya, asalkan soal-soal dalam ujian tersebut berasal atau diambil dari bank soal yang sudah
dikalibrasi dengan konsep item response theory.

Kata Kunci: teori responsi butir, unidimensi, bank soal, independensi lokal, invariansi, taraf sukar butir,
tingkat kesukaran soal.

ABSTRACT: Educational measurement, consisted measurement of learning outcomes from a variety of


fields, depending on the object of learning what to measure. Therefore, the problem raised in this paper
are: 1) whether the item response theory or theories of modern tests can cover weaknesses that exist in
classical test theory, 2) how the item response theory implementations in addressing issues of national
exams so that no advantaged groups and disadvantaged groups as a result of measurement that is not
fair? The purpose of writing this article is to explain the implementation of item response theory in a cover
up weaknesses in classical test theory and address the issues of national examinations, so that no group
is disadvantaged or advantaged as a result of measurement that is not fair. Item response theory is an
alternative option that aims to break away from dependence on a given test with a sample of test
participants. In this case, although the questions are done by a brilliant student or students who are less
intelligent, an indication of the level of difficulty of a problem remains unchanged. There are three assumptions
that must be met in item response theory, namely: 1) unidimention; 2) local independence, and 3)
invariance. While there are three characteristic points, namely: 1) the item difficulty, 2) the different
grains, and 3) the level of true coincidence in point. To measure the ability of the test participants are very
diverse in the premises, such as the National Examination, should be used is also an examination or test
different levels of difficulty because, to be fair and accurate results. Participants test or exam is working on
a test or exam because of different levels of difficulty, it can be compared to his ability, provided the
questions in the exam are derived or extracted from a question bank that has been calibrated with the
concept of item response theory.

Keywords: item response theory, unidimention, local independence, invariance, item difficulty, item
bank, the dificulty level of items.

719
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

Pendahuluan 103) mendefinisikan validitas sebagai berikut Validity


Ujian Nasional merupakan salah satu penilaian of a test has been defined as the extent to wich the
eksternal yang digunakan pemerintah untuk test measures what it was designed to measures.
mengumpulkan data pencapaian prestasi belajar Dalam penyusunan tes yang dirancang sebagai tes
peserta didik, sejauh mana prestasi belajar standar untuk mengungkapkan kemampuan peserta
peserta didik mencapai Standar Kompetensi tes, maka analisis validitas dan reliabilitas butir sangat
Lulusan (SKL). Di sekolah peserta didik seharusnya penting dilakukan. Bagi yang memerlukan informasi
sudah terbiasa dengan penilaian hasil belajar yang mengenai validitas dan reliabilitas item dalam
dilakukan ol eh guru sekolah. Sebagaimana mengestimasi validitas dan reliabilitas perangkat item
diamanatkan oleh Peraturan Pemerintah Nomor 19 yang bakal terpilih sebagai tes, dapat menggunakan
Tahun 2005 tentang Standar Nasional Pendidikan fungsi indeks reliabilitas dan indeks validitas item yang
Pasal 63 ayat (1): Penilaian pendidikan pada jenjang bertujuan untuk meningkatkan reliabilitas dan
pendidikan dasar dan menengah terdiri atas: 1) validitas tes secara keseluruhan (Azwar, 2001).
penilaian hasil belajar oleh pendidik; 2) penilaian hasil Dalam kaitan ini, tinjauan diarahkan pada pengkajian
belajar oleh satuan pendidikan; dan 3) penilaian hasil penerapan tes modern yakni teori responsi butir
belajar oleh pemerintah (Wibowo, 2011). (item response theory) dalam penilaian hasil belajar
Penilaian hasil belajar oleh pendidik dilakukan peserta didik dengan segala atribut dan persyaratan-
secara berkesinambungan untuk memantau proses, persyaratan yang dimilikinya.
kemajuan, dan perbaikan hasil dalam bentuk ulangan Pada prinsipnya, pengukuran bertujuan untuk
harian, ujian tengah semester, ujian akhir semester, mengetahui karakteristik suatu objek yang akan
dan ujian kenaikan kelas. Penilaian hasil belajar oleh diukur. Khususnya, pengukuran pendidikan meliputi
pendidik digunakan untuk menilai pencapaian pengukuran hasil belajar mencakup bermacam
kompetensi peserta didik; bahan penyusunan laporan bidang, tergantung objek hasil belajar apa yang ingin
hasil belajar; dan memperbaiki proses pembelajaran. diukur. Permasalahan dalam tulisan ini adalah: 1)
Penilaian hasil belajar oleh satuan pendidikan apakah teori responsi butir atau teori tes modern
bertujuan menilai pencapaian standar kompetensi bisa menutupi kelemahan-kelemahan yang ada pada
lulusan untuk semua mata pelajaran. Penilaian hasil teori tes klasik; 2) bagaimana implementasi teori
belajar oleh pemerintah dalam bentuk ujian nasional responsi butir dalam mengatasi permasalahan-
bertujuan untuk menilai pencapaian kompetensi permasalahan ujian nasional sehingga tidak ada
lulusan secara nasional pada mata pelajaran tertentu kelompok yang diuntungkan dan kelompok yang
dalam kelompok mata pelajaran ilmu pengetahuan dirugikan akibat pengukuran yang tidak adil?
dan teknologi. Ujian nasional dilakukan secara Sedangkan yang menjadi tujuan penulisan artikel ini
objektif, berkeadilan, dan akuntabel. adalah: 1) untuk memberikan kajian secara singkat
Hasil ujian nasional digunakan sebagai salah satu implementasi item responsi teori dalam pengembang-
pertimbangan untuk: 1) pemetaan mutu program an butir soal ujian nasional sehingga dapat berlaku
dan/atau satuan pendidikan; 2) dasar seleksi masuk adil untuk semua peserta didik; 2) memberikan
jenjang pendidikan berikutnya; 3) penentuan masukan bagi sekolah dalam membuat butir soal
kelulusan peserta didik dari program dan/atau satuan yang sesuai dengan kaidah-kaidah pengukuran
pendidikan; dan 4) pembinaan dan pemberian modern dengan menggunakan teori responsi butir.
bantuan kepada satuan pendidikan dalam upayanya
untuk meningkatkan mutu pendidikan. Kajian Literatur dan Pembahasan
Dalam kaitan ini, persoalan yang akan disoroti Penskoran Klasik dan Modern
dan dikaji adalah dari aspek penggunaan tes yang Berdasarkan taksonomi psikologi belajar, maka
dirancang sedemikian rupa sehingga menimbulkan karakteristik objek berkaitan dengan aspek kognitif,
pertanyaan, sejauh mana tes tersebut telah sesuai afektif dan psikomotorik. Secara khusus, pengukuran
dengan kemampuan siswa yang menjawabnya? Hal aspek kognitif diukur melalui uji tes, sedangkan
ini berhubungan dengan tingkat kevalidan atau pengukuran aspek afektif diukur dengan kuesioner,
kesahihan tes yakni sejauh mana tes tersebut benar- angket, wawancara, atau melalui pengamatan,
benar mengukur aspek yang diukur. Aiken (1988: sementara aspek psikomotorik diukur dengan

720
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

pengamatan langsung melalui praktik terhadap soal-soal itu sepertinya mudah atau tingkat
sesuatu keterampilan (skill) khusus dari peserta didik. kesukaran soalnya menjadi besar, dan sebaliknya
Objek yang diukur dalam pendidikan antara lain: kalau dikerjakan oleh siswa yang kurang pandai maka
siswa, mahasiswa, guru/dosen. Untuk mendapatkan soal itu sepertinya sukar atau tingkat kesukaran soal
informasi yang akurat tentang karakteristik dan menjadi kecil. Jadi, soal-soal itu tidak konsisten atau
objek yang diteliti, maka perlu alat ukur yang baik berubah-ubah tergantung pada kemampuan
(sahih) yakni alat ukur yang mempersyaratkan kelompok sampel siswa yang menempuh ujian.
beberapa hal, sehingga alat ukur tersebut menghasil- Sejalan dengan itu, jika kelompok peserta tes
kan informasi yang mengandung ketetapan yang yang sama menjawab kelompok butir tes yang
tinggi, dan kesalahan kecil, sehingga hasilnya dapat berbeda maka ciri kelompok peserta akan berubah.
diandalkan (Asmin, 2004). Persyaratan alat ukur Dalam hal ini kemampuan atau sikap para peserta
pendidikan, menurut Cronbach (1990) meliputi berubah semata-mata karena peserta tes yang
kesahihan (validitas) yang diperoleh melalui korelasi menjawab butir tes yang berbeda, sehingga
sebuah tes dengan suatu kriteria tes yang ditentukan, kelompok peserta yang sama dan kelompok butir
dan keterandalan (reliabilitas) alat ukur yakni suatu tes yang berbeda akan menunjukkan ciri peserta
proses yang dilakukan oleh pengguna tes dalam yang berbeda.
mengumpulkan bukti untuk mendukung inferensi yang Pada penskoran klasik ada keterkaitan antara
dibuat berdasarkan skor tes. kedua kelompok butir tes dan kelompok peserta tes,
Menurut teori tes klasik kesahihan meliputi yang memungkinkan munculnya beberapa hal: 1)
kesahihan isi, konstrak, dan kriteria (Crokcer & Algina, kelompok peserta uji tes yang cirinya diskor perlu
1986). Validitas dapat berarti sejauh mana ketepatan mengikuti tes yang sama pada saat yang bersamaan,
dan kecermatan suatu alat ukur dalam melakukan sehingga perlu dihindari kebocoran butir tes sebelum
fungsi ukurnya. Menurut Djaali (2000) bahwa validitas tes dilaksanakan; 2) keterkaitan antara kelompok
tes tinggi apabila tes tersebut menjalankan fungsi butir dan kelompok peserta tes mengakibatkan
ukur secara tepat, atau memberikan hasil ukur yang tafsiran skor diarahkan pada kelompok peserta tes
sesuai dengan maksud dilakukannya pengukuran yang menjawab tes tersebut. Biasanya tafsiran
tersebut. Selanjutnya, reliabilitas artinya sejauh mana tersebut mengacu ke acuan norma; dan 3) tes yang
hasil pengukuran dapat dipercaya. Suatu hasil terlalu mudah atau terlalu sukar tidak akan
pengukuran hanya dapat dipercaya apabila dalam mencerminkan kemampuan peserta tersebut dengan
beberapa kali pelaksanaan pengetesan terhadap akurat, sehingga kedua bentuk tes tersebut
kelompok subyek yang sama diperoleh hasil yang dipertimbangkan untuk diganti.
relatif sama. Responden memiliki kemampuan  yang
Pada pengukuran klasik ciri yang unik diper- biasanya berbeda di antara responden. Butir memiliki
lihatkan dari kenyataan bahwa kelompok butir tes taraf sukar butir b yang biasanya berbeda di antara
atau kelompok angket (kuesioner) tidak dapat butir. Pada pengukuran terjadi pertemuan di antara
dipisahkan dari kelompok peserta tes atau kelompok kemampuan responden dengan tara sukar butir.
yang mengisi angket. Artinya, kelompok butir tes/ Jawaban atau tanggapan responden terhadap butir
angket (kuesioner) yang sama harus dijawab oleh membuahkan hasil ukur. Dalam hal tertentu, hasil
kelompok peserta tes yang sama. Jika kelompok ukur menunjukkan salah atau betul. Pada skala
tes yang sama dijawab kelompok peserta uji tes dikotomi, jawaban salah sering diberi skor 0 dan
yang berbeda maka ciri karakteristik kelompok butir jawaban betul diberi skor 1. Hasil ukur dapat juga
itu akan berubah, sehingga taraf kesukaran dan daya dinyatakan dalam bentuk probabilitas jawaban betul
pembeda kelompok butir tes itu akan berubah (nilai dari 0 sampai 1). Probabilitas jawaban betul
semata-mata karena kelompok butir tes tersebut ditentukan oleh padanan di antara kemampuan
ditanggapi oleh kelompok peserta yang berbeda. responden dengan taraf sukar butir.
Menurut Setiadi (1998) bahwa dalam teori klasik, Probabilitas jawaban betul Pgi(  ) adalah
statistik soal, misalnya indeks kesukaran soal probabilitas jawaban betul responden ke-g pada butir
tergantung pada sampel pengikut ujian. Kalau tes ke-i. Tidak selalu taraf sukar butir sepadan dengan
tersebut dikerjakan oleh siswa yang pandai maka kemampuan responden. Butir terlalu mudah atau

721
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

terlalu sukar tidak dapat menunjukkan kemampuan ciri butir, walaupun ciri peserta tes berbeda. Dengan
responden, sehingga akurasi pengukuran menjadi kata lain, ciri dari kelompok butir adalah tetap
rendah. Kecocokan di antara kemampuan responden walaupun dijawab peserta tes yang berbeda. Dengan
dengan taraf sukar butir menghasilkan akurasi pengu- demikian, berlaku pula bahwa ciri peserta akan tetap
kuran yang tinggi. Kecocokan di antara kemampuan sama, walaupun mereka menjawab butir tes yang
responden dengan taraf sukar butir menghasilkan berbeda. Secara luas pembahas an te nta ng
akurasi pengukuran tertinggi melalui ketentuan: pengukuran modern dikaji secara mendalam dalam
teori responsi butir.
P() = Pmin + 0,5 (Pmaks– Pmin)

Karena peluang menjawab benar atau Pmaks = Teori Responsi Butir (Item Response Theory)
1 maka ketentuan ini menjadi: Teori Responsi Butir (Item Response Theory
disingkat IRT) dinamai juga sebagai Teori Ciri Laten
P() = Pmin + 0,5 (1 – Pmin) (Latent Trait Theory di singkat L TT) a tau
Lengkungan Karakteristik Butir (Item Characteristic
Pencocokan di antara kemampuan responden
Curv e disingkat ICC). Untuk memudahkan
dengan taraf sukar butir dapat dilakukan jika
pengertian, di sini hanya digunakan istilah IRT.
mereka independen. Jika taraf sukar butir (b) inde-
Seperti disebutkan di atas, pada hakekatnya IRT
penden dari kemampuan () maka dapat dicari nilai
bertujuan untuk mengatasi kelemahan yang
taraf sukar butir yang cocok dengan kemampuan
terdapat pada pengukuran klasik. Pada IRT,
(). peluang jawaban benar yang diberikan siswa, ciri
Pada teori klasik, taraf sukar butir bergantung atau parameter butir, dan ciri atau parameter
(dependent) kepada kemampuan responden. Bagi peserta tes dihubungkan melalui suatu model
responden berkemampuan tinggi, butir menjadi formula yang harus ditaati baik oleh kelompok
tidak sukar (mudah). Bagi responden berkemam- butir te s maupun kelompo k pese rt a tes
puan rendah, butir menjadi sukar. Pada butir tidak (Hambleton & Rogers, 1991). Artinya, butir yang
sukar (mudah), tampak kemampuan responden sama terhadap peserta tes yang berbeda harus
menjadi tinggi. Pada butir sukar, tampak kemam- tunduk pada aturan rumus itu, atau peserta tes
puan responden menjadi rendah. Taraf sukar butir yang sama terhadap butir tes yang berbeda juga
bergantung kepada kemampuan responden. Butir harus patuh terhadap rumus tersebut. Dalam
yang sama akan terasa berat bagi mereka yang proses semacam ini terjadilah apa yang disebut
berkemampuan rendah dan terasa ringan bagi invariansi di antara butir tes dan peserta tes. Pada
mereka yang berkemampuan tinggi. pengukuran modern, taraf sukar butir tidak dikaitkan
Kemampuan responden bergantung kepada langsung dengan kemampuan responden.
taraf sukar butir. Mereka yang mengerjakan butir Perbedaan mendasar antara pengukuran klasik
sukar akan tampak berkemampuan rendah sedang- dengan pengukuran modern terletak pada invariansi
kan mereka yang mengerjakan butir mudah akan penskoran, di mana penskoran modern adalah
tampak berkemampuan tinggi. Teori pengukuran invarians (tidak berubah atau tetap) terhadap butir
klasik (teori ujian klasik) tidak dapat digunakan untuk tes serta terhadap peserta tes. Menurut Lord (1990)
pencocokan kemampuan responden dengan taraf bahwa invariansi parameter-parameter butir tes
sukar butir (karena mereka dependen). Pada teori melalui kelompok peserta tes merupakan karak-
klasik, terdapat interdependensi di antara kemam- teristik yang paling penting dari IRT. Kita biasanya
puan responden dan taraf sukar butir. Sebaiknya cara memikirkan bahwa indeks kesukaran butir tes
penyebutan hasil pengukuran disandingi dengan nama sebagai proporsi jawaban yang benar sehingga sukar
alat ukur. Misalnya, 450 TOEFL, 630 SPMB. untuk membayangkan bagaimana indeks kesukaran
Untuk mengatasi kelemahan pada pengukuran tes dapat menjadi invariant terhadap kelompok
klasik, penggunaan pengukuran modern ditampilkan peserta tes dari tingkat kemampuan yang berbeda.
yakni untuk menganulir ketidakterpisahan antara Pada pengukuran modern, taraf sukar butir
kelompok peserta tes dengan kelompok butir tes. dikaitkan langsung dengan karakteristik butir. Taraf
Artinya, prinsip pengukuran modern adalah penetapan sukar butir pada pengukuran modern terletak pada

722
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

: P() = Pmin + 0,5 (Pmaks–Pmin)= Pmin + 0,5 (1– persamaan : P() = Pmin + (1 – Pmin)
Pmin). Pada pengukuran modern, taraf sukar butir Misalkan suatu butir memiliki parameter butir a1
langsung dikaitkan dengan karakteristik butir. = 1,27 dan b1 = – 0,39. Butir ini diberikan kepada
Kemampuan tinggi dan rendah memiliki taraf sukar responden dengan kemampuan agak rendah dan dari
butir yang sama. Kemampuan responden dan taraf mereka diperoleh lengkungan dengan a1 = 1,27 dan
sukar butir menjadi independen. Pengukuran modern b = – 0,39. Butir yang sama diberikan kepada
dapat digunakan untuk pencocokan kemampuan responden dengan kemampuan agak tinggi dan dari
responden dengan taraf sukar butir. mereka diperoleh lengkungan dengan a1 = 1,27 dan
Teori responsi butir perlu menentukan model b1 = – 0,39. Pada responden dengan kemampuan
karakteristik butir yang digunakan. Model karak- agak rendah. Melalui perhitungan pada data diperoleh
teristik butir dapat berbentuk satu parameter (1P), lengkungan dengan b1 = - 0,39. Terlihat bahwa dua
dua parameter (2P), tiga parameter (3P), atau model hasil ini adalah sama.
lain. Di sini pembahasan dibatasi pada satu sampai
tiga parameter serta pada sekor dikotomi, yaitu: 1P Asumsi Teori Reponsi Butir
: P() = f(b, ) 2P : P() = f(a, b, ) dan 3P : P() Dalam teori responsi butir taraf sukar butir dan daya

= (a, b, c, ). Satu, dua, dan tiga adalah banyaknya beda butir tes tetap sama, walaupun butir tes tersebut
diselesaikan oleh kelompok peserta tes yang berbeda.
parameter butir. Parameter  adalah parameter
Untuk itu, teori responsi butir mengembangkan
kemampuan responden. Parameter b adalah
model yang menghubungkan parameter butir dengan
parameter taraf sukar butir. Pada 1P dan 2P, b = 
kemampuan peserta tes. Menurut Hambleton (1991)
ketika P() = 0,5. Pada 3P, b =  ketika P() = 0,5 asumsi untuk model teori responsi butir secara
(1 + c). Parameter a adalah parameter daya beda mendalam digunakan, sehingga hanya satu
butir. Parameter c adalah parameter terkaan betul kemampuan yang diukur dengan butir-butir tes
jawaban butir. tersebut. Hal ini dinamakan unidimensi. Suatu konsep
yang menghubungkan keunidimensian adalah apa
Tujuan Responsi Butir yang disebut dengan independensi lokal (local
Teori responsi butir membebaskan responden dan independence) yang akan didiskusikan berikutnya.
butir dari interdependensi, sehingga. taraf sukar Asumsi lain dalam model teori responsi butir
butir tidak lagi bergantung kepada kemampuan adalah fungsi karakteristik yang secara khusus
responden. Kemampuan responden tidak lagi melukiskan hubungan antara variabel kemampuan
bergantung kepada taraf sukar butir. Melalui yang tidak teramati dengan variabel kemampuan
independensi di antara taraf sukar butir dan yang teramati. Asumsi-asumsi tersebut juga
kemampuan responden, dapat dipilih butir yang menyangkut karakteristik butir tes yang relevan
cocok dengan responden. Dalam hal terjadi kecocok- terhadap kinerja peserta tes pada suatu butir tes
an di antara taraf sukar butir dan kemampuan tersebut. Perbedaan besar antara model-model Item
responden, maka: kalau taraf sukar butir diketahui, Response Theory dalam pemakaian bersama adalah
kemampuan responden dapat ditentukan. Kalau dalam jumlah dan tipe se rta karakterist ik-
kemampuan responden diketahui, taraf sukar butir karakteristik yang diasumsikan untuk kinerja
dapat ditentukan. peserta tes. Jadi dalam teori responsi butir
Proporsi jawaban benar di dalam sebuah dengan asumsi-asumsi tersebut, maka dalam setiap
kelompok peserta tes tidak secara nyata mengu- soal harus diwakili oleh satu Item Characteristic Curve
kur kesulitan tes tersebut. Proporsi tersebut tidak (ICC). Item Characteristic Curve adalah pernyataan
hanya menjelaskan butir tes tetapi juga kelompok Matematika yang berhubungan dengan probabilitas
peserta yang dites. Ini merupakan suatu tujuan dasar keberhasilan pese rta te s sesuai denga n
untuk kesepakatan analisis statistik butir tes, yang kemampuannya.
dikenal dengan istilah invariansi. Yang menjadi dasar
invariansi adalah taraf sukar butir tidak langsung Unidimensi
dikaitkan dengan kemampuan responden melainkan Asumsi unidimensi terpenuhi apabila butir-butir di
dikaitkan dengan lengkungan karakteristik butir pada dalam perangkat tes hanya mengukur satu kemam-

723
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

puan peserta tes. Misalnya butir-butir yang termuat oleh betul salahnya peserta tes yang lain dalam
di dalam perangkat tes bertujuan untuk mengukur menjawab butir tersebut. Sedangkan indepensi lokal
kemampuan peserta tes dalam mata pelajaran terhadap butir, memiliki arti bahwa betul salahnya
Matematika. Butir-butir yang dikonstruksi berupa soal seorang peserta tes menjawab sebuah butir tidak
cerita dan berbentuk dikotomi. Apabila peserta tes terpengaruh oleh betul salahnya peserta tes dalam
memberi respon yang salah maka tidak dapat menjawab butir yang lain.
diketahui apakah kesalahan itu disebabkan oleh Ada independensi lokal responden terhadap butir
ketimpangan peserta tes pada mata pelajaran dan ada independensi lokal butir terhadap responden.
Matematika atau bahasa. Dalam kenyataannya sulit Pada peserta tes di lokasi yang sama, probabilitas
mendapatkan suatu butir yang mengukur hanya satu menjawab betul P() untuk butir berbeda adalah
kemampuan peserta tes. independen satu terhadap lainnya. Misalkan
Menurut Dali S Naga (1992) bahwa persyarat- responden yang memiliki kemampuan yang sama
an unidimensi ditujukan untuk mempertahankan mengerjakan butir X1, X2, X3, …, XN, maka sesuai
invariansi pada teori responsi butir. Kalau butir tes dengan rumus independensi pada probabilitas, berlaku
sampai mengukur lebih dari satu dimensi, maka P(X1IX2IX3 ......IXN ) 
jawaban terhadap butir itu merupakan kombinasi dari
berbagai kemampuan peserta tes. Akibatnya, tidak P(X1 ) P(X2 ) P(X 3 ) ......P(XN ) atau

 P(X )
lagi diketahui kontribusi dari setiap kemampuan i N
P(X1IX2IX3 ......IXN ) 
terhadap jawaban peserta tes tersebut. Dengan i
i 1
mengganti butir tes atau kelompok peserta tes, tidak
QP(Xi )  1  P(Xi )
dapat lagi dipertahankan invariansi pada ukuran ciri
butir tes dan pada ukuran ciri peserta tes, sehingga
ketidakmampuan mempertahankan syarat invariansi Independensi lokal butir terhadap responden.
ini akan bertentangan dengan tujuan teori responsi Pada butir di lokal yang sama, probabilitas men-jawab
butir tersebut. betul P(  ) untuk responden berbeda adalah
Dengan terpenuhinya persyaratan unidimensi independen satu terhadap lainnya. Independensi lokal
tersebut maka diperlukan cara untuk menentukan dapat diuji dengan dua cara, yaitu: secara eksak
apakah suatu butir tes merupakan unidimensi atau melalui rumus probabilitas, dan secara statistika
tidak. Untuk hal ini, maka digunakan metode analisis melalui uji ketergantungan khi-kuadrat.
faktor. Dalam hal ini penggunaan analisis faktor
bertujuan untuk memperlihatkan pada kelompok Pengujian Melalui Rumus Probabilitas
faktor mana butir itu berada. Setiap faktor hanya Independensi lokal tercapai apabila data memenuhi
menunjukkan suatu dimensi indikator tes. Dengan rumus independensi pada probabilitas. Berikut contoh
demikian, setiap dimensi indikator tes terhimpun pengujian melalui rumus probabilitas: Responden
dalam satu faktor yang melibatkan beberapa butir mengerjakan butir ke-1 dan ke-2 dengan probabilitas
tes yang diperlukan, Faktor-faktor tersebut mungkin jawaban
meliputi motivasi, kecemasan, kemampuan bekerja
cepat, kecenderungan menebak bila dalam keadaan Butir ke-2
ragu-ragu menjawab, dan keterampilan kognitif di 1 0
dalam menjumlahkan, serta faktor dominan lain yang Butir 1 0,086 0,420 0,506
diukur dengan sehimpunan butir tes (Asmin, 2004). ke-1 0 0,083 0,411 0,494
0,169 0,831 1
Independensi Lokal
Asumsi independensi lokal dibagi menjadi dua yaitu Apakah terdapat independensi lokal? Berdasar-
independensi lokal terhadap respons peserta tes dan kan data di atas maka perhitungan probabilitasnya
independensi lokal terhadap butir tes (James J. Allen adalah sebagai berikut:
& Yen, 1989). Independensi lokal terhadap respons
peserta tes, memiliki arti bahwa betul salahnya P(11)=0,086 P1(1)P2(1) = (0,506)(0,169) = 0,086
peserta tes menjawab sebuah butir tidak terpengaruh P(10)=0,420 P1(1)P2(0) = (0,506)(0,831) = 0,420

724
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

P(01)=0,083 P1(0)P2(1) = (0,494)(0,169) = definisi tidak diinginkan butir-butir tidak berkorelasi


0,083 dalam kelompok, dimana  bervariasi. Dalam hal
P(00)=0,411 P1(0)P2(0) = (0,494)(0,831) = 0,411 tertentu, independensi lokal secara otomatis
mengikuti keunidimensian.
Jadi, terdapat kecocokan sehingga mereka Menurut Crocker dan Algina (1986), dalam
adalah independen secara lokal. teori respo nsi buti r secara bersama-sama
digunakan konsep-konsep yang lebih umum
Pengujian secara Statistika terhadap keterikatan dan kebebasan statistik
Pengujian dilakukan pada taraf signifikansi untuk menyatakan tentang hubungan antara
tertentu melalui hipotesis: H0: ada independensi varaiabel-variabel. Untuk dua sekor butir dikotomi
lokal. H1: tidak ada independensi lokal. Distribusi konsep-konsep tersebut dapat diilustrasikan
probabilias pensampelan adalah distribusi probabilias secara numerik sebagai berikut. Bila diketahui
khi-kuadrat dan statistik uji c2 adalah: responsi dari 40 responden pada suatu butir soal
hasil akhirnya adalah seperti Tabel 1.
Butir ke-2 Atau peluang jawaban tersebut dibentuk seperti
1 0 Tabel 2.
Butir 1 A B A+B
ke-1 0 C D C+D Tabel 2. Peluang Jawaban Butir 1 dan Butir 2
A+C B+D N 1 0
1 0,100 0,200 0,300
0 0,500 0,200 0,700
Statistik uji adalah menggunakan persamaan berikut:
0,600 0,400
X2=N(AD-BC)2/(A+B)(C+D)(A+C)(B+D)
dengan  banyaknya responden, dan A, B, C, Dari tabel 2 tersebut dapat dihitung besar
D = frekuensi. Dengan kriteria pengujian adalah: Tolak perkalian setiap peluang sebagai berikut:
H0 jika 2 > 2()(). Terima H0 jika 2 <
P(11)  0,10 P1(1) P2 (1)  (0,30) (0,60)  0,18
2()(). P(10)  0,20 P1(1) P2 (1)  (0,30) (0,40)  0,12
Prinsip independensi lokal dinyatakan oleh asumsi P(01)  0,50 P1(0) P2 (1)  (0,40) (0,60)  0,24
bahwa secara formal, probabilitas (sukses pada butir P(00)  0,20 P1(0) P2 (1)  (0,70) (0,04)  0,28
i yang diberikan ) sama dengan probabilitas (sukses
pada butir i yang diberikan q dan juga diberikan Dari hasil perkalian peluang-peluang tersebut
kinerjanya pada butir j, k, …). Jika ui  0 atau 1 dapat disimpulkan bahwa tidak terdapat indepen-
menyatakan sekor butir ke-i, maka dapat ditulis densi lokal, karena tidak memenuhi syarat
dengan: independensi lokal (Nitko, 1992).
Keempat kondisi persamaan tersebut mengata-
P(ui  1 / )  P(ui  1 / , uf , uk ...)
kan bahwa skor-skor butir adalah bebas jika masing-
Menurut Lord (1990) secara matematika
masing peluang susunan jawaban untuk kedua butir
pernyataan indepensi lokal berarti bahwa probabilitas
sedemikian rupa sehingga peluang pada ruas kiri dari
sukses seluruh butir tes sama dengan perkalian dari
persamaan dapat dihitung dengan mengetahui hanya
bagian-bagian probabilitas sukses tersebut. Sebagai
peluang jawaban benar dan salah untuk masing-
contoh, ada tiga butir tes i, j, dan k, maka :
masing butir tersebut. Dengan demikian, dapat
P(ui  1, u j  1, uk  1 / )  disimpulkan bahwa sebuah tes adalah unidimensional
P(ui  1 / )P(u j  1 / ) P(uk  1 / ) jika butir-butir tes tersebut secara statistik adalah
tidak bebas di dalam populasi yang dilibatkan.
Independensi lokal menginginkan setiap dua butir
tidak berkorelasi apabila  adalah tetap. Secara

Tabel 1. Responsi jawaban siswa sejumlah 40 responden

Butir Responsi responden


1 00000 11000 00011 00010 00100 00000 11001 10101
2 01100 00011 10000 11111 11111 11100 00110 01111

725
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

Invarian Taraf Sukar Butir


Seperti disebutkan di atas, pada hakikatnya Item Pada umumnya makin mudah butir atau makin kecil
Response Theory (IRT) bertujuan untuk mengatasi b, maka makin besar probabilitas responden untuk
kelemahan yang terdapat pada pengukuran klasik. menjawab butir itu dengan benar sehingga nilai P(  )
Perbedaan mendasar antara pengukuran klasik menjadi besar. Sebaliknya makin sukar butir atau
dengan pengukuran modern terletak pada invariansi makin besar b, maka makin kecil probabilitas
pensekoran, di mana pensekoran modern adalah responden menjawab butir itu dengan benar sehingga
invarians (tidak berubah) terhadap butir tes serta nilai P( ) menjadi kecil. Dengan demikian mudah
terhadap peserta tes. Menurut Lord (1990: 126) sukarnya suatu butir menurut Dali S. Naga (1998:
bahwa invariansi parameter-parameter butir tes 34) sering dikaitkan dengan kemampuan responden
melalui kel ompo k peserta tes merupaka n dengan taraf sukar butir yakni dengan (  b) .
karakteristik yang paling penting dari IRT. Dapat Ada butir yang sukar, ada butir yang sedang,
dikatakan bahwa indeks kesukaran butir tes sebagai dan ada butir yang mudah. Taraf sukar butir merupa-
proporsi jawaban yang benar sehingga sukar untuk kan suatu kontinum dari mudah ke sukar. Taraf sukar
membayangkan bagaimana indeks kesukaran tes butir ke-i dinyatakan dengan bi. Makin tinggi taraf
dapat menjadi invarian terhadap kelompok peserta sukar butir bi, diperlukan kemampuan responden 
tes dari tingkat kemampuan yang berbeda. yang makin tinggi untuk dapat menjawabnya dengan
Dalam IRT, proporsi jawaban benar, ciri betul, jika >bi maka Pi () tinggi, sedangkan jika
(parameter) butir, dan ciri peserta dihubungkan <bi maka Pi () rendah. Untuk mendapatkan hasil
melalui rumus, di mana muncul masalah dalam analisis yang baik, seharusnya jumlah soal paling tidak
menentukan rumus responsi butir atau rumus 40 sampai dengan 50 dan jumlah peserta tes paling
karakteristik butir yang dikenal sebagai penentuan tidak 400 orang.
model responsi butir atau model karakteristik butir. Kontinum taraf sukar berimpit dengan kontinum
Masalah lainnya adalah bagaimana menentukan nilai kemampuan responden. Taraf sukar butir adalah
parameter butir dan nilai parameter peserta yang peluang untuk menjawab benar suatu soal pada
diistilahkan sebagai pengestimasian parameter, baik tingkat kemampuan tertentu yang umumnya
parameter butir maupun parameter peserta, yang dinyatakan dalam bentuk indeks. Indeks tingkat
disebut sebagai pengkalibrasian butir. Untuk kesukaran ini pada umumnya dinyatakan dalam
pemeriksaan hasilnya dilakukan estimasi parameter, bentuk proporsi yang besarnya berkisar 0,00 – 1,00.
yang bertujuan sebagai pencocokan model. Soal yang memiliki indeks 0,00 artinya tidak ada siswa
yang menjawab benar, indeks 1,00 artinya siswa
Karakteristik Butir menjawab benar butir tes.
Karakteristik butir dalam teori responsi butir terdiri Perhitungan indeks tingkat kesukaran ini
dari daya beda butir, taraf sukar butir dan faktor dilakukan untuk se tiap nomor soal. Pada
kebetulan menjawab betul pada butir dinyatakan prinsipnya sekor rata-rata yang diperoleh peserta
berturut-turut dengan huruf a, b, dan c. Parameter didik pada butir s oal yang bersangkuta n
peserta tes adalah kemampuan peserta tes yang dinamakan tingkat kesukaran butir soal itu. Tingkat
dinyatakan dengan . Kemampuan peserta tes Kesukaran adalah jumlah siswa yang menjawab
terhadap butir ke-j dinyatakan dalam bentuk benar butir soal dibagi dengan jumlah siswa yang
probabilitas jawaban betul Pj ( ). Skor respon-den mengikuti tes. Fungsi tingkat kesukaran butir soal
mencerminkan kemampuan res-ponden sehingga pada umumnya dihubungkan dengan tujuan tes
skor responden dan kemampuan responden (Aiken, 1994). Misalnya untuk ujian semester diguna-
merupakan parameter responden. Kemampuan kan butir soal yang memiliki tingkat kesukaran
responden merupakan suatu kontinum dari rendah sedang, untuk keperluan seleksi digunakan butir soal
ke tinggi. Skor responden tinggi menunjukkan yang memiliki tingkat kesukaran tinggi atau sukar,
kemampuan tinggi dan skor responden rendah dan untuk keperluan diagnostik maka digunakan butir
menunjukkan kemampuan responden rendah. soal yang memiliki tingkat kesukaran rendah atau
mudah.

726
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

Semakin besar indeks tingkat kesukaran yang mempengaruhi karakteristik distribusi sekor
diperoleh dari hasil perhitungan, berarti semakin (mempengaruhi bentuk dan penyebaran sekor tes
mudah soal itu. Probabilitas jawaban betul pada butir atau jumlah soal dan korelasi antar soal); dan 2)
ke-i berhubungan dengan letak  terhadap bi atau berhubungan dengan reliabilitas, semakin tinggi
terhadap ( – bi) atau Pi () = f ( – b). Ini dikenal korelasi antar soal semakin tinggi reliabilitas (Dali S.
sebagai kararteristik butir satu parameter Pi () = f Naga, 1998). Demikian pula semakin tinggi nilai
(, bi). Nilai taraf sukar butir ke-i ditentukan oleh  – reliabilitas butir tes, semakin tinggi pula validitas butir
bi = 0 atau bi =  pada saat Pi () = 0,5. soal tersebut.
Suatu butir dikatakan mudah atau sukar
bergantung dari kemampuan peserta tes. Apabila Daya Beda Butir
kemampuan peserta tes lebih dari taraf sukar butir Ada butir yang memiliki ciri: dapat dijawab dengan
maka dapat dikatakan butir itu mudah dan sebaliknya betul oleh kebanyakan responden yang berke-
apabila kemampuan peserta tes kurang dari taraf mampuan tinggi, tidak dapat dijawab dengan betul
sukar butir maka dapat dikatakan bahwa butir itu oleh kebanyakan responden yang berkemampuan
sukar. Tingkat kes ukaran butir s oal dapat rendah. Butir demikian memiliki daya untuk
mempengaruhi bentuk distribusi total sekor tes. membedakan responden berdasarkan kemampuan
Untuk tes yang sangat sukar (TK<0,25) distribusinya mereka. Butir memiliki parameter berupa daya beda
berbentuk positif skewed, sedangkan tes yang butir. Daya beda butir adalah kemampuan suatu butir
mudah (TK>0,8) distribusinya berbentuk negatif soal dapat membedakan antara peserta didik atau
skewed. warga belajar yang telah menguasai materi yang
Taraf sukar butir mempunyai dua kegunaan, ditanyakan dan warga belajar atau peserta didik yang
yaitu kegunaan bagi guru dan kegunaan bagi belum menguasai materi yang ditanyakan.
pengujian dan pengajaran (Nitko, 1996). Kegunaan Dengan kata lain daya beda butir adalah kemam-
bagi guru adalah: 1) sebagai pengenalan konsep puan suatu butir soal yang dapat membedakan antara
terhadap pembelajaran ulang dan memberi masukan siswa yang telah menguasai materi yang ditanyakan
kepada siswa tentang hasil belajar mereka; dan 2) dan siswa yang belum menguasai materi yang
memperoleh informasi tentang penekanan kurikulum ditanyakan. Jika tes atau soal mengukur hal yang
atau mencurigai terhadap butir soal yang bias. Adapun sama, dapat diharapkan bahwa setiap peserta tes
kegunaannya bagi pengujian dan pengajaran adalah: mampu menjawab soal dengan benar dan yang tidak
1) pengenalan konsep yang diperlukan untuk mampu akan menjawab salah. Tingkat kesukaran
diajarkan ulang; 2) tanda-tanda terhadap kelebihan berpengaruh langsung pada daya pembeda soal. Jika
dan kelemahan pada kurikulum sekolah; 3) memberi setiap orang menjawab benar (p=1), atau jika setiap
masukan kepada siswa; 4) tanda-tanda kemungkin- orang menjawab salah (p=0), maka soal tidak dapat
an adanya butir soal yang bias; dan 5) merakit tes digunakan untuk membedakan kemampuan peserta
yang memiliki ketepatan data soal. tes (Surapranata, 2004). Manfaat daya beda butir
Tingkat kesukaran butir soal juga dapat adalah: 1) untuk meningkatkan mutu setiap soal
digunakan untuk memprediksi kemampuan peserta melalui data empiriknya. Berdasarkan indeks daya
didik oleh pendidik. Misalnya satu butir soal termasuk beda butir, setiap butir soal dapat diketahui apakah
kategori mudah, maka prediksi terhadap informasi butir soal itu baik, direvisi, atau tidak; dan 2) untuk
ini adalah: 1) pengecoh butir soal itu tidak berfungsi; mengetahui seberapa jauh setiap butir soal dapat
dan 2) sebagian besar peserta didik menjawab benar mendeteksi atau membedakan kemampuan siswa,
butir soal itu; artinya bahwa sebagian besar peserta yaitu siswa yang telah memahami atau belum
didik telah memahami materi yang ditanyakan. memahami materi yang diajarkan guru.
Analisis secara klasik ini memiliki keterbatasan, yaitu Apabila suatu butir soal tidak dapat membedakan
tingkat kesukaran sangat sulit untuk mengestimasi kedua kemampuan siswa itu, maka butir soal itu
secara tepat karena estimasi tingkat kesukaran dapat dicurigai kemungkinannya seperti berikut: 1)
dibiaskan oleh sampel. Di samping kedua kegunaan kunci jawaban butir soal itu tidak tepat; 2) butir soal
tersebut, dalam konstruksi tes, taraf sukar butir itu memiliki dua atau lebih kunci jawaban yang benar;
sangat penting karena taraf sukar butir dapat: 1) 3) kompetensi yang diukur tidak jelas; 4) pengecoh

727
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

tidak berfungsi; 5) materi yang ditanyakan terlalu bawah (Surapranata 2004). Adapun kelebihan
sulit, sehingga banyak siswa yang menebak; dan 5) korelasi biserial (Millman & Greene, 1993) adalah:
sebagian besar siswa yang memahami materi yang 1) cenderung lebih stabil dari sampel ke sampel; 2)
ditanyakan berpikir ada yang salah informasi dalam penilaian lebih akurat tentang bagaimana butir tes
butir soalnya. dapat diharapkan untuk membedakan pada beberapa
Indeks daya beda butir juga dinyatakan dalam perbedaan point di skala abilitas; dan 3) value
bentuk proporsi. Semakin tinggi indeks daya beda koefisien korelasi biserial yang sederhana lebih
butir berarti semakin mampu butir yang bersang- langsung berhubungan dengan indikator diskriminasi
kutan membedakan siswa yang telah memahami Item Characteristic Curve (ICC).
materi dengan siswa yang belum memahami materi.
Indeks daya beda berkisar antara -1,00 sampai Tingkat Kebetulan Betul pada Butir
dengan +1,00. Semakin tinggi daya beda butir tes, Ada kalanya butir itu berbentuk pilihan ganda
maka semakin baik butir tes tersebut. Jika daya beda sehingga responden yang tidak memiliki kemampu-
butir negatif berati lebih banyak kelompok bawah an pun masih mungkin menjawab benar melalui
(peserta didik yang tidak memahami materi) terkaan. Dalam bentuk probabilitas, katakan saja
menjawab benar butir tes dibanding dengan bahwa tingkat kebetulan pada jawaban benar adalah
kelompok atas (peserta didik yang memahami materi c, maka untuk butir ini, probabilitas jawaban benar
yang diajarkan guru di kelas). karena kebetulan adalah P()  c . Kalau jumlah pilihan
Untuk menggambarkan tentang daya beda butir ganda itu adalah empat (misalkan A, B, C, D), maka
maka dibuat grafik yang menunjukkan kemiringan melalui terkaan saja terdapat 1 di antara 4 kemung-
kurva. Kecuraman pada lengkungan merupakan kinan bahwa jawaban itu benar.
koefisien arah a pada fungsi a(-b). Makin curam Dalam hal ini probabilitas jawaban benar karena
makin besar koefisien arah a. Pada butir ke-i, daya kebetulan adalah ¼ atau 0,25 sehingga c = 0,25
beda butir dinyatakan sebagai koefisien arah yang (Dali S. Naga, 1998). Pada butir pilihan ganda dapat
menunjukkan kecuraman pada lengkungan yakni ai saja terjadi bahwa jawaban betul dicapai melalui
sehingga Pi () = f (ai (-bi)). Selain itu indeks daya terkaan. Jawaban betul ini adalah kebetulan betul.
beda juga bisa dihitung dengan korelasi point biserial Tingkat kebetulan menjawab betul pada butir ke-i
maupun korelasi biserial. Kelebihan korelasi point dinyatakan dengan parameter butir ci dan merupakan
biserial: 1) memberikan refleksi kontribusi soal secara probabilitas jawaban betul minimum. Secara
sesungguhnya terhadap fungsi tes. Maksudnya keseluruhan kita mengenal tiga karakteristik butir,
adalah mengukur ba gaimana baiknya but ir yaitu a, b, dan c. Di samping itu, responden memiliki
berkorelasi dengan kriterion; 2) sederhana dan satu karakteristik yakni kemampuan responden.
langsung berhubungan dengan statistik tes; dan Karakteristik ini juga dikenal sebagai satu parameter
3) tidak pernah mempunyai value 1,00 karena pada karakteristik responden.
hanya variabel-variabel dengan distribusi bentuk Pi() min = ci. Di sini, taraf sukar butir bi tidak
yang sama yang dapat berkorelasi secara tepat, diperoleh melalui probabilitas jawaban betul Pi() =
variabel kriterion dan skor dikotomi tidak mempunyai 0,5 melainkan pada : Pi() = ci + 0,5 (1- ci) = 0,5
bentuk yang sama. Indeks daya pembeda dihitung (1 + ci). Bentangan Pi () tidak lagi dari 0 sampai
atas dasar pembagian kelompok menjadi dua bagian, 1,0 melainkan dari ci sampai 1,0 yakni selebar (1-
yaitu kelompok atas yang merupakan kelompok ci) sehingga: f (ai (- bi)) menjadi (1 ci) f (ai(-
peserta tes yang berkemampuan tinggi dengan bi)) dan probabilitas jawaban betul menjadi: Pi ()
kelompok bawah yaitu kelompok peserta tes yang = ci + (1 - ci) f (ai ( - bi)). Di sini terdapat tiga
berkemampuan rendah. Kemampuan tinggi ditunjuk- parameter butir ai, bi, dan ci sehingga dikenal
kan dengan perolehan skor yang tinggi dan sebagai karakteristik butir tiga parameter dengan
kemampuan rendah ditunjukkan dengan perolehan persamaan: Pi () = f (, ai, bi, ci).
skor yang rendah (Messick, 1989).
Indeks daya pembeda didefinisikan sebagai Penyusunan Tes Hasil Belajar Akhir Ujian
selisih antara proporsi jawaban benar pada kelompok Nasional
atas dengan proporsi jawaban benar pada kelompok Penyusunan Tes Hasil Belajar Akhir baik secara

728
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

lokal maupun Nasional perlu dilakukan secara sumber materi belajar lainnya; 4) membuat kisi-kisi;
terencana dan teratur. Ujian Akhir Nasional 5) penulisan tujuan instruksional khusus; 6) penulisan
dilakukan dengan skala yang lebih besar yang soal; 7) telaah soal (face validity); 8) reproduksi
dilaksanakan setiap tahun, di mana soal-soal yang tes terbatas; 9) uji coba tes; 10) analisis hasil uji
diberikan telah tersimpan dalam Bank Soal coba; 11) revisi soal, dan l2) merakit soal menjadi
sehingga memudahkan untuk diakses dalam tes.
memenuhi kebutuhan tes Ujian Akhir Nasional yang Langkah awal dalam mengembangkan tes adalah
setiap saat dapat diambil bila diperlukan. menetapkan spesifikasi tes, yaitu berisi uraian yang
Menurut Kumaidi (2000) untuk mengem- menunjukkan keseluruhan karakteristik yang harus
bangkan suatu tes dan sejumlah butir soal yang dimiliki suatu tes. Spesifikasi yang jelas akan
defensible maka prosedur pengembangan perlu mempermudah dalam menulis soal, dan siapa saja
ditradisikan, dalam arti proses pengembangan tes yang menulis soal akan menghasilkan tingkat
(d an penulisan butir s oal) d imul ai dengan kesulitan yang relatif sama. Penyusunan spesifikasi
pengembangan rancangan atau kisi-kisi tes, yang tes mencakup kegiatan berikut ini: 1) menentukan
didahului oleh pembedahan kurikulum yang tujuan tes; 2) menyusun kisi-kisi tes; 3) memilih
memuat segala informasi tentang tes tersebut. bentuk tes; dan 4) menentukan panjang tes (Setiadi,
Rancangan tes ini memuat tujuan penilaian yang akan 2009).
dilakukan, tempo (waktu yang ditempuh) untuk Selanjutnya, menurut Setiadi (1998) menyata-
pelaksanaan pengujian, pesan utama kurikulum kan bahwa setiap tahun soal-soal yang digunakan
(sasaran pembelajaran dan garis besar topik materi harus dibuat oleh suatu panitia khusus yang dibentuk
uji), indikator butir soal (ciri-ciri penguasaan materi untuk keperluan ujian nasional, sehingga setiap tahun
uji dan pencapaian sasaran pembelajaran), serta harus dikeluarkan dana yang besar untuk keperluan
jumlah dan bentuk butir soal (per-indikator, per topik, revisi soal-soal tersebut. Untuk keperluan keamanan
dan keseluruhan tes). Sebaran butir soal dalam tes juga diperlukan beberapa alternatif paket tes (paralel
seharusnya memperhatikan keseimbangan tuntutan form), di mana soal-soal pada suatu paket dengan
penguasaan sesuai dengan pesan kurikulum, sehingga paket yang lain dianggap sama tingkat kesukaran
memberi nuansa keterwakilan topik bahasan. soalnya hanya karena dianggap dibuat berdasarkan
Menurut Jihad (2010), ada sembilan langkah pada kisi-kisi yang sama tanpa didasarkan pada data
yang harus ditempuh dalam mengembangkan tes empirik hasil uji coba soal di lapangan.
hasil atau prestasi belajar, yaitu: 1) menyusun Pengembangan rancangan tes ini melibatkan
spesifikasi tes; 2) menulis soal tes; 3) menelaah soal spesialis (termasuk guru) bidang studi, sehingga bila
tes; 4) melakukan uji coba tes; 5) menganalisis butir rancangan tes telah selesai disusun maka rancangan
soal; 6) memperbaiki tes; 7) merakit tes; 8) tes tersebut harus divalidasi, melalui penelaahan pakar
melaksanakan tes; dan 9) menafsirkan hasil tes. dan teman sejawat, sehingga benar-benar sesuai
Khusus mengenai uji coba tes, dalam penyusunan dengan pesan kurikulum. Untuk mengatasi variasi
tes untuk mengukur prestasi hasil pembelajaran yang butir soal yang berlebihan, dengan pemahaman
diselenggarakan oleh guru di kelas seperti ulangan indikator butir soal, ada baiknya dikembangkan apa
harian, ulangan umum, dan ulangan kenaikan kelas, yang disebut oleh Nitko (1992) sebagai spesifikasi
tidak harus dilakukan secara tersendiri. Pembakuan butir soal (item specification). Spesifikasi ini
tes dilakukan melalui beberapa kali ujicoba. menyangkut uraian tentang batasan dan rambu-
Sedangkan Djaali (2004) menjelaskan bahwa, rambu yang harus dipatuhi oleh penulis butir soal.
penyusunan dan pengembangan tes dimak-sudkan Gronlund (1985) menyarankan beberapa hal
untuk memperoleh tes yang valid, sehingga hasil dalam pengkonstruksian tes, diantaranya: 1) stem
ukurnya dapat mencerminkan secara tepat hasil item tersebut sebaiknya memaknai butir itu sendiri
belajar yang dicapai oleh masing-masing individu dan menampilkan masalah tertentu; 2) stem butir
peserta tes setelah selesai mengikuti pembelajaran. tes melibatkan banyak kemungkinan jawaban dan
Adapun langkah-langlah kontruksi tes yang ditempuh bebas dari materi yang tidak relevan; 3) gunakan
adalah sebagai berikut: 1) menetapkan tujuan tes; pernyataan stem butir yang bersifat negatif hanya
2) analisis kurikulum; 3) analisis buku pelajaran dan ketika hasil belajar yang dikehendaki cukup berarti

729
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

(signifikan); 4) Semua alternatif jawaban secara Simpulan dan Saran


gramatikal konsisten dengan stem butir tersebut; Simpulan
5) sebuah butir secara jelas hanya mengandung satu Pada hakikatnya proses pengukuran semuanya baik.
jawaban benar terbaik; 6) butir-butir tes digunakan Hanya kekonsistenan pelaksana dan penilai hasil
untuk mengukur pemahaman yang mengandung pengukuran di samping kejujuran memberi penilaian
beberapa hal baru, tetapi harus berhati-hati; 7) adalah yang utama. Kecanggihan alat ukur modern
semua pengecohan harus masuk akal; 8) assosiasi belum tentu bermanfaat bagi peserta didik, selama
verbal antara stem dan jawaban yang benar harus hal itu dilakukan setengah hati. Teori responsi butir
dihindarkan; 9) secara relatif, panjang pilihan jawaban atau item response theory merupakan alternatif
tidak menunjukkan suatu petunjuk untuk jawaban pilihan yang bertujuan melepaskan diri dari keter-
tersebut; 10) jawaban benar sebaiknya muncul pada gantungan tes yang diberikan dengan sampel peserta
masing-masing posisi pilihan atas beberapa tes. Dalam hal ini walaupun soal-soal tersebut
kesamaan pendekatan, tetapi dalam urutan random; dikerjakan oleh siswa yang pandai atau siswa yang
11) gunakan dengan hemat pilihan-pilihan khusus kurang pandai, indikasi tingkat kesukaran suatu soal
seperti tidak satu pun jawaban di atas benar atau tetap tidak berubah.
semua jawaban di atas benar; dan 12) jangan guna- Untuk mengukur kemampuan peserta tes yang
kan butir-butir pilihan berganda ketika butir yang sangat beragam di Indoensia, seperti Ujian Nasional,
lainnya lebih tepat. seharusnya digunakan juga ujian atau tes yang
Suatu tes harus mengukur hasil belajar dalam berbeda tingkat kesukaran soalnya, supaya adil dan
skala yang sama dan pendekatan yang mungkin juga akurat hasilnya. Peserta tes atau ujian (seperti
dilakukan antara lain: 1) pemakaian butir soal Ujian Nasional) yang mengerjakan tes atau ujian
penjangkar (common items) untuk beberapa set yang berbeda tingkat kesukaran soalnya, tetap bisa
tes; 2) pemakaian butir soal yang telah terkalibrasi dibandingkan kemampuannya, asalkan soal-soal
(butir soal yang diketahui karakteristiknya pada dalam ujian tersebut berasal atau diambil dari bank
satu skala umum); dan 3) kombinasi kedua soal yang sudah dikalibrasi dengan konsep item
pendekatan itu yakni soal penjangkar dipilih dari response theory.
butir yang terkalibrasi (Kumaidi, 2000). Dalam hal Kekhawatiran dengan ketidaklulusan perlu
ini peranan IRT cukup berguna untuk menyamakan disikapi secara wajar oleh semua pihak, khususnya
skala tersebut. Setelah soal-soal berkualitas terpilih sekolah dengan memperbaiki proses pembelajaran.
berdasarkan professional adjustment dari para ahli Apabila upaya perbaikan proses pembelajaran telah
bidang studi dan ahli pengukuran (measurement dilakukan, sesungguhnya tidak ada sesuatu yang
specialist) dan juga didukung data empirik hasil uji perlu dikhawatirkan, karena seluruh bahan ujian
coba soal, maka kegiatan berikutnya adalah sudah mengacu pada kurikulum yang berlaku.
membuat skala dan menentukan di mana setiap soal Kelemahan-kelemahan yang ada dalam pelaksanaan
terletak dalam skala tersebut (Setiadi, 1998). Ujian Nasional perlu diidentifikasi dan dijadikan sebagai
Menurut Naga (1992) dari waktu ke waktu bank masukan dalam perbaikan pelaksanaan Ujian
butir terus mengalami pengembangan dengan Nasional ke depan, dalam rangka membangun suatu
pemasukan butir-butir baru serta peniadaan butir- sistem ujian akhir yang handal, yang dapat
butir usang. Dalam penelitian digunakan teori skor memberikan informasi akurat bagi pembangunan
modern. Untuk membentuk perangkat soal yang baik pendidikan.
dibutuhkan banyak hal, terutama dari aspek esensial
yang membutuhkan pengkajian lebih mendasar dan Saran
mendetail baik ditinjau dari kacamata pengukuran Keseragaman penerapan tes secara nasional perlu
klasik maupun pengukuran modern sehingga peman- dipertimbangkan lebih arif, mengingat tingkat
faatan tes dapat menghasilkan fungsi informasi butir kemampuan yang beragam sesuai lingkungan tempat
tes maupun fungsi informasi ujian yang cukup tinggi. tinggal peserta tes. Walaupun penerapan kurikulum
Karenanya tidak ada satu tes yang sempurna, selama berlaku secara nasional, namun faktor lingkungan
berbagai persyaratan yang telah diuraikan di atas tempat sekolah juga perlu dipertimbangkan. Konsep
belum seluruhnya dipenuhi. utama teori responsi butir adalah adanya kesesuaian

730
Sudaryono, Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

tingkat kesukaran suatu tes dengan kemampuan tes dengan menggunakan Computer Adaptive Test
siswa yang menjawab adalah sesuatu yang tidak (CAT). Dengan menggunakan CAT permasalahan-
dapat diabaikan. Harus diingat bahwa nilai a (daya permasalahan yang dihadapi dalam pelaksanaan tes
pembeda soal) yang tinggi, dan nilai c (tebakan secara kelompok klasikal seperti yang dilaksanakan
jawaban) yang rendah, tanpa dibarengi nilai b (tingkat dalam Ujian Nasional sekarang ini dapat dihindari.
kesukaran soal) yang mendekati kemampuan () Soal-soal Ujian Nasional harus dikembangkan
akan memberikan nilai fungsi informasi butir tes yang berdasarkan bank soal yang sudah dikalibrasi dengan
rendah. ko ns ep teo ri re sponsi but ir. Pada akhirnya
Pemanfaatan program komputer dalam meng- keberhasilan siswa tidak hanya ditentukan oleh
analisis hasil tes sudah saatnya digunakan terutama faktor hasil ujian hasil belajar saja, akan tetapi
untuk mengatasi berbagai kesalahan yang mungkin faktor-faktor lain, seperti kerajinan, kehadiran, hasil
dilakukan secara manual, sehingga akurasi hasil ujian bulanan, pengerjaan pekerjaan rumah, dan
analisis dapat dipertanggung jawabkan. Untuk masa faktor-faktor lain seharusnya menjadi pertimbangan
yang akan datang disarankan Ujian Nasional sudah lain dalam menentukan kelulusan peserta didik.
dapat melaksanakan ujian dengan sistem individual

Pustaka Acuan
Asmin. 2004. Implementasi Teori Responsi Butir dan Fungsi Informasi Butir Tes dalam Pengujian Hasil
Belajar Akhir di Sekolah. Jurnal Pendidikan dan Kebudayaan, X (48): 234-245.
Azwar, Saifuddin. 2001. Tes Prestasi. Fungsi Pengembangan Pengukuran Prestasi Belajar. Yogyakarta:
Pustaka Pelajar Offset.
Aiken, Lewis R. 1988. Psychological Testing and Assessment. Boston: Allyn and Bacon, Inc.
Crocker, Linda, & Algina, James. 1986. Introduction to classical and modern test theory. New York: Holt,
Rinehart and Winston, Inc.
Cronbach, Lee J. 1990. Essentials of Psychological Testing. New York: Harper Collins Publishers.
Dali S. Naga. 1998. Karakteristik Butir pada Alat Ukur Model Dikotomi, Arkhe: Jurnal Ilmiah Psikologi, III
(4): 34-42.
Dali, S. Naga. 1992. Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta: Besbats.
Djaali. 2004. Pengukuran Dalam Bidang Pendidikan. Jakarta: Program Pascasarjana Universitas Negeri
Jakarta.
Gronlund, Norman. E. 1985. Measurement and Evaluation in Teaching. New York: Macmillan Publishing
Company.
Hambleton, Ronald K; Swaminathan, H; dan Jane Rogers, H. 1991. Fundamentals of Item Response
Theory. London: SagePublications.
Jihad, Asep, Abdul Haris. 2011. Evaluasi Pembelajaran. Multi Pressindo: Yogyakarta.
Kumaidi. 2000. Standardisasi Butir Soal. Jurnal Pendidikan dan Kebudayaan. V (5): 132-143.
Lord, Frederick, M.1990. Aplications of Item Response Theory to Practical Testing Problems. New Jersey:
LawrenceErlbaum Associates, Publishers.
Mary J.Allen and Wendy M Yen, 1989, Introduction to Measurement Theory, California: Broke.
Nitko, Anthony. J. 1992. Criterion Reference Testing Workshop: Handouts and Reading Material Tidak
dipublikasikan). Cipayung, Bogor: Examination Development Unit (Puslitbang Sisjian).
Nitko, Anthony J. 1996. Educational Assessment of Student, Second Edition. Ohio: Merrill an Imprint of
Prentice Hall Englewood Cliff.
Messick, S. 1989. Educational Measurement, 3rd edition, New York: Macmillan.
Millman, Jason and Greene, Jennifer. 1993. The Spesification and Development of Tests of Achievement and
Ability in Robert L. Lin (Editor), Educational Measurement, Third Edition. Phoenix: American Council
on Education, series on Higher Education Oryx Press.
Peraturan Pemerintah Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan

731
Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 6, Nopember 2011

Setiadi, Hari. 1998. Bank Soal yang Dikalibrasi dengan Konsep IRT Memecahkan Permasalahan Ujian-ujian
Sistematik yang Diadakan pada Periode-periode Tertentu, Jurnal Kajian Dikbud IV (13).
Setiadi, Hari. 2009. Permasalahan dan Solusinya dalam Pelaksanaan Ujian Nasional di Masa Mendatang,
Matahari: Jurnal Penelitian dan Pendidikan.X (1): 66-74.
Surapranata, Sumarna. 2004. Analisis, Validitas, Reliabilitas Dan Interpretasi Hasil Tes, Rosdakarya:
Bandung.
Wibowo, Mungin Eddy. 2011. Kondisi Psikologis Siswa dalam Menghadapi Ujian Nasional, Buletin
BNSP: Media Komunikasi dan Dialog Standar Pendidikan. VI (1): 7-11.

732

Anda mungkin juga menyukai