PENDAHULUAN
Banyak metode analisis butir soal yang telah dikembangkan mulai dari
pendekatan secara klasik hingga modern. Pendekatan secara klasik yang
digunakan adalah metode teori uji klasik (classical test theory) sedangkan
pendekatan modern yang digunakan adalah metode teori respon butir (Item
Respon Theory/ IRT). Teori respon butir (IRT) merupakan teori pengukuran
modern yang biasanya digunakan untuk menganalisis butir soal dengan
kemampuan responden. Hubungan tersebut dapat digambarkan melalui kurva
karakteristik butir.
1
1.3. Tujuan
Tujuan dari makalah ini, yaitu:
1. Agar dapat memahami definisi teori respon butir.
2. Agar dapat mengetahui macam-macam model teori respon butir.
3. Agar dapat memahami kurva karakteristik butir soal pada teori respon
butir.
4. Agar dapat mengetahui macam software komputer yang dapat digunakan
pada teori respon butir.
2
BAB II
PEMBAHASAN
3
trait) peserta. Unsur ketiga adalah isi responsi peserta terhadap butir tes. Didalam
tes, isi respon dapat berbentuk salah atau benar, sehingga dengan menggabungkan
isi reponsi dari semua peserta terhadap butir itu, kita menemukan hasil berupa
banyaknya jawaban benar, proporsi jawaban benar, atau probabilitas jawaban
benar. Dengan cara yang sama, kita juga dapat menemukan banyaknya jawaban
salah, proporsi jawaban salah, atau probabilitas jawaban salah.
Gambar 1. Lengkungan responsi butir atau karakteristik butir untuk butir ke-i
probabilitas jawaban benar oleh peserta dengan ciri pada butir ke-j
dinyatakan dengan Pj( ). Dari lengkungan responsi itu tampak bahwa peserta
dengan parameter ciri peserta yang rendah memiliki probabilitas yang kecil untuk
menjawab butir ke-j dengan benar. Sebaliknya, peserta dengan parameter ciri
peserta yang tinggi memiliki probabilitas yang lebih besar menjawab butir ke-j
dengan benar (Dali S.Naga, 1992).
4
faktor. Analisis ini dapat menunjukkan di rumpun mana suatu butir tes itu terletak.
Dengan kata lain, melalui analisis faktor, kita dapat memilah sejumlah butir tes ke
dalam beberapa rumpun faktor. Di dalam rumpun faktor yang sama, semua butir
tes mengukur faktor yang sama. Selanjutnya dalam banyak hal, setiap faktor dapat
diukur melalui satu dimensi ukur, sehingga perangkat tes dalam rumpun faktor
yang sama akan terdiri atas butir yang mengukur faktor yang sama atau dalam hal
ini, dimensi yang sama. Akan tetapi, dalam kenyataannya, tidaklah mudah bagi
kita untuk menemukan butir yang murni mengukur hanya satu dimensi pada ciri
peserta. Oleh karena itu, dalam praktiknya, kita sudah merasa cukup kalau pada
pengukuran itu, kita hanya menemukan satu dimensi yang dominan. Dimensi
yang dominan itulah yang menjadi dimensi tunggal atau unidimensi pada respon
atau karakteristik butir. Jika, suatu butir tes mengukur lebih dari satu dimensi,
maka jawaban terhadap butir itu merupakan kombinasi dari berbagai kemampuan
peserta. Akibatnya kita tidak lagi mengetahui kontribusi dari setiap kemampuan
terhadap jawaban peserta. Misalnya suatu tes bertujuan untuk mengetahui
kemampuan fisika pada materi tertentu. Jika kita tidak hati-hati dalam
mengkonstruksi butir, selain mengukur fisika, butir juga bisa mengukur
kemampuan berbahasa karena butir diungkapkan melalui bahasa. Sekiranya siswa
memberi jawaban salah, maka kita tidak lagi mengetahui apakah kesalahan
disebabkan oleh kemampuan peserta di bidang fisika atau di bidang bahasa.
b. Parameter
Telah dijelaskan diatas bahwa dalam IRT terdapat 3 unsur utama, yaitu:
butir, peserta, dan respon (jawaban) peserta terhadap butir. Ketiga fungsi ini
berhubungan sehingga menghasilkan fungsi atau juga lengkungan responsi atau
lengkungan karakteristik butir. Hubungan tersebut dapat ditafsirkan sebagai
berikut: Ada satu butir (misal butir ke-j) direspon oleh sejumlah peserta. Respon
para peserta terhadap butir itu ditentukan oleh ciri butir dan ciri peserta. Dalam
hubungan ini, ciri peserta dinyatakan melalui parameter ciri peserta ( ); ciri
5
terhadap butir itu dinyatakan dalam bentuk probabilitas jawaban benar P( ).
Dengan demikian, untuk butir ke-j, hubungan itu dapat ditulis sebagai berikut:
Pj( ) = ( ,a j , b j , c j )
Parameter sebagai ciri peserta dapat memiliki berbagai wujud sesuai dengan
dari peserta, dalam keperluan lain berwujud sikap peserta, demikian seterusnya.
jawaban benar Pj( ), namun tidak selalu memiliki ketiga parameter butir
sekaligus.
c. Subpopulasi
Parameter ciri peserta di dalam karakteristik butir membentuk
6
pengestimasian pada model tertentu yang menuntut ukuran populasi tidak kurang
dari 500, bahkan dalam prakteknya, ada orang yang sampai menggunakan
populasi peserta hampir mencapai 50.000 orang. Setiap peserta memiliki nilai
tertentu. Karena jumlah peserta cukup besar, maka pada suatu nilai
tertentu terdapat lebih dari satu peserta. Pada kontinum parameter ini, gugus
peserta yang memiliki nilai yang sama disebut subpopulasi. Oleh karena itu,
para peserta di dalam subpopulasi yang sama adalah homogen. Mereka semua
memiliki probabilitas yang sama untuk dapat menjawab butir tes itu dengan benar
atau salah.
d. Independensi Lokal
Selain unidimensi, IRT juga mensyaratkan adanya independensi lokal.
Disini, lokal dimaksudkan sebagai letak pada suatu titik di kontinum ciri peserta
. Pada prakteknya, titik pada kontinum peserta dapat berbentuk interval dan
di dalam titik atau di dalam interval parameter ciri peserta itu terhadap
subpopulasi yang homogen. Di samping homogen, syarat independensi lokal
menentukan bahwa semua peserta di dalam subpopulasi itu harus independen
terhadap butir tes. Ini berarti bahwa dengan independensi lokal, skor dari
sejumlah butir tes yang dijawab oleh subpopulasi yang sama, masing-masing
haruslah independen. Dengan demikian, skor dari satu butir tes tidak boleh
ditentukan atau bergantung kepada skor pada butir tes yang lain.
e. Invariansi Parameter
Melalui syarat pokok ini, kita menemukan bahwa fungsi atau
lengkungan responsi atau karakteritik butir adalah tetap atau tidak berubah
sekalipun kelompok peserta yang menjawab butir yang sama itu berubah-ubah.
Dan untuk kelompok yang sama, ciri mereka adalah tetap sekalipun butir yang
mereka jawab berubah-ubah.
7
Selain harus memenuhi persyaratan unidimensi, independensi lokal, dan
invariansi parameter, model IRT yang digunakan harus cocok dengan keadaan
sesungguhnya. Bersama itu, muncul pertanyaan bagaimana sebenarnya bentuk
model respon atau karakteristik butir yang paling memadai? Di dalam
penentuannya, model respon atau karakteristik butir memerlukan (Dali S.Naga,
1992:175) :
1. Bentuk matematika sebagai fungsi yang menghubungkan ciri peserta
dengan ciri butir melalui respon (jawaban) peserta terhadap butir.
2. Sejumlah parameter yang dapat mewakili ciri peserta dan ciri butir.
Menurut Hambleton & Swaminathan, (1985: 35), berdasarkan jenis
data yang diperoleh, ada beberapa model IRT yang dapat digunakan untuk
menganalisisnya, yaitu:
No. Jenis Data Model yang digunakan Referensi
1. Dichotomous Latent Linear Lazarsfeld & Henry (1968)
Perfect Scale Guttman (1944)
Latent Distance Lazarsfeld & Henry (1968)
One-, Two-, Three-
Lord (1952)
Parameter Normal Ogive
Birbaum (1957, 1958a, 1958b,
One-, Two-, Three- 1968), Lord & Novick (1968).
Parameter Logistic Lord (1980a), Rasch (1960),
Wright & Stone (1979)
McDonald (1967), Barton & Lord
Four-Parameter Logistic
(1981)
2. Multicategory Nominal Response Bock (1972)
Graded Response Samejima (1969)
Scoring
Partial Credit Model Master (1982)
3. Continous Continous Response Samejima (1972)
8
untuk item yang memiliki dua kategori skor yang mungkin seperti kategori benar-
salah. Sedangkan, untuk item yang memiliki lebih dari dua kategori skor, model
yang sesuai ialah sistem penskoran multicategory. Sebagai contoh untuk model
ini ialah tes item yang memberikan kredit parsial, seperti pertanyaan essay yang
skornya diberi rating mulai dari nol hingga empat (0 4). Selain itu, model ini
juga dapat berupa item survei dengan tingkat respons yang beragam seperti sangat
tidak setuju, tidak setuju, setuju, atau sangat setuju. Sedangkan, sistem penskoran
yang terakhir yaitu continuous scoring system merupakan model yang jarang
digunakan serta kurang dikenal oleh para praktisi. Salah satu penyebab yang
barangkali menyebabkan ketidakpopulerannya ialah kekurangan software yang
mudah diakses untuk mengestimasi model parameternya.
Pada prinsipnya, IRT menggunakan distribusi normal. Namun
penghitungan menggunakan distribusi normal agak rumit, sehingga digunakanlah
distribusi logistik (Djemari Mardapi, 2012: 202).
Untuk mencari besarnya peluang pada luasan suatu distribusi itu, maka
digunakanlah integral. Pada distribusi logistik tidak ada tanda integral, sedangkan
9
pada distribusi normal memiliki tanda integral, sehingga lebih mudah
menggunakan distribusi logistik. Hal ini dapat dijelaskan dalam persamaan
berikut :
z z
1 2
z
1
Distribusi Logistik : L(0,1,7) = 1+ e1,7 z
10
kesukaran item yang dilambangkan dengan huruf b. Pada saat nilai b
meningkat, ini berarti tingkat kesukaran item juga meningkat. Pada saat skor
kemampuan dari satu kelompok peserta ujian ditransformasikan maka rata-
ratanya ialah nol (0) dan standar deviasinya ialah satu (1). Indeks tingkat
kesukaran biasanya berkisar antara kira-kira -2,0 hingga +2,0 (Hambleton &
Swaminathan, 1985: 36). Nilai yang semakin mendekati -2 menunjukkan
karakteristik butir yang semakin mudah, dan nilai yang mendekati +2
menunjukkan karakteristik butir yang semakin sulit bagi peserta ujian.
Dalam model 1-PL, nilai b melambangkan tingkat kemampuan () yang
dituntut bagi 50% kesempatan menjawab dengan tepat. Jadi, jika b = 0,
maka kemungkinan jawaban benar akan sama dengan 0,5 pada tingkat
kemampuan = 0 (OAERS, n.d.).
Gambar 3 menunjukkan dua butir berbeda yang memiliki nilai
b1
berbeda. Nilai b untuk butir 1 = -1 ( = -1) dan nilai b untuk butir 2 = 1 (
b2
= 1). Perhatikan bagaimana nilai b menentukan lokasi horizontal
lokasi fungsi respons butir; saat nilai b bertambah, fungsi respons butir
bergerak ke kanan dan butir berubah menjadi semakin sulit. Dalam situasi
ini, butir 2 merupakan butir yang lebih sulit daripada butir 1. Dengan
demikian, pada setiap tahap kemampuan yang ada, peluang untuk menjawab
butir 1 dengan benar lebih tinggi daripada peluang menjawab butir 2 dengan
benar. Perhatikanlah bahwa peluang merespons dengan tepat terhadap butir
1 = 0,5 pada tingkat kemampuan -1, seperti yang diharapkan yaitu b1 = -1.
Demikian juga peluang menjawab benar terhadap butir 2 =0,5 pada tingkat
kemampuan 1, seperti yang diharapkan yaitu b2 = 1 (lihat Gambar 2)
(OAERS, n.d.).
11
Gambar 3. Tingkat kesulitan butir 1 dan butir 2
12
dikenal sebagai daya beda atau parameter pembeda (OAERS, n.d.).
Biasanya rentang daya beda berada antara 0-2, atau nilai daya beda tidak
akan melebihi 2 (Hambleton & Swaminathan, 1985: 36). Artinya nilai a
yang tinggi akan menghasilkan kurva karakteristik butir yang sangat curam,
sedangkan nilai a yang rendah akan menciptakan kurva karakteristik butir
yang naik secara bertahap sebagai satu fungsi kemampuan. Tingginya daya
beda sebuah butir merefleksikan tingginya tingkat informasi yang diberikan
oleh sebuah butir mengenai tingkat kemampuan responden. Oleh sebab itu,
nilai a adalah indikator dari berapa banyak sebuah butir memberi informasi
mengenai tingkat kemampuan peserta tes.
13
Adapun arti rentang nilai daya beda butir tes dapat dibedakan sebagai
berikut (Baker, 2001):
Label Verbal Rentang Nilai
Tidak ada 0
Sangat rendah 0,1 0,34
Rendah 0,35 0,64
Sedang 0,65 1,34
Tinggi 1,35 1,69
Sangat tinggi >1,70
Sempurna + tidak terbatas
14
merupakan kasus khusus dari 2-PL, yakni ketika a =1 atau a
ci
dengan pilihan 4 jawaban, maka nilai terletak di sekitar atau 0,25
15
ialah 0 (c1 = 0) dan nilai c untuk butir 2 ialah (c2 = 0.2). Namun, nilai c2 =
0.2 untuk butir 2 menyebabkan batas bawah fungsi respons butir 2 menjadi
lebih tinggi daripada butir 1, mengindikasikan adanya perilaku menebak di
butir 2. Pada saat nilai tingkat kesukaran b mewakili tingkat kemampuan
pada peluang menjawab benar ialah 0,5 di bawah model 1-PL dan model 2-
PL, hal yang sama tidak terjadi di bawah model PL ketika c > 0. Gambar 6
mendemonstrasikan hal ini, dimana peluang menjawab benar sama dengan
0,5 pada taraf kemampuan = b1 (ingat bahwa c1 = 0), tetapi peluang
menjawab butir 2 dengan benar sama dengan 0,5 pada taraf kemampuan <
b2 (ingat bahwa c2 = 0,2).
16
Gambar 8. Kurva karakteristik butir soal dengan a =1,117; b=2,287; dan
c=0,198
Pi ( ) =
1-PL 1+ e D (b ) i
1+e
e D (b )
ai i
2-PL Pi ( )=
1+ e D (b )
ai i
17
1+ e
e D (b )ai i
3-PL Pi ( )=c i +(1c i)
1+ e D (b ) ai i c i+(1c i)
1+e
e D (b )
ai i
Pi ( )=c i +( ic i)
4-PL 1+e D (b ) ai i c i+( ici )
Keterangan:
: Tingkat kemampuan (ability) peserta tes
menjawab butir i
dengan benar
ai : Indeks daya pembeda butir ke-i
P' i Pi ( )
dengan : ( = derivative dari
18
Lebih lanjut dalam bukunya, Djemari Mardapi (2012: 221) menyatakan
bahwa pengembang tes akan memilih butir yang memiliki fungsi informasi yang
paling besar dan fungsi informasi tes akan bermanfaat apabila apabila butir tes
cocok (fit) dengan model. Fungsi informasi memiliki hubungan kuadratik dengan
kesalahan pengukuran standar (Standar Error of Measurement, SE), artinya
semakin besar fungsi informasi maka SE akan semakin kecil, demikian pula
sebaliknya, semakin kecil fungsi informasi maka SE akan semakin besar. Apabila
19
2. BICAL adalah progrsm untuk model logistik 1P yang ditulis dalam bahasa
Fortran. menggunakan metoda EKM bersama, dan bekerja di komputer
mainframe. Kini program itu telah digantikan oleh BIGSCALE. Program
BICAL ini dikembangkan pada tahun 1970-an oleh Benjamin Wright di
University of Chicago, Statistical Laboratory, Department of Education,
5835 Kimbark Ave, Chicago, IL 60637, AS.
3. MICROSCALE adalah program untuk model logistik 1P multikategori
yang menggunakan metode EKM bersama dan bekerja di komputer PC.
Program ini dikembangkan pada tahun 1980-an oleh Mediax Interactive
Technologies, 21 Charles Street, Westport, CT 06880, AS.
4. LOGIST adalah program untuk model logistik 1P, 2P, dan 3P dengan
menggunakan metode EKM bersama dan bekerja di komputer mainframe
(kini sedang dibuat versi komputer PC). Program ini dikembangkan pada
tahun 1970-an oleh Educational Testing Service, Rosdale Road, Princeton,
NJ 08541, AS.
5. RASCAL adalah program untuk model logistik 1P yang menggunakan
metode EKM bersama dan bekerja di komputer PC. Program ini
dikembangkan pada tahun 1980-an oleh Assessment Systems Corporation,
2233, University Avenue, Suite 440, St.Paul, MN 55114, AS.
6. MIRTE adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM bersama dan bekerja di komputer mainframe
dan PC. Program ini dikembangkan oleh Mark Reckase, American College
Testing Program, PO Box 168, Iowa City, IA 52243, AS.
7. BILOG adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM marginal dan secara opsional menggunakan
juga metode Bayes dan bekerja di komputer mainframe dan PS/2. Program
ini dikembangkan pada tahun 1980-an oleh Scientific Software, Inc, 1369
Neitzel Road, Mooresville, IN 46158,AS.
8. MULTILOG adalah seperti BILOG tetapi untuk multikategori serta
dikembangkan oleh pengembang program BILOG.
9. RIDA adalah program untuk model logistik 1P yang menggunakan metode
EKM marginal dan bekerja di komputer PC. Program ini dikembangkan
20
pada tahun 1990 oleh Cees Glas, Institut Nasional untuk Pengukuran
Pendidikan, PO Box 1034, 6801 MG Arnhem, Belanda.
10. PML adalah program untuk model logistik 1P yang menggunakan metode
EKM kondisional. Program ini dikembangkan pada tahun 1970-an oleh
Jan-Eric Gustafsson, Universitas Goleborg, Institut Pendidikan, Fack S-
431 20, Mondal, Swedia.
11. ASCAL adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode Bayes dan bekerja di komputer PC. Program ini
dikembangkan oleh Assessment Systems Corporation, 2233 University
Avenue, Suite 440, St.Paul, MN 55114, AS.
12. NOHARM adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode kuadrat terkecil pada analisis faktor nonlinear serta
bekerja di komputer mainframe dan PC. Program ini dikembangkan pada
tahun 1980-an oleh Colin Fraser di Centre for Behavioral Studies,
University of England, Armidale, N.S.W. Australia 2351.
13. ANCILLES adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode heuristik dan bekerja di komputer mainframe.
21
BAB III
PENUTUP
3.1. Kesimpulan
Pada hakikatnya proses pengukuran semuanya baik. Hanya kekonsistenan
pelaksana dan penilai hasil pengukuran di samping kejujuran memberi penilaian
adalah yang utama. Kecanggihan alat ukur modern belum tentu bermanfaat bagi
peserta didik, selama hal itu dilakukan setengah hati. Teori responsi butir atau
item response theory merupakan alternatif pilihan yang bertujuan melepaskan diri
dari ketergantungan tes yang diberikan dengan sampel peserta tes. Dalam hal ini
walaupun soal-soal tersebut dikerjakan oleh siswa yang pandai atau siswa yang
kurang pandai, indikasi tingkat kesukaran suatu soal tetap tidak berubah.
Untuk mengukur kemampuan peserta tes yang sangat beragam di
Indoensia, seperti Ujian Nasional, seharusnya digunakan juga ujian atau tes yang
berbeda tingkat kesukaran soalnya, supaya adil dan juga akurat hasilnya. Peserta
tes atau ujian (seperti Ujian Nasional) yang mengerjakan tes atau ujian yang
berbeda tingkat kesukaran soalnya, tetap bisa dibandingkan kemampuannya,
asalkan soal-soal dalam ujian tersebut berasal atau diambil dari bank soal yang
sudah dikalibrasi dengan konsep item response theory.
Kekhawatiran dengan ketidaklulusan perlu disikapi secara wajar oleh
semua pihak, khususnya sekolah dengan memperbaiki proses pembelajaran.
Apabila upaya perbaikan proses pembelajaran telah dilakukan, sesungguhnya
tidak ada sesuatu yang perlu dikhawatirkan, karena seluruh bahan ujian sudah
mengacu pada kurikulum yang berlaku. Kelemahan-kelemahan yang ada dalam
pelaksanaan Ujian Nasional perlu diidentifikasi dan dijadikan sebagai masukan
dalam perbaikan pelaksanaan Ujian Nasional ke depan, dalam rangka membangun
suatu sistem ujian akhir yang handal, yang dapat memberikan informasi akurat
bagi pembangunan pendidikan.
22
DAFTAR RUJUKAN
Naga, Dali S.. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.
Jakarta: Gunadarma.
Mardapi, Djemari. 2012. Pengukuran, Penilaian, dan Evaluasi Pendidikan.
Yogyakarta: Nuha Litera
Samsul Hadi. (2013). Pengembangan Computerized Adaptive Test Berbasis Web.
Yogyakarta: Aswaja Pressindo.
R.K., Hambleton & Swaminathan H., (1985). Items Response Theory: Principles
and Application. Boston: Kluwer-Nijjhoff Publish.
23