Anda di halaman 1dari 23

BAB I

PENDAHULUAN

1.1. Latar Belakang


Pendidikan merupakan salah satu hal yang sangat penting dalam rangka
meningkatkan kualitas sumber daya manusia suatu negara. Pendidikan juga dapat
menjadi tolak ukur untuk mengetahui suatu negara dapat dikatakan negara
tersebut maju atau tidak. Dalam bidang pendidikan kegiatan penilaian atau
evaluasi hasil belajar sangatlah penting. Karena, dari evaluasi tersebut kita dapat
menentukan apakah metode pembalajaran yang dilakukan pendidik sudah tepat
dalam kemajuan siswa terhadap kurikulum yang telah diajarkan. Salah satu upaya
evaluasi hasil pembelajaran adalah memberikan ujian pada tengah dan akhir
semester. Namun, Pemberian soal yang terlalu susah atau terlalu mudah
menyebabkan pendidik susah membedakan kemampuan peserta didiknya. Oleh
karena itu, diperlukannya analasis terhadap soal ujian dengan harapan hasil ujian
dapat merepresentasikan kemampuan peserta didik.

Banyak metode analisis butir soal yang telah dikembangkan mulai dari
pendekatan secara klasik hingga modern. Pendekatan secara klasik yang
digunakan adalah metode teori uji klasik (classical test theory) sedangkan
pendekatan modern yang digunakan adalah metode teori respon butir (Item
Respon Theory/ IRT). Teori respon butir (IRT) merupakan teori pengukuran
modern yang biasanya digunakan untuk menganalisis butir soal dengan
kemampuan responden. Hubungan tersebut dapat digambarkan melalui kurva
karakteristik butir.

1.2. Rumusan Masalah


Rumusan masalah dari makalah ini adalah, sebagai berikut :
1. Apa definisi dari teori respon butir?
2. Ada berapa macam model teori respon butir?
3. Bagaimana kurva karakteristik butir soal pada teori respon butir?
4. Ada berapa macam software komputer yang dapat digunakan pada teori
respon butir?

1
1.3. Tujuan
Tujuan dari makalah ini, yaitu:
1. Agar dapat memahami definisi teori respon butir.
2. Agar dapat mengetahui macam-macam model teori respon butir.
3. Agar dapat memahami kurva karakteristik butir soal pada teori respon
butir.
4. Agar dapat mengetahui macam software komputer yang dapat digunakan
pada teori respon butir.

2
BAB II
PEMBAHASAN

2.1. Item Respon Theory (IRT)

Pendekatan teori respon butir merupakan pendekatan alternatif yang dapat


digunakan dalam menganalisis suatu tes. Hal ini dikarenakan teori respons butir
menggunakan model probabilistik. Model probabilistik bermakna bahwa
kemungkinan subjek untuk menjawab butir dengan benar bergantung pada
kemampuan subjek dan karakteristik butir. Artinya, peserta tes berkemampuan
tinggi mempunyai kemungkinan menjawab benar lebih besar dibandingkan
peserta tes yang berkemampuan rendah. Teori Respons Butir (Item Response
Theory-IRT) dikenal juga sebagai Teori Ciri Laten (Latent Trait Theory-LTT) atau
lengkungan karakteristik butir (Item Characteristic Curve-ICC) atau Fungsi
Karakteristik Butir (Items Characteristic Function-ICF) (Dali S.Naga, 1992: 160).
Teori ini hadir juga untuk memperbaiki kelemahan yang ada pada teori tes klasik
yakni adanya sifat group dependent dan item dependent. Hal tersebut mengartikan
bahwa indeks daya pembeda, tingkat kesulitan, dan koefisien relaibilitas tes
tergantung kepada yang mengerjakan tes tersebut, selain dipengaruhi oleh soal
atau butir yang ada (Samsul Hadi, 2013:10). Tujuan teori respon butir adalah
untuk membangun model hubungan untuk setiap butir yakni hubungan diantara
butir itu dengan para peserta yang meresponsnya.
Terdapat tiga unsur utama dalam IRT. Unsur pertama adalah butir. IRT
menelaah butir untuk menemukan cirinya. Setiap penelaahan berkenaan dengan
satu butir sehingga di dalam tes, kita dapat memiliki banyak penelaahan, masing-
masing berkenaan dengan satu butir di dalam perangkat tes itu. Unsur kedua
adalah peserta yang meresponsi butir itu. Biasanya, peserta yang meresponsi butir
itu melakukan responsinya melalui suatu kemampuan. Dalam hal ini, model pada
teori respon butir menggunakan suatu skala kontinum untuk menampung segala
jenis kemampuan peserta (responden) yang meresponsi butir. Diangkat ke istilah
yang lebih umum, kontinum segala kemampuan peserta, dinamakan kontinum ciri
peserta atau dalam sejumlah hal, dinamakan juga kontinum ciri terpendam (latent

3
trait) peserta. Unsur ketiga adalah isi responsi peserta terhadap butir tes. Didalam
tes, isi respon dapat berbentuk salah atau benar, sehingga dengan menggabungkan
isi reponsi dari semua peserta terhadap butir itu, kita menemukan hasil berupa
banyaknya jawaban benar, proporsi jawaban benar, atau probabilitas jawaban
benar. Dengan cara yang sama, kita juga dapat menemukan banyaknya jawaban
salah, proporsi jawaban salah, atau probabilitas jawaban salah.

Gambar 1. Lengkungan responsi butir atau karakteristik butir untuk butir ke-i

Tampak disitu bahwa parameter ciri butir dinyatakan dengan , dan

probabilitas jawaban benar oleh peserta dengan ciri pada butir ke-j

dinyatakan dengan Pj( ). Dari lengkungan responsi itu tampak bahwa peserta

dengan parameter ciri peserta yang rendah memiliki probabilitas yang kecil untuk
menjawab butir ke-j dengan benar. Sebaliknya, peserta dengan parameter ciri
peserta yang tinggi memiliki probabilitas yang lebih besar menjawab butir ke-j
dengan benar (Dali S.Naga, 1992).

2.2. Persyaratan dan Hakikat pada Teori Respon Butir


Menurut Dali S.Naga (1992), persyaratan dan hakikat pada IRT, yaitu:
a. Unidimensi (mengukur satu dimensi)
IRT mensyaratkan bahwa setiap butir hanya mengukur satu ciri di
kalangan peserta atau bisa disebut juga unidimensi. Dengan adanya syarat
unidimensi, maka kita memerlukan cara untuk menentukan apakah suatu butir itu
unidimensi atau tidak. Salah satu cara tersebut adalah menggunakan analisis

4
faktor. Analisis ini dapat menunjukkan di rumpun mana suatu butir tes itu terletak.
Dengan kata lain, melalui analisis faktor, kita dapat memilah sejumlah butir tes ke
dalam beberapa rumpun faktor. Di dalam rumpun faktor yang sama, semua butir
tes mengukur faktor yang sama. Selanjutnya dalam banyak hal, setiap faktor dapat
diukur melalui satu dimensi ukur, sehingga perangkat tes dalam rumpun faktor
yang sama akan terdiri atas butir yang mengukur faktor yang sama atau dalam hal
ini, dimensi yang sama. Akan tetapi, dalam kenyataannya, tidaklah mudah bagi
kita untuk menemukan butir yang murni mengukur hanya satu dimensi pada ciri
peserta. Oleh karena itu, dalam praktiknya, kita sudah merasa cukup kalau pada
pengukuran itu, kita hanya menemukan satu dimensi yang dominan. Dimensi
yang dominan itulah yang menjadi dimensi tunggal atau unidimensi pada respon
atau karakteristik butir. Jika, suatu butir tes mengukur lebih dari satu dimensi,
maka jawaban terhadap butir itu merupakan kombinasi dari berbagai kemampuan
peserta. Akibatnya kita tidak lagi mengetahui kontribusi dari setiap kemampuan
terhadap jawaban peserta. Misalnya suatu tes bertujuan untuk mengetahui
kemampuan fisika pada materi tertentu. Jika kita tidak hati-hati dalam
mengkonstruksi butir, selain mengukur fisika, butir juga bisa mengukur
kemampuan berbahasa karena butir diungkapkan melalui bahasa. Sekiranya siswa
memberi jawaban salah, maka kita tidak lagi mengetahui apakah kesalahan
disebabkan oleh kemampuan peserta di bidang fisika atau di bidang bahasa.

b. Parameter
Telah dijelaskan diatas bahwa dalam IRT terdapat 3 unsur utama, yaitu:
butir, peserta, dan respon (jawaban) peserta terhadap butir. Ketiga fungsi ini
berhubungan sehingga menghasilkan fungsi atau juga lengkungan responsi atau
lengkungan karakteristik butir. Hubungan tersebut dapat ditafsirkan sebagai
berikut: Ada satu butir (misal butir ke-j) direspon oleh sejumlah peserta. Respon
para peserta terhadap butir itu ditentukan oleh ciri butir dan ciri peserta. Dalam

hubungan ini, ciri peserta dinyatakan melalui parameter ciri peserta ( ); ciri

butir dinyatakan melalui tiga parameter butir a , b , c ; serta respon peserta

5
terhadap butir itu dinyatakan dalam bentuk probabilitas jawaban benar P( ).

Dengan demikian, untuk butir ke-j, hubungan itu dapat ditulis sebagai berikut:
Pj( ) = ( ,a j , b j , c j )

Parameter sebagai ciri peserta dapat memiliki berbagai wujud sesuai dengan

keperluannya. Di dalam suatu keperluan, berwujud kemampuan akademik

dari peserta, dalam keperluan lain berwujud sikap peserta, demikian seterusnya.

Namun, dalam makalah ini, berwujud kemampuan akademik peserta.

Parameter a pada butir melambangkan daya beda, b melambangkan tingkat


kesukaran, dan c melambangkan faktor tebakan semu (pseudoguessing). Respon
(jawaban) peserta terhadap butir dinyatakan dalam bentuk probabilitas benar.
Probabilitas jawaban benar ini diturunkan dari banyaknya peserta yang menjawab
benar terhadap banyaknya keseluruhan peserta yang menjawab butir itu. Dengan
demikian, nilai respon benar dari peserta terhadap butir itu terletak di antara 0 dan

1. Di dalam setiap model IRT, selalu terdapat parameter dan probabilitas

jawaban benar Pj( ), namun tidak selalu memiliki ketiga parameter butir

sekaligus.

c. Subpopulasi
Parameter ciri peserta di dalam karakteristik butir membentuk

suatu kontinum (rangkaian). Bentangan kontinum ini tidak dibatasi, kesemuanya


tergantung pada ukuran ciri peserta yang terdapat pada para peserta masing-
masing. Seluruh peserta yang mengerjakan tes merupakan populasi peserta.
Biasanya IRT menuntut agar ukuran peserta tidaklah terlalu kecil. Pada umumnya,
model 2P menuntut ukuran populasi peserta yang lebih besar daripada yang
dituntut oleh model 1P, dan model 3P menuntut ukuran populasi peserta yang
lebih besar daripada yang dituntut oleh model 2P. Ukuran populasi yang kecil
akan menghasilkan nilai estimasi parameter yang kurang cermat, dan bahkan
dalam keadaan tertentu, ukuran populasi yang kecil sama sekali tidak
memungkinkan pelaksanaan pengestimasian nilai parameter. Ada cara

6
pengestimasian pada model tertentu yang menuntut ukuran populasi tidak kurang
dari 500, bahkan dalam prakteknya, ada orang yang sampai menggunakan
populasi peserta hampir mencapai 50.000 orang. Setiap peserta memiliki nilai

tertentu. Karena jumlah peserta cukup besar, maka pada suatu nilai

tertentu terdapat lebih dari satu peserta. Pada kontinum parameter ini, gugus

peserta yang memiliki nilai yang sama disebut subpopulasi. Oleh karena itu,

para peserta di dalam subpopulasi yang sama adalah homogen. Mereka semua
memiliki probabilitas yang sama untuk dapat menjawab butir tes itu dengan benar
atau salah.
d. Independensi Lokal
Selain unidimensi, IRT juga mensyaratkan adanya independensi lokal.
Disini, lokal dimaksudkan sebagai letak pada suatu titik di kontinum ciri peserta

. Pada prakteknya, titik pada kontinum peserta dapat berbentuk interval dan

di dalam titik atau di dalam interval parameter ciri peserta itu terhadap
subpopulasi yang homogen. Di samping homogen, syarat independensi lokal
menentukan bahwa semua peserta di dalam subpopulasi itu harus independen
terhadap butir tes. Ini berarti bahwa dengan independensi lokal, skor dari
sejumlah butir tes yang dijawab oleh subpopulasi yang sama, masing-masing
haruslah independen. Dengan demikian, skor dari satu butir tes tidak boleh
ditentukan atau bergantung kepada skor pada butir tes yang lain.

e. Invariansi Parameter
Melalui syarat pokok ini, kita menemukan bahwa fungsi atau
lengkungan responsi atau karakteritik butir adalah tetap atau tidak berubah
sekalipun kelompok peserta yang menjawab butir yang sama itu berubah-ubah.
Dan untuk kelompok yang sama, ciri mereka adalah tetap sekalipun butir yang
mereka jawab berubah-ubah.

2.3. Model-model pada Teori Respon Butir

7
Selain harus memenuhi persyaratan unidimensi, independensi lokal, dan
invariansi parameter, model IRT yang digunakan harus cocok dengan keadaan
sesungguhnya. Bersama itu, muncul pertanyaan bagaimana sebenarnya bentuk
model respon atau karakteristik butir yang paling memadai? Di dalam
penentuannya, model respon atau karakteristik butir memerlukan (Dali S.Naga,
1992:175) :
1. Bentuk matematika sebagai fungsi yang menghubungkan ciri peserta
dengan ciri butir melalui respon (jawaban) peserta terhadap butir.
2. Sejumlah parameter yang dapat mewakili ciri peserta dan ciri butir.
Menurut Hambleton & Swaminathan, (1985: 35), berdasarkan jenis
data yang diperoleh, ada beberapa model IRT yang dapat digunakan untuk
menganalisisnya, yaitu:
No. Jenis Data Model yang digunakan Referensi
1. Dichotomous Latent Linear Lazarsfeld & Henry (1968)
Perfect Scale Guttman (1944)
Latent Distance Lazarsfeld & Henry (1968)
One-, Two-, Three-
Lord (1952)
Parameter Normal Ogive
Birbaum (1957, 1958a, 1958b,
One-, Two-, Three- 1968), Lord & Novick (1968).
Parameter Logistic Lord (1980a), Rasch (1960),
Wright & Stone (1979)
McDonald (1967), Barton & Lord
Four-Parameter Logistic
(1981)
2. Multicategory Nominal Response Bock (1972)
Graded Response Samejima (1969)
Scoring
Partial Credit Model Master (1982)
3. Continous Continous Response Samejima (1972)

Tabel di atas menunjukan bahwa terdapat tiga jenis sistem penskoran


berdasarkan jenis data yang dimiliki, yang terdiri dari sistem penskoran
dichotomous, multicategory, dan continuous. Dari ketiga sistem tersebut,
pensekoran dichotomous adalah yang paling umum digunakan dalam bidang
penilaian pendidikan. Model ini sendiri memiliki bermacam-macam tipe seperti
true-false, short answer, sentence completion, dan matching items (Hambleton &
Swaminathan, 1985: 48). Dalam hal ini, dichotomous IRT models hanyalah cocok

8
untuk item yang memiliki dua kategori skor yang mungkin seperti kategori benar-
salah. Sedangkan, untuk item yang memiliki lebih dari dua kategori skor, model
yang sesuai ialah sistem penskoran multicategory. Sebagai contoh untuk model
ini ialah tes item yang memberikan kredit parsial, seperti pertanyaan essay yang
skornya diberi rating mulai dari nol hingga empat (0 4). Selain itu, model ini
juga dapat berupa item survei dengan tingkat respons yang beragam seperti sangat
tidak setuju, tidak setuju, setuju, atau sangat setuju. Sedangkan, sistem penskoran
yang terakhir yaitu continuous scoring system merupakan model yang jarang
digunakan serta kurang dikenal oleh para praktisi. Salah satu penyebab yang
barangkali menyebabkan ketidakpopulerannya ialah kekurangan software yang
mudah diakses untuk mengestimasi model parameternya.
Pada prinsipnya, IRT menggunakan distribusi normal. Namun
penghitungan menggunakan distribusi normal agak rumit, sehingga digunakanlah
distribusi logistik (Djemari Mardapi, 2012: 202).

Gambar 2. Perbandingan kurva distribusi normal dengan kurva distribusi logistik


2
(x )
1 2
2

Distribusi Normal : N(0,1) = e


2 2
1+e


Distribusi Logistik : L(0,1,7) =
1,7 e1,7 z

Untuk mencari besarnya peluang pada luasan suatu distribusi itu, maka
digunakanlah integral. Pada distribusi logistik tidak ada tanda integral, sedangkan

9
pada distribusi normal memiliki tanda integral, sehingga lebih mudah
menggunakan distribusi logistik. Hal ini dapat dijelaskan dalam persamaan
berikut :
z z
1 2

Distribusi Normal : N (0,1) =


2
ez 2dz

z
1
Distribusi Logistik : L(0,1,7) = 1+ e1,7 z

Persamaan di atas menunjukkan bahwa integral distribusi logistik lebih


sederhana dibandingkan integral distribusi normal. Perbedaan integral dari kedua
distribusi tersebut lebih kecil dari 0,01. Asumsi yang digunakan adalah distribusi
normal, namun untuk memudahkan perhitungan, digunakan distribusi logistik.
Beda distribusi normal dan distribusi logistik paling kecil adalah jika simpangan
baku distribusi logistik sebesar 1,7; sehingga IRT cenderung menggunakan
distribusi logistik (Djemari Mardapi, 2012: 203).
Dengan menggunakan distribusi logistik, maka model pada IRT
berdasarkan jumlah parameter butirnya dibagi menjadi 4, yaitu one-parameter
logistic model (1PL), two-parameter logistic model (2PL), three-parameter
logistic model (3PL), dan four-parameter logistic model (4PL) (Hambleton &
Swaminathan, 1985: 34). Namun, dari keempat model tersebut model 1 PL, 2PL,
dan 3PL merupakan model yang umumnya digunakan. Ketiganya dibedakan
melalui jumlah parameter yang dimiliki masing-masing model sebagai pembentuk
fungsi respons item. Saat jumlah parameter dalam tiap model bertambah
(contohnya, dari 1 ke 2 ke 3), model tersebut menjadi lebih flexible dan
memberikan refleksi yang lebih realistis mengenai bagaimana respons yang
diharapkan kepada tiap item dihubungkan dengan kemampuan yang
mendasarinya. Bagaimanapun juga, dalam konteks praktis tiap-tiap model
memiliki keuntungan masing-masing sehingga ketiganya digunakan secara luas
dalam aplikasi pengujian. Masing-masing dari ketiga model tersebut dijelaskan
lebih lanjut dalam bagian-bagian berikut :
a. One-parameter logistic model (1-PL)
Model 1-PL adalah model IRT yang paling sederhana dimana hanya
terdapat satu item parameter. Parameter yang dimaksud ialah tingkat

10
kesukaran item yang dilambangkan dengan huruf b. Pada saat nilai b
meningkat, ini berarti tingkat kesukaran item juga meningkat. Pada saat skor
kemampuan dari satu kelompok peserta ujian ditransformasikan maka rata-
ratanya ialah nol (0) dan standar deviasinya ialah satu (1). Indeks tingkat
kesukaran biasanya berkisar antara kira-kira -2,0 hingga +2,0 (Hambleton &
Swaminathan, 1985: 36). Nilai yang semakin mendekati -2 menunjukkan
karakteristik butir yang semakin mudah, dan nilai yang mendekati +2
menunjukkan karakteristik butir yang semakin sulit bagi peserta ujian.
Dalam model 1-PL, nilai b melambangkan tingkat kemampuan () yang
dituntut bagi 50% kesempatan menjawab dengan tepat. Jadi, jika b = 0,
maka kemungkinan jawaban benar akan sama dengan 0,5 pada tingkat
kemampuan = 0 (OAERS, n.d.).
Gambar 3 menunjukkan dua butir berbeda yang memiliki nilai

b1
berbeda. Nilai b untuk butir 1 = -1 ( = -1) dan nilai b untuk butir 2 = 1 (

b2
= 1). Perhatikan bagaimana nilai b menentukan lokasi horizontal

lokasi fungsi respons butir; saat nilai b bertambah, fungsi respons butir
bergerak ke kanan dan butir berubah menjadi semakin sulit. Dalam situasi
ini, butir 2 merupakan butir yang lebih sulit daripada butir 1. Dengan
demikian, pada setiap tahap kemampuan yang ada, peluang untuk menjawab
butir 1 dengan benar lebih tinggi daripada peluang menjawab butir 2 dengan
benar. Perhatikanlah bahwa peluang merespons dengan tepat terhadap butir
1 = 0,5 pada tingkat kemampuan -1, seperti yang diharapkan yaitu b1 = -1.
Demikian juga peluang menjawab benar terhadap butir 2 =0,5 pada tingkat
kemampuan 1, seperti yang diharapkan yaitu b2 = 1 (lihat Gambar 2)
(OAERS, n.d.).

11
Gambar 3. Tingkat kesulitan butir 1 dan butir 2

Contoh kurva karakteristik butir yang dianalisis menggunakan model 1-PL

ditunjukkan oleh Gambar 4. Dalam gambar tersebut besarnya a =1

(konstanta), sedangkan besarnya b=0,018 (Samsul Hadi, 2013).

Gambar 4. Kurva karakteristik butir soal dengan b=0,018

b. Two-parameter logistic model (2-PL)


Model 2-PL memang memiliki keuntungan dalam hal kemudahan,
namun model itu kekurangan fleksibilitas yang membolehkan butir yang
berbeda memiliki fungsi respons butir dari kemiringan atau kecuraman yang
berbeda. Model 2-PL mengatasi keterbatasan model ini dengan
menambahkan parameter kedua (dilambangkan dengan a) yang mengontrol
kemiringan fungsi respons butir. Pada saat a meningkat, kemiringan fungsi
respons butir juga meningkat. Kemiringan fungsi respons butir
merefleksikan seberapa baiknya kemampuan butir untuk membedakan
antara individu yang memiliki nilai kemampuan tinggi ataupun rendah; ini

12
dikenal sebagai daya beda atau parameter pembeda (OAERS, n.d.).
Biasanya rentang daya beda berada antara 0-2, atau nilai daya beda tidak
akan melebihi 2 (Hambleton & Swaminathan, 1985: 36). Artinya nilai a
yang tinggi akan menghasilkan kurva karakteristik butir yang sangat curam,
sedangkan nilai a yang rendah akan menciptakan kurva karakteristik butir
yang naik secara bertahap sebagai satu fungsi kemampuan. Tingginya daya
beda sebuah butir merefleksikan tingginya tingkat informasi yang diberikan
oleh sebuah butir mengenai tingkat kemampuan responden. Oleh sebab itu,
nilai a adalah indikator dari berapa banyak sebuah butir memberi informasi
mengenai tingkat kemampuan peserta tes.

13
Adapun arti rentang nilai daya beda butir tes dapat dibedakan sebagai
berikut (Baker, 2001):
Label Verbal Rentang Nilai
Tidak ada 0
Sangat rendah 0,1 0,34
Rendah 0,35 0,64
Sedang 0,65 1,34
Tinggi 1,35 1,69
Sangat tinggi >1,70
Sempurna + tidak terbatas

Gambar 5 menunjukkan fungsi respons butir dari dua butir (butir 1


dan butir 2) yang memiliki nilai daya beda yang berbeda. Nilai a untuk butir
1=2,5 (a1 = 2.5) dan nilai a untuk butir 2=1 (a2 = 1). Bagi kedua butir ini,
nilai tingkat kesulitan b = 0. Perhatikan bahwa nilai daya beda a
menentukan kemiringan fungsi respons butir; saat a bertambah, fungsi
respons butir menjadi lebih curam dan butir tersebut menjadi butir dengan
daya beda yang semakin tinggi. Dalam situasi ini, butir 1 memiliki daya
beda yang lebih tinggi dari butir 2 sehingga butir itu memberikan banyak
informasi mengenai tingkat kemampuan peserta tes. Sehingga, butir dengan
daya beda yang lebih tinggi memiliki karakteristik psikometri yang lebih
diinginkan dibandingkan dengan butir yang memiliki nilai daya beda yang
lebih rendah (OAERS, n.d.).

Gambar 5. Daya beda butir 1 dan butir 2


Model 2-PL dan 1-PL merupakan bagian dari model 3-PL. Model 2-
PL merupakan kasus khusus dari 3-PL, yakni ketika c=0. Model 1-PL

14
merupakan kasus khusus dari 2-PL, yakni ketika a =1 atau a

merupakan tetapan untuk keseluruhan butir tes. Kurva karakteristik butir

yang dianalisis dengan model 2-PL yang memiliki a =0,527; b=1,531

ditunjukkan oleh Gambar 5.

Gambar 6. Kurva karakteristik butir soal dengan a =0,527; dan b=1,531

c. Three-parameter logistic model (3-PL)


Model 3PL adalah model yang menambahkan parameter c, mewakili
peluang menebak jawaban. Dengan adanya indeks tebakan semu
(pseudoguessing) pada model 3-PL, memungkinkan peserta yang memiliki
kemampuan rendah mempunyai peluang untuk menjawab butir soal dengan
benar. Nilai c merefleksikan nilai terendah dari fungsi respon butir saat
kemampuan menjadi sangat rendah (dikenal sebagai asimtot fungsi respons
butir). Jadi, jika c = 0,2, maka peluang menjawab benar bagi individu
dengan kemampuan yang sangat rendah ialah 0,2. Karena nilai c
merefleksikan hasil perilaku menebak jawaban, hal ini disebut dengan
parameter pseudo-guessing. Indeks tebakan semu pada tes pilihan ganda
terletak di sekitar seperbanyaknya pilihan jawaban. Misalnya pada tes

ci
dengan pilihan 4 jawaban, maka nilai terletak di sekitar atau 0,25

(Dali S. Naga, 1992: 224).


Gambar 7 menunjukkan fungsi respons butir dari dua butir berbeda
(butir 1 dan butir 2) yang memiliki nilai c yang berbeda; nilai c untuk butir 1

15
ialah 0 (c1 = 0) dan nilai c untuk butir 2 ialah (c2 = 0.2). Namun, nilai c2 =
0.2 untuk butir 2 menyebabkan batas bawah fungsi respons butir 2 menjadi
lebih tinggi daripada butir 1, mengindikasikan adanya perilaku menebak di
butir 2. Pada saat nilai tingkat kesukaran b mewakili tingkat kemampuan
pada peluang menjawab benar ialah 0,5 di bawah model 1-PL dan model 2-
PL, hal yang sama tidak terjadi di bawah model PL ketika c > 0. Gambar 6
mendemonstrasikan hal ini, dimana peluang menjawab benar sama dengan
0,5 pada taraf kemampuan = b1 (ingat bahwa c1 = 0), tetapi peluang
menjawab butir 2 dengan benar sama dengan 0,5 pada taraf kemampuan <
b2 (ingat bahwa c2 = 0,2).

Gambar 7. Perilaku menebak di butir 2

Contoh kurva karakteristik butir soal yang dianalisis dengan model 3-

PL yang memiliki a =1,117; b=2,287; dan c=0,198 ditunjukkan pada

Gambar 8. Gambar ini menunjukkan bahwa probabilitas menjawab benar


tidak berawal dari 0, tetapi berawal dari 0,198. Jadi jawaban yang sifatnya
tebakan mempunyai kemungkinan benar 19,8%.

16
Gambar 8. Kurva karakteristik butir soal dengan a =1,117; b=2,287; dan

c=0,198

Hambleton & Swaminathan (1985: 48) menyatakan melalui model 4-PL


akan dijelaskan bahwa siswa yang memiliki kemampuan tinggi tidak selalu
menjawab soal dengan benar. Terkadang mereka mengerjakan soal dengan
sembrono, sehingga soal yang seharusnya dijawab benar malah dijawab salah.
Selanjutnya, dikarenakan indeks parameter butir dan kemampuan peserta
merupakan hasil estimasi, maka kebenarannya bersifat probabilistik dan
mengandung kesalahan pengukuran. Namun, karena bebas dari group
dependent dan item dependent, maka IRT dapat digunakan untuk mengetahui
karakteristik butir soal secara lebih meyakinkan dibandingkan dengan teori tes
klasik (Samsul Hadi, 2013). Dibawah ini disajikan rumus bagi masing-masing
model parameter logistik (Hambleton & Swaminathan, 1985: 48) :

Model Rumus matematis


1+e
e D (b ) i


Pi ( ) =
1-PL 1+ e D (b ) i

1+e
e D (b )
ai i


2-PL Pi ( )=
1+ e D (b )
ai i

17
1+ e
e D (b )ai i

3-PL Pi ( )=c i +(1c i)
1+ e D (b ) ai i c i+(1c i)

1+e
e D (b )
ai i

Pi ( )=c i +( ic i)
4-PL 1+e D (b ) ai i c i+( ici )

Keterangan:
: Tingkat kemampuan (ability) peserta tes

Pi ( ) : Probabilitas peserta tes yang memiliki kemampuan dapat

menjawab butir i
dengan benar
ai : Indeks daya pembeda butir ke-i

bi : Indeks kesukaran butir ke-i

ci : Indeks tebakan semu (pseudoguessing) butir ke-i

e : bilangan natural yang nilainya mendekati 2,718

D : faktor penskalaan yang harganya 1,7

2.4. Fungsi Informasi


Pada IRT, indeks keandalan (koefisien reliabilitas) tes dinyatakan dengan
fungsi informasi tes, yaitu merupakan penjumlahan fungsi informasi semua butir
tes (Djemari Mardapi, 2012: 220). Besarnya informasi suatu tes merupakan
penjumlahan informasi tiap butir tes, yaitu (Hambleton & Swaminathan, 1985:
102) :
n
P ' i ()2
I i ( ) =
i=1 Pi ( ) Q i ( )

P' i Pi ( )
dengan : ( = derivative dari

Ii ( ) = informasi dari butir i

18
Lebih lanjut dalam bukunya, Djemari Mardapi (2012: 221) menyatakan
bahwa pengembang tes akan memilih butir yang memiliki fungsi informasi yang
paling besar dan fungsi informasi tes akan bermanfaat apabila apabila butir tes
cocok (fit) dengan model. Fungsi informasi memiliki hubungan kuadratik dengan
kesalahan pengukuran standar (Standar Error of Measurement, SE), artinya
semakin besar fungsi informasi maka SE akan semakin kecil, demikian pula
sebaliknya, semakin kecil fungsi informasi maka SE akan semakin besar. Apabila

nilai fungsi informasi dinyatakan dengan Ii ( ) maka nilai estimasi SE

adalah (Hambleton & Swaminathan, 1985: 102):


1
SE ( )=
Ii( )

2.5. Macam-Macam Program Komputer


Cara perhitungan dalam mengestimasi parameter pasti sangat sulit jika
dikerjakan secara manual atau dengan kalkulator elektronika. Perhitungan
semacam ini tentu saja memerlukan bantuan komputer. Bahkan dengan
komputerpun, ada kalanya, perhitungan itu memerlukan waktu yang agak lama.
Oleh karena itu, sejak tahun 1970-an, para ahli pengukuran sudah menyusun
program komputer untuk melakukan pengestimasian parameter melalui teori
respon butir. Ada yang melakukannya pada model ogive normal, namun sebagian
besar melakukannya dengan pada model ogive logistik. Pada model logistik pun,
ada yang menyusunnya untuk model 1P, 2P, maupun 3P.
Sebagian besar program komputer itu menggunakan metode estimasi
kebolehjadian maksimum (EKM), namun ada juga yang menggunakan metode
Bayes, analisis faktor, dan heuristik. Sebagian di antara mereka bekerja pada
komputer mainframe serta sebagian lagi bekerja pada komputer PC. Beberapa di
antara program itu yaitu (Dali S.Naga, 1992: 283-285):
1. NORMOG adalah program untuk model ogive normal yang ditulis dalam
bahasa Fortran dan bekerja di komputer mainframe. Program ini
dikembangkan oleh International Testing Services, 1525 East 3rd Street,
Chicago, IL 60615, AS.

19
2. BICAL adalah progrsm untuk model logistik 1P yang ditulis dalam bahasa
Fortran. menggunakan metoda EKM bersama, dan bekerja di komputer
mainframe. Kini program itu telah digantikan oleh BIGSCALE. Program
BICAL ini dikembangkan pada tahun 1970-an oleh Benjamin Wright di
University of Chicago, Statistical Laboratory, Department of Education,
5835 Kimbark Ave, Chicago, IL 60637, AS.
3. MICROSCALE adalah program untuk model logistik 1P multikategori
yang menggunakan metode EKM bersama dan bekerja di komputer PC.
Program ini dikembangkan pada tahun 1980-an oleh Mediax Interactive
Technologies, 21 Charles Street, Westport, CT 06880, AS.
4. LOGIST adalah program untuk model logistik 1P, 2P, dan 3P dengan
menggunakan metode EKM bersama dan bekerja di komputer mainframe
(kini sedang dibuat versi komputer PC). Program ini dikembangkan pada
tahun 1970-an oleh Educational Testing Service, Rosdale Road, Princeton,
NJ 08541, AS.
5. RASCAL adalah program untuk model logistik 1P yang menggunakan
metode EKM bersama dan bekerja di komputer PC. Program ini
dikembangkan pada tahun 1980-an oleh Assessment Systems Corporation,
2233, University Avenue, Suite 440, St.Paul, MN 55114, AS.
6. MIRTE adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM bersama dan bekerja di komputer mainframe
dan PC. Program ini dikembangkan oleh Mark Reckase, American College
Testing Program, PO Box 168, Iowa City, IA 52243, AS.
7. BILOG adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM marginal dan secara opsional menggunakan
juga metode Bayes dan bekerja di komputer mainframe dan PS/2. Program
ini dikembangkan pada tahun 1980-an oleh Scientific Software, Inc, 1369
Neitzel Road, Mooresville, IN 46158,AS.
8. MULTILOG adalah seperti BILOG tetapi untuk multikategori serta
dikembangkan oleh pengembang program BILOG.
9. RIDA adalah program untuk model logistik 1P yang menggunakan metode
EKM marginal dan bekerja di komputer PC. Program ini dikembangkan

20
pada tahun 1990 oleh Cees Glas, Institut Nasional untuk Pengukuran
Pendidikan, PO Box 1034, 6801 MG Arnhem, Belanda.
10. PML adalah program untuk model logistik 1P yang menggunakan metode
EKM kondisional. Program ini dikembangkan pada tahun 1970-an oleh
Jan-Eric Gustafsson, Universitas Goleborg, Institut Pendidikan, Fack S-
431 20, Mondal, Swedia.
11. ASCAL adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode Bayes dan bekerja di komputer PC. Program ini
dikembangkan oleh Assessment Systems Corporation, 2233 University
Avenue, Suite 440, St.Paul, MN 55114, AS.
12. NOHARM adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode kuadrat terkecil pada analisis faktor nonlinear serta
bekerja di komputer mainframe dan PC. Program ini dikembangkan pada
tahun 1980-an oleh Colin Fraser di Centre for Behavioral Studies,
University of England, Armidale, N.S.W. Australia 2351.
13. ANCILLES adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode heuristik dan bekerja di komputer mainframe.

21
BAB III
PENUTUP

3.1. Kesimpulan
Pada hakikatnya proses pengukuran semuanya baik. Hanya kekonsistenan
pelaksana dan penilai hasil pengukuran di samping kejujuran memberi penilaian
adalah yang utama. Kecanggihan alat ukur modern belum tentu bermanfaat bagi
peserta didik, selama hal itu dilakukan setengah hati. Teori responsi butir atau
item response theory merupakan alternatif pilihan yang bertujuan melepaskan diri
dari ketergantungan tes yang diberikan dengan sampel peserta tes. Dalam hal ini
walaupun soal-soal tersebut dikerjakan oleh siswa yang pandai atau siswa yang
kurang pandai, indikasi tingkat kesukaran suatu soal tetap tidak berubah.
Untuk mengukur kemampuan peserta tes yang sangat beragam di
Indoensia, seperti Ujian Nasional, seharusnya digunakan juga ujian atau tes yang
berbeda tingkat kesukaran soalnya, supaya adil dan juga akurat hasilnya. Peserta
tes atau ujian (seperti Ujian Nasional) yang mengerjakan tes atau ujian yang
berbeda tingkat kesukaran soalnya, tetap bisa dibandingkan kemampuannya,
asalkan soal-soal dalam ujian tersebut berasal atau diambil dari bank soal yang
sudah dikalibrasi dengan konsep item response theory.
Kekhawatiran dengan ketidaklulusan perlu disikapi secara wajar oleh
semua pihak, khususnya sekolah dengan memperbaiki proses pembelajaran.
Apabila upaya perbaikan proses pembelajaran telah dilakukan, sesungguhnya
tidak ada sesuatu yang perlu dikhawatirkan, karena seluruh bahan ujian sudah
mengacu pada kurikulum yang berlaku. Kelemahan-kelemahan yang ada dalam
pelaksanaan Ujian Nasional perlu diidentifikasi dan dijadikan sebagai masukan
dalam perbaikan pelaksanaan Ujian Nasional ke depan, dalam rangka membangun
suatu sistem ujian akhir yang handal, yang dapat memberikan informasi akurat
bagi pembangunan pendidikan.

22
DAFTAR RUJUKAN

Naga, Dali S.. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.
Jakarta: Gunadarma.
Mardapi, Djemari. 2012. Pengukuran, Penilaian, dan Evaluasi Pendidikan.
Yogyakarta: Nuha Litera
Samsul Hadi. (2013). Pengembangan Computerized Adaptive Test Berbasis Web.
Yogyakarta: Aswaja Pressindo.
R.K., Hambleton & Swaminathan H., (1985). Items Response Theory: Principles
and Application. Boston: Kluwer-Nijjhoff Publish.

23

Anda mungkin juga menyukai