Anda di halaman 1dari 42

Teori Respon Butir

Teori Respon Butir

BAB I
PENDAHULUAN

A. DESKRIPSI

S etelah Anda membaca dan memahami tentang validitas dan reliabilitas,


sekarang kita akan melanjutkan materi tentang Teori respon butir ( Item
Response Theory ) Untuk lebih jelaskan mari mempelajari bersama
materi tentang IRT ini.

B. PETUNJUK PENGGUNAAN MODUL

Ada beberapa hal yang disarankan agar Anda dapat mempelajari modul
ini dengan baik. Adapun saran penggunaan modul adalah sebagai berikut:

1. Berdoalah sebelum mempelajari modul ini.


2. Bacalah terlebih dahulu pendahuluan dalam modul ini
3. Terlebih dahulu bacalah sepintas bagian demi bagian yang ada dalam
modul ini. Kemudian temukan kata-kata kunci yang dianggap baru. Baru
kemudian baca keseluruhan isi dari modul ini.
4. Pahamilah pengertian demi pengertian, materi demi materi yang ada
dalam modul ini menurut pemahaman Anda sendiri. Kemudian ajaklah
teman Anda untuk berdiskusi tentang pengertian atau materi materi
tersebut.
5. Untuk menambah wawasan, baca, gunakan dan pelajari sumber-sumber
belajar lain yang relevan.
6. Tingkatkan pemahaman Anda dengan mengerjakan latihan atau melalui
kegiatan diskusi dengan mahasiswa lain atau teman sejawat.
7. Usahakan untuk tidak melewatkan untuk menjwab soal-soal yang
dituliskan pada setiap kegiatan belajar. Hal ini berguna untuk
mengetahui apakah Anda sudah memahami atau belum materi yang
ada dalam modul ini.

1
Teori Respon Butir

C. TUJUAN KEGIATAN BELAJAR

Perlu Anda ketahui bahwa modul ini disusun untuk memberikan


pengetahuan atau wawasan tentang Teori Respon Butir bagi para calon
peneliti, khususnya bagi mereka yang akan berorientasi pada tes modern
dalam bidang pendidikan dan pembelajaran. Oleh karena itu, setelah Anda
mempelajari modul ini, diharapkan dapat mencapai tujuan kegiatan belajar.

Setelah mempelajari modul ini, Anda diharapkan dapat memiliki


kemampuan dalam:
“Mengetahui analisis instrumen dengan teori tes klasik dan teori
respon butir”

D. KEGIATAN BELAJAR MANDIRI

Untuk memudahkan Anda memahami modul dan mencapai tujuan di


atas, modul ini dikembangkan menjadi kegiatan belajar mandiri (KBM), yaitu:
Kegiatan Belajar-1 (KB-1) membahas mengenai konsep Teori Respon
Butir

BAB II
PEMBELAJARAN

Kegiatan Belajar 1
Teori Tes Klasik
Teori Respon Butir

a. Tujuan Pembelajaran

Setelah mempelajari Kegiatan Belajar 1, diharapkan Anda mampu untuk:

1. Mendefinisikan pengertian teori respon butir.


2. Membedakan model-model teori respon butir.
3. Mendeskripsikan karakteristik butir soal pada teori respon butir
4. Mengidentifikasi software komputer yang dapat digunakan pada teori
respon butir.

___________________________________

b. Uraian Materi
__________________________________________

Sebelum Anda mempelajari lebih jauh tentang Teori Respons Butir, ada
baiknya Anda mempelajari lebih jauh tentang definisi dan karakteristik teori
tes klasik. Topik ini tentunya akan mengantarkan Anda untuk dapat
memahami secara rinci bagaimana konsep dari Teori Response Butir.
Dalam pengukuran pendidikan, terdapat dua pendekatan yang sering
digunakan yaitu teori tes klasik dan teori respons butir. Bila menggunakan
teori tes klasik, umumnya siswa menjawab butir soal suatu tes yang
berbentuk pilihan ganda dengan benar diberi skor 1 dan 0 jika salah,
sehingga kemampuan siswa dinyatakan dengan skor total yang
diperolehnya. Prosedur tersebut kurang memperhatikan interaksi antara
setiap orang siswa dengan butir. Namun, pendekatan teori respon butir
merupakan pendekatan alternatif yang dapat digunakan dalam
menganalisis suatu tes. Hal ini dikarenakan teori respons butir
menggunakan model probabilistik. Model probabilistik bermakna bahwa
probabilitas subjek untuk menjawab butir dengan benar bergantung pada
kemampuan subjek dan karakteristik butir. Artinya, peserta tes
berkemampuan tinggi mempunyai probabilitas menjawab benar lebih besar
dibandingkan peserta tes yang berkemampuan rendah. Selain itu, menurut
Hambleton& Swaminathan (1985: 1-3), teori tes klasik memiliki beberapa
kelemahan yaitu: (1) tingkat kesukaran dan daya beda butir soal tergantung
pada kelompok peserta yang mengerjakannya, (2) penggunaan metode
dan teknik untuk desain dan analisis tes dengan memperbandingkan

3
Teori Respon Butir

kemampuan siswa pada pembagian kelompok atas, tengah, dan bawah, (3)
Konsep reliabilitas skor didefinisikan dari istilah tes paralel, (4) tidak ada
dasar teori untuk menentukan bagaimana peserta memperoleh tes yang
sesuai dengan kemampuan peserta yang bersangkutan, dan (5) Standard
Error Measurement (SEM) berlaku pada seluruh peserta tes. Berdasarkan
kelemahan-kelemahan tersebut, maka pendekatan Teori Respons Butir
muncul untuk mengatasi kelemahan yang ada pada Teori Tes Klasik.

1. Sejarah Singkat Teori Respon Butir (TRB/IRT)


Pada dekade 1970an, IRT menjadi topik yang dominan untuk
dipelajari para ahli pengukuran. Akan tetapi kemunculan IRT sebenarnya
dapat dilacak kembali sekitar pertengahan tahun 1930an dan awal
1940an. Faktanya, istilah Item Characteristic Curve (ICC) adalah salah
satu dari konsep utama IRT yang digagas oleh Ledyard Tucker tahun
1946. Sayangnya, ketertarikan terhadap IRT menjadi berkurang hingga
akhir 1960 karena adanya perkembangan teori True Score. Pada saat
teori True Score berkembang dengan cepat dan menarik perhatian para
psikometrian, masalah dan kelemahan yang diwarisi dalam teori ini mulai
mendapatkan perhatian. Masalah-masalah tersebut seperti kekurangan
invarian dari parameter item diantara kelompok yang diuji dan
ketidakmampuan prosedur tes klasik untuk mendeteksi bias item, yang
akhirnya menyebabkan ketertarikan terhadap IRT kembali meningkat
(Hambleton & Swaminathan, 1985).
2. Tujuan Teori Respons Butir
Teori Respons Butir (Item Response Theory-IRT) dikenal juga
sebagai Teori Ciri Laten (Latent Trait Theory-LTT) atau lengkungan
karakteristik butir (Item Characteristic Curve-ICC) atau Fungsi
Karakteristik Butir (Items Characteristic Function-ICF) (Baker,2001:6).
Pada dasarnya, teori ini ingin memperbaiki kelemahan yang terdapat
pada teori tes klasik yakni adanya sifat group dependent dan item
dependent. Hal ini berarti indeks daya pembeda, tingkat kesulitan, dan
koefisien reliabilitas tes tergantung kepada yang mengerjakan tes
tersebut, selain dipengaruhi oleh soal atau butir yang ada (Samsul Hadi,
2013: 10). Dengan IRT ini, ukuran taraf kesukaran butir serta ciri butir
lainnya akan tetap (invarian) terhadap kelompok peserta tes, tidak
masalah kelompok peserta mana saja yang mengerjakannya selama
mereka mempunyai kemampuan yang memadai untuk mengerjakannya;
dan dengan teori ini pula, ukuran kemampuan peserta akan tetap
(invarian) terhadap kelompok butir tes, tidak masalah kelompok butir
mana saja yang mereka kerjakan selama kelompok butir itu mampu
Teori Respon Butir

secara memadai dikerjakan oleh peserta tes. Tujuan teori respon butir
adalah untuk membangun model hubungan untuk setiap butir yakni
hubungan antara butir itu dengan peserta yang meresponnya.
Untuk mencapai tujuan seperti ini, IRT membangun suatu model
yang menghubungkan ciri butir dengan ciri peserta. Dengan sejumlah
syarat tertentu, model hubungan itu dibuat untuk berlaku secara bebas
bagi kelompok butir dan kelompok peserta mana saja yang memenuhi
syarat itu. Dengan kata lain, model hubungan tersebut dibuat untuk
berlaku bagi sejumlah kelompok butir dan sejumlah kelompok peserta
tanpa ketergantungan satu terhadap ciri lainnya. Ciri butir dan ciri peserta
yang dihubungkan oleh model yang berbentuk fungsi atau lengkungan
grafik dengan sejumlah syarat itu dinyatakan melalui sejumlah
parameter. Ada parameter ciri butir dan ada pula parameter ciri peserta
dengan menggunakan cukup banyak butir tes serta cukup banyak respon
peserta tes, dari model hubungan itu kita dapat mengestimasi parameter
ciri butir dan parameter ciri peserta. Demikianlah dengan adanya butir
tes, peserta tes, respon peserta, ciri butir, ciri terpendam (laten) dari
peserta, model hubungan berbentuk fungsi atau berbentuk lengkungan
grafik ini, muncullah berbagai istilah seperti teori respons butir, teori ciri
laten, lengkungan karakteristik butir, dan fungsi karakteristik butir. Sesuai
dengan namanya, teori respon butir membangun model hubungan untuk
setiap butir yakni hubungan diantara butir itu dengan para peserta yang
meresponsnya.
Terdapat tiga unsur utama dalam IRT. Unsur pertama adalah butir.
IRT menelaah butir untuk menemukan cirinya. Setiap penelaahan
berkenaan dengan satu butir sehingga di dalam tes, kita dapat memiliki
banyak penelaahan, masing-masing berkenaan dengan satu butir di
dalam perangkat tes itu. Unsur kedua adalah peserta yang meresponsi
butir itu. Biasanya, peserta yang meresponsi butir itu melakukan
responsinya melalui suatu kemampuan. Dalam hal ini, model pada teori
respon butir menggunakan suatu skala kontinum untuk menampung
segala jenis kemampuan peserta (responden) yang meresponsi butir.
Diangkat ke istilah yang lebih umum, kontinum segala kemampuan
peserta, dinamakan kontinum ciri peserta atau dalam sejumlah hal,
dinamakan juga kontinum ciri terpendam (latent trait) peserta. Unsur
ketiga adalah isi responsi peserta terhadap butir tes. Didalam tes, isi
respon dapat berbentuk salah atau benar, sehingga dengan
menggabungkan isi reponsi dari semua peserta terhadap butir itu, kita
menemukan hasil berupa banyaknya jawaban benar, proporsi jawaban
benar, atau probabilitas jawaban benar. Dengan cara yang sama, kita

5
Teori Respon Butir

juga dapat menemukan banyaknya jawaban salah, proporsi jawaban


salah, atau probabilitas jawaban salah.

Gambar 1. Lengkungan responsi butir atau karakteristik butir untuk butir ke-i

Tampak disitu bahwa parameter ciri butir dinyatakan dengan , dan


probabilitas jawaban benar oleh peserta dengan ciri pada butir ke-j
dinyatakan dengan Pj( ). Dari lengkungan responsi itu tampak bahwa
peserta dengan parameter ciri peserta yang rendah memiliki probabilitas
yang kecil untuk menjawab butir ke-j dengan benar. Sebaliknya, peserta
dengan parameter ciri peserta yang tinggi memiliki probabilitas yang lebih
besar menjawab butir ke-j dengan benar (Retnawati,....).
3. Persyaratan dan Hakikat pada Teori Respon Butir
Persyaratan dan hakikat pada IRT, yaitu:
a. Unidimensi (mengukur satu dimensi)
Pada umumnya, IRT mensyaratkan bahwa setiap butir hanya
mengukur satu ciri di kalangan peserta, meskipun belakangan ini
berkembang IRT Multidimensi. Namun pembahasan kita disini, IRT
dibatasi pada butir unidimensi sehingga unidimensi inilah yang
menjadi salah satu syarat pada butir itu. Persyaratan butir
unidimensi ditujukan untuk mempertahankan invariansi pada IRT.
Jika suatu butir tes mengukur lebih dari satu dimensi, maka jawaban
terhadap butir itu merupakan kombinasi dari berbagai kemampuan
peserta. Akibatnya kita tidak lagi mengetahui kontribusi dari setiap
kemampuan terhadap jawaban peserta. Misalnya suatu tes
bertujuan untuk mengetahui kemampuan fisika pada materi tertentu.
Jika kita tidak hati-hati dalam mengkonstruksi butir, selain mengukur
fisika, butir juga bisa mengukur kemampuan berbahasa karena butir
diungkapkan melalui bahasa. Sekiranya siswa memberi jawaban
salah, maka kita tidak lagi mengetahui apakah kesalahan
Teori Respon Butir

disebabkan oleh kemampuan peserta di bidang fisika atau di bidang


bahasa.
Dengan adanya syarat unidimensi, maka kita memerlukan cara
untuk menentukan apakah suatu butir itu unidimensi atau tidak.
Salah satu cara tersebut adalah menggunakan analisis faktor.
Analisis ini dapat menunjukkan di rumpun mana suatu butir tes itu
terletak. Dengan kata lain, melalui analisis faktor, kita dapat
memilah sejumlah butir tes ke dalam beberapa rumpun faktor. Di
dalam rumpun faktor yang sama, semua butir tes mengukur faktor
yang sama. Selanjutnya dalam banyak hal, setiap faktor dapat
diukur melalui satu dimensi ukur, sehingga perangkat tes dalam
rumpun faktor yang sama akan terdiri atas butir yang mengukur
faktor yang sama atau dalam hal ini, dimensi yang sama. Akan
tetapi, dalam kenyataannya, tidaklah mudah bagi kita untuk
menemukan butir yang murni mengukur hanya satu dimensi pada
ciri peserta. Oleh karena itu, dalam praktiknya, kita sudah merasa
cukup kalau pada pengukuran itu, kita hanya menemukan satu
dimensi yang dominan. Dimensi yang dominan itulah yang menjadi
dimensi tunggal atau unidimensi pada respon atau karakteristik
butir.
b. Parameter
Telah dijelaskan diatas bahwa dalam IRT terdapat 3 unsur
utama, yaitu: butir, peserta, dan respon (jawaban) peserta terhadap
butir. Ketiga fungsi ini berhubungan sehingga menghasilkan fungsi
atau juga lengkungan responsi atau lengkungan karakteristik butir.
Hubungan tersebut dapat ditafsirkan sebagai berikut: Ada satu butir
(misal butir ke-j) direspon oleh sejumlah peserta. Respon para
peserta terhadap butir itu ditentukan oleh ciri butir dan ciri peserta.
Dalam hubungan ini, ciri peserta dinyatakan melalui parameter ciri
peserta ( ); ciri butir dinyatakan melalui tiga parameter butir ;
serta respon peserta terhadap butir itu dinyatakan dalam bentuk
probabilitas jawaban benar P( ). Dengan demikian, untuk butir ke-j,
hubungan itu dapat ditulis sebagai berikut:
Pj( ) =
Parameter sebagai ciri peserta dapat memiliki berbagai
wujud sesuai dengan keperluannya. Di dalam suatu keperluan,
berwujud kemampuan akademik dari peserta, dalam keperluan lain
berwujud sikap peserta, demikian seterusnya. Namun, dalam modul
ini, berwujud kemampuan akademik peserta. Parameter ɑ pada
butir melambangkan daya beda, b melambangkan tingkat

7
Teori Respon Butir

kesukaran, dan c melambangkan faktor tebakan semu


(pseudoguessing). Respon (jawaban) peserta terhadap butir
dinyatakan dalam bentuk probabilitas benar. Probabilitas jawaban
benar ini diturunkan dari banyaknya peserta yang menjawab benar
terhadap banyaknya keseluruhan peserta yang menjawab butir itu.
Dengan demikian, nilai respon benar dari peserta terhadap butir itu
terletak di antara 0 dan 1. Di dalam setiap model IRT, selalu
terdapat parameter dan probabilitas jawaban benar Pj( ), namun
tidak selalu memiliki ketiga parameter butir sekaligus.
c. Subpopulasi
Parameter ciri peserta di dalam karakteristik butir membentuk
suatu kontinum (rangkaian). Bentangan kontinum ini tidak dibatasi,
kesemuanya tergantung pada ukuran ciri peserta yang terdapat
pada para peserta masing-masing. Seluruh peserta yang
mengerjakan tes merupakan populasi peserta. Biasanya IRT
menuntut agar ukuran peserta tidaklah terlalu kecil. Pada umumnya,
model 2P menuntut ukuran populasi peserta yang lebih besar
daripada yang dituntut oleh model 1P, dan model 3P menuntut
ukuran populasi peserta yang lebih besar daripada yang dituntut
oleh model 2P. Ukuran populasi yang kecil akan menghasilkan nilai
estimasi parameter yang kurang cermat, dan bahkan dalam
keadaan tertentu, ukuran populasi yang kecil sama sekali tidak
memungkinkan pelaksanaan pengestimasian nilai parameter. Ada
cara pengestimasian pada model tertentu yang menuntut ukuran
populasi tidak kurang dari 500, bahkan dalam prakteknya, ada
orang yang sampai menggunakan populasi peserta hampir
mencapai 50.000 orang. Setiap peserta memiliki nilai tertentu.
Karena jumlah peserta cukup besar, maka pada suatu nilai
tertentu terdapat lebih dari satu peserta. Pada kontinum parameter
ini, gugus peserta yang memiliki nilai yang sama disebut
subpopulasi. Oleh karena itu, para peserta di dalam subpopulasi
yang sama adalah homogen. Mereka semua memiliki probabilitas
yang sama untuk dapat menjawab butir tes itu dengan benar atau
salah.
d. Independensi Lokal
Selain unidimensi, IRT juga mensyaratkan adanya
independensi lokal. Disini, lokal dimaksudkan sebagai letak pada
suatu titik di kontinum ciri peserta . Pada prakteknya, titik pada
kontinum peserta dapat berbentuk interval. Dan di dalam titik atau di
dalam interval parameter ciri peserta itu terhadap subpopulasi yang
Teori Respon Butir

homogen. Di samping homogen, syarat independensi lokal


menentukan bahwa semua peserta di dalam subpopulasi itu harus
independen terhadap butir tes. Ini berarti bahwa dengan
independensi lokal, skor dari sejumlah butir tes yang dijawab oleh
subpopulasi yang sama, masing-masing haruslah independen.
Dengan demikian, skor dari satu butir tes tidak boleh ditentukan
atau bergantung kepada skor pada butir tes yang lain.
e. Invariansi Parameter
Melalui syarat pokok ini, kita menemukan bahwa fungsi atau
lengkungan responsi atau karakteritik butir adalah tetap atau tidak
berubah sekalipun kelompok peserta yang menjawab butir yang
sama itu berubah-ubah. Dan untuk kelompok yang sama, ciri
mereka adalah tetap sekalipun butir yang mereka jawab berubah-
ubah.
4. Model-model Teori Respon Butir
Selain harus memenuhi persyaratan unidimensi, independensi lokal,
dan invariansi parameter, model IRT yang digunakan harus cocok
dengan keadaan sesungguhnya. Bersama itu, muncul pertanyaan
bagaimana sebenarnya bentuk model respon atau karakteristik butir
yang paling memadai? Di dalam penentuannya, model respon atau
karakteristik butir memerlukan :
a. Bentuk matematika sebagai fungsi yang menghubungkan ciri
peserta dengan ciri butir melalui respon (jawaban) peserta terhadap
butir.
b. Sejumlah parameter yang dapat mewakili ciri peserta dan ciri butir.
Menurut Hambleton & Swaminathan, (1985: 35), berdasarkan jenis
data yang diperoleh, ada beberapa model IRT yang dapat digunakan
untuk menganalisisnya, yaitu:
Model yang
No. Jenis Data Referensi
digunakan
1. Dichotomous Latent Linear Lazarsfeld & Henry (1968)
Perfect Scale Guttman (1944)
Latent Distance Lazarsfeld & Henry (1968)
One-, Two-, Three-
Parameter Normal Lord (1952)
Ogive
Birbaum (1957, 1958a, 1958b,
One-, Two-, Three- 1968), Lord & Novick (1968).
Parameter Logistic Lord (1980a), Rasch (1960),
Wright & Stone (1979)

9
Teori Respon Butir

Model yang
No. Jenis Data Referensi
digunakan
Four-Parameter McDonald (1967), Barton &
Logistic Lord (1981)
2. Multicategory Nominal Response Bock (1972)
Scoring Graded Response Samejima (1969)
Partial Credit Model Master (1982)
3. Continous Continous Response Samejima (1972)

Tabel di atas menunjukan bahwa terdapat tiga jenis sistem


penskoran yang terdiri dari sistem penskoran dichotomous,
multicategory, dan continuous berdasarkan jenis data yang dimiliki. Dari
ketiga sistem tersebut, pensekoran dichotomous adalah yang paling
umum digunakan dalam bidang penilaian pendidikan. Model ini sendiri
memiliki bermacam-macam tipe seperti true-false, short answer,
sentence completion, dan matching items (Hambleton & Swaminathan,
1985: 48). Dalam hal ini, dichotomous IRT models hanyalah cocok untuk
item yang memiliki dua kategori skor yang mungkin seperti kategori
benar-salah. Sedangkan, untuk item yang memiliki lebih dari dua kategori
skor, model yang sesuai ialah sistem penskoran multicategory. Sebagai
contoh untuk model ini ialah tes item yang memberikan kredit parsial,
seperti pertanyaan essay yang skornya diberi rating mulai dari nol hingga
empat (0 – 4). Selain itu, model ini juga dapat berupa item survei dengan
tingkat respons yang beragam seperti sangat tidak setuju, tidak setuju,
setuju, atau sangat setuju. Sedangkan, sistem penskoran yang terakhir
yaitu continuous scoring system merupakan model yang jarang
digunakan serta kurang dikenal oleh para praktisi. Salah satu penyebab
yang barangkali menyebabkan ketidakpopulerannya ialah kekurangan
software yang mudah diakses untuk mengestimasi model parameternya.
Pada prinsipnya, IRT menggunakan distribusi normal. Namun
penghitungan menggunakan distribusi normal agak rumit, sehingga
digunakanlah distribusi logistik (Mardapi, 2012: 202).

Gambar 2. Perbandingan kurva distribusi normal dengan kurva distribusi


logistik
Teori Respon Butir

Distribusi Normal : N(0,1) =√

Distribusi Logistik : L(0,1,7) =


Untuk mencari besarnya peluang pada luasan suatu distribusi itu,
maka digunakanlah integral. Pada distribusi logistik tidak ada tanda
integral, sedangkan pada distribusi normal memiliki tanda integral,
sehingga lebih mudah menggunakan distribusi logistik. Hal ini dapat
dijelaskan dalam persamaan berikut :
Distribusi Normal : ∫ = ∫

Distribusi Logistik : ∫ =
Persamaan di atas menunjukkan bahwa integral distribusi logistik
lebih sederhana dibandingkan integral distribusi normal. Perbedaan
integral dari kedua distribusi tersebut lebih kecil dari 0,01. Asumsi yang
digunakan adalah distribusi normal, namun untuk memudahkan
perhitungan, digunakan distribusi logistik. Beda distribusi normal dan
distribusi logistik paling kecil adalah jika simpangan baku distribusi
logistik sebesar 1,7; sehingga IRT cenderung menggunakan distribusi
logistik (Mardapi, 2012: 203).
Dengan menggunakan distribusi logistik, maka model pada IRT
berdasarkan jumlah parameter butirnya dibagi menjadi 4, yaitu one-
parameter logistic model (1PL), two-parameter logistic model (2PL),
three-parameter logistic model (3PL), dan four-parameter logistic model
(4PL) (Hambleton & Swaminathan, 1985: 34). Namun, dari keempat
model tersebut model 1 PL, 2PL, dan 3PL merupakan model yang
umumnya digunakan. Ketiganya dibedakan melalui jumlah parameter
yang dimiliki masing-masing model sebagai pembentuk fungsi respons
item. Saat jumlah parameter dalam tiap model bertambah (contohnya,
dari 1 ke 2 ke 3), model tersebut menjadi lebih flexible dan memberikan
refleksi yang lebih realistis mengenai bagaimana respons yang
diharapkan kepada tiap item dihubungkan dengan kemampuan yang
mendasarinya. Bagaimanapun juga, dalam konteks praktis tiap-tiap
model memiliki keuntungan masing-masing sehingga ketiganya
digunakan secara luas dalam aplikasi pengujian. Masing-masing dari
ketiga model tersebut dijelaskan lebih lanjut dalam bagian-bagian berikut
:
One-parameter logistic model (1-PL)
Model 1-PL adalah model IRT yang paling sederhana dimana
hanya terdapat satu item parameter. Parameter yang dimaksud
ialah tingkat kesukaran item yang dilambangkan dengan huruf b.

11
Teori Respon Butir

Pada saat nilai b meningkat, ini berarti tingkat kesukaran item juga
meningkat. Pada saat skor kemampuan dari satu kelompok peserta
ujian ditransformasikan maka rata-ratanya ialah nol (0) dan standar
deviasinya ialah satu (1). Indeks tingkat kesukaran biasanya
berkisar antara kira-kira -2,0 hingga +2,0 (Hambleton &
Swaminathan, 1985: 36). Nilai yang semakin mendekati -2
menunjukkan karakteristik butir yang semakin mudah, dan nilai yang
mendekati +2 menunjukkan karakteristik butir yang semakin sulit
bagi peserta ujian. Dalam model 1-PL, nilai b melambangkan tingkat
kemampuan (θ) yang dituntut bagi 50% kesempatan menjawab
dengan tepat. Jadi, jika b = 0, maka kemungkinan jawaban benar
akan sama dengan 0,5 pada tingkat kemampuan θ = 0 (OAERS,
n.d.).
Gambar 3 menunjukkan dua butir berbeda yang memiliki nilai
berbeda. Nilai b untuk butir 1 = -1 ( = -1) dan nilai b untuk butir 2 =
1 ( = 1). Perhatikan bagaimana nilai b menentukan lokasi
horizontal lokasi fungsi respons butir; saat nilai b bertambah, fungsi
respons butir bergerak ke kanan dan butir berubah menjadi semakin
sulit. Dalam situasi ini, butir 2 merupakan butir yang lebih sulit
daripada butir 1. Dengan demikian, pada setiap tahap kemampuan
yang ada, peluang untuk menjawab butir 1 dengan benar lebih
tinggi daripada peluang menjawab butir 2 dengan benar.
Perhatikanlah bahwa peluang merespons dengan tepat terhadap
butir 1 = 0,5 pada tingkat kemampuan -1, seperti yang diharapkan
yaitu b1 = -1. Demikian juga peluang menjawab benar terhadap
butir 2 =0,5 pada tingkat kemampuan 1, seperti yang diharapkan
yaitu b2 = 1 (lihat Gambar 2) (OAERS, n.d.).

Gambar 3. Tingkat kesulitan butir 1 dan butir 2


Contoh kurva karakteristik butir yang dianalisis menggunakan model
1-PL ditunjukkan oleh Gambar 4. Dalam gambar tersebut besarnya
Teori Respon Butir

=1 (konstanta), sedangkan besarnya b=0,018 (Samsul Hadi,


2013).

Gambar 4. Kurva karakteristik butir soal dengan b=0,018

Two-parameter logistic model (2-PL)


Model 2-PL memang memiliki keuntungan dalam hal
kemudahan, namun model itu kekurangan fleksibilitas yang
membolehkan butir yang berbeda memiliki fungsi respons butir dari
kemiringan atau kecuraman yang berbeda. Model 2-PL mengatasi
keterbatasan model ini dengan menambahkan parameter kedua
(dilambangkan dengan a) yang mengontrol kemiringan fungsi
respons butir. Pada saat a meningkat, kemiringan fungsi respons
butir juga meningkat. Kemiringan fungsi respons butir merefleksikan
seberapa baiknya kemampuan butir untuk membedakan antara
individu yang memiliki nilai kemampuan θ tinggi ataupun rendah; ini
dikenal sebagai daya beda atau parameter pembeda (OAERS, n.d.).
Biasanya rentang daya beda berada antara 0-2, atau nilai daya
beda tidak akan melebihi 2 (Hambleton & Swaminathan, 1985: 36).
Artinya nilai a yang tinggi akan menghasilkan kurva karakteristik
butir yang sangat curam, sedangkan nilai a yang rendah akan
menciptakan kurva karakteristik butir yang naik secara bertahap
sebagai satu fungsi kemampuan. Tingginya daya beda sebuah butir
merefleksikan tingginya tingkat informasi yang diberikan oleh
sebuah butir mengenai tingkat kemampuan responden. Oleh sebab
itu, nilai a adalah indikator dari berapa banyak sebuah butir memberi
informasi mengenai tingkat kemampuan peserta tes. Adapun arti
rentang nilai daya beda butir tes dapat dibedakan sebagai berikut
(Baker, 2001):

13
Teori Respon Butir

Label Verbal Rentang Nilai


Tidak ada 0
Sangat rendah 0,1 – 0,34
Rendah 0,35 – 0,64
Sedang 0,65 – 1,34
Tinggi 1,35 – 1,69
Sangat tinggi >1,70
Sempurna + tidak terbatas
Gambar 5 menunjukkan fungsi respons butir dari dua butir
(butir 1 dan butir 2) yang memiliki nilai daya beda yang berbeda.
Nilai a untuk butir 1=2,5 (a1 = 2.5) dan nilai a untuk butir 2=1 (a2 =
1). Bagi kedua butir ini, nilai tingkat kesulitan b = 0. Perhatikan
bahwa nilai daya beda a menentukan kemiringan fungsi respons
butir; saat a bertambah, fungsi respons butir menjadi lebih curam
dan butir tersebut menjadi butir dengan daya beda yang semakin
tinggi. Dalam situasi ini, butir 1 memiliki daya beda yang lebih tinggi
dari butir 2 sehingga butir itu memberikan banyak informasi
mengenai tingkat kemampuan peserta tes. Sehingga, butir dengan
daya beda yang lebih tinggi memiliki karakteristik psikometri yang
lebih diinginkan dibandingkan dengan butir yang memiliki nilai daya
beda yang lebih rendah (OAERS, n.d.).

Gambar 5. Daya beda butir 1 dan butir 2


Model 2-PL dan 1-PL merupakan bagian dari model 3-PL.
Model 2-PL merupakan kasus khusus dari 3-PL, yakni ketika c=0.
Model 1-PL merupakan kasus khusus dari 2-PL, yakni ketika =1
atau merupakan tetapan untuk keseluruhan butir tes. Kurva
karakteristik butir yang dianalisis dengan model 2-PL yang memiliki
=0,527; b=1,531 ditunjukkan oleh Gambar 5.
Teori Respon Butir

Gambar 6. Kurva karakteristik butir soal dengan =0,527; dan b=1,531

Three-parameter logistic model (3PL)


Model 3PL adalah model yang menambahkan parameter c,
mewakili peluang menebak jawaban. Dengan adanya indeks
tebakan semu (pseudoguessing) pada model 3-PL, memungkinkan
peserta yang memiliki kemampuan rendah mempunyai peluang
untuk menjawab butir soal dengan benar. Nilai c merefleksikan nilai
terendah dari fungsi respon butir saat kemampuan menjadi sangat
rendah (dikenal sebagai asimtot fungsi respons butir). Jadi, jika c =
0,2, maka peluang menjawab benar bagi individu dengan
kemampuan yang sangat rendah ialah 0,2. Karena nilai c
merefleksikan hasil perilaku menebak jawaban, hal ini disebut
dengan parameter pseudo-guessing. Indeks tebakan semu pada tes
pilihan ganda terletak di sekitar seperbanyaknya pilihan jawaban.
Misalnya pada tes dengan pilihan 4 jawaban, maka nilai terletak
di sekitar ¼ atau 0,25.
Gambar 7 menunjukkan fungsi respons butir dari dua butir
berbeda (butir 1 dan butir 2) yang memiliki nilai c yang berbeda; nilai
c untuk butir 1 ialah 0 (c1 = 0) dan nilai c untuk butir 2 ialah (c2 =
0.2). Namun, nilai c2 = 0.2 untuk butir 2 menyebabkan batas bawah
fungsi respons butir 2 menjadi lebih tinggi daripada butir 1,
mengindikasikan adanya perilaku menebak di butir 2. Pada saat
nilai tingkat kesukaran b mewakili tingkat kemampuan pada peluang
menjawab benar ialah 0,5 di bawah model 1-PL dan model 2-PL, hal
yang sama tidak terjadi di bawah model PL ketika c > 0. Gambar 6
mendemonstrasikan hal ini, dimana peluang menjawab benar sama
dengan 0,5 pada taraf kemampuan θ = b1 (ingat bahwa c1 = 0),

15
Teori Respon Butir

tetapi peluang menjawab butir 2 dengan benar sama dengan 0,5


pada taraf kemampuan θ < b2 (ingat bahwa c2 = 0,2).

Gambar 7. Perilaku menebak di butir 2

Contoh kurva karakteristik butir soal yang dianalisis dengan


model 3-PL yang memiliki =1,117; b=2,287; dan c=0,198
ditunjukkan pada Gambar 8. Gambar ini menunjukkan bahwa
probabilitas menjawab benar tidak berawal dari 0, tetapi berawal
dari 0,198. Jadi jawaban yang sifatnya tebakan mempunyai
kemungkinan benar 19,8%.

Gambar 8. Kurva karakteristik butir soal dengan =1,117; b=2,287; dan


c=0,198

Hambleton & Swaminathan (1985: 48) menyatakan melalui


model 4-PL akan dijelaskan bahwa siswa yang memiliki
kemampuan tinggi tidak selalu menjawab soal dengan benar.
Terkadang mereka mengerjakan soal dengan sembrono, sehingga
soal yang seharusnya dijawab benar malah dijawab salah.
Selanjutnya, dikarenakan indeks parameter butir dan kemampuan
Teori Respon Butir

peserta merupakan hasil estimasi, maka kebenarannya bersifat


probabilistik dan mengandung kesalahan pengukuran. Namun,
karena bebas dari group dependent dan item dependent, maka IRT
dapat digunakan untuk mengetahui karakteristik butir soal secara
lebih meyakinkan dibandingkan dengan teori tes klasik (Samsul
Hadi, 2013). Dibawah ini disajikan rumus bagi masing-masing model
parameter logistik (Hambleton & Swaminathan, 1985: 48) :
Model Rumus matematis

1-PL

2-PL

3-PL

4-PL

Keterangan:
: Tingkat kemampuan (ability) peserta tes
: Probabilitas peserta tes yang memiliki kemampuan dapat
menjawab butir i dengan benar
: Indeks daya pembeda butir ke-i
: Indeks kesukaran butir ke-i
: Indeks tebakan semu (pseudoguessing) butir ke-i
: Indeks kecerobohan (carelessness) butir ke-i
: bilangan natural yang nilainya mendekati 2,718
D : faktor penskalaan yang harganya 1,7

5. Estimasi Parameter pada Model Logistik


Responsi butir atau karakteristik butir menghubungkan karakter
peserta dengan parameter butir ke dalam suatu bentuk yang bersifat
probabilitas. Probabilitas ini adalah probabilitas jawaban benar dari butir
itu. Selanjutnya, dengan mengetahui probabilitas jawaban benar ini, kita
dapat menghitung probabilitas jawaban salah. Jika probabilitas jawaban
benar adalah p, maka probabilitas jawaban salah adalah q=1-p.

17
Teori Respon Butir

Misalkan suatu butir dijawab oleh 2 peserta. Peserta pertama menjawab


dengan benar, sedangkan peserta kedua menjawab dengan salah.
Secara probabilitas, kombinasi jawaban benar dan jawaban salah ini
adalah pq. Kombinasi probabilitas jawaban dari kedua peserta ini dikenal
sebagai kebolehjadian (likelihood). Kebolehjadian ini menyatakan bahwa
boleh saja terjadi bahwa diantara kedua peserta itu, satu peserta
menjawab benar dan satu peserta lagi menjawab salah.
Kebolehjadian maksimum atau cara lain yang serupa dengan itu
merupakan cara yang paling banyak digunakan orang untuk
mengestimasi parameter dari model logistik. Pengestimasian parameter
dengan bantuan kebolehjadian maksimum ini dikenal sebagai estimasi
kebolehjadian maksimum (EKM) atau Maximum Likelihood Estimation
(MLE). Pengestimasian dengan cara ini menghadapi beberapa hal yaitu:

a. Data empirik
MLE memerlukan sejumlah data empirik yang berasal dari
sejumlah peserta yang mengerjakan sejumlah butir tertentu. Agar
pengestimasian dapat dilakukan dengan baik, ukuran data empirik
tidak boleh terlalu kecil. Ukuran tersebut tergantung pada model
logistik yang digunakan, misalnya untuk program yang bekerja pada
1P memerlukan minimal 25 butir yang dikerjakan oleh minimal 500
peserta.
b. Parameter yang akan diestimasi
Dalam hal tertentu, kita telah mengetahui parameter butir dan
akan mengestimasi parameter peserta. Dalam hal lain, parameter
peserta telah diketahui dan akan mengestimasi parameter butir. Dan
dalam hal lain lagi, kita belum mengetahui semua parameter,
sehingga kita akan mengestimasi parameter peserta dan parameter
butir secara bersamaan.
c. Alat hitung pada pengestimasian
Secara sederhana, pengestimasian dapat dilakukan dengan
kalkulator. Namun, dalam kebanyakan keadaan, perhitungan akan
terlalu rumit sehingga membutuhkan bantuan komputer. Dalam hal
ini, kita berhadapan dengan banyak jenis program komputer untuk
pengestimasian parameter yang selama telah disusun oleh para
ahli.
d. Cara estimasi yang digunakan
Diatas kita telah membicarakan cara estimasi dengan
kebolehjadian maksimum. Dalam hal ini, kita berhadapan dengan
Teori Respon Butir

beberapa bentuk estimasi kebolehjadian maksimum yang berbeda-


beda, antara lain:
a) Kebolehjadian maksimum bersama-sama (Joint Maximum
Likelihood)
 Parameter peserta dan parameter butir diestimasi bersama-
sama.
b) Kebolehjadian maksimum marginal (Marginal Maximum
Likelihood)
 Parameter peserta diintegrasi dan parameter butir diestimasi
serta kemudian parameter butir diintegrasi dan parameter
peserta diestimasi.
c) Kebolehjadian maksimum kondisional (Conditional Maximum
Likelihood)
 Pengestimasian dikondisikan pada banyaknya jawaban
benar.
d) Bayes bersama-sama dan marginal (Joint and Marginal
Bayesian)
 Pengestimasian menggunakan rerata atau modus dari
distribusi yang telah ada sebelumnya.
e) Analisis faktor nonlinear (Nonlinear factor analysis)
 Pengestimasian menggunakan kuadrat terkecil di dalam
analisis faktor
f) Heuristik
 Pengestimasian menggunakan prosedur lain yang tidak
ditentukan lebih dulu.
Setiap pengukuran melibatkan parameter butir dan parameter
kemampuan. Apabila parameter butir telah diketahui, maka cara
estimasinya lebih sederhana dan lebih mudah. Namun apabila parameter
butir dan parameter kemampuan keduanya tidak diketahui maka cara
estimasinya akan lebih kompleks. Estimasi kemampuan dengan IRT
dilakukan menggunakan butir-butir soal yang telah dikalibrasi. Butir soal
yang telah dikalibrasi adalah butir yang telah diketahui besarnya
parameter butirnya (tingkat kesulitan, daya beda, dan pseudoguessing).
Estimasi kemampuan dapat dilakukan dengan menggunakan fungsi
likelihood. Peluang peserta didik dengan kemampuan memberi respon
Ui pada item i sebagai berikut (Djemari Mardapi, 2012) :
1 untuk jawaban benar
Ui =
0 untuk jawaban salah

19
Teori Respon Butir

Untuk respon benar, P(Ui = 1| ) adalah fungsi respon butir, yaitu atau sering ditulis
dengan Pi.
P(Ui | ) = P(Ui = 1| ) P(Ui = 0| )
=
= PiQi
Jadi untuk P (U1, U2, ... Un | ) = P(U1| ) P(U1| ) , ... , P(Un | ), harga U=1 atau 0

= ∏
= ∏
adalah peluang respons gabungan n butir. Random variabel U1, U2, ..., Un
dengan nilai spesifik u1, u2, ... un, nilainya adalah 0 atau 1. Apabila fungsi
matematika ditulis sebagai fungsi Likelihood maka:
L (u1, u2, ... un| ) = ∏

Contoh : Misalkan ada lima butir soal dengan respon sebagai berikut :
U = (u1, u2, u3, u4, u5) = ( 1 0 1 1 0)
Fungsi Likelihood-nya dapat ditulis sebagai berikut :
L (u| ) = P1 Q2 P3 P4 Q5
P dan Q merupakan fungsi respon butir, sehingga besarnya bergantung
pada parameter butir. Metode estimasi menggunakan MLE merupakan
metode estimasi yang berdasarkan pola respon peserta didik. Respon
peserta didik terhadap butir atau item soal dinyakatakan dengan huruf kecil
u.
ui = 1 (jika benar) dan ui = 0 (jika salah)
Pola respon dinyatakan dengan U sebagai vector response. Contoh: U = 1
100
Dengan menggunakan prinsip independensi lokal (Local independence),
maka MLE dua butir benar dari tiga soal, kemungkinannya adalah: 1 1 0, 1
0 1, 0 1 1, dan dapat ditulis sebagai berikut :
P (U = 1 1 0) = P1 P2 Q3
P (U = 1 0 1) = P1 Q2 P3
P (U = 0 1 1) = Q1 P2 P3
Contoh lain: apabila tiga butir tersebut memiliki peluang benar sebagai
berikut :
P1 = 0,4 maka Q1 = 0,6
Teori Respon Butir

P2 = 0,6 maka Q2 = 0,4


P3 = 0,7 maka Q3 = 0,3
Untuk harga tertentu diperoleh likelihood untuk berbagai pola respon yang mungkin :

U Likelihood L (u| ) ∏

000 Q1 Q2 Q3 = 0,6 x 0,4 x 0,3 0,072


001 Q1 Q2 P3 = 0,6 x 0,4 x 0,7 0,168
010 Q1 P2 Q3 = 0,6 x 0,6 x 0,3 0,108
100 P1 Q2 Q3 = 0,4 x 0,4 x 0,3 0,048
011 Q1 P2 P3 = 0,6 x 0,6 x 0,7 0,252
101 P1 Q2 P3 = 0,4 x 0,4 x 0,7 0,112
110 P1 P2 Q3 = 0,4 x 0,6 x 0,3 0,072
111 P 1 P2 P3 = 0,4 x 0,6 x 0,7 0,168
Berdasarkan hasil diatas, kecenderungan terbesar adalah respon peserta
ujian 0 1 1 dengan likelihood sebesar 0,252. Hal ini menunjukkan bahwa
untuk tingkat kemampuan peserta ujian tertentu, kecenderungan paling
besar pola respon peserta adalah 0 1 1.
Estimasi kemampuan peserta didik bisa dilakukan dengan
menggunakan model MLE. Untuk itu diperlukan informasi tentang
parameter butir. Biasanya parameter butir diperoleh melalui kalibrasi butir
tes. Contoh penggunaan metode MLE untuk mengestimasi kemampuan
yaitu (Djemari Mardapi: 2012) :
Diketahui : butir 1 memiliki =0,00; b=-0,50; dan c=0,20
butir 2 memiliki =0,50; b=0,50; dan c=0,20
butir 3 memiliki =0,70; b=-0,70; dan c=0,20
Kemudian dicari besarnya peluang menjawab benar tiap butir tes untuk
berbagai harga kemampuan, mulai dari -3 sampai +3. Tabel berikut
memaparkan Metode Maximum Likelihood untuk estimasi kemampuan
peserta tes bagi 3 butir tes dengan respons 1 1 0:
Butir 1 Butir 2 Butir 3
L (U = 1 1 0| ) L (u| )
P1 Q1 P2 Q2 P3 Q3
-3,0 0,6 0,4 0,24 0,76 0,21 0,79 0,11 0,07
-2,5 0,6 0,4 0,26 0,74 0,22 0,78 0,12 0,08
-2,0 0,6 0,4 0,29 0,71 0,23 0,77 0,13 0,08
-1,5 0,6 0,4 0,32 0,68 0,25 0,75 0,14 0,09
-1,0 0,6 0,4 0,37 0,63 0,29 0,71 0,16 0,10
-0,5 0,6 0,4 0,44 0,56 0,35 0,65 0,17 0,11
0,0 0,6 0,4 0,52 0,48 0,44 0,56 0,18 0,11

21
Teori Respon Butir

Butir 1 Butir 2 Butir 3


L (U = 1 1 0| ) L (u| )
P1 Q1 P2 Q2 P3 Q3
0,5 0,6 0,4 0,60 0,40 0,55 0,45 0,16 0,10
1,0 0,6 0,4 0,68 0,32 0,67 0,33 0,14 0,09
1,5 0,6 0,4 0,76 0,24 0,78 0,22 0,10 0,07
2,0 0,6 0,4 0,83 0,17 0,86 0,14 0,07 0,04
2,5 0,6 0,4 0,88 0,12 0,92 0,08 0,04 0,03
3,0 0,6 0,4 0,91 0,09 0,95 0,05 0,03 0,02
Total 1,55 1,00
Besarnya peluang menjawab benar tiap butir untuk 3-P menggunakan
formula:

Besarnya peluang menjawab benar dihitung untuk tiap kemampuan yaitu


mulai -3 sampai 3. Selanjutnya dihitung besarnya likelihood untuk tiap
kemampuan dengan formula :
L (u| ) = ∏

Untuk tiga butir tes, likelihood untuk respon 1 1 0 adalah:

L (U = 1 1 0| ) = ∏
= P11 Qi 1-1 . P2 Q2 1-1 . P30 Q3 1
= P1 P2 Q3
Besarnya kemampuan peserta tes dengan respon 1 1 0 (butir satu benar,
butir dua benar, dan butir tiga benar) adalah harga Likelihood yang terbesar
L (U| ). Harga Likelihood terbesar merupakan estimasi kemampuan
peserta didik dengan respon 1 1 0, yaitu sebesar 0,18. Likelihood sebesar
0,18 terletak pada kemampuan 0,00. Jadi kemampuan peserta dengan
respon 1 1 0 adalah 0.
6. Fungsi Informasi
Pada IRT, indeks keandalan (koefisien reliabilitas) tes dinyatakan dengan
fungsi informasi tes, yaitu merupakan penjumlahan fungsi informasi semua
butir tes (Djemari Mardapi, 2012: 220). Besarnya informasi suatu tes
merupakan penjumlahan informasi tiap butir tes, yaitu (Hambleton &
Swaminathan, 1985: 102) :


Teori Respon Butir

dengan : ( = derivative dari


= informasi dari butir i
Lebih lanjut dalam bukunya, Djemari Mardapi (2012: 221)
menyatakan bahwa pengembang tes akan memilih butir yang memiliki
fungsi informasi yang paling besar dan fungsi informasi tes akan
bermanfaat apabila apabila butir tes cocok (fit) dengan model. Fungsi
informasi memiliki hubungan kuadratik dengan kesalahan pengukuran
standar (Standar Error of Measurement, SE), artinya semakin besar
fungsi informasi maka SE akan semakin kecil, demikian pula sebaliknya,
semakin kecil fungsi informasi maka SE akan semakin besar. Apabila
nilai fungsi informasi dinyatakan dengan maka nilai estimasi SE
adalah (Hambleton & Swaminathan, 1985: 102):

7. Estimasi melalui Program Komputer


Cara perhitungan dalam mengestimasi parameter pasti sangat sulit
jika dikerjakan secara manual atau dengan kalkulator elektronika.
Perhitungan semacam ini tentu saja memerlukan bantuan komputer.
Bahkan dengan komputerpun, ada kalanya, perhitungan itu memerlukan
waktu yang agak lama. Oleh karena itu, sejak tahun 1970-an, para ahli
pengukuran sudah menyusun program komputer untuk melakukan
pengestimasian parameter melalui teori respon butir. Ada yang
melakukannya pada model ogive normal, namun sebagian besar
melakukannya dengan pada model ogive logistik. Pada model logistik
pun, ada yang menyusunnya untuk model 1P, 2P, maupun 3P.
Sebagian besar program komputer itu menggunakan metode
estimasi kebolehjadian maksimum (EKM), namun ada juga yang
menggunakan metode Bayes, analisis faktor, dan heuristik. Sebagian di
antara mereka bekerja pada komputer mainframe serta sebagian lagi
bekerja pada komputer PC. Beberapa di antara program itu yaitu:
a. NORMOG adalah program untuk model ogive normal yang ditulis
dalam bahasa Fortran dan bekerja di komputer mainframe. Program
ini dikembangkan oleh International Testing Services, 1525 East 3rd
Street, Chicago, IL 60615, AS.

23
Teori Respon Butir

b. BICAL adalah program untuk model logistik 1P yang ditulis dalam


bahasa Fortran. menggunakan metoda EKM bersama, dan bekerja
di komputer mainframe. Kini program itu telah digantikan oleh
BIGSCALE. Program BICAL ini dikembangkan pada tahun 1970-an
oleh Benjamin Wright di University of Chicago, Statistical
Laboratory, Department of Education, 5835 Kimbark Ave, Chicago,
IL 60637, AS.
c. MICROSCALE adalah program untuk model logistik 1P
multikategori yang menggunakan metode EKM bersama dan
bekerja di komputer PC. Program ini dikembangkan pada tahun
1980-an oleh Mediax Interactive Technologies, 21 Charles Street,
Westport, CT 06880, AS.
d. LOGIST adalah program untuk model logistik 1P, 2P, dan 3P
dengan menggunakan metode EKM bersama dan bekerja di
komputer mainframe (kini sedang dibuat versi komputer PC).
Program ini dikembangkan pada tahun 1970-an oleh Educational
Testing Service, Rosdale Road, Princeton, NJ 08541, AS.
e. RASCAL adalah program untuk model logistik 1P yang
menggunakan metode EKM bersama dan bekerja di komputer PC.
Program ini dikembangkan pada tahun 1980-an oleh Assessment
Systems Corporation, 2233, University Avenue, Suite 440, St.Paul,
MN 55114, AS.
f. MIRTE adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM bersama dan bekerja di komputer
mainframe dan PC. Program ini dikembangkan oleh Mark Reckase,
American College Testing Program, PO Box 168, Iowa City, IA
52243, AS.
g. BILOG adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode EKM marginal dan secara opsional
menggunakan juga metode Bayes dan bekerja di komputer
mainframe dan PS/2. Program ini dikembangkan pada tahun 1980-
an oleh Scientific Software, Inc, 1369 Neitzel Road, Mooresville, IN
46158,AS.
h. MULTILOG adalah seperti BILOG tetapi untuk multikategori serta
dikembangkan oleh pengembang program BILOG.
i. RIDA adalah program untuk model logistik 1P yang menggunakan
metode EKM marginal dan bekerja di komputer PC. Program ini
dikembangkan pada tahun 1990 oleh Cees Glas, Institut Nasional
untuk Pengukuran Pendidikan, PO Box 1034, 6801 MG Arnhem,
Belanda.
Teori Respon Butir

j. PML adalah program untuk model logistik 1P yang menggunakan


metode EKM kondisional. Program ini dikembangkan pada tahun
1970-an oleh Jan-Eric Gustafsson, Universitas Goleborg, Institut
Pendidikan, Fack S-431 20, Mondal, Swedia.
k. ASCAL adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode Bayes dan bekerja di komputer PC. Program
ini dikembangkan oleh Assessment Systems Corporation, 2233
University Avenue, Suite 440, St.Paul, MN 55114, AS.
l. NOHARM adalah program untuk model logistik 1P, 2P, dan 3P yang
menggunakan metode kuadrat terkecil pada analisis faktor nonlinear
serta bekerja di komputer mainframe dan PC. Program ini
dikembangkan pada tahun 1980-an oleh Colin Fraser di Centre for
Behavioral Studies, University of England, Armidale, N.S.W.
Australia 2351.
m. ANCILLES adalah program untuk model logistik 1P, 2P, dan 3P
yang menggunakan metode heuristik dan bekerja di komputer
mainframe.

25
Teori Respon Butir

1. Rangkuman

Pada hakikatnya proses pengukuran semuanya baik. Hanya


kekonsistenan pelaksanaan dan penilai hasil pengukuran di samping
kejujuran memberi nilai yang utama. Kecanggihan alat ukur modern
belum tentu bermanfaat bagi peserta didik, selama hal itu dilakukan
setengah hati. Teori respon butir atau item response theory
merupakan alternatif pilihan yang bertujuan melepaskan diri dari
ketergantungan tes yang diberikan dengan sampel peserta tes.
Dalam hal ini walaupun soal-soal tersebut dikerjakan oleh siswa yang
pandai atau siswa yang kurang pandai, indikasi tingkat kesukaran
suatu soal tetap tidak berubah.
Untuk mengukur kemampuan peserta tes yang sangat beragam
di indonesia, seperti ujian nasional, seharusnya digunakan juga ujian
atau tes yang berbeda tingkat kesukaran soalnya, supaya adil dan
juga akurat hasilnya. Peserta tes atau ujian( seperti ujian nasional)
yang mengerjakan tes atau ujian yang berbeda tingkat kesukaran
soalnya, tetap bisa dibandingkan kemampuannya, asalkan soal-soal
dalam ujian tersebut berasal atau diambil dari bank soal yang sudah
dikalibrasi dengan konsep item response theory.
Kekhawatiran dengan ketidaklulusan perlu disikapi secara wajar
oleh semua pihak, khususnya sekolah dengan memperbaiki proses
pembelajaran. Apabila upaya perbaikan proses pembelajaran telah
dilakukan, sesungguhnya tidak ada sesuatu yang perlu
dikhawatirkan, karena seluruh bahan ujian sudah mengacu pada
kurikulum yang berlaku. Kelemahan-kelemahan yang ada dalam
pelaksanaan ujian nasional perlu diidentifikasi dan dijadikan sebagai
masukan dalam perbaikan jian nasional kedepan.

_________________________________________
Teori Respon Butir

2. Latihan
____________________________________________
Setelah Anda mempelajari kegiatan belajar 1 ini dengan baik,
berikut ini terdapat beberapa latihan yang dapat Anda lakukan
bersama dengan teman sejawat lain. Latihan ini dapat dilakukan
secara mandiri dan dapat pula dilakukan secara bersama. Jika
dilakukan secara bersama, latihan dapat dilakukan dengan bersama-
sama mengerjakan dan kemudian membuat laporan hasil latihan
atau, dapat pula dilakukan dengan melakukan diskusi yang diawali
dengan saling bertanya jawab dimana setiap teman kelompok Anda
ditugasi untuk memberikan satu pertanyaan dan menjawab satu
pertanyaan lainnya. Hasil jawaban setiap pertanyaan tadi kemudian
didiskusikan untuk memperoleh jawaban yang paling tepat.
Berikut ini adalah pertanyaan latihan yang perlu Anda selesaikan,
yaitu:
Dibawah ini tersaji respon Andry terhadap 12 butir soal pilihan
ganda yang telah diketahui indeks kesulitan dan indeks daya bedanya.
Hitunglah seberapa berapa kemampuan 𝜃 Andry dalam menjawab butir
soal tersebut!
No.butir 1 2 3 4 5 6 7 8 9 10 11 12
Iks 0,45 0,41 0,34 0,38 0,33 0,46 0,34 0,36 0,42 0,35 0,44 0,53
Idb 0,65 0,46 0,47 0,52 0,42 0,74 0,54 0,64 0,39 0,47 0,56 0,64
Respon 1 1 0 1 1 1 0 1 1 1 0 1

Catatan :
1. Skor jawaban benar = 1 dan skor jawaban salah = 0.
2. Untuk memudahkan penghitungan, maka nilai D = 1.
3. Interval kemampuan ditetapkan dari -3 ≤ 𝜃 ≤ 3

27
Teori Respon Buir

BAB III
EVALUASI

KOGNITIF SKILLS

Jawablah seluruh pertanyaan-pertanyaan berikut sesuai pemahaman


anda setelah mempelajari modul ini!
1) Tuliskan Kelemahan-kelemahan Teori Tes Klasik!
2) Sebutkan tujuan teori respon butir!
3) Tuliskan unsur utama teori respon butir!
4) Tuliskan Persyaratan dan Hakikat teori respon butir!
5) Tuliskan makna beserta keterangan dari rumus berikut:
Pj( ) = !
6) Sebutkan model pada IRT berdasarkan jumlah parameter butirnya!
7) Tuliskan bentuk-bentuk estimasi kebolehjadian maksimum!
8) Tuliskan makna dari Fungsi informasi memiliki hubungan kuadratik
dengan kesalahan pengukuran standar (Standar Error of Measurement,
SE)!
9) Tuliskan Nama program estimasi teori respon butir beserta
keterangannya!
10) Tuliskan Keterangan dari rumus berikut:
Teori Respon Butir

Silahkan tulis jawaban anda pada lembar jawaban dibawah ini.

29
Teori Respon Buir

Silahkan tulis jawaban anda pada lembar jawaban dibawah ini.


Teori Respon Butir

Jawaban Latihan
____________________________
Langkah menjawab:
1. Menghitung pada setiap butir soal dan pada masing-masing kemampuan.
2. Menghitung pada setiap butir soal dan pada masing-masing kemampuan.
3. Menghitung nilai L(U|θ) kemudian tarik garis kebawah sampai batas kemampuan
terakhir ( 3), kemudian jumlahkan ∑L(U|θ).
4. Menghitung L(U|θ)/∑L(U|θ) pada masing-masing kemampuan dan mencari nilai
maksimum L(U|θ)/∑L(U|θ). Nilai maksimum itulah yang mencerminkan kemampuan
Andry dalam mengerjakan soal tersebut.
5. Menghitung persentase jawaban benar dan persentase jawaban salah berdasarkan
nilai maksimum L(U|θ)/∑L(U|θ).
6. Mengkonversikan kemampuan menjadi nilai.
7. Membuat kurva kemampuan Andry

31
Teori Respon Buir
Teori Respon Butir

33
Teori Respon Buir

KUNCI JAWABAN

1) teori tes klasik memiliki beberapa kelemahan yaitu: (1) tingkat


kesukaran dan daya beda butir soal tergantung pada kelompok
peserta yang mengerjakannya, (2) penggunaan metode dan teknik
untuk desain dan analisis tes dengan memperbandingkan
kemampuan siswa pada pembagian kelompok atas, tengah, dan
bawah, (3) Konsep reliabilitas skor didefinisikan dari istilah tes
paralel, (4) tidak ada dasar teori untuk menentukan bagaimana
peserta memperoleh tes yang sesuai dengan kemampuan peserta
yang bersangkutan, dan (5) Standard Error Measurement (SEM)
berlaku pada seluruh peserta tes.
2) Tujuan teori respon butir adalah untuk membangun model
hubungan untuk setiap butir yakni hubungan antara butir itu
dengan peserta yang meresponnya.
3) Unsur utama dalam teori respon butir yaitu: (1) butir, (2) peserta
yang merespon butir itu, (3) isi responsi peserta terhadap butir tes.
4) persyaratan dan hakikat pada IRT yaitu: (1) unidimensi (mengukur
satu dimensi), (2) Parameter, (3) Subpopulasi, (4) Independensi
lokal, (5) Invariasi parameter.
5) Respon para peserta terhadap butir itu ditentukan oleh ciri butir
dan ciri peserta. Dalam hubungan ini, ciri peserta dinyatakan
melalui parameter ciri peserta ( ); ciri butir dinyatakan melalui tiga
parameter butir ; serta respon peserta terhadap butir itu
dinyatakan dalam bentuk probabilitas jawaban benar P( ). Dengan
demikian, untuk butir ke-j,
6) model pada IRT berdasarkan jumlah parameter butirnya dibagi
menjadi 4, yaitu one-parameter logistic model (1PL), two-
parameter logistic model (2PL), three-parameter logistic model
(3PL), dan four-parameter logistic model (4PL)Tempat yang paling
ideal untuk melakukan kajian pustaka adalah di perpustakaan, baik
yang ada di lembaga pendidikan maupun yang ada di masyarakat
terdekat.
7) Bentuk-bentuk kebolehjadian maksimum yaitu:
a) Kebolehjadian maksimum bersama-sama (Joint Maximum
Likelihood)
Parameter peserta dan parameter butir diestimasi bersama-
sama.
Teori Respon Butir

b) Kebolehjadian maksimum marginal (Marginal Maximum


Likelihood)
Parameter peserta diintegrasi dan parameter butir diestimasi
serta kemudian parameter butir diintegrasi dan parameter
peserta diestimasi.
c) Kebolehjadian maksimum kondisional (Conditional Maximum
Likelihood)
Pengestimasian dikondisikan pada banyaknya jawaban benar.
d) Bayes bersama-sama dan marginal (Joint and Marginal
Bayesian)
Pengestimasian menggunakan rerata atau modus dari
distribusi yang telah ada sebelumnya.
e) Analisis faktor nonlinear (Nonlinear factor analysis)
Pengestimasian menggunakan kuadrat terkecil di dalam
analisis faktor
f) Heuristik
Pengestimasian menggunakan prosedur lain yang tidak
ditentukan lebih dulu.
8) Fungsi informasi memiliki hubungan kuadratik dengan kesalahan
pengukuran standar (Standar Error of Measurement, SE), artinya
semakin besar fungsi informasi maka SE akan semakin kecil,
demikian pula sebaliknya, semakin kecil fungsi informasi maka SE
akan semakin besar.
9) Nama-Nama program estimasi teori respon butir yaitu:
a. NORMOG adalah program untuk model ogive normal yang
ditulis dalam bahasa Fortran dan bekerja di komputer
mainframe. Program ini dikembangkan oleh International
Testing Services, 1525 East 3rd Street, Chicago, IL 60615,
AS.
b. BICAL adalah program untuk model logistik 1P yang ditulis
dalam bahasa Fortran. menggunakan metoda EKM bersama,
dan bekerja di komputer mainframe. Kini program itu telah
digantikan oleh BIGSCALE. Program BICAL ini dikembangkan
pada tahun 1970-an oleh Benjamin Wright di University of
Chicago, Statistical Laboratory, Department of Education,
5835 Kimbark Ave, Chicago, IL 60637, AS.
c. MICROSCALE adalah program untuk model logistik 1P
multikategori yang menggunakan metode EKM bersama dan
bekerja di komputer PC. Program ini dikembangkan pada

35
Teori Respon Buir

tahun 1980-an oleh Mediax Interactive Technologies, 21


Charles Street, Westport, CT 06880, AS.
d. LOGIST adalah program untuk model logistik 1P, 2P, dan 3P
dengan menggunakan metode EKM bersama tahun 1970-an
oleh Educational Testing Service, dan bekerja di komputer
mainframe (kini sedang dibuat versi komputer PC). Program
ini dikembangkan pada Rosdale Road, Princeton, NJ 08541,
AS.
e. RASCAL adalah program untuk model logistik 1P yang
menggunakan metode EKM bersama dan bekerja di komputer
PC. Program ini dikembangkan pada tahun 1980-an oleh
Assessment Systems Corporation, 2233, University Avenue,
Suite 440, St.Paul, MN 55114, AS.
f. MIRTE adalah program untuk model logistik 1P, 2P, dan 3P
yang menggunakan metode EKM bersama dan bekerja di
komputer mainframe dan PC. Program ini dikembangkan oleh
Mark Reckase, American College Testing Program, PO Box
168, Iowa City, IA 52243, AS.
g. BILOG adalah program untuk model logistik 1P, 2P, dan 3P
yang menggunakan metode EKM marginal dan secara
opsional menggunakan juga metode Bayes dan bekerja di
komputer mainframe dan PS/2. Program ini dikembangkan
pada tahun 1980-an oleh Scientific Software, Inc, 1369
Neitzel Road, Mooresville, IN 46158,AS.
h. MULTILOG adalah seperti BILOG tetapi untuk multikategori
serta dikembangkan oleh pengembang program BILOG.
i. RIDA adalah program untuk model logistik 1P yang
menggunakan metode EKM marginal dan bekerja di komputer
PC. Program ini dikembangkan pada tahun 1990 oleh Cees
Glas, Institut Nasional untuk Pengukuran Pendidikan, PO Box
1034, 6801 MG Arnhem, Belanda.
j. PML adalah program untuk model logistik 1P yang
menggunakan metode EKM kondisional. Program ini
dikembangkan pada tahun 1970-an oleh Jan-Eric Gustafsson,
Universitas Goleborg, Institut Pendidikan, Fack S-431 20,
Mondal, Swedia.
k. ASCAL adalah program untuk model logistik 1P, 2P, dan 3P
yang menggunakan metode Bayes dan bekerja di komputer
PC. Program ini dikembangkan oleh Assessment Systems
Teori Respon Butir

Corporation, 2233 University Avenue, Suite 440, St.Paul, MN


55114, AS.
l. NOHARM adalah program untuk model logistik 1P, 2P, dan
3P yang menggunakan metode kuadrat terkecil pada analisis
faktor nonlinear serta bekerja di komputer mainframe dan PC.
Program ini dikembangkan pada tahun 1980-an oleh Colin
Fraser di Centre for Behavioral Studies, University of England,
Armidale, N.S.W. Australia 2351.
m. ANCILLES adalah program untuk model logistik 1P, 2P, dan
3P yang menggunakan metode heuristik dan bekerja di
komputer mainframe.
10) Keterangan:
: Tingkat kemampuan (ability) peserta tes
: Probabilitas peserta tes yang memiliki
kemampuan dapat menjawab butir i dengan
benar
: Indeks daya pembeda butir ke-i
: Indeks kesukaran butir ke-i
: Indeks tebakan semu (pseudoguessing) butir ke-i
: Indeks kecerobohan (carelessness) butir ke-i
: bilangan natural yang nilainya mendekati 2,718
D : faktor penskalaan yang harganya 1,7

37
Teori Respon Buir

a. Umpan Balik dan Penilaian


____________________________
Bandingkanlah hasil jawaban Anda dengan kunci jawaban tes formatif
yang ada pada bagian belakang bahan belajar mandiri ini. Apabila
jawaban anda satu soal jawabannya sempurna maka berikan point 10.
Hitunglah total point yang anda peroleh, kemudian gunakan rumus di
bawah ini untuk mengetahui tingkat penguasaan Anda terhadap materi
kegiatan belajar 1.

Rumus untuk essai:

𝐽𝑢𝑚𝑙𝑎ℎ 𝑗𝑎𝑤𝑎𝑏𝑎𝑛 𝑎𝑛𝑑𝑎 𝑦𝑎𝑛𝑔 𝑏𝑒𝑛𝑎𝑟


𝑇𝑖𝑛𝑔𝑘𝑎𝑡 𝑝𝑒𝑛𝑔𝑢𝑎𝑠𝑎𝑎𝑛 00
x 100%

Untuk mengetahui seberapa besar tingkat penguasaan Anda,


bendingkan nilai yang Anda peroleh dengan pedoman penafsiran di
bawah ini.
Persentase Keterangan
80% – 100% Sangat Baik
60% – 79% Baik
40% – 59% Cukup
< 40% Kurang

Bila Anda mencapai tingkat penguasaan 60% ke atas, Anda dapat


meneruskan kegiatan belajar selajutnya (kegiatan belajar mandiri 3).
Selamat!

Namun bila Anda belum mencapai nilai di atas 60%, Anda harus
mengulangi kegiatan belajar 2, terutama mengenai hal-hal yang belum
Anda kuasai. Semangat!
Teori Respon Butir

Evaluasi Diri

Instrumen Afektif tentang minat terhadap materi tinjauan


kepustakaan dalam modul

Petunjuk: berilah tanda ceklis pada kolom yang paling sesuai


dengan diri anda.
Pilihan sikap
No. Pernyataan ST TS N S SS
S
1. Saya mengikuti petunjuk penggunaaan
modul
2. Saya memahami materi yang ada pada
modul
3. Saya membuat catatan ringkasan
berkaitan dengan modul
4. Saya mengerjakan semua tugas mandiri
yang terdapat di dalam modul
5. Saya mencari sumber lain untuk
menambah wawasan saya
Keterangan:
SS = Sangat setuju
S = Setuju
N = Netral
TS = Sangat tidak setuju
Teknik penskoran untuk penilaian ranah afektif dapat dilakukan secara
sederhana. Contoh, pada instrumen penilaian minat siswa terhadap suatu
materi pelajaran terdapat 5 item maka bila skala yang digunakan adalah skala
Likert (1 sampai 5), berarti skor terendah yang mungkin diperoleh seorang
siswa adalah 5 (dari 5 item x 1) dan skor paling tinggi yang mungkin
diperoleh siswa adalah 25 (dari 5 item x 5). Maka kita dapat menetukan
median-nya, yaitu (5 + 25)/2 atau sama dengan 15. Bila kita membaginya
menjadi 4 kategori, maka skor 1 -10 termasuk tidak berminat; skor 11-15
termasuk kurang berminat; skor 16 – 20 berminat, dan skor 21 – 25 termasuk
kategori sangat berminat.

39
Teori Respon Buir

BAB IV
PENUTUP

PENUTUP

Keberhasilan pencapaian tujuan pembelajaran mandiri pada materi


“Penelitian Korelasional” ini sangat bergantung pada kesungguhan dan
partisipasi aktif dari pembelajar. Modul ini merupakan bahan pendukung
dalam mempelajari materi penelitian korelasional. Semoga keberadaan modul
ini dapat membantu pembaca untuk mencapai keberhasilan tujuan
pembelajaran.
Teori Respon Butir

DAFTAR
PUSTAKA

Djemari Mardapi. (2012). Pengukuran, Penilaian, dan Evaluasi Pendidikan.


Yogyakarta: Nuha Litera

Frank B. Baker. (2001). The Basic of Item Response Theory. USA: ERIC
Clearinghouse on Assessment and Evaluation.

Hambleton R.K. & Swaminathan H., (1985). Items Response Theory:


Principles and Application. Boston: Kluwer-Nijjhoff Publish.

Retnawati, Heri. (2014). Teori Respon Butir dan Penerapannya: Untuk


Peneliti, Praktisi Pengukuran Pengujian, Mahasiswa Pascasarjana.
Yogyakarta : Nuha Medika.

Office of Assessment, Evaluation, & Research Services (OAERS).


Overview of item response theory. Diambil dari
http://erm.uncg.edu/oaers/methodology-resources/item-response-
theory/

Samsul Hadi. (2013). Pengembangan Computerized Adaptive Test


Berbasis Web. Yogyakarta: Aswaja Pressindo.

41

Anda mungkin juga menyukai