Anda di halaman 1dari 32

MAKALAH

APLIKASI IRT DALAM PENILAIAN


Diajukan untuk Memenuhi Tugas Mata Kuliah Teori Respon Butir
Dosen Pengampu: Dr. Kana Hidayati, M.Pd

Disusun oleh:

Sri Nurfadillah Ningsih (22701251003)


Nisrina Salam (22701251005)
Lilin Rofiqotul Ilmi (22701251019)

PROGRAM STUDI PENELITIAN DAN EVALUASI PENDIDIKAN


SEKOLAH PASCASARJANA
UNIVERSITAS NEGERI YOGYAKARTA
2023
A. Pendahuluan
Penilaian hasil belajar oleh pendidik dilakukan secara berkesinambungan
untuk memantau proses, kemajuan, dan perbaikan hasil dalam bentuk ulangan harian,
ujian tengah semester, ujian akhir semester, dan ujian kenaikan kelas. Penilaian hasil
belajar oleh pendidik digunakan untuk menilai pencapaian kompetensi peserta didik;
bahan penyusunan laporan hasil belajar; dan memperbaiki proses pembelajaran.
Penilaian hasil belajar oleh satuan pendidikan bertujuan menilai pencapaian standar
kompetensi lulusan untuk semua mata pelajaran. Penilaian hasil belajar oleh
pemerintah dalam bentuk ujian nasional bertujuan untuk menilai pencapaian
kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok
mata pelajaran ilmu pengetahuan dan teknologi. Ujian nasional dilakukan secara
objektif, berkeadilan, dan akuntabel.
Hasil ujian nasional digunakan sebagai salah satu pertimbangan untuk: 1)
pemetaan mutu program dan/atau satuan pendidikan; 2) dasar seleksi masuk jenjang
pendidikan berikutnya; 3) penentuan kelulusan peserta didik dari program dan/atau
satuan pendidikan; dan 4) pembinaan dan pemberian bantuan kepada satuan
pendidikan dalam upayanya untuk meningkatkan mutu pendidikan.
Dalam kaitan ini, persoalan yang akan disoroti dan dikaji adalah dari aspek
penggunaan tes yang dirancang sedemikian rupa sehingga menimbulkan pertanyaan,
sejauh mana tes tersebut telah sesuai dengan kemampuan siswa yang menjawabnya?
Hal ini berhubungan dengan tingkat kevalidan atau kesahihan tes yakni sejauh mana
tes tersebut benar-benar mengukur aspek yang diukur. Aiken (1988: 103)
mendefinisikan validitas sebagai berikut Validity of a test has been defined as the
extent to which the test measures what it was designed to measure. Dalam
penyusunan tes yang dirancang sebagai tes standar untuk mengungkapkan
kemampuan peserta tes, maka analisis validitas dan reliabilitas butir sangat penting
dilakukan. Bagi yang memerlukan informasi mengenai validitas dan reliabilitas item
dalam mengestimasi validitas dan reliabilitas perangkat item yang bakal terpilih
sebagai tes, dapat menggunakan fungsi indeks reliabilitas dan indeks validitas item
yang bertujuan untuk meningkatkan reliabilitas dan validitas tes secara keseluruhan
(Azwar, 2001). Dalam kaitan ini, tinjauan diarahkan pada pengkajian penerapan tes
modern yakni teori respon butir (item response theory) dalam penilaian hasil belajar
peserta didik dengan segala atribut dan persyaratan persyaratan yang dimilikinya.
Pada prinsipnya, pengukuran bertujuan untuk mengetahui karakteristik suatu
objek yang akan diukur. Khususnya, pengukuran pendidikan meliputi pengukuran
hasil belajar mencakup bermacam bidang, tergantung objek hasil belajar apa yang
ingin diukur. Permasalahan dalam tulisan ini adalah: 1) apakah teori responsi butir
atau teori tes modern bisa menutupi kelemahan-kelemahan yang ada pada teori tes
klasik; 2) bagaimana implementasi teori responsi butir dalam mengatasi
permasalahan-permasalahan ujian nasional sehingga tidak ada kelompok yang
diuntungkan dan kelompok yang dirugikan akibat pengukuran yang tidak adil
B. Perapan IRT dalam pengembangan Bank soal
1. Pengertian Bank Soal
Secara singkat, bank soal yang biasa dikenal pendidik didefinisikan sebagai
kumpulan dari butir-butir tes. Namun bank soal tidak hanya mengacu pada
sekumpulan soal-soal saja. Bank soal mengacu pada proses pengumpulan soal-soal,
pemantauan dan penyimpanannya dengan informasi yang terkait sehingga
mempermudah pengambilannya untuk merakit soal-soal (Thorndike, 1982). Millman
(dalam J. Umar, 1999) mendefinisikan bank soal sebagai kumpulan yang relatif besar,
yang mempermudah dalam memperoleh pertanyaan-pertanyaan penyusun tes. Mudah
memiliki pengertian bahwa soal-soal tersebut diberi indeks, terstruktur, dan diberi
keterangan sehingga mudah dalam pemilihannya untuk disusun sebagai perangkat tes
pada suatu ujian.
Senada dengan pengertian-pengertian di atas, Choppin (dalam J. Umar, 1999)
memberikan definisi bahwa bank soal merupakan sekumpulan dari butir-butir tes
yang diorganisasikan dan dikatalogan untuk mencapai jumlah tertentu berdasarkan isi
dan juga karakteristik butir. Karakteristik butir ini meliputi tingkat kesulitan,
reliabilitas, validitas dan lain-lain.
Dari definisi beberapa ahli, sebagian besar mengharuskan penyimpanan bank
soal di dalam komputer. Dalam pengembangan bank memang mungkin dilakukan
tanpa bantuan komputer. Tetapi dalam pengembangan bank soal yang besar, tidak
mungkin mengembangkan bank soal tanpa bantuan komputer. Hal ini disebabkan
karena dalam pengembangan bank soal yang besar, ada beberapa tahapan yang tidak
mungkin dilakukan tanpa bantuan komputer.

2. Perlunya pengembangan Bank soal


Ide pengembangan bank soal terkait ,dengan kebutuhan merakit tes lebih
mudah, cepat dan efisien. Selain itu juga adanya tuntutan kualitas butir soal yang
menyusun tes. Dengan adanya bank soal, kualitas butir-butir soal menyusun tes dapat
dijamin kualitasnya. Van der Linden (J. Umar, 1999) menyatakan bahwa
pengembangan bank soal merupakan praktek baru dalam pengembangan tes, sebagai
hasil dari pengenalan teori respons butir dan kegunaan ekstensif dari pengetahuan
komputer di masyarakat yang modern.
Pada suatu bank soal yang dikembangkan dengan teori respons butir, program
tes dapat dibuat lebih fleksibel dan sesuai. Hal ini disebabkan karena karakteristik
butir perangkat tes pada teori respons butir tidak tergantung pada karakteristik peserta
tes pada saat kalibrasi. Selain itu, kemampuan siswa peserta tes dapat diketahui dan
dapat dibandingkan, karena parameter kemampuan dapat diestimasi pada skala yang
sama (Jahja Urnar, 1999). Terkait dengan perkembangan ilmu dan teknologi,
pengembangan bank soal berdasarkan teori respons butir dapat diset untuk
dikembangkan menjadi computerized adaptive testing (Hambleton, Swaminathan,
dan Rogers, 1991).
Keuntungan-keuntungan yang dapat diperoleh dengan adanya pengembangan
bank soal sebagai berikut:
a. kebijakan desentralisasi pada program tes nasional dapat dikenalkan tanpa
mengorbankan dapat dibandingkannya hasil tes,
b. biaya dan waktu yang diperlukan pada kegiatan konstruksi tes dapat
direduksi,
c. ,semakin besar jumlah butir soal yang terdapat pada bank soal, permasalahan
keamanan menjadi lebih terjamin.
d. Kualitas program tes dapat ditingkatkan, dengan adanya butir-butir dalam
bank soal yang telah diketahui karakteristiknya.
e. Pendidik dapat mendesain perangkat tes yang akan digunakannya, dengan
memanfaatkan butir-butir yang baik dalam bank soal.
f. Guru dapat mengkonsentrasikan diri pada usaha untuk meningkatkan kualitas
pembelajaran, tanpa harus membelanjakan waktu banyak untuk penyusunan
perangkat tes (Jahja Umar, 1999).

3. Pengembangan Bank Soal dengan konsep IRT


Ada beberapa kegiatan penting dalam pengembangan bank soal. Kegiatan
tersebut yakni penulisan butir soal, validasi dan kalibrasi butir soal, penyimpanan
Proses penulisan butir soal merupakan hal yang penting dalam pengembangan
bank soal. Penulisan butir soal ini bukan merupakan suatu hal yang mudah. Pada
penulisan butir soal, diperlukan rekrutmen dan training bagi penulisnya, yang
memerlukan biaya yang besar.
Pada pengembangan bank soal matematika, pada penulisan butir soal ini
terlebih dahulu dilihat tujuan tes yang akan dikembangkan menggunakan butir dari
bank soal. Apakah tes yang akan dikembangkan tersebut untuk seleksi, tes penalaran,
ataukah tes prestasi belajar. Tujuan pengembangan tes perlu diperhatikan mengingat
sifat-sifat tes tersebut berbeda-beda.
Hal lain yang perlu diperhatikan pada penulisan butir soal untuk pengembangan
bank soal matematika adalah lingkup materi matematika. Dengan memperhatikan
lingkup atau .cakupan materi yang merupakan bahan tes, diharapkan butir soalnya
tidak terlalu mudah atau tidak terlalu sulit. Butir soal seperti ini yang dapat
membedakan peserta tes berdasarkan kemampuan matematikanya. Terkait dengan hal
ini, pembuatan kisi-kisi terlebih dahulu akan memudahkan penulisan butir soal.
Langkah selanjutnya adalah validasi dan kalibrasi. Pada tahap ini, terlebih
dahulu butir-butir soal yang ada disusun menjadi perangkat tes kemudian
diujicobakan. Ujicoba disesuaikan dengan peserta tes yang akan merespons perangkat
tes. Pada pengembangan bank soal berdasarkan teori tes klasik, peserta uji coba harus
berasal dari berbagai strata siswa secara proporsional. Hal ini disebabkan pada teori
tes klasik, karakteristik peserta uji coba mempengaruhi karakteristik butir soal yang
diujicobakan. Jika menggunakan pendekatan teori respons butir, yang perlu
diperhatikan adalah jumlah peserta ujicoba, mengingat model parameter berbeda akan
memerlukan ukuran peserta ujicoba yang berbeda pula agar karakteristik butirnya
stabil (Hambleton dan Swaminathan, 1985).
Validasi merupakan proses menentukan validitas perangkat·tes. Validitas ini
dapat diketahui dari isi, konstruk, maupun dikorelasikan dengan Kriteria "Lainnya.
Adapun kalibrasi merupakan proses untuk menentukan" karakteristik butir soal. Pada
pengembangan" bank soal berdasarkan teori tes klasik, diestimasi tingkat kesulitan,
daya pembeda dan reliabilitas. Pada teori respons butir di estimasi parameter
butirnya. Pada model satu parameter, diestimasi tingkat kesulitannya, estimasi nilai
fungsi informasi' dan estimasi kesalahan pengukurannya. Pada model dua parameter
diestimasi tingkat kesulitan, daya pembedanya, estimasi nilai fungsi informasi dan
estimasi kesalahan pengukurannya, sedang pada model tiga parameter diestimasi
tingkat kesulitan, daya pembeda, tebakan semu, estimasi nilai fungsi informasi dan
estimasi kesalahan pengukurannya. Agar lebih mudah dilakukan, kalibrasi ini dapat
dilakukan dengan bantuan komputer, dengan program Iteman, parscale, Bigstep,
Bilog, Multilog dan lain-lain.
Dari hasil kalibrasi, dapat ditentukan butir-butir soal yang, baik. Butir soal yang
baik ini merupakan bank soal yang terjadi. Penyimpanan dan pengamanan butir soal
yang terjadi ini merupakan hal yang penting, yang merupakan langkah lanjut dari
kalibrasi.
Langkah selanjutnya adalah mengaitkan butir-butir soal yang ada dengan butir
soal yang baru (linking new items). Langkah ini bertujuan agar butir-butir baru yang
ditambahkan dalam bank soal terkait dengan butir-butir yang lama berdasarkan
kalibrasi yang telah dilakukan. Prosesnya dinamai dengan penyetaraan (equiting),
yang bertujuan untuk memastikan kualitas butir soal dan mengestimasi konstanta
hubungan dengan perangkat tes yang lama. Untuk mempertahankan keberadaan bank
soal,perlu dilakukan uji coba ulang dan penambahan butir-butir soal yang baru.
Sejarah butir soal hendaknya juga dicatat. Hal ini dilaksanakan untuk menjamin
kualitas butir-butir dalam bank soal.
Contoh Soal
mengapa pada teori tes klasik uji coba harus berasal dari berbagai strata siswa secara
proporsional dan pada teori respon butir perlu untuk memperhatikan jumlah peserta
uji coba?
jawab :
Berdasarkan teori tes klasik, peserta uji coba harus berasal dari berbagai strata
siswa secara proporsional. Hal ini disebabkan pada teori tes klasik, karakteristik
peserta uji coba mempengaruhi karakteristik butir soal yang diujicobakan. sedangkan
pada teori respon butir perlu memperhatikan jumlah peserta ujicoba, mengingat
model parameter berbeda akan memerlukan ukuran peserta ujicoba yang berbeda pula
agar karakteristik butirnya stabil.

C. Penerapan IRT dalam tes adaptif terkomputerisasi


1. Pengertian
Konsep IRT sangat sesuai digunakan untuk pengujian berbasis komputer, salah
satunya adalah Computerized Adaptive Testing (CAT). Computerized Adaptive
Testing (CAT) merupakan generasi kedua dari peng-gunaan komputer untuk
pengujian (Bunderson, Inouye, & Olsen, 1989). Perkembangan di bidang teknologi
komputer dan bidang pengukuran telah melahirkan penyelenggaraan tes dengan
desain adaptive test. Adaptive berarti bahwa butir soal yang diberikan disesuaikan
dengan tingkat kemampuan setiap peserta tes atau tailored testing (Lord, 1977). Pada
CAT yang berbasiskan item response theory (IRT), komputer tidak hanya sekedar
memindahkan butir soal ke dalam komputer, tetapi komputer diatur untuk menyeleksi
dan menyajikan butir soal menurut perkiraan tingkat kemampuan peserta tes. Hal ini
mengakibatkan individu peserta tes yang memiliki tingkat kemampuan tinggi akan
mendapatkan butir soal yang lebih sulit dibandingkan dengan individu yang memiliki
tingkat kemampuan rendah. Sebaliknya individu peserta tes yang memiliki tingkat
kemampuan rendah akan mendapatkan butir soal yang lebih mudah dibandingkan
dengan individu peserta tes yang memiliki tingkat kemampuan tinggi. Dengan
demikian CAT lebih efisien karena dapat mengestimasi kemampuan peserta tes
dengan jumlah butir soal yang lebih sedikit dibandingkan tes konvensional
menggunakan paper and pencil test maupun CBT. Pada makalah ini akan disajikan
materi tentang CAT, namun sebelum itu kita perlu mengerti konsep mengenai IRT
sebagai pengantar memahami materi CAT.
Model IRT sangat cocok untuk pengujian adaptif karena memungkinkan
untuk memperoleh estimasi kemampuan yang independen dari rangkaian item tes
tertentu yang diberikan. Bahkan, pengujian adaptif tidak akan layak tanpa IRT.
Meskipun setiap peserta ujian menerima satu set item yang berbeda, berbeda dalam
kesulitan, IRT menyediakan kerangka kerja untuk membandingkan estimasi
kemampuan peserta ujian yang berbeda. Dalam menerapkan IRT untuk masalah
pengukuran, asumsi umum adalah bahwa satu faktor atau kemampuan yang dominan
bertanggung jawab atas kinerja item. Asumsi ini dibuat misalnya di hampir semua
aplikasi pengujian adaptif saat ini.

Fungsi informasi item memainkan peran penting dalam pengujian adaptif.


Item yang memberikan kontribusi maksimal untuk ketepatan pengukuran dipilih
untuk diadministrasikan. Soal-soal yang memberikan informasi paling banyak, secara
umum merupakan soal-soal yang ujiannya memiliki (kira-kira) 50% sampai 60%
peluang untuk menjawab dengan benar.
Penelitian pengujian adaptif sampai saat ini telah difokuskan pada enam
prasyarat yaitu pilihan model IRT, bank soal, titik awal untuk pengujian, pemilihan
butir tes berikutnya, penilaian/estimasi kemampuan, dan pilihan metode untuk
memutuskan kapan akan menghentikan administrasi tes. Terdapat dua prosedur yang
digunakan saat ini untuk pemilihan item dalam mode adaptif. Yang pertama,
informasi maksimal (Maksimum Likelihood Estimation) melibatkan pemilihan item
yang memberikan informasi maksimal (yaitu, meminimalkan kesalahan standar) pada
tingkat kemampuan peserta ujian. Untuk menghindari item yang sama dipilih
berulang kali (item dengan tingkat daya pembeda tertinggi, secara umum,
memberikan informasi paling banyak) dan dengan demikian (mungkin)
mempengaruhi keamanan pengujian dan tentunya validitas pengujian. Green et al.
(1984) telah menyarankan bahwa item-item dipilih secara acak dari antara item-item
yang memberikan informasi terbesar pada tingkat kemampuan yang diminati. Jadi,
untuk alasan praktis, item yang kurang optimal memberikan informasi biasanya
sedikit diberikan pada peserta ujian.

Metode kedua, pemilihan item Bayesian (Owen, 1975), melibatkan pemilihan


item tes yang meminimalkan varian distribusi posterior dari kemampuan peserta
ujian. Semakin banyak item tes yang diberikan, distribusi posterior menjadi lebih
terkonsentrasi, yang mencerminkan ketepatan estimasi kemampuan peserta ujian.
Metode Bayesian membutuhkan spesifikasi keyakinan sebelumnya tentang
kemampuan peserta ujian; karenanya, keberhasilan metode sebagian tergantung pada
kesesuaian distribusi sebelumnya. Dampak dari distribusi sebelumnya berkurang
karena lebih banyak item yang diberikan. Keuntungan penting dari pengujian adaptif
terkomputerisasi adalah penilaian tes/estimasi kemampuan dilakukan saat tes sedang
diselenggarakan; dengan demikian, umpan balik hasil kepada peserta ujian dapat
diberikan pada penyelesaian pengujian. Dalam memperoleh perkiraan kemampuan,
dua perkiraan. prosedur yang biasa digunakan adalah Maksimum Likelihood dan
Bayesian. Estimasi kemungkinan maksimum (MLE) menimbulkan masalah ketika
jumlah item tes kecil. Prosedur Bayesian mengatasi masalah yang dihadapi dengan
kemungkinan maksimum prosedur tudung tetapi dapat menghasilkan perkiraan
kemampuan yang bias jika distribusi sebelumnya yang tidak tepat dipilih.

2. Persyaratan
Dalam mengembangkan CAT, ada beberapa syarat yang harus ada atau
ditentukan terlebih dahulu. Syarat atau aturan tersebut yakni bank soal (beberapa ahli
ada yang menyebutnya dengan item pool), aturan memulai (starting rule), algoritma
pemilihan butir, aturan berhenti (stopping rule), dan estimasi parameter (Retnawati,
2014).
a. Bank Soal

Secara singkat, bank soal yang biasa dikenal pendidik didefinisikan


sebagai kumpulan dari butir-butir tes. Namun bank soal tidak hanya mengacu
pada sekumpulan soal-soal saja. Bank soal mengacu pada proses pengumpulan
soal-soal, pemantauan dan penyimpanannya dengan informasi yang terkait
sehingga mempermudah pengambilannya untuk merakit soal-soal (Thorndike
dalam Retnawati, 2014:63). Senada dengan pengertian pengertian di atas,
Choppin (dalam J. Umar, 1999) memberikan definisi bahwa bank soal
merupakan sekumpulan dari butir-butir tes yang diorganisasikan dan dikatalogan
untuk mencapai jumlah tertentu berdasarkan isi dan juga karakteristik butir.
Karakteristik butir ini meliputi tingkat kesulitan, reliabilitas, validitas dan lain-
lain.
Menurut Hambleton (1991:146), model IRT yang paling sesuai dalam
pengujian adaptif adalah model logistik tiga parameter (Green, Bock,
Humphreys, Linn, & Reckase, 1984; Lord, 1980; Weiss, 1983). Alasan utama
untuk memilih model tiga parameter umumnya cocok dengan data item pilihan
ganda lebih baik daripada model satu atau dua parameter. Maka dari itu, dalam
bank soal, butir yang terdapat di dalamnya kemungkinan besar telah terkalibrasi
khususnya menggunakan model 3PL.
b. Aturan memulai (starting rule)
Ketika CAT dimulai, belum ada butir soal yang diberikan pada peserta
tes, belum ada respons yang diberikan oleh peserta tes sehingga tingkat
kemampuan peserta belum dapat diestimasi. Walaupun belum ada informasi
mengenai kemampuan peserta sebelumnya, penyelenggaraan CAT harus dimulai.
Jika tidak ada informasi awal mengenai kemampuan peserta tes, maka CAT
dapat dimulai dengan memilih butir soal awal yang sesuai dengan tingkat
kemampuan peserta tes sedang (Wang.Vispoel, 1998).
Sedangkan menurut Hambleton (1991:149), butir pertama yang
digunakan dalam CAT adalah butir yang memiliki tingkat kesulitan rendah.
Apabila kemampuan peserta ujian diestimasi menggunakan estimasi maksimum
likelihood, maka estimasi kemampuannya tidak akan muncul hingga peserta
ujian telah menjawab setidaknya satu item dengan benar dan satu item salah.

c. Algoritme pemilihan butir


Setelah butir awal disajikan kepada peserta tes, langkah selanjutnya
adalah memilih butir untuk disajikan selanjutya. Pemilihan butir dalam CAT
bergantung pada respon yang diberikan peserta ujian pada butir sebelumnya.
Apabila peserta berhasil menjawab butir pertama dengan benar, maka butir kedua
yang akan muncul memiliki tingkat kesulitan yang lebih tinggi dari butir
pertama. Namun, apabila peserta ujian menjawab butir pertama dengan salah,
maka butir kedua yang akan muncul memiliki tingkat kesulitan yang lebih rendah
(lebih mudah) dari butir pertama.
1) Item 3 dipilih sebagai butir pertama dalam CAT (starting point) ; soal ini
memiliki tingkat kesulitan sedang dan diskriminasi tinggi. Misalkan peserta
ujian menjawab Butir 3 dengan benar. Estimasi kemampuan (Maximum
likelyhood estimates) mungkin tidak dapat diperoleh sampai peserta ujian
telah menjawab setidaknya satu item dengan benar dan satu item salah.
2) Misalkan item 3 dijawab dengan benar, maka selanjutnya item lain dipilih
lebih sulit dari soal yang diberikan sebelumnya. Misalnya butir 12
dimunculkan sebagai soal kedua dan peserta ujian menjawab Item 12 dengan
benar. Sekali lagi, perkiraan kemampuan peserta ujian (Maximum likelihood
estimates) tidak dapat diperoleh.
3) Item 7 dipilih berikutnya; ini lebih sulit daripada Soal 3 dan 12. Misalkan
ujian menjawab soal ini dengan salah. Vektor respons item ujian untuk tiga
item dapat direpresentasikan sebagai (1, 1, 0). Melalui penggunaan prosedur
maximum likelihood, untuk memperkirakan kemampuan dengan parameter
item yang diketahui, perkiraan kemampuan dapat diperoleh ( θ = 1,03).
Informasi tes untuk ketiga butir soal pada tingkat kemampuan ini adalah θ
=1,03 dengan Iθ= 0,97 dan kesalahan standar (standard error) yang sesuai
adalah SE(A)= 1,02.
4) Selanjutnya, informasi yang diberikan oleh masing-masing item yang tersisa
di bank dihitung pada θ = 1.03. Nilai-nilai ini dilaporkan dalam Tabel 10.3.
Item 4 dipilih selanjutnya karena memberikan informasi terbanyak pada θ =
1,03. Misalkan Item 4 diberikan dan kemudian dijawab dengan benar oleh
peserta ujian. Estimasi kemampuan baru diperoleh untuk pola respon
(1,1,0,1). Perkiraan kemampuan baru adalah θ = 1,46.
5) Informasi item pada θ = 1,46 untuk item yang tersisa dihitung. Proses yang
dijelaskan di atas untuk mengelola item, memperkirakan kemampuan.
menentukan informasi yang diberikan oleh item yang tidak
diadministrasikan, dan memilih item yang akan diadministrasikan
selanjutnya berdasarkan informasi yang diberikannya dilanjutkan. Untuk
melanjutkan prosedur ini. Item 11 dipilih berikutnya.. diikuti oleh Item 9,
kemudian Item 2, 1, dan terakhir, 8.

Ada tiga algoritma yang relatif popular, yakni algoritma linear, algoritma
pohon, dan algoritma fuzzy

1) Algoritma linear

Algoritma ini berprinsip, tingkat kesulitan butir yang dipilih untuk


disajikan pada butir selanjutnya lebih tinggi dari butir sebelumnya jika butir
sebelumnya dijawab benar. Sebaliknya, tingkat kesulitan akan lebih rendah dari
butir sebelumnya jika butir sebelumnya dijawab salah. Misalnya ditetapkan,
selisih tingkat kesulitan untuk butir selanjutnya adalah 0,5. Jika b adalah tingkat
kesulitan butir, butir yang akan disajikan selanjutnya adalah b i+1 maka
hubungan antara bi dengan bi+1 adalah:

bi+1 = bi + 0,5 jika butir sebelumnya dijawab benar

bi+1 = bi - 0,5 jika butir sebelumnya dijawab salah.

2) Algoritma Pohon
Seperti halnya algoritma linear, algoritma ini berprinsip, tingkat kesulitan
butir yang dipilih untuk disajikan pada butir selanjutnya lebih tinggi dari butir
sebelumnya jika butir sebelumnya dijawab benar. Jika salah dipilih butir ke arah
kiri sedangkan jika benar dipilih butir ke arah kanan. Sebaliknya, tingkat
kesulitan akan lebih rendah dari butir sebelumnya jika butir sebelumnya dijawab
salah. Namun penentuan urutan butir ini lebih mudah, karena butir-butir dalam
bank sudah tersusun dalam suatu diagram, yang didasarkan baik berupa materi
atau tingkat kesulitan butir atau keduanya. Sebagai contoh misalnya butir-butir
dalam bank disusun sebagai berikut.

Gambar 1. Algoritma Pohon


Jika butir yang disusun dalam diagram tersebut makin banyak, maka susunan
butir-butir membentuk pohon sehingga disebut diagram pohon. Pada diagram
tersebut, panah ke kanan jika peserta tes menjawab benar, dan panah ke kiri
dipilih jika peserta tes menjawab salah
3) Algoritma Fuzzy
Dengan menggunakan prinsip yang sama dengan kedua algoritma yang
telah disajikan sebelumnya, dengan algoritma fuzzy pemilihan butir menjadi
agak berbeda. Berikut algoritma fuzzy yang digunakan Haryanto (2009) untuk
mengembangkan CAT. Input untuk algoritma ini adalah kesulitan butir, daya
beda butir, dan respons jawaban peserta uji. Parameter tersebut di proses melalui
fungsi keanggotaan dan himpunan fuzzy. Output yang diperoleh adalah kepastian
pemilihan butir tes yang memiliki daya beda dan kesulitan butir naik atau turun
bergantung pada respons jawaban peserta uji. Output dilakukan oleh mekanisme
inferensi yang didasarkan pada algoritma fuzzy berupa butir tes selanjutnya yang
akan diberikan kepada peserta uji
d. Estimasi Kemampuan
Estimasi kemampuan dapat dilakukan dengan berbagai cara, baik dengan
estimasi maksimum likelihood (maximum likelihood estimation, MLE) secara
langsung maupun secara numeric, maupun dengan metode Bayesian, Pada tulisan
ini akan disajikan metode estimasi dengan MLE langsung maupun dengan metode
numerik.

1) Dengan estimasi maksimum likelihood secara langsung


Dengan menggunakan parameter butir yang digunakan oleh seorang
peserta, kemampuannya dapat diestimasi. Parameter butir yang digunakan dan
pola respons benar-salah dari jawaban peserta digunakan untuk melakukan
estimasi, dengan menggunakan fungsi likelihood.
Likelihood maksimum dari skor kemampuan peserta diestimasi dengan
dan kemampuan peserta θ merupakan nilai yang memaksimumkan fungsi.

2) Dengan Maksimum likelihood, dengan pendekatan numeric metode Newton-


Raphson

Metode ini pada dasarnya merupakan metode likelihood biasa, namun


estimasi kemampuan setelah peserta mengerjakan butir ke-(n+1) dihitung
dengan memanfaatkan hasil estimasi setelah peserta mengerjakan butir ke-n.
Estimasi ini didasarkan dengan memecahkan masalah (Lord) yang dituliskan
dengan

Dengan

Dan θ merupakan level kemampuan setelah menjawab n pertanyaan dan µi =


1 jika menjawab betul dan µi = 0 jika menjawab salah.

Hasil estimasi kemampuan setelah peserta mengerjakan butir yang terakhir


merupakan hasil akhir yang dipergunakan. Pada kasus butir betul semua dan
butir salah semua, estimasi dengan MLE tidak dapat dilakukan. Terkait
dengan hal ini, ada prosedur yang dapat digunakan oleh pengembang CAT.
Untuk butir betul semua, kemampuan akhir setelah peserta mengerjakan butir
ke-n+1 misalnya dihitung dengan kemampuan setelah peserta mengerjakan
semua butir tersebut namun salah satu kemudian ditambah 0,5. Sedangkan
untuk salah semua, dapat diestimasi dengan peserta dapat mengerjakan butir
satu saja, kemudian dikurangi 0,5.

e. Aturan berhenti (Stopping rule)


Setelah mengerjakan butir-butir tes dengan jumlah tertentu, tentunya
pelaksanaan tes untuk tiap siswa harus dihentikan. Kapan dan pada kondisi apa
tes adaptif yang dikerjakan peserta berhenti disebut dengan aturan berhenti
(stopping rule). Pada CBT, aturan berhenti adalah waktu tes, jumlah butir soal,
atau cakupan materi bahan tes. Pada CAT, aturan berhenti dapat bermacam-
macam, diantaranya capaian nilai fungsi informasi atau kesalahan pengukuran
(standar error of measurement, SEM), stabilitas pencapaian kemampuan, atau
keterbatasan cadangan butir.
Salah satu criteria yang dapat digunakan adalah taget nilai fungsi
informasi atau SEM (dapat digunakan salah satu saja). Misalkan ditargetkan nilai
fungsi informasi tertentu. Dengan respons peserta tes hasil mengerjakan dapat
dihitung nilai fungsi informasinya dengan persamaan.

Dan

Hasil perhitungan tersebut kemudian dibandingkan dengan nilai fungsi


informasi target. Jika telah melebihi nilai fungsi informasi target, maka
pelaksanaan tes dihentikan. Stabilitas hasil estimasi kemampuan juga dapat
dipergunakan. Misalnya hasil estimasi setelah mengerjakan butir ke-n sebesar θ ,
setelah mengerjakan butir ke-n+1 sebesar θ (atau selisihnya tidak sampai 0,01),
dan setelah mengerjakan butir ke-n+2 hasilnya juga θ, maka tes dapat dihentikan.
Alasan lain adalah adanya keterbatasan butir dalam bank, khususnya
dalam hal ini untuk peserta dengan kemampuan yang sangat tinggi atau sangat
rendah. Setelah peserta menjawab butir ke-n, ternyata tidak ada butir yang lebih
rendah atau lebih tinggi lagi, maka tes otomatis tidak dapat dilanjutkan lagi.

Seperti terlihat pada Tabel 10.2, penurunan standar error saat Item 8
diberikan pada tahap 9 dibandingkan dengan standar error pada tahap 8 adalah
0,01. Prosedur berhenti pada titik ini. Estimasi kemampuan peserta ujian
adalah sebesar 1,25.

Contoh Soal

Disamping banyaknya kelebihan dari pengujian dengan menggunakan sistem CAT,


sebutkan apa saja yang dapat menjadi kelemahan atau kendala dalam pengujian CAT
Jawab :
Meskipun telah dilakukan dengan teknologi yang paling modern CAT memiliki
beberapa kelemahan diantaranya
1) Keberhasilan pelaksanaan CAT sangat tergantung dengan ketersediaan butir,
banyaknya butir, dan kualitas butir dalam bank. Jika butir yang tersedia
kurang dari sisi jumlah, dan kualitas butir juga kurang baik, maka informasi
yang diperoleh dari CAT juga kurang dan pemilihan butir akan menjadi
terhambat.
2) Terkait dengan realitas bahwa data kebanyakan berdistribusi normal, maka
peserta dengan kemampuan sedang akan banyak sekali. Peserta-peserta ini
dimungkinkan mengakses butir yang sama. Butir diakses oleh banyak peserta
dinamai dengan item exposure. Jika CAT disajikan dengan jaringan, maka hal
ini menyebabkan jaringan sibuk, sehingga butir akan menjadi sulit untuk
dibuka.
3) Berdasarkan teori pengukuran modern, IRT; perlu rancangan software khusus

D. Penerapan IRT dalam penyetaraan (Equating)


A. Pengertian Penyetaraan

Penyetaraan didefinisikan khusus oleh Kalen & Brennan (1995) sebagai


proses statistic yang digunakan untuk mengatur skor pada dua perangkat tes atau
lebih sehingga skor-skor pada perangkat tes dapat saling tukar. Penyetaraan tes
merupakan pengembangan konversi suatu sistem satuan unit tes ke sistem satuan unit
tes yang lain, sehingga setelah dikonversi skor yang berasal dari dua perangkat tes
menjadi setara dan dapat dipertukarkan. (Holland & Rubin). Tujuan penyetaraan
adalah menempatkan skor dari dua tes pada skala yag sama. Hal-hal yang perlu
diperhatikan dalam melakukan kegiatan penyetaraan tes menurut Hambleton &
Swaminathan (1985) adalah sebagai berikut: a) perangkat tes yang mengukur sifat
dan kemampuan yang berbeda tidak dapat disetarakan, b) skor mentah dari perangkat
tes yang tidak sama reliabilitansya hendaknya jangan disetarakan, c) skor mentah dari
perangkat tes yang tingkat kesukaran butirnya bervariasi tidak dapat disetarakan, c)
skor pada perangkat tes X dan Y tidak dapat disetarakan tanpa adanya bukti bahwa
kedua perangkat tes tersebut parallel, dan e) skor-skor yang berasal dari dua
perangkat tes yang berbeda materi tidak dapat disetarakan.

B. Penerapan Teori Respons Butir dalam Penyetaraan Tes

Penerapan teori respons butir dalam kegiatan penyetaraan tes harus memenuhi
dua asumsi dasar yakni unidimensi dan independensi local (Kolen & Bremann, 1989).
Unidimensi artinya bahwa dimensi karakter peserta yang diukur oleh suatu tes itu
tunggal. Independensi lokal adalah bahwa apabila kemampuan–kemampuan yang
mempengaruhi kinerja tes dianggap konstan maka respons subjek terhadap setiap
butir secara statistik tidak saling terkait. Adapun langkah-langkah melakukan
kegiatan penyetaraan tes menurut teori respons butir meliputi:

1. Mengestimasi parameter, dapat dilakukan dengan menggunakan program


BILOG 3 atau LOGIST.
2. Mengestimasi skala IRT dengan menggunakan transformasi linier.
3. Penyamaan skor jika menggunakan skor jawaban yang benar maka dilakukan
konversi ke skala jawaban yang benar dan kemudian ke skala skor. Oleh karena
kegiatan penyetaraan tes memiliki prosedur yang empiris, maka kegiatan ini
memerlukan rancangan tertentu yang harus diperhatikan. Berbagai rancangan
penyetaraan tes yang dapat digunakan menurut teori respons butir adalah:
a) Rancangan kelompok tunggal (single-group design)
Menurut rancangan kelompok tunggal ini, kegiatan penyetaraan
dilakukan dengan menggunakan satu kelompok peserta yang merespons dua
perangkat tes misalnya X dan Y. Parameter butir dari kedua perangkat tes
diestimasi secara terpisah dengan mengkalibrasi parameter kemampuan
peserta atau parameter butir. Berdasarkan rancangan ini, dengan
mengkalibrasi parameter kemampuan peserta, maka parameter butir dari
perankat tes X dan Y sudah berada pada skala yang sama. Sebaliknya, jika
dilakukan kalibrasi parameter butir, estimasi parameter kemampuan peserta
pada kedua perangkat tes memenuhi hubungan:
θ*x = αθy + β ……………………………………………………(1)
keterangan:
θ*x: parameter kemampuan peserta pada perangkat tes X,
θy : parameter kemampuan peserta pada perangkat tes Y,
α, β : konstanta konversi penyetaraan tes.
Idealnya untuk menyetarakan skor dari beberapa perangkat tes, maka
perangkat tes-perangkat tes tersebut diberikan pada responden yang sama.
Dengan membandingkan kemampuan peserta tes dari dua/lebih perangkat
tes maka penyetaraan dua perangkat tes dapat dilakukan. Kenyataan di
lapangan, rancangan ini sulit dilakukan karena adanya faktor kelelahan,
belajar, dan adanya faktor latihan untuk tes kedua atau berikutnya. Selain
itu, akan terdapat kesulitan dalam hal merencanakan waktu yang cukup bagi
responden untuk megikuti tes lebih dari satu kali.
b) Rancangan kelompok ekuivalen (equivalent-group design)
Desain ini merupakan kebalikan dari desain pertama, yaitu dua
perangkat tes diberikan pada dua kelompok yang sama kemampuannya atau
ekivalen. Proses secara spiral digunakan dalam desain ini, dimana peserta
tes dibagi dua secara acak kemudian masing-masing mendapat perangkat
tes 1 dan perangkat tes 2. Sebagai ilustrasi, misalnya terdapat dua kelompok
K1 dan K2 dan dua perangkat tes misalnya X dan Y. Kelompok K1
mengerjakan perangkat tes X dan kelompok K2 mengerjakan perangkat tes
Y. Mengingat kelompok K1 dan K2 adalah ekivalen maka kedua kelompok
dianggap tunggal. Dalam hal ini, jika digunakan ukuran sampel yang besar
maka perbedaan mean dari kedua perangkat tes menunjukkan langsung
perbedaan rata-rata dari tingkat kesukaran antara kedua perangkat tes
tersebut. Keuntungan dari rancangan ini adalah dapat menghindari efek
negatif yang disebabkan karena adanya latihan dan kelelahan peserta tes,
sedangkan kekurangannya adalah adanya kemungkinan bias yang
disebabkan oleh perbedaan distribusi kemampuan dari kedua kelompok
peserta tes.
c) Rancangan tes jangkar (anchor test design).
Desain ini biasanya digunakan jika masalah keamanan tes menjadi
salah satu pertimbangan penting dan memungkinkan untuk
menyelenggarakan beberapa tes dalam satu waktu. Pada desain ini masing-
masing perangkat tes mempunyai beberapa item yang sama (common item)
dan masing-masing kelompok mengerjakan perangkat tes yang berbeda.
Pada desain ini terdapat dua variasi yakni pertama, jika common item
diperhitungkan dalam pemberian skor disebut internal common item dan
kedua, jika common item tidak diperhitungkan dalam pemberian skor
disebut external common item.
Dalam rancangan ini, apabila digunakan dua perangkat tes yakni X
dan Y dan dua kelompok peserta yakni K1 dan K2, maka masing-masing
perangkat tes ditambahkan item-item tes jangkar Z sehingga kedua
perangkat tes menjadi X+ Z item dan Y+Z item. Kelompok peserta K1
mengerjakan perangkat tes X+Z dan kelompok K2 mengerjakan Y+Z
sehingga item-item tes anchor Z dikerjakan oleh dua kelompok peserta tes
(common item).
Penyamaan skala penyetaraan dilakukan dengan kalibrasi parameter
kemampuan atau parameter butir tes jangkar. Apabila pada rancangan tes
jangkar dengan kalibrasi parameter butir, maka parameter kemampuan
peserta kedua kelompok sudah berada pada skala yang sama. Sebaliknya
jika penyamaan skala dilakukan dengan kalibrasi kemampuan peserta, maka
estimasi parameter butir tes jangkar dari kelompok K1 ke kelompok K2
memenuhi persamaan:
b∗¿ k1 ¿= αb k 2 + β ……………………………………………………...
(2)
a∗¿ k2 ¿= αa k 1…………………………………………….……………
(3)
Keterangan:
b∗¿ k1 ¿: parameter tingkat kesukaran butir tes jangkar pada kelompok
1,
a∗¿ k2 ¿ : parameter daya pembeda butir tes jangkar pada kelompok 2,
b k 2 : parameter tingkat kesukaran butir kelompok 2,
a k 11 : parameter daya pembeda butir kelompok 1.
α, β: konstanta konversi penyetaraan tes.

C. Jenis Penyetaraan

Penyetaraan ada dua jenis, jenis horizontal dan dan vertikal. Pada jenis
horizontal, dua skor tes atau lebih yang disetarakan merupakan tes-tes yang
mengukur tingkat/kelas yang sama. Pada jenis ini, perangkat tes-perangkat tes yang
diperbandingkan diberikan pada kelompok peserta tes yang memiliki distribusi
kemampuan yang sama (Hambleton & Swaminathan, 1985).

Pada jenis vertikal, dua skor tes atau lebih yang disetarakan merupakan tes-tes
yang mengukur tingkat kelas yang berbeda, ada yang lebih tinggi atau lebih rendah
dibandingkan lainnya. Penyetaraan vertikal (vertical equating) merupakan
penyetaraan yang dilakukan terhadap dua instrumen tes atau lebih yang tingkat
kesulitan butirnya berbeda, namun mengukur trait yang sama, dan distribusi skor
peserta tes tidak komparabel sehingga skor-skor dari instrumen-instrumen tes tersebut
dapat digunakan saling bertukar. Menurut Kalen & Brennan (1995:3), penyetaraan
skor tes dengan content tidak berbeda dan kelompok peserta tes berasal dari tingkatan
kelas berbeda, dan agar skor tes yang demikian dapat digunakan saling bertukar
adalah penyetaraan vertikal. Menurut Hambleton & Swaminathan (1985:197)
penyetaraan yang dilakukan terhadap beberapa instrumen tes dengan tingkat kesulitan
soal berbeda dan distribusi kemampuan peserta tes juga berbeda disebut penyetaraan
vertikal. Menurut Crocker & Algina (1986:473), penyetaraan vertikal dapat
melibatkan dua atau lebih instrumen tes yang mengukur trait sama, namun tingkat
kesulitannya berbeda.

Penyetaraan vertical (vertical equating), tes-tes yang disetarakan berbeda


tingkat kesulitannya dan distribusi skor peserta tes tidak komparabel, serta bertujuan
untuk membuat perbandingan kemampuan aritar peserta tes pada tingkatan yang
berbeda. Hal ini menunjukkan bahwa penyetaraan vertikal memerlukan kelompok
peserta tes berasal dari level kelas berbeda, tingkat kesulitannya berbeda, distribusi
skor peserta tes berbeda, distribusi kemampuan peserta berbeda, namun mengukur
trait yang sarna (bersifat unidimensional). Beberapa asumsi dalam penyetaraan
vertikal adalah (a) tes mengukur isi materi yang sama, (b) dimensi dasar yang
diestimasi sama, (c) tes mengukur kemampuan (latent trait) yang unidimensi, dan (d)
butir soal berbeda tingkat kesulitannya, tetapi bukan indeks diskriminasinya (Crocker
& Algina,1986:476). Pelanggaran terhadap asumsi dapat menimbulkan efek bias
estimasi parameter. Asumsi-asumsi tersebut mendasari kegiatan penyetaraan vertikal,
baik secara teoretis maupun praktis.

D. Metode Penyetaraan Menurut Teori Respons Butir

Metode penyetaraan menurut teori respons butir berfungsi untuk menentukan


konstanta konversi. Hal ini mengingat bahwa penyetaraan antara dua perangkat tes
atau lebih dapat dilakukan jika konstanta konversi telah diketahui (Hambleton &
Swaminathan, 1985). Nilai konversi yang dihasilkan kemudian disubstitusi dalam
persamaan skala pada rancangan penyetaraan yang digunakan. Metode penyetaraan
untuk menentukan konstanta konversi menurut teori respons butir adalah sebagai
berikut:

1. Metode regresi
Penentuan konstanta konversi α dan β menggunakan metode regresi
dilakukan dengan memperhatikan respons peseta tes pada kedua perangkat tes
X dan Y. Estimasi parameter butir dan parameter kemampuan peserta
memenuhi persamaan regresi linier sebagai berikut:
y=αx+ β +ε …………………………………………………(4)
r xy s y
α= …………………………………………………………..(5)
sx
β= y −α x ……………………………………………………….(6)
Keterangan:
y : estimasi kemampuan atau estimasi parameter butir pada perangkat tes Y,
x : estimasi kemampuan atau estimasi parameter butir pada perangkat tes X,
r xy : koefisien korelasi antara X dan Y,
y , x : rerata dari y dan x,
s x , s y : simpangan baku dari x dan y
Penggunaan metode ini bersifat tidak timbal balik (asimetris) sehingga
kurang memadai untuk penentuan konstanta konversi apalagi mengingat
bahwa penyetaraan dua perangkat tes atau lebih sangat memerlukan syarat
invariansi dan timbal balik dari perang kat tes yang disetarakan.
2. Metode rerata dan sigma.
Penentuan konstanta konversi α dan β menurut metode rerata dan
sigma dilakukan dengan memperhatikan nilai estimasi parameter tingkat
kesukaran butir tes pada kedua perangkat tes yaitu b x dan by. Menurut
Hambleton & Swaminathan (1985), hubungan antara estimasi parameter butir
tes atau parameter kemampuan peserta pada kedua perangkat tes yang akan
disetarakan dan penentuan konstanta konversinya memenuhi persamaan
sebagai berikut:
y=αx+ β ………………………………………………………(7)
y=α x+ β ………………………………………………………(8)
sy
α= ……………………………………………………………...(9)
sx
β= y −α x ………………………………………………………(10)
Keterangan:
y : estimasi kemampuan atau estimasi parameter butir pada perangkat
tes Y,
x : estimasi kemampuan atau estimasi parameter butir pada perangkat
tes X,
y , x : rerata dari y dan x,
s y , s x : simpangan baku dari x dan y.
Metode rerata dan sigma ini bersifat timbal balik sehingga dengan cara
yang sama hubungan dari y ke x dapat ditentukan. Namun demikian, menurut
Hambleton & Swaminathan (1991) mengemukakan bahwa metode
penyetaraan rerata dan sigma ini tidak mempertimbangkan variasi standar
error estimasi parameter butir.
3. Metode rerata dan sigma tegar.
Berbeda dengan metode rerata dan sigma, menurut Linn, et al
(Hambleton & Swaminathan, 1991: 26) menyatakan bahwa metode rerata dan
sigma tegar mempertimbangkan adanya variasi standar error estimasi
parameter butir. Adapun dalam prosedur penyetaraan dengan metode rerata
dan sigma tegar yang dikembangkan oleh Linn, Levin, Hastings, & Wardrop
(Hambleton & Swaminathan, 1991: 27), langkah-langkah penentuan
konstanta konversi dalam penyetaraan tes adalah sebagai berikut:
a. Menentukan bobot parameter butir i (wi) pada setiap pasangan (bxi,
byi), dengan persamaan sebagai berikut:

………………………………………(11)
dengan, v ( x i )dan v ( y i ) adalah varians estimasi parameter tingkat
kesukaran butir perangkat tes X dan Y.

b. Menentukan bobot terskala w idengan persamaan:

……………………………………………………(12)
dengan k adalah jumlah butir pada perangkat tes.
c. Menghitung estimasi berbobot tes X dan Y dengan menggunakan
rumus:
' '
x i = w i x i…………………………………………………………..(13)
' '
y i = w i y i …………………………………………………………..(14)
d. Menentukan rerata dan simpangan baku dari estimasi berbobot tes X
dan Y yaitu y , x , s y , s x
e. Menentukan konstanta konversi α dan β dengan menggunakan rerata
dan simpangan baku estimasi berbobot dengan mensubstitusikan rerata
dan simpangan baku estimasi berbobot pada persamaan penyamaan
skala.
4. Metode kurva karakteristik

Penentuan konstanta konversi α dan β pada metode kurava karakteristik


ini dilakukan dengan memperhatikan nilai estimasi parameter butir tes kedua
perangkat soal yang akan disetarakan misalnya X dan Y. Apabila pada metode
rarata dan sigma serta metode rerata dan sigma tegar dalam menghitung
konstanta konversi hanya memperhitungkan hubungan antara paramater-
parameter tingkat kesukaran butir perangkat tes yang satu dengan yang
lainnya tanpa mempertimbangkan hubungan antara parameter-parameter daya
pembeda kedua prangkat tes maka dengan metode kurva karakteristik,
hubungan antara parameterparameter daya pembeda kedua prangkat tes
dipertimbangkan.
Penyetaraan tes dengan metode kurva karakteristik
mempertimbangkan informasi dari parameter daya pembeda butir dan
tingkat kesukaran butir dalam penentuan konstanta konversi (Haebara,
1980). Oleh karena itu, dalam metode ini diperhatikan hubungan antara
parameter daya pembeda dan hubungan antara parameter tingkat kesukaran
butir perangkat tes-perangkat tes yang akan disetarakan. Selain itu, dalam
metdoe kurva karakteristik ini juga diperhatikan true score peserta tes pada
kedua perangkat tes.

True score τ xadari peserta tes dengan kemampuan θ yang merespons


k butir dalam perangkat tes X dan Y ditentukan dengan rumus sebagai
berikut:

k
τ xa =∑ p (θa ¿ ,b xi , a xi , c xi )¿…………………………………..(15)
i=1

k
τ y a=∑ p(θ a ¿ , b yi , a yi ,c yi )¿………………………………….(16)
i=1

Adapun penentuan konstanta konversi untuk setiap butir pada


perangkat tes X dan Y dilakukan dengan rumus sebagai berikut:

b yi=abxi + β………………………………………………….(17)

a xi
a yi= …………………………………………………………(18)
α

Secara keseluruhan tampak bahwa masing-masing metode memiliki


kelebihan atau kekurangan. Metode regresi tidak bersifat timbal balik,
metode rerata dan sigma bersifat timbal balik namun tidak
mempertimbangkan variasi standar error estimasi parameter butir. Metode
rerata dan sigma tegar bersifat timbal balik dan mempertimbangkan variasi
standar error estimasi parameter butir namun tidak mempertimbangkan
hubungan antar daya pembeda perangkat tes yang disetarakan. Metode
kurva karakteristik selain bersifat timbal balik dan mempertimbangkan
variasi standar error estimasi parameter butir juga memperhitungkan
hubungan parameter daya pembeda antara perangkat tes. Memperhatikan
kelebihan atau kelemahan masing-masing metode tersebut, menunjukkan
bahwa metode kurva karakteristik secara teoretik lebih baik dari metode
lainnya.

E. Rangkuman

1. Item Response Theory (IRT) pada hakikatnya bertujuan untuk mengatasi


kelemahan yang terdapat pada pengukuran klasik. Pada IRT, peluang
jawaban benar yang diberikan siswa, ciri atau parameter butir, dan ciri atau
parameter peserta tes dihubungkan melalui suatu model formula yang harus
ditaati baik oleh kelompok butir tes maupun kelompok peserta tes
(Hambleton & Swaminathan, 1985). Artinya, butir yang sama terhadap
peserta tes yang berbeda harus mengikuti aturan rumus tersebut. Melalui
IRT, parameter butir soal tidak tergantung pada testee, sehingga hasilnya
dapat digeneralisasi, berbeda dengan teori tes klasik yang karakteristik
butirnya bergantung pada kemampuan testee.
2. Computer Adaptive Test (CAT) merupakan penyajian tes yang
menyesuaikan level kemampuan peserta, memanfaatkan karakteristik butir
dalam teori respons butir. Setelah peserta tes menjawab suatu butir tes, butir
berikutnya memilih butir yang sesuai dengan kemampuan peserta tersebut,
yang merupakan kemampuan hasil estimasi terbaru. CAT memiliki banyak
kelebihan antara lain mempersingkat waktu pengujian, meminimalisir
kecurangan pengujian, mempersingkat proses penilaian dan pelaporan.
3. Penyetaraan merupakan proses statistic yang digunakan untuk mengatur skor
pada dua perangkat tes atau lebih sehingga skor-skor pada perangkat tes
dapat saling tukar. Penerapan teori respons butir dalam kegiatan penyetaraan
tes harus memenuhi dua asumsi dasar yakni unidimensi dan independensi
local. Metode penyetaraan untuk menentukan konstanta konversi menurut
teori respons butir adalah regresi, rerata dan sigma, rerata dan sigma tegar,
serta kurva karakteristik.

LATIHAN SOAL
1. Mengapa pengembangan bank soal memerlukan konsep dari teori respon butir?
2. Jelaskan perbedaan algoritma linear, algoritma pohon, dan algoritma fuzzy
3. Kapan tidak perlu dilakukan equating?
DAFTAR PUSTAKA

Anastasi, A. & Urbina,S. (1997). Psychological testing. Upper Saddle River, NJ:
Prentice Hall.
Azwar, S. (2022). Dasar-dasar psikometrika (Edisi 2). Yogyakarta: Pustaka Pelajar.
Baker, F. B. (2001). The basics of item response theory (2nd ed.). United States of
America: ERIC Clearinghouse on Assessment and Evaluation.
Cronbach, U. 1970. Essential psychological testing (4th. edt). New York: Harper &
Row Publishers.
DeMars, C. (2010). Item response theory: understanding statistics measurement.
New York: Oxford University Press.
Gronlund, N.E. (1976). Measurement and evaluation in teaching. New York·:
Macmillan. Publishing Co.
Haebara, T. (1980). Equating logistic abilityscales by weighted least square method
dalam Hambleton R. K. & Swaminathan H. (1985) Item response theory:
Principles and applications. Boston: Kluwer-Nijhoff Publishing.
Hambleton, R.K. & Swaminathan H. (1985). Item response theory: Principles and
applications. Boston, MA: Kluwer Inc.
Hambleton, R.K., Swaminathan H. & Rogers, H.J. (1991). Fundamental of item
response theory. Newbury Park, CA: Sage Publication Inc.
Hambleton, R.K., Swaminathan, H & Rogers, H.J. (1991). Fundamental of item
response theory. Newbury Park, CA: Sage Publication Inc. ·
Haryanto, H. (2011). Pengembangan computerized adaptive testing (CAT) dengan
algoritma logika Fuzzy. Jurnal Penelitian Dan Evaluasi Pendidikan, 15(1),
47-70
Holland, P. W. & Rubin, D. B. (1982). Test equiting. New York: Academic Press,
Inc.
Jahja umar. (1999). Item banking. Dalam Masters, G.N. dan Keeves, J.P. (Ed).
Advances in Measurement in Educational Research and Assessment. New
York: Pergamon.
Retnawati, H & Samsul Hadi. (2013). pengembangan sistem bank scal untuk ujian
akhir daerah di era 'otonomi daerah dan desentralisasi. Laporan Penelitian.
Universitas Negeri Yogyakarta.
Retnawati, H. (2014). Teori Respons Butir dan Penerapannya. Yogyakarta: Nuha
Media.
Thorndike, R.L. (1982). Applied Psychometrics. Boston: Houghton Mifflin.

Anda mungkin juga menyukai