Anda di halaman 1dari 13

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES

BERDASARKAN TEORI RESPON BUTIR

Syahrul, Mansyur, dan Rosdiyanah


Fakultas Teknik Universitas Negeri Makassar
email: syahrulab@yahoo.co.id

Abstrak
Penelitian ini bertujuan untuk mengetahui hasil penyetaraan tes berdasarkan perbedaan
jumlah butir anchor dan prosedur mendapatkan penyetaraan tes berdasarkan equateIRT.
Jenis penelitian ini adalah exploratif yaitu mengungkap kesetaraan skor tes berdasarkan
teori respon butir. Instrumen yang digunakan dalam penelitian ini adalah enam paket
soal Fisika. Penelitian ini dilaksanakan pada enam SMA di Kabupaten Gowa. Jumlah
subjek penelitian sebanyak 1420 siswa. Desain penyetaraan memilih Common-Item
Nonequivalent Group, estimasi parameter menggunakan model logistik dua parameter
(2PL), dan penyetaraan tes dengan menggunakan equateIRT. Hasil penelitian menunjukkan
bahwa koefisien penyetaraan α dan β yang dihasilkan oleh paket soal dengan 16 butir
soal anchor (40%) lebih mendekati α = 1 dan β = 0. Standard error yang dihasilkan oleh
paket soal dengan 16 butir anchor lebih kecil dibandingkan dengan paket soal dengan 10
dan 12 butir anchor. Hal ini berarti bahwa paket soal dengan jumlah butir anchor yang
lebih banyak menghasilkan penyetaraan yang lebih akurat.
Kata kunci: butir anchor, penyetaraan tes, teori respon butir

THE INFLUENCE OF ANCHOR ITEM TOWARD THE EQUATING TESTS


OUTCOMES BASED ON ITEM RESPONSE THEORY

Abstract
This study was aimed at finding out the equating test outcome based on the differences
of numbers of anchor items and procedures to obtain equivalency tests based on equate
IRT. This was an explorative research on the equality of test scores based on the item
response theory. The instrument used in this study included six test packages of Physics.
The research was conducted at six senior high schools in Gowa regency. The subjects
were 1,420 students. The equating design used was Common-Item non-equivalent
Group, while the parameter estimation used was the two-parameter logistic model (2PL),
and test equating used was equate-IRT. The research results show that the equalization
coefficients α and β are generated by a package of 16 items about the anchor (40%)
approximates α = 1 and β = 0. The standard error generated bythe package of 16 items
about the anchor is smaller than the package about with 10 and 12 point anchor. This
means that a package about the amount of grains that produces more anchors produces
more accurate equalization.
Keywords: anchor item, test equating, item response theory

207
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

PENDAHULUAN dari proses pembelajaran (Taruno, 2014).


Pengukuran hasil belajar di sekolah Seringkali dijumpai di sekolah, peserta
terutama hasil belajar kognitif dilakukan tes harus diukur dengan tes yang berbeda,
dengan menggunakan alat ukur yang meskipun tes-tes itu belum tentu ekivalen
dinamakan tes. Alat ukur yang baik dan diharapkan dapat diukur sifat serta
memberikan hasil yang konstan bila tuntutan pencapaian hasil yang dapat
digunakan berulang-ulang, jika kemampuan dibandingkan. Hal ini terjadi, misalnya pada
yang diukur tidak berubah. Ketepatan alat situasi sekolah yang memiliki beberapa
ukur dapat dilihat dari konstruk alat ukur, kelas paralel yang diajar oleh guru yang
yaitu mengukur seperti yang direncanakan. berbeda atau ketika guru memberikan
Pengukuran yang tepat dapat memberikan ulangan susulan kepada siswa-siswa yang
informasi yang akurat mengenai penguasaan absen pada saat ulangan dilaksanakan.
seseorang atau sekelompok orang terhadap Meskipun sampai taraf tertentu, kesetaraan
materi yang dipelajari dan informasi itu beberapa tes dapat diupayakan pada saat
berguna untuk membuat sebuah keputusan menyusun tes-tes itu sendiri. Akan tetapi,
pendidikan. umumnya variasi taraf kesukaran antartes
Pengukuran modern bertujuan untuk tetap terjadi.
menghilangkan kelemahan pada pengukuran Kenyataan menunjukkan bahwa masih
klasik. Tujuan utama pengukuran modern banyak guru belum mengetahui prosedur
adalah melepaskan keterpisahan di antara pembuatan tes yang baik (Syahrul, 2014).
butir uji tes dengan peserta uji tes. Dengan Kebanyakan tes disusun dalam jangka
pengukuran modern ini, ciri butir akan waktu yang sangat singkat bahkan ada
tetap sama, tidak menjadi soal peserta yang juga yang mengadopsi langsung butir-
menempuhnya. Demikian pula, ciri peserta butir tes yang telah tersedia dalam buku
akan tetap sama, tidak menjadi soal butir panduan belajar sehingga perangkat tes
yang ditanggapainya. yang digunakan oleh guru tidak dapat
Salah satu jenis pengukuran modern mengukur yang sebenarnya akan diukur.
yang cukup terkenal adalah teori respon Seorang guru harus mengetahui dasar-
butir yang dikembangkan atas dasar dua dasar penyusunan tes prestasi belajar yang
postulat yaitu: (1) performansi subjek baik agar dapat memperoleh hasil ukur
pada suatu butir dapat diprediksikan oleh yang akurat (valid) dan dapat dipercaya
seperangkat faktor yang disebut latent (reliabel).
trait atau kemampuan dan (2) hubungan Dalam penyelenggaraan evaluasi
performansi subjek pada suatu butir dan hasil belajar, guru terkadang kesulitan
perangkat kemampuan laten yang men- untuk menyelenggarakan tes, misalnya tes
dasarinya digambarkan oleh fungsi naik formatif, sumatif, dan tes kenaikan kelas
monoton yang disebut Item Charascteristic untuk kelas pararel yang cukup banyak. Para
Curve (ICC). Selain itu, asumsi-asumsi guru menggunakan satu perangkat tes saja
yang melandasi teori respon butir adalah sehingga tidak menutup kemungkinan siswa
unidimensi, independensi lokal, dan fungsi saling mencontek atau terjadi kebocoran
karakteristik butir atau kurva karakteristik soal. Kondisi tersebut berakibat pada
butir (Hambleton, Swaminathan, & Rogers, pemberian nilai/skor terhadap hasil belajar
1991). siswa tidak mencerminkan kemampuan
Penilaian hasil belajar peserta didik sebenarnya. Hal ini seperti dikemukakan
pada dasarnya merupakan bagian integral oleh Rosana dan Sukardiyono (2015) bahwa

208
Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

ada kalanya skor peserta didik tidak sesuai dihadapkan pada perbedaan tingkat
dengan kemampuannya yang sebenarnya. kesukaran dan perbedaan populasi yang
Penyebabnya dapat diakibatkan oleh dijadikan sasaran pelaksanaan. Oleh sebab
permasalahan yang muncul dari peserta itu, perlu dilakukan penyesuaian terhadap
didik dan dapat juga diakibatkan oleh parameter-parameter tes dalam suatu skala
kualitas butir tes yang diberikan pada yang sama dan penyesuaian skor tes dalam
mereka sehingga nilai yang diberikan skala yang sama sehingga skor pada tes
kepada siswa atau peserta tes lebih tinggi yang satu dapat dipertukarkan dengan skor
atau lebih rendah dari kemampuan prestasi pada tes lainnya.
sebenarnya. Sukirno (2007) mengemukakan bahwa
Untuk menghindari situasi demikian, melalui proses penyetaraan diperoleh
para guru juga membuat lebih dari beberapa keuntungan, di antaranya pertama,
satu perangkat tes (tes paralel) yang dapat digunakan perangkat tes yang berbeda
memiliki kisi-kisi yang sama dan untuk terhadap kelompok yang berbeda sesuai
mengukur tingkat kemampuan yang sama. dengan tingkat kemampuannya sehingga
Akan tetapi, para guru belum memiliki skor yang diperoleh dapat dibandingkan.
kemampuan untuk melakukan analisis Selain itu, peserta tes tidak merasa dirugikan
butir soal, terutama untuk menentukan atau diuntungkan karena mendapat tes yang
perangkat-perangkat tes tersebut memiliki lebih sukar atau lebih mudah. Kedua,
karakteristik yang berbeda atau sama dalam bila terjadi kebocoran tes dari suatu
hal validitas, reliabilitas, tingkat kesukaran, perangkat tes tertentu dapat segera diganti
maupun daya pembeda. dengan perangkat tes yang lain yang
Mansyur, Soeratno, dan Harun (2015) sudah diketahui konstanta konversinya.
mengemukakan bahwa masalah yang Jika kesetaraan paket tes sudah diketahui,
terjadi dalam praktik penilaian adalah pengukuran dapat dilakukan pada tempat
dalam menafsirkan hasil pengukuran, dan waktu yang berbeda.
dua atau beberapa perangkat tes sering Dorans, Moses, dan Eignor (2010)
diperlakukan sama, tanpa memperhatikan mengatakan bahwa penyetaraan adalah
tingkat kesukaran perangkat tes yang bentuk kuat untuk menghubungkan antara
digunakan. Masalah tersebut dapat diatasi skor pada dua tes. Tujuan penyetaraan
dengan melakukan penyetaraan skor yang adalah untuk menghasilkan skor pada dua
diperoleh dari peserta yang mengambil bentuk tes sehingga skor dari setiap tes
tes-tes itu. Sebagaimana dikemukakan dapat diperbandingkan dari pengujian yang
oleh Miyatun & Mardapi (2000) tingkat sama. Suatu keharusan bagi pengembang
kesetaraan perangkat tes yang berbeda akan tes atau lembaga tes untuk menyetarakan
dapat diketahui melalui proses penyetaraan. perangkat tes tersebut.
Uraian di atas menggambarkan bahwa Penyetaraan adalah proses statistik
penyetaraan tes juga diperlukan oleh para yang digunakan untuk mengatur skor pada
guru di sekolah. Penyetaraan tes dirasakan format-format tes sehingga skor pada
kegunaannya mengingat mutu pendidikan format tersebut dapat diperbandingkan
(khususnya di Sulawesi Selatan) belum (Kolen & Brennan, 2014). Hambleton,
merata dengan keadaan geografis yang S wa m i nat h an, da n Ro ger s ( 1991 )
cukup luas. Tingkat kesetaraan tes dapat menyatakan bahwa penyetaraan skor
diperoleh melalui pengembangan tes yang adalah membandingkan skor yang
setara. Namun demikian, tes tersebut diperoleh dari perangkat tes yang satu

209
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

(X) dan perangkat tes lainnya (Y) yang dengan memetakan skor dari tes bentuk Y
dilakukan melalui proses penyetaraan skor ke bentuk X.
pada kedua perangkat tes tersebut. Cook dan Eignor (1991) menyatakan
Proses penyetaraan dari beberapa bahwa prosedur penyetaraan dengan teori
perangkat tes (equating) dapat dilakukan respon butir dapat dikelompokkan dalam
dengan dua cara, yaitu penyetaraan secara tiga tahapan proses, yaitu: memilih desain
horizontal dan penyetaraan secara vertikal pengumpulan data, penempatan parameter
(Croker & Algina, 2006). Proses penyetara- estimasi pada skala yang sama, dan
an yang diperoleh dari dua perangkat tes penyetaraan skor tes. Selanjutnya, dalam
yang berbeda tetap mengukur hak yang desain common-item nonequivalent group
sama dinamakan penyetaraan horizontal. yang juga dikenal dengan desain anchor
Adapun proses penyetaraan dari dua test bahwa dua kelompok peserta tes yang
kelompok peserta tes yang berbeda tingkat/ berbeda, masing-masing memperoleh
jenjang pendidikannya, namun diberikan naskah tes yang berbeda pula, dan pada
perangkat soal yang sama dinamakan setiap naskah tes berisi kumpulan anchor
penyetaraan vertikal. item yang disebut dengan anchor test.
Dalam pelaksanaannya, proses Anchor item adalah butir-butir soal
penyetaraan tes dilakukan berdasarkan yang sama di beberapa perangkat tes dan
pendekatan klasik dan modern. Untuk berbaur dengan butir yang nonanchor.
pendekatan klasik, proses penyetaraan tes Kelompok peserta tes tidak harus dipilih
digunakan teori “true story” dan untuk secara random dari populasi yang sama
pendekatan modern digunakan teori respon karena dalam praktiknya sering tidak sama.
butir (Item Response Theory) atau Latent Hal tersebut sesuai dengan pendapat Kolen
Trait Theory. Proses penyetaraan dengan & Brennan (2014) bahwa desain common-
pendekatan klasik dapat dilaksanakan item nonequivalent group menjelaskan
dengan mempergunakan tiga metode, kelompok peserta tes tidak harus dipilih
yaitu (1) penyetaraan secara linier, (2) secara random dari populasi yang sama dan
penyetaraan secara equipersentil, dan (3) di dalam praktik sering tidak sama. Kondisi
penyetaraan secara curvalinear. tersebut merupakan salah satu keuntungan
Lord (1980, p. 199) mengungkapkan dari desain ini karena dalam keperluan
tiga prinsip dasar untuk penyetaraan dua praktik seringkali ditemui kondisi distribusi
tes, sebagai berikut. (1) Kesetaraan (equity), kemampuan kelompok berbeda.
untuk setiap kelompok peserta tes dengan Ketika desain anchor item diguna-
kemampuan yang sama, kondisi distribusi kan, hendaknya memperhatikan sifat
frekuensi skor pada tes Y setelah transformasi dan karakteristik dari anchor item dan
adalah sama dengan distribusi frekuensi penggunaan skornya. Anchor item harus
skor pada tes X. (2) Population Invariance, menggambarkan miniatur tes yang
hubungan penyetaraan (transformasi) harus disetarakan dan item tersebut relatif berada
sama tanpa memperhatikan kelompok pada nomor urut yang sama, baik pada
peserta tes (populasi) yang digunakan. (3) naskah tes yang pertama maupun naskah
Simetri (symmetry), penyetaraan itu harus tes lainnya. Livingston sebagaimana dikutip
sama tanpa memperhatikan tes yang diberi oleh Hayati dan Mardapi (2014) menyatakan
label X atau diberi label Y atau transfor- bahwa pertanyaan yang dimasukkan dalam
masi dapat dibalik, artinya memetakan butir anchor harus menggambarkan secara
skor dari tes bentuk X ke tes bentuk Y sama lengkap tingkat kesukaran dari butir soal,

210
Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

dikarenakan hasil equiting tidak dapat tik soal fisika dengan menggunakan
tepat jika hanya memasukkan soal yang model logistik dua parameter (2PL) untuk
memiliki tingkat kesulitan tinggi atau kesetaraan tes dengan metode equate-
soal yang memiliki tingkat kesulitan IRT menggunakan software program R.
rendah. Sementara itu, jumlah anchor item Penelitian dilaksanakan selama dua bulan
disarankan 20% dari panjang tes untuk (Januari sampai dengan Februari 2016)
model tes yang diskor secara dikotomus pada enam Sekolah Menengah Atas (SMA)
(Kolen & Brennan, 2014). di Kabupaten Gowa Sulawesi Selatan,
Hasil penelitian berkenaan dengan yaitu SMA Negeri 1 Sungguminasa,
jumlah anchor item yang digunakan SMA Negeri 2 Sungguminasa, SMA
pada penyetaraan tes model politomus Negeri 3 Sungguminasa, SMA Negeri 2
telah dilakukan oleh Swediati (1997) Tinggimoncong, SMA Negeri 1 Bajeng,
yang menyimpulkan bahwa estimasi dan SMA Negeri 1 Bajeng Barat.
parameter yang rendah membuat sulit Prosedur dalam penyetaraan tes terdiri
untuk menyamakan tes yang diberikan dari beberapa tahap. Tahap pertama,
kepada kelompok ujian yang sangat pemilihan jenis penyetaraan. Dalam hal ini,
berbeda dalam kemampuan, terutama jika jenis penyetaraan yang digunakan adalah
tes yang relatif singkat dan jumlah item penyetaraan horizontal, yakni penyetaraan
anchor kecil. Kolen dan Brennan (2014) yang dilakukan terhadap tingkat atau
menyatakan bahwa jumlah anchor item jenjang pendidikan yang sama (kelas
yang besar akan lebih mencerminkan tes XII IPA). Tahap kedua, pemilihan desain
dan ketika kedua tes yang sama diujikan penyetaraan. Dalam hal ini, desain yang
kepada dua kelompok peserta tes, tidak digunakan adalah desain Common-Item
perlu dilakukan penyetaraan karena skor Nonequivalent. Desain Common-Item
tes yang dihasilkan berada dalam skala Nonequivalent ini merupakan desain yang
yang sama. Hal ini menggambarkan bahwa menggunakan dua kelompok peserta tes
keseluruhan item dari kedua naskah tersebut yang berbeda dan dua perangkat tes yang
berfungsi sebagai anchor item.Dengan berbeda, yaitu paket 01 dan paket 02 atau
demikian, ketika jumlah anchor item paket 03 dan paket 04 atau paket 05 dan
semakin mendekati jumlah butir dari suatu paket 06. Kedua paket tersebut berisi
tes maka kualitas penyetaraan semakin kumpulan butir bersama atau yang disebut
akurat. Demikian juga dengan posisi anchor dengan anchor item. Jumlah anchor item
item, mempengaruhi kualitas penyetaraan yang digunakan adalah 10 butir atau 25%
sehingga posisi anchor item pada kedua untuk soal paket 01 dan paket 02, 12 butir
naskah tes harus ditempatkan pada nomor atau 30% untuk soal paket 03 dan paket
item yang sama (Kolen & Brennan, 2014). 04, dan 16 butir atau 40% untuk soal paket
Berdasarkan uraian di atas, pada penelitian 05 dan paket 06. Jumlah butir setiap paket
ini dikaji tentang perbedaan akurasi hasil adalah 40 butir tes. Tahap ketiga, dilakukan
penyetaraan tes berdasarkan perbedaan estimasi parameter model 2 parameter
jumlah anchor item (25%, 30%, dan 40%) dengan menggunakan program R (library
dengan menggunakan teori respon butir. ltm). Hal ini untuk melihat daya beda dan
tingkat kesulitan pada paket 01 dan paket
METODE 02, paket 03 dan 04, dan paket 05 dan paket
Penelitian ini adalah penelitian eksplo- 06. Tahap keempat, proses equating atau
ratif untuk mengungkapkan karakteris- penyetaraan.

211
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Data dalam penelitian ini adalah respon butir, untuk paket 01 diperoleh daya
(lembar jawaban) siswa SMA peserta pembeda yang bervariasi dengan rincian
tes di Kabupaten Gowa Tahun Pelajaran 38 butir (95%) tergolong sangat baik dan
2015/2016. Subjek penelitian terdiri atas 2 butir (5%) berkategori baik. Pada paket
1420 orang (lembar jawaban) siswa dengan 02 diperoleh daya pembeda dengan tiga
rincian sebagai berikut. Pertama, paket 01 variasi, yaitu 35 butir (87,5%) tergolong
sebanyak 240 orang peserta tes dan paket sangat baik, 1 butir (2,5%) tergolong baik,
02 sebanyak 235 orang peserta tes. Kedua, dan 4 butir (10%) tergolong buruk.
paket 03 sebanyak 246 orang peserta tes Berdasarkan hasil pengolahan data
dan paket 04 sebanyak 239 orang peserta yang dilakukan diperoleh bahwa tingkat
tes. Ketiga, paket 05 sebanyak 240 orang kesulitan soal untuk paket 03, yaitu 4
peserta tes dan paket 06 sebanyak 230 orang butir (10%) kategori sangat mudah, 3 butir
peserta tes. Data pasangan paket (misalnya (7,5%) kategori mudah, 26 butir (65%)
paket 01 dan 02) pada program R dianalisis kategori sedang, 6 butir (15%) kategori
melalui equateIRT. Hasil analisis dari sukar dan 1 butir (2,5%) kategori sangat
equating ini akan menunjukkan daya beda sukar. Untuk paket 04, tingkat kesulitan soal
dan tingkat kesulitan dengan butir anchor terdiri atas 3 butir (7,5%) kategori sangat
pada masing-masing paket soal. mudah, 3 butir (7,5%) kategori mudah,
30 butir (75%) kategori sedang, 3 butir
HASIL PENELITIAN DAN PEMBAHASAN (7,5%) kategori sukar, dan 1 butir (2,5%)
Analisis butir berdasarkan teori respon kategori sangat sukar dari 40 butir soal yang
butir yang dilakukan dengan menggunakan dianalisis. Karakteristik daya pembeda butir
Program R versi. 3.2.2. Analisis ini soal untuk paket 03 terdiri atas dua kategori,
menggunakan model 2 parameter (2P) yaitu 38 butir (95%) kategori sangat baik
yang menghasilkan karakteristik butir dan 2 butir (5%) kategori buruk. Untuk
yang meliputi tingkat kesulitan butir, paket 04, diperoleh daya pembeda yang
daya pembeda butir, dan penyetaraan tes. bervariasi, yaitu 37 butir (92,5%) kategori
Berdasarkan hasil pengolahan data yang sangat baik, 1 butir (2,5%) kategori baik,
telah dilakukan, karakteristik tingkat dan 2 butir (5%) kategori buruk.
kesulitan dan daya pembeda masing-masing Hasil analisis karakteristik paket soal
paket soal dielaborasi sebagai berikut. 05 menunjukkan bahwa tingkat kesulitan
Mencermati hasil pengolahan data butir soal diperoleh 3 butir (7,5%) kategori
ditinjau dari tingkat kesulitan soal, sangat mudah, 11 butir (27,5%) kategori
diperoleh untuk paket 01 sebanyak 2 butir mudah, 16 butir (40%) kategori sedang,
(5%) tingkat kesukaran butir soal berada 6 butir (15%) kategori sukar, dan 4 butir
pada kategori sangat mudah, 3 butir (10%) kategori sangat sukar. Untuk paket
(7,5%) kategori mudah, 23 butir (57,5%) 06, terdapat 1 butir (2,5%) kategori sangat
pada kategori sedang, dan 12 butir (30%) mudah, 3 butir (7,5%) kategori mudah,
kategori sukar. Untuk paket 02 diperoleh 27 butir (67,5%) kategori sedang, 5 butir
bahwa 2 butir (5%) tingkat kesukaran butir (12,5%) kategori sukar, dan 1 butir (2,5%)
soal berada pada kategori sangat mudah, kategori sangat sukar. Karakteristik daya
3 butir (7,5%) kategori mudah, 30 butir pembeda butir soal untuk paket 05 dari 40
(75%) kategori sedang, 4 butir (10%) butir soal yang dianalisis, terdapat 37 butir
kategori sukar, dan 1 butir (2,5%) kategori (92,5%) kategori sangat baik dan 3 butir
sangat sukar. Ditinjau dari daya pembeda (7,5%) berkategori buruk. Untuk paket 06,

212
Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

diperoleh daya pembeda yang bervariasi tidak merugikan peserta didik adalah
yaitu 35 butir (87,5%) kategori sangat persamaan dari paket sulit ke paket mudah
baik, 2 butir (5%) kategori baik, dan 3 butir dengan persamaan b* X2 = (1.00820).
(7,5%) kategori buruk. bX1+(-0.36996). Dengan formula tersebut,
Sebagaimana dikemukakan sebelum- diperoleh grafik penyetaraan tingkat
nya, proses penyetaraan parameter butir soal kesulitan paket 01 dan paket 02 seperti yang
paket 01dan paket 02 dengan banyaknya disajikan pada Gambar 1.
anchor item 25%, paket 03 dan 04 dengan Mencermati informasi yang disajikan
anchor item sebanyak 30% serta paket 05 pada Gambar 1, tampak bahwa hasil
dan 06 dengan anchor itemsebanyak 40%, penyetaraan tingkat kesulitan antara paket
dilakukan dengan menggunakan library ltm 01 dengan paket 02. Garis paket 01 di atas
(EquateIRT) pada Program R dan model garis paket 02. Hal ini menunjukkan bahwa
logistik 2 parameter. Parameter butir yang paket soal dengan tingkat kesulitan rendah
diperhatikan yakni tingkat kesulitan butir akan berada di bawah nilai kriteria karena
dan daya pembeda butir dengan butir proses equating yang dilakukan dari paket
anchor pada masing-masing paket soal. soal yang sulit ke paket soal yang mudah.
Berdasarkan hasil penyetaraan paket Sebaliknya, paket soal dengan tingkat
01 dan paket 02 dengan anchor item 25% kesulitan tinggi akan berada di atas nilai
dan metode Haebara pada EquateIRT yang menjadi kriteria. Dengan kata lain,
terungkap bahwa kedua paket tersebut proses equating dilakukan dari paket soal
memiliki tingkat kesulitan yang berbeda. yang mudah ke paket soal sukar.
Paket 01 lebih sulit dari paket 02. Oleh Ditinjau dari daya pembeda butir,
karena itu, persamaan yang terbaik dengan hasil penyetaraan paket 01 dan paket 02

Gambar 1. Grafik Tingkat Kesulitan Paket 01 dan Paket 02 Anchor Item 25%
(b)
2,4
2,2 Penyetaraan Tes (Anchor 25%)
2
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2 Paket 01
0 Paket 02
-0,2
-0,4
-0,6
-0,8
-1
-1,2
-1,4
-1,6
-1,8
-2
-2,2
-2,4
-2,6
-2,8
-3

213
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

dengan anchor 25% metode Haebara pada equating yang dilakukakan dari paket soal
EquateIRT terungkap bahwa soal paket yang mudah ke paket soal sukar.
01 mampu membedakan kemampuan Ditinjau dari daya beda, hasil pe-
peserta yang tinggi dengan kemampuan nyetaraan tes paket 03 dan paket 04 dengan
peserta yang rendah. Soal pada paket 02 anchor item 30% terungkap bahwa kedua
mampu membedakan kemampuan peserta paket tersebut memiliki daya beda yang
yang tinggi dengan kemampuan peserta berbeda. Artinya, untuk dapat membedakan
yang rendah, dengan persamaan (a*X2= kemampuan tinggi dan rendah untuk
a_X1/1.00820). Dengan formula tersebut, kedua paket secara bersamaan sebaiknya
akan diperoleh grafik penyetaraan daya menggunakan koefisien penyetaraan
pembeda butir paket 01 dan paket 02 yang dengan formula (a*X4=a_X3/( 0.800241)).
berhimpit. Artinya, hasil penyetaraan Dengan formula tersebut, diperoleh grafik
daya beda antara paket 01 dengan paket penyetaraan daya pembeda butir untuk
02 berimpit. Hal ini menunjukkan bahwa paket 03 dan paket 04 tidak berhimpit.
kedua paket soal berada pada kategori Posisi garis paket 03 lebih mengarah ke
tingkat daya beda yang sama. Pola garis arah positif atau mendekati angka nol
kedua paket soal mengarah ke nilai positif, dibandingkan dengan paket 04. Hal ini
artinya kedua paket soal dapat membedakan menunjukkan bahwa paket 03 sangat baik
peserta antara kemampuan yang tinggi dalam hal membedakan antara peserta tes
dengan kemampuan rendah. kemampuan tinggi dengan kemampuan
Berkaitan dengan penyetaraan soal rendah dibandingkan dengan paket 04.
paket 03 dan paket 04 dengan anchor item Hasil analisis penyetaraan soal paket
30% terungkap bahwa kedua paket tersebut 05 dan paket 06 dengan anchor item 40%
memiliki tingkat kesulitan yang berbeda. dan metode Haebara pada EquateIRT
Paket 03 lebih sulit dibandingkan dengan terungkap bahwa kedua paket tersebut
paket 04. Oleh karena itu, persamaan memiliki tingkat kesulitan yang berbeda.
yang terbaik dengan tidak merugikan Paket 06 lebih sulit dibandingkan dengan
peserta didik adalah persamaan dari paket paket 05. Oleh karena itu, persamaan yang
sulit ke paket mudah dengan persamaan terbaik dengan tidak merugikan peserta
b*X4=(0.800241).bX3+(-0.077775). didik adalah persamaan dari paket sulit ke
Dengan formula tersebut, diperoleh grafik paket mudah dengan persamaanbX5= ((b_
penyetaraan tingkat kesulitan paket 03 dan X6-0.03269)/0.72467). Dengan formula
paket 04 seperti disajikan Gambar 2. tersebut, diperoleh grafik penyetaraan
Mencermati informasi yang disajikan tingkat kesulitan paket 05 dan paket 06
dalam Gambar 2, tampak hasil penyetaraan seperti disajikan Gambar 3.
tingkat kesulitan antara paket 03 dengan Informasi yang disajikan Gambar
paket 04. Garis paket 03 di atas garis 3 menunjukan bahwa paket soal dengan
paket 04. Hal ini menunjukkan bahwa tingkat kesulitan tinggi akan berada di atas
paket soal dengan tingkat kesulitan rendah nilai kriteria karena proses equating yang
akan berada di bawah nilai kriteria karena dilakukan dari paket soal yang mudah ke
proses equating yang dilakukan dari paket paket soal yang sulit. Sebaliknya, paket
soal yang sulit ke paket soal yang mudah. soal dengan tingkat kesulitan mudah akan
Sebaliknya, paket soal dengan tingkat berada di bawah nilai yang menjadi kriteria.
kesulitan tinggi akan berada di atas nilai Artinya, proses equating dilakukan dari
yang menjadi kriteria. Artinya, proses paket soal yang sulit ke paket mudah.

214
Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Gambar 2. Grafik Tingkat Kesulitan Paket 03 dan Paket 04 Anchor Item 30%
(b)
4,0
3,8
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
2,0
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0
-0,2 Paket 03
-0,4 Paket 04
-0,6
-0,8
-1,0
-1,2
-1,4
-1,6
-1,8
-2,0
-2,2
-2,4
-2,6
-2,8
-3,0
-3,2
-3,4
-3,6
-3,8
-4,0
-4,2
-4,4
-4,6
-4,8
-5,0

Gambar 3. Grafik Tingkat Kesulitan Paket 05 dan Paket 06 Anchor Item 40%
(b)
2,4
2,2 Penyetaraan Tes (Achor 40%)
2
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
-0,2 Paket 05
-0,4 Paket 06
-0,6
-0,8
-1
-1,2
-1,4
-1,6
-1,8
-2,0
-2,2
-2,4
-2,6
-2,8
-3

215
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Hasil penyetaraan paket 05 dan paket butir anchor (25% dari 40 butir soal) dan
06 dengan anchor item 40% dan metode paket soal dengan 12 butir anchor (30% dari
Haebara pada EquateIRT terungkap 40 butir soal). Paket soal dengan 12 butir
bahwa daya beda pada paket 05 mampu anchor menghasilkan koefisien penyetaraan
membedakan kemampuan peserta yang yang lebih akurat dibandingkan paket soal
tinggi dengan kemampuan peserta yang dengan 10 butir anchor karena koefisien
rendah. Paket 06 mampu membedakan α pada paket soal dengan 12 butir anchor
kemampuan peserta yang tinggi dengan lebih mendekati 1 dan koefisien β lebih
kemampuan peserta yang rendah. Kedua mendekati 0.
paket tersebut memiliki indeks daya beda
yang berbeda. Oleh karena itu, dapat Tabel 1
meng-gunakan koefisien penyetaraan Hasil Analisis Perbedaan Koefisien Penye-
dengan formula (a*X6=a_X5/( 0.72467)). taraan Berdasarkan Perbedaan Jumlah
Dengan formula tersebut, diperoleh grafik Butir Anchor
penyetaraan daya pembeda butir untuk Koefisien Koefisien
paket 05 dan paket 06 yang tidak berhimpit. Jumlah Anchor
α β
Posisi garis paket 05 lebih mengarah ke 10 anchor (25%) 1,00820 -0,36996
arah positif atau mendekati angka nol
dibandingkan dengan paket 06. Hal ini 12 anchor (30%) 0,800241 -0,077775
menunjukkan bahwa paket 05 sangat baik 16 anchor (40%) 0,72467 0,03269
dalam hal membedakan antara peserta tes
kemampuan tinggi dengan kemampuan Terdapat perbedaan koefisien pe-
rendah dibandingkan dengan paket 06. nyetaraan pada paket soal dengan 10 butir
Kualitas penyetaraan dilihat dari anchor (25% dari 40 butir soal) dan paket
jumlah butir anchor item yang digunakan soal dengan 16 butir anchor (40% dari
dalam penyetaraan menunjukkan bahwa 40 butir soal). Paket soal dengan 16 butir
semakin banyak jumlah anchor item anchor menghasilkan koefisien penyetaraan
yang digunakan pada proses penyetaraan yang lebih akurat dibandingkan paket soal
mempengaruhi nilai koefisien penyetaraan. dengan 10 butir anchor karena koefisien
Secara teoretis, semakin banyak jumlah α pada paket soal dengan 16 butir anchor
anchor item yang digunakan nilai koefisien lebih mendekati 1 dan koefisien β lebih
α dan β semakin mendekati 1 dan 0. mendekati 0.
Demikian juga dengan nilai standar error Terdapat perbedaan koefisien penye-
dari koefisien penyetaraan, semakin banyak taraan pada paket soal dengan 12 butir
jumlah anchor item yang digunakan anchor (30% dari 40 butir soal) dan paket
nilai standar error koefisien penyetaraan soal dengan 16 butir anchor (40% dari
semakin kecil. Hal ini berarti semakin 40 butir soal). Paket soal dengan 16 butir
banyak jumlah anchor item, kualitas anchor menghasilkan koefisien penyetaraan
penyetaraan semakin akurat. Ringkasan yang lebih akurat dibandingkan paket soal
hasil penyetaraan untuk masing-masing dengan 12 butir anchor karena koefisien α
anchor item ditinjau dari koefisien α dan β pada paket soal dengan 16 butir anchor lebih
disajikan pada Tabel 1. mendekati 1 dan koefisien β lebih mendekati
Tabel 1 menunjukkan bahwa dari 0. Ditinjau dari standar error yang dihasil-
hasil analisis data terdapat perbedaan hasil kan dari penyetaraan untuk masing-masing
penyetaraan antara paket soal dengan 10 paket soal disajikan pada Tabel 2.

216
Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Tabel 2 Hal ini sejalan dengan penelitian


Hasil Analisis Standar Error Koefisien yang dilakukan sebelumnya pada data
Penyetaraan Berdasarkan Perbedaan dikotomus (Hanson & Beguin, 2002)
Jumlah Butir Anchor dan data politomus (Swediati, 1997).
Standar Error Hasil ini sesuai pula dengan yang telah
Jumlah Anchor diperkirakan atau dibahas pada kajian
Koefisien α Koefisien β
pustaka, seperti yang dikemukakan oleh
10 anchor (25%) 0,21236 0,18060
Kolen & Brennan (2014) bahwa anchor
12 anchor (30%) 0,16461 0,15494 item yang besar akan mencerminkan tes.
16 anchor (40%) 0,11994 0,11748 Hasil ini juga sejalan dengan Battauz (2015,
p. 101) yang menyatakan bahwa jumlah
Berdasarkan Tabel 2, terdapat per- butir anchor memiliki pengaruh penting
bedaan standar error hasil penyetaraan terhadap keragaman koefisien penyetaraan
antara paket soal dengan 10 butir anchor apabila ukuran sampel kecil terutama
(25% dari 40 butir soal) dan paket soal pada panjang tes. Liu, Sinharay, Holland,
dengan 12 butir anchor (30% dari 40 butir Curley, & Feigenbaum (2011) menyatakan
soal). Paket soal dengan 12 butir anchor bahwa hasil penyetaraan menunjukkan
menghasilkan standar error yang lebih kecil anchor kecil tidak selalu menghasilkan
dibandingkan paket soal dengan 10 butir fungsi akurasi kesetaraan yang lebih baik
anchor. Hal ini berarti hasil penyetaraan dibandingkan anchor sedang. Anchor
tes pada paket soal dengan 12 butir anchor sedang yang dihasilkan menunjukkan sama
lebih akurat dibandingkan dengan paket baik atau bahkan lebih baik dari anchor
soal dengan 10 butir anchor. kecil.
Terdapat perbedaan standar error hasil
penyetaraan antara paket soal dengan 10 SIMPULAN
butir anchor (25% dari 40 butir soal) dan Berdasarkan hasil penelitian dan
paket soal dengan 16 butir anchor (40% pembahasan di atas, dapat disimpulkan
dari 40 butir soal). Paket soal dengan 16 hal-hal sebagai berikut. Pertama, terdapat
butir anchor menghasilkan standar error perbedaan hasil penyetaraan tes antara
yang lebih kecil dibandingkan paket soal paket soal dengan 10 butir anchor (25%
dengan 10 butir anchor. Hal ini berarti hasil dari 40 butir soal) dan paket soal dengan 12
penyetaraan tes pada paket soal dengan 16 butir anchor (30% dari 40 butir soal). Paket
butir anchor lebih akurat dibandingkan soal dengan 12 butir anchor menghasilkan
dengan paket soal dengan 10 butir anchor. penyetaraan yang lebih akurat. Kedua,
Terdapat pula perbedaan standar error terdapat perbedaan hasil penyetaraan tes
hasil penyetaraan antara paket soal dengan antara paket soal dengan 10 butir anchor
12 butir anchor (30 % dari 40 butir soal) (25% dari 40 butir soal) dan paket soal
dan paket soal dengan 16 butir anchor (40% dengan 16 butir anchor (40% dari 40 butir
dari 40 butir soal). Paket soal dengan 16 soal). Paket soal dengan 16 butir anchor
butir anchor menghasilkan standar error menghasilkan penyetaraan yang lebih
yang lebih kecil dibandingkan paket soal akurat. Ketiga, terdapat perbedaan hasil
dengan 12 butir anchor. Hal ini berarti hasil penyetaraan tes antara paket soal dengan 12
penyetaraan tes pada paket soal dengan 16 butir anchor (35% dari 40 butir soal) dan
butir anchor lebih akurat dibandingkan paket soal dengan 16 butir anchor (40%
dengan paket soal dengan 12 butir anchor. dari 40 butir soal). Paket soal dengan 16

217
JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

butir anchor menghasilkan penyetaraan Liu, J., Sinharay, S., Holland, P. W., Curley,
yang lebih akurat. Keempat, paket soal E., & Feigenbaum, M. (2011). Test score
dengan jumlah anchor yang paling besar equating using a Mini-Version anchor
menghasilkan penyetaraan tes yang lebih and a midi anchor: A case study using
akurat. Berdasarkan simpulan tersebut, SAT® data. Journal of Educational
sebaiknya dilakukan penyetaraan tes Measurement, 48(4), 361-379.
berdasarkan jumlah butir anchor sebesar Lord, F. M. (1980). Applications of
40% agar kualitas penyetaraan tes yang item response theory to practical
diperoleh lebih akurat. testing problems. Hillsdale, New
Jersey: Lawrence Erlbaum Associates
DAFTAR PUSTAKA Publishers.
Battauz, M. (2015). Factors affecting the Mansyur, Soeratno, & Harun, R. (2015).
variability of IRT equating coefficients. Asesmen pembelajaran di sekolah:
Statistica Neerlandica, 69(2), 85-101. Panduan bagi guru dan calon guru.
Cook, L. L., & Eignor D. R. (1991). IRT Yogyakarta: Pustaka Pelajar.
equating methods. Educational testing Miyatun, E., & Mardapi, D. (2000).
service. Educational Measurement: Komparasi metode penyetaraan tes
Issues and Practice, 10, 37-45. menurut teori respon butir. Jurnal
Croker, L., & Algina, J. (2006). Introduction Penelitian dan Evaluasi, 2(3), 1-18.
to classical and modern test theory. Diunduh dari http://id.portalgaruda.
California: Wadsworth Pub Co. org/?ref=browse&mod=viewarticle&
Dorans, N. J., Moses, T. P., & Eignor, D. R. article=168292.
(2010). Principles and practices of test Rosana, D., & Sukardiyono. (2015).
score equating. ETS Research Report Analisis butir dan identifikasi ketidak-
Series, 2010(2), i-41. wajaran skor ujian akhir sekolah
Hambleton, R. K., Swaminathan, H., & untuk standarisasi penilaian. Jurnal
Rogers H. J. (1991). Fundamentals of Kependidikan, 44(2), 92-102.
item response theory. Newbury Park: Sukirno, D. S. (2007). Penyetaraan tes
Sage Publications Inc. UAN, mengapa dan bagaimana. Jurnal
Hanson, B. A., & Beguin, A. A. (2002). Cakrawala Pendidikan, 26(3), 305-321.
Obtaining a common scale for IRT Swediati, N. (1997). Equating tests
item parameters using separate versus under the generalized partial credit
concurrent estimation in the common model (Doctoral Dissertation).
item non equivalent groups equating Diunduh dari http://scholarworks.
desain. Applied Ps ychological umass.edu/dissertations/. (Order No.
Measurement, 26, 3-34. AAI9809405).
Hayati, N., & Mardapi, D. (2014). Pengem- Syahrul. (2014). Penerapan asesmen
bangan butir soal matematika SD di alteratif bagi peningkatan kualitas
Kabupaten Lombok Timur sebagai proses dan hasil belajar matematika
upaya dalam pengadaan bank soal. siswa SMK Negeri 2 Makassar (Lapor-
Jurnal Kependidikan, 44(2), 26-38. an penelitian). Makassar: LPPM
Kolen, M. J., & Brennan, R. L. (2014). UNM.
Test equating, scaling, and linking: Taruno, D. L. B. (2014). Model uji
Methods and practices (3rd ed.). New kompetensi keahlian instalasi listrik.
York: Springer Verlag Inc. Jurnal Kependidikan,44(2), 103-116.

218
NFUPEF)BFCBSB   
*/%&,446# /

+&, 0

1
4ZNCPMT
2
"
"ODIPSJUFN     3
BODIPSUFTU 
4
#
5
$
5&03*3&410/#65*3   
DPNNPOJUFNOPOFRVJWBMFOUHSPVQ  
6
%
7
&
8
FRVBUF*35   

' 9

( :

) ;
)"4*-1&/:&5"3""/5&4   

*
*UFN$IBSBTDUFSJTUJD$VSWF *$$

*UFN3FTQPOTF  FPSZ  

+
KVNMBICVUJSBODIPS  

Anda mungkin juga menyukai