2 PB

Jurnal Penelitian dan Evaluasi Pendidikan
Volume 22, No 1, June 2018 (24-34)

Online: http://journal.uny.ac.id/index.php/jpep
ESTIMASI KESALAHAN PENGUKURAN STANDARD SETTING

DALAM PENILAIAN KOMPETENSI MATEMATIKA
TINGKAT SMP DI KABUPATEN SUMBAWA
Weni Wendari 1*, Samsul Hadi 1
1
Prodi Penelitian & Evaluasi Pendidikan Program Pascasarjana Universitas Negeri Yogyakarta
1
Jl. Colombo No. 1, Depok, Sleman 55281, Yogyakarta, Indonesia
* Corresponding Author. Email: wendari.weni@gmail.com
Abstrak
Penelitian ini bertujuan untuk mengetahui metode yang lebih akurat dalam mengestimasi
kesalahan pengukuran standard setting pada metode Ebel, Bookmark, dan Contrasting group. Data
penelitian ini merupakan dokumen Dinas Pendidikan dan Kebudayaan Kabupaten Sumbawa
berupa respon peserta Ujian Nasional Matematika Paket P0C5520 tahun ajaran 2015/2016
yang berjumlah 352 siswa. Gsuru juga dilibatkan dalam penelitian sebagai panelis dalam Focus
Group Discussion (FGD). Data yang terkumpul kemudian dianalisis melaui tiga tahap.. Tahap
pertama yaitu persiapan, kegiatan pada tahap ini mencakup penyiapan data, penggolongan
SMP, dan penentuan karakteristik butir. Tahap kedua yaitu FGD dilakukan dalam dua putaran.
Tahap ketiga yaitu mengestimasi kesalahan pengukuran dengan menggunakan pendekatan
Generalizability Theory dengan bantuan program eduG. Hasil penelitian menunjukkan bahwa
metode Contrasting group memiliki estimasi kesalahan pengukuran paling kecil dibandingkan
metode Ebel dan Bookmark, oleh karena itu, metode Contrasting group lebih akurat dibandingkan
dengan dua metode lainnya.
Kata kunci: cut score, standard setting, generalizability theory
MEASUREMENT ERROR ESTIMATION OF STANDARD SETTING IN

MATHEMATICS COMPETENCY ASSESSMENT FOR
JUNIOR HIGH SCHOOL IN SUMBAWA REGENCY
Abstract
This research aims to find the most accurate methods in estimating measurement error of
standard setting among Ebel, Bookmark, and Contrasting group methods. The data used in
this study were 352 students’ responses on Mathematics National Exam Package P0C5520 in
the academic year of 2015/2016. The document was collected from the Department of
Education and Culture in Sumbawa Regency. Teachers were also involved in this research as
panelists in the Focus Group Discussion (FGD). The data collected were then analyzed
through three stages. The first stage was preparation stage, including the activities of data
preparation, school classification, and item characteristics analysis. The second stage was two-
round FGD. The third stage was estimating the measurement error using Generalizability
Theory approach assisted by eduG program. The research result shows that Contrasting
Group method produces the smallest measurement error estimation compared to Ebel and
Bookmark methods, therefore, Contrasting group method is considered as the most accurate
method.
Keywords: cut score, standard setting, generalizability theory
Permalink/DOI: http://dx.doi.org/10.21831/pep.v22i1.16492

ISSN 1410-4725 (print) ISSN 2338-6061 (online)
Volume 22, No 1, June 2018
Pendahuluan Kabupaten Sumbawa memiliki kriteria kelu-

Penilaian dalam kurikulum didesain lusan yang berbeda. Dimana kriteria kelu-
dengan menggunakan kriteria tertentu. lusan ditentukan hanya berdasarkan intake
Asumsi yang digunakan pada kriteria yaitu siswa, daya dukung, dan kompleksitas. Ke-
bahwa setiap peserta didik dapat belajar pel- tiga subskor tersebut selanjutnya diambil
ajaran apa saja, namun dengan membutuh- rata-rata yang kemudian digunakan sebagai
kan waktu yang berbeda. Kriteria itu ber- batas kelulusan. Penggunaan teknik ini tentu
laku untuk semua peserta didik tanpa mem- menimbulkan masalah yang cukup serius ter-
bedakan mata pelajaran. Hasil penilaian se- utama berkenaan dengan masalah reliabilitas
ring dipandang sebagai tolak ukur keberha- atau keakuratan. Penentuan ketiga kompo-
silan peserta didik dalam proses pembelajar- nen tersebut memberikan konsekuensi akan
an. Hasil penilaian berdasarkan kriteria tingginya variabilitas nilai yang mungkin
dikategorikan menjadi dua yaitu lulus dan muncul dari para penilai. Permasalahan re-
tidak lulus. Peserta didik dikategorikan lulus liabilitas ini dapat dieliminasi jika batas kelu-
jika memenuhi kriteria yang telah ditentu- lusan atau kriteria kelulusan ditentukan
kan. Sebaliknya, peserta didik dinyatakan dengan menggunakan standard setting.
tidak lulus apabila tidak memenuhi kriteria Standard setting merupakan proses pe-
yang telah ditentukan. nentuan suatu titik atau batas dalam skala
Penentuan kriteria kelulusan dapat di- skor tes tertentu yang digunakan untuk me-
lakukan melalui judgment. Namun penetapan nentukan level performa suatu kebijakan
dengan cara ini memiliki kelemahan, yakni atau untuk membuat klasifikasi (Cizek, 1996,
tidak didasarkan pada data empirik dan pro- p. 20). Standard setting dalam dunia pendidik-
sedur yang telah teruji di lapangan. Penetap- an banyak digunakan untuk menentukan
an dengan judgment ini hanya dilakukan ber- skor batas kelulusan atau biasa disebut seba-
dasarkan pertimbangan dan pendapat yang gai skor minimum kelulusan. Namun lebih
tidak didasarkan pada data empirik. Kemu- dari itu, standard setting juga dapat digunakan
dian pendapat dan pertimbangan tersebut sebagai alat bantu untuk memetakan mutu
dijadikan sebagai kebijakan. Sehingga krite- pendidikan, sebab dengan standard setting da-
ria kelulusan yang ditetapkan dengan cara pat dibuat suatu klasifikasi kompetensi sese-
ini tidak dapat digunakan karena tidak me- orang atau prestasi suatu wilayah tertentu
representasikan keadaan yang sebenarnya di yang termasuk kategori tinggi, sedang, dan
lapangan. rendah. Tidak hanya digunakan dalam me-
Saat ini, Indonesia menggunakan Ku- nentukan skor minimum kelulusan, standard
rikulum 2013 yang mana kriteria kelulusan setting juga dapat dimanfaatkan dalam me-
untuk Ujian Nasional tidak ditentukan oleh metakan mutu pendidikan dengan meng-
pemerintah. Permendikbud Nomor 5 Tahun klasifikasikan kompetensi peserta didik atau
2015 tentang Kriteria Kelulusan Peserta Di- prestasi suatu wilayah tertentu.
dik dalam Ujian Nasional (UN) (Menteri Secara garis besar, standard setting di-
Pendidikan dan Kebudayaan Republik bedakan menjadi dua golongan. Pertama
Indonesia, 2015) menyatakan bahwa kelu- yang menggunakan acuan norma dan kedua
lusan peserta didik ditetapkan oleh satuan menggunakan acuan kriteria. Interpretasi ni-
pendidikan, dalam hal ini kriteria kelulusan lai beracuan norma yaitu kemampuan pe-
ditentukan oleh masing-masing sekolah atau serta tes dibandingkan dengan kemampuan
yang biasa dikenal dengan otonomi sekolah. orang lain dalam kelompok acuan. Semen-
Berarti bahwa setiap sekolah di Indonesia tara interpretasi nilai beracuan kriteria, ke-
mempunyai kriteria kelulusan yang berbe- mampuan peserta tes dibandingkan dengan
da–beda, misalnya di Kabupaten Sumbawa level kemampuan tertentu.
terdapat 101 sekolah menengah pertama Sampai saat ini, terdapat sekitar 38
(SMP) yang terdiri atas 95 SMP Negeri dan metode yang digunakan dalam menentukan
6 SMP Swasta. Masing–masing SMP di standard setting (Berk, 1986, p. 151). Metode
Estimasi Kesalahan Pengukuran Standard Setting ... − 25

Weni Wendari, Samsul Hadi
standard setting dibagi kedalam lima kelom- dalam menghasilkan cut score yang tepat
pok (Zieky, Perie, & Livingston, 2008, p. dengan nilai error terkecil.
86) yaitu (1) metode berdasarkan pertanya- Cut score merupakan point penting da-
an tes terdiri dari metode Angoff, metode lam standard setting. Penentuan cut score bu-
estimasi rata–rata, metode Yes or No Angoff, kanlah hal yang mudah (Nudell, 2008, p. 5).
metode Nedelsky, metode Ebel, metode Cut score yang ditetapkan harus dapat men-
Bookmark, dan metode Item Descriptor Match- cerminkan ketercapaian kompetensi minimal
ing; (2) metode berdasarkan profil skor ter- yang harus dicapai peserta tes. Ketepatan
diri dari metode profil performan, dan me- penentuan cut score dalam standard setting di-
tode profil dominant; (3) metode berdasarkan tentukan berdasarkan besar kecilnya error.
pada pertimbangan orang atau produk ter- Semakin besar nilai error maka semakin ti-
diri dari metode borderline group, metode con- dak tepat penentuan cut score. Sebaliknya,
trasting group, metode contrasting group dengan semakin kecil nilai error maka penentuan cut
modifikasi up and down, metode body of work, score semakin tepat. Selain itu, perlu diper-
dan metode analytic judgment; (4) metode ber- hatikan juga bahwa penentuan cut score yang
dasarkan pertimbangan kelompok peserta terlalu tinggi dapat menimbulkan kerugian
tes yang terdiri dari Judgments about a Reference bagi peserta tes. Hal ini dikarenakan cut score
Group dan Judgments about Two Reference yang terlalu tinggi menyebabkan peserta tes
Groups); dan (5) metode berdasarkan pada yang seharusnya lulus menjadi tidak lulus.
kompromi antara pertimbangan absolut dan Sebaliknya jika cut score yang terlalu rendah
normatif terdiri dari metode Beuk dan memberikan keuntungan bagi peserta tes.
metode Hofstee. Semakin rendah cut score yang ditentukan
Retnawati (2014, pp. 165–166) meng- maka peserta tes yang seharusnya tidak lulus
golongkan metode standard setting menjadi menjadi lulus. Besarnya cut score bisa dinaik-
dua kelompok yaitu (1) metode berpusat pa- kan ataupun diturunkan, tetapi penaikan dan
da butir/tes, metode ini menggunakan pen- penurunan cut score akan berdampak pada
dekatan klasik dan teori respon butir. Me- besar kecilnya nilai error.
tode berpusat pada butir/tes yang cende- Besar kecilnya error dari masing-ma-
rung menggunakan pendekatan klasik terdiri sing cut score pada setiap metode standard
dari metode Nedelsky, penilaian pro-fesional, setting menunjukkan ketepatan dari metode
metode Angoff, dan metode Ebel. Sedangkan tersebut. Namun, penentuan cut score pada
metode berpusat pada butir yang menggu- standard setting bukan hanya sebatas melihat
nakan pendekatan teori respon butir terdiri besarnya cut score dan errornya,tetapi untuk
dari metode Bookmark dan metode pemeta- menghasilkan cut score yang tepat dari me-
an butir (item mapping); dan (2) metode yang tode standard setting sebaiknya dilakukan esti-
berpusat pada siswa terdiri dari metode Con- masi kesalahan pengukuran dari masing-
trasting group dan metode Borderline. Penggo- masing metode standard setting.
longan metode standard setting didasarkan Sejauh pengamatan peneliti, penelitian
pada sudut pandang masing-masing ahli. mengenai standard setting mayoritas melaku-
Penggolongan berbagai metode stan- kan perbandingan metode, tanpa mengesti-
dard setting dapat mempermudah pemilihan masi kesalahan dari masing-masing metode.
metode standard setting yang sesuai dengan Dengan mengestimasi kesalahan dari setiap
karakteristik, tujuan, dan situasi yang terjadi. metode maka akan diperoleh cut score yang
Pemilihan metode standard setting yang tepat lebih akurat. Penelitian yang dilakukan oleh
akan memberikan kesalahan (error) yang ke- Prijowuntato, Mardapi, & Budiyono (2015,
cil. Sehingga penentuan cut score akan sema- p. 176) merupakan salah satu penelitian yang
kin tepat. Untuk itu sangat penting diper- membahas tentang estimasi kesalahan peng-
hatikan pemilihan metode standard setting ukuran standard setting. Penelitian tersebut
yang akan digunakan. Metode standard setting menggunakan tiga metode standard setting
yang digunakan akan sangat menentukan yaitu metode Angoff, metode Ebel, dan
26 − Volume 22, No 1, June 2018

metode Bookmark. Estimasi kesalahan peng- lam suatu hal. Standard setting diartikan oleh
ukuran menggunakan metode Bootstrap. Cizek (1996, p. 20) sebagai suatu proses
Penelitian serupa dilakukan oleh Yin dalam menentukan batas lulus (cut score).
& Sconing (2008, p. 182) tentang estimasi Batas lulus tersebut merupakan batas bawah
kesalahan standard setting dengan pendekatan yang menentukan peserta didik dapat dikata-
Generalizability Theory, dimana metode yang kan kompeten atau tidak kompeten.
digunakan terdiri dari metode item rating dan MacCann & Stanley (2006, p. 4) men-
Bookmark. Pada penelitian tersebut, Gener- definisikan standard setting sebagai kumpulan
alizability Theory digunakan untuk mengesti- prosedur yang sistematik dalam mengidenti-
masi kesalahan baku cut score yang dihasilkan fikasi batas lulus (cut score) yang diperlukan
oleh kedua metode standard setting yang untuk menentukan tingkat kemahiran.
digunakan yaitu item rating dan Bookmark. Se- Crocker & Algina, (1986, p. 410) menye-
lanjutnya, Generalizability Theory secara eks- butkan standard setting sebagai kegiatan untuk
plisit menggabungkan beberapa sumber ke- menentukan skor batas lulus. Batas lulus ter-
salahan di model pengukuran yang diguna- sebut menjadi kriteria dalam menentukan
kan untuk mengestimasi kesalahan baku pa- tingkat atau level prestasi seseorang. Standard
da cut score dari masing-masing metode. Tu- setting merupakan suatu proses/ prosedur
juan dalam penelitian tersebut ada tiga yaitu yang sistematis dalam menentukan batas
mengestimasi efek dari berbagai sumber ke- lulus atau cut score untuk menyatakan tingkat
salahan pada kedua prosedur; mengestimasi prestasi.
standar error pada cut score dari dua prosedur; Pengambilan keputusan berhubungan
dan mengestimasi efek perbedaan konsep- dengan prosedur–prosedur pengukuran.
tualisasi yang berbeda dari seluruh bidang Standard setting merupakan prosedur pengu-
generalisasi untuk dua prosedur standard kuran yang dapat digunakan dalam pengam-
setting. bilan keputusan. Standard setting adalah atur-
Berdasarkan latar belakang tersebut, an yang dapat dipakai dalam pengambilan
maka estimasi kesalahan pengukuran cut score keputusan yang pentingdengan mempertim-
pada beberapa metode standard setting perl bangkan berbagai aspek.
dilakukan. Metode standard setting yang digu- Standard setting berperan penting da-
nakan dalam penelitian terdiri dari metode lam bidang pendidikan, tepatnya dalam me-
Ebel, metode Bookmark, dan metode Con- nentukan batas kelulusan peserta didik. Pe-
trasting group. Metode Ebel dan metode Book- nyelenggaraan ujian merupakan cara yang
mark didasarkan pada tes/butir, dan metode digunakan untuk mengevaluasi pembelajar-
Contrasting group didasarkan pada peserta tes an dengan melihat respon peserta didik ter-
(examinee). Ketiga metode ini memiliki pro- hadap tes yang dibuat. Ujian yang di Indo-
sedur yang berbeda dalam penentuan cut nesia dikenal dengan Ujian Nasional me-
score. Perbedaan prosedur akan menghasil- miliki batas kelulusan atau kriteria kelulusan
kan cut score dan nilai error yang berbeda. Cut dengan kata lain peserta tes tersebut dinya-
score yang diperoleh dari ketiga metode ini takan kompeten terhadap suatu pelajaran
kemudian diestimasi kesalahannya dengan atau materi jika hasil perolehannya melebihi
pendekatan Generalizability Theory menggu- kriteria yang ditentukan. Sebaliknya, seorang
nakan program eduG. peserta tes dikatakan tidak lulus atau tidak
Passing scores, cut scores, cut off scores, kompeten terhadap suatu pelajaran atau ma-
performance scores, achievement levels, mastery levels, teri apabila hasil perolehannya kurang dari
prociency levels, thresholds levels, dan standard me- kriteria yang ditentukan.
rupakan istilah–istilah dalam standar setting Penelitian ini menggunakan tiga
(Glass, 1978, p. 240). Istilah–istilah tersebut metode standard setting yang terdiri dari dua
pada dasarnya memiliki makna yang sama metode berpusat pada tes dan satu metode
yaitu bahwa standard setting merupakan suatu berpusat pada peserta tes. Dua metode ter-
batas atau kriteria yang dijadikan dasar da- sebut yaitu metode Ebel dan Bookmark. Me-

tode yang berpusat pada peserta tes yaitu Adapun kelemahan implementasi pro-
metode Contrasting group. sedur Bookmark adalah komposisi soal dari
Metode Ebel ini merupakan perbaikan yang termudah sampai paling sulit memung-
dari metode Angoff dengan mempertim- kinkan ada beberapa indikator dari kemam-
bangkan tingkat kesulitan butir dan relevan- puan yang diujikan tidak termasuk dalam
si butir. Tingkat kesulitan butir pada metode halaman Bookmark yang dipilih oleh panelis
Ebel dibedakan menjadi tiga yaitu sulit, se- sebagai batas kemampuan siswa dalam men-
dang, dan mudah. Sementara relevansi butir jawab. Disamping itu, kelemahan metode
diperingkat menjadi empat yaitu essential, Bookmark adalah penilai kesulitan untuk
penting (important), dapat diterima (accept- memahami dan menggunakan kemungkinan
able), dan dapat dipertanyakan (questionable) jawaban (Response Probability).
(Retnawati, 2014, p. 167). Prosedur ini Metode Contrasting group diperkenalkan
menghasilkan tabel 3 x 4 dengan sejumlah oleh Berk pada tahun 1976. Berk menyaran-
butir tertentu yang diletakkan pada 12 sel kan prosedur validasi kelompok yang diper-
kombinasi antara kesulitan butir dan rele- luas. Prosedur kelompok yang menguasai
vansi butir (Alsmadi, 2007, p. 479). digunakan untuk menentukan perbedaan cut
Prosedur Ebel dapat dilakukan dengan score antara siswa-siswa yang terlatih dan tak
penilai menentukan tingkat kesulitan butir terlatih, atau anatara siswa yang menguasai
(sulit, sedang, mudah) dan relevansi butir materi dan tidak menguasai materi (Cizek &
meliputi essensial, penting, dapat diterima, Bunch, 2007, p. 106). Penentuan cut score
dan dapat dipertanyakan (Saunders, Ryan, & pada metode ini menggunakan prosedur ke-
Huynh, 1980, p. 167); penilai mengisi butir- lompok untuk membedakan kelompok mas-
butir pada sel kombinasi tingkat kesulitan ter dan kelompok non-master. Dua distri-
dan relevansi butir; penilai menentukan pro- busi kelompok tersebut kemudian digambar
porsi butir dalam masing-masing kategori untuk menentukan titik potongnya.
bahwa examinee yang ada pada garis batas; Metode Contrasting group memiliki ke-
penilai mengalikan jumlah butir dengan pro- lebihan dan kekurangan. Livingstone &
porsi masing-masing. Hasil perkalian tiap Zieky (1982, p. 53) menganggap bahwa me-
kategori tersebut kemudian dijumlahkan. tode ini memiliki kemudahan dalam pene-
Hasil penjumlahan ini disebut minimum rapannya dan memberikan hasil yang aku-
passing score (MPS); cut score diperoleh dengan rat. Metode ini didasarkan pada kondisi nya-
merata–rata minimum passing score yang di- ta peserta tes. Selain itu, tes dengan bentuk
usulkan oleh penilai. pilihan ganda cocok jika penentuan cut score
Metode Bookmark dikembangkan un- dilakukan dengan metode ini, karena ahli
tuk mengatasi keterbatasan yang berhubung- akan menentukan kelompok master dan
an dengan standard setting yang terdahulu, non-master dengan lebih mendasar. Semen-
khususnya untuk menentukan cut score ganda tara kekurangan metode ini adalah adanya
pada single test (Karantonis & Sireci, 2006, p. kesulitan dalam memperoleh evaluasi yang
6). Pengembangan metode ini mencakup sebanding untuk wilayah yang lebih luas,
beberapa prosedur seperti mengintegrasikan misal tingkat nasional.
selected response dan constructed response ke da- Masalah dalam standard setting pada da-
lam format butir, mudah diterapkan, dan sarnya sama dengan masalah yang dihadapi
mendasarkan pada IRT (Cizek & Bunch, dalam pengukuran (Nichols, Twing,
2007, p. 160). Pada metode Bookmark, butir- Mueller, & O’Malley, 2010, p. 19). Tidak
butir yang sudah diurutkan dengan menggu- tersedianya indikator dalam standard setting
nakan analisis IRT dikumpulkan dalam satu yang dapat digunakan untuk mengukur pres-
booklet yang disebut Ordered Item Booklet tasi kelompok. Para panelis dalam standard
(OIB). Di samping itu, dalam metode Book- setting diminta untuk membuat pertimbang-
mark ditetapkan Response Probability (RP) an tentang kinerja kelompok siswa, sebagai
sebesar 67% likelihood.
28 − Volume 22, No 1, June 2018

contoh siswa yang termasuk dalam kategori Berdasarkan uraian yang telah disam-
dasar, cukup, maupun maju. paikan tersebut, maka penelitian ini bertu-
Panelis yang terlibat dalam putaran juan untuk mengetahui metode yang lebih
dan skema dapat menyebabkan variabilitas akurat dalam mengestimasi kesalahan peng-
dalam cut score (Yin & Sconing, 2008, p. ukuran standard setting pada metode Ebel,
185). Kemungkinan besar bahwa perbedaan Bookmark, dan Contrasting group.
cut score dapat dihubungkan dengan perbe-
daan metode standard setting karena berbagai Metode
sumber yang disebutkan di atas dan atau
Penelitian ini termasuk jenis peneliti-
perbedaan dalam prosedur. Standard setting
an deskriptif kuantitatif. Sumber data dalam
termasuk prosedur pengukuran untuk me-
penelitian ini berupa respon siswa terhadap
netapkan kemampuan siswa, maka variabili-
Ujian Nasional mata pelajaran Matematika
tas atau ketidakpastian dalam cut score yang
pada jenjang SMP di Kabupaten Sumbawa
dihasilkan dari proses standard setting perlu
tahun ajaran 2015/2016
diperhatikan. Standard error dalam cut score se-
Populasi dalam penelitian ini adalah
harusnya ikut dipertimbangkan. Namun de-
lembar jawaban Ujian Nasional Matematika
mikian, sedikit penelitian yang mempertim-
siswa dari 95 SMP Negeri di Kabupaten
bangkan standard error dalam standard setting.
Sumbawa. Adapun sampel yang digunakan
Estimasi kesalahan pengukuran cut
dalam penelitian ini merupakan respon
score dalam standard setting pada penelitian ini
jawaban Ujian Nasional Matematika siswa
dilakukan dengan pendekatan Generalizability
paket P0C5520 dari 12 SMP Negeri di Ka-
Theory. Pendekatan generalizability theory digu-
bupaten Sumbawa dengan jumlah sampel
nakan karena dalam metode standard setting
sebanyak 352 siswa. Pengambilan sampel
ini digunakan panelis sebagai penentu cut score,
dalam penelitian ini menggunakan teknik
dimana penggunaan panelis akan menimbul-
proportionate stratified random sampling. Peng-
kan tingginya variabilitas nilai yang diberi-
ambilan sampel didasarkan pada klasifikasi
kan oleh panelis itu sendiri. Sehingga relia-
sekolah dari kategori tinggi, sedang, dan
bilitas dari skor yang dihasilkan perlu diper-
rendah. Klasifikasi sekolah berdasarkan pa-
hatikan. Penggunaan generalizability theory di-
da nilai Ujian Nasional tahun ajaran 2015/
karenakan G theory memberikan berbagai
2016. Selain itu juga mempertimbangkan le-
model yang digunakan dalam menyelidiki
tak geografis sekolah baik itu di kota mau-
kesalahan dalam metode Ebel, Bookmark,
pun di desa. Hal ini dilakukan agar sam-pel
dan Contrasting group.
yang digunakan dalam penelitian dapat me-
Analisis G-teori memiliki dua tahap
representasikan keadaan sebenarnya di Ka-
yaitu generalisasi studi (G studi) dan decision
bupaten Sumbawa. Data tentang sampel
studi (D studi). G studi dilakukan untuk me-
penelitian disajikan pada Tabel 1.
nentukan seberapa baik skor dapat diguna-
kan dalam beberapa situasi dan melibatkan Tabel 1. Daftar Sampel Penelitian
perkiraan komponen varians yang mung kin
akan digunakan dalam studi D. Studi D ada- No Nama Sekolah Ketegori Letak Jumlah
Sampel
lah penelitian yang dilakukan untuk meng- 1 SMP N 1 Sumbawa Besar Tinggi Kota 58
hitung koefisien reliabilitas dan SEs pengu- 2 SMP N 1 Moyo Hilir Tinggi Desa 21
kuran dengan tujuan menentukan prosedur 3 SMP N 1 Moyo Utara Tinggi Desa 25
pengukuran yang paling efisien pada situasi 4 SMP N 5 Moyo Hilir Tinggi Desa 10
5 SMP N 2 Labuhan Badas Rendah Desa 15
tertentu. Pertimbangan studi D yang paling 6 SMP N 2 Sumbawa Besar Rendah Kota 62
penting adalah spesifikasi dari generalisasi 7 SMP N 3 Moyo Hilir Rendah Desa 10
populasi dimana pembuat keputusan ingin 8 SMP N 3 Sumbawa Besar Rendah Kota 32
menggeneralisasi skor dengan prosedur 9 SMP N 4 Labuhan Badas Rendah Desa 17
10 SMP N4 Sumbawa Besar Rendah Kota 7
pengukuran tertentu. 11 SMP N 1 Unter Iwes Rendah Kota 34
12 SMP N 1 Labuhan Badas Rendah Desa 61
Total 352
Panelis yang digunakan ditentukan Tabel 2. Tingkat Kesulitan Butir

dengan kuota sebanyak 12 orang guru mate-
No Kriteria Nomor Butir Jumlah
matika yang diambil berdasarkan kualitas se-
1 Mudah 1, 10, 16, 39 4
kolah (tinggi, sedang, dan rendah) dan letak
2 Sedang 4, 5, 6, 7, 8, 9, 11, 12, 13, 30
geografisnya (kota dan desa) serta kriteria 14, 15, 18, 20, 21, 22, 24,
panelis. Adapun kriteria tersebut sebagai be- 25, 26, 27, 28, 29, 30, 31,
rikut: (1) ahli dalam bidang yang berhubung- 32, 33, 34, 35, 37, 38, 40
an dengan ujian; (2) terbiasa dengan meto- 3 Sulit 2, 3, 17, 19, 23, 36 6
de–metode ujian; (3) telah mengajar mate- Jumlah 40
matika minimal 10 tahun; (4) mengajar ma-
tematika kelas 12 minimal selama 5 tahun; Berdasarkan Tabel 2 diketahui bahwa
dan (5) lulusan dari program studi matema- sebanyak 4 butir (10%) tergolong butir yang
tika atau pendidikan matematika. mudah, 30 butir (75%) termasuk butir yang
Teknik yang digunakan untuk me- tergolong sedang atau yang biasa disebut se-
ngumpulkan data dalam penelitian ini ada- bagai butir yang baik, dan butir yang terma-
lah dokumentasi. Teknik dokumentasi digu- suk dalam kategori butir sulit berjumlah 6
nakan untuk mengumpulkan respon jawab- butir (15%).
an siswa SMP di Kabupaten Sumbawa da- Tahap kedua yaitu FGD untuk me-
lam menjawab Ujian Nasional mata pelajar- nentukan cut score dari metode Ebel, Book-
an Matematika tahun ajaran 2015/2016. mark, dan Contrasting group. Tahap ini dilaku-
Selain itu, data dalam penelitian ini juga kan dengan dua putaran. Masing-masing me-
dikumpulkan melalui Focus Group Discussion tode memiliki dua cut score. Berikut cut score
(FGD). Adapun instrumen yang digunakan tiap metode disajikan pada Tabel 3.
untuk mengumpulkan data dari FGD yaitu
berupa lembar kerja panelis untuk metode Tabel 3. Cut Score Putaran Pertama dan
Ebel, Bookmark, dan Contrasting group. Kedua
Teknik analisis data dalam penelitian
Putaran Metode Standard Setting
ini terdiri dari tiga tahap yaitu tahap pertama Ebel Bookmark Contrasting
atau persiapan terdiri dari penyiapan data, Group
penggolongan SMP, dan pengujian karakte- Pertama 64,579 64,434 50
ristik butir menggunakan program Winstep; Kedua 67,813 65,455 47,5
tahap kedua yaitu focus group discussion (FGD)
terdiri dari dua putaran; dan tahap ketiga Ketiga metode menghasilkan cut score
yaitu mengestimasi kesalahan pengukuran yang berbeda. Perbedaan ini terjadi dikare-
dengan pendekatan Generalizability Theory nakan prosedur penentuan cut score masing-
menggunakan program EduG. masing metode sangat berbeda. Metode Ebel
memiliki cut score tertinggi pada kedua pu-
Hasil dan Pembahasan taran yaitu 64,579 dan 67,813 dengan jum-
lah siswa yang lulus sebanyak 128 siswa dan
Data respon Ujian Nasional Mate- mampu menguasai minimal 26 deskriptor.
matika siswa paket P0C5520 dari 12 SMP Cut score metode Bookmark putaran 1 dan 2
Negeri di Kabupaten Sumbawa dengan jum- berturut 64,434 dan 65,455. Jumlah siswa
lah sampel sebanyak 352 siswa dengan soal yang lulus pada cut score metode Bookmark
terdiri dari 40 butir. Selanjutnya dianalisis sebanyak 128 siswa dengan deskriptor yang
menggunakan program Winstep untuk meng- harus dikuasai sebanyak 25 deskriptor.
hitung tingkat kesulitan butir. Tingkat kesu- Metode Contrasting group memiiki cut score
litan butir pada output Winsteps dapat dilihat paling rendah pada kedua putaran dengan
pada Table Measure. Hasil analisis Winsteps jumlah siswa yang lulus sebanyak 297 siswa.
tampak pada Tabel 2. Adapun siswa dikatakan lulus jika mampu
menguasai 19 deskriptor.
30 − Volume 22, No 1, June 2018

Rendahnya kelulusan siswa tersebut tingkat kesulitan tinggi maka butir soal akan
dapat disebabkan oleh kekurang telitian pe- susah dijawab dengan benar dan menyebab-
serta didik dalam mengerjakan soal. Walau- kan skor peserta tes menjadi rendah. Distri-
pun soal yang diujikan termasuk dalam kri- busi skor inilah yang mempengaruhi cut score
teria sedang, namun apabila peserta didik yang diperoleh.
tidak teliti dalam mengerjakan maka hasil Setelah diperoleh cut score pada ketiga
pengerjaan tetap salah. Padahal berdasarkan metode standard setting, selanjutnya dilakukan
pendapat panelis soal-soal yang diujikan ter- tahap ketiga. Tahap ketiga yaitu mengesti-
masuk dalam kategori esensial dan penting, masi kesalahan pengukuran dengan pende-
yang mana berarti materi-materi yang ber- katan generalizability theory. Pendekatan ini
kaitan dengan soal tersebut harusnya dapat dilakukan dengan dua tahap yaitu G studi
dipahami dan dimengerti oleh peserta didik. dan D studi.
Berdasarkan hasil penelitian ini pe- G studi dilakukan untuk menentukan
nyebab tingginya cut score pada metode Ebel seberapa baik skor dapat digunakan dan me-
dikarenakan masih kurangnya pemahaman libatkan perkiraan varian komponen yang
guru tentang relevansi butir dengan kategori akan digunakan dalam studi D. D studi dila-
esensial, penting, dapat diterima, dan dapat kukan untuk menghitung koefisien reliabili-
dipertanyakan serta tingkat kesulitan butir. tas dan SEs pengukuran dengan tujuan me-
Selain itu, perkiraan proporsi jawaban benar nentukan prosedur pengukuran yang paling
untuk masing-masing kategori juga menjadi efisien. Analisis pada pendekatan ini dila-
penyebab tingginya cut score. Kurangnya pe- kukan dengan program EduG. Hasil analisis
mahaman guru akan hal-hal penting pada dapat dilihat pada Tabel 4.
metode Ebel membuat guru dengan bebas
meletakkan soal pada keempat kategori de- Tabel 4. Estimasi Varians Komponen
ngan proporsi jawaban benar yang tinggi dengan Desain G studi
sesuai dengan kemampuan guru dalam VC Ebel Bookmark Contrasting
menginterpretasi soal. group
Prosedur Bookmark merupakan prose- Estimasi % Estimasi % Estimasi %
dur yang dirasa mudah bagi panelis dalam 31,41 76,8 5,35 77,4 0,00 0,0
menentapkan cut score. Hal ini dikarenakan 5,08 13,6 0,39 2,4 3,12 100
data yang digunakan untuk menentukan cut 1,79 9,6 1,60 20,1 0,00 0,0
score sudah disiapkan terlebih dahulu. Sehing-
ga dapat mempermudah panelis dalam me- Hasil menunjukkan bahwa estimasi
nentukan halaman bookmark yang dianggap varians komponen putaran terbesar pada
sesuai dengan kemampuan peserta didik metode Ebel, Contrasting group, dan Bookmark.
menjawab benar. Namun dilihat dari proporsinya varian kom-
Berbeda dengan metode Ebel dan ponen putaran pada metode Contrasting group
Bookmark, pada metode metode Contrasting lebih tinggi dibanding metode Ebel dan
group putaran pertama dan kedua diperoleh Bookmark. Tingginya proporsi varians kom-
cut score yang lebih rendah dari kedua me- ponen putaran pada metode Contrasting group
tode tersebut. Karakteristik parameter butir dikarenakan pada metode ini hanya terdapat
soal secara tidak langsung akan mempenga- dua cut score yaitu putaran satu dan dua. Di-
ruhi hasil perhitungan cut score yang diperoleh mana cut score setiap panelis untuk masing-
dengan menggunakan metode Contrasting masing putaran itu sama. Sehingga menye-
Group. Jika butir-butir soal yang terdapat babkan variabilitas cut score hanya tinggi pada
dalam perangkat tes memiliki tingkat ke- putaran. Variabilitas inilah yang akan ber-
sulitan rendah maka butir soal akan dijawab pengaruh pada koefisien reliabilitas.
dengan benar sehingga skor peserta tes men- Setiap G studi akan diperoleh nilai
jadi tinggi. Sebaiknya jika butir-butir soal koefisien G relative dan G absolute pada ma-
yang terdapat dalam perangkat tes memiliki sing-masing metode. Koefisien G diguna-

kan untuk menentukan besarnya koefisien Berdasarkan hasil tersebut terlihat

reliabilitas setiap metode atau dengan kata bahwa semakin banyak jumlah panelis yang
lain koefisien G disebut sebagai koefisien digunakan dengan jumlah putaran yang sama
reliabilitas. Adapun koefisien G dapat dili- maka nilai SEM semakin rendah. Nilai SEM
hat pada Tabel 5. tertinggi pada metode Ebel yang mencapai
1,158 dengan jumlah panelis sebanyak 12
Tabel 5. Koefisien G pada Metode Ebel, orang. Nilai SEM terendah pada metode
Bookmark dan Contrasting group Contrasting group sebesar 0,000 untuk semua
Contrasting pola optimalisasi.
Koefisien Ebel Bookmark Estimasi varians komponen pada ke-
group
G relative 0,94 0,59 1,00 tiga metode standard setting menunjukkan me-
G Absolute 0,65 0,23 1,00 tode Contrasting group memiliki nilai estimasi
terendah pada efek panelis dan interaksi pa-
Tabel 5 menunjukkan bahwa koefisi- nelis dan putaran. Estimasi varian kompo-
en G tertinggi dari ketiga metode tersebut nen pada efek dan interaksi panelis dan
yaitu diperoleh pada metode Contrasting group putaran tertinggi pada metode Ebel. Esti-
sebesar 1,00. Koefisien G terendah diper- masi VC tertinggi menunjukkan tingginya
oleh oleh metode Bookmark. Hal ini berarti variabilitas nilai yang diberikan panelis dan
bahwa metode Contrasting group memiliki ko- sumber lain, seperti tingkat kesulitan butir
efisien reliabilitas tertinggi atau dengan kata soal dan tingkat penguasaan peserta didik
lain metode Contrasting group lebih reliabel yang membutuhkan judgment panelis. Hal ini
daripada metode Ebel dan Bookmark. Selan- senada dengan yang disampaikan oleh Lee
jutnya dilakukan D studi untuk melihat & Lewis (2008, p. 614).
reliabilitas dari masing-masing optimalisasi Hasil varian komponen yang didasar-
pada setiap metode. kan pada G studi menjadi dasar dilakukan-
Tahap kedua pada pendekatan Gener- nya D studi. Hasil D studi digunakan untuk
alizability Theory yaitu D studi. D studi dilaku- menentukan koefisien reliabilitas, SEM dan
kan untuk menghitung koefisien reliabilitas keterkaitan universe untuk bisa digeneralisasi.
dan standard error pada masing-masing meto- Perbandingan nilai SEM untuk menentukan
de. Standard error yang digunakan berdasar- metode yang paling akurat dalam menentu-
kan hasil analisis dengan eduG dapat dilihat kan cut score. Nilai SEM terkecil diantara ke-
pada absolute standard error of measurement tiga metode merupakan metode paling akurat.
(SEM). Masing-masing metode standard Seperti yang diharapkan, universe pada
setting terdiri dari lima SEM yang berbeda. bentuk random menghasilkan SE yang lebih
Hasil SEM pada cut score masing-masing besar karena universe memiliki definisi yang
metode dapat dilihat pada Tabel 6. lebih luas untuk digeneralisasi daripada
universe bentuk fixed. Universe bentuk fixed
Tabel 6. Standard Error of Measurement lebih dibatasi, akibatnya menghasilkan SE
pada Cut Score yang lebih kecil. Secara umum, SE cut score
SEM Ebel Bookmark Contrasting metode Contrasting group relatif lebih kecil
Group daripada SE cut score metode Ebel dan
(1) Bookmark.
1,158 0,803 0,000 SEM pada ketiga metode dengan
(2) jumlah panelis dua belas dan putaran se-
1,113 0,772 0,000 banyak dua kali. Hal ini menunjukkan bah-
(3) wa nilai SEM pada metode Contrasting group
1,072 0,744 0,000
(4)
lebih kecil dari metode Ebel dan metode
1,036 0,718 0,000 Bookmark. Berarti bahwa metode Contrasting
(5) group lebih akurat daripada dua metode
1,036 0,696 0,000 lainnya.
32 − Volume 22, No 1, June 2018

Rendahnya nilai SEM pada metode dikatakan lulus jika mampu menguasai 26
Contrasting group dikarenakan prosedur me- deskriptor. Selanjutnya pada metode Book-
tode ini tidak membutuhkan penilaian dari mark diperoleh cut score putaran pertama se-
setiap panelis, yang mana panelis melakukan besar 64,434 mengalami penurunan pada pu-
diskusi untuk menentukan kelompok master taran kedua menjadi 65,455, dimana siswa
dan nonmaster berdasarkan pengetahuan dikatakan lulus jika menguasai 25 deskriptor.
dan pengalaman panelis selama mengajar. Cut score mata pelajaran Matematika
Penentuan kelompok master dan nonmaster jenjang SMP di Kabupaten Sumbawa yang
dilakukan hanya pada pembagian sekolah. dihasilkan dengan menggunakan metode
Selanjutnya para panelis secara bersama me- Contrasting group putaran 1 sebesar 50,00
nentukan jumlah peserta didik yang mampu mengalami penuruna pada putaran kedua
mengerjakan butir dengan benar berdasar- menjadi47,5. Terdapat 19 deskriptor ke-
kan interval yang digunakan dalam peneliti- mampuan Matematika yang harus dikuasai
an ini. Kemudian terbentuklah distribusi oleh siswa agar dapat lulus berdasarkan
frekuensi yang dijadikan sebagai penentu cut metode Contrasting group. Metode Contrasting
score. Sehingga hanya dihasilkan satu cut score group merupakan metode yang paling akurat
dari dua belas panelis tanpa adanya istilah untuk mengestimasi kesalahan pengukuran
merata-ratakan cut score panelis. dibandingkan metode Ebel dan Bookmark.
Prosedur pada metode Contrasting Hal ini dikarenakan variabilitas cut score pada
group sangat berbeda dengan dua metode metode Contrasting group rendah, memiliki
lainnya. Dimana metode Ebel dan Bookmark nilai SEM yang rendah, dan koefisien G
menghasilkan dua belas cut score yang selan- yang tinggi.
jutnya dirata-ratakan untuk dijadikan seba- Saran yang dapat diberikan berdasar-
gai cut score metode tersebut. Selain itu, meto- kan simpulan penelitian ini adalah sebagai
de Contrasting group merupakan metode yang berikut. Bagi Dinas Pendidikan Kabupaten
paling mudah untuk diterapakan dibanding- Sumbawa, perlu adanya pelatihan mengenai
kan metode Ebel dan Bookmark. Sehingga, penentuan cut score bagi kelompok guru mata
menyebabkan metode Ebel dan Bookmark pelajaran sehingga guru memiliki tambahan
memiliki variabilitas nilai yang tinggi. pengetahuan yang lebih dan akhirnya mam-
Selain itu, koefisien G dari ketiga me- pu menerapkan metode-metode tersebut
tode menunjukkan bahwa metode Contrast- dalam menentukan cut score; bagi peneliti be-
ing group memiliki koefisien G yang lebih rikutnya, perlu dilakukan penelitian lebih
besar dari metode Ebel dan Bookmark. Hal lanjut terkait dengan cut score tentang pengu-
ini berarti bahwa metode Contrasting group asaan materi matematika di sekolah mene-
lebih reliabel dibandingkan metode Ebel dan ngah pertama; dan bagi peneliti berikutnya,
Bookmark. Dikarenakan variabilitas cut score perlu dilakukan penelitian lebih lanjut ter-
pada metode Contrasting group rendah. kait dengan cut score tentang penguasaan ma-
teri matematika di sekolah menengah per-
Simpulan tama.
Berdasarkan hasil penelitian yang

Daftar Pustaka
telah dilakukan terkait dengan perbandingan
estimasi kesalahan pengukuran standard setting Alsmadi, A. A. (2007). A comparative studi
pada penilaian kompetensi Matematika SMP of two standard-setting technique.
di Kabupaten Sumbawa dapat disimpulkan Social Behavior and Personality, 38(4),
bahwa cut score mata pelajaran Matematika 479–486.
Jenjang SMP di Kabupaten Sumbawa yang Berk, R. A. (1986). A Consumer’s guide to
dihasilkan dengan menggunakan metode setting performance standards on
Ebel pada putaran pertama adalah 64,579 criterion-referenced tests. Review of
mengalami kenaikan pada putaran kedua Educational Research, 56(1), 137–172.
menjadi 67,813. Pada metode ini siswa
https://doi.org/10.3102/00346543056 Indonesia Nomor 5 Tahun 2015

001137 tentang Kriteria Kelulusan Peserta
Didik, Penyelenggaraan Ujian
Cizek, G. J. (1996). An NCME instructional
Nasional, dan Penyelenggaraan Ujian
module on: setting passing scores.
Sekolah/Madrasah/Pendidikan
Educational Measurement: Issues and
Kesetaraan Pada Smp/Mts atau yang
Practice, 15(2), 20–31.
Sederajat d (2015).
https://doi.org/10.1111/j.1745-
3992.1996.tb00809.x Nichols, P., Twing, J., Mueller, C. D., &
O’Malley, K. (2010). Standard-setting
Cizek, G. J., & Bunch, M. B. (2007).
methods as measurement processes.
Standard setting: a guide to establishing and
Educational Measurement: Issues and
evaluating performance standards for tests.
Practice, 29(1), 14–24.
California: Sage Publication, Inc.
https://doi.org/10.1111/j.1745-
Crocker, L., & Algina, J. (1986). Introduction 3992.2009.00166.x
to classical and modern test theory. New
Nudell, H. (2008). Making the cut score,
York: CBS College Publishing.
that is establishing a pass/fail score is
Glass, G. V. (1978). Standards and criteria. a highly technical process. ICSC
Journal of Educational Measurement, 15(4), Certified Professionals Newsletter.
237–261.
Prijowuntato, S. W., Mardapi, D., &
https://doi.org/10.1111/j.1745-
Budiyono, B. (2015). Perbandingan
3984.1978.tb00072.x
estimasi kesalahan pengukuran
Karantonis, A., & Sireci, S. G. (2006). The standard setting dalam penilaian
bookmark standard-setting method: a kompetensi akuntansi SMK. Jurnal
literature review. Educational Penelitian Dan Evaluasi Pendidikan,
Measurement: Issues and Practice, 25(1), 4– 19(2). Retrieved from
12. https://doi.org/10.1111/j.1745- https://journal.uny.ac.id/index.php/jp
3992.2006.00047.x ep/article/view/5578
Lee, G., & Lewis, D. M. (2008). A Retnawati, H. (2014). Teori respon butir dan
Generalizability theory approach to penerapannya. Yogyakarta: Nuha
standard error estimates for bookmark Medika.
standard settings. Educational and
Saunders, J. C., Ryan, J. P., & Huynh, H.
Psychological Measurement, 68(4), 603–
(1980). A comparison of two ways of setting
620.
passing scores based on the nedelsky
https://doi.org/10.1177/00131644073
procedure. Publication Series in Mastery
12603
Testing. South Carolina: University of
Livingstone, S. A., & Zieky, M. J. (1982). South Carolina.
Passing scores: a manual for setting standards
Yin, P., & Sconing, J. (2008). Estimating
of performance on educational and
standard errors of cut scores for item
occupational tests. Princeton, New Jersey:
rating and mapmark procedure: a
Educational Testing Service.
generalizability theory approach.
MacCann, R. G., & Stanley, G. (2006). The Educational and Psychological Measurement,
use of rasch modeling to improve 68(1), 182–197.
standard setting. Practical Assessment,
Zieky, M. J., Perie, M., & Livingston, S. A.
Research & Evaluation, 11(2), 1 – 17.
(2008). Cutscores: a manual for setting
Menteri Pendidikan dan Kebudayaan standards of performance on educational and
Republik Indonesia. Peraturan Menteri occupational tests. Princeton, New Jersey:
Pendidikan dan Kebudayaan Republik Educational Testing Service.
34 − Volume 22, No 1, June 2018

2 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

2 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal Penelitian dan Evaluasi Pendidikan

Volume 22, No 1, June 2018 (24-34)

ESTIMASI KESALAHAN PENGUKURAN STANDARD SETTING

MEASUREMENT ERROR ESTIMATION OF STANDARD SETTING IN

Jurnal Penelitian dan Evaluasi Pendidikan

Pendahuluan Kabupaten Sumbawa memiliki kriteria kelu-

Estimasi Kesalahan Pengukuran Standard Setting ... − 25

26 − Volume 22, No 1, June 2018

Estimasi Kesalahan Pengukuran Standard Setting ... − 27

28 − Volume 22, No 1, June 2018

Panelis yang digunakan ditentukan Tabel 2. Tingkat Kesulitan Butir

30 − Volume 22, No 1, June 2018

Estimasi Kesalahan Pengukuran Standard Setting ... − 31

kan untuk menentukan besarnya koefisien Berdasarkan hasil tersebut terlihat

32 − Volume 22, No 1, June 2018

Berdasarkan hasil penelitian yang

https://doi.org/10.3102/00346543056 Indonesia Nomor 5 Tahun 2015

34 − Volume 22, No 1, June 2018

Anda mungkin juga menyukai