org
Abstract : Men accessories can not be measured directly. To measure ones competence it
is needed an instrument, namely, test. Test consists of some items which each item
describe every indicator. The indicators will make ones competence. To make good test
there must be item analysis that constructs it. There are two theories to analyze item, they
are Classical Test Theory (CTT) and Item Response Theory (IRT). Item statistic on CTT are
mostly used in selecting items, while item parameters on IRT are used in judging
respondent scores, calibration, and equating test. The benefit of the parameters on IRT can
be used on the adaptive test that is conducted by computer, bias study, and test equation.
Keywords: Item analysis, test construction, clasical tes teory, modern test theory
Abstrak: Pria aksesori yang tidak dapat diukur secara langsung. Untuk mengukur
kompetensi seseorang itu diperlukan instrumen, yaitu, tes. Tes terdiri dari beberapa item
yang masing-masing item menggambarkan setiap indikator. Indikator akan membuat
kompetensi seseorang. Untuk membuat tes yang baik harus ada analisis item yang
membangun itu. Ada dua teori untuk menganalisis item, mereka Klasik Uji Teori (CTT) dan
Barang Response Theory (IRT). Item statistik pada CTT sebagian besar digunakan dalam
memilih barang-barang, sementara parameter item pada IRT digunakan dalam menilai skor
responden, kalibrasi, dan menyamakan tes. Manfaat dari parameter pada IRT dapat
digunakan pada tes adaptif yang dilakukan oleh komputer, studi Bias, dan persamaan uji.
Kata kunci: analisis Item, konstruksi tes, clasical tes teory, teori uji modern
siswa, dimana kemampuan guru dapat dalam suatu bidang sebagai hasil proses
menentukan apakah perkem-bangan belajar yang khas. Hasil tes akan
dalam pengetahuan dan pemahaman memberikan nilai pada peserta tes sebagai
telah ada; apakah belajar mengajar yang hasil dari uji tes yang diikutinya. Hal ini pada
efektif telah terlaksana; dan apakah umumnya dikenal dengan penilaian.
standar yang realistis dari kemampuan Penilaian diartikan sebagai proses
telah ditetapkan. menentukan nilai suatu objek (Sudjana,
Karena tes yang baik jarang 1995 : 3).
mempunyai tujuan ganda yang sama Secara umum ada dua macam fungsi
baiknya, menjadi penting untuk yang dimiliki oleh tes (Sudijono, 1998: 67)
menentukan bagaimana skor tes akan yaitu: (a) Sebagai alat pengukur terhadap
digunakan. Interpretasi skor menentukan peserta didik. Yaitu mengukur tingkat
titik awal dalam penggunaan dan perkembangan dan kemajuan yang telah
memperoleh makna dari skor tersebut. dicapai oleh peserta didik setelah mereka
Tes digunakan oleh siapa, dan tes menempuh proses belajar mengajar dalam
dikenakan kepada siapa, inilah yang jangka waktu tertentu. (b). Sebagai alat
menentukan sifat tes dalam menentukan pengukur keber-hasilan program
panjang tes. pengajaran. Sebab dengan tes tersebut
Sebagai upaya untuk mengetahui dapat diketahui seberapa jauh program
kemampuan peserta tes terhadap isi tes, pengajaran yang telah ditentukan, telah
dan untuk dapat memprediksi dapat di-capai.
kemampuan peserta pada masa yang Pelaksanaan tes dimaksudkan untuk
akan datang maka salah satu hal yang mendapatkan gambaran umum tentang
dapat dilakukan adalah dilakukan tes. pengetahuan peserta tes. Tes sebagai alat
Oleh karena sifatnya untuk mengetahui pengukur mempunyai bermacam-macam
kemampuan secara umum peserta tes, arti. Salah satu artinya yakni tes adalah
maka tes yang disajikan sebaiknya suatu alat pengukur yang berupa
memberikan gambaran yang utuh serangkaian pertanyaan yang harus dijawab
mengenai kemampuan umum peserta secara sengaja dalam suatu situasi yang
tes. Penulis soal perlu menghindari distandarisasikan, yang dimaksudkan untuk
adanya kesalahan objek yang akan mengukur kemampuan dari hasil belajar
diukur, agar tidak mun-cul kesalahan individu atau kelompok. Kesengajaan yang
pengukuran dan kesalahan interpretasi dimaksudkan disini adalah, peserta tes
hasil ujian. Terma-suk pula metode secara sadar dan sengaja menjawab
pemberian skor, penskalaan, analisis pertanyaan yang diajukan kepadanya
soal, baik dengan analisis kuantitatif sesuai dengan kemampuannya.
maupun empiris. Standarisasi diartikan sebagai soal ujian
Berbagai macam jenis tes tertulis yang dibuat standar, situasi yang diatur
dapat dilakukan untuk mencapai tujuan sedemikian rupa, dilaksanakan secara
yang diinginkan. "Suatu tes adalah serempak, sistematis dan objektif sehingga
prosedur sistematis ketika individu yang peserta tes merasakan kea-dilan, baik
diuji dihadapkan pada sehimpunan dalam pelaksanaan ujian maupun pada
rangsangan (stimuli) buatan untuk hasil ujian. Dengan serangkain pertanyaan
ditanggapinya..." (Kerlinger, 2000: 788). yang diajukan kepadanya akan terungkap
Penggolongan jenis tes terdiri dari 7 kemam-puan sebagai hasil belajar dari
macam (Masidjo, 1995: 39), yaitu: (1) peserta tes tersebut.
penggolong-an jenis tes menurut Kemampuan tes untuk
variable, (2) bentuk, (3) lamanya ukuran, mengungkapkan kemampuan peserta tes
(4) kegunaan, (5) alat ekpresinya, (6) sangat erat kaitannya dengan kebaikan tes,
jumlah siswa yang dilibatkan, dan (7) atau kualitas tes yang telah disusun.
penggolongan tes menurut tingkat Ketepatan tes atau disebut kualitas tes
mutunya. penting diperhatikan, selain untuk
Tes prestasi hasil belajar adalah mengetahui kemampuan peserta tes
jenis tes berdasarkan variabel, yakni tes dengan tepat, juga untuk mengetahui
yang mengukur prestasi seseorang sebarapa jauh treatment yang akan diukur
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 21
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org
telah terukur dalarn tes. Banyak tes yang akan muncul, jumlah item yang
disusun tidak berdasarkan kajian dan dipergunakan pada masing-masing aspek
aturan yang tepat. Sehingga tidak dan tingkat kesulitan serta distrubusi tingkat
mampu mengungkap apa sebenarnya kesulitan item.
yang akan diketahui dari hasil tes itu, Untuk interpretasi dimana kinerja
termasuk treatment yang diukur oleh tes individu dapat dibandingkan dengan kinerja
tersebut. Pada umumnya tes dan individu yang lain, domain isi dapat
pengamatan memberikan dasar infor- didefinisikan secara umum, sementara
masi untuk menilai prestasi peserta tes. deskripsi secara ekplisit spesifikasi isi
Sayangnya semua kajian yang diperlukan untuk interpretasi skor untuk
menyelidiki keabsahan tes yang dipakai menentukan penilaian diagnostik dan peni-
dan cara menilai mengisyaratkan adanya laian formatif. Pada tes yang berdasarkan
kesalahan dalam tes dan ketakcermatan kriteria, tes yang utamanya ditujukan untuk
dalam manilai. sertifikasi dimana seseorang telah
mencapai tingkatan tertentu dari
MEMPERSIAPKAN A POOL OF ITEMS kompetensi minimum.
Setelah tujuan tes ditentukan, Penyusun tes sering membuat kisi-kisi
maka konstruksi yang mau diukur perlu cakupan isi substantif dan proses kognitif
didefinisikan sejelas-jelasnya dan suatu tes melalui tabel spesifikasi yang
selengkap mungkin. Kontruksi tes dapat menunjukkan penekanan relatif dari
diketahui seberapa luas cakupan materi, masing-masing komponen tes. Setelah
dan dapat diyakini bahwa demensi- item-item ditulis dan diklasifikasikan,
demensi dari konstruksi tes memiliki selanjutnya diserahkan pada ahli untuk
basis teoritis, dan mempertimbangkan direview. Setelah ditelti oleh reviewer,
bobot relatif yang dialokasikan untuk kemudian diujicobakan pada sejumlah
masing-masing aspek dalam konstruksi sampel, umumnya 5-10 jumlah item, jika
karena hal ini terkait dengan validitas isi menggunakan IRT maka biasanya
dan rasional tesnya dan menentukan dibutuhkan 200-1000 responden, dan ini
bagaimana jawaban-jawabannya akan tergantung pada model yang digunakan.
diskor. Keputusan dalam hal yang
demikian dan isu-isu yang terlibat, ANALISIS DAN SELEKSI ITEM CTT
menghasilkan model tes yang Analisis item dilakukan setelah item-
terkandung dalam kisi-kisi tes, sehingga item diskor. Item yang bersifat dikotomus
dapat diketahui bagaimana susunan tes seperti pilihan ganda dan politomus seperti
yang akan disusun. jawaban singkat atau essay.
Biasanya penyusun tes akan Tujuan utama dari analisis item
mengkonsepsionalisasikan satu atau adalah untuk memperoleh infor-masi
lebih tipe perilaku yang dipercaya objektif tentang item-item yang digunakan
memanifestasikan konstruksi dan untuk mengindi-kasikan kekurangan dalam
kemudian menulis item-item yang item dan menidentifikasikan item-item yang
memerlukan perilaku-perilaku ini untuk jelek. Item-item mungkin terlalu mudah atau
dikontruksikan. Bagi Ebel & Frisbie terlalu sulit atau tidak dapat mem-bedakan
(1991) prosedur yang disebut-kan untuk antara siswa yang termasuk kelompok
menunjukkan validitas rasional instrinsik tinggi dengan siswa yang termasuk
melibatkan deskripsi kemampuan dari kelompok rendah. Dua statistik yang paling
interes dan domain pengetahuan dan mendasar dalam menganalisis item adalah
keahlian untuk dipilih, keputusan pada tingkat kesulitan (difficulty) dan tingkat
kepentingan relatif dari berbagai sub diskriminan (daya beda).
domain, keputusan dimana tipe-tipe item
akan paling memerlukan demontrasi dari TINGKAT KESULITAN ITEM
pengetahuan yang relevan. Rencana tes Tingkat kesulitan atau proportion of
ini akan membimbing penyususn tes correct (p) didefinisikan sebagai banyaknya
untuk menentukan tipe item yang responden yang menjawab benar dibagi
digunakan, jumlah masing-masing tipe, banyaknya responden keseluruhan.
jenis-jenis penugasan dalam item yang Propprtion of Correct dimaknai sebagai
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 22
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org
tingkat kesukaran item (butir). Indeks Tabel 1 Skala Tingkat Kesukaran Butir
tingkat kesukaran butir kecil berarti butir Indek kesukaran (b) Kategori soal
sulit, sedangkan jika tingkat kesukaran b > 0,70 Mudah
butir besar berarti butir mudah. Adapun 0,30 < b < 0,70 Sedang
nilai p berada diantara nol dan satu. b < 0,30 Sukar
Sehingga nilai p terkecil adalah nol, ini
berarti semua responden tidak dapat Penyusun soal dapat mempertimbangkan
menjawab, sedangkan nilai p terbesar besarnya perbandingan soal ujian pada tiga
adalah satu, ini berarti semua responden tingkatan nilai b tersebut. Misalnya dapat
dapat menjawab. menentukan 10 persen untuk soal sukar, 60
Adapun rumus yang digunakan persen untuk soal sedang, dan 30 persen
adalah sebagai berikut: soal ujian yang mudah. Atau dapat pula
Nt
1 menentukan perban-dingan tingkat
pi =
Nt
X
j =1
ij kesukaran soal dengan menyamakan
jumlah soal yang sukar dan mudah.
dimana: Soal-soal yang terlalu sukar atau terlalu
pi = Tingkat kesulitan item i mudah bukan berarti tidak akan digunakan.
N t =Jumlah sampel Penentuan jumlah perbandingan soal
mudah, sedang dan sukar dapat didasarkan
X ij =Skor item pada item I untuk orang j pada prakiraan kemampuan peserta tes,
Jika itemnya dikotomus, maka atau didasarkan pada tingkat kemampuan
N yang akan diterima (Arikunto, 1999: 210).
pi = c , yaitu proporsi orang yang Oleh Allen & Yen (1979: 121) soal ujian
Nt harus memiliki 10 persen soal yang sulit
menjawab benar terhadap jumlah untuk tes seleksi pada perguruan tinggi.
sampel. Karakteristik taraf kesukaran
butir, selanjutnya dilambangkan dengan DAYA BEDA ITEM
b, sering juga dituliskan sebagai Kinerja tes yang optimal adalah
proportion of correct (p) didefinisikan sampai memberikan informasi tentang
sebagai perbandingan antara jumlah perbedaan secara individual. Statistik yang
jawaban benar dengan jumlah peserta berbeda dapat dipakai untuk menjelaskan
tes. Jadi taraf kesukaran butir ditentukan derajad hubungan antara skor individual
berdasarkan proporsi jawaban benar item dan skor tes total. Biserial dan point
dengan jumlah peserta tes, sehingga biserial untuk soal dikotomus menjelas-kan
semakin banyak peserta yang menjawab hubungan antara skor item dan skor total
benar maka proporsi itu juga besar. Dan tes untuk masing-masing orang. Untuk skor
ini berarti butir semakin mudah. yang dikotomus, korelasi point biserial
Sebaliknya makin sedikit peserta uji tes didefinisikan sebagai berikut:
yang menjawab dengan benar suatu
c t p
butir, maka makin sulit butir itu. Sehingga rit =
tingkat kesukaran ini biasa juga disebut St q
dengan tingkat kemudahan butir (Naga, Dimana:
1992: 56). rit = korelasi antara item dan skor total
Nilai batasan tingkat kesukaran
soal teletak antara 0 dan 1, karena c = rerata skor orang-orang yang
merupakan perbandingan antara jumlah menjawab benar.
jawaban benar dengan jumlah soal, t = rerata skor semua orang.
dapat dituliskan dalarn bentuk
S t = deviasi standard skor grup.
matematika: 0 < b < 1 , bilangan yang
menunjukkan sukar dan mudahnya p = proporsi orang yang menjawab benar.
sesuatu soal disebut indeks kesukaran q = p-1
(Arikunto, 1999: 207). Batas-batas Jadi statistik ini menunjukkan sejauh
tingkat kesukaran ini dapat dilihat dalam mana suatu tes berhasil mem-bedakan
table 1 berikut ini (Hayat, 1997): antara orang yang berkemampuan tinggi
dan orang yang berke-mampuan rendah.
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 23
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org