Anda di halaman 1dari 7

Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.

org

Analisis Item Dalam Pembuatan Tes


Sukoco
Universitas Surakarta

Abstract : Men accessories can not be measured directly. To measure ones competence it
is needed an instrument, namely, test. Test consists of some items which each item
describe every indicator. The indicators will make ones competence. To make good test
there must be item analysis that constructs it. There are two theories to analyze item, they
are Classical Test Theory (CTT) and Item Response Theory (IRT). Item statistic on CTT are
mostly used in selecting items, while item parameters on IRT are used in judging
respondent scores, calibration, and equating test. The benefit of the parameters on IRT can
be used on the adaptive test that is conducted by computer, bias study, and test equation.
Keywords: Item analysis, test construction, clasical tes teory, modern test theory

Abstrak: Pria aksesori yang tidak dapat diukur secara langsung. Untuk mengukur
kompetensi seseorang itu diperlukan instrumen, yaitu, tes. Tes terdiri dari beberapa item
yang masing-masing item menggambarkan setiap indikator. Indikator akan membuat
kompetensi seseorang. Untuk membuat tes yang baik harus ada analisis item yang
membangun itu. Ada dua teori untuk menganalisis item, mereka Klasik Uji Teori (CTT) dan
Barang Response Theory (IRT). Item statistik pada CTT sebagian besar digunakan dalam
memilih barang-barang, sementara parameter item pada IRT digunakan dalam menilai skor
responden, kalibrasi, dan menyamakan tes. Manfaat dari parameter pada IRT dapat
digunakan pada tes adaptif yang dilakukan oleh komputer, studi Bias, dan persamaan uji.
Kata kunci: analisis Item, konstruksi tes, clasical tes teory, teori uji modern

PENDAHULUAN individu (Cronbach, 1970: 26). Esensinya,


Tes yang dapat dikerjakan oleh suatu tes adalah seperang-kat pertanyaan
responden secara langsung adalah salah dimana seseorang menjawab secara verbal
satu instrument pengukuran. Tes yang atau tertulis yang nantinya dapat digunakan
terdiri dari sejumlah per-tanyaan yang untuk menentukan perbedaan antar
dapat mengumpulkan informasi yang individu. Dalam uraian ini akan diuraikan
relevan, yang dikena-kan pada sejumlah dan dikontraskan dua prosedur analisis
orang, dan kemudian skor masing- yang secara umum digunakan dalam
masing responden dinyatakan hasilnya mengembangkan tes, yaitu tradisional atau
pada suatu skala yang kontinum. analisis item standar dalam tes klasik atau
Memang demikian yang seharusnya Classical Test Theory (CTT) dan analisis
dilakukan oleh seorang pengukuran. modern yang bersumber pada teori respon
Akan tetapi sesuatu yang tidak mudah butir atau Item Response Theory (IRT).
untuk menempatkan individu-individu Proses-proses ini umumnya mengikuti
dalam suatu skala kontinum dengan identifikasi tujuan dari tes dan persiapan
mengacu pada kontruksi psikologis dari a pool of items dalam prose
secara khusus. Atribut manusia adalah penyusunan tes.
rumit, sulit untuk mendefinisikan dan
tidak dapat diukur secara langsung. Cara TUJUAN TES
pengukuran yang benar-benar dapat Secara umum, tujuan dari tes itu
dilakukan supaya pengukuran valid, banyak dan bervariasi. Tujuan tes dapat
ajeg, objektif, dan efisien yang disebut dikelompokkan menjadi dua kategori utama,
latent traits memang bukan suatu yang yaitu kategori birokrasi dan kategori
mudah dilakukan. profesional. Model pertama dimaksudkan
Tes adalah suatu teknik untuk mengontrol, memonitor dan sertifikasi
pengukuran dirancang sebagai prosedur dan capaian pada pemenuhan fungsi
yang sistematis untuk mempelajari penilaian sumatif. Model kedua,
tingkah laku individu atau sekelom-pok berhubungkan dengan pembela-jaran
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 20
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

siswa, dimana kemampuan guru dapat dalam suatu bidang sebagai hasil proses
menentukan apakah perkem-bangan belajar yang khas. Hasil tes akan
dalam pengetahuan dan pemahaman memberikan nilai pada peserta tes sebagai
telah ada; apakah belajar mengajar yang hasil dari uji tes yang diikutinya. Hal ini pada
efektif telah terlaksana; dan apakah umumnya dikenal dengan penilaian.
standar yang realistis dari kemampuan Penilaian diartikan sebagai proses
telah ditetapkan. menentukan nilai suatu objek (Sudjana,
Karena tes yang baik jarang 1995 : 3).
mempunyai tujuan ganda yang sama Secara umum ada dua macam fungsi
baiknya, menjadi penting untuk yang dimiliki oleh tes (Sudijono, 1998: 67)
menentukan bagaimana skor tes akan yaitu: (a) Sebagai alat pengukur terhadap
digunakan. Interpretasi skor menentukan peserta didik. Yaitu mengukur tingkat
titik awal dalam penggunaan dan perkembangan dan kemajuan yang telah
memperoleh makna dari skor tersebut. dicapai oleh peserta didik setelah mereka
Tes digunakan oleh siapa, dan tes menempuh proses belajar mengajar dalam
dikenakan kepada siapa, inilah yang jangka waktu tertentu. (b). Sebagai alat
menentukan sifat tes dalam menentukan pengukur keber-hasilan program
panjang tes. pengajaran. Sebab dengan tes tersebut
Sebagai upaya untuk mengetahui dapat diketahui seberapa jauh program
kemampuan peserta tes terhadap isi tes, pengajaran yang telah ditentukan, telah
dan untuk dapat memprediksi dapat di-capai.
kemampuan peserta pada masa yang Pelaksanaan tes dimaksudkan untuk
akan datang maka salah satu hal yang mendapatkan gambaran umum tentang
dapat dilakukan adalah dilakukan tes. pengetahuan peserta tes. Tes sebagai alat
Oleh karena sifatnya untuk mengetahui pengukur mempunyai bermacam-macam
kemampuan secara umum peserta tes, arti. Salah satu artinya yakni tes adalah
maka tes yang disajikan sebaiknya suatu alat pengukur yang berupa
memberikan gambaran yang utuh serangkaian pertanyaan yang harus dijawab
mengenai kemampuan umum peserta secara sengaja dalam suatu situasi yang
tes. Penulis soal perlu menghindari distandarisasikan, yang dimaksudkan untuk
adanya kesalahan objek yang akan mengukur kemampuan dari hasil belajar
diukur, agar tidak mun-cul kesalahan individu atau kelompok. Kesengajaan yang
pengukuran dan kesalahan interpretasi dimaksudkan disini adalah, peserta tes
hasil ujian. Terma-suk pula metode secara sadar dan sengaja menjawab
pemberian skor, penskalaan, analisis pertanyaan yang diajukan kepadanya
soal, baik dengan analisis kuantitatif sesuai dengan kemampuannya.
maupun empiris. Standarisasi diartikan sebagai soal ujian
Berbagai macam jenis tes tertulis yang dibuat standar, situasi yang diatur
dapat dilakukan untuk mencapai tujuan sedemikian rupa, dilaksanakan secara
yang diinginkan. "Suatu tes adalah serempak, sistematis dan objektif sehingga
prosedur sistematis ketika individu yang peserta tes merasakan kea-dilan, baik
diuji dihadapkan pada sehimpunan dalam pelaksanaan ujian maupun pada
rangsangan (stimuli) buatan untuk hasil ujian. Dengan serangkain pertanyaan
ditanggapinya..." (Kerlinger, 2000: 788). yang diajukan kepadanya akan terungkap
Penggolongan jenis tes terdiri dari 7 kemam-puan sebagai hasil belajar dari
macam (Masidjo, 1995: 39), yaitu: (1) peserta tes tersebut.
penggolong-an jenis tes menurut Kemampuan tes untuk
variable, (2) bentuk, (3) lamanya ukuran, mengungkapkan kemampuan peserta tes
(4) kegunaan, (5) alat ekpresinya, (6) sangat erat kaitannya dengan kebaikan tes,
jumlah siswa yang dilibatkan, dan (7) atau kualitas tes yang telah disusun.
penggolongan tes menurut tingkat Ketepatan tes atau disebut kualitas tes
mutunya. penting diperhatikan, selain untuk
Tes prestasi hasil belajar adalah mengetahui kemampuan peserta tes
jenis tes berdasarkan variabel, yakni tes dengan tepat, juga untuk mengetahui
yang mengukur prestasi seseorang sebarapa jauh treatment yang akan diukur
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 21
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

telah terukur dalarn tes. Banyak tes yang akan muncul, jumlah item yang
disusun tidak berdasarkan kajian dan dipergunakan pada masing-masing aspek
aturan yang tepat. Sehingga tidak dan tingkat kesulitan serta distrubusi tingkat
mampu mengungkap apa sebenarnya kesulitan item.
yang akan diketahui dari hasil tes itu, Untuk interpretasi dimana kinerja
termasuk treatment yang diukur oleh tes individu dapat dibandingkan dengan kinerja
tersebut. Pada umumnya tes dan individu yang lain, domain isi dapat
pengamatan memberikan dasar infor- didefinisikan secara umum, sementara
masi untuk menilai prestasi peserta tes. deskripsi secara ekplisit spesifikasi isi
Sayangnya semua kajian yang diperlukan untuk interpretasi skor untuk
menyelidiki keabsahan tes yang dipakai menentukan penilaian diagnostik dan peni-
dan cara menilai mengisyaratkan adanya laian formatif. Pada tes yang berdasarkan
kesalahan dalam tes dan ketakcermatan kriteria, tes yang utamanya ditujukan untuk
dalam manilai. sertifikasi dimana seseorang telah
mencapai tingkatan tertentu dari
MEMPERSIAPKAN A POOL OF ITEMS kompetensi minimum.
Setelah tujuan tes ditentukan, Penyusun tes sering membuat kisi-kisi
maka konstruksi yang mau diukur perlu cakupan isi substantif dan proses kognitif
didefinisikan sejelas-jelasnya dan suatu tes melalui tabel spesifikasi yang
selengkap mungkin. Kontruksi tes dapat menunjukkan penekanan relatif dari
diketahui seberapa luas cakupan materi, masing-masing komponen tes. Setelah
dan dapat diyakini bahwa demensi- item-item ditulis dan diklasifikasikan,
demensi dari konstruksi tes memiliki selanjutnya diserahkan pada ahli untuk
basis teoritis, dan mempertimbangkan direview. Setelah ditelti oleh reviewer,
bobot relatif yang dialokasikan untuk kemudian diujicobakan pada sejumlah
masing-masing aspek dalam konstruksi sampel, umumnya 5-10 jumlah item, jika
karena hal ini terkait dengan validitas isi menggunakan IRT maka biasanya
dan rasional tesnya dan menentukan dibutuhkan 200-1000 responden, dan ini
bagaimana jawaban-jawabannya akan tergantung pada model yang digunakan.
diskor. Keputusan dalam hal yang
demikian dan isu-isu yang terlibat, ANALISIS DAN SELEKSI ITEM CTT
menghasilkan model tes yang Analisis item dilakukan setelah item-
terkandung dalam kisi-kisi tes, sehingga item diskor. Item yang bersifat dikotomus
dapat diketahui bagaimana susunan tes seperti pilihan ganda dan politomus seperti
yang akan disusun. jawaban singkat atau essay.
Biasanya penyusun tes akan Tujuan utama dari analisis item
mengkonsepsionalisasikan satu atau adalah untuk memperoleh infor-masi
lebih tipe perilaku yang dipercaya objektif tentang item-item yang digunakan
memanifestasikan konstruksi dan untuk mengindi-kasikan kekurangan dalam
kemudian menulis item-item yang item dan menidentifikasikan item-item yang
memerlukan perilaku-perilaku ini untuk jelek. Item-item mungkin terlalu mudah atau
dikontruksikan. Bagi Ebel & Frisbie terlalu sulit atau tidak dapat mem-bedakan
(1991) prosedur yang disebut-kan untuk antara siswa yang termasuk kelompok
menunjukkan validitas rasional instrinsik tinggi dengan siswa yang termasuk
melibatkan deskripsi kemampuan dari kelompok rendah. Dua statistik yang paling
interes dan domain pengetahuan dan mendasar dalam menganalisis item adalah
keahlian untuk dipilih, keputusan pada tingkat kesulitan (difficulty) dan tingkat
kepentingan relatif dari berbagai sub diskriminan (daya beda).
domain, keputusan dimana tipe-tipe item
akan paling memerlukan demontrasi dari TINGKAT KESULITAN ITEM
pengetahuan yang relevan. Rencana tes Tingkat kesulitan atau proportion of
ini akan membimbing penyususn tes correct (p) didefinisikan sebagai banyaknya
untuk menentukan tipe item yang responden yang menjawab benar dibagi
digunakan, jumlah masing-masing tipe, banyaknya responden keseluruhan.
jenis-jenis penugasan dalam item yang Propprtion of Correct dimaknai sebagai
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 22
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

tingkat kesukaran item (butir). Indeks Tabel 1 Skala Tingkat Kesukaran Butir
tingkat kesukaran butir kecil berarti butir Indek kesukaran (b) Kategori soal
sulit, sedangkan jika tingkat kesukaran b > 0,70 Mudah
butir besar berarti butir mudah. Adapun 0,30 < b < 0,70 Sedang
nilai p berada diantara nol dan satu. b < 0,30 Sukar
Sehingga nilai p terkecil adalah nol, ini
berarti semua responden tidak dapat Penyusun soal dapat mempertimbangkan
menjawab, sedangkan nilai p terbesar besarnya perbandingan soal ujian pada tiga
adalah satu, ini berarti semua responden tingkatan nilai b tersebut. Misalnya dapat
dapat menjawab. menentukan 10 persen untuk soal sukar, 60
Adapun rumus yang digunakan persen untuk soal sedang, dan 30 persen
adalah sebagai berikut: soal ujian yang mudah. Atau dapat pula
Nt
1 menentukan perban-dingan tingkat
pi =
Nt
X
j =1
ij kesukaran soal dengan menyamakan
jumlah soal yang sukar dan mudah.
dimana: Soal-soal yang terlalu sukar atau terlalu
pi = Tingkat kesulitan item i mudah bukan berarti tidak akan digunakan.
N t =Jumlah sampel Penentuan jumlah perbandingan soal
mudah, sedang dan sukar dapat didasarkan
X ij =Skor item pada item I untuk orang j pada prakiraan kemampuan peserta tes,
Jika itemnya dikotomus, maka atau didasarkan pada tingkat kemampuan
N yang akan diterima (Arikunto, 1999: 210).
pi = c , yaitu proporsi orang yang Oleh Allen & Yen (1979: 121) soal ujian
Nt harus memiliki 10 persen soal yang sulit
menjawab benar terhadap jumlah untuk tes seleksi pada perguruan tinggi.
sampel. Karakteristik taraf kesukaran
butir, selanjutnya dilambangkan dengan DAYA BEDA ITEM
b, sering juga dituliskan sebagai Kinerja tes yang optimal adalah
proportion of correct (p) didefinisikan sampai memberikan informasi tentang
sebagai perbandingan antara jumlah perbedaan secara individual. Statistik yang
jawaban benar dengan jumlah peserta berbeda dapat dipakai untuk menjelaskan
tes. Jadi taraf kesukaran butir ditentukan derajad hubungan antara skor individual
berdasarkan proporsi jawaban benar item dan skor tes total. Biserial dan point
dengan jumlah peserta tes, sehingga biserial untuk soal dikotomus menjelas-kan
semakin banyak peserta yang menjawab hubungan antara skor item dan skor total
benar maka proporsi itu juga besar. Dan tes untuk masing-masing orang. Untuk skor
ini berarti butir semakin mudah. yang dikotomus, korelasi point biserial
Sebaliknya makin sedikit peserta uji tes didefinisikan sebagai berikut:
yang menjawab dengan benar suatu
c t p
butir, maka makin sulit butir itu. Sehingga rit =
tingkat kesukaran ini biasa juga disebut St q
dengan tingkat kemudahan butir (Naga, Dimana:
1992: 56). rit = korelasi antara item dan skor total
Nilai batasan tingkat kesukaran
soal teletak antara 0 dan 1, karena c = rerata skor orang-orang yang
merupakan perbandingan antara jumlah menjawab benar.
jawaban benar dengan jumlah soal, t = rerata skor semua orang.
dapat dituliskan dalarn bentuk
S t = deviasi standard skor grup.
matematika: 0 < b < 1 , bilangan yang
menunjukkan sukar dan mudahnya p = proporsi orang yang menjawab benar.
sesuatu soal disebut indeks kesukaran q = p-1
(Arikunto, 1999: 207). Batas-batas Jadi statistik ini menunjukkan sejauh
tingkat kesukaran ini dapat dilihat dalam mana suatu tes berhasil mem-bedakan
table 1 berikut ini (Hayat, 1997): antara orang yang berkemampuan tinggi
dan orang yang berke-mampuan rendah.
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 23
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

Pengelompokan daya beda yang dapat dilakukan untuk mengukur


menurut Naga (1992: 69), disajikan pada kestabilan pengukuran. Metode belah dua
tabel 2. Jadi, parameter-parameter item dapat menghasilkan estimasi homogenitas
seperti indeks kesukaran dan indeks atau internal consistency dari suatu tes.
diskriminasi marupakan karakteriskik Reliabilitas tes ditentukan oleh faktor-
yang bergantung pada kelompok Sampel faktor: homogenitas kelom-pok sampel atau
yang digunakan untuk menghitungnya responden tes, kemampuan peserta tes,
(Azwar, 1999: 79; Suryabrata, 2000: 25). variansi tingkat kesulitan item, teknik yang
Jika kelompok uji tes itu memiliki digunakan untuk menentukan indeks dan
kemampuan yang tinggi maka indeks panjang tes.
kesukaran butir tes akan rendah. Namun Tingkat kesulitan tes berhubungan
seba-liknya, jika kelompok uji tes itu dengan tujuan dari tes dan jenis interpretasi
memiliki kemampuan yang rendah, maka skor yang diinginkan. Tes kemampuan yang
indeks kesukaran butir tes akan tinggi. dibuat dengan tujuan untuk memisahkan
Demikian juga pada karak-teristik butir perorangan, maka dibutuhkan simpangan
tes lain. Sehingga nilai karakteristik soal baku yang besar, yaitu varians tes
akan dipengaruhi oleh tingkat dimaksimalkan.
kemampuan satu kelompok peserta tes. Teori tes klasik menggunakan suatu
model pengukuran yang sangat sederhana,
Tabel 2 Interval nilai daya pembeda (a) yaitu skor yang tampak terdiri dari skor
Interval Interpretasi sebenarnya dan skor kesalahan (X=T+E).
a > 0,40 Cukup Kesalahan pengukuran digolongkan
memuaskan menjadi dua, yaitu yang spesifik dan yang
0,30 < a < 0,39 Sedikit atau acak. Orang yang cenderung memberi nilai
tanpa revisi lebih atau kurang pada suatu tes termasuk
0,20 < a < 0,29 Perbatasan pada kesalahan yang spesifik. Sedang
atau perlu revisi kesalahan yang acak disebabkan oleh
a < 0,19 Dibuang atau kondisi dari subjek yang diukur. Pada saat
direvisi total pengukuran kemungkinan kondisi orang
tidak sama dengan sebelum atau setelah
KONSTRUKSI TES CTT diukur. Kondisi subjek yang diukur, seperti
Karakteristik yang paling penting rasa lelah, susah, senang, dan sejenisnya
dari suatu tes adalah validitasnya. Suatu termasuk dalam kategori kesalahan acak.
tes harus mampu mengukur apa-apa Tiga asumsi penting yang digunakan
yang seharusnya diukur. Tipe yang pada teori tes klasik adalah: pertama tidak
berbeda dari suatu tes memerlukan ada korelasi antara skor yang sebenarnya
penekanan berbeda pada jenis dan skor kesala-han; kedua, tidak ada
validitasnya. Konstruksi dan validitas korelasi antara kesalahan acak pada
kriteria merupakan hal yang penting pengukuran yang dilakukan berulang-ulang;
pada tes psikologi, validitas isi dan ketiga, adalah rerata kesalahan acak
merupakan hal yang penting bagi tes pengukuran sama dengan nol. Dengan
sikap. menggunakan tiga asumsi terse-but,
Tes yang baik adalah tes yang selanjutnya dikembangkan formula-formula
reliabel, yaitu mampu menunjukkan hasil untuk menghitung be-sarnya indeks
pengukuran yang konsisten pada kesahihan (validity) dan indeks kehandalan
pengukuran yang berulang-ulang. (reliability) suatu alat ukur. Tingkat
Secara CTT, reliabilitas tes merujuk kesukaran dan daya pembeda juga
pada hubungan true score, skor amatan, dikembang-kan untuk menganalisis suatu
dan kesalahan pengukuran. Kesalahan tes.
pengukuran didefinisikan sebagai ratio
dari varians true score dan varians skor METODE IRT
amatan. Untuk melakukan pengukuran Dalam metode CTT tingkat kesulitan
dapat dilakukan dengan tes-retes, tes item tergantung pada kemam-puan peserta
paralel atau belah dua. Bentuk tes-retes, tes. Apabila kemampuan peserta tes tinggi,
bentuk paralel adalah bentuk-bentuk maka tingkat kesulitan item menjadi rendah,
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 24
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

demikian pula sebaliknya apabila pengukuran psikologi dan pendidikan sejak


kemam-puan peserta tes rendah, maka tahun 1985 selalu menyajikan hasil
tingkat kesulitan item menjadi tinggi. penelitian tentang teori respon butir, baik
Tingkat diskriminan item dan reliabilitas dalam konsep maupun dalam aplikasinya.
tergantung langsung pada he-teroginitas Teori respon butir yang sering juga disebut
peserta tes dan distribusi kemampuan sebagai teori latent trait merupakan suatu
peserta tes. Kemampuan peserta tes perkembangan yang sangat berarti dalam
diinterpretasikan dalam jumlah skor yang bidang pengukuran pendidikan dan
benar. psikologi.
Dalam IRT, kemampuan Teori latent trait menggunakan tiga
perorangan tidak dipengaruhi oleh karak- konsep dasar dalam mengem-bangkan
teristik item, dan karakteristik item tidak model pengukuran, yaitu demensi latent
dipengaruhi oleh kemampuan space, local indepen-dence, dan kurva
perorangan. Esensi pada IRT adalah karakteristik butir (item characteristic
tingkat kesulitan item dan kemam-puan curves) (Hambleton & Cook, 1985: 75).
perorangan diukur pada skala yang Teori ini menyatakan bahwa perilaku
sama. Sehingga disini diperlu-kan seseorang dapat dijelaskan sampai derajad
kecocokan antara model dengan tertentu untuk karakteristik orang tersebut.
datanya. IRT adalah suatu terori sta-tistik Karakteristik ini bermacam-macam,
yang memuat model-model matematika misalnya: kemam-puan verbal, kwantitatif,
yang menyatakan probabi-litas respon psikomotor. Karakteristik ini juga disebut de-
tertentu terhadap item tertentu sebagai ngan trait. Posisi seorang pada suatu trait
fungsi dari kemam-puan seseorang dan dapat digunakan untuk menges-timasi
karakteristik tertentu dari suatu item besarnya kemampuan orang tersebut. Trait
(Hambleton , Swaminathan, & Rogers, ini sering dinyatakan sebagai demensi
1991: 78). kemampuan seseorang.
Teori tes modern, yang dikenal Model tiga parameter logistik (3PL)
dengan teori respon butir mencoba adalah parameter a (daya beda =
mengatasi kelemahan-kelemahan yang discriminant), parameter b (tingkat kesulitan
dimiliki teori tes klasik. Teori tes ini = difficulty), parameter c (tebaan =
dimunculkan oleh Lord dalam guessing) ketika probabilitas respon dari
desertasinya pada tahun 1952, yang seseorang benar terhadap item tertentu
dikenal dengan teori skor tes. diekspresikan sebagai kemampuan
Selanjutnya Birnbaum mengembangkan seseorang. Selanjutnya ekspresi ini
dasar statistik untuk model teori respon dinamakan sebagai Item Characteristic
butir pada tahun 1957. Pada tahun1960 Curve (ICC). Model dua parameter logistik
Rasch, seorang ahli matematik Swedia (2PL) adalah parameter a, parameter b, dan
mengembangkan mo-del probabilistik parameter c diasumsikan bahwa setiap
untuk tes intelegensi dan tes pencapaian orang yang mempunyai kemampuan rendah
belajar. Model ini dikenal dengan model tidak memiliki kesempatan sukses untuk
Rasch yang selanjutnya dikembangkan menjawab item (c=0). Model satu parameter
di Amerika mulai tahun 1967 oleh logistik (1PL) atau terkenal dengan nama
Bonyamin Wright dan pengikut6nya di model Rasch adalah parameter b,
Universitas Chicago. parameter a diasumsikan sama dengan 1,
Pada tahun 1980 Lord menerbitkan sedangkan parameter c diasumsikan sama
buku Aplication of Item res-ponse Theory dengan nol (c=0).
to Practical Testing Problems, kemudian Estimasi kemampuan seseorang dan
disusul oleh Hambleton dan estimasi parameter item dari suatu model,
Swaminathan dengan bukunya Item dipilih dan diperoleh dari data yang
Respons Theory pada tahun 1985. diberikan oleh respon-den (peserta tes).
Hampir semua buku pengukuran Metode pemilihan item-item yang
pendidikan yang diterbitkan setelah jelek dalam IRT tidak secara langsung
tahun 1980 mencantumkan paling tidak seperti yang berlaku pada CTT. Untuk
satu bab yang membahas aplikasi teori mendapatkan informasi yang akurat dalam
respon butir. Selain itu, jurnal-jurnal IRT diperlukan responden yang besar.
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 25
Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 1 No 1 - 2009 - ijns.org

Akhir-akhir ini banyak prosedur Analisis item pada CTT dapat


yang digunakan untuk menguji ke- digunakan pada sampel yang kecil (sampel
cocokan item pada model Rasch. Tes- kelas), sedangkan analisis item pada IRT
tes yang digunakan untuk menen-tukan gunakanlah pada sampel yang besar.Untuk
apakah kecocokan item dikotomus atau menyusun tes harus memperhatikan untuk
politomus dan unidemensi dari model apa tes itu dibuat (tujuan tes).
Rasch telah diklasifikasikan oleh Wu
(1997: 8), menjadi: (1) Chi-square tes Daftar Pustaka
yang didasarkan dengan cara [1] Arikunto, S.1999. Dasar-dasar
membandingkan hitungan hasil Evaluasi Pendidikan. Jakarta: Bumi
observasi dan eksplorasi dari tipe-tipe Aksara
yang bervariasi. (2) Tes yang [2] Allen, M.J. & W.M Yen. 1979.
membandingkan standard residu untuk Introduction to measurement theory.
membentuk variasi normal approximal Montere: Brooks/Cole Publising
yang berdasarkan pembandingan antara Company.
respon-respon tera-mati dan diharapkan [3] Azwar, S. 1997. Reliabilitas dan
dari individu-individu terhadap item-item. validitas. Yogyakarta: Pustaka
(1) Tes eksploratori non-parametrik yang Pelajar.
menyediakan informasi diagnostig [4] Hayat, B. 1997. Pedoman
tentang model yang khusus. Penggunaan Iteman. Jakarta:
Pusisjian Balitbang Depdiknas.
PENUTUP [5] Cronbach, L. J. 1970. Essentials of
Parameter item di dalam CTT tidak Psychological Testing. New York:
terdefinisikan, akan tetapi para pembuat Harper and Row.
tes dapat memanfaatkannya untuk [6] Ebel, R.L. & D. A. Frisbie. 1991.
mengidentifikasi a pool of items, dan Essentials of Educational Measure-
kemudian dapat memilih item-item ment. New Jersey: Prentice Hall.
sehingga dapat terbentuk suatu tes. [7] Camilli, G., & L.A. Shepard. 1994.
Analisis item sangat penting dalam MMSS Methods for Identifying
pengembangan tes, sehingga suatu tes Biased Test Items. Thousand Oaks,
akan mampu memprediksi sifat-sifat CA: Sage Publication.
secara statistik dan psikometris ketika [8] Hambleton, R.K., & Swaminathan,
diterapkan pada sembarang kelompok H., & Rogers, H.J. 1991.
responden. Fundamental of Item Response
Statistik item pada CTT sebagian Theory. Newbury Park, CA: Sage.
besar digunakan dalam seleksi item, [9] Kerlinger, F. N. 2000. Asas asas
sedangkan parameter item pada IRT Penelitian Behavioral. Edisi ketiga.
digunakan dalam menentukan skor (Terjemahan Landrung R
responden, kalibrasi, dan equating tes Simatupang). Yogjakarta: Gajah
(penyamaan tes). CTT dan IRT tidak Mada University Press. Buku asli
harus dipandang sebagai teori kerangka diterbitkan tahun 1986.
kerja yang berbeda, akan tetapi hasil [10] Naga, D. S. 1992. Pengantar Teori
yang diperoleh dari CTT yang Sekor pada Pengukuran Pendidikan.
berdasarkan analisis item dapat Jakarta: Besbats.
menghasilkan informasi yang berguna [11] Sudjana. 1995. Desain dan Analisis
dalam menemukan keku-rangan- Eksperimen. Bandung: Tarsito.
kekurangan item dan membimbing para [12] Wu, M. L. 1997. The Development
pengembang tes pada IRT menuju ke and Applicatian of a fit Test for
pemilihan model yang tepat. UseWith Marginal Maximum
Keuntungan yang diperoleh dari Likelihood Estimation and Genera-
parameter pada IRT dapat diguna-kan lised Item Response Models. Tesis
untuk membuat tes-tes dengan tujuan tidak diterbitkan. Melbourne:
yang khusus, seperti penerapan tes University of Melbourne.
adaptif dengan komputer, penelitian
tentang bias, dan penyamaan tes.
ISSN : 1979-9330 (Print) - 2088-0154 (Online) 26

Anda mungkin juga menyukai