Anda di halaman 1dari 44

Halaman 1

Bab 8
Menilai Kualitas
Item Uji: Analisis Item
PENGANTAR
Item yang ditulis tidak lengkap. Setelah ide untuk item tes
telah dikandung dan diartikulasikan sesuai peraturan untuk menulis yang baik
item, tugas penting untuk menentukan kualitasnya tetap ada. Jika cacat,
itu harus diperbaiki atau dibuang. Untuk mencapai analisis tersebut untuk item,
penulis harus menggunakan metodologi yang tepat untuk mengungkap secara
sistematis
informasi tentang suatu barang, dan kemudian membuat penilaian tentang hal itu
berdasarkan hal itu
informasi. Dalam penilaian pendidikan dan psikologis, penilaian semacam itu
berputar di sekitar mendeteksi dan mengurangi kesalahan dalam pengukuran, yang
bisa
berada dalam bentuk bias sistematik atau kesalahan acak. Bab ini
Pelajari konsep kesalahan pengukuran terlebih dahulu dengan menjelaskannya dan
kemudian
dengan mendiskusikan strategi untuk menentukan sejauh mana hal itu ada
dan bagaimana sumber kesalahan bisa dikurangi. Dengan mengurangi penyebabnya
kesalahan pengukuran, kualitas item uji tertentu Sejalan
meningkat.
Dua pendekatan dasar dapat digunakan untuk mengatasi kesalahan dalam pengukuran:
melalui penilaian oleh orang - orang berpengetahuan yang menggunakan kriteria yang
telah ditetapkan dan
melalui statistik yang sesuai Berbagai prosedur ada untuk keduanya, dan
keduanya dapat mengatasi bias sistematis serta kesalahan acak. Bab ini
menggambarkan bentuk pendekatan yang paling banyak dipraktekkan untuk
mendeteksi-
ing kedua jenis kesalahan pengukuran.

Halaman 2
254
Membangun Produk Uji
Sepanjang bab ini, pembaca harus mengingat banyak hal
teknik analisis item didasarkan baik klasik maupun modern
teori uji Dalam kebanyakan kasus, menggambarkan teori secara rinci berada di luar
jangkauan
lingkup buku ini; Oleh karena itu, bab ini akan sering merujuk pembaca ke
sumber lain yang ditujukan untuk teori pengukuran untuk penjelasan yang lebih
menyeluruh-
tions.
Selain itu, sepanjang bab ini berbagai statistik akan dikutip sebagai
berguna untuk menganalisa data tertentu. Rumus untuk statistik ini adalah
tidak dijelaskan dalam buku ini, karena dalam konteks uji coba paling banyak,
perhitungan yang dibutuhkan oleh algoritma matematis tercapai
dengan bantuan komputer. Banyak program statistik tersedia untuk keduanya
komputer besar dan kecil yang akan menghitung statistik ini. Sementara com-
puters tidak diperlukan untuk mengetahui sebagian besar statistik yang disajikan
dalam hal ini
Sebenarnya, banyak yang bisa dengan mudah dilakukan dengan tangan atau dengan
bantuan
hanya kalkulator saku-biasanya digunakan dan memang membuat tugas
lebih nyaman. Sebaliknya, bab ini berfokus pada pemahaman tujuan
dan alasan untuk melihat analitis tertentu pada item, serta belajar
prosedur yang diperlukan untuk mencapainya.
Topik-topik berikut dibahas dalam bab ini:
kesalahan pengukuran
analisis item
memvalidasi isi item
pendekatan menghakimi terhadap analisis item
statistik item
parameter item
item bias
PENGUKURAN KESALAHAN
Pembaca telah diperkenalkan dengan konsep pengukuran
kesalahan di Bab 2, di mana dibahas dalam kaitannya dengan penggambaran
tujuan untuk item tes Dijelaskan di sana bahwa kesalahan itu melekat pada
mengukur prestasi pendidikan dan konstruksi psikologis. Sini,
deskripsi kesalahan pengukuran berfokus pada teknik untuk mendeteksi-
kehadirannya dan mengurangi sumber dari mana ia muncul. Ini
sumber yang tidak diinginkan bisa berupa kata-kata dalam item yang membingungkan
untuk diperiksa-

Halaman 3
Menilai Kualitas Produk Uji: Analisis Barang
255
Informasi tentang barang yang tidak akurat secara faktual, kurang sesuai
antara item dan tujuan itu dimaksudkan untuk menilai, dan banyak lagi. Sementara
Kesalahan pengukuran tidak bisa sepenuhnya dieliminasi secara psikologis as-
sessment seperti saat ini dipraktekkan, menjaga sumber kesalahan menjadi a
minimum akan memberikan kontribusi untuk membuat barang lebih baik.
Deskripsi Kesalahan Pengukuran
Kesalahan pengukuran dapat digambarkan sebagai jumlah penyimpangan
nilai ujian pada satu set item tes akan menunjukkan jika tes itu
Diberikan kepada peserta ujian itu jumlah tak terbatas, di bawah yang identik
kondisi. Semakin banyak skor tersebut menyebar, semakin besar kesalahan saya-
surement. Tentu saja, dalam kehidupan nyata, tidak ada peserta ujian yang diberikan
satu set item tes an
jumlah tak terbatas, sehingga kesalahan pengukuran harus diperkirakan dari
sebuah administrasi tunggal Tapi, bisa diperkirakan dengan presisi. Itu
presisi dengan yang skor diperkirakan dinyatakan dalam standar jangka
kesalahan pengukuran Ahli teori memahami hubungan ini dengan
berikut persamaannya:
Benar skor = Diamati skor - Pengukuran kesalahan
di mana: nilai sejati adalah nilai peserta ujian akan dicapai jika
tidak ada kesalahan yang hadir, dan
Skor yang diamati adalah nilai peserta ujian benar-benar diterima
selama menjalani administrasi uji kehidupan nyata.
Skor sebenarnya dikonseptualisasikan sebagai skor rata-rata peserta ujian
akan menerima dengan rata-rata skornya dari yang tak terbatas
jumlah administrasi uji secara teoritis dilakukan. Kesalahan standar dari
Pengukuran dapat digambarkan secara grafis sebagai distribusi skor
sekitar skor sebenarnya untuk individu. Gambar 8.1 menampilkan grafik ini
representasi untuk dua peserta ujian, salah satu kemampuan rendah dan salah satu
yang tinggi
kemampuan.

Halaman 4
256
Membangun Produk Uji
Gambar 8.1 Tampilan kesalahan standar pengukuran untuk
kemampuan yang berbeda.
Hal-hal yang disorot tentang kesalahan pengukuran penting untuk dilakukan
mengerti jika seseorang ingin menggunakan teknik analisis item dengan benar.
Pembaca harus menyadari, bagaimanapun, bahwa deskripsi pengukuran ini
Kesalahan hampir menyentuh permukaan teori di balik topik ini. Kembali-
pencari telah menulis secara ekstensif tentang teori kesalahan pengukuran,
dari 1904 klasik Thorndike Sebuah Pengantar Teori Mental
dan Pengukuran Sosial, dengan sangat baik 1986 teks dengan Crocker dan
Algina, Pengantar Teori Uji Klasik dan Modern. Diantara,
lusinan buku bagus ditulis yang menggambarkan secara rinci teori uji dan
kesalahan pengukuran (misalnya, Cronbach, 1984; Ebel & Frisbie, 1986;
Gulliksen, 1950; Lindquist, 1936; Tuhan, 1952; Tuhan & Novick, 1968;
Nunnally, 1978) yang menjadi referensi pembaca yang tertarik.
Menjaga Kesalahan Pengukuran dalam Perspektif
Kita harus menyadari, bagaimanapun, bahwa adanya kesalahan dalam psikologi-
penilaian cal tidak begitu serius masalah seperti yang pertama kali muncul. Ada
sebuah
jumlah alasan mengapa begitu. Pertama, mudah untuk melebih-lebihkan impor-
tance kesalahan dalam pengukuran mental karena nampaknya sedikit di bawah-
berdiri tentang proses psikologis dan bagaimana penilaian mereka. Ini adalah
dalam dirinya sendiri tidak terlalu besar masalah ketika kita menganggap bahwa
pemahaman kita
dari banyak aspek alam fisik juga terbatas. Bahkan, psiko-
Pengukuran logis mungkin tidak lagi diganggu oleh kesalahan daripada
pengukuran di bidang sains lainnya. Selanjutnya, sejumlah kecil

Halaman 5
Menilai Kualitas Produk Uji: Analisis Barang
257
kesalahan pengukuran mungkin tidak membahayakan penyelidikan ilmiah yang paling
serius-
tions, baik di alam fisik atau domain psikologis.
Alasan lain mengapa pentingnya kesalahan dalam pengukuran sering terjadi
Yang berlebihan adalah terminologi dan metode yang digunakan untuk
mendeskripsikannya
memiliki penampilan yang mengesankan bagi orang-orang yang tidak terbiasa dengan
statistiknya
terlibat. Karena banyak aspek kesalahan pengukuran dapat dilakukan dengan mudah
dinyatakan dalam istilah matematis - dan kemudian dalam bab ini kita akan
mengeksplorasi
beberapa teknik untuk melakukannya - sulit bagi orang-orang yang tidak terdidik
untuk melakukannya
menganggap angka tersebut dengan perspektif. Model matematika untuk
menggambarkan-
Dengan kesalahan pengukuran, dengan nomenklatur khusus mereka dan menjelaskan,
Simbol bertanda huruf Yunani, nampaknya mengesankan. Hal ini mempermudah
melebih-lebihkan kepentingan mereka
Meskipun bermanfaat untuk menjaga agar masalah kesalahan pengukuran terjadi
perspektif, pengembang item terampil mengidentifikasi dan mengurangi sumber
kesalahan sepanjang proses konstruksi item. Dengan mengidentifikasi dan
mengurangi-
ing sumber untuk kesalahan pengukuran, kualitas item akan
Sejalan membaiknya. Oleh karena itu, penting untuk belajar tentang kesalahan
dalam konteks ini dan temukan strategi yang akan membantu menguranginya
sekaligus menjaga perspektif pada konsep kesalahan pengukuran.
PEMAHAMAN ITEM ANALISIS
Analisis item adalah proses dimana item tes diperiksa criti-
cally Tujuannya adalah untuk mengidentifikasi dan mengurangi sumber kesalahan
dalam mengukur-
ment. Penulis secara rutin melakukan analisis item sehingga mereka dapat mengukur
kualitas barang dan membuang barang-barang yang tidak dapat diterima, perbaiki
yang dapat ditingkatkan, dan mempertahankan kriteria yang memenuhi kriteria.
Analisis item dilakukan dengan dua cara: melalui numeri-
analisis cal oleh pendekatan menghakimi. Dalam analisis item numerik,
sifat statistik dari barang uji tertentu diperiksa sehubungan dengan a
distribusi respon Definisi ini mengharuskan seseorang untuk melakukannya
menyiapkan deskripsi numerik item tes setelah mereka telah adminis-
Teralah pada sekelompok peserta ujian, seperti yang dilakukan dalam percobaan
lapangan untuk pemeriksaan
pengembangan. Tujuan utama uji lapangan item tentu saja
mengumpulkan data yang sesuai untuk mengkaji ulang mereka.
Sedangkan percobaan lapangan item diperlukan untuk mengumpulkan data untuk
analisis
dari masing-masing barang, teks ini tidak membahas proses pelaksanaan a

Halaman 6
258
Membangun Produk Uji
percobaan lapangan Uji coba lapangan itu sendiri merupakan prosedur yang
melibatkan banyak pertimbangan-
ations, seperti bagaimana barang harus dipesan pada formulir uji atau didistribusikan
antara berbagai bentuk pengujian, cara menentukan sampel yang tepat, dan
Diperlukan pertimbangan ukuran sampel itu. Meski masalah ini
penting untuk membangun instrumen uji yang baik, mereka lebih prop-
Saya sangat memperhatikan pengembang uji daripada penulis barang, dan karena itu
mereka tidak dibahas disini Pembaca dapat dengan mudah mengidentifikasi sumber di
yang isu-isu ini sepenuhnya ditangani, seperti Allen dan Yen (1979),
Crocker dan Algina (1986), Nunnally (1987), Thorndike (1982), dan banyak
lainnya
Pendekatan penghakiman untuk menganalisis item melibatkan meminta orang untuk
melakukannya
mengomentari item tertentu sesuai dengan beberapa kriteria. Orang-orang bertanya
Sebagai komentar mungkin pakar bidang konten, spesialis editorial, atau bahkan
peserta ujian Review penghakiman memiliki dua prinsip: masing-masing re-
Penampil harus memenuhi syarat untuk tugas tersebut, dan tugas itu sendiri harus
menjadi a
proses yang sistematis Dalam konteks ini, proses yang sistematis berarti bahwa
metodologi didefinisikan dan kriteria untuk peninjauan tersedia. Kedua
Analisis numerik dan penilaian penilaian merupakan cara penting bagi penulis
untuk belajar tentang barang yang telah mereka tulis. Masing-masing jalan menuju
menganalisis item akan dieksplorasi di bagian yang sesuai dari bab ini.
MENGEFEKTIFKAN KONTEN ITEM
Hal ini dijelaskan pada Bab 3 bahwa bukti uji validitas skor antar-
pretasi tidak melekat dalam proses konstruksi item tapi harus
dikumpulkan melalui studi validasi sistematis. Studi semacam itu biasanya dilakukan
Jadilah pemeriksaan bukti terkait konten untuk validitas. Prosedurnya
Digunakan untuk mengumpulkan bukti terkait konten untuk validitas juga bisa
sangat membantu dalam menentukan kualitas barang uji. Item penulis bisa
gunakan informasi yang terungkap melalui studi sistematis ini untuk diperiksa
dan memperbaiki item.
Sebuah studi validasi konten biasanya berusaha untuk membuat sebuah konsensus
informasi tentang tingkat kesesuaian antara tes tertentu
item dan deskripsi spesifik dari domain konten yang dimaksudkan untuk menjadi
dinilai oleh barang-barang tersebut. Ini biasanya membutuhkan diadakannya panel
hakim ahli yang menilai kongruensi item-to-content menurut beberapa orang
kriteria yang ditetapkan
Dua metode utama digunakan untuk mengumpulkan pendapat para ahli

Halaman 7
Menilai Kualitas Produk Uji: Analisis Barang
259
kesesuaian antara domain konten dan item uji tertentu. Dalam
Metode pertama, hakim diberi deskripsi obyektif dan item uji itu
sudah dicocokkan dengan maksud penulis barang. Lainnya
kata-kata, penulis barang, yang akan membuat barang dengan sengaja
mencerminkan domain atau tujuan tertentu, akan memberi tahu hakim mana yang
dimaksud
Seharusnya disesuaikan dengan deskripsi mana. Peran para hakim,
maka, adalah untuk mengkonfirmasi atau menolak pendapat penulis barang.
Tentu saja, bentuk yang tepat untuk mencatat pendapat para hakim
akan dibutuhkan Formulir untuk mencatat peringkat hakim seharusnya diperbolehkan
lebih dari sekedar penyesuaian ya-versus-tidak sama dengan mengizinkan hakim
mencatat
Tingkat kongruensi-biasanya, satu penandaan merekam yang kuat
cocok, sebutan kedua mencatat kecocokan moderat atau ketidakpastian, dan a
Penunjukan ketiga menunjukkan kecocokan yang buruk atau tidak cocok sama
sekali. Ketiganya
kategori adalah semua yang diperlukan; Diskriminasi yang lebih baik tidak banyak
nilai praktis dan tidak perlu mempersulit pembangunan konsensus
proses. Selain itu, ruang pada formulir harus disediakan di mana hakim dapat
melakukannya
mengomentari alasan untuk pendapat tertentu. Contoh bentuk seperti itu
diberikan dalam Tabel 8.1.
Lain, dan lebih kuat, pendekatan untuk mendapatkan konsensus di kalangan ahli
hakim kongruensi item-tujuan adalah menahan diri untuk tidak menginformasikan
hakim sebelumnya dari pencocokan maksud penulis. Dalam pendekatan ini,
para hakim hanya diberi barang dan tujuan tanpa apapun
indikasi item mana yang dimaksudkan agar sesuai dengan tujuan yang mana.
Setiap hakim akan menunjukkan kecocokannya pada lembar penilaian, dan a
koordinator proyek akan menghitung tanggapannya. Konsensus hakim 'opin-
ion untuk pertandingan item-objective tertentu dianggap berhubungan dengan konten
bukti validitas Tabel 8.2 menawarkan contoh bentuk pemeringkatan yang bisa
digunakan untuk teknik pengumpulan data ini. Variasi dapat dilakukan di
formulir yang ditampilkan dalam Tabel 8.1 dan 8.2 agar sesuai dengan keadaan
tertentu.
Sebagai cara lebih lanjut untuk meningkatkan ketelitian proses penjurian ini,
hakim dapat ditugaskan ke panel "buta", yaitu, mereka tidak bertemu di muka-
sesi tatap muka, dan juga tidak mengetahui identitas panelis lainnya.
Pendapat para panelis dikumpulkan oleh koordinator proyek melalui
kontak telepon atau email Karena panelis tidak bertemu, consen-
sus mungkin tidak akan dikontaminasi oleh persuasi saksama, atau oleh
efek prestise pribadi, rangking, atau karisma.
Dalam kebanyakan kasus, empat atau lima penilaian hakim setiap item tes sudah
cukup;
Namun, jika sejumlah besar barang diberi nilai, barangnya boleh dipecah

Halaman 8
260
Membangun Produk Uji
menjadi dua atau lebih kelompok, dan empat atau lima hakim untuk setiap kelompok
item
akan dibutuhkan Untuk tes yang memiliki skor cut-off dan konse-
Persamaan untuk peserta ujian, maka lebih banyak hakim - mungkin sebanyak
sepuluh atau
bahkan lima belas-direkomendasikan. Dalam keadaan tidak harus satu per-
Anak laki-laki menjadi hakim tunggal dalam studi validasi konten, terutama orangnya
siapa yang menulis item tes Prasangka yang tidak dikenali, perspektif chauvinistik-
pakaian, atau bias lainnya bisa dengan mudah dilupakan begitu saja saat seseorang
menghakimi seseorang
pekerjaan sendiri.
Para hakim harus ahli dalam bidang studi yang mereka teliti
dan dilatih untuk tugas yang sesuai. Kompetensi subjek subjek hakim adalah
diperlukan untuk seleksi nya karena subjek apapun memiliki banyak rincian itu
Bisa luput dari perhatian seorang pemula. Melatih para hakim untuk tugas yang sesuai
sama pentingnya, karena tugas membutuhkan lebih banyak keterampilan daripada
yang bisa dibayangkan
pada pandangan pertama. Bab 4 mencakup diskusi strategi yang menyeluruh
tiba pada pertandingan item-objektif dan bisa digunakan sebagai panduan pelatihan.
Mengukur Hasil Pendapat Hakim
Begitu data yang relevan dari penilaian hakim terhadap item telah dilakukan
Dikumpulkan, informasi harus dianalisis dan diinterpretasikan. Ini berarti
menentukan apakah konsensus pendapat telah tercapai. Barang itu
Penulis, berusaha mendapatkan umpan balik tentang kualitas barang, harus
memutuskan caranya
Banyak penilaian yang cocok dengan item uji tertentu dengan tujuan tertentu
harus bertepatan untuk menyatakan bahwa ada konsensus pendapat
tercapai Tidak ada angka yang mapan, tapi konsensusnya
harus cukup jelas; Misalnya, jika ada lima hakim, empat harus setuju, atau jika
Ada sepuluh hakim, delapan harus setuju.
Meski cukup tabulasi jumlah opini yang disepakati
Metode yang paling populer, terkadang juga prosedur lain
lebih baik. Beberapa metode ini memerlukan pendekatan kuantitatif dan
mungkin lebih tepat daripada penghitungan. Misalnya, jika ada anggapan
(sering dibuat) bahwa untuk setiap item tes harus ada satu, dan hanya satu,
kecocokan yang jelas dengan keterampilan atau tujuan, sebuah indeks dari item-
objective congru-
ence mungkin diturunkan (Rovinelli dan Hambleton, 1977; Hambleton, 1980).
Untuk prosedur ini, hakim akan diinstruksikan untuk menetapkan +1 bila ada a
kecocokan yang kuat antara item dan tujuan, angka 0 jika hakim tidak pasti
apakah ada kongruensi, dan -1 jika item tersebut tidak sesuai dengan
objektif. Formulir pemeringkatan yang ditampilkan pada Tabel 8.1 adalah contoh
formulir
Halaman 9
Menilai Kualitas Produk Uji: Analisis Barang
261
Tabel 8.1 Formulir Penilaian Kongruensi Obyektif Tujuan
Nama
Petunjuk: Baca Tujuan # 1 di bawah ini. Selanjutnya, baca item pertama dalam tes
buku kecil. Pertimbangkan dengan cermat sejauh mana item tersebut sesuai
keterampilan. Beri nilai kesesuaian sesuai dengan skema ini:
H = tingkat kongruensi yang tinggi
M = tingkat kongruensi menengah
L = rendahnya kongruensi atau ketidakpastian
Jika Anda memiliki komentar tentang kesesuaian item ini, catatlah di dalamnya
ruang yang disediakan Setelah selesai dengan item ini, lanjutkan ke
item kedua, dan selanjutnya untuk semua item berikutnya, beri peringkat masing -
masing di
cara yang sama
Tujuan # 1
Gunakan teknik matematika untuk memecahkan masalah kehidupan nyata.
Rating
Komentar
Item # 1
Item # 2
Item # 3
Item # 4
Item # 6
Item # 9
Tujuan # 2
Gunakan sifat tokoh dua dan tiga dimensi untuk melakukan geo-
perhitungan metrik
Item # 3
Item # 5
Item # 8
Item # 10
Item # 11
Rating
Komentar

Halaman 10
262
Membangun Produk Uji
Tabel 8.2 Lembar Ringkasan Hakim untuk Item / Tujuan Pertandingan-
Tugas (Sampel)
Item / Tujuan Matching Task
Resensi:
Tanggal:
Area Konten:
Pertama, baca dengan saksama daftar spesifikasi dan uji domain
item. Tugas Anda adalah menunjukkan apakah Anda merasa setiap item tes adalah
atau tidak
ukuran salah satu spesifikasi domain. Hal ini, jika Anda merasa ujian
Kinerja pada item tes akan memberikan indikasi ujian
tingkat kinerja di kolam item uji yang mengukur domain specifi-
kation Di samping masing-masing tujuan, tulislah dalam nomor item tes sesuai-
Untuk item tes yang Anda rasa mengukur tujuannya. Dalam beberapa in-
Sikap, Anda mungkin merasa bahwa barang tidak mengukur barang yang tersedia
spesifikasi domain Tuliskan nomor item tes ini di ruang pro-
vided di bagian bawah formulir pemeringkatan.
Objektif
Matching Test Items
1
2
3
4
Tidak ada yang cocok
Dari RK Hambleton "Memvalidasi skor tes" (halaman 225) di RA Berk (Ed.), A
Panduan untuk Criterion-Referenced Test Construction, 1984, Baltimore: The Johns
Universitas Hopkins Press.

Halaman 11
Menilai Kualitas Produk Uji: Analisis Barang
263
yang mengakomodasi skema kuantifikasi ini.
Rumus yang menunjukkan bahwa item tertentu, k, adalah kongruen dengan a
keterampilan atau tujuan tertentu, saya dapat diterapkan pada penilaian hakim. Ini
Rumusnya adalah:
Dalam rumus ini, adalah nilai indeks, i dan k seperti yang dijelaskan di atas, N
adalah jumlah keterampilan atau tujuan, dan n adalah jumlah hakim. Itu
hanyalah penilaian yang diberikan oleh hakim tertentu untuk kongruensi tersebut
antara item tertentu dan tujuan tertentu. Itu
tentu saja
simbol untuk penjumlahan.
Meski agak memaksakan pada pandangan pertama, formula ini sebenarnya
Langsung dan bisa dengan mudah dikerjakan dengan satu set data. Untuk
Misalnya, tes memiliki 36 item yang dimaksudkan untuk menilai lima
objek spesifik. Untuk contoh ini, misalkan item-objective congru-
ence rating of interest adalah antara item pertama tes dan tes kedua
objektif. (Dengan kata lain, "Seberapa baik item # 1 cocok dengan tujuan # 2?")
Sekarang, bayangkan sembilan hakim menilai item tersebut sesuai dengan
kongruensinya
objektif. Salah satu hakim menilai item tersebut sebagai kecocokan yang buruk (atau -
1), salah satunya
hakim menilai item tersebut sebagai pertandingan moderat (atau 0), dan tujuh dari
jumlah tersebut
hakim menilai kecocokan item-objective sama kuatnya (atau +1). Jumlah dari
sembilan peringkat hakim adalah 6 (yaitu, (-1) + 1 (0) + 8 (+1) = 6). Menerapkan ini
angka ke formula kongruen item-objective menghasilkan hal berikut:
Rumus ini akan menghasilkan nilai indeks dari +1 sampai -1. +1 akan menjadi
diperoleh jika semua hakim setuju bahwa ada pertandingan item-objective yang kuat.
Sebaliknya, jika tidak ada hakim yang menyetujui bahwa sebuah barang dicocokkan
dengan satu dan
hanya satu keterampilan atau tujuan, rumus akan menghasilkan indeks -1.
Bagi penulis barang, indeks ini bisa memberikan informasi yang berguna
mengukur kualitas item dengan salah satu dari dua cara berikut: dengan menggunakan
item-
Indeks kongruensi obyektif baik sebagai standar relatif atau absolut

Halaman 12
264
Membangun Produk Uji
standar. Bila indeks dipandang sebagai standar relatif, statistik untuk
barang tertentu dinilai berdasarkan kekuatannya (yaitu kedekatannya dengan
+1) dibandingkan dengan kekuatan indeks untuk item lainnya yang
dipertimbangkan. Untuk
Misalnya, jika nilai indeks dihitung untuk masing-masing 50 item dan itu
terbukti relatif rendah untuk, katakanlah, enam, dari item, lalu keenam
akan dicurigai dan harus ditinjau ulang.
Untuk menggunakan indeks secara absolut, penulis item harus menetapkan a
tingkat kriteria untuk indeks, di atas item mana yang akan dilalui, dan
Di bawah item mana yang akan ditinjau untuk kesuksesan mereka dalam memenuhi
tes
objektif. Tingkat kriteria ini dapat ditentukan dengan menentukan tingkat yang paling
miskin
penilaian hakim yang bisa diterima Dalam contoh komputasinya
Di atas ada sembilan hakim. Kriterianya mungkin setidaknya tujuh
hakim harus menilai item tersebut sebagai sangat kongruen terhadap tujuan tertentu.
Standar ini akan menghasilkan kriteria untuk indeks 0,78. Oleh karena itu, 0,78 akan
jadilah nilai dasar untuk menerima kesesuaian untuk kecocokan tertentu
item dengan tujuan Pada contoh di atas, indeksnya adalah .67-di bawahnya
kriteria .78 - yang menunjukkan bahwa isi dari item tertentu seharusnya
diperiksa oleh penulis item untuk kesesuaiannya sebagai ukuran
objektif.
Skema Kuantifikasi Alternatif
Klein dan Kosecoff (1975) menggambarkan variasi metode penghitungan ini
yang meliputi data kinerja peserta ujian dalam proses kongruensi.
Prosedur ini mungkin sedikit lebih ketat daripada hanya menghakimi hakim '
peringkat; Namun, itu mungkin kurang tepat daripada menghitung item-
indeks obyektif Juga, Polin dan Baker (1979) menawarkan skala review item
terdiri dari enam dimensi: deskripsi domain, batasan isi, distraktor
batas, kriteria atau kriteria penanggulangan gangguan, format, dan petunjuk plus a
item sampel Penilai meninjau ulang sebuah item dan mencetaknya pada masing-
masing dari enam
dimensi sesuai dengan kriteria yang ditentukan. Prosedur ini dimaksudkan untuk
Berikan informasi yang berguna untuk menemukan hubungan antara "apa
penulis uji memiliki tempa dan spesifikasi uji asli "(halaman 2). Al-
Meskipun sebuah studi eksplorasi metodologi ini menghasilkan hasil yang beragam,
Pendekatan ini mewakili usaha yang berguna untuk menilai konten yang terkait
bukti validitas

Halaman 13
Menilai Kualitas Produk Uji: Analisis Barang
265
MENGGUNAKAN PERTANYAAN TERKEMUKA DALAM ANALISIS ITEM
Pendekatan penghakiman untuk menganalisa item bisa sangat efektif meth-
ods untuk memperbaiki item Jelas, indeks item-kongruensi dibahas
Di bagian sebelumnya adalah pendekatan menghakimi, tapi ada yang lain
metode yang melibatkan penilaian juga, seperti teknik bertanya
mengajukan pertanyaan kepada orang yang tepat. Misalnya, jika barangnya ada
termasuk dalam tes untuk menilai anak-anak sekolah, meminta para guru untuk
meninjau ulang
dan mendiskusikan barang secara informal dengan penulis barang seringkali
bermanfaat. Tidak
Bentuk khusus diperlukan untuk diskusi ini, namun beberapa pertanyaan panduan
mungkin memfokuskan tugasnya. Pertanyaan semacam itu mungkin termasuk yang
berikut:, "Di blog Anda
Pendapat, apakah barang ini akan membingungkan siswa? "; "Apakah Anda
memperhatikannya?
bahasa yang mungkin menyinggung stereotip kepada siswa? "; "Apakah kamu
percaya bahwa distraktor masuk akal? "; "Apakah ada kata-kata kosa kata di
dalamnya?
item yang Anda bayangkan tidak asing bagi siswa pada usia atau kelas ini
tingkat,"; "Apakah grafisnya jelas?"
Kelompok lain yang bisa menjadi penulis item adalah orang-orang yang sama
kategori sebagai calon peserta ujian. Jika sebuah tes sedang dikembangkan untuk,
katakanlah, kelima-
grader, pendapat siswa yang berada di kelas lima bisa berharga.
Sekali lagi, pertanyaan panduan yang sama dengan guru bisa digunakan
diskusi dengan siswa
Ada dua kelemahan utama teknik informal ini
diskusi. Pertama, seringkali sulit mengelola logistik untuk kunjungan semacam itu.
Mereka mungkin sulit diatur di sekolah, karena guru dan administra-
Mereka dapat menganggap ini sebagai gangguan waktu instruksional yang
berharga. Atau jika
tes ini akan digunakan untuk perizinan, yang sering tidak diketahui sebelumnya-
tangan siapa yang akan mengikuti tes dan kelompok yang tepat tidak mudah
dilakukan
diidentifikasi
Kerugian kedua dari teknik diskusi informal ini adalah
itu menghabiskan banyak waktu. Ini adalah pengalaman penulis
bahwa dalam periode kelas 50 menit yang khas, mungkin hanya tiga atau empat tes
item akan dibahas. Kelemahan ini bisa diatasi jika penulis
adalah untuk memilih dari kolam item baru disiapkan hanya beberapa untuk
diskusi, dan kemudian mempertimbangkan item lainnya berdasarkan apa yang telah
dikatakan
oleh siswa tentang item yang dipilih.
Terlepas dari kesulitan logistik dalam mengelola informal dis-
Cussion of item, latihan bisa sangat berharga untuk memperbaiki
item dan telah digunakan dengan siswa sedini kelas dua. Faktanya,

Halaman 14
266
Membangun Produk Uji
siswa dari segala usia sering menunjukkan wawasan yang luar biasa ke dalam
alasan untuk mengajukan pertanyaan tertentu, dan mereka dapat mendiagnosa secara
spesifik
kekurangan barang dan menyarankan perbaikan.
Sedangkan diskusi informal item dengan kelompok yang tepat bukan a
Teknik yang dipraktekkan secara luas untuk menganalisa barang, sangat dianjurkan.
Ini bisa menghasilkan perbaikan item yang spesifik dan-bahkan mungkin lebih
Yang penting-ini bisa membantu penulis menjadi peka terhadap ujian dengan cara
yang mungkin sulit untuk dijelaskan namun tetap sangat berharga.
STATISTIK ITEM
Sejumlah statistik dapat digunakan untuk menunjukkan fitur pengujian tertentu
item. Periset (Crocker & Algina, 1986) mengkategorikan indeks ini dengan
parameter yang biasa diteliti:
1.
2.
3.
Indeks yang menggambarkan distribusi tanggapan terhadap satu item
(yaitu, mean dan varians dari tanggapan item),
Indeks yang menggambarkan tingkat hubungan antara respon
ke item dan beberapa kriteria yang diminati, dan
Indeks yang merupakan fungsi dari kedua varians dan hubungan tersebut
sebuah kriteria
Beberapa statistik yang umum digunakan untuk menggambarkan item param-
eters adalah nilai-nilai p-, varians, dan berbagai indeks diskriminasi item,
seperti korelasi point-biserial korelasi, korelasi biserial
koefisien, dan perkiraan korelasi phi. Masing-masing statistik ini
Indeks penting untuk tujuan spesifik dalam analisis item, dan masing-masing akan
dijelaskan.
Indeks Proporsi yang Benar
Mungkin indeks kesulitan item yang paling populer untuk dikotomis
mencetak item tes adalah nilai p-. Nilai p- hanyalah cara singkat dari
mengekspresikan proporsi peserta ujian yang menanggapi dengan benar a
item tertentu Mungkin paling jelas dijelaskan dengan menggunakan beberapa
sederhana
contoh. Misalkan item diberikan kepada 100 peserta ujian, dan
80 dari mereka menanggapi dengan benar. Dalam kasus seperti itu, nilai p adalah 0,8,
menunjukkan
bahwa 80 persen peserta ujian menanggapi dengan benar item tersebut. Jika yang lain
item diberikan kepada sekelompok 311 peserta ujian dan 187 di antaranya

Halaman 15
Menilai Kualitas Produk Uji: Analisis Barang
267
menanggapi dengan benar, nilai p- akan 0,60 (yaitu, 187 312 = 0,60). Meja
8.3 menyajikan tabel sederhana dari p -values untuk tes lima-item hipotetis.
Tabel 8.3 Nilai P untuk Uji Lima Item
Nomor barang
nilai p
1
2
3
4
5
.68
.45
.91
.36
.48
P -nilai untuk item tidak dengan sendirinya menunjukkan apakah suatu item
baik atau buruk; Sebaliknya, ini hanya merupakan indeks kesulitan relatif terhadap
kelompok peserta ujian tertentu kepada siapa barang tersebut diberikan. Jika
item yang sama diberikan untuk kelompok yang berbeda dari peserta ujian, p- yang
nilai mungkin tidak akan sama.
Aspek kelompok-referen dari p -nilai disebut sampel ketergantungan,
yang berarti bahwa setiap diberikan p -nilai tergantung pada kelompok tertentu untuk
siapa barang itu diberikan Karakteristik ketergantungan sampel ini
untuk indeks dapat dengan mudah dilihat dengan membayangkan bahwa item yang
diberikan adalah adminis-
terar untuk siswa kelas tiga dan lagi ke kelas enam. Sejak keduanya
grup tidak dari total populasi yang sama, p -values dihasilkan oleh
dua kelompok mungkin akan berbeda. Item akan memiliki dua p -
nilai, satu menunjukkan kesulitannya relatif terhadap siswa kelas tiga, dan yang
lainnya
menunjukkan kesulitan bagi siswa di kelas enam. Setiap p -nilai tergantung
di mana sampel ujian diuji. Inilah yang dimaksud dengan mengatakan
p -nilai adalah sampel tergantung.
Tentu saja, jika sampel peserta ujian dipilih dengan cermat untuk mewakili a
populasi yang lebih besar, maka p -nilai untuk sampel dapat diartikan sebagai
mirip dengan nilai yang pasti didapat itemnya
dikelola untuk seluruh populasi. (Sesuai dengan batas samplingnya
desain.) Sebaliknya, jika sekelompok peserta ujian tidak dipilih dari yang lebih besar
Populasi dengan metode yang memungkinkan generalisasi, maka indeksnya adalah
hanya bermakna bagi kelompok peserta ujian tertentu.
Hal ini penting untuk memahami fitur sampel-ketergantungan untuk p-
nilai-nilai karena merupakan salah satu aspek yang paling menonjol dari p -
values. Seperti kita

Halaman 16
268
Membangun Produk Uji
lihat nanti, statistik lain telah dikembangkan yang mencoba untuk mendefinisikan a
Indeks kesulitan independen dari sampel peserta ujian tertentu.
Menggunakan P -values untuk Analisis Butir
P -values adalah bantuan besar untuk penulis selama analisis item. Oleh
memahami p -values dan menafsirkan dengan benar, penulis dapat melihat
bagaimana sebuah item berkinerja dalam kaitannya dengan kelompok peserta ujian
tertentu, seperti
ditampilkan pada Tabel 8.3. Namun, mereka juga bisa digunakan untuk memberi
barang itu
penulis deskripsi yang lebih lengkap tentang kinerja suatu barang. Contohnya,
p -values dapat membantu dalam mendeteksi kesalahan beberapa penulis umum,
seperti
membuat kata-kata yang jelas dalam sebuah item yang jelas membingungkan untuk
diperiksa-
Ada, mengenali distraktor yang cacat, dan mengidentifikasi secara tidak sengaja
miskeyed
item. Indeks dapat memungkinkan penulis untuk melihat bagaimana sebuah item
berkinerja
peserta ujian dalam populasi yang sama yang berbeda dalam kemampuannya. Masing-
masing
menggunakan untuk p -nilai akan dijelaskan pada gilirannya, tapi pertama, p -nilai
harus
ditampilkan dengan cara yang memudahkan interpretasi semacam itu.
Sementara Tabel 8.3 disajikan p -values untuk sekelompok item dalam tes, di
item pekerjaan analisis, p -values biasanya ditampilkan secara tunggal. Selain itu,
untuk analisis item, p -nilai dihitung untuk setiap alternatif respon: yang
pilihan yang benar dan semua distraktor. Selanjutnya, ketika p -values yang dis-
dimainkan dengan cara ini, biasanya juga melaporkan jumlah pemeriksaan-
Siapa yang menghilangkan barang itu? Tabel 8.4 menyajikan contoh p -values
dilaporkan untuk setiap alternatif respons terhadap satu item uji dan juga
jumlah peserta ujian yang menghilangkan item tersebut.
Tabel 8.4 Nilai P untuk Item Uji Tunggal
Jumlah
nilai p
SEBUAH
28
.10
B
17
.06
197
.69
D
41
.14
menghilangkan
3
Total
286
respon yang benar

Halaman 17
Menilai Kualitas Produk Uji: Analisis Barang
269
Seperti dapat dilihat pada Tabel 8.4, nilai-nilai p- mengungkapkan banyak data yang
berguna untuk
penulis mencoba memperbaiki item. Dalam contoh ini, respon yang benar adalah
diindeks di 0,69, menunjukkan bahwa untuk sebagian besar tes prestasi umum
Item tidak terlalu sulit atau terlalu mudah bagi kelompok peserta ujian. Juga,
sebagai sebuah kelompok, peserta ujian telah memilih semua pengganggu, yang
mungkin
menandakan bahwa tidak ada yang ditolak out-of-tangan. Seringkali, ini adalah
indikator yang baik dari
kualitas item; Namun, karena relatif sedikit peserta ujian (enam
persen) memilih opsi B, mungkin bermanfaat untuk memeriksa jebakan ini
untuk perbaikan mungkin.
Hal ini umum di sebagian besar penilaian umum prestasi akademik
untuk pengembang tes untuk menentukan batas kesulitan barang. Seringkali, batas
tersebut
untuk p- nilai-nilai bahwa himpunan item pada tes dapat berkisar dari rendah 0,40
sampai yang tertinggi 0,80. Ada, tentu saja, banyak contoh ketika batas lainnya untuk
Item kesulitan akan sesuai. Penulis harus menyadari tes
Batas pengembang untuk nilai barang kesulitan, karena mereka dapat membimbing
penulis dalam
memutuskan item mana yang harus ditinjau.
Sekarang, perhatikan p -values untuk item lain, ditampilkan dalam Tabel 8.5. Didalam
Misalnya, p- nilai mengungkapkan beberapa kelemahan dalam item. Rupanya, peserta
ujian
menemukan item ini membingungkan karena tanggapan mereka secara luas tersebar
di antara
alternatif respon. Respon yang benar, A, tertarik examin- lebih sedikit
EES (27 persen) daripada salah satu pengganggu, C (45 persen). Dan
distraktor B rupanya begitu masuk akal daripada tidak ada yang menanggapi itu.
Juga, sejumlah relatif besar peserta ujian dihilangkan menanggapi
item, yang mungkin indikasi lain bahwa item tersebut membingungkan. diambil
bersama-sama, temuan ini menunjukkan item serius cacat.
Tabel 8.5 P-Nilai untuk Item Miskin Uji
Jumlah
nilai p
77
.27
B
0
.00
C
130
.45
D
63
.22
menghilangkan
16
Total
286
respon yang benar

Halaman 18
270
Membangun Uji Produk
Jangan-jangan pembaca membayangkan bahwa item begitu penuh dengan kesalahan
tidak akan
diproduksi oleh penulis soal serius, pembaca harus menyadari bahwa kekurangan
dalam
item yang sering tidak menjadi jelas sampai mereka tunduk pada
pengawasan dari analisis item. Ingat, membangun item tes yang baik adalah tidak
proses yang berakhir dengan penulisan awal; itu menuntut pengawasan yang ketat dari
item juga.
Produk Miskeyed
Fitur lain yang berguna dari p- nilai untuk pekerjaan pembangunan item untuk
mengidentifikasi item yang telah miskeyed. Menyesal, miskeying item adalah
terlalu umum dalam persiapan barang. Dalam banyak kasus itu adalah mengerti-
mampu selang. Kadang-kadang rasa bosan memproduksi banyak item dapat
menyebabkan
penulis untuk lalai dalam menghadiri untuk detail, dan item akan miskeyed. Di
kali lain, ambiguitas item disalahpahami atau buruk worded tidak
segera melihat, dan respon yang benar mungkin tidak jelas. Occa-
sionally, ketika barang tertentu dirancang untuk menilai kognitif yang kompleks
keterampilan pengolahan, seluk-beluk bahasa atau kesulitan konten
mengakibatkan miskeying item.
item Miskeyed sering menjadi jelas ketika penulis barang Memeriksa
tabel p- nilai-nilai yang menampilkan hasil sangat berbeda dari apa yang telah
diantisipasi. Sebagai contoh, Tabel 8.6 menampilkan statistik untuk uji sampel
Item di mana penulis item yang dirasakan salah satu respon yang benar (B), tapi
peserta ujian seragam yang dipilih alternatif respon lain (A). Didalam
kasus, item adalah barang yang baik, tapi satu yang telah miskeyed.
Tabel 8.6 P -Values untuk Item Miskeyed Uji
Tanggapan
Alternatif
SEBUAH
C
D
menghilangkan Jumlah
Jumlah
nilai p
202
.71
31
.11
28
.10
25
.9
0
286
respon yang benar

Halaman 19
Menilai Kualitas Uji Produk: Analisis Butir
271
Membandingkan p -values untuk High
dan Low-Mencapai Subpopulasi
Kadang-kadang hal ini berguna untuk membandingkan subkelompok peserta ujian
popula-
tion untuk menentukan bagaimana item tampil. Untuk analisis ini, popula- yang
tion sering dibagi menjadi dua kelompok, kelompok berprestasi dan rendah a
mencapai kelompok. Biasanya, kelompok yang peserta ujian yang skor total pada
tes terdiri atas 27 persen dari seluruh peserta ujian, dan mereka yang skor
menempatkan mereka di bawah 27 persen dari peserta ujian. Angka 27
persen dipilih karena digunakan di beberapa algoritma komputasi untuk
menentukan indeks reliabilitas internal dan Kelly (1939) menunjukkan bahwa
jumlah ini akan memberikan indeks stabil perbedaan antara tinggi dan
kelompok kemampuan rendah. Untuk analisis ini, fokus utama adalah pada penentuan
seberapa baik item berfungsi untuk ekstrem dari kemampuan jangkauan. Meja
8,7 menampilkan data barang untuk analisis ini.
Tabel 8.7. P -Values untuk diuji Subkelompok pada Test Butir
Tanggapan
Alternatif
SEBUAH
C
D
menghilangkan
atas 27%
lebih rendah 27%
perbedaan
.29
.31
-.02
0,61
.27
0,34
.08
.31
-.23
.02
.11
-.09
1
6
respon yang benar
Perhatikan bahwa statistik item yang ditampilkan dalam Tabel 8.7 mengungkapkan
bahwa
Perbedaan antara subpopulatioris ujian adalah 34 persen untuk
respon yang benar. Ini adalah perbedaan yang agak besar yang mungkin menandakan
bahwa
item itu tidak terlalu sulit untuk-kemampuan tinggi peserta ujian (atas
kelompok) tapi cukup sulit bagi-kemampuan rendah ujian (kelompok bawah).
Untuk berbagai jenis penilaian, perbedaan ini merupakan fitur yang diinginkan untuk
barang. Juga, mengindahkan fakta bahwa perbedaan antara kelompok-kelompok
untuk semua lainnya
alternatif respon adalah nilai negatif. nilai negatif seperti mengindikasikan
yang lebih sedikit peserta ujian-kemampuan tinggi yang dipilih jebakan daripada
melakukan rendah

Halaman 20
272
Membangun Uji Produk
kemampuan peserta ujian. Sekali lagi, biasanya, ini adalah fitur positif untuk item.
Namun, penulis harus memperhatikan kenyataan bahwa perbedaan antara
kelompok untuk respon alternatif A adalah sedikit 0,02 persen. Ini menunjukkan hal
itu
opsi A harus ditinjau.
Membandingkan Beberapa Subpopulasi
Sering di analisis item beberapa segmen dari populasi exam-
inees dibandingkan. Setiap segmen, atau subpopulasi, dari kelompok total
peserta ujian merupakan kemampuan stratum. Idealnya, peserta ujian dikelompokkan
menjadi segmen, atau subpopulasi, dengan kinerja mereka pada luar
kriteria, seperti ukuran lain konten analog dengan sejenis
keandalan. Dalam prakteknya, bagaimanapun, langkah-langkah eksternal seperti
jarang avail-
sanggup; karenanya, tes itu sendiri biasanya digunakan sebagai ukuran ujian
kemampuan. Untuk tujuan ini, total nilai tes yang digunakan.
Ketika jumlah penduduk kepada siapa tes telah diberikan adalah
besar (sekitar 200 peserta ujian atau lebih), biasanya lima kelompok terbentuk,
masing-masing mewakili sekitar 20 persen dari distribusi skor pada tes.
Contoh tanggapan dilansir perlima dari distribusi populasi
disajikan pada Tabel 8.8, yang akan dijelaskan sebentar.
Prosedur untuk membelah penduduk sangatlah mudah. Pertama, a
distribusi frekuensi skor disiapkan. Kemudian, skor tepat dicatat
di 20, 40, 60, dan poin persentil ke-80, menghasilkan lima rentang
skor. skor tes dalam setiap kisaran tersebut menjadi kriteria dalam
yang nilai ujian tertentu dikelompokkan. Karena sebagian besar populasi
menunjukkan distribusi miring, tidak setiap kelompok akan memiliki tepatnya 20 per-
sen dari populasi ujian, tetapi sebagian besar kelompok harus cukup dekat dengan
20 persen.
Seringkali, ketika penduduk ujian dibagi menjadi perlima, hal ini berguna
untuk menampilkan p -values grafis. Representasi seperti memudahkan untuk
mengidentifikasi posisi relatif setiap segmen dari populasi ujian.
Kelemahan dalam item yang mungkin pergi jika tidak diketahui, yang terungkap
dengan melihat
jumlah peserta ujian untuk setiap jebakan untuk berbagai subpopula-
tions, serta p -values. Tabel 8.8 menampilkan representasi grafis
item dengan nomor yang sesuai untuk masing-masing subpopulasi dan
keseluruhan p -values.
Perhatikan di 8.8 yang kelima atas penduduk (yaitu, tertinggi
pencetak gol pada total tes) juga mencapai jumlah tertinggi yang benar

Halaman 21
Menilai Kualitas Uji Produk: Analisis Butir
273
Tabel 8.8 Representasi grafis dari Item Barang Termasuk
Statistik.
tanggapan pada item tertentu, diikuti oleh kelima berikutnya yang mencapai
nomor berikutnya tertinggi jawaban yang benar, dan sebagainya, sampai yang
terendah
kelima ditampilkan mencapai jumlah terendah respon yang benar. Untuk sebuah
Kelompok-direferensikan interpretasi, item ini tampaknya berperilaku sangat baik
karena salah satu akan mengantisipasi bahwa peserta ujian yang paling mampu dalam
diuji membangun juga akan memiliki proporsi terbesar yang benar pada setiap
item tertentu Notice also that the lower-ability groups increasingly
chose an incorrect response alternative.
Table 8.9 similarly displays data for a different item. Notice, here that
the item is not performing very well and needs to be revised. Seperti bisa

Halaman 22
274
Constructing Test Items
seen, no examinee, regardless of ability, selected distractor A. It adds no
information to the test and should be dropped or modified. Juga, lebih
examinees at every level of ability selected response alternative C rather
than the intended correct response, B. This could indicate poor wording.
And, as shown in the graphical representation, the two lowest achieving
groups outperformed the highest achieving group. This is a clear sign to
examine the item for confusing wording or for observing the phenomenon
of proactive inhibition (a concept discussed in Chapter 4). Dalam kedua kasus
tersebut,
item ini membutuhkan perbaikan besar. Ini menunjukkan, bagaimanapun, contoh
penggunaan
representasi grafis dan analisis numerik untuk meningkatkan item.
Tabel 8.9 Representasi grafis dari item buruk Pertunjukan.

Halaman 23
Menilai Kualitas Uji Produk: Analisis Butir
275
Item Diskriminasi Indeks
Diskriminasi adalah konsep penting lain untuk menilai kualitas
item. Sebenarnya, kami sedang memeriksa diskriminasi untuk item dalam preced-
yang
ing bagian, tetapi mungkin belum konseptual dipahami. Discrimina-
tion untuk item dapat konseptual dipahami sebagai hubungan antara
kesulitan item dan kemampuan peserta ujian. Sederhananya, barang
diskriminasi adalah indeks untuk menentukan perbedaan antara individu
peserta ujian pada subyek atau konstruk psikologis yang dinilai.
Hal ini bergantung pada asumsi yang mendasar, yaitu bahwa peserta ujian yang
pameran penguasaan kemampuan subjek atau tinggi dalam construct yang dianggap
menjadi lebih mungkin untuk menjawab setiap item tertentu tentang subjek itu atau
membangun dari peserta ujian yang menunjukkan penguasaan rendah atau
kemampuan. Sebaliknya,
item yang baik semua peserta ujian merespon dengan benar atau semua peserta ujian
terjawab tidak membeda-bedakan. Item yang tidak membeda-bedakan yield ada
informal
mation tentang perbedaan antara individu.
Secara matematis, diskriminasi item yang mendefinisikan kesulitan item sebagai
fungsi dari kemampuan terperiksa penduduk dalam construct menjadi sebagai-
sessed. Dengan kata lain, diskriminasi terkait dengan kesulitan untuk khususnya untuk
para a
kemampuan lar. Hubungan dapat dengan mudah dilihat dengan memeriksa graphi-
yang
cal representasi dari empat item. Angka 8,2-8,5 tampilan grafis seperti
representasi dari item pada empat tingkat diskriminasi barang: dis- tinggi
Gambar 8.2. Karakteristik item tes yang sangat diskriminatif.
Halaman 24
276
Membangun Uji Produk
Gambar 8.3. Karakteristik dari cukup membedakan
soal tes.
dakwa, diskriminasi moderat, tidak ada diskriminasi, dan negatif
diskriminasi.
Item diwakili dalam Gambar 8.2 biasanya akan dianggap sebagai
Item yang baik karena sangat diskriminatif. Ini membedakan antara
peserta ujian yang kemampuan tinggi dan mendapat item yang benar dan orang-orang
yang
lebih rendah dalam kemampuan dan tidak merespon dengan benar untuk
item. Perhatikan pada 8.2
bahwa sebagai kemampuan terperiksa meningkat, ada peningkatan yang sesuai dalam
kesulitan. Data yang ditampilkan sebelumnya dalam Tabel 8.4 akan untuk ini sangat
Item diskriminatif.
Gambar 8.3 menyajikan data untuk item yang mendiskriminasikan cukup
baik. Ini menunjukkan perbedaan di antara peserta ujian tapi tidak setajam item
di 8.2.
Gambar 8.4 menampilkan representasi grafis dari item yang tidak menunjukkan
diferensiasi antara berprestasi tinggi dan rendah. Mungkin, ini adalah item
yang baik semua peserta ujian mendapat benar atau semua salah. Biasanya, barang-
barang seperti
tambahkan sedikit atau tidak ada informasi untuk tes dan ditolak. Namun, nol
item diskriminatif tidak boleh ditolak ringkasnya. ada beberapa
item yang menilai kemampuan sangat penting untuk tujuan tes tertentu yang
harapkan semua peserta ujian untuk merespon dengan benar.

Halaman 25
Menilai Kualitas Uji Produk: Analisis Butir
277
Gambar 8.4. Karakteristik item tes non-diskriminatif.
Gambar 8.5. Karakteristik dari negatif membedakan
soal tes.

Halaman 26
278
Membangun Uji Produk
Akhirnya, Gambar 8.5 adalah representasi grafis dari negatif dis-
Item criminating. Dalam item jenis ini, lebih-kemampuan rendah ujian an-
swered item tertentu ini benar daripada tinggi kemampuan orang. Ini
biasanya berarti bahwa item tersebut buruk worded atau dalam beberapa cara
membingungkan untuk
peserta ujian yang memiliki pengetahuan yang lebih besar dari konten. Di sini, ada
kemungkinan
bahwa penghambatan proaktif beroperasi untuk item tersebut. negatif discriminat-
item ing hampir selalu membutuhkan perbaikan oleh penulis, atau mereka harus
dibuang.
Meskipun, secara umum, diskriminasi adalah barang yang positif di-
upeti, penilaian harus digunakan dalam menentukan ketika mendiskriminasikan
barang
secara optimal. Dalam beberapa mudah penguasaan-jenis item, adalah tepat untuk
barang yang akan
yang sangat membedakan di hanya satu tingkat kemampuan, seperti yang terlihat di
awal
contoh item pada uji sertifikasi sebuah maskapai penerbangan pilot di mana examin-
EES diminta untuk mengidentifikasi frekuensi siaran radio yang digunakan oleh
control tower di Bandara Internasional Los Angeles. Di lain waktu, sangat
item yang baik dapat membedakan kurang restrictively.
Namun, penilaian tersebut tentang diskriminasi optimal bisa sewenang-wenang
tanpa bimbingan. Untungnya, beberapa prosedur statistik yang tersedia
yang dapat mengukur diskriminasi item. Ini sangat berguna
statistik dalam analisis item karena mereka sering akan memandu penulis barang ke
item tertentu yang membutuhkan perbaikan.
Point-Biserial Ukur Korelasi
Satu indeks diskriminasi adalah titik-biserial coeffi- korelasi
cient. Sebagai ukuran korelasi, estimasi koefisien point-biserial
derajat hubungan antara dua variabel: item tes tunggal dan
skor total tes. Seperti sebelumnya, untuk sebagian besar tujuan dari analisis item, total
tes
skor dianggap sebagai ukuran yang wajar dari kemampuan peserta ujian. Hal ini
sering terjadi
satu-satunya ukuran kemampuan tersedia untuk penulis item ketika dia atau dia
mengingat kualitas item. Ketika item tes secara inheren dichoto-
MoU (yaitu, mencetak hanya satu dari dua kategori mungkin, seperti benar atau
salah) dan total nilai tes secara inheren terus menerus (yaitu,
Skor berkisar dari rendah ke tinggi), statistik titik-biserial yang paling berguna untuk
memeriksa kinerja relatif dari item antara dua kelompok.
Estimasi point-biserial korelasi adalah momen-produk korelasi yang
Koefisien tion. Untuk memahami istilah ini dan keuntungan untuk menganalisis
item, salah satu harus menyadari bahwa saat ini dianggap sebagai standar nilai
penyimpangan tentang mean. Menyimpang sendiri disebut sebagai
Halaman 27
Menilai Kualitas Uji Produk: Analisis Butir
279
saat pertama distribusi; yang menyimpang kuadrat adalah mo- kedua
Ments; menyimpang potong dadu adalah ketiga; Dan seterusnya. Sejak skor standar
memiliki rata-rata nol, satu skor standar dari mean adalah yang pertama
menyimpang. Dengan pendekatan konseptual ini, dan dengan kalkulus, coef- point-
biserial
ficient korelasi adalah asosiasi dari dua set nilai standar. Itu
Keuntungan dari pengaturan ini data adalah bahwa hubungan antara
skor butir dan skor tes total pada dasar umum sehingga mereka mungkin
arti berkorelasi.
Dengan statistik ini, penulis barang dapat mengukur nilai diskriminatif
dari item tes. Sebagai contoh, perhatikan data yang ditampilkan pada Tabel 8.10. Sini,
beberapa item tes disusun dalam urutan kesulitan mereka. Itu
Nilai diskriminasi untuk setiap item, sebagaimana ditetapkan oleh titik-biserial
statistik, juga dikutip. item secara umum, dengan tinggi point-biserials
yang lebih tinggi diskriminatif. Sebaliknya, item dengan relatif rendah
Titik-biserials kurang diskriminatif. Sebagai praktik umum, item dengan
negatif titik-biserials yang baik dijatuhkan dari pertimbangan lebih lanjut atau
direvisi.
penulis Item akan menggunakan informasi yang dihasilkan oleh titik-biserial
korelasi dalam hubungannya dengan p nilai-nilai untuk menguji kualitas khususnya
untuk para
Tabel 8.10 Kesulitan dan Diskriminasi untuk Test Hipotesis
Barang
P-Nilai
Point-Biserial
3
1
16
9
2
11
15
8
8
14
.94
.86
.75
.73
.68
.62
0,60
0,55
.51
0,28
-.09
.06
.12
.45
.15
-.21
.31
.46
.45
-.21

Halaman 28
280
Membangun Uji Produk
item lar. Bila item memiliki indeks kesulitan dalam jangkauan yang dianggap
yang sesuai untuk tujuan tes (sering,
dan relatif
sangat diskriminatif, item tersebut dinilai tidak sehat. Misalnya, pemberitahuan
in Table 8.10 that the first item (test item #3) is too easy for our criterion
and also discriminates poorly. Hence, this item is diagnosed as flawed and
needs review. Item #14, the most difficult item in the set, also needs
ulasan. It is apparently confusing to most examinees since the few examin-
ees who got the item correct came from no apparent ability group. Item #9,
however, seems to be operating well; its difficulty is within the acceptable
range, and its relative discriminating power is high.
In using the point-biserial coefficient of correlation for item analysis,
it is often helpful to contrast the coefficient for the correct response
alternative with that of the distractors. Accordingly, computing this statis-
tic for each of the response alternativesthe correct response as well as
the distractorsis commonly done. Discrimination for a single item is
presumed to exist if the coefficient for the correct response is a positive
number while the same statistic for the incorrect response alternatives is
negatif. Table 8.11 displays the statistics for a test item that exhibits this
keadaan. By this criterion, it is a good test item since it exhibits a high
level of discrimination.
Shortcomings of the Point-Biserial Estimate
Despite the fact that the information yielded by the point-biserial
correlation is often used in item analysis, the statistic is not problem-free.
With only casual analysis, one can realize that the particular item score
being analyzed has itself contributed to the total test score, or ability
mengukur. This leads one to wonder whether the information is actually
spurious and may therefore be misinterpreted. Logically, this point is
correct, but in practice it is not a serious problem since the effect of a single
item on the total score for a set of items is minimal, especially when the
number of items is comparatively large, say, 25 or more.
When very precise estimates are required, or when the number of
items is fewer than 25, the point-biserial estimate may be corrected for
spuriousness. The formulas for calculating the correction are not espe-
cially complex, but they are computationally long, and they are seldom
employed for the purposes of item analysis. (They are used in some
multivariate analyses.) Therefore, they are not described here; instead, the

Halaman 29
Judging the Quality of Test Items: Item Analysis
281
Table 8.11 An Item Displayed with P-Values and Point-
Biserial Indices
top fifth
next fifth
next fifth
next fifth
lowest fifth
nilai p
point-biserial
SEBUAH
21
15
30
46
50
.12
-.14
B
3
4
11
23
38
.06
-.20
193
145
161
131
84
.54
.29
D
47
59
83
87
81
.27
-.11
omits
0
0
0
0
1
correct response
interested reader may readily find them in any of several sources (eg,
Allen & Yen, 1979; Henrysson, 1963; Nunnally, 1978; Thorndike, 1982).
A further problem with the point-biserial correlation coefficient is that
when the distribution of scores in the total test group is continuous, the
range for the statistic is restricted to less than +1 and greater than -1. Di
fact, the point-biserial range is a function of the point at which the ability
groups are split. This anomaly of numbers can be most easily compre-
hended when one considers the point mentioned above that very easy items
and very difficult items provide relatively little differentiation between
high-ability examinees and low-ability examinees. Despite these technical

Halaman 30
282
Constructing Test Items
limitations (which will be elaborated upon momentarily), the statistic
remains useful for item analysis and is the generally preferred statistic for
examining item discrimination by traditional item analyses.
The Biserial Estimate of Correlation
Another statistic that can be used for analyzing items for discrimina-
tion is the biserial estimate of correlation. It is closely related to the point-
biserial correlation, with an important difference. The distinction between
these two measures exists in the assumptions. Whereas the point-biserial
statistic presumes that one of the two variables being correlated is a true
dichotomy, the biserial estimate of correlation assumes that both variables
are inherently continuous. Further, the assumption is made that the distri-
bution of scores for both variables is normal. For computational purposes,
however, one of the variables has been arbitrarily divided into two groups,
satu rendah dan tinggi lainnya. Dalam analisis item, kedua kelompok yang peserta
ujian
yang menanggapi dengan benar untuk item tertentu dan mereka yang tidak.
Untuk tujuan praktis dalam analisis item, kekuatan statistik ini terletak
pada kemampuannya untuk mengatasi keterbatasan statistik point-biserial
dibahas di atas. Ketika dapat diasumsikan bahwa konstruk yang dinilai
biasanya didistribusikan di antara penduduk ujian, kisaran biserial
terbatas dari -1 sampai +1 benar-benar. Ini berarti bahwa peserta ujian baik
kemampuan yang sangat rendah atau kemampuan yang sangat tinggi baik diwakili
dalam korelasi yang
estimasi tional. Jadi, jika penulis sedang mempertimbangkan item pada ekstrem
kisaran kesulitan, estimasi biserial korelasi lebih disukai untuk
Titik-biserial statistik.
Phi Koefisien
The koefisien phi korelasi adalah perkiraan lain dari korelasional
hubungan yang dapat digunakan untuk menganalisis item tes. Seperti korelasi yang
lainnya
tion koefisien, ia menghasilkan perkiraan antara 1 dan -1. Namun, itu
berbeda dari dua estimasi korelasi dibahas sebelumnya karena
mengasumsikan dikotomi asli di kedua variabel berkorelasi. Itu
Fokus utama dari koefisien phi adalah untuk menentukan tingkat associa-
tion antara item dan beberapa kriteria, seperti beberapa fitur program
jenis kelamin, atau beberapa karakteristik demografis lainnya.
Selama analisis item, seringkali mudah untuk mengkorelasikan dua item,
memberikan efek memperlakukan setiap item sebagai kriteria untuk item
lainnya. Untuk
analisis ini, perlu untuk menyajikan data untuk dua item dalam hal
Halaman 31
Menilai Kualitas Uji Produk: Analisis Butir
283
distribusi proporsi-respon bersama untuk dua item. tabel 8.12
menampilkan data ini untuk dua item di mana 30 persen dari peserta ujian mendapat
kedua item yang benar dan 20 persen menjawab item tidak benar.
Untuk item menganalisis, nilai koefisien phi terletak pada utilitas untuk
membandingkan tingkat stabilitas di respon untuk item yang sama dengan examin-
EES di berbagai titik dalam waktu. Sebagai contoh, jika penulis item yang ingin
mempertimbangkan apakah beberapa variabel seperti jenis kelamin secara korelasi
terkait dengan
bagaimana sekelompok peserta ujian melakukan item matematika dari berbeda uji
administrasi, koefisien phi adalah statistik yang sesuai. Informasi ini-
mation ini sangat berguna untuk penulis ingin meningkatkan item pada tes
yang mengalami revisi.
Tabel 8.12 A Four kali lipat meja Menyajikan Responses to a
Satu Butir Diperintah Dua Times.
Menggunakan Koefisien Phi Dengan Pra dan Grup Post-Diinstruksikan
Salah satu teknik dari item menganalisa adalah untuk membandingkan kinerja
dua kelompok pada item yang sama. Satu kelompok yang dipilih sebagai kriteria
Kelompok-yaitu, sebuah kelompok yang tepat yang satu mengharapkan untuk dapat
merespon dengan benar. Dalam kasus penguasaan pembelajaran yang spesifik, kriteria

Halaman 32
284
Membangun Uji Produk
kelompok akan menjadi kelompok yang telah menerima instruksi. Untuk setiap item,
kemudian,
kinerja kelompok uninstructed dibandingkan terhadap bahwa dari
kelompok kriteria. Idealnya, kedua kelompok akan diuji secara bersamaan, dan
satu-satunya perbedaan antara mereka akan menjadi instruksi spesifik. Itu
koefisien phi dapat diterapkan untuk menganalisis perbedaan antara kelompok.
Teknik ini telah digunakan untuk beberapa waktu (misalnya, Cronbach & Meehl,
1955; Klein & Kosecoff, 1976; Millman, 1974b); Namun, ia memiliki substan-
keterbatasan esensial. Pertama, dan mungkin yang paling jelas, adalah kenyataan
bahwa jarang
program instruksional dengan baik diorganisir sekitar satu set jelas
tujuan menjelaskan bahwa penulis item yang bisa mengidentifikasi dua tepat
kelompok. Ini adalah masalah membangun kriteria.
Kelemahan kedua adalah kesulitan prosedural pengujian dua
kelompok serupa, salah satunya telah menerima instruksi sementara yang lain
tidak punya. Hal ini dapat menyebabkan penyesuaian di mana kelompok yang sama
diuji
sebelum dan lagi setelah instruksi. Namun, penyesuaian ini memperkenalkan
panjang, dan sering tidak praktis, penundaan antara pencobaan. Meskipun kesukaran
ini
kesulitan-, ketika sebuah kriteria dapat cukup diatur dan kelompok sesuai yang
tersedia, ini adalah teknik yang kuat untuk menganalisis item.
Kekurangan dari Phi Koefisien Korelasi
Salah satu keterbatasan terutama signifikan dari koefisien phi terjadi
karena perkiraan ini korelasi, seperti kerabat titik-biserial dan
langkah-langkah biserial asosiasi, berasal dari Pearson tradisional
koefisien korelasi. Karena semua momen-produk korelasi yang mantan-
ditekan dalam bentuk nilai standar, dua variabel dengan identik
nilai standar tentu akan berkorelasi dengan sempurna. Oleh karena itu, phi coeffi-
sien akan selalu persis 1,00 ketika p- nilai untuk kedua kelompok adalah
sama.
PARAMETER ITEM
Telah ditekankan di seluruh buku ini bahwa pandangan modern
item tes menganggap tidak hanya isi pelajaran tertentu ditangani oleh
item, tetapi juga konstruk psikologis yang peserta ujian harus mempekerjakan untuk
menyelesaikan masalah. Pembahasan tujuan untuk item tes dalam Bab
2 menyediakan perawatan menyeluruh alasan untuk pendekatan ini, dan
kebanyakan dari Bab 3 dikhususkan untuk penjelasan tentang menempatkan teori ini
dalam

Halaman 33
Menilai Kualitas Uji Produk: Analisis Butir
285
praktek. Teori ini dari pendekatan sifat laten untuk pengujian memiliki kebetulan
efek untuk analisis item: kemampuan untuk menyajikan item tes grafis dalam
cara yang memudahkan untuk melihat beberapa karakteristik penting simultane-
ously. Hal ini dilakukan dengan pemetaan garis jejak item, atau fungsi, untuk
item tes. Secara teknis, Angka 8,2-8,5 dalam bab ini dapat dianggap
Item baris jejak, tetapi pada butir praktik garis jejak lebih sering dihitung
untuk item dianalisis dengan pendekatan sifat laten.
Baris item jejak biasanya disebut barang kurva karakteristik (ICC),
dan mereka menyajikan informasi tentang satu, dua, atau tiga parameter, atau
batas-batas matematika, untuk setiap item. Secara umum, param- ini
eters adalah
1.
2.
3.
Parameter A, menunjukkan kecuraman dari item baris jejak dan
mewakili probabilitas bereaksi dengan benar untuk item
meningkat sebagai salah satu naik skala sebagai ukuran diskriminasi
di antara berbagai tingkat kemampuan,
Parameter B, mendefinisikan kesulitan item dengan mencatat titik
di mana variabel laten (misalnya, konstruk psikologis) jatuh-ini
juga pergeseran kiri ke kanan kurva-dan, kadang-kadang,
Parameter C, menunjukkan awal, atau dasar, kurva, suggest-
ing kemungkinan menebak (juga disebut kebetulan atau pseudo
kesempatan) respon yang benar pada item untuk sangat-rendah-kemampuan exam-
inees.
Meskipun barang kurva karakteristik yang singkat disebutkan dalam Bab
2, akan berguna untuk menampilkan beberapa kurva di sini dimaksudkan untuk
memeriksa parameter item tertentu. Gambar 8.6 menyajikan butir a
kurva karakteristik. Perhatikan bahwa grafik plot persen sukses di sepanjang
ordinat (sumbu Y) dan atribut terperiksa (viz., kemampuan) sepanjang
absis (sumbu X). Tiga fitur lain dari catatan adalah: 1) kemiringan kurva setiap
monoton, yang, selalu naik dan tidak pernah persis horisontal; 2) sebuah
Belok point (yang dapat ditunjukkan dengan menggambar garis horizontal dari
titik pada kurva dengan sumbu Y) ditentukan oleh pergeseran kiri-ke-kanan
kurva (Parameter B); dan 3) dua asimtot, bawah dan atas, mungkin
mendekati tetapi tidak pernah benar-benar mencapai 0.00 dan 1.00 masing-
masing. Item jejak
baris secara teknis disebut sebagai ogive yang normal monoton. Ogives hanyalah
sebuah
representasi grafis khusus dari distribusi frekuensi.
Karena semua tiga fitur-diskriminasi, kesulitan, dan menebak-nebak
(Atau pseudo-kesempatan) -untuk item secara bersamaan dapat ditampilkan graphi-

Halaman 34
286
Membangun Uji Produk
Gambar 8.6. baris jejak untuk satu item.
Cally, ICCs sangat berguna untuk menganalisis item. Dengan demikian, itu akan
instruktif untuk memeriksa kurva untuk beberapa item sehingga perbedaan
di antara mereka dapat dicatat dan utilitas mereka dibahas. Gambar 8.7 menampilkan
ICCs untuk dua item yang mirip dalam banyak hal tetapi berbeda dalam
kesulitan.
Perhatikan pada gambar bahwa item 1 dan 2 memiliki bentuk yang sama,
menunjukkan
bahwa dua item diskriminasi pada tingkat yang sama; Namun, karena
kurva untuk item 2 digeser lebih ke kanan dari itu untuk item 1, item 2
mendiskriminasikan pada tingkat yang lebih tinggi dari kemampuan. Satu dapat
menyimpulkan, karena itu, bahwa
kedua hal ini memiliki kekuatan diskriminatif sama tapi itu item 2 adalah jauh
Item lebih sulit. Penulis item diberitahu bisa menggunakan informasi ini untuk
memutuskan apakah angka 1 atau item 2 akan sesuai untuk kelompok tertentu
peserta ujian. Misalnya, angka 1 mungkin cocok untuk digunakan dengan
Rata-rata-mencapai ketiga anak kelas, sedangkan angka 2 mungkin hanya tepat
untuk terutama mampu ketiga anak kelas atau mungkin untuk keempat kelas.

Page 35
Menilai Kualitas Uji Produk: Analisis Butir
287
Gambar 8.7. ICC dua barang serupa dari kesulitan yang berbeda.
Berikutnya, memeriksa ICCs untuk dua item yang berbeda, item 3 dan 4, pada
Gambar
8.8 Perhatikan bahwa ICC untuk item 3 sangat datar, menunjukkan bahwa item
mendiskriminasikan sangat sedikit, terlepas dari tingkat kemampuan peserta ujian.
Biasanya, item yang menampilkan karakteristik yang ditunjukkan dalam angka 3
miskin
dan perlu perbaikan atau penghapusan. Terakhir, perhatikan kemiringan sangat curam
dari ICC
untuk item 4. Item ini mendiskriminasikan sangat baik, tapi hanya pada satu titik di
sepanjang
kemampuan kontinum. Dalam keadaan tertentu discrimina- tajam seperti
tion adalah tepat, tetapi lebih sering penulis barang akan mempertimbangkan
kemiringan ini juga
curam untuk membuat perbedaan di antara peserta ujian dan akan memperbaiki atau
membuang
barang itu. Bagi kebanyakan tes, penulis butir akan mencari barang-barang yang ICC
adalah dari
halus, bentuk malas-S ditampilkan dalam Gambar 8.7.

Page 36
288
Membangun Uji Produk
Gambar 8.8. ICCs untuk dua item yang berbeda.
Meneliti Barang Curves Karakteristik
dengan Teori Respon Butir
It should be clear from the discussion thus far about item characteristic
curves that they are merely a specialized form of a frequency function and
that they can be computed using the methods described; but, this is not the
only way to compute item characteristic curves. A much more elegant, but
technically complex, approach is to use the rationale and methods of latent
trait theory to examine ICCs. Simply put, latent traits are examinee charac-
teristics, or hypothetical constructs, that cause a consistent performance on
a test of any given cognitive skill or achievement or ability.
Latent trait theories have been developed and applied under several
rubrics, but we shall use the one that most clearly emphasizes the psycho-
logically based nature of latent trait theories, item response theory (IRT). Saya t
adalah dari IRT bahwa item ICC dapat paling bermakna digunakan dalam butir
pengembangan. Namun, sementara secara teoritis memuaskan, teknik ICC adalah
juga yang paling sulit untuk memahami secara konseptual dan sangat com-

Halaman 37
Menilai Kualitas Uji Produk: Analisis Butir
289
Plex prosedural. pemrosesan komputer data, sering melibatkan besar
sampel peserta ujian, adalah satu-satunya cara praktis metode IRT mungkin
dieksploitasi. Meskipun demikian, dalam contoh-contoh ketika IRT tersedia untuk
penulis item, dapat memberikan data yang kuat untuk analisis item.
Isu yang terlibat dalam teori respon butir terlalu meliputi untuk
rinci di sini, tidak pula algoritma komputasi erat; bukan, fokus
di sini adalah pada pemahaman bagaimana menggunakan ICCs yang telah dihitung
oleh IRT
metode untuk pengembangan item. Beberapa deskripsi yang sangat baik dari teori
dan metode IRT yang tersedia. Sebuah pengantar teknis diberikan oleh
Birnbaum (1968), dan perkembangan dalam teori sifat laten dan terkait
isu yang dibahas oleh Hambleton (1979), dan oleh Hambleton dan
Swaminathan (1985). Sebuah primer dari IRT diberikan oleh Hangat (1978); juga,
sebuah
pengenalan yang sangat baik dengan model IRT disediakan oleh Crocker dan
Algina (1986). Sebagai salah satu dapat dengan mudah membayangkan, tubuh besar
dan berkembang
literatur dikhususkan untuk topik ini penting.
ITEM BIAS
Item Bias adalah topik yang sangat signifikan dalam meninjau item tes untuk
kualitas karena digunakan oleh mereka yang berpendapat bahwa tes tidak adil,
ketidakkonsistenan
stant, terkontaminasi oleh faktor-faktor luar, dan tunduk pada penyalahgunaan dan
penyalahgunaan. Untuk alasan ini, selain fokus pada peningkatan item Star Excursion
Balance Test
sekutu, penulis barang-hati akan membayar perhatian khusus untuk bias dalam
item. Sebagai
dengan banyak konsep lain dalam menulis item, bias bukan sesuatu yang melekat
di item tes; bukan, itu muncul dari sumber tertentu varians error.
Oleh karena itu, mengatasi bias dalam item melibatkan mencari jenis tertentu
varians kesalahan dan kemudian berusaha untuk menghilangkan atau mengurangi
sumber kesalahan.
Selanjutnya, bias dapat berupa internal untuk tes atau eksternal. Bias internal
prihatin dengan karakteristik tertentu dari item, dan itu akan hanya kami
fokus. Bias eksternal lebih soal menentukan penggunaan yang tepat
untuk nilai tes, seperti untuk pemilihan atau penempatan ke dalam program, dan
biasanya melibatkan seluruh tes bukan barang tertentu. Bias eksternal, dengan
definisi, menetapkan skor tes dalam perbandingan statistik dengan
kriteria. Sementara topik yang sangat penting untuk menguji pengembang dan
pengguna tes,
Bias eksternal bukan soal bahwa penulis item langsung dapat mengatasi
tanpa mengacu pada isu-isu yang lebih luas dari seluruh nilai tes dan mereka
referensi untuk langkah-langkah luar; Oleh karena itu, tidak akan dibahas dalam ini
diskusi. Untuk pengobatan menyeluruh bias eksternal, pembaca yang tertarik

Halaman 38
290
Membangun Uji Produk
bisa merujuk ke Jensen Bias di Mental Testing (1980) dan untuk edisi khusus
dari Journal of Pengukuran Pendidikan (1976) ditujukan untuk topik.
Bagi penulis untuk meneliti bias dalam item tes individu dalam bermakna
cara, ia harus memahami sepenuhnya konsep ditutupi oleh istilah dan
juga harus menyadari apa yang tidak termasuk. Untuk memulai, penulis soal harus
memahami bahwa istilah Bias, bila digunakan dalam analisis item, secara konseptual
distinct and operationally different from the concepts of fairness, equality,
prejudice, preference, or any of the other connotations sometimes associ-
ated with its use in popular speech. In item analysis, bias is a technical term
whose meaning will become evident momentarily. The reader interested in
exploring the sociological aspects of bias in tests can consult any number
of books, journals, and periodicals for discussion (eg, Ability Testing:
Uses, Consequences and Controversies, Parts I and II , National Research
Council, Committee on Ability Testing, 1982; and Bias in Mental Testing,
1980).
As has been mentioned, in item analysis bias has a precise, mathemati-
cal definition. According to Osterlind (1983), bias is defined as a system-
atic error in the measurement process. It affects all measurement in the
same way, changing measurementsometimes increasing it and other
times decreasing it.... It is a technical term and denotes nothing more or
less than the consistent distortion of a statistic (p. 10-11).
This mathematical definition for bias may be readily understood when
one examines a common occurrence of systematic distortion at the US
Bureau of Standards, the official store for US measurements. Pada
Bureau, measurements of weight are kept in two metrics: the kilogram and
the K20. It has been empirically determined that these two measures are
not precisely equal. The K20 is estimated to be 19 parts in a billion lighter
than the kilogram. Therefore, all measurements at the Bureau done by K20
are systematically off (or biased) by this very small amount. Sejak beberapa
pengukuran membutuhkan akurasi ekstrim, Biro mengkompensasi ini
Bias pengukuran dengan merevisi pengukuran K20 oleh 19 bagian dalam
milyar. Terlepas dari kompensasi obat, misalnya menunjukkan sistematis suatu
tematik kesalahan dalam pengukuran, atau Bias.
Dalam teori tes, item dikatakan berisi ketika probabilitas
Keberhasilan pada item adalah sama untuk ujian sama-sama bisa terlepas dari
keanggotaan subkelompok tertentu. Dengan kata lain, jika item dirancang untuk
menilai pemahaman bacaan untuk semua kelas lima, dua anak-anak dari
populasi ini yang dari kemampuan yang sama harus memiliki kesempatan yang sama

Halaman 39
Menilai Kualitas Uji Produk: Analisis Butir
291
bereaksi dengan benar untuk item. Karakteristik luar kenyataan bahwa mereka
keduanya kelas lima seharusnya tidak masalah, apakah jenis kelamin, warisan etnik,
atau terserah. Jika anggota satu subpopulasi secara konsisten mencetak gol lebih
rendah atau
lebih tinggi dari anggota subpopulasi lain (dengan asumsi, tentu saja, bahwa
anggota individu antara kelompok memiliki kemampuan yang sama), maka ada
distorsi yang konsisten, dan bias ada.
Satu naif tapi secara luas diadakan gagasan mengenai Bias harus cepat
terhalau: Bias bukan Kehadiran perbedaan skor antara
kelompok. Ini sangat tidak pantas untuk hanya membandingkan p -values antara
dua kelompok, perhatikan bahwa p -nilai untuk satu kelompok lebih tinggi daripada
yang lain,
dan menyimpulkan bias yang hadir. Apakah ini benar, setiap item pada setiap tes
bisa menjadi bias terhadap atau mendukung satu subpopulasi atau yang lain, dan
Bias bisa berulang kali disimpulkan hanya dengan mendefinisikan ulang
kelompok. Itu
logika argumen ini akan memiliki setiap item bias untuk orang tinggi, atau
orang kelebihan berat badan, atau salah satu dari dua jenis kelamin, atau orang dari
satu atau
warisan lain etnis, atau variabel lain yang bisa diberi nama. Ini
pemikiran membingungkan isu bias baik dengan fakta bahwa perbedaan yang nyata
antara kelompok-kelompok yang masih ada, atau dengan kekhawatiran tentang
validitas kurikuler yang
instrumen, kesempatan yang sama untuk mempelajari materi subjek, pelanggaran
standarisasi kondisi pengujian, dan sejenisnya.
Teknik-teknik deteksi bias yang telah berkembang cukup dalam singkat
periode waktu. Tapi kemajuan paling signifikan dari bias-deteksi
strategi disertai meningkatnya minat dalam IRT di akhir 1970-an dan ke
tahun 1980-an. Hari ini, teknik yang melibatkan teori respon butir umumnya
dianggap paling kuat, atau teknis berjasa, pendekatan untuk mende-
ing item yang menunjukkan distorsi yang sistematis (Lord, 1980).
Sayangnya, prosedur ini melibatkan statis- sangat kompleks
tics, membutuhkan program komputer yang sangat canggih yang harus melakukan
sejumlah besar perhitungan, dan sangat sulit diterapkan karena
algoritma matematika membutuhkan ukuran sampel besar dari masing-masing sub
populasi untuk menghasilkan estimasi item-parameter yang stabil. menderita penyakit
akhir ini
tion berarti bahwa untuk pekerjaan deteksi Bias, IRT dapat digunakan dalam hanya
beberapa yang sangat
program pengujian skala besar karena ketika variabel yang akan diselidiki
adalah warisan etnis (kasus biasa), sangat jarang untuk memiliki populasi dengan
jumlah yang cukup dari peserta ujian di masing-masing sub-populasi. Neverthe-
kurang, deteksi item-Bias menggunakan teknik ini adalah penting, bahkan jika hanya
konseptual yang tersedia untuk kebanyakan penulis barang. Oleh karena itu, teknik ini
akan
dijelaskan, jika hanya sebentar. Osterlind (1983) menawarkan lebih lengkap

Halaman 40
292
Membangun Uji Produk
pembahasan teknik ini, serta survei berbagai bias- lainnya
strategi deteksi.
Teknik untuk deteksi IRT item-bias untuk membandingkan berbeda- tersebut
ences di ICCs untuk kelompok. Daerah antara ICCs disamakan adalah
indikasi tingkat bias hadir dalam item. Dengan kata lain, untuk
item tertentu, sebuah ICC dihitung untuk setiap kelompok. Kedua ICCs yang
ditempatkan pada skala yang sama dengan transformasi linear sederhana, dan
kemudian
dibandingkan Metode ini dapat dengan mudah disajikan secara grafis, seperti dalam
Angka
8,9, 8,10, dan 8,11.
Gambar 8.9. Hipotetis barang mensejajarkan kurva karakteristik
untuk dua kelompok yang berbeda di diskriminasi.
Perhatikan dalam Angka 8,9, 8,10, dan 8,11 bahwa dalam setiap contoh hanya satu
butir dianggap. Ada dua ICCs, satu dari setiap subpopulasi.
Setiap tokoh menampilkan item yang beroperasi secara berbeda antara kelompok-
kelompok
untuk alasan yang berbeda. Dalam 8,9, kemiringan berbeda untuk item
mengungkapkan
kinerja diferensial diskriminasi untuk setiap kelompok; di 8.10, kiri yang
ke-kanan pergeseran menunjukkan perbedaan dalam kesulitan untuk setiap
kelompok; dan, di 8.11,
perbedaan ditampilkan di semua tiga parameter untuk masing-masing kelompok.

Halaman 41
Menilai Kualitas Uji Produk: Analisis Butir
293
Gambar 8.10. Hipotetis barang mensejajarkan kurva karakteristik
Informasi ini sangat berguna untuk penulis barang. Tidak hanya itu dikenal
bahwa item melakukan berbeda untuk berbagai kelompok, tetapi sifat
kinerja diferensial terungkap. Dengan pengetahuan tersebut, penulis dapat
menghilangkan item atau memperbaiki mereka, mengetahui di mana mereka harus
fokus mereka
Upaya-apakah untuk membuat item lebih mudah atau lebih sulit, atau mencoba
untuk menghasilkan item yang lebih tinggi membedakan antara tingkat kemampuan,
atau mencoba untuk mengurangi efek menebak untuk yang sangat rendah-kemampuan
peserta ujian

Halaman 42
294
Membangun Uji Produk
Gambar 8.11. Hipotetis barang mensejajarkan kurva karakteristik
untuk dua kelompok yang berbeda di diskriminasi, kesulitan, dan
pseudochance.

Halaman 43
Menilai Kualitas Uji Produk: Analisis Butir
295
Strategi Bias-Detection sederhana namun tidak lengkap
Salah satu yang sangat sederhana, meskipun tidak lengkap, teknik untuk mendeteksi
bias dalam
item membandingkan peringkat dari nilai-nilai kesulitan butir antara dua kelompok.
Jika item untuk kedua kelompok tidak peringkat sama, diferensial sebuah perfor-
Mance dapat disimpulkan. Perlu dipahami, bagaimanapun, bahwa membandingkan
rank order of item-difficulty indices between groups is an incomplete
strategy for concluding bias exists in test items. It is, nevertheless, a useful
technique as an early indication of whether particular items behave differ-
ently between groups. And, it is one that item writers can use for prelimi-
nary examination of particular items.
To set up the procedure of relative rankings for items, the p -value
rankings for each of two or more groups are computed. These values are
placed side-by-side to facilitate comparisons (Table 8.13).
Table 8.13 Rank Order of Item Difficulty for a Hypothetical Test
Barang
1
2
3
4
5
p =.40.
Rank Order for Item
Group I (p-value)
3rd (p = .62)
1st(p = .93)
4th (p = .55)
2nd(p=.71)
5th (p = .28)
Rank Order for Item
Group II (p-value)
2nd (p = .64)
1st(p = .81)
3rd(p = .51)
5th(p=.19)
4th (p = .38)
Misalkan data untuk tes lima-item didistribusikan seperti di 8.13. Melihat
dalam tabel yang item 2 adalah yang paling mudah untuk kedua kelompok, terlepas
dari fakta
bahwa persentase jauh lebih tinggi dari peserta ujian di Grup I menanggapi
benar daripada peserta ujian di Grup II (yaitu, PI = 0,93 vs PII = 0,81). Itu
pola untuk tanggapan, bagaimanapun, tidak dilanjutkan untuk item 4. Item ini
hanya kedua dalam kesulitan peringkat untuk kelompok I, tetapi yang paling sulit
semua item dari Grup II. Dengan demikian, kecurigaan dinaikkan bahwa Butir 4 tidak
tidak berperilaku sama antara kedua kelompok. Bias dapat hadir di
Item untuk gelar yang secara konsisten meremehkan kinerja
Kelompok II. Semua barang-barang lainnya muncul untuk peringkat dalam pola yang
sama untuk kedua kelompok,

Halaman 44
296
Membangun Uji Produk
sehingga tidak ada item lain diduga aberrance.
Sebuah rank-order koefisien korelasi, biasanya Spearman rho, be-
Tween dua set nilai-nilai dapat dihitung untuk konfirmasi lebih lanjut dari
aberrance. Untuk korelasi semacam ini, orang akan mencari korelasional
perkiraan 0,8 atau lebih tinggi untuk menilai kesamaan dalam peringkat dari item-
Nilai kesulitan antara kedua kelompok. Dalam contoh, koefisien
korelasi adalah 0,40. Tingkat relatif rendah korelasi mendukung
kecurigaan bias dengan metode ini. (Tentu saja, data ini dihitung hanya untuk
ilustrasi, dan terdistorsi oleh sangat sedikit item yang dipertimbangkan.)
Mantel dan Haenszel (1959) menyarankan prosedur dengan lebih techni-
Kelebihan cal yang melibatkan menerapkan statistik chi-square untuk kelompok
cocok.
Meskipun pekerjaan mereka muncul di awal literatur bias-deteksi
pendekatan, nilainya tidak sepenuhnya diakui sampai saat ini. Ini mungkin
karena fakta bahwa meskipun prosedur Mantel-Haenszel cukup
sederhana, ia menyediakan pendekatan yang kuat dari metode IRT de-
jelaskan di atas.
Keuntungan lain dari prosedur Mantel-Haenszel (cf. Belanda dan
Thayer, 1986) adalah bahwa hal itu melibatkan perhitungan hanya chi-square
statistik dan, karena itu, tidak terbatas seperti IRT untuk menggunakan hanya dengan
sangat besar
kelompok peserta ujian. The chi-square pendekatan yang diusulkan oleh Marascuillo
dan Slaughter (1981), yang juga didasarkan pada statistik chi-square dan
sangat mirip dengan Mantel-Haenszel, menawarkan keuntungan yang sama.
Prosedural, salah menetapkan strata dari kelompok kemampuan berdasarkan total
skor tes dengan mempertimbangkan poin melanggar alami dalam total populasi
distribusi skor. Biasanya, tiga atau empat kemampuan strata ditetapkan.
Jumlah orang dari setiap subpopulasi dipertimbangkan yang
berlalu dan gagal item kemudian ditentukan. frekuensi ini kemudian
diatur dalam serangkaian 2 X 2 tabel kontingensi. Tabel 8.14 menampilkan data untuk
distribusi hipotetis skor yang telah dipecah menjadi empat kemampuan
lapisan.
Statistik chi-square kemudian dihitung dan diuji untuk signifikansi.
Jika nilai signifikan di atas kesempatan dicapai, barang diferensial perfor-
Mance disimpulkan. Item kemudian harus dibuang atau dikerjakan ulang.
Dengan demikian, memeriksa barang untuk bias penting untuk penulis barang. Saya t
menyediakan informasi yang dapat membantu dalam mengidentifikasi item miskin,
dan
dapat memberikan petunjuk tentang bagaimana item tertentu dapat
ditingkatkan. terampil
penulis Item akan menggunakan strategi bias-deteksi ini untuk keuntungan saat
melakukan analisis item.

Halaman 45
Menilai Kualitas Uji Produk: Analisis Butir
297
Tabel 8.14 Tabel Kontingensi untuk Dua Kelompok di Four Jumlah
Skor Interval pada Satu Item Uji
Pendekatan menghakimi ke Bias Deteksi
Selain definisi matematika bias dijelaskan dalam
sebelumnya bagian, penulis harus peka dalam penggunaan nya bahasa untuk
jender, budaya, etnis-warisan, dan perbedaan lainnya. Bahasa yang mungkin

Halaman 46
298
Membangun Uji Produk
menyinggung orang baik jenis kelamin atau orang dari setiap etnis warisan atau
kelompok agama mungkin tidak menampakkan perbedaan numerik dan bisa pergi
terdeteksi oleh pendekatan statistik untuk mendeteksi bias dalam item. Lebih lanjut,
mengubah peran untuk orang memaksa perubahan dalam bahasa. Sebagai contoh,
pada satu
waktu itu hampir universal merujuk ke dokter dengan maskulin
kata ganti dia dan perawat dengan feminin dia. Perbedaan tersebut tidak
lagi berlaku. Atau, penyandang cacat fisik yang pernah disebut
cacat Hari ini, sikap yang lebih tercerahkan secara umum berlaku, dan
istilah seperti penyandang cacat lebih disukai. Bab 5 mengutip sumber
untuk yang satu dapat mengubah untuk informasi lebih lanjut tentang mengurangi
ofensif dan
bahasa stereotip.
Adalah penting bahwa penulis barang mengumpulkan perbedaan pendapat representa-
tive dari dua jenis kelamin, orang dari berbeda warisan etnis, dan
kelompok lain untuk mengatasi masalah sensitivitas dalam bahasa. Kajian tersebut
Proses tidak memerlukan metodologi yang kompleks. Dalam kebanyakan kasus,
untuk
tujuan memperbaiki item, itu cukup untuk memiliki orang yang mewakili
sudut pandang yang relevan meninjau item informal, terutama di jujur, terbuka
diskusi. Ini tidak berarti tinjauan tersebut harus serampangan. Itu
pengulas perlu kriteria. Kriteria mungkin daftar membimbing-pertanyaan
tions, seperti berikut: Apakah bahasa menyinggung baik jenis kelamin, atau
orang dari berbagai warisan etnis, atau orang lain ?; Apakah Ste-bahasa
reotype baik jenis kelamin atau orang dari berbagai warisan etnis, atau orang lain ?;
Apakah bahasa mengatur nada yang mencerminkan out-of-date sikap baik untuk
jenis kelamin atau orang dari berbagai warisan etnis, atau orang lain ?.
seperti ini review kemungkinan akan menghasilkan penulis, yang mencoba untuk
meningkatkan bahasa item yang lebih berguna informasi jika dikumpulkan
melalui diskusi, daripada meminta pengulas untuk menyelesaikan formulir. Kapan
seperti diskusi dilakukan dalam semangat meningkatkan bahasa, item
penulis biasanya akan menemukan para pengulas berharga dalam mengurangi
semacam ini
bias dalam item tes.
KESIMPULAN
Hal itu disampaikan pada awal bab ini bahwa membangun tes
item tidak lengkap sampai item telah sepenuhnya diteliti untuk nya
kualitas. Bab ini memberikan penulis dengan alat yang diperlukan untuk seperti
pengawasan. Seperti yang bisa dilihat, alat ini termasuk teknik melakukan
Studi validasi relevan dengan penyusunan item, serta metode

Halaman 47
Menilai Kualitas Uji Produk: Analisis Butir
299
untuk mendefinisikan item dalam istilah matematika sehingga mereka dapat diperiksa
oleh
statistik yang sesuai.
Ketika alat ini dipahami, penulis item yang akan dipersiapkan untuk
mengukur atau pekerjaannya; ketika alat-alat yang benar digunakan, penulis akan
telah mengambil langkah yang sangat penting dalam mengidentifikasi item tes yang
baik dan yang buruk
yang. Ketika item yang baik diakui dan item miskin dihapus
atau ditingkatkan, penulis akan mengambil langkah terakhir dalam panjang dan
perjalanan yang sulit membangun item tes yang baik.
Bab berikutnya adalah salah satu menyimpulkan. Ini berfokus kurang pada tertentu
membangun item tes dari pada membahas beberapa menyeluruh mempertimbangkan-
negosiasi, terutama masalah etika dan hukum untuk penulis barang.

Anda mungkin juga menyukai