PENGENALAN
Anda telah melalui pembinaan item ujian di Topik 4. Sekarang ini selepas item dibina dan
ujian digubal, analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian
yang dihasilkan itu sesuai digunakan. Analisis item membolehkan anda menilai kesesuaian
item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu
sukar bagi sesuatu kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkan
keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepas
membuat analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina)
untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh ujian tersebut dan juga apakah
sebenarnya yang diukur oleh ujian ini. Analisis-analisis ini akan menghasilkan pekali/indeks
yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan
Ujian dan Indeks Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yang
dihasilkan adalah sesuai/sah bagi sesuatu tujuan tertentu.
OBJEKTIF
Diakhir tajuk ini, anda seharusnya dapat:
PETA MINDA
90 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks kesukaran item
(item difficulty index) (p). Indeks ini dapat menunjukkan aras kesukaran sesuatu item, iaitu
sama ada sesuatu item itu mudah dijawab atau susah dijawab. Bagi ujian berbentuk objektif
(betul/salah, isi tempat kosong, padanan, beraneka pilihan), indeks ini dikira dengan
menggunakan nisbah bilangan calon yang memberi jawapan betul bagi item tertentu kepada
jumlah calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan berikut:
Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada
sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi soalan ini ialah 30/40
= 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada seorang pelajar pun dapat
menjawab dengan betul, maka nilai p akan menjadi 0 (soalan amat sukar), tetapi jika semua
pelajar dapat menjawab dengan betul, nilai p akan menjadi 1 (soalan terlalu mudah). Justeru,
item yang sukar mempunyai nialai p yang rendah, sebaliknya item yang mudah mempunyai
nilai p yang tinggi, seperti yang ditunjukkan dalam Rajah 5.1 di bawah.
Latihan 5.1
OUM 91
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu diingatkan bahawa
soalan yang terlalu mudah (p > 0.85) atau soalan yang terlalu sukar (p < 0.15) tidak dapat
memberikan maklumat psikometrik (ukuran psikologi) yang bermakna. Ini adalah disebabkan
soalan yang terlalu mudah akan dapat dijawab oleh hampir semua pelajar, sementara soalan
yang terlalu sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalan
tidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang lebih tinggi
keupaayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti
yang ditunjukkan dalam Jadual 5.1.
Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab
sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan
betul, lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab dengan betul oleh 85%
pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50%
pelajar akan mempunyai nilai p = 0.50. Sebaliknya, indeks kesukaran item boleh memberi
jangkaan peratus pelajar yang dapat menjawab item tersebut dengan betul. Misalnya, jika
indeks kesukaran bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawab
item tersebut dengan betul.
Sebagai ingatan, nilai p merupakan nilai yang relatif kepada sesuatu kumpulan pelajar yang
mengambil ujian. Nilai ini boleh berubah mengikut keupayaan kumpulan pelajar tersebut, dan
seterusnya boleh berubah sekiranya kumpulan calon yang sama menduduki ujian kali kedua.
Sebagai contoh, item manakah lebih sukar antara “Siapakah Tunku Abdul Rahman Putra Al-
Haj?” dan “Siapakah Tun Dr.Mahathir?”?. Kita tidak boleh menyatakan item mana yang lebih
sukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran soalan ini selepas
kita mentadbirkannya kepada sekumpulan pelajar dan mengira nilai p bagi soalan ini.
Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, …; indeks kesukarannya
boleh dikira sebagai nisbah markah purata (markah min) kepada julat markah penuh seperti
berikut (Nitko, 2004: 317):
Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah minimum 0 dan
maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab soalan ini dan mendapat
markah seperti dalam jadual di bawah. Jumlah markah bagi 10 orang pelajar ialah 63.0.
Pengiran indeks kesukaran item ialah seperti berikut:
92 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Markah 6.5 3.5 7.0 2.5 4.5 8.5 9.0 6.5 9.5 5.5 63.0
Berbeza daripada indeks kesukaran item objektif, indeks kesukaran item subjektif dapat
menggambarkan markah purata bagi sesuatu item dalam peratus. Contohnya, markah purata
6.3 (daripada 10) ialah 63% (iaitu sama dengan indeks kesukaran dikalikan dengan 100).
Seterusnya, indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item (akan
dibincangkan kemudian) yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepada
format item. Indeks kesukaran tersebut ialah 0.50 bgi item berjawapan pendek/melengkap,
0.70 bagi item objektif lima-opsyen, 0.74 bagi item objektif empat-opsyen, 0.77 bagi item
objektif tiga-opsyen, dan 0.85 bagi item objektif dua-opsyen (betul/salah) [Lord (1952) dalam
Mehrens & Lehmann (1991)]. Selain itu, Nitko (2004: 323) menyatakan indeks kesukaran
bagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah
antara 0.16 dan 0.84 (iaitu ada item-item mudah, sederhana sukar dan sukar); sementara
bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis)
haruslah mempunyai indeks kesukaran item antara 0.40 hingga 0.60 (item-item sederhana
sukar).
Selain menjadi panduan semasa membina item supaya indeks diskriminasi menjadi
maksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan berikut:
Jadual 5.2: Tujuan Indeks Kesukaran
Tujuan Penerangan
1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-
soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar (soalan sukar);
2 • mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagian
kurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak boleh dikuasai pelajar;
3 • memberi maklum balas kepada pelajar tentang kekuatan dan kelemahan mereka bagi
setiap tajuk pengajaran yang diuji; dan
4 • mengenal pasti soalan yang bias kepada sesuatu kandungan (content bias), seperti
kandungan yang ditekankan semasa pengajaran (misalnya, diberi latih tubi/ulangan).
Latihan 5.2
Satu item subjektif diberi markah minimum 1 dan maksimum 5. Markah lima
(5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran item ini. Adakah
item ini mudah atau susah?
OUM 93
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang berkeupayaan
tinggi, untuk matlamat tertentu, seperti melanjutkan pengajian dalam bidang tertentu. Item/
soalan yang baik akan dapat membezakan/mendiskriminasikan antara mereka yang
berkeupayaan rendah dan yang berkeupayaan tinggi. Indeks yang diguna untuk menentukan
perbezaan keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi boleh
dikira melalui langkah-langkah Mehrens & Lehmann, (1991) dan contoh berikut:
(1) Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar berpencapaian rendah
(27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar
berpencapaian antara terrendah dan tertinggi) dan pelajar berpencapaian tinggi (27%
pelajar berpencapaian tertinggi).
(2) Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian
rendah (RL – Right Lower), bilangan pelajar yang menjawab dengan betul di kalangan
pelajar berpencapaian tinggi (RU – Right Upper) dan jumlah pelajar berpencapaian rendah
dan tinggi (T(L+U) – Total).
(3) Indeks Disckriminasi boleh dikira dengan membahagikan perbezaan (RU – RL) dengan
separuh T(L+U) seperti berikut:
(4) Sebagai contoh, andaikan seramai 200 orang pelajar menjawab soalan tertentu. Setelah
54 orang (27% daripada 200) pelajar berpencapaian tinggi dikenalpasti, didapati 45
orang daripada mereka dapat menjawab soalan tersebut dengan betul (RU = 45).
Seterusnya, daripada 54 orang pelajar berpencapaian rendah, seramai 15 orang dapat
menjawab dengan betul (RL = 15). Dalam contoh ini, jumlah pelajar berpencapaian rendah
dan tinggi ialah 108 orang (T(L+U) = 54 + 54 = 108). Indeks Disckriminasi boleh dikira
seperti berikut:
94 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
(5) Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua pelajar
berpencapaian tinggi dan tiada seorang pun pelajar berpencapaian rendah dapat
menjawab soalan ini dengan betul (RU – RL = 54 – 0 = 54):
(6) Indeks Diskriminasi boleh bernilai 0.00, sekiranya bilangan pelajar berpencapaian tinggi
dan rendah yang dapat menjawab soalan ini dengan betul adalah sama (RU – RL = 0).
(7) Akhirnya, Indeks Diskriminasi boleh bernilai -1.00, sekiranya semua pelajar berpencapaian
rendah dan tiada seorang pun pelajar berpencapaian tinggi dapat menjawab soalan ini
dengan betul (RU – RL = 0 - 54 = -54).
Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks Diskriminasi boleh
bernilai antara -1.00 hingga 1.00. Secara amnya, item yang mempunyai Indeks Diskriminasi
positif menunjukkan pelajar berpencapaian tinggi lebih ramai dapat menjawab sesuatu soalan
dengan betul daripada pelajar berpencapaian rendah. Secara logiknya, kita memang
mengandaikan lebih ramai pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalan
dengan betul berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasi
hampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk Penilaian Rujukan
Norma (PRN) sebab ia dapat membezakan (discriminate) pelajar berpencapaian tinggi/pandai
daripada pelajar berpencapaian rendah/lemah.
Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif yang menghampiri
0.00, soalan-saolan ini dikatakan tidak baik untuk PRN, sebab ia tidak berupaya membezakan
pelajar pandai daripada pelajar lemah. Akhirnya, bagi soalan-soalan yang mempunyai Indeks
Diskriminasi negatif yang menhampiri -1.00, soalan-saolan ini dikatakan tidak baik untuk PRN,
sebab ia secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebih
ramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada pelajar pandai.
Justeru, pembina soalan perlu memperbaiki/menggantikan soalan yang mempunyai Indeks
Diskriminasi yang rendah atau pun negatif. Sebagai panduan, aras kesukaran item boleh
ditafsirkan mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.3.
OUM 95
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Menurut Hanna dan Dettmer (2004: 252), soalan-soalan yang dibina oleh guru hanya
mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. Bagaimanapun, menurut Mehrens
dan Lehmann (1991), Indeks Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi
0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian rendah,
separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi daripada 0.20, sekiranya
pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi.
Seterusnya, Nitko (2004: 323) menyatakan item yang boleh dipilih untuk sesuatu ujian
hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. Justeru, sebagai kesimpulan, item/
soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30.
Bagaimanapun, Indeks Diskriminasi yang lebih tinggi diperlukan untuk ujian-ujian PRN. Akhirnya,
seperti juga Indeks Kesukaran, selain menjadi panduan semasa membina item, Indek
Diskriminasi juga boleh digunakan untuk lima tujuan berikut:
Tujuan Penerangan
1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-
soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar pandai;
3 • memberi maklum balas kepada pelajar pandai tentang kelemahan mereka bagi setiap
tajuk pengajaran yang diuji; dan
4 • mengenal pasti soalan yang bias kepada sesuatu kandungan, seperti kandungan
yang tidak ditekankan semasa pengajaran atau langsung tidak diajar.
96 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Latihan 5.3
Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila
ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain,
ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepada
ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujian
yang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skor
yang dihasilkan adalah hampir sama dalam apa jua keadaan.
Bagaimanapun, perlu diingatkan bahawa ujian yang mempunyai darjah ketekalan yang tinggi,
tidak semestinya menghasilkan ukuran yang sebenar/sah. Dalam makmal sains, misalnya,
seseorang guru mengharapkan berat yang sama diperoleh apabila sesuatu benda ditimbang
beberapa kali (katakan 90 gram). Walaupun alat ini memberi berat yang sama (90 gram)
setiap kali ditimbang, tetapi berat ini kurang daripada berat sebenar (katakan kurang 10 gram).
Maka berat sebenar/sah bukanlah 90 gram, tetapi 100 gram. Ini menunjukkan, walaupun
sesuatu alat itu memberi ukuran yang sama (tekal), tetapi ukuran yang diberikan adalah tidak
benar/sah. Begitu juga dengan ujian, walaupun markah/skor yang diberikan adalah sama
dalam semua keadaan/situasi, tetapi ukuran yang terhasil tidak menggambarkan keupayaan
sebenar pelajar/calon.
Konsep asas teori pengukuran ialah skor yang diperoleh (observed score) daripada mana-
mana alat ukur (termasuk ukuran fizikal seperti berat dan ukuran abstrak seperti kecerdasan)
adalah terdiri daripada dua bahagian/komponen, iaitu (1) skor sebenar (true score), iaitu ukuran
sebenar sesuatu konstruk; dan (2) ralat (error), iaitu kesilapan yang disebabkan oleh alat
ukuran yang digunakan. Oleh itu, kita boleh membuat andaian bahawa tiada skor yang dapat
memberikan ukuran sebenar sesuatu konstruk yang ingin diukur. Di sini konstruk bermaksud
konsep yang abstrak, yang telah diterjemahkan kepada pembolehubah yang boleh diukur,
seperti sikap, minat, motivasi, suhu, tekanan, berat dan jarak. Justeru, sekiranya ukuran boleh
dibuat tanpa ralat, maka kebolehpercayaan alat ukurnya adalah tinggi. Bagaimanapun,
disebabkan sesuatu ukuran itu sentiasa mempunyai ralat, maka darjah kebolehpercayaannya
akan berbeza, bergantung kepada saiz ralatnya.
OUM 97
KESESUAIAN ITEM DAN UJIAN TAJUK 5
menggunakan pelbagai kaedah. Seperti julat pekali korelasi, julat indeks kebolehpercayan
juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan
ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama
akan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap
keadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan
bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.
Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yang
ditunjukkan dalam Jadual 5.5.
Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan dan
juga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) Ukuran
Kestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran
Kesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran Ketekalan
Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (Scorer
Reliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indeks
kebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.
JENIS-JENIS
KEBOLEHPERCAYAAN
Ukuran Kesetaraan Kebolehpercayaan
Ukuran Kestabilan dan Kestabilan Pemeriksa
Ukuran Ketekalan
Ukuran Kesetaraan Dalaman
98 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
1. Ukuran Kestabilan
Ukuran Kestabilan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat
generalisasi skor yang akan diperoleh pelajar, sekiranya ujian ini diberi lagi sekali kepada
mereka pada masa akan datang. Bagaimanapun, Ukuran Kestabilan ini akan berbeza
mengikut jarak masa dan pengalaman/intervensi yang dilalui pelajar/calon antara dua
pentadbiran ujian tersebut. Biasanya Ukuran Kestabilan adalah tinggi sekiranya jarak
masa antara dua pentadbiran ujian adalah pendek. Ini adalah disebabkan oleh, pertama,
pelajar masih ingat jawapan kepada soalan-soalan ujian, dan kedua, tidak ada
pengalaman/intervensi (seperti latih-tubi, kelas tusyen) antara dua pentadbiran ujian ini.
di mana:
Ó ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x ialah min skor
ujian kali pertama, y ialah min skor ujian kali kedua, n ialah bilangan pelajar, sx ialah
sisihan piawai skor ujian kali pertama dan sy ialah sisihan piawai skor ujian kali kedua.
2. Ukuran Kesetaraan
Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang sama,
Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan
memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi
kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab
serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari
yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/
pasangan skor yang diperoleh setiap pelajar.
Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat
generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiri
daripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujian
yang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalan
yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafal
jawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pra
dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untuk
menguji dua kumpulan pelajar yang berbeza pada berlainan masa.
OUM 99
KESESUAIAN ITEM DAN UJIAN TAJUK 5
sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setara
dengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (Ukuran
Kestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan Ukuran
Kestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaan
ini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperoleh
setiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian.
Justeru, Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama dengan Ukuran
Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza.
Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah
Kuder-Richardson dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakan
sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah
keseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan
hubungan/korelasi antara setiap item dengan jumlah skor ujian (Mehrens & Lehmann,
1991).
100 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
mendapatkan darjah ketekalan dalaman bagi keseluruhan ujian (rSB), kita boleh
gunakan rumus Spearman-Brown seperti beriikut:
Pekali Spearman-Brown rSB = [2r ½½]
[1+ r ½½ ]
di mana:
r ½½ ialah pekali Ketekalan Dalaman Belah-Dua.
Latihan 5.4
Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80. Kira
Ukuran Ketekalan Dalaman bagi keseluruhan ujian.
K-R20 = k [1 - Σpq]
k–1 Sx2
K-R21 = k [1 - x(k-x)]
k–1 kSx2
di mana:
k ialah bilangan item dalam ujian, Σ ialah jumlah, p ialah kadar pelajar yang menjawab
item dengan betul (Indeks Kesukaran Item), q ialah kadar pelajar yang salah
menjawab item (q= 1-p, pq adalah varians skor item), x ialah min skor keseluruhan
item dan Sx2 ialah ialah variance skor keseluruhan ujian.
(c) Kaedah Cronbach
Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman.
Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan
dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali
pq diganti dengan Si2, iaitu varians bagi skor item. Pekali alfa adalah amat berguna
bagi item yang bukan berjawapan dikotomi, terutama item berbentuk esei yang
markahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa adalah seperti
berikut:
α = k [1 - Σ Si2]
k–1 Sx2
OUM 101
KESESUAIAN ITEM DAN UJIAN TAJUK 5
5. Kebolehpercayaan Pemeriksa
102 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
di mana Se2 adalah varians ralat dan Sx2 adalah varians skor. Varians ralat boleh diandaikan
sebagai tetap, iaitu tidak berubah. Bagaimanapun, kumpulan yang lebih homogenus
(dari segi keupayaan) akan memberikan varians skor (Sx2) yang lebih kecil, sementara
kumpulan yang lebih heterogenus akan memberikan varians skor yang lebih besar.
Justeru, indeks kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadi
lebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang lebih heterogenus
akan menjadi lebih tinggi, berdasarkan kepada varians skor (Sx2).
Latihan 5.5
Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indeks
kebolehpercayaan bagi ujian yang dipendekkan kepada separuh daripada
ujian asal.
OUM 103
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur
sikap, dan bukannya konstruk lain, seperti minat atau motivasi. Bagaimanapun, perlu diingatkan
bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi
memiliki kesahan untuk tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan
diagnosis adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,
misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan
mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran
mendengar.
Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk menjelaskan jenis-
jenis kesahan ini. Bagaimanapun, Mehrens dan Lehmann (1991) hanya menyenarai dan
menjelaskan empat jenis kesahan, iaitu (1) kesahan kandungan (content validity), (2) kesahan
konstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan-
kriteria (criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam bahagian berikut.
104 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu
mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan
adalah penting, terutama bagi ujian pencapaian, sebab markah yang
diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi
kandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputi
secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian
pelajar menjadi tidak sah/bais.
Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan, seperti merujuk
semula kepada buku rekod pengajaran dan juga sukatan pelajaran. Selain itu, guru boleh
menggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikut
jadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakili
semua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujian
bahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas tentang
kemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran lisan, membaca, menulis
karangan, meringkaskan karangan, tatabahasa, peribahasa, kosa kata dan sebagainya.
Sebagai contoh, alat yang dibina untuk mengukur konstruk “sabar” sepatutnya dapat
mengukur konstruk ini dengan baik. Untuk memastikan alat ini dapat mengukur konstruk
“sabar”, pembina item inventori ini perlu terlebih dahulu memahami maksud “tidak sabar”,
“kurang sabar” dan “sabar” dan juga ciri-ciri orang yang “tidak sabar”, “kurang sabar”
dan ‘sabar”. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh didapati
daripada kajian-kajian dalam bidang psikologi atau pun daripada pengalaman sendiri.
Selepas pembina item benar-benar memahami dan menghayati ciri-ciri tersebut, barulah
item-item dibina (berasaskan kepada ciri-ciri tersebut) supaya inventori yang terhasil
dapat mengukur konstruk “sabar”. Justeru, sekiranya inventori ini ditadbirkan kepada
orang yang “sabar”, ia boleh mencerap ciri-ciri orang yang sabar, sebaliknya, jika inventori
ini ditadbirkan kepada orang yang tidak/kurang sabar, inventori ini akan mencerap ciri-
ciri orang yang tidak/kurang sabar. Inventori yang mempunyai kesahan konstruk ini akan
dapat mengkelaskan dengan tepat seseorang yang menjawab inventori ini kepada, sama
ada orang yang tidak sabar, kurang sabar atau sabar. Kesahan konstruk adalah penting
kepada ahli-ahli pendidikan dan psikologi yang ingin membuat kajian tentang konstruk.
OUM 105
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak
(concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat;
dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambil
selepas ukuran alat. Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahan
serentak dan kesahan ramalan seperti berikut.
• Kesahan Serentak
Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil serentak.
• Kesahan Ramalan
Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil kemudian.
106 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka
tidak dapat diukur/dijelas dengan menggunakan indeks kesahan, Kedua-dua kesahan ini dapat
dijelaskan secara kualitatif sahaja. Bagaimanapun, kesahan konstruk, kesahan serentak dan
kesahan ramalan boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekali
korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan alat lain.
Bagi kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan,
persamaan regresi boleh digunakan untuk meramal skor kriteria. Contohnya, skor ujian
pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang menghasilkan persamaan
regresi y = ax + b, di mana a dan b ialah angkatap (constant). Skor ujian kedua (y) boleh
diramal oleh skor ujian pertama (x) dengan menggantikan nilai x dalam persamaan regresi
ini.
Latihan 5.6
Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yang
menghasilkan persamaan regresi y = 10x – 5. Kira skor Ujian B (ramalan)
sekiranya skor Ujian A ialah 9.
RUMUSAN
Tajuk ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan ujian yang
perlu dibuat untuk memastikan soalan dan ujian sesuai digunakan. Analisis soalan dibuat
untuk menilai kesesuaian soalan tersebut, terutama dari segi aras kesukaran dan kuasa
diskriminasinya. Seterusnya, ujian yang terdiri daripada soalan-soalan tertentu, perlu dianalisis
untuk menilai kesesuainnya bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaan
ujian, yang boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu, analisis
kesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian itu dapat mengukur
apa yang hendak diukur. Analisis kesahan yang dibincangkan termasuk kesahan kandungan,
kesahan muka, kesahan konstruk, kesahan serentak dan kesahan ramalan. Selain
menjelaskan analisis-analisis di atas, tajuk ini juga menurunkan beberapa kaedah pengiraan
untuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.
GLOSARI
Alfa Cronbach Indeks untuk megukur ketakalan dalaman/keseragaman item/
soalan yang bukan berjawapan dikotomi.
Indeks Kesukaran Indeks untuk mengukur aras kesukaran sesuatu item, iaitu
nisbah calon yang memberi jawapan betul kepada jumlah
OUM 107
KESESUAIAN ITEM DAN UJIAN TAJUK 5
Indeks Diskriminasi Indeks yang dihasilkan oleh sesuatu item untuk mengukur
perbezaan keupayaan pelajar, iaitu nisbah pelajar pandai yang
menjawab dengan betul ditolak nisbah pelajar lemah yang
menjawab soalan dengan betul.
Indeks Kesahan Indeks untuk mengukur sejauh mana sesuatu alat dapat
mengukur apa yang sepatutnya diukur oleh alat tersebut, yang
boleh dikira menggunakan pekali korelasi Pearson atau
persamaan regresi.
Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapat
mengukur sesuatu konstruk tertentu.
Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakili
kandungan/sukatan pelajaran yang telah diajar.
Kesahan Kriteria Kesahan dari segi sejauh mana sesuatu ujian mempunyai
hubungan dengan ujian lain, sama ada yang ditadbirkan
secara serentak atau kemudian.
Kesahan Muka Kesahan dari segi sejauh mana sesuatu ujian dapat
mengukur sesuatu konstruk tertentu seperti yang
dipersepsikan oleh calon yang menduduki ujian.
UJIAN 1
UJIAN 2
108 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN
Lemah 8 9 6 4 27
Sederhana 12 20 8 6 46
Pandai 2 23 1 1 27
Jumlah 22 52 15 11 100
RUJUKAN
Cronbach, L. J. (1951). “Coefficient Alpha and the Internal Structure of Tests”. Psychometrika,
16, 297-334.
Hanna, G.S. & Dettmer, P.A. (2004). Assessment for Effective Teaching: Using Context-
Adaptive Planning. Boston:Pearson-Allan & Allyn and Bacon.
Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education and
psychology (4th ed.). Chicago: Holt, Rinehart and Winston.
Moskal, Barbara et al (2002). Validity, reliability and the assessment of engineering education.
Journal of Engineering Education.
Nitko, A.J. (2004). Educational Assessment of Students. Upper Saddle River, N.J.: Pearson-
Merill Prentice Hall.
Thorndike, et al. (1991). Measurement and Evaluation in Psychology and Education. (5th
Edition). New York : Macmillan
Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books, Inc.
Van Dalen., D.P. (1979). Understanding Educational Research. (4th ed.) McGraw-Hill. Inc.
OUM 109