Anda di halaman 1dari 20

KESESUAIAN ITEM DAN UJIAN TAJUK 5

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

PENGENALAN
Anda telah melalui pembinaan item ujian di Topik 4. Sekarang ini selepas item dibina dan
ujian digubal, analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian
yang dihasilkan itu sesuai digunakan. Analisis item membolehkan anda menilai kesesuaian
item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu
sukar bagi sesuatu kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkan
keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepas
membuat analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina)
untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh ujian tersebut dan juga apakah
sebenarnya yang diukur oleh ujian ini. Analisis-analisis ini akan menghasilkan pekali/indeks
yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan
Ujian dan Indeks Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yang
dihasilkan adalah sesuai/sah bagi sesuatu tujuan tertentu.

OBJEKTIF
Diakhir tajuk ini, anda seharusnya dapat:

1. membina dan menilai soalan berdasarkan Indeks Kesukaran;


2. membina dan menilai soalan berdasarkan Indeks Diskriminasi;
3. membina dan menilai soalan berdasarkan Kebolehpercayaan Ujian; dan
4. membina dan menilai soalan berdasarkan Kesahan Ujian.

PETA MINDA

90 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

5.1 INDEKS KESUKARAN ITEM

Pernahkah anda terfikir bagaimanakah tahap-tahap kesukaran sesuatu ujian


bertulis tersebut diadakan?. Apakah spesifikasi yang digunakan bagi
membolehkan sesuatu ujian tersebut sesuai pada masa ia diadakan?

Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks kesukaran item
(item difficulty index) (p). Indeks ini dapat menunjukkan aras kesukaran sesuatu item, iaitu
sama ada sesuatu item itu mudah dijawab atau susah dijawab. Bagi ujian berbentuk objektif
(betul/salah, isi tempat kosong, padanan, beraneka pilihan), indeks ini dikira dengan
menggunakan nisbah bilangan calon yang memberi jawapan betul bagi item tertentu kepada
jumlah calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan berikut:

p = Bilangan calon yang memberi jawapan betul


Jumlah calon yang menjawab

Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada
sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi soalan ini ialah 30/40
= 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada seorang pelajar pun dapat
menjawab dengan betul, maka nilai p akan menjadi 0 (soalan amat sukar), tetapi jika semua
pelajar dapat menjawab dengan betul, nilai p akan menjadi 1 (soalan terlalu mudah). Justeru,
item yang sukar mempunyai nialai p yang rendah, sebaliknya item yang mudah mempunyai
nilai p yang tinggi, seperti yang ditunjukkan dalam Rajah 5.1 di bawah.

Rajah 5.1: Indeks kesukaran dan kesukaran item

Latihan 5.1

Item A mendapat respons betul oleh 50 daripada 80 orang pelajar, sementara


Item B mendapat respons betul oleh 20 daripada 40 orang pelajar. Item mana
yang lebih sukar?

OUM 91
KESESUAIAN ITEM DAN UJIAN TAJUK 5

Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu diingatkan bahawa
soalan yang terlalu mudah (p > 0.85) atau soalan yang terlalu sukar (p < 0.15) tidak dapat
memberikan maklumat psikometrik (ukuran psikologi) yang bermakna. Ini adalah disebabkan
soalan yang terlalu mudah akan dapat dijawab oleh hampir semua pelajar, sementara soalan
yang terlalu sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalan
tidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang lebih tinggi
keupaayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti
yang ditunjukkan dalam Jadual 5.1.

Jadual 5.1: Aras Kesukaran dan Pengkelasan Item

Nilai (p) Pengkelasan Item

0.00 – 0.20 Terlalu sukar

0.21 – 0.40 Sukar

0.41 – 0.60 Sederhana sukar

0.61 – 0.80 Mudah

0.81 – 1.00 Terlalu mudah

Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab
sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan
betul, lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab dengan betul oleh 85%
pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50%
pelajar akan mempunyai nilai p = 0.50. Sebaliknya, indeks kesukaran item boleh memberi
jangkaan peratus pelajar yang dapat menjawab item tersebut dengan betul. Misalnya, jika
indeks kesukaran bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawab
item tersebut dengan betul.

Sebagai ingatan, nilai p merupakan nilai yang relatif kepada sesuatu kumpulan pelajar yang
mengambil ujian. Nilai ini boleh berubah mengikut keupayaan kumpulan pelajar tersebut, dan
seterusnya boleh berubah sekiranya kumpulan calon yang sama menduduki ujian kali kedua.
Sebagai contoh, item manakah lebih sukar antara “Siapakah Tunku Abdul Rahman Putra Al-
Haj?” dan “Siapakah Tun Dr.Mahathir?”?. Kita tidak boleh menyatakan item mana yang lebih
sukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran soalan ini selepas
kita mentadbirkannya kepada sekumpulan pelajar dan mengira nilai p bagi soalan ini.

Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, …; indeks kesukarannya
boleh dikira sebagai nisbah markah purata (markah min) kepada julat markah penuh seperti
berikut (Nitko, 2004: 317):

Indeks kesukaran item (p) = __Markah Purata__


Julat Markah Penuh

Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah minimum 0 dan
maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab soalan ini dan mendapat
markah seperti dalam jadual di bawah. Jumlah markah bagi 10 orang pelajar ialah 63.0.
Pengiran indeks kesukaran item ialah seperti berikut:

92 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Markah Purata = Jumlah markah = 63.0/10 = 6.3.


Jumlah pelajar

Julat Markah Penuh = Markah maksimum – Markah minimum = 10 - 0 = 10

Indeks Kesukaran = Markah Purata__ = 6.3/10 = 0.63 = 63%


Julat Markah Penuh

Pelajar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Jumlah

Markah 6.5 3.5 7.0 2.5 4.5 8.5 9.0 6.5 9.5 5.5 63.0

Berbeza daripada indeks kesukaran item objektif, indeks kesukaran item subjektif dapat
menggambarkan markah purata bagi sesuatu item dalam peratus. Contohnya, markah purata
6.3 (daripada 10) ialah 63% (iaitu sama dengan indeks kesukaran dikalikan dengan 100).

Seterusnya, indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item (akan
dibincangkan kemudian) yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepada
format item. Indeks kesukaran tersebut ialah 0.50 bgi item berjawapan pendek/melengkap,
0.70 bagi item objektif lima-opsyen, 0.74 bagi item objektif empat-opsyen, 0.77 bagi item
objektif tiga-opsyen, dan 0.85 bagi item objektif dua-opsyen (betul/salah) [Lord (1952) dalam
Mehrens & Lehmann (1991)]. Selain itu, Nitko (2004: 323) menyatakan indeks kesukaran
bagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah
antara 0.16 dan 0.84 (iaitu ada item-item mudah, sederhana sukar dan sukar); sementara
bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis)
haruslah mempunyai indeks kesukaran item antara 0.40 hingga 0.60 (item-item sederhana
sukar).

Selain menjadi panduan semasa membina item supaya indeks diskriminasi menjadi
maksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan berikut:
Jadual 5.2: Tujuan Indeks Kesukaran

Tujuan Penerangan

1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-
soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar (soalan sukar);
2 • mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagian
kurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak boleh dikuasai pelajar;
3 • memberi maklum balas kepada pelajar tentang kekuatan dan kelemahan mereka bagi
setiap tajuk pengajaran yang diuji; dan
4 • mengenal pasti soalan yang bias kepada sesuatu kandungan (content bias), seperti
kandungan yang ditekankan semasa pengajaran (misalnya, diberi latih tubi/ulangan).

Latihan 5.2

Satu item subjektif diberi markah minimum 1 dan maksimum 5. Markah lima
(5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran item ini. Adakah
item ini mudah atau susah?

OUM 93
KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.2 INDEKS DISKRIMINASI ITEM

Diskriminasi sering dianggap sebagai suatu perkara yang boleh diragui


keberkesanannya. Apakah sebenarnya peranan indeks diskriminasi item
untuk membezakan di antara seorang pelajar dengan pelajar yang lain?

Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang berkeupayaan
tinggi, untuk matlamat tertentu, seperti melanjutkan pengajian dalam bidang tertentu. Item/
soalan yang baik akan dapat membezakan/mendiskriminasikan antara mereka yang
berkeupayaan rendah dan yang berkeupayaan tinggi. Indeks yang diguna untuk menentukan
perbezaan keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi boleh
dikira melalui langkah-langkah Mehrens & Lehmann, (1991) dan contoh berikut:

(1) Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar berpencapaian rendah
(27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar
berpencapaian antara terrendah dan tertinggi) dan pelajar berpencapaian tinggi (27%
pelajar berpencapaian tertinggi).

(2) Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian
rendah (RL – Right Lower), bilangan pelajar yang menjawab dengan betul di kalangan
pelajar berpencapaian tinggi (RU – Right Upper) dan jumlah pelajar berpencapaian rendah
dan tinggi (T(L+U) – Total).

(3) Indeks Disckriminasi boleh dikira dengan membahagikan perbezaan (RU – RL) dengan
separuh T(L+U) seperti berikut:

Indeks Diskriminasi (d) = (RU – RL)


(1/2 T(L+U))

(4) Sebagai contoh, andaikan seramai 200 orang pelajar menjawab soalan tertentu. Setelah
54 orang (27% daripada 200) pelajar berpencapaian tinggi dikenalpasti, didapati 45
orang daripada mereka dapat menjawab soalan tersebut dengan betul (RU = 45).
Seterusnya, daripada 54 orang pelajar berpencapaian rendah, seramai 15 orang dapat
menjawab dengan betul (RL = 15). Dalam contoh ini, jumlah pelajar berpencapaian rendah
dan tinggi ialah 108 orang (T(L+U) = 54 + 54 = 108). Indeks Disckriminasi boleh dikira
seperti berikut:

Indeks Diskriminasi = (RU – RL) = (45 – 15) = 30 = 0.56


(1/2 T(L+U)) (1/2 x 108) 54

94 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

(5) Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua pelajar
berpencapaian tinggi dan tiada seorang pun pelajar berpencapaian rendah dapat
menjawab soalan ini dengan betul (RU – RL = 54 – 0 = 54):

Indeks Diskriminasi = (RU – RL) = (54 – 0) = 54 = 1.00


(1/2 T(L+U)) (1/2 x 108) 54

(6) Indeks Diskriminasi boleh bernilai 0.00, sekiranya bilangan pelajar berpencapaian tinggi
dan rendah yang dapat menjawab soalan ini dengan betul adalah sama (RU – RL = 0).

Indeks Diskriminasi = (RU – RL) = (0) = 0 = 0.00


(1/2 T(L+U)) (1/2 x 108) 54

(7) Akhirnya, Indeks Diskriminasi boleh bernilai -1.00, sekiranya semua pelajar berpencapaian
rendah dan tiada seorang pun pelajar berpencapaian tinggi dapat menjawab soalan ini
dengan betul (RU – RL = 0 - 54 = -54).

Indeks Diskriminasi = (RU – RL) = (0 – 54) = -54 = -1.00


(1/2 T(L+U)) (1/2 x 108) 54

Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks Diskriminasi boleh
bernilai antara -1.00 hingga 1.00. Secara amnya, item yang mempunyai Indeks Diskriminasi
positif menunjukkan pelajar berpencapaian tinggi lebih ramai dapat menjawab sesuatu soalan
dengan betul daripada pelajar berpencapaian rendah. Secara logiknya, kita memang
mengandaikan lebih ramai pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalan
dengan betul berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasi
hampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk Penilaian Rujukan
Norma (PRN) sebab ia dapat membezakan (discriminate) pelajar berpencapaian tinggi/pandai
daripada pelajar berpencapaian rendah/lemah.

Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif yang menghampiri
0.00, soalan-saolan ini dikatakan tidak baik untuk PRN, sebab ia tidak berupaya membezakan
pelajar pandai daripada pelajar lemah. Akhirnya, bagi soalan-soalan yang mempunyai Indeks
Diskriminasi negatif yang menhampiri -1.00, soalan-saolan ini dikatakan tidak baik untuk PRN,
sebab ia secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebih
ramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada pelajar pandai.
Justeru, pembina soalan perlu memperbaiki/menggantikan soalan yang mempunyai Indeks
Diskriminasi yang rendah atau pun negatif. Sebagai panduan, aras kesukaran item boleh
ditafsirkan mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.3.

OUM 95
KESESUAIAN ITEM DAN UJIAN TAJUK 5

Jadual 5.3: Aras Diskriminasi dan Pengkelasan Item

Nilai (d) Pengkelasan Item

0.00 – 0.10 Tidak baik

0.11 – 0.20 Kurang baik

0.21 – 0.30 Sederhana baik

0.31 – 0.40 Baik

0.41 – 1.00 Sangat baik

Menurut Hanna dan Dettmer (2004: 252), soalan-soalan yang dibina oleh guru hanya
mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. Bagaimanapun, menurut Mehrens
dan Lehmann (1991), Indeks Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi
0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian rendah,
separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi daripada 0.20, sekiranya
pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi.
Seterusnya, Nitko (2004: 323) menyatakan item yang boleh dipilih untuk sesuatu ujian
hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. Justeru, sebagai kesimpulan, item/
soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30.
Bagaimanapun, Indeks Diskriminasi yang lebih tinggi diperlukan untuk ujian-ujian PRN. Akhirnya,
seperti juga Indeks Kesukaran, selain menjadi panduan semasa membina item, Indek
Diskriminasi juga boleh digunakan untuk lima tujuan berikut:

Jadual 5.4: Tujuan Indeks Diskriminasi

Tujuan Penerangan

1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-
soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar pandai;

2 • mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagian


kurikulum, iaitu yang tidak boleh dikuasai pelajar pandai;

3 • memberi maklum balas kepada pelajar pandai tentang kelemahan mereka bagi setiap
tajuk pengajaran yang diuji; dan

4 • mengenal pasti soalan yang bias kepada sesuatu kandungan, seperti kandungan
yang tidak ditekankan semasa pengajaran atau langsung tidak diajar.

5 • mengenal pasti pelajar-pelajar yang berpencapaian tinggi untuk melanjutkan pengajian


dalam bidang-bidang tertentu.

96 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Latihan 5.3

Seramai 40 daripada 50 orang pelajar berpencapaian rendah dapat menjawab


satu soalan objektif dengan betul, sementara 20 daripada 50 orang pelajar
berpencapaian tinggi dapat menjawab soalan ini dengan betul. Kira Indeks
Diskriminasi soalan ini dan jelaskan kesesuaiannya

5.3 KEBOLEHPERCAYAAN UJIAN

Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan


ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut
(Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksud
ketekalan markah-markah yang dihasilkan oleh ujian tersebut.

Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila
ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain,
ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepada
ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujian
yang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skor
yang dihasilkan adalah hampir sama dalam apa jua keadaan.

Bagaimanapun, perlu diingatkan bahawa ujian yang mempunyai darjah ketekalan yang tinggi,
tidak semestinya menghasilkan ukuran yang sebenar/sah. Dalam makmal sains, misalnya,
seseorang guru mengharapkan berat yang sama diperoleh apabila sesuatu benda ditimbang
beberapa kali (katakan 90 gram). Walaupun alat ini memberi berat yang sama (90 gram)
setiap kali ditimbang, tetapi berat ini kurang daripada berat sebenar (katakan kurang 10 gram).
Maka berat sebenar/sah bukanlah 90 gram, tetapi 100 gram. Ini menunjukkan, walaupun
sesuatu alat itu memberi ukuran yang sama (tekal), tetapi ukuran yang diberikan adalah tidak
benar/sah. Begitu juga dengan ujian, walaupun markah/skor yang diberikan adalah sama
dalam semua keadaan/situasi, tetapi ukuran yang terhasil tidak menggambarkan keupayaan
sebenar pelajar/calon.

Konsep asas teori pengukuran ialah skor yang diperoleh (observed score) daripada mana-
mana alat ukur (termasuk ukuran fizikal seperti berat dan ukuran abstrak seperti kecerdasan)
adalah terdiri daripada dua bahagian/komponen, iaitu (1) skor sebenar (true score), iaitu ukuran
sebenar sesuatu konstruk; dan (2) ralat (error), iaitu kesilapan yang disebabkan oleh alat
ukuran yang digunakan. Oleh itu, kita boleh membuat andaian bahawa tiada skor yang dapat
memberikan ukuran sebenar sesuatu konstruk yang ingin diukur. Di sini konstruk bermaksud
konsep yang abstrak, yang telah diterjemahkan kepada pembolehubah yang boleh diukur,
seperti sikap, minat, motivasi, suhu, tekanan, berat dan jarak. Justeru, sekiranya ukuran boleh
dibuat tanpa ralat, maka kebolehpercayaan alat ukurnya adalah tinggi. Bagaimanapun,
disebabkan sesuatu ukuran itu sentiasa mempunyai ralat, maka darjah kebolehpercayaannya
akan berbeza, bergantung kepada saiz ralatnya.

5.3.1 Indeks Kebolehpercayaan

Dari segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/


estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira

OUM 97
KESESUAIAN ITEM DAN UJIAN TAJUK 5

menggunakan pelbagai kaedah. Seperti julat pekali korelasi, julat indeks kebolehpercayan
juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan
ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama
akan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap
keadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan
bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.
Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yang
ditunjukkan dalam Jadual 5.5.

Jadual 5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian

Nilai (r) Pengkelasan Ujian

< 0.20 Tidak baik

0.21 – 0.40 Kurang baik

0.41 – 0.60 Sederhana baik

0.61 – 0.80 Baik

0.81 – 1.00 Sangat baik

Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan dan
juga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) Ukuran
Kestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran
Kesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran Ketekalan
Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (Scorer
Reliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indeks
kebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.

JENIS-JENIS 
KEBOLEHPERCAYAAN

Ukuran Kesetaraan Kebolehpercayaan
Ukuran Kestabilan dan Kestabilan Pemeriksa

Ukuran Ketekalan
Ukuran Kesetaraan Dalaman

Rajah 5.2: 5 jenis kebolehpercayaan ujian Mehrens dan Lehmann (1991)

98 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

1. Ukuran Kestabilan

Ukuran Kestabilan, yang juga dipanggil “anggaran kebolehpercayaan uji-uji


semula” (test-restest estimate of reliability) boleh dikira dengan memberikan
ujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepas
ujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearson
antara dua/pasangan skor yang diperoleh setiap pelajar.

Ukuran Kestabilan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat
generalisasi skor yang akan diperoleh pelajar, sekiranya ujian ini diberi lagi sekali kepada
mereka pada masa akan datang. Bagaimanapun, Ukuran Kestabilan ini akan berbeza
mengikut jarak masa dan pengalaman/intervensi yang dilalui pelajar/calon antara dua
pentadbiran ujian tersebut. Biasanya Ukuran Kestabilan adalah tinggi sekiranya jarak
masa antara dua pentadbiran ujian adalah pendek. Ini adalah disebabkan oleh, pertama,
pelajar masih ingat jawapan kepada soalan-soalan ujian, dan kedua, tidak ada
pengalaman/intervensi (seperti latih-tubi, kelas tusyen) antara dua pentadbiran ujian ini.

Pekali korelasi Pearson rxy = [Σ


Σ (xi-x)(yi -y)]
[nsxsy]

di mana:
Ó ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x ialah min skor
ujian kali pertama, y ialah min skor ujian kali kedua, n ialah bilangan pelajar, sx ialah
sisihan piawai skor ujian kali pertama dan sy ialah sisihan piawai skor ujian kali kedua.
2. Ukuran Kesetaraan

Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang sama,
Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan
memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi
kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab
serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari
yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/
pasangan skor yang diperoleh setiap pelajar.

Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat
generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiri
daripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujian
yang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalan
yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafal
jawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pra
dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untuk
menguji dua kumpulan pelajar yang berbeza pada berlainan masa.

3. Ukuran Kesetaraan dan Kestabilan


Ada kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar untuk jangka
masa yang panjang dengan menggunakan ujian yang berbeza. Justeru, kaedah yang

OUM 99
KESESUAIAN ITEM DAN UJIAN TAJUK 5

sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setara
dengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (Ukuran
Kestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan Ukuran
Kestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaan
ini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperoleh
setiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian.

Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan


kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar,
sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian
jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi
soalan ujian pertama terhadap jawapan ujian kedua, di samping menilai
pencapaian pelajar selepas jangka masa yang panjang.

4. Ukuran Ketekalan Dalaman


Berbeza daripada ketiga-tiga ukuran ketekalan yang dijelaskan sebelum ini, Ukuran
Ketekalan Dalaman boleh ditentukan dengan menggunakan sekali ujian sahaja. Salah
satu daripada kaedah yang digunakan untuk mengukur ketekalan dalaman ialah dengan
membelah/memecahkan ujian kepada separuh-separuh (split-half), iaitu separuh pertama
dan separuh kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkan
kesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh kedua sesuatu
ujian.

Justeru, Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama dengan Ukuran
Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza.
Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah
Kuder-Richardson dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakan
sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah
keseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan
hubungan/korelasi antara setiap item dengan jumlah skor ujian (Mehrens & Lehmann,
1991).

(a) Ukuran Ketekalan Dalaman Belah-Dua


Ukuran Ketekalan Dalaman Belah-Dua (r ½½) boleh dikira dengan menggunakan
korelasi Pearson (r) antara skor pelajar bagi separuh pertama ujian dengan skor
pelajar bagi separuh kedua ujian, yang boleh dikira menggunakan rumus berikut:
Σ (xi-x)(yi -y)]
r ½½ = [Σ
[nsxsy]
di mana:
Σ ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor separuh kedua
ujian; x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian;
n ialah bilangan pelajar, sx ialah sisihan piawai skor separuh pertama ujian dan sy
ialah sisihan piawai skor separuh kedua ujian.
Bagaimanapun, ukuran yang diperoleh melalui kaedah belah-dua ini hanya
memberikan darjah ketakalan dalaman bagi separuh ujian sahaja. Untuk

100 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

mendapatkan darjah ketekalan dalaman bagi keseluruhan ujian (rSB), kita boleh
gunakan rumus Spearman-Brown seperti beriikut:
Pekali Spearman-Brown rSB = [2r ½½]
[1+ r ½½ ]

di mana:
r ½½ ialah pekali Ketekalan Dalaman Belah-Dua.

Latihan 5.4

Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80. Kira
Ukuran Ketekalan Dalaman bagi keseluruhan ujian.

(b) Kaedah Kuder-Richardson


Terdapat dua (2) kaedah Kuder-Richardson yang digunakan untuk mengira Ukuran
Ketekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah), iaitu K-R 20
dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagi
semua item, dan K-R 21 digunakan sekiranya indeks ini sama bagi semua item.
Bagaimanapun, rumus K-R 21 adalah lebih mudah digunakan oleh guru disebabkan
rumus ini tidak memerlukan banyak pengiraan. Rumus-rumus tersebut dijelaskan
seperti berikut:

K-R20 = k [1 - Σpq]
k–1 Sx2

K-R21 = k [1 - x(k-x)]
k–1 kSx2

di mana:
k ialah bilangan item dalam ujian, Σ ialah jumlah, p ialah kadar pelajar yang menjawab
item dengan betul (Indeks Kesukaran Item), q ialah kadar pelajar yang salah
menjawab item (q= 1-p, pq adalah varians skor item), x ialah min skor keseluruhan
item dan Sx2 ialah ialah variance skor keseluruhan ujian.
(c) Kaedah Cronbach
Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman.
Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan
dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali
pq diganti dengan Si2, iaitu varians bagi skor item. Pekali alfa adalah amat berguna
bagi item yang bukan berjawapan dikotomi, terutama item berbentuk esei yang
markahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa adalah seperti
berikut:

α = k [1 - Σ Si2]
k–1 Sx2

OUM 101
KESESUAIAN ITEM DAN UJIAN TAJUK 5

5. Kebolehpercayaan Pemeriksa

Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang


diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan
yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentuk
objektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalah
sama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapan
diperiksa oleh komputer sahaja).

Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan memberikan jawapan sekumpulan


pelajar yang sama kepada dua/ lebih pemeriksa. Indeks Kebolehpercayaan Pemeriksa boleh
dikira dengan mencari pekali korelasi Pearson antara dua skor pemeriksa bagi setiap soalan;
atau korelasi Spearman-Brown antara jumlah skor/skor min pemeriksa bagi keseluruhan
ujian. Kebolehpercayan Pemeriksa ini akan memberikan tahap keyakinan kepada kita untuk
membuat generalisasi bahawa skor yang diberikan oleh dua/lebih pemeriksa kepada pelajar
adalah sama. Kebolehpercayaan ini adalah penting untuk menyeragamkan pemberian markah,
apabila skrip/jawapan ujian diperiksa oleh ramai pemeriksa.

5.3.2 Faktor yang Mempengaruhi Kebolehpercayaan

Beberapa faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk panjang ujian,


kehomogenan kumpulan, kesukaran item dan objektiviti jawapan. Bahagian berikut
menjelaskan bagaimana faktor ini mempengaruhi kebolehpercayaan ujian.

(1) Panjang Ujian

Rumus Spearman-Brown yang digunakan untuk mengira pekali Ketekalan


Dalaman Belah-Dua boleh digunakan juga untuk mengira indeks
kebolehpercayaan ujian apabila itemnya ditambah atau dikurangkan.

Rumus am Spearman-Brown ialah seperti berikut:


rSB =
[Kr ]
[1+ (K-1)r]
di mana:
K ialah nisbah bilangan item dalam ujian baru kepada bilangan item dalam ujian asal
dan r ialah pekali kebolehpercayaan ujian asal.
Bagi Ketekalan Dalaman Belah-Dua, nilai K=2, iaitu ujian baru (sebenar) ialah 2 kali
ganda panjang/item ujian asal (separuh ujian sebenar) dan r= r ½½ . Sekiranya bilangan
item ditambah menjadi 3 kali ganda, iaitu K=3, dan andaikan r=0.60, maka indeks
kebolehpercayaan menjadi:
rSB = [Kr ] = [(3)(0.60)] = [1.80] = 1.80 = 1.80 = 0.82
[1+ (K-1)r] [1+ (3-1)(0.60)] [1+ (2)(0.60)] [1+ (1.20)] 2.20

102 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Justeru, indeks kebolehpercayaan akan meningkat, sekiranya ujian bertambah panjang.


Begitu juga sebaliknya, jika item asal dibuang, indeks kebolehpercayaan akan menurun.
Bagaimanapun, kita perlu ingat bahawa item yang ditambah perlulah setara/seragam
dengan item-item asal ujian. Sekiranya item yang tidak setara ditambah kepada ujian
asal, indeks kebolehpercayaan tidak akan meningkat, dan mungkin akan menurun
disebabkan oleh item-itemnya tidak lagi setara.
(2) Kehomogenan Kumpulan
Faktor kedua yang mempengaruhi indeks kesukaran ialah kehomogenan kumpulan
pelajar/calon yang mengambil ujian. Dari segi teori, indeks kebolehpercayaan diberikan
oleh rumus:
r = 1 - Se2 ,
Sx2

di mana Se2 adalah varians ralat dan Sx2 adalah varians skor. Varians ralat boleh diandaikan
sebagai tetap, iaitu tidak berubah. Bagaimanapun, kumpulan yang lebih homogenus
(dari segi keupayaan) akan memberikan varians skor (Sx2) yang lebih kecil, sementara
kumpulan yang lebih heterogenus akan memberikan varians skor yang lebih besar.
Justeru, indeks kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadi
lebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang lebih heterogenus
akan menjadi lebih tinggi, berdasarkan kepada varians skor (Sx2).

(3) Kesukaran Item


Ujian yang terdiri daripada item-item yang mudah memberi peluang kepada kebanyakan
pelajar/calon untuk menjawab soalan dengan baik, yang seterusnya akan memberikan
skor yang hampir sama kepada pelajar/calon. Ini akan menghasilkan varians skor yang
rendah disebabkan oleh skor yang homogenus, yang seterusnya, menghasilkan indeks
kebolehpercayaan yang rendah. Bagi ujian yang terdiri daripada item-item yang sukar,
skor pelajar/calon akan menjadi agak berbeza/heterogenus. Ini akan menghasilkan
varians skor yang besar dan seterusnya indeks kebolehpercayaan yang tinggi.
Kesimpulannya, ujian yang susah akan mewujudkan kumpulan yang heterogenus, yang
akan meningkatkan indeks kebolehpercayaan.

(4) Objektiviti Jawapan


Sebagaimana yang dijelaskan tentang Kebolehpercayaan Pemeriksa, item-item yang
mempunyai jawapan yang lebih objektif akan mempunyai indeks kebolehpercayaan yang
lebih tinggi, dan sebaliknya, item-item yang mempunyai jawapan yang lebih subjektif
akan mempunyai indeks kebolehpercayaan yang lebih rendah.

Latihan 5.5

Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indeks
kebolehpercayaan bagi ujian yang dipendekkan kepada separuh daripada
ujian asal.

OUM 103
KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.4 KESAHAN UJIAN


Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapat
mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer,
2004). Justeru, ciri kesahan bagi sesuatu alat ukuran adalah amat penting
supaya alat ukuran tersebut dapat mengukur apa yang hendak diukur.

Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur
sikap, dan bukannya konstruk lain, seperti minat atau motivasi. Bagaimanapun, perlu diingatkan
bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi
memiliki kesahan untuk tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan
diagnosis adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,
misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan
mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran
mendengar.

5.4.1 Jenis Kesahan

Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk menjelaskan jenis-
jenis kesahan ini. Bagaimanapun, Mehrens dan Lehmann (1991) hanya menyenarai dan
menjelaskan empat jenis kesahan, iaitu (1) kesahan kandungan (content validity), (2) kesahan
konstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan-
kriteria (criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam bahagian berikut.

Rajah 5.3: 4 Jenis kesahan Mehrens dan Lehmann (1991)

(1) Kesahan Kandungan


Salah satu tujuan ujian ialah untuk menilai apa yang telah dipelajari pelajar bagi sesuatu
mata pelajaran pada akhir penggal/tahun persekolahan. Bagaimanapun, ujian yang
diberikan dalam masa yang agak pendek itu tidak dapat menguji semua sukatan
pelajaran. Soalan ujian hanya boleh dianggap sebagai sampel/wakil kepada sukatan
pelajaran yang begitu luas.

104 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu
mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan
adalah penting, terutama bagi ujian pencapaian, sebab markah yang
diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi
kandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputi
secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian
pelajar menjadi tidak sah/bais.

Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan, seperti merujuk
semula kepada buku rekod pengajaran dan juga sukatan pelajaran. Selain itu, guru boleh
menggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikut
jadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakili
semua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujian
bahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas tentang
kemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran lisan, membaca, menulis
karangan, meringkaskan karangan, tatabahasa, peribahasa, kosa kata dan sebagainya.

(2) Kesahan Konstruk

Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat


ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori
psikologi tertentu.

Sebagai contoh, alat yang dibina untuk mengukur konstruk “sabar” sepatutnya dapat
mengukur konstruk ini dengan baik. Untuk memastikan alat ini dapat mengukur konstruk
“sabar”, pembina item inventori ini perlu terlebih dahulu memahami maksud “tidak sabar”,
“kurang sabar” dan “sabar” dan juga ciri-ciri orang yang “tidak sabar”, “kurang sabar”
dan ‘sabar”. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh didapati
daripada kajian-kajian dalam bidang psikologi atau pun daripada pengalaman sendiri.

Selepas pembina item benar-benar memahami dan menghayati ciri-ciri tersebut, barulah
item-item dibina (berasaskan kepada ciri-ciri tersebut) supaya inventori yang terhasil
dapat mengukur konstruk “sabar”. Justeru, sekiranya inventori ini ditadbirkan kepada
orang yang “sabar”, ia boleh mencerap ciri-ciri orang yang sabar, sebaliknya, jika inventori
ini ditadbirkan kepada orang yang tidak/kurang sabar, inventori ini akan mencerap ciri-
ciri orang yang tidak/kurang sabar. Inventori yang mempunyai kesahan konstruk ini akan
dapat mengkelaskan dengan tepat seseorang yang menjawab inventori ini kepada, sama
ada orang yang tidak sabar, kurang sabar atau sabar. Kesahan konstruk adalah penting
kepada ahli-ahli pendidikan dan psikologi yang ingin membuat kajian tentang konstruk.

OUM 105
KESESUAIAN ITEM DAN UJIAN TAJUK 5

(3) Kesahan Muka

Sebenarnya, kesahan muka bukanlah “kesahan” seperti definisinya yang


kita fahami, tetapi ia lebih kepada sesuatu alat ukuran “nampak pada
permukaannya” mempunyai kesahan yang tinggi. Ini bermaksud, sekali
pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampak
alat ini sebagai sah.

Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orang


yang menjawab item inventori merasa yakin terhadap inventori tersebut. Sekiranya
inventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab
item-itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidak
boleh digunakan. Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan
konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahui
apa yang ingin diukur, dia akan memberikan jawapan yang sentiasa “positif”.

(4) Kesahan Hubungan-Kriteria

Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu alat


ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan
beberapa ukuran luaran (kriteria).

Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak
(concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat;
dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambil
selepas ukuran alat. Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahan
serentak dan kesahan ramalan seperti berikut.

• Kesahan Serentak

Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil serentak.

Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan skor yang


mempunyai hubungan (pekali korelasi tinggi) yang kuat dengan skor daripada alat
ukuran kecedasan B, maka alat A dikatakan mempunyai kesahan serentak yang
tinggi. Dengan demikian, alat A boleh mengganti alat B untuk mengukur kecerdasan.

• Kesahan Ramalan

Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil kemudian.

106 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah yang


mempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian matematik
percubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini bermakna
pencapaian pelajar dalam ujian percubaan dapat meramal keputusan SPM.

5.4.2 Kaedah Mengira Indeks Kesahan

Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka
tidak dapat diukur/dijelas dengan menggunakan indeks kesahan, Kedua-dua kesahan ini dapat
dijelaskan secara kualitatif sahaja. Bagaimanapun, kesahan konstruk, kesahan serentak dan
kesahan ramalan boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekali
korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan alat lain.

Bagi kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan,
persamaan regresi boleh digunakan untuk meramal skor kriteria. Contohnya, skor ujian
pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang menghasilkan persamaan
regresi y = ax + b, di mana a dan b ialah angkatap (constant). Skor ujian kedua (y) boleh
diramal oleh skor ujian pertama (x) dengan menggantikan nilai x dalam persamaan regresi
ini.

Latihan 5.6

Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yang
menghasilkan persamaan regresi y = 10x – 5. Kira skor Ujian B (ramalan)
sekiranya skor Ujian A ialah 9.

RUMUSAN
Tajuk ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan ujian yang
perlu dibuat untuk memastikan soalan dan ujian sesuai digunakan. Analisis soalan dibuat
untuk menilai kesesuaian soalan tersebut, terutama dari segi aras kesukaran dan kuasa
diskriminasinya. Seterusnya, ujian yang terdiri daripada soalan-soalan tertentu, perlu dianalisis
untuk menilai kesesuainnya bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaan
ujian, yang boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu, analisis
kesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian itu dapat mengukur
apa yang hendak diukur. Analisis kesahan yang dibincangkan termasuk kesahan kandungan,
kesahan muka, kesahan konstruk, kesahan serentak dan kesahan ramalan. Selain
menjelaskan analisis-analisis di atas, tajuk ini juga menurunkan beberapa kaedah pengiraan
untuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.

GLOSARI
Alfa Cronbach Indeks untuk megukur ketakalan dalaman/keseragaman item/
soalan yang bukan berjawapan dikotomi.

Indeks Kesukaran Indeks untuk mengukur aras kesukaran sesuatu item, iaitu
nisbah calon yang memberi jawapan betul kepada jumlah

OUM 107
KESESUAIAN ITEM DAN UJIAN TAJUK 5

calon, atau markah purata dibahagikan dengan julat markah


penuh.

Indeks Diskriminasi Indeks yang dihasilkan oleh sesuatu item untuk mengukur
perbezaan keupayaan pelajar, iaitu nisbah pelajar pandai yang
menjawab dengan betul ditolak nisbah pelajar lemah yang
menjawab soalan dengan betul.

Indeks Kebolehpercayaan Indeks untuk mengukur ketekalan ukuran-ukuran yang


dihasilkan oleh sesuatu alat ukuran, yang boleh dikira
menggunakan pekali korelasi Pearson, Kuder-Richardson
atau alfa Cronbach.

Indeks Kesahan Indeks untuk mengukur sejauh mana sesuatu alat dapat
mengukur apa yang sepatutnya diukur oleh alat tersebut, yang
boleh dikira menggunakan pekali korelasi Pearson atau
persamaan regresi.

Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapat
mengukur sesuatu konstruk tertentu.

Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakili
kandungan/sukatan pelajaran yang telah diajar.

Kesahan Kriteria Kesahan dari segi sejauh mana sesuatu ujian mempunyai
hubungan dengan ujian lain, sama ada yang ditadbirkan
secara serentak atau kemudian.

Kesahan Muka Kesahan dari segi sejauh mana sesuatu ujian dapat
mengukur sesuatu konstruk tertentu seperti yang
dipersepsikan oleh calon yang menduduki ujian.

UJIAN 1

(1) Apakah perbezaan antara item dengan soalan?


(2) Jelaskan maksud “indeks kesukaran item”.
(3) Apakah yang anda faham tentang “kesahan konstruk”?

UJIAN 2

(a) Jelaskan maksud “indeks diskriminasi item”.


(b) Berikan dua (2) tujuan mendiskriminasikan pelajar dalam ujian.
(c) Jadual berikut menunjukkan bilangan pelajar yang memilih jawapan bagi satu item ujian
objektif. Kira indeks kesukaran dan indeks diskriminasi item ini (B* adalah jawapan yang
betul). Adakah item ini baik?

108 OUM
TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Kategori Pelajar A B* C D Jumlah

Lemah 8 9 6 4 27

Sederhana 12 20 8 6 46

Pandai 2 23 1 1 27

Jumlah 22 52 15 11 100

RUJUKAN
Cronbach, L. J. (1951). “Coefficient Alpha and the Internal Structure of Tests”. Psychometrika,
16, 297-334.

Hanna, G.S. & Dettmer, P.A. (2004). Assessment for Effective Teaching: Using Context-
Adaptive Planning. Boston:Pearson-Allan & Allyn and Bacon.

Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education and
psychology (4th ed.). Chicago: Holt, Rinehart and Winston.

Moskal, Barbara et al (2002). Validity, reliability and the assessment of engineering education.
Journal of Engineering Education.

Nitko, A.J. (2004). Educational Assessment of Students. Upper Saddle River, N.J.: Pearson-
Merill Prentice Hall.

Thorndike, et al. (1991). Measurement and Evaluation in Psychology and Education. (5th
Edition). New York : Macmillan

Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books, Inc.

Van Krieken, R. (1995). Writing and Administring Examinations. CITO.

Van Dalen., D.P. (1979). Understanding Educational Research. (4th ed.) McGraw-Hill. Inc.

OUM 109

Anda mungkin juga menyukai