Anda di halaman 1dari 24

!

"#$% Kesesuaian

&

Item dan
Ujian

'()*+%,-./-+(0(1(2
!"#$%!&"'()!$"!*!+"#*,#"-.%#&/-*0#",#)#'1
1.

Membina soalan berdasarkan Indeks Kesukaran, Indeks Diskriminasi,


Kebolehpercayaan Ujian dan Kesahan Ujian; dan

2.

Menilai soalan berdasarkan Indeks Kesukaran, Indeks Diskriminasi,


Kebolehpercayaan Ujian.

! ,-23-2(+(2
Anda telah melalui pembinaan item ujian di Tajuk 4. Sekarang ini selepas item
dibina dan ujian digubal, analisis item dan ujian perlu dibuat untuk memastikan
item/soalan dan ujian yang dihasilkan itu sesuai digunakan. Analisis item
membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya,
iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu
kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkan keupayaan
sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepas
membuat analisis item, anda digalakkan membuat analisis ujian (satu set item
yang dibina) untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh
ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini. Analisisanalisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran
Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan Ujian dan Indeks
Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yang dihasilkan
adalah sesuai/sah bagi sesuatu tujuan tertentu.

456

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

&74 % *28-9)%9-):9(1(2%* -.
;*9*1
Pernahkah anda terfikir bagaimanakah tahap-tahap kesukaran sesuatu
ujian bertulis tersebut diadakan? Apakah spesifikasi yang digunakan
bagi membolehkan sesuatu ujian tersebut sesuai pada masa ia diadakan?
Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks
kesukaran item (item difficulty index, p). Indeks ini dapat menunjukkan aras
kesukaran sesuatu item, iaitu sama ada sesuatu item itu mudah dijawab atau
susah dijawab. Bagi ujian berbentuk objektif (betul/salah, isi tempat kosong,
padanan, beraneka pilihan), indeks ini dikira dengan menggunakan nisbah
bilangan calon yang memberi jawapan betul bagi item tertentu kepada jumlah
calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan
berikut:

!"#$%#$&'#"($&)#$%&*+*,+-!&.#/#0#$&,+12"
32*"#4&'#"($&)#$%&*+$.#/#,
Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar
daripada sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi
soalan ini ialah 30/40 = 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada
seorang pelajar pun dapat menjawab dengan betul, maka nilai p akan menjadi 0
(soalan amat sukar), tetapi jika semua pelajar dapat menjawab dengan betul, nilai
p akan menjadi 1 (soalan terlalu mudah). Justeru, item yang sukar mempunyai
nilai p yang rendah, sebaliknya item yang mudah mempunyai nilai p yang tinggi,
seperti yang ditunjukkan dalam Rajah 5.1.

Rajah 5.1: Indeks kesukaran dan kesukaran item

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 45<

+( *'(2%&74
Item A mendapat respons betul oleh 50 daripada 80 orang pelajar,
sementara Item B mendapat respons betul oleh 20 daripada 40 orang
pelajar. Item mana yang lebih sukar?

Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu
diingatkan bahawa soalan yang terlalu mudah (p > 0.85) atau soalan yang
terlalu sukar (p < 0.15) tidak dapat memberikan maklumat psikometrik (ukuran
psikologi) yang bermakna. Ini adalah disebabkan soalan yang terlalu mudah
akan dapat dijawab oleh hampir semua pelajar, sementara soalan yang terlalu
sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalan
tidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang
lebih tinggi keupayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan
mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.1.
Jadual 5.1: Aras Kesukaran dan Pengkelasan Item
Nilai (p)

Pengkelasan Item

0.00 0.20

Terlalu sukar

0.21 0.40

Sukar

0.41 0.60

Sederhana sukar

0.61 0.80

Mudah

0.81 1.00

Terlalu mudah

Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang


menjawab sesuatu item dengan betul. Lebih tinggi peratusan pelajar menjawab
sesuatu item dengan betul, lebih mudahlah item tersebut (Wood, 1960). Item yang
dijawab dengan betul oleh 85% pelajar akan mempunyai nilai p = 0.85, manakala
item yang dijawab dengan betul oleh 50% pelajar akan mempunyai nilai p = 0.50.
Sebaliknya, indeks kesukaran item boleh memberi jangkaan peratus pelajar yang
dapat menjawab item tersebut dengan betul. Misalnya, jika indeks kesukaran
bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawab item
tersebut dengan betul.
Sebagai ingatan, nilai p merupakan nilai yang relatif kepada sesuatu kumpulan
pelajar yang mengambil ujian. Nilai ini boleh berubah mengikut keupayaan
kumpulan pelajar tersebut, dan seterusnya boleh berubah sekiranya kumpulan
calon yang sama menduduki ujian kali kedua. Sebagai contoh, item manakah

445

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

lebih sukar antara Siapakah Tunku Abdul Rahman Putra Al- Haj? dan
Siapakah Tun Dr. Mahathir?. Kita tidak boleh menyatakan item mana yang
lebih sukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran
soalan ini selepas kita mentadbirkannya kepada sekumpulan pelajar dan mengira
nilai p bagi soalan ini.
Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, ; indeks
kesukarannya boleh dikira sebagai nisbah markah purata (markah min) kepada
julat markah penuh seperti berikut (Nitko, 2004: 317):
4*,.$-"$.-/$#&#*"!'.5"! ) " 6

2#&$#%"3/&#'#"
"7/8#'"2#&$#%"3.*/%

Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah
minimum 0 dan maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab
soalan ini dan mendapat markah seperti dalam jadual di bawah. Jumlah markah
bagi 10 orang pelajar ialah 63.0. Pengiran indeks kesukaran item ialah seperti
berikut:
7/58#%"5#&$#%"

2#&$#%"3/&#'#"

7/8#'"2#&$#%"3.*/%"

6 2#&$#%"5#$-!5/5 : 2#&$#%"5!*!5/5 6 ;< : < 6 ;<

4*,.$-"=.-/$#&#*"

"7/58#%").8#9#&

5678 9 :8

2#&$#%"3/&#'#"
"7/8#'"2#&$#%"3.*/%

576

5678 9 :8

8756

56;

Pelajar

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

Jumlah

Markah

6.5

3.5

7.0

2.5

4.5

8.5

9.0

6.5

9.5

5.5

63.0

Berbeza daripada indeks kesukaran item objektif, indeks kesukaran item


subjektif dapat menggambarkan markah purata bagi sesuatu item dalam peratus.
Contohnya, markah purata 6.3 (daripada 10) ialah 63% (iaitu sama dengan indeks
kesukaran didarabkan dengan 100).
Seterusnya, indeks kesukaran item yang dapat menghasilkan indeks diskriminasi
item (akan dibincangkan kemudian) yang maksimum ialah antara 0.50 hingga
0.85, bergantung kepada format item. Indeks kesukaran tersebut ialah 0.50 bagi
item berjawapan pendek/melengkap, 0.70 bagi item objektif lima-opsyen, 0.74
bagi item objektif empat-opsyen, 0.77 bagi item objektif tiga-opsyen, dan 0.85 bagi
item objektif dua-opsyen (betul/salah) [Lord (1952) dalam Mehrens & Lehmann
(1991)]. Selain itu, Nitko (2004: 323) menyatakan indeks kesukaran bagi itemitem ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah
antara 0.16 dan 0.84 (iaitu ada item-item mudah, sederhana sukar dan sukar);

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 444

sementara bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya,
membaca dan menulis) haruslah mempunyai indeks kesukaran item antara 0.40
hingga 0.60 (item-item sederhana sukar).
Selain menjadi panduan semasa membina item supaya indeks diskriminasi
menjadi maksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan
seperti dalam Jadual 5.2:
Jadual 5.2: Tujuan Indeks Kesukaran

Tujuan

Penerangan

Mengenal pasti konsep yang perlu diajar semula, iaitu apabila


guru mendapati soalan-soalan berkenaan tidak dapat dijawab oleh
sebahagian besar pelajar (soalan sukar)

Mengenal pasti dan melaporkan kekuatan dan kelemahan bahagianbahagian kurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak
boleh dikuasai pelajar

Memberi maklum balas kepada pelajar tentang kekuatan dan


kelemahan mereka bagi setiap tajuk pengajaran yang diuji

Mengenal pasti soalan yang biasa kepada sesuatu kandungan


(content bias), seperti kandungan yang ditekankan semasa pengajaran
(misalnya, diberi latih tubi/ulangan)

+( *'(2%&7=
Satu item subjektif diberi markah minimum satu dan maksimum lima.
Markah lima (5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran
item ini. Adakah item ini mudah atau susah?

&7= % *28-9)%8*)91*.*2()*%* -.
Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang
berkeupayaan tinggi, untuk matlamat tertentu, seperti melanjutkan pengajian
dalam bidang tertentu. Item/soalan yang baik akan dapat membezakan/
mendiskriminasikan antara mereka yang berkeupayaan rendah dan yang
berkeupayaan tinggi. Indeks yang diguna untuk menentukan perbezaan
keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi boleh
dikira melalui langkah-langkah Mehrens & Lehmann (1991) seperti berikut:

44=

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

1.

Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar


berpencapaian rendah (27% pelajar berpencapaian terendah), pelajar
berpencapaian sederhana (46% pelajar berpencapaian antara terendah dan
tertinggi) dan pelajar berpencapaian tinggi (27% pelajar berpencapaian
tertinggi).

2.

Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar


berpencapaian rendah (RL Right Lower), bilangan pelajar yang menjawab
dengan betul di kalangan pelajar berpencapaian tinggi (RU Right Upper)
dan jumlah pelajar berpencapaian rendah dan tinggi (T(L+U) Total).

3.

Indeks Diskriminasi boleh dikira dengan membahagikan perbezaan (RU


RL) dengan separuh T(L+U) seperti berikut:
4*,.$-" !-$&!5!*#-!"! , " 6

4.

"

! A > : A ? ""

" ;B C"D! ?@> "

"

! FE : ;E "
!;B C K;<H "

I<
6 <GEJ
EF

Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua
pelajar berpencapaian tinggi dan tiada seorang pun pelajar berpencapaian
rendah dapat menjawab soalan ini dengan betul (RU RL = 54 0 = 54):
4*,.$-" !-$&!5!*#-!"! , " 6

6.

" ;B C"D! ?@> "

Sebagai contoh, andaikan seramai 200 orang pelajar menjawab soalan


tertentu. Setelah 54 orang (27% daripada 200) pelajar berpencapaian tinggi
dikenal pasti, didapati 45 orang daripada mereka dapat menjawab soalan
tersebut dengan betul (RU = 45). Seterusnya, daripada 54 orang pelajar
berpencapaian rendah, seramai 15 orang dapat menjawab dengan betul (RL
= 15). Dalam contoh ini, jumlah pelajar berpencapaian rendah dan tinggi
ialah 108 orang (T = 54 + 54 = 108). Indeks Diskriminasi boleh dikira seperti
berikut:
4*,.$-" !-$&!5!*#-!"! , " 6

5.

! A > : A ? ""

! A > : A ? ""

" ;B C"D! ?@> "

"

! EF : < "
! ;B C # ;<H "

EF
6 ;G<<
EF

Indeks Diskriminasi boleh bernilai 0.00, sekiranya bilangan pelajar


berpencapaian tinggi dan rendah yang dapat menjawab soalan ini dengan
betul adalah sama (R R = 0).

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

4*,.$-" !-$&!5!*#-!"! , " 6

7.

! A > : A ? ""

" ;B C"D! ?@> "

"

! <"
! ;B C # ;<H "

"" 44>

<
6 <G<<
EF

Akhirnya, Indeks Diskriminasi boleh bernilai -1.00, sekiranya semua pelajar


berpencapaian rendah dan tiada seorang pun pelajar berpencapaian tinggi
dapat menjawab soalan ini dengan betul (RU RL = 0 - 54 = -54).

Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks
Diskriminasi boleh bernilai antara -1.00 hingga 1.00. Secara amnya, item yang
mempunyai Indeks Diskriminasi positif menunjukkan pelajar berpencapaian
tinggi lebih ramai dapat menjawab sesuatu soalan dengan betul daripada pelajar
berpencapaian rendah. Secara logiknya, kita memang mengandaikan lebih ramai
pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalan dengan betul
berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasi
hampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk
Penilaian Rujukan Norma (PRN) sebab ia dapat membezakan (discriminate) pelajar
berpencapaian tinggi/pandai daripada pelajar berpencapaian rendah/lemah.
Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif
yang menghampiri 0.00, soalan-soalan ini dikatakan tidak baik untuk PRN,
sebab ia tidak berupaya membezakan pelajar pandai daripada pelajar lemah.
Akhirnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi negatif yang
menghampiri -1.00, soalan-soalan ini dikatakan tidak baik untuk PRN, sebab ia
secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebih
ramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada
pelajar pandai. Justeru, pembina soalan perlu memperbaiki/menggantikan
soalan yang mempunyai Indeks Diskriminasi yang rendah atau pun negatif.
Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti
yang ditunjukkan dalam Jadual 5.3.
Jadual 5.3: Aras Diskriminasi dan Pengkelasan Item
Nilai (d)

Pengkelasan Item

0.00 0.10

Tidak baik

0.11 0.20

Kurang baik

0.21 0.30

Sederhana baik

0.31 0.40

Baik

0.41 1.00

Sangat baik

44?

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

Menurut Hanna dan Dettmer (2004: 252), soalan-soalan yang dibina


oleh guru hanya mempunyai Indeks Kesukaran antara 0.00 hingga 0.50.
Walaubagaimanapun, menurut Mehrens dan Lehmann (1991), Indeks
Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi 0.20,
sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian
rendah, separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi
daripada 0.20, sekiranya pelajar dibahagikan kepada 27% berpencapaian rendah
dan 27% berpencapaian tingggi. Seterusnya, Nitko (2004: 323) menyatakan
item yang boleh dipilih untuk sesuatu ujian hendaklah mempunyai Indeks
Diskriminasi melebihi 0.30. Justeru, sebagai kesimpulan, item/ soalan yang
baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30.
Walaubagaimanapun, Indeks Diskriminasi yang lebih tinggi diperlukan untuk
ujian-ujian PRN. Akhirnya, seperti juga Indeks Kesukaran, selain menjadi
panduan semasa membina item, Indek Diskriminasi juga boleh digunakan untuk
lima tujuan seperti dalam Jadual 5.4.
Jadual 5.4: Tujuan Indeks Diskriminasi
Tujuan

Penerangan

Mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru
mendapati soalan- soalan berkenaan tidak dapat dijawab oleh sebahagian
besar pelajar pandai

Mengenal pasti dan melaporkan kekuatan dan kelemahan bahagianbahagian kurikulum, iaitu yang tidak boleh dikuasai pelajar pandai

Memberi maklum balas kepada pelajar pandai tentang kelemahan mereka


bagi setiap tajuk pengajaran yang diuji

Mengenal pasti soalan yang bias kepada sesuatu kandungan, seperti


kandungan yang tidak ditekankan semasa pengajaran atau langsung tidak
diajar

Mengenal pasti pelajar-pelajar yang berpencapaian


melanjutkan pengajian dalam bidang-bidang tertentu

tinggi

untuk

+( *'(2%&7>
Seramai 40 daripada 50 orang pelajar berpencapaian rendah dapat
menjawab satu soalan objektif dengan betul, sementara 20 daripada 50
orang pelajar berpencapaian tinggi dapat menjawab soalan ini dengan
betul. Kira Indeks Diskriminasi soalan ini dan jelaskan kesesuaiannya.

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

&7> %

"" 44&

9-/@+-',-1A(B((2%:0*(2

2@ (%,-2 *23
Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan
ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut
(Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksud
ketekalan markah-markah yang dihasilkan oleh ujian tersebut.

Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan,


misalnya, apabila ujian yang sama diambil oleh pelajar kali kedua, ujian yang
sama ditadbirkan oleh guru lain, ujian yang sama diambil oleh pelajar pada
waktu yang berbeza (pagi/petang), jawapan kepada ujian yang sama diperiksa
oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujian yang
mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/
skor yang dihasilkan adalah hampir sama dalam apa jua keadaan.
Walaubagaimanapun, perlu diingatkan bahawa ujian yang mempunyai darjah
ketekalan yang tinggi, tidak semestinya menghasilkan ukuran yang sebenar/sah.
Dalam makmal sains, misalnya, seseorang guru mengharapkan berat yang sama
diperoleh apabila sesuatu benda ditimbang beberapa kali (katakan 90 gram).
Walaupun alat ini memberi berat yang sama (90 gram) setiap kali ditimbang,
tetapi berat ini kurang daripada berat sebenar (katakan kurang 10 gram).
Maka berat sebenar/sah bukanlah 90 gram, tetapi 100 gram. Ini menunjukkan,
walaupun sesuatu alat itu memberi ukuran yang sama (tekal), tetapi ukuran yang
diberikan adalah tidak benar/sah. Begitu juga dengan ujian, walaupun markah/
skor yang diberikan adalah sama dalam semua keadaan/situasi, tetapi ukuran
yang terhasil tidak menggambarkan keupayaan sebenar pelajar/calon.
Konsep asas teori pengukuran ialah skor yang diperoleh (observed score) daripada
mana-mana alat ukur (termasuk ukuran fizikal seperti berat dan ukuran abstrak
seperti kecerdasan) adalah terdiri daripada dua bahagian/komponen, iaitu (1)
skor sebenar (true score), iaitu ukuran sebenar sesuatu konstruk; dan (2) ralat
(error), iaitu kesilapan yang disebabkan oleh alat ukuran yang digunakan. Oleh
itu, kita boleh membuat andaian bahawa tiada skor yang dapat memberikan
ukuran sebenar sesuatu konstruk yang ingin diukur. Di sini konstruk bermaksud
konsep yang abstrak, yang telah diterjemahkan kepada pemboleh ubah yang
boleh diukur, seperti sikap, minat, motivasi, suhu, tekanan, berat dan jarak.
Justeru, sekiranya ukuran boleh dibuat tanpa ralat, maka kebolehpercayaan
alat ukurnya adalah tinggi. Walaubagaimanapun, disebabkan sesuatu ukuran
itu sentiasa mempunyai ralat, maka darjah kebolehpercayaannya akan berbeza,
bergantung kepada saiz ralatnya.

44C

&7>74%

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

*DEF$G%9FH!IFJ"FKLMNMMD

Dari segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar


(compute/estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran
yang boleh dikira menggunakan pelbagai kaedah. Seperti julat pekali korelasi,
julat indeks kebolehpercayaan juga adalah antara -1.00 hingga + 1.00. Indeks
kebolehpercayaan negatif menunjukkan ketekalan yang songsang, iaitu pelajar
yang mendapat skor tinggi dalam ujian kali pertama akan mendapat skor yang
rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap keadaan begini
tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan
bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah
memadai. Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut
indeks (r) seperti yang ditunjukkan dalam Jadual 5.5.
Jadual 5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian
Nilai (r)

Pengkelasan Ujian

< 0.20

Tidak baik

0.21 0.40

Kurang baik

0.41 0.60

Sederhana baik

0.61 0.80

Baik

0.81 1.00

Sangat baik

Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis


kebolehpercayaan dan juga kaedah menentukan indeksnya. Jenis-jenis
kebolehpercayaan seperti Rajah 5.2 ialah: (1) Ukuran Kestabilan (Measure of
Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran Kesetaraan
dan Kesetabilan (Measure of Equivalence and Stability), (4) Ukuran Ketekalan
Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa
(Scorer Reliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah
pengiraan indeks kebolehpercayaan berkenaan dijelaskan dalam bahagian
berikut.

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 44O

Rajah 5.2: Lima jenis kebolehpercayaan ujian Mehrens dan Lehmann (1991)

1.

Ukuran Kestabilan

2@ (%,-2 *23
Ukuran Kestabilan, yang juga dipanggil anggaran kebolehpercayaan
uji-uji semula (test-restest estimate of reliability) boleh dikira dengan
memberikan ujian yang sama sekali lagi kepada kumpulan pelajar
yang sama selepas ujian pertama ditadbirkan, dan seterusnya, mengira
pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap
pelajar.

Ukuran Kestabilan ini akan menggambarkan tahap keyakinan kepada kita


untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya
ujian ini diberi lagi sekali kepada mereka pada masa akan datang. Walau
bagaimanapun, Ukuran Kestabilan ini akan berbeza mengikut jarak
masa dan pengalaman/intervensi yang dilalui pelajar/calon antara dua
pentadbiran ujian tersebut. Biasanya Ukuran Kestabilan adalah tinggi
sekiranya jarak masa antara dua pentadbiran ujian adalah pendek. Ini
adalah disebabkan oleh, pertama, pelajar masih ingat jawapan kepada
soalan-soalan ujian, dan kedua, tidak ada pengalaman/intervensi (seperti
latih-tubi, kelas tusyen) antara dua pentadbiran ujian ini.

$& ! L ! : L " ! 0 ! : 0 " %(


<+=#"!&=(-+"#>!&<+#->($&&L0 6 '
$' *- L - 0 %(

446

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

di mana:
& ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x
ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua, n ialah
bilangan pelajar, sx ialah sisihan piawai skor ujian kali pertama dan sy ialah
sisihan piawai skor ujian kali kedua.
2.

Ukuran Kesetaraan

2@ (%,-2 *23
Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang
sama, Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira
dengan memberikan dua (2) ujian yang berbeza tapi setara (kesamaan
dari segi kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan
menjawab serta min, varians dan interkorelasi skor) kepada kumpulan
pelajar dan hari yang sama, dan seterusnya, mengira pekali korelasi
Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.
Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita
untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya
mereka diberi ujian yang terdiri daripada item-item lain yang setara dengan
item-item ujian yang telah diberikan. Ujian yang setara ini penting sekiranya
seseorang penyelidik enggan menggunakan soalan yang sama sebagai ujianpra dan ujian-pos (untuk mengelak daripada pelajar menghafal jawapan).
Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujianpra dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh
digunakan untuk menguji dua kumpulan pelajar yang berbeza pada
berlainan masa.
3.

Ukuran Kesetaraan dan Kestabilan


Ada kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar
untuk jangka masa yang panjang dengan menggunakan ujian yang
berbeza. Justeru, kaedah yang sesuai untuk membuat pengukuran ini
ialah dengan mentadbirkan ujian kedua yang setara dengan ujian pertama
(Ukuran Kesetaraan) pada suatu masa yang lain (Ukuran Kestabilan).
Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan Ukuran
Kestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks
kebolehpercayaan ini boleh ditentukan oleh pekali korelasi Pearson antara
dua/pasangan skor yang diperoleh setiap pelajar, iaitu skor ujian pertama
dan skor ujian kedua yang ditadbirkan kemudian.

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 44<

*,
Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan
kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar,
sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian
jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi
soalan ujian pertama terhadap jawapan ujian kedua, di samping menilai
pencapaian pelajar selepas jangka masa yang panjang.

4.

Ukuran Ketekalan Dalaman


Berbeza daripada ketiga-tiga ukuran ketekalan yang dijelaskan sebelum
ini, Ukuran Ketekalan Dalaman boleh ditentukan dengan menggunakan
sekali ujian sahaja. Salah satu daripada kaedah yang digunakan untuk
mengukur ketekalan dalaman ialah dengan membelah/memecahkan ujian
kepada separuh-separuh (split-half), iaitu separuh pertama dan separuh
kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkan
kesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh
kedua sesuatu ujian.
Justeru, Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama
dengan Ukuran Ketekalan Kesetaraan, yang menggambarkan kesetaraan
antara dua ujian yang berbeza. Kaedah-kaedah lain yang digunakan
untuk mengukur ketekalan dalam ujian ialah kaedah Kuder-Richardson
dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakan
sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan
darjah keseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu
menunjukkan hubungan/korelasi antara setiap item dengan jumlah skor
ujian (Mehrens & Lehmann, 1991).
(a)

Ukuran Ketekalan Dalaman Belah-Dua


Ukuran Ketekalan Dalaman Belah-Dua (r ) boleh dikira dengan
menggunakan korelasi Pearson (r) antara skor pelajar bagi separuh
pertama ujian dengan skor pelajar bagi separuh kedua ujian, yang
boleh dikira menggunakan rumus berikut:

&:

? ?

$& ! L ! : L " ! 0 ! : 0 " %(


6'
$' *- L - 0 %(

di mana:
&) ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor
separuh kedua ujian; x ialah min skor separuh pertama ujian, y ialah

4=5

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

min skor separuh kedua ujian; n ialah bilangan pelajar, sx ialah sisihan
piawai skor separuh pertama ujian dan sy ialah sisihan piawai skor
separuh kedua ujian.
Walaubagaimanapun, ukuran yang diperoleh melalui kaedah belahdua ini hanya memberikan darjah ketakalan dalaman bagi separuh
ujian sahaja. Untuk mendapatkan darjah ketekalan dalaman bagi
keseluruhan ujian (rSB), kita boleh gunakan rumus Spearman-Brown
seperti berikut:
&#$ % $ "&! " ! " %
'
(
Pekali Spearman-Brown

$! ' &! ! %
" " (
'

di mana:

r ialah pekali Ketekalan Dalaman Belah-Dua.

+( *'(2%&7?
Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80.
Kira Ukuran Ketekalan Dalaman bagi keseluruhan ujian.

(b) Kaedah Kuder-Richardson


Terdapat dua (2) kaedah Kuder-Richardson yang digunakan untuk
mengira Ukuran Ketekalan Dalaman bagi item yang berjawapan
dikotomi (betul/salah), iaitu K-R 20 dan K-R 21. K-R 20 digunakan
sekiranya Indeks Kesukaran Item (p) berbeza bagi semua item,
dan K-R 21 digunakan sekiranya indeks ini sama bagi semua item.
Walaubagaimanapun, rumus K-R 21 adalah lebih mudah digunakan
oleh guru disebabkan rumus ini tidak memerlukan banyak pengiraan.
Rumus-rumus tersebut dijelaskan seperti berikut:

$ @ %?8

# $ , !" %
*:@
+
# @: '
&? (

$ @ %?:

# $
*:@
# @: '

!# @ " %
#& ?

+
(

di mana:
k ialah bilangan item dalam ujian, ialah jumlah, p ialah kadar pelajar
yang menjawab item dengan betul (Indeks Kesukaran Item), q ialah

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 4=4

kadar pelajar yang salah menjawab item (q= 1-p, pq adalah varians skor
item), x ialah min skor keseluruhan item dan & ? ialah ialah variance
skor keseluruhan ujian.
(c)

Kaedah Cronbach
Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran
Ketekalan Dalaman. Kaedah ini ialah lanjutan kepada K-R 20 bagi
item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa
adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan &'? ,
iaitu varians bagi skor item. Pekali alfa adalah amat berguna bagi item
yang bukan berjawapan dikotomi, terutama item berbentuk esei yang
markahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa
adalah seperti berikut:

5.

# $ , &'? %
*: . ? +
# .: '
& (

Kebolehpercayaan Pemeriksa

2@ (%,-2 *23
Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang
diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas
jawapan yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian
berbentuk objektif, sebab jawapan kepada setiap soalan dalam ujian
bentuk ini adalah sama, iaitu perbezaan skor antara pemeriksa tidak
wujud (biasanya jawapan diperiksa oleh komputer sahaja).
Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan memberikan
jawapan sekumpulan pelajar yang sama kepada dua/ lebih pemeriksa.
Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan mencari pekali
korelasi Pearson antara dua skor pemeriksa bagi setiap soalan; atau korelasi
Spearman-Brown antara jumlah skor/skor min pemeriksa bagi keseluruhan
ujian. Kebolehpercayaan Pemeriksa ini akan memberikan tahap keyakinan
kepada kita untuk membuat generalisasi bahawa skor yang diberikan oleh
dua/lebih pemeriksa kepada pelajar adalah sama. Kebolehpercayaan ini
adalah penting untuk menyeragamkan pemberian markah, apabila skrip/
jawapan ujian diperiksa oleh ramai pemeriksa.

4==

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

&7>7=%

;M$P!K%NMDQ%.FR"FDQMKSJ#%9FH!IFJ"FKLMNMMD

Beberapa faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk


panjang ujian, kehomogenan kumpulan, kesukaran item dan objektiviti
jawapan. Bahagian berikut menjelaskan bagaimana faktor ini mempengaruhi
kebolehpercayaan ujian.
1.

Panjang Ujian

*,
Rumus Spearman-Brown yang digunakan untuk mengira pekali Ketekalan
Dalaman Belah-Dua boleh digunakan juga untuk mengira indeks
kebolehpercayaan ujian apabila itemnya ditambah atau dikurangkan.

Rumus am Spearman-Brown ialah seperti berikut:

)&(

$)
: / A $ . :B)

di mana:
K ialah nisbah bilangan item dalam ujian baru kepada bilangan item dalam
ujian asal dan r ialah pekali kebolehpercayaan ujian asal.
Bagi Ketekalan Dalaman Belah-Dua, nilai K=2, iaitu ujian baru (sebenar)
ialah dua kali ganda panjang/item ujian asal (separuh ujian sebenar) dan
r= r. Sekiranya bilangan item ditambah menjadi tiga kali ganda, iaitu K=3,
dan andaikan r=0.60, maka indeks kebolehpercayaan menjadi:

)&(

$)
: / A $ . :B)

! 6"! 8758 "

:7C8
:7C8
: / A6 . :BA8758B : / A?BA8758B : / A:7?8B

:7C8
?7?8

87C?

Justeru, indeks kebolehpercayaan akan meningkat, sekiranya ujian


bertambah panjang. Begitu juga sebaliknya, jika item asal dibuang, indeks
kebolehpercayaan akan menurun. Walaubagaimanapun, kita perlu ingat
bahawa item yang ditambah perlulah setara/seragam dengan item-item asal
ujian. Sekiranya item yang tidak setara ditambah kepada ujian asal, indeks
kebolehpercayaan tidak akan meningkat, dan mungkin akan menurun
disebabkan oleh item-itemnya tidak lagi setara.

2.

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 4=>

Kehomogenan Kumpulan
Faktor kedua yang mempengaruhi indeks kesukaran ialah kehomogenan
kumpulan pelajar/calon yang mengambil ujian. Dari segi teori, indeks
kebolehpercayaan diberikan oleh rumus:

: . &*?
&?

di mana &*? adalah varians ralat dan Sx adalah varians skor. Varians ralat
boleh diandaikan sebagai tetap, iaitu tidak berubah. Walaubagaimanapun,
kumpulan yang lebih homogenus (dari segi keupayaan) akan memberikan
varians skor ( & ? ) yang lebih kecil, sementara kumpulan yang lebih
heterogenus akan memberikan varians skor yang lebih besar. Justeru, indeks
kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadi
lebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang
lebih heterogenus akan menjadi lebih tinggi, berdasarkan kepada varians
skor ( & ? ).
3.

Kesukaran Item
Ujian yang terdiri daripada item-item yang mudah memberi peluang kepada
kebanyakan pelajar/calon untuk menjawab soalan dengan baik, yang
seterusnya akan memberikan skor yang hampir sama kepada pelajar/calon.
Ini akan menghasilkan varians skor yang rendah disebabkan oleh skor yang
homogenus, yang seterusnya, menghasilkan indeks kebolehpercayaan yang
rendah. Bagi ujian yang terdiri daripada item-item yang sukar, skor pelajar/
calon akan menjadi agak berbeza/heterogenus. Ini akan menghasilkan
varians skor yang besar dan seterusnya indeks kebolehpercayaan yang
tinggi. Kesimpulannya, ujian yang susah akan mewujudkan kumpulan yang
heterogenus, yang akan meningkatkan indeks kebolehpercayaan.

4.

Objektiviti Jawapan
Sebagaimana yang dijelaskan tentang Kebolehpercayaan Pemeriksa, itemitem yang mempunyai jawapan yang lebih objektif akan mempunyai
indeks kebolehpercayaan yang lebih tinggi, dan sebaliknya, item-item
yang mempunyai jawapan yang lebih subjektif akan mempunyai indeks
kebolehpercayaan yang lebih rendah.

+( *'(2%&7&
Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indeks
kebolehpercayaan bagi ujian yang dipendekkan kepada separuh
daripada ujian asal.

4=?

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

&7? % 9-)('(2%:0*(2
2@ (%,-2 *23
Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapat
mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna &
Dettmer, 2004). Juster, ciri kesahan bagi sesuatu alat ukuran adalah amat
penting supaya alat ukuran tersebut dapat mengukur apa yang hendak
diukur.
Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya
mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi.
Walaubagaimanapun, perlu diingatkan bahawa sesuatu alat ukuran itu tidak
semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk
tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan diagnosis
adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,
misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur
kebolehan mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia
dapat mengukur kemahiran mendengar.

&7?74%

0FD#G%9FGMJMD

Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk
menjelaskan jenis- jenis kesahan ini. Walaubagaimanapun, Mehrens dan
Lehmann (1991) hanya menyenarai dan menjelaskan empat jenis kesahan,
iaitu (1) kesahan kandungan (content validity), (2) kesahan konstruk (construct
validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan- kriteria
(criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam Rajah 5.3.

Rajah 5.3: Empat Jenis kesahan Mehrens dan Lehmann (1991)

1.

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 4=&

Kesahan Kandungan
Salah satu tujuan ujian ialah untuk menilai apa yang telah dipelajari pelajar
bagi sesuatu mata pelajaran pada akhir penggal/tahun persekolahan.
Walaubagaimanapun, ujian yang diberikan dalam masa yang agak pendek
itu tidak dapat menguji semua sukatan pelajaran. Soalan ujian hanya boleh
dianggap sebagai sampel/wakil kepada sukatan pelajaran yang begitu luas.

2@ (%,-2 *23
Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran
itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan
kandungan adalah penting, terutama bagi ujian pencapaian, sebab
markah yang diperoleh pelajar akan menunjukkan tahap pencapaian
pelajar tersebut bagi kandungan pelajaran tertentu. Sekiranya soalan
ujian tidak meliputi secukupnya kandungan pelajaran tersebut,
penilaian terhadap pencapaian pelajar menjadi tidak sah/bias.
Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan,
seperti merujuk semula kepada buku rekod pengajaran dan juga sukatan
pelajaran. Selain itu, guru boleh menggunakan Jadual Penentuan Ujian
(JPU) dan membina soalan-soalan ujian mengikut jadual tersebut. Kaedahkaedah ini dapat memastikan soalan-soalan ujian mewakili semua objektif
pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujian
bahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas
tentang kemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran
lisan, membaca, menulis karangan, meringkaskan karangan, tatabahasa,
peribahasa, kosa kata dan sebagainya.
2.

Kesahan Konstruk

2@ (%,-2 *23
Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat
ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori
psikologi tertentu.
Sebagai contoh, alat yang dibina untuk mengukur konstruk sabar
sepatutnya dapat mengukur konstruk ini dengan baik. Untuk memastikan
alat ini dapat mengukur konstruk sabar, pembina item inventori ini perlu
terlebih dahulu memahami maksud tidak sabar, kurang sabar dan
sabar dan juga ciri-ciri orang yang tidak sabar, kurang sabar dan
sabar. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh
didapati daripada kajian-kajian dalam bidang psikologi atau pun daripada
pengalaman sendiri.

4=C

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

Selepas pembina item benar-benar memahami dan menghayati ciri-ciri


tersebut, barulah item-item dibina (berasaskan kepada ciri-ciri tersebut)
supaya inventori yang terhasil dapat mengukur konstruk sabar. Justeru,
sekiranya inventori ini ditadbirkan kepada orang yang sabar, ia boleh
mencerap ciri-ciri orang yang sabar, sebaliknya, jika inventori ini ditadbirkan
kepada orang yang tidak/kurang sabar, inventori ini akan mencerap ciriciri orang yang tidak/kurang sabar. Inventori yang mempunyai kesahan
konstruk ini akan dapat mengkelaskan dengan tepat seseorang yang
menjawab inventori ini kepada, sama ada orang yang tidak sabar, kurang
sabar atau sabar. Kesahan konstruk adalah penting kepada ahli-ahli
pendidikan dan psikologi yang ingin membuat kajian tentang konstruk.
3.

Kesahan Muka

2@ (%,-2 *23
Sebenarnya, kesahan muka bukanlah kesahan seperti definisinya yang
kita fahami, tetapi ia lebih kepada sesuatu alat ukuran nampak pada
permukaannya mempunyai kesahan yang tinggi. Ini bermaksud, sekali
pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih
nampak alat ini sebagai sah.
Walaubagaimanapun, kesahan muka mempunyai kepentingannya sendiri,
mempengaruhi orang yang menjawab item inventori merasa yakin terhadap
inventori tersebut. Sekiranya inventori ini dirasakan tidak sesuai, besar
kemungkinan orang tidak akan menjawab item-itemnya secara serius,
skornya dirasakan tidak sah dan, dengan demikian, tidak boleh digunakan.
Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan
konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu
mengetahui apa yang ingin diukur, dia akan memberikan jawapan yang
sentiasa positif.
4.

Kesahan Hubungan-Kriteria

2@ (%,-2 *23
Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu
alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan
dengan beberapa ukuran luaran (kriteria).
Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama,
ukuran serentak(concurrent measure), iaitu apabila ukuran luaran diambil
serentak dengan ukuran alat; dan kedua, ukuran ramalan (predictive

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

"" 4=O

measure), iaitu apabila ukuran luaran diambil selepas ukuran alat. Daripada
ukuran-ukuran luaran ini, kita boleh mencari kesahan serentak dan kesahan
ramalan seperti berikut.

Kesahan Serentak

2@ (%,-2 *23
Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil serentak.
Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan
skor yang mempunyai hubungan (pekali korelasi tinggi) yang kuat
dengan skor daripada alat ukuran kecedasan B, maka alat A dikatakan
mempunyai kesahan serentak yang tinggi. Dengan demikian, alat A
boleh mengganti alat B untuk mengukur kecerdasan.

Kesahan Ramalan

2@ (%,-2 *23
Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil kemudian.

Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah


yang mempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian
matematik percubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini
bermakna pencapaian pelajar dalam ujian percubaan dapat meramal keputusan
SPM.

&7?7=%

9MFEMJ%.FDQ#KM%*DEF$G%9FGMJMD

Daripada empat kesahan ujian yang dibincangkan, kesahan kandungan dan


kesahan muka tidak dapat diukur/dijelas dengan menggunakan indeks
kesahan, Kedua-dua kesahan ini dapat dijelaskan secara kualitatif sahaja.
Walaubagaimanapun, kesahan konstruk, kesahan serentak dan kesahan ramalan
boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekali korelasi
antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan
alat lain.

4=6

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

Bagi kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur


darjah kesahan, persamaan regresi boleh digunakan untuk meramal skor kriteria.
Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian
kedua (y) yang menghasilkan persamaan regresi y = ax + b, di mana a dan b ialah
angkatap (constant). Skor ujian kedua (y) boleh diramal oleh skor ujian pertama
(x) dengan menggantikan nilai x dalam persamaan regresi ini.

+( *'(2%&7C
Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yang
menghasilkan persamaan regresi y = 10x 5. Kira skor Ujian B (ramalan)
sekiranya skor Ujian A ialah 9.

1:.:)(2
Topik ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan
ujian yang perlu dibuat untuk memastikan soalan dan ujian sesuai digunakan.
Analisis soalan dibuat untuk menilai kesesuaian soalan tersebut, terutama dari
segi aras kesukaran dan kuasa diskriminasinya. Seterusnya, ujian yang terdiri
daripada soalan-soalan tertentu, perlu dianalisis untuk menilai kesesuaiannya
bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaan ujian, yang
boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu,
analisis kesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian
itu dapat mengukur apa yang hendak diukur. Analisis kesahan yang
dibincangkan termasuk kesahan kandungan, kesahan konstruk, kesahan muka
dan kesahan hubungan kriteria (kesahan serentak dan kesahan ramalan). Selain
menjelaskan analisis-analisis di atas, topik ini juga menurunkan beberapa
kaedah pengiraan untuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.

Indeks Diskriminasi
Indeks Kebolehpercayaan
Indeks Kesahan
Kesahan Konstruk

Kesahan Kandungan
Kesahan Kriteria
Kesahan Muka

"" 4=<

!"#$%&% $'('()*#*+%# ',%-*+%).#*+%

:0*(2%4
1.

Apakah perbezaan antara item dengan soalan?

2.

Jelaskan maksud indeks kesukaran item.

3.

Apakah yang anda faham tentang kesahan konstruk?

:0*(2%=
1.

Jelaskan maksud indeks diskriminasi item.

2.

Berikan dua (2) tujuan mendiskriminasikan pelajar dalam ujian.

3.

Jadual berikut menunjukkan bilangan pelajar yang memilih jawapan bagi


satu item ujian objektif. Kira indeks kesukaran dan indeks diskriminasi item
ini (B* adalah jawapan yang betul). Adakah item ini baik?
Kategori Pelajar

B*

Jumlah

Lemah

27

Sederhana

12

20

46

Pandai

23

27

Jumlah

22

52

15

11

100

1:0:9(2
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.
Psychometrika, 16, 297-334.
Hanna, G.S. & Dettmer, P.A. (2004). Assessment for effective teaching: Using contextadaptive planning. Boston: Pearson-Allan & Allyn and Bacon.
Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education and
psychology (4th ed.). Chicago: Holt, Rinehart and Winston.

4>5

!"#$%&% $'('()*#*+%# ',%-*+%).#*+

Moskal, B., et al (2002). Validity, reliability and the assessment of engineering


education. Journal of Engineering Education.
Nitko, A.J. (2004). Educational assessment of students. Upper Saddle River, N.J.:
Pearson- Merill Prentice Hall.
Thorndike, et al. (1991). Measurement and evaluation in psychology and education (5th
Ed.). New York : Macmillan
Wood, D.A. (1960). Test construction. Columbus, OH; Charles E. Merill Books, Inc.
Van Krieken, R. (1995). Writing and administring examinations. CITO.
Van Dalen, D.P. (1979). Understanding educational research. (4th ed.). McGraw-Hill.
Inc.