"#$% Kesesuaian
&
Item dan
Ujian
'()*+%,-./-+(0(1(2
!"#$%!&"'()!$"!*!+"#*,#"-.%#&/-*0#",#)#'1
1.
2.
! ,-23-2(+(2
Anda telah melalui pembinaan item ujian di Tajuk 4. Sekarang ini selepas item
dibina dan ujian digubal, analisis item dan ujian perlu dibuat untuk memastikan
item/soalan dan ujian yang dihasilkan itu sesuai digunakan. Analisis item
membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya,
iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu
kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkan keupayaan
sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepas
membuat analisis item, anda digalakkan membuat analisis ujian (satu set item
yang dibina) untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh
ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini. Analisisanalisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran
Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan Ujian dan Indeks
Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yang dihasilkan
adalah sesuai/sah bagi sesuatu tujuan tertentu.
456
&74 % *28-9)%9-):9(1(2%* -.
;*9*1
Pernahkah anda terfikir bagaimanakah tahap-tahap kesukaran sesuatu
ujian bertulis tersebut diadakan? Apakah spesifikasi yang digunakan
bagi membolehkan sesuatu ujian tersebut sesuai pada masa ia diadakan?
Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks
kesukaran item (item difficulty index, p). Indeks ini dapat menunjukkan aras
kesukaran sesuatu item, iaitu sama ada sesuatu item itu mudah dijawab atau
susah dijawab. Bagi ujian berbentuk objektif (betul/salah, isi tempat kosong,
padanan, beraneka pilihan), indeks ini dikira dengan menggunakan nisbah
bilangan calon yang memberi jawapan betul bagi item tertentu kepada jumlah
calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan
berikut:
!"#$%#$&'#"($&)#$%&*+*,+-!&.#/#0#$&,+12"
32*"#4&'#"($&)#$%&*+$.#/#,
Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar
daripada sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi
soalan ini ialah 30/40 = 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada
seorang pelajar pun dapat menjawab dengan betul, maka nilai p akan menjadi 0
(soalan amat sukar), tetapi jika semua pelajar dapat menjawab dengan betul, nilai
p akan menjadi 1 (soalan terlalu mudah). Justeru, item yang sukar mempunyai
nilai p yang rendah, sebaliknya item yang mudah mempunyai nilai p yang tinggi,
seperti yang ditunjukkan dalam Rajah 5.1.
"" 45<
+( *'(2%&74
Item A mendapat respons betul oleh 50 daripada 80 orang pelajar,
sementara Item B mendapat respons betul oleh 20 daripada 40 orang
pelajar. Item mana yang lebih sukar?
Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu
diingatkan bahawa soalan yang terlalu mudah (p > 0.85) atau soalan yang
terlalu sukar (p < 0.15) tidak dapat memberikan maklumat psikometrik (ukuran
psikologi) yang bermakna. Ini adalah disebabkan soalan yang terlalu mudah
akan dapat dijawab oleh hampir semua pelajar, sementara soalan yang terlalu
sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalan
tidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang
lebih tinggi keupayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan
mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.1.
Jadual 5.1: Aras Kesukaran dan Pengkelasan Item
Nilai (p)
Pengkelasan Item
0.00 0.20
Terlalu sukar
0.21 0.40
Sukar
0.41 0.60
Sederhana sukar
0.61 0.80
Mudah
0.81 1.00
Terlalu mudah
445
lebih sukar antara Siapakah Tunku Abdul Rahman Putra Al- Haj? dan
Siapakah Tun Dr. Mahathir?. Kita tidak boleh menyatakan item mana yang
lebih sukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran
soalan ini selepas kita mentadbirkannya kepada sekumpulan pelajar dan mengira
nilai p bagi soalan ini.
Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, ; indeks
kesukarannya boleh dikira sebagai nisbah markah purata (markah min) kepada
julat markah penuh seperti berikut (Nitko, 2004: 317):
4*,.$-"$.-/$#&#*"!'.5"! ) " 6
2#&$#%"3/&#'#"
"7/8#'"2#&$#%"3.*/%
Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah
minimum 0 dan maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab
soalan ini dan mendapat markah seperti dalam jadual di bawah. Jumlah markah
bagi 10 orang pelajar ialah 63.0. Pengiran indeks kesukaran item ialah seperti
berikut:
7/58#%"5#&$#%"
2#&$#%"3/&#'#"
7/8#'"2#&$#%"3.*/%"
4*,.$-"=.-/$#&#*"
"7/58#%").8#9#&
5678 9 :8
2#&$#%"3/&#'#"
"7/8#'"2#&$#%"3.*/%
576
5678 9 :8
8756
56;
Pelajar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
Jumlah
Markah
6.5
3.5
7.0
2.5
4.5
8.5
9.0
6.5
9.5
5.5
63.0
"" 444
sementara bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya,
membaca dan menulis) haruslah mempunyai indeks kesukaran item antara 0.40
hingga 0.60 (item-item sederhana sukar).
Selain menjadi panduan semasa membina item supaya indeks diskriminasi
menjadi maksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan
seperti dalam Jadual 5.2:
Jadual 5.2: Tujuan Indeks Kesukaran
Tujuan
Penerangan
Mengenal pasti dan melaporkan kekuatan dan kelemahan bahagianbahagian kurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak
boleh dikuasai pelajar
+( *'(2%&7=
Satu item subjektif diberi markah minimum satu dan maksimum lima.
Markah lima (5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran
item ini. Adakah item ini mudah atau susah?
&7= % *28-9)%8*)91*.*2()*%* -.
Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang
berkeupayaan tinggi, untuk matlamat tertentu, seperti melanjutkan pengajian
dalam bidang tertentu. Item/soalan yang baik akan dapat membezakan/
mendiskriminasikan antara mereka yang berkeupayaan rendah dan yang
berkeupayaan tinggi. Indeks yang diguna untuk menentukan perbezaan
keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi boleh
dikira melalui langkah-langkah Mehrens & Lehmann (1991) seperti berikut:
44=
1.
2.
3.
4.
"
! A > : A ? ""
"
! FE : ;E "
!;B C K;<H "
I<
6 <GEJ
EF
Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua
pelajar berpencapaian tinggi dan tiada seorang pun pelajar berpencapaian
rendah dapat menjawab soalan ini dengan betul (RU RL = 54 0 = 54):
4*,.$-" !-$&!5!*#-!"! , " 6
6.
5.
! A > : A ? ""
! A > : A ? ""
"
! EF : < "
! ;B C # ;<H "
EF
6 ;G<<
EF
7.
! A > : A ? ""
"
! <"
! ;B C # ;<H "
"" 44>
<
6 <G<<
EF
Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks
Diskriminasi boleh bernilai antara -1.00 hingga 1.00. Secara amnya, item yang
mempunyai Indeks Diskriminasi positif menunjukkan pelajar berpencapaian
tinggi lebih ramai dapat menjawab sesuatu soalan dengan betul daripada pelajar
berpencapaian rendah. Secara logiknya, kita memang mengandaikan lebih ramai
pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalan dengan betul
berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasi
hampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk
Penilaian Rujukan Norma (PRN) sebab ia dapat membezakan (discriminate) pelajar
berpencapaian tinggi/pandai daripada pelajar berpencapaian rendah/lemah.
Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif
yang menghampiri 0.00, soalan-soalan ini dikatakan tidak baik untuk PRN,
sebab ia tidak berupaya membezakan pelajar pandai daripada pelajar lemah.
Akhirnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi negatif yang
menghampiri -1.00, soalan-soalan ini dikatakan tidak baik untuk PRN, sebab ia
secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebih
ramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada
pelajar pandai. Justeru, pembina soalan perlu memperbaiki/menggantikan
soalan yang mempunyai Indeks Diskriminasi yang rendah atau pun negatif.
Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti
yang ditunjukkan dalam Jadual 5.3.
Jadual 5.3: Aras Diskriminasi dan Pengkelasan Item
Nilai (d)
Pengkelasan Item
0.00 0.10
Tidak baik
0.11 0.20
Kurang baik
0.21 0.30
Sederhana baik
0.31 0.40
Baik
0.41 1.00
Sangat baik
44?
Penerangan
Mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru
mendapati soalan- soalan berkenaan tidak dapat dijawab oleh sebahagian
besar pelajar pandai
Mengenal pasti dan melaporkan kekuatan dan kelemahan bahagianbahagian kurikulum, iaitu yang tidak boleh dikuasai pelajar pandai
tinggi
untuk
+( *'(2%&7>
Seramai 40 daripada 50 orang pelajar berpencapaian rendah dapat
menjawab satu soalan objektif dengan betul, sementara 20 daripada 50
orang pelajar berpencapaian tinggi dapat menjawab soalan ini dengan
betul. Kira Indeks Diskriminasi soalan ini dan jelaskan kesesuaiannya.
&7> %
"" 44&
9-/@+-',-1A(B((2%:0*(2
2@ (%,-2 *23
Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan
ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut
(Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksud
ketekalan markah-markah yang dihasilkan oleh ujian tersebut.
44C
&7>74%
*DEF$G%9FH!IFJ"FKLMNMMD
Pengkelasan Ujian
< 0.20
Tidak baik
0.21 0.40
Kurang baik
0.41 0.60
Sederhana baik
0.61 0.80
Baik
0.81 1.00
Sangat baik
"" 44O
Rajah 5.2: Lima jenis kebolehpercayaan ujian Mehrens dan Lehmann (1991)
1.
Ukuran Kestabilan
2@ (%,-2 *23
Ukuran Kestabilan, yang juga dipanggil anggaran kebolehpercayaan
uji-uji semula (test-restest estimate of reliability) boleh dikira dengan
memberikan ujian yang sama sekali lagi kepada kumpulan pelajar
yang sama selepas ujian pertama ditadbirkan, dan seterusnya, mengira
pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap
pelajar.
446
di mana:
& ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x
ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua, n ialah
bilangan pelajar, sx ialah sisihan piawai skor ujian kali pertama dan sy ialah
sisihan piawai skor ujian kali kedua.
2.
Ukuran Kesetaraan
2@ (%,-2 *23
Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang
sama, Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira
dengan memberikan dua (2) ujian yang berbeza tapi setara (kesamaan
dari segi kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan
menjawab serta min, varians dan interkorelasi skor) kepada kumpulan
pelajar dan hari yang sama, dan seterusnya, mengira pekali korelasi
Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.
Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita
untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya
mereka diberi ujian yang terdiri daripada item-item lain yang setara dengan
item-item ujian yang telah diberikan. Ujian yang setara ini penting sekiranya
seseorang penyelidik enggan menggunakan soalan yang sama sebagai ujianpra dan ujian-pos (untuk mengelak daripada pelajar menghafal jawapan).
Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujianpra dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh
digunakan untuk menguji dua kumpulan pelajar yang berbeza pada
berlainan masa.
3.
"" 44<
*,
Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan
kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar,
sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian
jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi
soalan ujian pertama terhadap jawapan ujian kedua, di samping menilai
pencapaian pelajar selepas jangka masa yang panjang.
4.
&:
? ?
di mana:
&) ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor
separuh kedua ujian; x ialah min skor separuh pertama ujian, y ialah
4=5
min skor separuh kedua ujian; n ialah bilangan pelajar, sx ialah sisihan
piawai skor separuh pertama ujian dan sy ialah sisihan piawai skor
separuh kedua ujian.
Walaubagaimanapun, ukuran yang diperoleh melalui kaedah belahdua ini hanya memberikan darjah ketakalan dalaman bagi separuh
ujian sahaja. Untuk mendapatkan darjah ketekalan dalaman bagi
keseluruhan ujian (rSB), kita boleh gunakan rumus Spearman-Brown
seperti berikut:
&#$ % $ "&! " ! " %
'
(
Pekali Spearman-Brown
$! ' &! ! %
" " (
'
di mana:
+( *'(2%&7?
Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80.
Kira Ukuran Ketekalan Dalaman bagi keseluruhan ujian.
$ @ %?8
# $ , !" %
*:@
+
# @: '
&? (
$ @ %?:
# $
*:@
# @: '
!# @ " %
#& ?
+
(
di mana:
k ialah bilangan item dalam ujian, ialah jumlah, p ialah kadar pelajar
yang menjawab item dengan betul (Indeks Kesukaran Item), q ialah
"" 4=4
kadar pelajar yang salah menjawab item (q= 1-p, pq adalah varians skor
item), x ialah min skor keseluruhan item dan & ? ialah ialah variance
skor keseluruhan ujian.
(c)
Kaedah Cronbach
Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran
Ketekalan Dalaman. Kaedah ini ialah lanjutan kepada K-R 20 bagi
item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa
adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan &'? ,
iaitu varians bagi skor item. Pekali alfa adalah amat berguna bagi item
yang bukan berjawapan dikotomi, terutama item berbentuk esei yang
markahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa
adalah seperti berikut:
5.
# $ , &'? %
*: . ? +
# .: '
& (
Kebolehpercayaan Pemeriksa
2@ (%,-2 *23
Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang
diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas
jawapan yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian
berbentuk objektif, sebab jawapan kepada setiap soalan dalam ujian
bentuk ini adalah sama, iaitu perbezaan skor antara pemeriksa tidak
wujud (biasanya jawapan diperiksa oleh komputer sahaja).
Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan memberikan
jawapan sekumpulan pelajar yang sama kepada dua/ lebih pemeriksa.
Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan mencari pekali
korelasi Pearson antara dua skor pemeriksa bagi setiap soalan; atau korelasi
Spearman-Brown antara jumlah skor/skor min pemeriksa bagi keseluruhan
ujian. Kebolehpercayaan Pemeriksa ini akan memberikan tahap keyakinan
kepada kita untuk membuat generalisasi bahawa skor yang diberikan oleh
dua/lebih pemeriksa kepada pelajar adalah sama. Kebolehpercayaan ini
adalah penting untuk menyeragamkan pemberian markah, apabila skrip/
jawapan ujian diperiksa oleh ramai pemeriksa.
4==
&7>7=%
;M$P!K%NMDQ%.FR"FDQMKSJ#%9FH!IFJ"FKLMNMMD
Panjang Ujian
*,
Rumus Spearman-Brown yang digunakan untuk mengira pekali Ketekalan
Dalaman Belah-Dua boleh digunakan juga untuk mengira indeks
kebolehpercayaan ujian apabila itemnya ditambah atau dikurangkan.
)&(
$)
: / A $ . :B)
di mana:
K ialah nisbah bilangan item dalam ujian baru kepada bilangan item dalam
ujian asal dan r ialah pekali kebolehpercayaan ujian asal.
Bagi Ketekalan Dalaman Belah-Dua, nilai K=2, iaitu ujian baru (sebenar)
ialah dua kali ganda panjang/item ujian asal (separuh ujian sebenar) dan
r= r. Sekiranya bilangan item ditambah menjadi tiga kali ganda, iaitu K=3,
dan andaikan r=0.60, maka indeks kebolehpercayaan menjadi:
)&(
$)
: / A $ . :B)
:7C8
:7C8
: / A6 . :BA8758B : / A?BA8758B : / A:7?8B
:7C8
?7?8
87C?
2.
"" 4=>
Kehomogenan Kumpulan
Faktor kedua yang mempengaruhi indeks kesukaran ialah kehomogenan
kumpulan pelajar/calon yang mengambil ujian. Dari segi teori, indeks
kebolehpercayaan diberikan oleh rumus:
: . &*?
&?
di mana &*? adalah varians ralat dan Sx adalah varians skor. Varians ralat
boleh diandaikan sebagai tetap, iaitu tidak berubah. Walaubagaimanapun,
kumpulan yang lebih homogenus (dari segi keupayaan) akan memberikan
varians skor ( & ? ) yang lebih kecil, sementara kumpulan yang lebih
heterogenus akan memberikan varians skor yang lebih besar. Justeru, indeks
kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadi
lebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang
lebih heterogenus akan menjadi lebih tinggi, berdasarkan kepada varians
skor ( & ? ).
3.
Kesukaran Item
Ujian yang terdiri daripada item-item yang mudah memberi peluang kepada
kebanyakan pelajar/calon untuk menjawab soalan dengan baik, yang
seterusnya akan memberikan skor yang hampir sama kepada pelajar/calon.
Ini akan menghasilkan varians skor yang rendah disebabkan oleh skor yang
homogenus, yang seterusnya, menghasilkan indeks kebolehpercayaan yang
rendah. Bagi ujian yang terdiri daripada item-item yang sukar, skor pelajar/
calon akan menjadi agak berbeza/heterogenus. Ini akan menghasilkan
varians skor yang besar dan seterusnya indeks kebolehpercayaan yang
tinggi. Kesimpulannya, ujian yang susah akan mewujudkan kumpulan yang
heterogenus, yang akan meningkatkan indeks kebolehpercayaan.
4.
Objektiviti Jawapan
Sebagaimana yang dijelaskan tentang Kebolehpercayaan Pemeriksa, itemitem yang mempunyai jawapan yang lebih objektif akan mempunyai
indeks kebolehpercayaan yang lebih tinggi, dan sebaliknya, item-item
yang mempunyai jawapan yang lebih subjektif akan mempunyai indeks
kebolehpercayaan yang lebih rendah.
+( *'(2%&7&
Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indeks
kebolehpercayaan bagi ujian yang dipendekkan kepada separuh
daripada ujian asal.
4=?
&7? % 9-)('(2%:0*(2
2@ (%,-2 *23
Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapat
mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna &
Dettmer, 2004). Juster, ciri kesahan bagi sesuatu alat ukuran adalah amat
penting supaya alat ukuran tersebut dapat mengukur apa yang hendak
diukur.
Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya
mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi.
Walaubagaimanapun, perlu diingatkan bahawa sesuatu alat ukuran itu tidak
semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk
tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan diagnosis
adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,
misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur
kebolehan mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia
dapat mengukur kemahiran mendengar.
&7?74%
0FD#G%9FGMJMD
Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk
menjelaskan jenis- jenis kesahan ini. Walaubagaimanapun, Mehrens dan
Lehmann (1991) hanya menyenarai dan menjelaskan empat jenis kesahan,
iaitu (1) kesahan kandungan (content validity), (2) kesahan konstruk (construct
validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan- kriteria
(criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam Rajah 5.3.
1.
"" 4=&
Kesahan Kandungan
Salah satu tujuan ujian ialah untuk menilai apa yang telah dipelajari pelajar
bagi sesuatu mata pelajaran pada akhir penggal/tahun persekolahan.
Walaubagaimanapun, ujian yang diberikan dalam masa yang agak pendek
itu tidak dapat menguji semua sukatan pelajaran. Soalan ujian hanya boleh
dianggap sebagai sampel/wakil kepada sukatan pelajaran yang begitu luas.
2@ (%,-2 *23
Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran
itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan
kandungan adalah penting, terutama bagi ujian pencapaian, sebab
markah yang diperoleh pelajar akan menunjukkan tahap pencapaian
pelajar tersebut bagi kandungan pelajaran tertentu. Sekiranya soalan
ujian tidak meliputi secukupnya kandungan pelajaran tersebut,
penilaian terhadap pencapaian pelajar menjadi tidak sah/bias.
Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan,
seperti merujuk semula kepada buku rekod pengajaran dan juga sukatan
pelajaran. Selain itu, guru boleh menggunakan Jadual Penentuan Ujian
(JPU) dan membina soalan-soalan ujian mengikut jadual tersebut. Kaedahkaedah ini dapat memastikan soalan-soalan ujian mewakili semua objektif
pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujian
bahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas
tentang kemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran
lisan, membaca, menulis karangan, meringkaskan karangan, tatabahasa,
peribahasa, kosa kata dan sebagainya.
2.
Kesahan Konstruk
2@ (%,-2 *23
Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat
ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori
psikologi tertentu.
Sebagai contoh, alat yang dibina untuk mengukur konstruk sabar
sepatutnya dapat mengukur konstruk ini dengan baik. Untuk memastikan
alat ini dapat mengukur konstruk sabar, pembina item inventori ini perlu
terlebih dahulu memahami maksud tidak sabar, kurang sabar dan
sabar dan juga ciri-ciri orang yang tidak sabar, kurang sabar dan
sabar. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh
didapati daripada kajian-kajian dalam bidang psikologi atau pun daripada
pengalaman sendiri.
4=C
Kesahan Muka
2@ (%,-2 *23
Sebenarnya, kesahan muka bukanlah kesahan seperti definisinya yang
kita fahami, tetapi ia lebih kepada sesuatu alat ukuran nampak pada
permukaannya mempunyai kesahan yang tinggi. Ini bermaksud, sekali
pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih
nampak alat ini sebagai sah.
Walaubagaimanapun, kesahan muka mempunyai kepentingannya sendiri,
mempengaruhi orang yang menjawab item inventori merasa yakin terhadap
inventori tersebut. Sekiranya inventori ini dirasakan tidak sesuai, besar
kemungkinan orang tidak akan menjawab item-itemnya secara serius,
skornya dirasakan tidak sah dan, dengan demikian, tidak boleh digunakan.
Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan
konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu
mengetahui apa yang ingin diukur, dia akan memberikan jawapan yang
sentiasa positif.
4.
Kesahan Hubungan-Kriteria
2@ (%,-2 *23
Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu
alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan
dengan beberapa ukuran luaran (kriteria).
Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama,
ukuran serentak(concurrent measure), iaitu apabila ukuran luaran diambil
serentak dengan ukuran alat; dan kedua, ukuran ramalan (predictive
"" 4=O
measure), iaitu apabila ukuran luaran diambil selepas ukuran alat. Daripada
ukuran-ukuran luaran ini, kita boleh mencari kesahan serentak dan kesahan
ramalan seperti berikut.
Kesahan Serentak
2@ (%,-2 *23
Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil serentak.
Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan
skor yang mempunyai hubungan (pekali korelasi tinggi) yang kuat
dengan skor daripada alat ukuran kecedasan B, maka alat A dikatakan
mempunyai kesahan serentak yang tinggi. Dengan demikian, alat A
boleh mengganti alat B untuk mengukur kecerdasan.
Kesahan Ramalan
2@ (%,-2 *23
Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu
dapat menghasilkan skor yang mempunyai hubungan dengan ukuran
daripada alat lain yang diambil kemudian.
&7?7=%
9MFEMJ%.FDQ#KM%*DEF$G%9FGMJMD
4=6
+( *'(2%&7C
Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yang
menghasilkan persamaan regresi y = 10x 5. Kira skor Ujian B (ramalan)
sekiranya skor Ujian A ialah 9.
1:.:)(2
Topik ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan
ujian yang perlu dibuat untuk memastikan soalan dan ujian sesuai digunakan.
Analisis soalan dibuat untuk menilai kesesuaian soalan tersebut, terutama dari
segi aras kesukaran dan kuasa diskriminasinya. Seterusnya, ujian yang terdiri
daripada soalan-soalan tertentu, perlu dianalisis untuk menilai kesesuaiannya
bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaan ujian, yang
boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu,
analisis kesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian
itu dapat mengukur apa yang hendak diukur. Analisis kesahan yang
dibincangkan termasuk kesahan kandungan, kesahan konstruk, kesahan muka
dan kesahan hubungan kriteria (kesahan serentak dan kesahan ramalan). Selain
menjelaskan analisis-analisis di atas, topik ini juga menurunkan beberapa
kaedah pengiraan untuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.
Indeks Diskriminasi
Indeks Kebolehpercayaan
Indeks Kesahan
Kesahan Konstruk
Kesahan Kandungan
Kesahan Kriteria
Kesahan Muka
"" 4=<
:0*(2%4
1.
2.
3.
:0*(2%=
1.
2.
3.
B*
Jumlah
Lemah
27
Sederhana
12
20
46
Pandai
23
27
Jumlah
22
52
15
11
100
1:0:9(2
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.
Psychometrika, 16, 297-334.
Hanna, G.S. & Dettmer, P.A. (2004). Assessment for effective teaching: Using contextadaptive planning. Boston: Pearson-Allan & Allyn and Bacon.
Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education and
psychology (4th ed.). Chicago: Holt, Rinehart and Winston.
4>5