Anda di halaman 1dari 20

KESESUAIAN ITEM DAN UJIAN TAJUK 5

TAJUK 5

KESESUAIAN ITEM DAN UJIAN

PENGENALAN
Anda telah melalui pembinaan item ujian di Topik 4. Sekarang ini selepas item dibina dan ujian digubal, analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian yang dihasilkan itu sesuai digunakan. Analisis item membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkan keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepas membuat analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina) untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini. Analisis-analisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan Ujian dan Indeks Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yang dihasilkan adalah sesuai/sah bagi sesuatu tujuan tertentu.

OBJEKTIF
Diakhir tajuk ini, anda seharusnya dapat: 1. membina dan menilai soalan berdasarkan Indeks Kesukaran; 2. membina dan menilai soalan berdasarkan Indeks Diskriminasi; 3. membina dan menilai soalan berdasarkan Kebolehpercayaan Ujian; dan 4. membina dan menilai soalan berdasarkan Kesahan Ujian.

PETA MINDA

90

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

5.1

INDEKS KESUKARAN ITEM

Pernahkah anda terfikir bagaimanakah tahap-tahap kesukaran sesuatu ujian bertulis tersebut diadakan?. Apakah spesifikasi yang digunakan bagi membolehkan sesuatu ujian tersebut sesuai pada masa ia diadakan?

Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks kesukaran item (item difficulty index) (p). Indeks ini dapat menunjukkan aras kesukaran sesuatu item, iaitu sama ada sesuatu item itu mudah dijawab atau susah dijawab. Bagi ujian berbentuk objektif (betul/salah, isi tempat kosong, padanan, beraneka pilihan), indeks ini dikira dengan menggunakan nisbah bilangan calon yang memberi jawapan betul bagi item tertentu kepada jumlah calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan berikut: p = Bilangan calon yang memberi jawapan betul Jumlah calon yang menjawab

Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi soalan ini ialah 30/40 = 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada seorang pelajar pun dapat menjawab dengan betul, maka nilai p akan menjadi 0 (soalan amat sukar), tetapi jika semua pelajar dapat menjawab dengan betul, nilai p akan menjadi 1 (soalan terlalu mudah). Justeru, item yang sukar mempunyai nialai p yang rendah, sebaliknya item yang mudah mempunyai nilai p yang tinggi, seperti yang ditunjukkan dalam Rajah 5.1 di bawah.

Rajah 5.1: Indeks kesukaran dan kesukaran item

Latihan 5.1
Item A mendapat respons betul oleh 50 daripada 80 orang pelajar, sementara Item B mendapat respons betul oleh 20 daripada 40 orang pelajar. Item mana yang lebih sukar?

OUM

91

KESESUAIAN ITEM DAN UJIAN TAJUK 5

Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu diingatkan bahawa soalan yang terlalu mudah (p > 0.85) atau soalan yang terlalu sukar (p < 0.15) tidak dapat memberikan maklumat psikometrik (ukuran psikologi) yang bermakna. Ini adalah disebabkan soalan yang terlalu mudah akan dapat dijawab oleh hampir semua pelajar, sementara soalan yang terlalu sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalan tidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang lebih tinggi keupaayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.1.
Jadual 5.1: Aras Kesukaran dan Pengkelasan Item Nilai (p) 0.00 0.20 0.21 0.40 0.41 0.60 0.61 0.80 0.81 1.00 Pengkelasan Item Terlalu sukar Sukar Sederhana sukar Mudah Terlalu mudah

Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan betul, lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab dengan betul oleh 85% pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50% pelajar akan mempunyai nilai p = 0.50. Sebaliknya, indeks kesukaran item boleh memberi jangkaan peratus pelajar yang dapat menjawab item tersebut dengan betul. Misalnya, jika indeks kesukaran bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawab item tersebut dengan betul. Sebagai ingatan, nilai p merupakan nilai yang relatif kepada sesuatu kumpulan pelajar yang mengambil ujian. Nilai ini boleh berubah mengikut keupayaan kumpulan pelajar tersebut, dan seterusnya boleh berubah sekiranya kumpulan calon yang sama menduduki ujian kali kedua. Sebagai contoh, item manakah lebih sukar antara Siapakah Tunku Abdul Rahman Putra AlHaj? dan Siapakah Tun Dr.Mahathir??. Kita tidak boleh menyatakan item mana yang lebih sukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran soalan ini selepas kita mentadbirkannya kepada sekumpulan pelajar dan mengira nilai p bagi soalan ini. Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, ; indeks kesukarannya boleh dikira sebagai nisbah markah purata (markah min) kepada julat markah penuh seperti berikut (Nitko, 2004: 317): Indeks kesukaran item (p) = __Markah Purata__ Julat Markah Penuh Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah minimum 0 dan maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab soalan ini dan mendapat markah seperti dalam jadual di bawah. Jumlah markah bagi 10 orang pelajar ialah 63.0. Pengiran indeks kesukaran item ialah seperti berikut:
92

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Markah Purata

= Jumlah markah = 63.0/10 = 6.3. Jumlah pelajar

Julat Markah Penuh = Markah maksimum Markah minimum = 10 - 0 = 10 Indeks Kesukaran = Markah Purata__ = 6.3/10 = 0.63 = 63% Julat Markah Penuh
P1 6.5 P2 3.5 P3 7.0 P4 2.5 P5 4.5 P6 8.5 P7 9.0 P8 6.5 P9 9.5 P10 5.5 Jumlah 63.0

Pelajar Markah

Berbeza daripada indeks kesukaran item objektif, indeks kesukaran item subjektif dapat menggambarkan markah purata bagi sesuatu item dalam peratus. Contohnya, markah purata 6.3 (daripada 10) ialah 63% (iaitu sama dengan indeks kesukaran dikalikan dengan 100). Seterusnya, indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item (akan dibincangkan kemudian) yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepada format item. Indeks kesukaran tersebut ialah 0.50 bgi item berjawapan pendek/melengkap, 0.70 bagi item objektif lima-opsyen, 0.74 bagi item objektif empat-opsyen, 0.77 bagi item objektif tiga-opsyen, dan 0.85 bagi item objektif dua-opsyen (betul/salah) [Lord (1952) dalam Mehrens & Lehmann (1991)]. Selain itu, Nitko (2004: 323) menyatakan indeks kesukaran bagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah antara 0.16 dan 0.84 (iaitu ada item-item mudah, sederhana sukar dan sukar); sementara bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis) haruslah mempunyai indeks kesukaran item antara 0.40 hingga 0.60 (item-item sederhana sukar). Selain menjadi panduan semasa membina item supaya indeks diskriminasi menjadi maksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan berikut:
Jadual 5.2: Tujuan Indeks Kesukaran Tujuan 1 2 3 4 Penerangan mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalansoalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar (soalan sukar); mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagian kurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak boleh dikuasai pelajar; memberi maklum balas kepada pelajar tentang kekuatan dan kelemahan mereka bagi setiap tajuk pengajaran yang diuji; dan mengenal pasti soalan yang bias kepada sesuatu kandungan (content bias), seperti kandungan yang ditekankan semasa pengajaran (misalnya, diberi latih tubi/ulangan).

Latihan 5.2
Satu item subjektif diberi markah minimum 1 dan maksimum 5. Markah lima (5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran item ini. Adakah item ini mudah atau susah?

OUM

93

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.2

INDEKS DISKRIMINASI ITEM

Diskriminasi sering dianggap sebagai suatu perkara yang boleh diragui keberkesanannya. Apakah sebenarnya peranan indeks diskriminasi item untuk membezakan di antara seorang pelajar dengan pelajar yang lain?

Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang berkeupayaan tinggi, untuk matlamat tertentu, seperti melanjutkan pengajian dalam bidang tertentu. Item/ soalan yang baik akan dapat membezakan/mendiskriminasikan antara mereka yang berkeupayaan rendah dan yang berkeupayaan tinggi. Indeks yang diguna untuk menentukan perbezaan keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi boleh dikira melalui langkah-langkah Mehrens & Lehmann, (1991) dan contoh berikut: (1) Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar berpencapaian rendah (27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar berpencapaian antara terrendah dan tertinggi) dan pelajar berpencapaian tinggi (27% pelajar berpencapaian tertinggi). (2) Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian rendah (RL Right Lower), bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian tinggi (RU Right Upper) dan jumlah pelajar berpencapaian rendah dan tinggi (T(L+U) Total). (3) Indeks Disckriminasi boleh dikira dengan membahagikan perbezaan (RU RL) dengan separuh T(L+U) seperti berikut: Indeks Diskriminasi (d) = (RU RL) (1/2 T(L+U)) (4) Sebagai contoh, andaikan seramai 200 orang pelajar menjawab soalan tertentu. Setelah 54 orang (27% daripada 200) pelajar berpencapaian tinggi dikenalpasti, didapati 45 orang daripada mereka dapat menjawab soalan tersebut dengan betul (RU = 45). Seterusnya, daripada 54 orang pelajar berpencapaian rendah, seramai 15 orang dapat menjawab dengan betul (RL = 15). Dalam contoh ini, jumlah pelajar berpencapaian rendah dan tinggi ialah 108 orang (T(L+U) = 54 + 54 = 108). Indeks Disckriminasi boleh dikira seperti berikut: Indeks Diskriminasi = (RU RL) = (45 15) = 30 = 0.56 (1/2 T(L+U)) (1/2 x 108) 54

94

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

(5) Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua pelajar berpencapaian tinggi dan tiada seorang pun pelajar berpencapaian rendah dapat menjawab soalan ini dengan betul (RU RL = 54 0 = 54): Indeks Diskriminasi = (RU RL) = (1/2 T(L+U)) (54 0) (1/2 x 108) = 54 = 1.00 54

(6) Indeks Diskriminasi boleh bernilai 0.00, sekiranya bilangan pelajar berpencapaian tinggi dan rendah yang dapat menjawab soalan ini dengan betul adalah sama (RU RL = 0). Indeks Diskriminasi = (RU RL) = (1/2 T(L+U)) (0) (1/2 x 108) = 0 = 0.00 54

(7) Akhirnya, Indeks Diskriminasi boleh bernilai -1.00, sekiranya semua pelajar berpencapaian rendah dan tiada seorang pun pelajar berpencapaian tinggi dapat menjawab soalan ini dengan betul (RU RL = 0 - 54 = -54). Indeks Diskriminasi = (RU RL) = (1/2 T(L+U)) (0 54) (1/2 x 108) = -54 = -1.00 54

Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks Diskriminasi boleh bernilai antara -1.00 hingga 1.00. Secara amnya, item yang mempunyai Indeks Diskriminasi positif menunjukkan pelajar berpencapaian tinggi lebih ramai dapat menjawab sesuatu soalan dengan betul daripada pelajar berpencapaian rendah. Secara logiknya, kita memang mengandaikan lebih ramai pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalan dengan betul berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasi hampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk Penilaian Rujukan Norma (PRN) sebab ia dapat membezakan (discriminate) pelajar berpencapaian tinggi/pandai daripada pelajar berpencapaian rendah/lemah. Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif yang menghampiri 0.00, soalan-saolan ini dikatakan tidak baik untuk PRN, sebab ia tidak berupaya membezakan pelajar pandai daripada pelajar lemah. Akhirnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi negatif yang menhampiri -1.00, soalan-saolan ini dikatakan tidak baik untuk PRN, sebab ia secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebih ramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada pelajar pandai. Justeru, pembina soalan perlu memperbaiki/menggantikan soalan yang mempunyai Indeks Diskriminasi yang rendah atau pun negatif. Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.3.

OUM

95

KESESUAIAN ITEM DAN UJIAN TAJUK 5

Jadual 5.3: Aras Diskriminasi dan Pengkelasan Item Nilai (d) 0.00 0.10 0.11 0.20 0.21 0.30 0.31 0.40 0.41 1.00 Pengkelasan Item Tidak baik Kurang baik Sederhana baik Baik Sangat baik

Menurut Hanna dan Dettmer (2004: 252), soalan-soalan yang dibina oleh guru hanya mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. Bagaimanapun, menurut Mehrens dan Lehmann (1991), Indeks Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi 0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian rendah, separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi daripada 0.20, sekiranya pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi. Seterusnya, Nitko (2004: 323) menyatakan item yang boleh dipilih untuk sesuatu ujian hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. Justeru, sebagai kesimpulan, item/ soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30. Bagaimanapun, Indeks Diskriminasi yang lebih tinggi diperlukan untuk ujian-ujian PRN. Akhirnya, seperti juga Indeks Kesukaran, selain menjadi panduan semasa membina item, Indek Diskriminasi juga boleh digunakan untuk lima tujuan berikut:
Jadual 5.4: Tujuan Indeks Diskriminasi Tujuan 1 Penerangan mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalansoalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar pandai; mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagian kurikulum, iaitu yang tidak boleh dikuasai pelajar pandai; memberi maklum balas kepada pelajar pandai tentang kelemahan mereka bagi setiap tajuk pengajaran yang diuji; dan mengenal pasti soalan yang bias kepada sesuatu kandungan, seperti kandungan yang tidak ditekankan semasa pengajaran atau langsung tidak diajar. mengenal pasti pelajar-pelajar yang berpencapaian tinggi untuk melanjutkan pengajian dalam bidang-bidang tertentu.

96

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Latihan 5.3
Seramai 40 daripada 50 orang pelajar berpencapaian rendah dapat menjawab satu soalan objektif dengan betul, sementara 20 daripada 50 orang pelajar berpencapaian tinggi dapat menjawab soalan ini dengan betul. Kira Indeks Diskriminasi soalan ini dan jelaskan kesesuaiannya

5.3

KEBOLEHPERCAYAAN UJIAN

Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut (Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksud ketekalan markah-markah yang dihasilkan oleh ujian tersebut. Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain, ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepada ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujian yang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skor yang dihasilkan adalah hampir sama dalam apa jua keadaan. Bagaimanapun, perlu diingatkan bahawa ujian yang mempunyai darjah ketekalan yang tinggi, tidak semestinya menghasilkan ukuran yang sebenar/sah. Dalam makmal sains, misalnya, seseorang guru mengharapkan berat yang sama diperoleh apabila sesuatu benda ditimbang beberapa kali (katakan 90 gram). Walaupun alat ini memberi berat yang sama (90 gram) setiap kali ditimbang, tetapi berat ini kurang daripada berat sebenar (katakan kurang 10 gram). Maka berat sebenar/sah bukanlah 90 gram, tetapi 100 gram. Ini menunjukkan, walaupun sesuatu alat itu memberi ukuran yang sama (tekal), tetapi ukuran yang diberikan adalah tidak benar/sah. Begitu juga dengan ujian, walaupun markah/skor yang diberikan adalah sama dalam semua keadaan/situasi, tetapi ukuran yang terhasil tidak menggambarkan keupayaan sebenar pelajar/calon. Konsep asas teori pengukuran ialah skor yang diperoleh (observed score) daripada manamana alat ukur (termasuk ukuran fizikal seperti berat dan ukuran abstrak seperti kecerdasan) adalah terdiri daripada dua bahagian/komponen, iaitu (1) skor sebenar (true score), iaitu ukuran sebenar sesuatu konstruk; dan (2) ralat (error), iaitu kesilapan yang disebabkan oleh alat ukuran yang digunakan. Oleh itu, kita boleh membuat andaian bahawa tiada skor yang dapat memberikan ukuran sebenar sesuatu konstruk yang ingin diukur. Di sini konstruk bermaksud konsep yang abstrak, yang telah diterjemahkan kepada pembolehubah yang boleh diukur, seperti sikap, minat, motivasi, suhu, tekanan, berat dan jarak. Justeru, sekiranya ukuran boleh dibuat tanpa ralat, maka kebolehpercayaan alat ukurnya adalah tinggi. Bagaimanapun, disebabkan sesuatu ukuran itu sentiasa mempunyai ralat, maka darjah kebolehpercayaannya akan berbeza, bergantung kepada saiz ralatnya.

5.3.1

Indeks Kebolehpercayaan

Dari segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/ estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira

OUM

97

KESESUAIAN ITEM DAN UJIAN TAJUK 5

menggunakan pelbagai kaedah. Seperti julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama akan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap keadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai. Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yang ditunjukkan dalam Jadual 5.5.
Jadual 5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian Nilai (r) < 0.20 0.21 0.40 0.41 0.60 0.61 0.80 0.81 1.00 Pengkelasan Ujian Tidak baik Kurang baik Sederhana baik Baik Sangat baik

Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan dan juga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) Ukuran Kestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran Kesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran Ketekalan Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (Scorer Reliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indeks kebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.

JENIS-JENIS KEBOLEHPERCAYAAN

UkuranKestabilan

UkuranKesetaraan danKestabilan

Kebolehpercayaan Pemeriksa

UkuranKesetaraan

UkuranKetekalan Dalaman

Rajah 5.2: 5 jenis kebolehpercayaan ujian Mehrens dan Lehmann (1991)

98

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

1.

Ukuran Kestabilan Ukuran Kestabilan, yang juga dipanggil anggaran kebolehpercayaan uji-uji semula (test-restest estimate of reliability) boleh dikira dengan memberikan ujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepas ujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar. Ukuran Kestabilan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya ujian ini diberi lagi sekali kepada mereka pada masa akan datang. Bagaimanapun, Ukuran Kestabilan ini akan berbeza mengikut jarak masa dan pengalaman/intervensi yang dilalui pelajar/calon antara dua pentadbiran ujian tersebut. Biasanya Ukuran Kestabilan adalah tinggi sekiranya jarak masa antara dua pentadbiran ujian adalah pendek. Ini adalah disebabkan oleh, pertama, pelajar masih ingat jawapan kepada soalan-soalan ujian, dan kedua, tidak ada pengalaman/intervensi (seperti latih-tubi, kelas tusyen) antara dua pentadbiran ujian ini. Pekali korelasi Pearson rxy = [ (xi-x)(yi -y)] [nsxsy] di mana: ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua, n ialah bilangan pelajar, sx ialah sisihan piawai skor ujian kali pertama dan sy ialah sisihan piawai skor ujian kali kedua.

2.

Ukuran Kesetaraan Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang sama, Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/ pasangan skor yang diperoleh setiap pelajar.

Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiri daripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujian yang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalan yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafal jawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pra dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untuk menguji dua kumpulan pelajar yang berbeza pada berlainan masa. 3. Ukuran Kesetaraan dan Kestabilan Ada kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar untuk jangka masa yang panjang dengan menggunakan ujian yang berbeza. Justeru, kaedah yang

OUM

99

KESESUAIAN ITEM DAN UJIAN TAJUK 5

sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setara dengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (Ukuran Kestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan Ukuran Kestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaan ini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian. Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan ujian pertama terhadap jawapan ujian kedua, di samping menilai pencapaian pelajar selepas jangka masa yang panjang. 4. Ukuran Ketekalan Dalaman Berbeza daripada ketiga-tiga ukuran ketekalan yang dijelaskan sebelum ini, Ukuran Ketekalan Dalaman boleh ditentukan dengan menggunakan sekali ujian sahaja. Salah satu daripada kaedah yang digunakan untuk mengukur ketekalan dalaman ialah dengan membelah/memecahkan ujian kepada separuh-separuh (split-half), iaitu separuh pertama dan separuh kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkan kesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh kedua sesuatu ujian. Justeru, Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama dengan Ukuran Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza. Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah Kuder-Richardson dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah keseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan hubungan/korelasi antara setiap item dengan jumlah skor ujian (Mehrens & Lehmann, 1991). (a) Ukuran Ketekalan Dalaman Belah-Dua Ukuran Ketekalan Dalaman Belah-Dua (r ) boleh dikira dengan menggunakan korelasi Pearson (r) antara skor pelajar bagi separuh pertama ujian dengan skor pelajar bagi separuh kedua ujian, yang boleh dikira menggunakan rumus berikut: r = [(xi-x)(yi -y)] [nsxsy] di mana: ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor separuh kedua ujian; x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian; n ialah bilangan pelajar, sx ialah sisihan piawai skor separuh pertama ujian dan sy ialah sisihan piawai skor separuh kedua ujian. Bagaimanapun, ukuran yang diperoleh melalui kaedah belah-dua ini hanya memberikan darjah ketakalan dalaman bagi separuh ujian sahaja. Untuk

100

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

mendapatkan darjah ketekalan dalaman bagi keseluruhan ujian (rSB), kita boleh gunakan rumus Spearman-Brown seperti beriikut: Pekali Spearman-Brown rSB = [2r ] [1+ r ] di mana: r ialah pekali Ketekalan Dalaman Belah-Dua.

Latihan 5.4
Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80. Kira Ukuran Ketekalan Dalaman bagi keseluruhan ujian. (b) Kaedah Kuder-Richardson Terdapat dua (2) kaedah Kuder-Richardson yang digunakan untuk mengira Ukuran Ketekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah), iaitu K-R 20 dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagi semua item, dan K-R 21 digunakan sekiranya indeks ini sama bagi semua item. Bagaimanapun, rumus K-R 21 adalah lebih mudah digunakan oleh guru disebabkan rumus ini tidak memerlukan banyak pengiraan. Rumus-rumus tersebut dijelaskan seperti berikut: K-R20 = K-R21 = k [1 - pq] k1 Sx2 k [1 - x(k-x)] k1 kSx2

di mana: k ialah bilangan item dalam ujian, ialah jumlah, p ialah kadar pelajar yang menjawab item dengan betul (Indeks Kesukaran Item), q ialah kadar pelajar yang salah menjawab item (q= 1-p, pq adalah varians skor item), x ialah min skor keseluruhan item dan Sx2 ialah ialah variance skor keseluruhan ujian. (c) Kaedah Cronbach Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman. Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan Si2, iaitu varians bagi skor item. Pekali alfa adalah amat berguna bagi item yang bukan berjawapan dikotomi, terutama item berbentuk esei yang markahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa adalah seperti berikut: = k [1 - Si2] k1 Sx2

OUM

101

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.

Kebolehpercayaan Pemeriksa Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentuk objektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalah sama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapan diperiksa oleh komputer sahaja).

Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan memberikan jawapan sekumpulan pelajar yang sama kepada dua/ lebih pemeriksa. Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan mencari pekali korelasi Pearson antara dua skor pemeriksa bagi setiap soalan; atau korelasi Spearman-Brown antara jumlah skor/skor min pemeriksa bagi keseluruhan ujian. Kebolehpercayan Pemeriksa ini akan memberikan tahap keyakinan kepada kita untuk membuat generalisasi bahawa skor yang diberikan oleh dua/lebih pemeriksa kepada pelajar adalah sama. Kebolehpercayaan ini adalah penting untuk menyeragamkan pemberian markah, apabila skrip/jawapan ujian diperiksa oleh ramai pemeriksa.

5.3.2

Faktor yang Mempengaruhi Kebolehpercayaan

Beberapa faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk panjang ujian, kehomogenan kumpulan, kesukaran item dan objektiviti jawapan. Bahagian berikut menjelaskan bagaimana faktor ini mempengaruhi kebolehpercayaan ujian. (1) Panjang Ujian Rumus Spearman-Brown yang digunakan untuk mengira pekali Ketekalan Dalaman Belah-Dua boleh digunakan juga untuk mengira indeks kebolehpercayaan ujian apabila itemnya ditambah atau dikurangkan.

Rumus am Spearman-Brown ialah seperti berikut: rSB di mana: K ialah nisbah bilangan item dalam ujian baru kepada bilangan item dalam ujian asal dan r ialah pekali kebolehpercayaan ujian asal. Bagi Ketekalan Dalaman Belah-Dua, nilai K=2, iaitu ujian baru (sebenar) ialah 2 kali ganda panjang/item ujian asal (separuh ujian sebenar) dan r= r . Sekiranya bilangan item ditambah menjadi 3 kali ganda, iaitu K=3, dan andaikan r=0.60, maka indeks kebolehpercayaan menjadi: rSB = [Kr ] [1+ (K-1)r] = [(3)(0.60)] [1+ (3-1)(0.60)] = [1.80] [1+ (2)(0.60)] = 1.80 [1+ (1.20)] = 1.80 = 0.82 2.20
=

[Kr ] [1+ (K-1)r]

102

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Justeru, indeks kebolehpercayaan akan meningkat, sekiranya ujian bertambah panjang. Begitu juga sebaliknya, jika item asal dibuang, indeks kebolehpercayaan akan menurun. Bagaimanapun, kita perlu ingat bahawa item yang ditambah perlulah setara/seragam dengan item-item asal ujian. Sekiranya item yang tidak setara ditambah kepada ujian asal, indeks kebolehpercayaan tidak akan meningkat, dan mungkin akan menurun disebabkan oleh item-itemnya tidak lagi setara. (2) Kehomogenan Kumpulan Faktor kedua yang mempengaruhi indeks kesukaran ialah kehomogenan kumpulan pelajar/calon yang mengambil ujian. Dari segi teori, indeks kebolehpercayaan diberikan oleh rumus: r = 1 - Se2 , Sx2

di mana Se2 adalah varians ralat dan Sx2 adalah varians skor. Varians ralat boleh diandaikan sebagai tetap, iaitu tidak berubah. Bagaimanapun, kumpulan yang lebih homogenus (dari segi keupayaan) akan memberikan varians skor (Sx2) yang lebih kecil, sementara kumpulan yang lebih heterogenus akan memberikan varians skor yang lebih besar. Justeru, indeks kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadi lebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang lebih heterogenus akan menjadi lebih tinggi, berdasarkan kepada varians skor (Sx2). (3) Kesukaran Item Ujian yang terdiri daripada item-item yang mudah memberi peluang kepada kebanyakan pelajar/calon untuk menjawab soalan dengan baik, yang seterusnya akan memberikan skor yang hampir sama kepada pelajar/calon. Ini akan menghasilkan varians skor yang rendah disebabkan oleh skor yang homogenus, yang seterusnya, menghasilkan indeks kebolehpercayaan yang rendah. Bagi ujian yang terdiri daripada item-item yang sukar, skor pelajar/calon akan menjadi agak berbeza/heterogenus. Ini akan menghasilkan varians skor yang besar dan seterusnya indeks kebolehpercayaan yang tinggi. Kesimpulannya, ujian yang susah akan mewujudkan kumpulan yang heterogenus, yang akan meningkatkan indeks kebolehpercayaan. (4) Objektiviti Jawapan Sebagaimana yang dijelaskan tentang Kebolehpercayaan Pemeriksa, item-item yang mempunyai jawapan yang lebih objektif akan mempunyai indeks kebolehpercayaan yang lebih tinggi, dan sebaliknya, item-item yang mempunyai jawapan yang lebih subjektif akan mempunyai indeks kebolehpercayaan yang lebih rendah.

Latihan 5.5
Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indeks kebolehpercayaan bagi ujian yang dipendekkan kepada separuh daripada ujian asal.

OUM

103

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.4

KESAHAN UJIAN

Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapat mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer, 2004). Justeru, ciri kesahan bagi sesuatu alat ukuran adalah amat penting supaya alat ukuran tersebut dapat mengukur apa yang hendak diukur. Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi. Bagaimanapun, perlu diingatkan bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan diagnosis adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa, misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran mendengar.

5.4.1

Jenis Kesahan

Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk menjelaskan jenisjenis kesahan ini. Bagaimanapun, Mehrens dan Lehmann (1991) hanya menyenarai dan menjelaskan empat jenis kesahan, iaitu (1) kesahan kandungan (content validity), (2) kesahan konstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungankriteria (criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam bahagian berikut.

Rajah 5.3: 4 Jenis kesahan Mehrens dan Lehmann (1991)

(1) Kesahan Kandungan Salah satu tujuan ujian ialah untuk menilai apa yang telah dipelajari pelajar bagi sesuatu mata pelajaran pada akhir penggal/tahun persekolahan. Bagaimanapun, ujian yang diberikan dalam masa yang agak pendek itu tidak dapat menguji semua sukatan pelajaran. Soalan ujian hanya boleh dianggap sebagai sampel/wakil kepada sukatan pelajaran yang begitu luas.

104

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yang diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian pelajar menjadi tidak sah/bais. Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan, seperti merujuk semula kepada buku rekod pengajaran dan juga sukatan pelajaran. Selain itu, guru boleh menggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikut jadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakili semua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujian bahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas tentang kemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran lisan, membaca, menulis karangan, meringkaskan karangan, tatabahasa, peribahasa, kosa kata dan sebagainya. (2) Kesahan Konstruk Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori psikologi tertentu.

Sebagai contoh, alat yang dibina untuk mengukur konstruk sabar sepatutnya dapat mengukur konstruk ini dengan baik. Untuk memastikan alat ini dapat mengukur konstruk sabar, pembina item inventori ini perlu terlebih dahulu memahami maksud tidak sabar, kurang sabar dan sabar dan juga ciri-ciri orang yang tidak sabar, kurang sabar dan sabar. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh didapati daripada kajian-kajian dalam bidang psikologi atau pun daripada pengalaman sendiri. Selepas pembina item benar-benar memahami dan menghayati ciri-ciri tersebut, barulah item-item dibina (berasaskan kepada ciri-ciri tersebut) supaya inventori yang terhasil dapat mengukur konstruk sabar. Justeru, sekiranya inventori ini ditadbirkan kepada orang yang sabar, ia boleh mencerap ciri-ciri orang yang sabar, sebaliknya, jika inventori ini ditadbirkan kepada orang yang tidak/kurang sabar, inventori ini akan mencerap ciriciri orang yang tidak/kurang sabar. Inventori yang mempunyai kesahan konstruk ini akan dapat mengkelaskan dengan tepat seseorang yang menjawab inventori ini kepada, sama ada orang yang tidak sabar, kurang sabar atau sabar. Kesahan konstruk adalah penting kepada ahli-ahli pendidikan dan psikologi yang ingin membuat kajian tentang konstruk.

OUM

105

KESESUAIAN ITEM DAN UJIAN TAJUK 5

(3) Kesahan Muka Sebenarnya, kesahan muka bukanlah kesahan seperti definisinya yang kita fahami, tetapi ia lebih kepada sesuatu alat ukuran nampak pada permukaannya mempunyai kesahan yang tinggi. Ini bermaksud, sekali pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampak alat ini sebagai sah. Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orang yang menjawab item inventori merasa yakin terhadap inventori tersebut. Sekiranya inventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab item-itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidak boleh digunakan. Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahui apa yang ingin diukur, dia akan memberikan jawapan yang sentiasa positif. (4) Kesahan Hubungan-Kriteria Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan beberapa ukuran luaran (kriteria). Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak (concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat; dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambil selepas ukuran alat. Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahan serentak dan kesahan ramalan seperti berikut. Kesahan Serentak

Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain yang diambil serentak. Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan skor yang mempunyai hubungan (pekali korelasi tinggi) yang kuat dengan skor daripada alat ukuran kecedasan B, maka alat A dikatakan mempunyai kesahan serentak yang tinggi. Dengan demikian, alat A boleh mengganti alat B untuk mengukur kecerdasan. Kesahan Ramalan

Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain yang diambil kemudian.

106

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah yang mempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian matematik percubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini bermakna pencapaian pelajar dalam ujian percubaan dapat meramal keputusan SPM.

5.4.2

Kaedah Mengira Indeks Kesahan

Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka tidak dapat diukur/dijelas dengan menggunakan indeks kesahan, Kedua-dua kesahan ini dapat dijelaskan secara kualitatif sahaja. Bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan ramalan boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekali korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan alat lain. Bagi kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan, persamaan regresi boleh digunakan untuk meramal skor kriteria. Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang menghasilkan persamaan regresi y = ax + b, di mana a dan b ialah angkatap (constant). Skor ujian kedua (y) boleh diramal oleh skor ujian pertama (x) dengan menggantikan nilai x dalam persamaan regresi ini.

Latihan 5.6
Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yang menghasilkan persamaan regresi y = 10x 5. Kira skor Ujian B (ramalan) sekiranya skor Ujian A ialah 9.

RUMUSAN
Tajuk ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan ujian yang perlu dibuat untuk memastikan soalan dan ujian sesuai digunakan. Analisis soalan dibuat untuk menilai kesesuaian soalan tersebut, terutama dari segi aras kesukaran dan kuasa diskriminasinya. Seterusnya, ujian yang terdiri daripada soalan-soalan tertentu, perlu dianalisis untuk menilai kesesuainnya bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaan ujian, yang boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu, analisis kesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian itu dapat mengukur apa yang hendak diukur. Analisis kesahan yang dibincangkan termasuk kesahan kandungan, kesahan muka, kesahan konstruk, kesahan serentak dan kesahan ramalan. Selain menjelaskan analisis-analisis di atas, tajuk ini juga menurunkan beberapa kaedah pengiraan untuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.

GLOSARI
Alfa Cronbach Indeks Kesukaran Indeks untuk megukur ketakalan dalaman/keseragaman item/ soalan yang bukan berjawapan dikotomi. Indeks untuk mengukur aras kesukaran sesuatu item, iaitu nisbah calon yang memberi jawapan betul kepada jumlah
107

OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

calon, atau markah purata dibahagikan dengan julat markah penuh. Indeks Diskriminasi Indeks yang dihasilkan oleh sesuatu item untuk mengukur perbezaan keupayaan pelajar, iaitu nisbah pelajar pandai yang menjawab dengan betul ditolak nisbah pelajar lemah yang menjawab soalan dengan betul. Indeks untuk mengukur ketekalan ukuran-ukuran yang dihasilkan oleh sesuatu alat ukuran, yang boleh dikira menggunakan pekali korelasi Pearson, Kuder-Richardson atau alfa Cronbach. Indeks untuk mengukur sejauh mana sesuatu alat dapat mengukur apa yang sepatutnya diukur oleh alat tersebut, yang boleh dikira menggunakan pekali korelasi Pearson atau persamaan regresi. Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu. Kesahan dari segi sejauh mana sesuatu ujian mewakili kandungan/sukatan pelajaran yang telah diajar. Kesahan dari segi sejauh mana sesuatu ujian mempunyai hubungan dengan ujian lain, sama ada yang ditadbirkan secara serentak atau kemudian. Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu seperti yang dipersepsikan oleh calon yang menduduki ujian.

Indeks Kebolehpercayaan

Indeks Kesahan

Kesahan Konstruk Kesahan Kandungan Kesahan Kriteria

Kesahan Muka

UJIAN 1
(1) Apakah perbezaan antara item dengan soalan? (2) Jelaskan maksud indeks kesukaran item. (3) Apakah yang anda faham tentang kesahan konstruk?

UJIAN 2
(a) Jelaskan maksud indeks diskriminasi item. (b) Berikan dua (2) tujuan mendiskriminasikan pelajar dalam ujian. (c) Jadual berikut menunjukkan bilangan pelajar yang memilih jawapan bagi satu item ujian objektif. Kira indeks kesukaran dan indeks diskriminasi item ini (B* adalah jawapan yang betul). Adakah item ini baik?

108

OUM

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Kategori Pelajar Lemah Sederhana Pandai Jumlah

A 8 12 2 22

B* 9 20 23 52

C 6 8 1 15

D 4 6 1 11

Jumlah 27 46 27 100

RUJUKAN
Cronbach, L. J. (1951). Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16, 297-334. Hanna, G.S. & Dettmer, P.A. (2004). Assessment for Effective Teaching: Using ContextAdaptive Planning. Boston:Pearson-Allan & Allyn and Bacon. Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education and psychology (4th ed.). Chicago: Holt, Rinehart and Winston. Moskal, Barbara et al (2002). Validity, reliability and the assessment of engineering education. Journal of Engineering Education. Nitko, A.J. (2004). Educational Assessment of Students. Upper Saddle River, N.J.: PearsonMerill Prentice Hall. Thorndike, et al. (1991). Measurement and Evaluation in Psychology and Education. (5th Edition). New York : Macmillan Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books, Inc. Van Krieken, R. (1995). Writing and Administring Examinations. CITO. Van Dalen., D.P. (1979). Understanding Educational Research. (4th ed.) McGraw-Hill. Inc.

OUM

109

Anda mungkin juga menyukai