Anda di halaman 1dari 14

KESAHAN DAN KEBOLEHPERCAYAAN INSTRUMEN KAJIAN

Kamaruzaman Moidunny, PhD


Jabatan Pembangunan Pengurus, Pemimpin dan Eksekutif Pendidikan
Institut Aminuddin Baki, Genting Highlands
Pengenalan
Kertas penulisan ini akan membincangkan konsep kesahan dan kebolehpercayaan
sebagaimana yang dialami oleh penulis dalam menyiapkan kajian dengan
judul Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH)
(Kamaruzaman, 2009) yang melibatkan soal selidik, ujian pencapaian, Program Sandaran
dan temu bual. Definisi kesahan dan kebolehpercayaan sebagaimana yang dikemukakan
oleh pakar-pakar penyelidikan diutarakan oleh penulis dengan memberikan contoh yang
relevan, agar mudah difahami oleh pembaca. Adalah diharapkan dengan penulisan ini,
dapat memberikan gambaran yang lebih jelas kepada pembaca tentang bagaimana usaha
dijalankan untuk menentukan kesahan dan kebolehpercayaan sesuatu instrumen.
Kesahan Soal Selidik
Kesahan sesuatu instrumen merujuk kepada sejauh manakah sesuatu instrumen mengukur
apa yang sepatutnya diukur (Alias 1992; Creswell 2002, 2005, 2010; Pallant 2001; Siti
Rahayah 2003; Tuckman 1999). Sesuatu instrumen tersebut dikatakan mempunyai kesahan
yang tinggi jika darjah kebolehannya mengukur apa yang sepatutnya diukur adalah tinggi
(Mohd Majid 1990).
Soal selidik dan soalan temu bual yang dibina oleh seseorang pengkaji perlu diuji
kesahan muka dan kesahan kandungannya. Sebagai contoh, seramai lima orang
pensyarah kanan Institut Aminuddin Baki (IAB) dirujuk untuk mendapatkan pengesahan
tentang kesahan muka dan kesahan kandungan bagi soal selidik dan temu bual. Soal
selidik dan temu bual ini terdapat dalam kajian dengan judul, Keberkesanan Program
Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009).
Kesahan konstruk sesuatu soal selidik pula boleh diukur dengan menggunakan nilai
korelasi antara skor setiap item dengan jumlah skor berkenaan. Hal ini dapat dilakukan
dengan menggunakan analisis korelasi Pearson antara skor setiap item dengan jumlah skor
mengikut konstruk yang berkenaan. Kaedah ini adalah bersesuaian dengan teori yang
dikemukakan oleh Abu Bakar (1987) dan Nunnally (1967). Menurut Abu Bakar (1995) pula,
nilai pekali korelasi yang minimum dan boleh diterima pakai adalah 0.30. Manakala Nunally

(1967, 1978) serta Nunally dan Bernstein (1994) menyatakan bahawa nilai korelasi antara
item dengan jumlah skor yang melebihi 0.25 adalah dianggap tinggi.
Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai
pekali korelasi antara 0.30 hingga 0.49 dianggap sederhana dan nilai pekali korelasi antara
0.50 hingga 1.00 dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu
instrumen boleh dilihat pada nilai korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation) iaitu pekali korelasi Pearson antara skor setiap item
dengan jumlah skor tanpa item berkenaan.
Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk
menentukan kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor
setiap item dengan jumlah skor, dan (2) Menggunakan nilai korelasi item yang
diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Penulis juga akan
merujuk kepada kurikulum Program Latihan NPQH untuk menentukan kesahan konstruk.
Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis
menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan. Komen
dan teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi
memantapkan lagi maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang
akan digunakan. Di samping itu, komen dan teguran digunakan dalam menilai item-item
yang digunakan dalam ujian dan skima permarkahan Program Sandaran.
Kebolehpercayaan Soal Selidik
Kebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan
dalaman (Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach
Alpha pula seringkali dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk
(Cronbach 1946; Norusis 1977). Nilai Cronbach Alpha yang melebihi 0.60 sering kali diguna
pakai sebagai indeks kebolehpercayaan sesuatu instrumen (Mohd Majid 1990; Pallant
2001; Siti Rahayah 2003). Bagi Sekaran (1992) pula, nilai kebolehpercayaan yang kurang
daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai Alfa antara 0.60
hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap
baik. Berdasarkan
penerangan
di
atas,
penulis
telah
menggunakan
nilai
Cronbach Alpha bagi menentukan kebolehpercayaan soal selidik.
Kesahan dan Kebolehpercayaan Ujian

Bagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus UAK) yang berbentuk item
berbentuk objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka
penlengkap dengan empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program
Sandaran, memfokuskan kepada (1) Pengenalpastian masalah, (2) Perancangan strategik,
(3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Skor-skor diberikan oleh
pensyarah-pensyarah apabila mereka menyemak hasil kerja peserta Program Sandaran.
Kesahan item-item yang digunakan dalam ujian pencapaian dan Program Sandaran
ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk membezakan
item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item ujian
pencapaian dan Program Sandaran telahpun dibina oleh IAB.
Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan
menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination
Index, D) seperti yang disarankan oleh Macintosh dan Morrison (1969). Wood (1961)
menyatakan bahawa kesukaran item merujuk kepada pecahan yang mendapat jawapan
yang betul. Semakin besar indeks kesukaran, item itu semakin senang. Bagi aras
kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60 peratus iaitu 0.4 hingga
0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang rendah iaitu
soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras
kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah
sukar. Macintosh dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang
rendah boleh dibaiki. Jadual 1 di bawah ini menjelaskan aras kesukaran (F) dan indeks
pembezaan (D) sebagaimana yang dikemukakan oleh Macintosh dan Morrisson (1969).
Jadual 1: Aras Kesukaran dan Indeks Pembezaan
Aras Kesukaran (F)
Indeks Pembezaan (D)

Lebih daripada 0.40


0.30 0.39
0.20 0.29
Kurang daripada 0.20

Kurang
daripada
40 %

40 %
hingga
60 %

Lebih daripada
60 %

Sukar
Sukar
Sukar
Dibuang

Diterima
Perlu dibaiki
Marginal
Dibuang

Senang
Senang
Senang
Dibuang

Sumber: Macintosh dan Morrisson (1969): 67

Indeks Pembezaan, D, pula digunakan untuk membezakan antara kumpulan peserta


yang memperolehi skor tinggi dengan kumpulan peserta yang memperolehi skor rendah.
Indeks Pembezaan, D, mempunyai nilai antara 1.00 hingga + 1.00. Nilai D yang negatif
menunjukkan item tersebut gagal membezakan kumpulan peserta yang memperolehi skor
tinggi dengan yang memperolehi skor rendah. Jika nilai D bersamaan dengan 1.00, ini
menunjukkan bahawa 27 peratus daripada kumpulan yang memperolehi skor tinggi berjaya
memberi jawapan betul dan 27 peratus daripada kumpulan yang memperolehi skor rendah
memberi jawapan salah. Manakala jika nilai D bersamaan dengan sifar, menunjukkan
kedua-dua kumpulan peserta memberi jawapan yang serupa bagi item berkenaan. Ini
bermaksud bahawa item tersebut gagal membezakan antara kumpulan peserta yang
memperolehi skor tinggi dengan memperolehi skor rendah. Bagi Sax dan Newton (1997),
nilai D antara 0.10 hingga 1.00 menggambarkan bahawa item tersebut boleh diguna pakai.
Sementara Ebel (1979) pula menyatakan bahawa nilai D yang bersamaan atau lebih besar
daripada 0.20 adalah sesuai bagi item ujian.
Bagi konteks kajian tersebut, penulis telah menggunakan item yang mempunyai nilai
D yang bersamaan atau lebih besar daripada 0.20 seperti yang disarankan oleh Ebel
(1979). Sementara bagi nilai F pula, penulis telah menggunakan semua item yang dianalisis
untuk mengelakkan kekurangan item bagi setiap konstruk yang dikaji. Dengan kata lain,
item yang dipilih akan melibatkan item sukar, marginal dan senang seperti yang ditunjukkan
dalam Jadual 1. Dalam hal ini, penulis menghadapi kesukaran untuk memilih item yang
mempunyai nilai F antara 0.40 dengan 0.60 (Nunally 1978). Ini adalah kerana nilai F tidak
mampu dikawal oleh penulis kerana semua item dibina oleh pihak IAB dan telah ditadbirkan
kepada peserta Program Latihan NPQH. Oleh itu penulis berpendapat, pemilihan semua
item yang mempunyai nilai D bersamaan atau lebih besar daripada 0.20 merupakan
langkah paling baik bagi kajian tersebut .
Selepas menentukan nilai-nilai F dan D, kebolehpercayaan ujian pencapaian dan
Program Sandaran dihitung dengan menggunakan rumus Kuder-Richardson 20 (K-R 20).
Bagi Siti Rahayah (2003) dan Yap et al. (1985), rumus Kuder-Richardson digunakan untuk
mengelakkan memberi ujian sebanyak dua kali dan mengelakkan masalah membahagi
ujian kepada dua bahagian. Rumus ini boleh digunakan bagi ujian yang homogen iaitu
setiap item ujian mengukur faktor-faktor kebolehan am atau personaliti yang sama. Bagi
Yap et al. (1985), rumus Kuder-Richardson ini bergantung kepada konsistensi prestasi
individu daripada satu item ke satu item iaitu berdasarkan sisihan piawai ujian.
Nilai K-R20 adalah antara sifar (0) hingga 1.00, walaupun nilai negatif adalah
mungkin. Nilai K-R20 yang tinggi menunjukkan ujian mempunyai ketekalan dalaman. Bagi
Carey (1994), nilai yang melebihi 0.90 menunjukkan kebolehpercayaan yang sangat tinggi.

Nilai yang hampir dengan 0.80 adalah biasa didapati untuk ujian bilik darjah kepada peserta
heterogen. Manakala nilai serendah 0.50 biasa didapati bagi kumpulan peserta-peserta
homogen. Sementara bagi Ebel (1979), nilai K-R20 0.50 atau kurang adalah nilai yang biasa
didapati bagi ujian pencapaian di sekolah rendah, menengah atau universiti. Bagi Carey
(1994), nilai K-R20 bergantung kepada kehomogenan kumpulan, kehomogenan kandungan,
panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk
menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih
panjang sebanyak sembilan kali daripada panjang asal.
Kesahan dan Kebolehpercayaan Soal Selidik
Satu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan
kebolehpercayaan soal selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di
bawah ini. Kesahan item soal selidik menggunakan nilai (1) Korelasi antara skor setiap item
dengan jumlah skor, dan (2) Korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation). Manakala nilai Cronbach Alpha digunakan bagi
mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan. Jadual 2
menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item
dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang
diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65
hingga 0.85. Nilai Cronbach Alpha pula adalah 0.92.
Jadual 2: Nilai korelasi dan Alfa bagi konstruk Penyampaian Pensyarah
Konstruk

Penyampaian
Pensyarah

Item Korelasi Skor Korelasi Item Nilai Alfa jika


Nilai Alfa
Item dengan
yang
item
Keseluruhan
Jumlah Skor Diperbetulkan digugurkan
dengan Jumlah
Skor
28
29
30
31
32
33
34
35

0.84
0.79
0.80
0.88
0.73
0.84
0.77
0.82

0.78
0.72
0.74
0.85
0.65
0.80
0.69
0.75

0.91
0.92
0.92
0.91
0.92
0.91
0.92
0.91

0.92

Jadual 2 menunjukkan (1) Nilai korelasi skor item dengan jumlah skor dan (2) Nilai
korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation)
adalah melebihi 0.30. Hal ini memberikan kesimpulan bahawa item mempunyai nilai
kesahan yang tinggi sebagaimana yang disarankan oleh Abu Bakar (1987), Cohen (1988),
Norusis (1977) dan Nunally (1987). Sementara itu, nilai Cronbach Alpha adalah melebihi
0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan
dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach
Alpha ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh
diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran
(1992) dan Siti Rahayah (2003).
Kesahan dan Kebolehpercayaan Ujian Pencapaian
Sebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH
daripada ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat
fasa kursus yang mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa
Asas dan satu kertas ujian bagi tiga fasa kursus berikutnya. Dan bagi memilih item yang
sesuai dalam kajian tersebut, penulis telah melaksanakan proses yang dinamakan sebagai
analisis item.
Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75
item), Fasa Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item)
dan Fasa Berterusan (100 item). Analisis item dilaksanakan untuk menentukan Indeks
Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) dalam
usaha menentukan kesahan konstruk setiap item. Rumus yang digunakan dalam analisis ini
ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu, cuma item yang mempunyai
nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F bersamaan atau
melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang
disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan
kebolehpercayaan setiap item, nilai Kuder-Richardson 20 (K-R 20) bagi setiap konstruk
dihitung seperti yang disarankan oleh Carey (1994).
Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini
dilaksanakan secara tertutup, IAB tidak membenarkan sebarang item dipaparkan untuk
tatapan umum. Oleh itu penulis telah menggunakan kod bagi setiap item yang dipilih.
Sebagai contoh, Jadual 3 di bawah ini akan memaparkan hasil analisis item yang telah
dilaksanakan bagi item ujian pencapaian.

Jadual 3 di bawah menunjukkan konstruk Pengurusan dan Kepimpinan Organisasi


yang mempunyai nilai F antara 41 peratus hingga 79 peratus, nilai D antara 0.21 hingga
0.54 dan nilai K-R20 adalah 0.65. Bagi konstruk ini, terdapat 25 item yang terdiri daripada
item yang dikemukakan dalam Fasa Asas Kertas 1 (lapan item), Fasa Berterusan (14 item)
dan Fasa Pertengahan (tiga item).
Jadual 3: Nilai F, D dan K-R20 bagi konstruk Pengurusan dan Kepimpinan Organisasi
Konstruk

Pengurusan dan Kepimpinan


Organisasi

Bil

Kod

Aras
Kesukaran
(F)/%

Indeks
Pembezaan
(D)

Nilai K-R20
(r)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

AS04
AS20
AS25
AS33
AS35
AS46
AS47
AS53
BT07
BT10
BT11
BT16
BT17
BT18
BT19
BT20
BT22
BT23
BT24
BT25
BT26
BT27
PT02
PT07
PT09

76
53
53
77
59
54
59
73
60
79
74
59
47
57
75
42
41
66
43
45
49
64
53
51
76

0.21
0.33
0.37
0.30
0.49
0.25
0.21
0.21
0.44
0.26
0.30
0.21
0.23
0.23
0.33
0.25
0.21
0.28
0.54
0.30
0.32
0.25
0.31
0.22
0.27

0.65

Jumlah item = 25
AS Fasa Asas Kertas 1

BT Fasa Berterusan

PT Fasa Pertengahan

Berdasarkan nilai yang terdapat dalam Jadual 3, nilai D adalah melebihi 0.20 serta
nilai F adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti
dinyatakan oleh Macintosh dan Morrisson (1969). Manakala K-R20 yang dihitung
mempunyai nilai di antara 0.62 hingga 0.70. Nilai K-R 20 melebihi 0.60 yang memberikan
kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman (Cresswell 2005;
Sekaran 1992). Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan
yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant
(2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi ujian
pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya
kerana mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.
Semua item ujian pencapaian yang digunakan dalam kajian tersebut telah
ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar.
Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian
pencapaian ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan
analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan
(2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan
konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan
yang boleh diguna pakai. Sementara itu, nilai K-R 20 pula ditentukan yang memberikan
kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai KR20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh
diguna pakai dalam kajian tersebut.
Kesahan dan Kebolehpercayaan Program Sandaran
Analisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1)
Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian
strategik, serta (4) Kualiti peribadi. Rumus yang digunakan bagi tujuan analisis ditunjukkan
dalam Lampiran A. Jadual 4 di bawah ini menunjukkan nilai yang diperoleh daripada
analisis tersebut.
Jadual 4: Nilai F, D dan K-R20 bagi Program Sandaran
Konstruk

Program
Sandaran

Aspek

Aras
Kesukaran
(F)/%

Indeks
Pembezaan
(D)

Nilai
K-R20

Pengenalpastian Masalah

83

0.22

0.84

Perancangan Strategik

82

0.25

Pelaksanaan
Penilaian Strategik
Kualiti Peribadi

dan

81

0.25

88

0.23

Daripada Jadual 4, didapati bahawa aspek Pengenalpastian Masalah mempunyai


nilai F = 83 peratus dan D = 0.22, aspek Perancangan Strategik mempunyai nilai F = 82
peratus dan D = 0.25, aspek Pelaksanaan dan Penilaian Strategik mempunyai nilai F = 81
peratus dan D = 0.23, serta aspek Kualiti Peribadi mempunyai nilai F = 88 peratus dan D =
0.23. Nilai F yang tinggi menunjukkan peserta mampu melaksanakan tugasan yang
diberikan dengan baik. Manakala nilai D yang melebihi 0.20 pula menunjukkan bahawa item
mempunyai tahap kesahan yang boleh diguna pakai seperti yang disarankan oleh
Macintosh dan Morrisson (1969). Seterusnya, nilai K-R 20 adalah 0.84 yang dianggap tinggi
(Cohen 1988) dan merupakan nilai biasa yang didapati bagi Ujian Rujukan Kriteria seperti
yang ditegaskan oleh Ebel (1979). Nilai K-R 20 yang tinggi ini dihasilkan oleh korelasi antara
item yang tinggi kerana mengukur objektif atau kriteria yang sama.
Bagi menentukan kebolehpercayaan antara penilai (interrater reliability) untuk
Program Sandaran, penulis menghitung nilai indeks kebolehpercayaan seperti yang
disarankan oleh Black (1999). Oleh kerana Program Sandaran merupakan Ujian Rujukan
Kriteria maka apa yang dipentingkan adalah markah lulus yang mempunyai nilai sebanyak
40 markah. Rumus yang terdapat dalam Lampiran A digunakan oleh penulis untuk
menghitung nilai indeks ini. Berdasarkan rumus ini nilai indeks kebolehpercayaan (k2) yang
didapati adalah bersamaan dengan 0.85. Nilai ini merupakan satu nilai kebolehpercayaan
yang sangat baik berdasarkan pendapat Landis dan Kosh (1977) (dalam Zamri dan Noriah,
2003) seperti yang terdapat dalam Jadual 5. Dengan kata lain, item-item yang digunakan
dalam menentukan skor bagi Program Sandaran mempunyai kebolehpercayaan yang tinggi.
Ini juga menunjukkan bahawa instrumen Program Sandaran adalah sesuai digunakan untuk
menilai peserta Program Latihan NPQH.
Semua item ujian pencapaian Program Sandaran yang digunakan dalam kajian
tersebut telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga
orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item
ujian pencapaian Program Sandaran ini. Di samping itu, kesahan konstruk pula ditentukan
dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks
Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan
untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks
menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai KR20 pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan

ketekalan dalaman yang baik. Nilai K-R 20 ini merumuskan bahawa item mempunyai
kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut. Sehubungan
dengan itu, nilai kebolehpercayaan antara penilai (interrater reliability) sebanyak 0.85 juga
menunjukkan bahawa item dalam Program Sandaran boleh diguna pakai dalam kajian
tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian pencapaian Program
Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian objektif kajian
ketiga dan kelima.
Kesahan dan Kebolehpercayaan Temu Bual
Protokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian
reaksi, penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu
seperti reaksi responden terhadap Program Latihan NPQH, pengetahuan dan kemahiran
yang diperoleh, pemindahan pengetahuan dan kemahiran semasa Program Sandaran,
masalah yang dihadapi dan cadangan untuk meningkatkan kualiti program ini dimasukkan
dalam protokol temu bual. Ini merupakan satu usaha untuk menguatkan bukti daripada data
yang didapati melalui soal selidik, skor ujian pencapaian dan skor Program Sandaran.
Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk menguatkan
bukti daripada sumber yang berlainan.
Semua item dalam protokol temu bual yang digunakan dalam kajian tersebut telah
ditentukan dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar.
Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item temu bual ini.
Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa
digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang
dikaji (Zamri dan Noriah 2003). Penulis memadankan unit daripada data temu bual dengan
tema yang dominan. Dalam hal ini, penulis telah mendapatkan khidmat tiga orang pakar
analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang
seperti yang terdapat dalam Lampiran B.
Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa
digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang
dikaji (Zamri dan Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada
data temu bual dengan tema yang dominan. Penulis telah mendapatkan khidmat tiga orang
pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan
borang seperti yang terdapat dalam Lampiran B. Seterusnya, penulis menghitung nilai
persetujuan (Indeks Cohen Kappa) daripada borang yang diterima daripada pakar-pakar
tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:

K =

fa fc
---------N fc

Sumber: Cohen (1968) dalam Zamri dan Noriah (2003):4


di mana K nilai koefisien Kappa
fa frekuensi persetujuan
fc frekuensi bagi 50 peratus jangkaan persetujuan
N bilangan unit yang diuji nilai persetujuan
Bagi menentukan tahap persetujuan Kappa, nilai yang disyorkan oleh Landis dan
Kosh (1977) dalam Zamri dan Noriah (2003) digunakan oleh penulis, seperti yang
ditunjukkan dalam Jadual 5 di bawah.
Jadual 5: Nilai Kappa dan interpretasinya (tahap)

Nilai Kappa
Kurang daripada 0
0.00 0.20
0.21 0.40
0.41 0.60
0.61 0.80
0.81 1.00

Interpretasinya
Sangat lemah
Lemah
Sederhana lemah
Sederhana
Baik
Sangat baik

Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3

Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam
Jadual 6 di bawah ini.
Jadual 6: Nilai persetujuan bagi koefisien Kappa
Pakar 1
46 24.5
K1 = -----------49 24.5
21.5

Pakar 2
47 24.5
K2 = ---------49 24.5
22.5

Pakar 3
46 24.5
K3 = ----------49 24.5
21.5

Min Koefisien Kappa


K1 + K2 + K3
K = ------------------3
0.88 + 0.92 + 0.88

= -----24.5

= -----24.5

= -----24.5

= ---------------------3

= 0.88

= 0.92

= 0.88

= 0.89

Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini
merupakan satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis
yang dibuat oleh penulis adalah selari dengan tema yang dikemukakan, berdasarkan
persetujuan pakar.
Kesimpulan
Penulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item
yang digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat
pakar, penulis turut menggunakan kaedah statistik dengan mengemukakan nilai seperti
korelasi skor item dengan jumlah skor, korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation), Indek Kesukaran (F) dan Indeks Diskriminasi (D) bagi
menentukan kesahan item yang digunakan. Sementara nilai Cronbach Alpha dan KuderRicharson 20 (K-R20) dikemukakan bagi menentukan kebolehpercayaan item yang diguna
pakai.
Rujukan
Abu Bakar Nordin. 1986. Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya:
Longman Malaysia Sdn. Bhd.
Alias Baba. 1992. Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi:
Penerbit Universiti Kebangsaan Malaysia.
Black, T. R. 1999. Doing quantitative research in the social sciences an integrated
approach to research design, measurement and statistics. London: Sage
Publications.
Carey, L. M. 1994. Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and
Bacon.
Cohen, J. 1968. Weighted Kappa a nominal scale aggreement with provision for scaled
disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri
Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.
Cohen, J. W. 1988. Statistical power analysis for the behavioral sciences Ed. Second.

Hillsdale, New Jersey: Lawrence Erlbaum Associates.


Creswell, J. W. 2002. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (2nd Ed). New Jersey: Pearson Merril Prentice
Hall.
Creswell, J. W. 2005. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (3rd Ed.). New Jersey: Pearson Merril Prentice
Hall.
Creswell, J. W. 2010. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (4th Ed.). New Jersey: Pearson Merril Prentice
Hall.
Cronbach, L. J. 1946. Response sets and test validity. Educational and psychological
measurement 6:672-683.
Ebel, R. L. 1979. Essentials of Educational Measurement Ed. ke-3. New Jersey: PrenticeHall Inc.
Kamaruzaman Moidunny. 20039. Keberkesanan Program Kelayakan Profesional
Kepengetuaan Kebangsaan (NPQH). Disertasi Doktor Falsafah, Universiti
Kebangsaan Malaysia.
Landis, J. & Kosh, G.G. 1977. The measurement of observer agreement for categorical
data. Biometrics, 33:159-174. Dlm. Zamri Mahamod & Noriah Mohd Ishak.
2003. Analisis Cohen Kappa dalam penyelidikan bahasa satu pengalaman. Kertas
Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian
Pendidikan Guru, KPM. Kuching, 19 20 Ogos.
Macintosh, H. G., & Morrisson, R. B. 1969. Objective testing. London: University of London
Press Ltd.
Mohd Majid Konting. 1990. Kaedah penyelidikan pendidikan. Kuala Lumpur: Dewan Bahasa
dan Pustaka.
Norusis, M. J. 1977. SPSS professional statistic 7.5. North Michigan Avenue, Chicago.
Nunnally, J. C. 1967. Psychometric theory. New York: McGraw-Hill Book Company.
Nunnally, J. C. 1978. Psychometric theory. Ed. ke-2. New York: McGraw-Hill Book
Company.
Nunnally, J. C. & Bernstein, I. R. 1994. Psychometric theory. Ed. ke-3. New York: McGrawHill, Inc.
Pallant, J. 2001. SPSS survival manual - a step by step guide to data analysis using SPSS
for windows (version 10). Buckingham Open University Press.
Sekaran, U. 1992. Research methods for bussiness: a skill-building approach. New York:
John Wiley & Sons, Inc.
Siti Rahayah Ariffin. 2003. Teori, konsep & amalan dalam pengukuran dan penilaian. Bangi:
Pusat Pembangunan Akademik UKM.
Tabachnick, B. G. & Fidell, L. S. 2001. Using multivariate statistics. Ed. ke-4. London: Allyn

and Bacon.
Tuckman, B. W. 1999. Conducting educational research. Ed. Ke-5. California: Wadsworth
Thomson Learning.
Wood, D. A. 1961. Test construction - development and interpretation of achievement test.
Ohio: Charles E. Merril Books, Inc.
Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985. Pengukuran dan penilaian dalam
pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.
Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.

Anda mungkin juga menyukai