(1967, 1978) serta Nunally dan Bernstein (1994) menyatakan bahawa nilai korelasi antara
item dengan jumlah skor yang melebihi 0.25 adalah dianggap tinggi.
Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai
pekali korelasi antara 0.30 hingga 0.49 dianggap sederhana dan nilai pekali korelasi antara
0.50 hingga 1.00 dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu
instrumen boleh dilihat pada nilai korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation) iaitu pekali korelasi Pearson antara skor setiap item
dengan jumlah skor tanpa item berkenaan.
Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk
menentukan kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor
setiap item dengan jumlah skor, dan (2) Menggunakan nilai korelasi item yang
diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Penulis juga akan
merujuk kepada kurikulum Program Latihan NPQH untuk menentukan kesahan konstruk.
Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis
menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan. Komen
dan teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi
memantapkan lagi maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang
akan digunakan. Di samping itu, komen dan teguran digunakan dalam menilai item-item
yang digunakan dalam ujian dan skima permarkahan Program Sandaran.
Kebolehpercayaan Soal Selidik
Kebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan
dalaman (Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach
Alpha pula seringkali dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk
(Cronbach 1946; Norusis 1977). Nilai Cronbach Alpha yang melebihi 0.60 sering kali diguna
pakai sebagai indeks kebolehpercayaan sesuatu instrumen (Mohd Majid 1990; Pallant
2001; Siti Rahayah 2003). Bagi Sekaran (1992) pula, nilai kebolehpercayaan yang kurang
daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai Alfa antara 0.60
hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap
baik. Berdasarkan
penerangan
di
atas,
penulis
telah
menggunakan
nilai
Cronbach Alpha bagi menentukan kebolehpercayaan soal selidik.
Kesahan dan Kebolehpercayaan Ujian
Bagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus UAK) yang berbentuk item
berbentuk objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka
penlengkap dengan empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program
Sandaran, memfokuskan kepada (1) Pengenalpastian masalah, (2) Perancangan strategik,
(3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Skor-skor diberikan oleh
pensyarah-pensyarah apabila mereka menyemak hasil kerja peserta Program Sandaran.
Kesahan item-item yang digunakan dalam ujian pencapaian dan Program Sandaran
ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk membezakan
item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item ujian
pencapaian dan Program Sandaran telahpun dibina oleh IAB.
Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan
menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination
Index, D) seperti yang disarankan oleh Macintosh dan Morrison (1969). Wood (1961)
menyatakan bahawa kesukaran item merujuk kepada pecahan yang mendapat jawapan
yang betul. Semakin besar indeks kesukaran, item itu semakin senang. Bagi aras
kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60 peratus iaitu 0.4 hingga
0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang rendah iaitu
soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras
kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah
sukar. Macintosh dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang
rendah boleh dibaiki. Jadual 1 di bawah ini menjelaskan aras kesukaran (F) dan indeks
pembezaan (D) sebagaimana yang dikemukakan oleh Macintosh dan Morrisson (1969).
Jadual 1: Aras Kesukaran dan Indeks Pembezaan
Aras Kesukaran (F)
Indeks Pembezaan (D)
Kurang
daripada
40 %
40 %
hingga
60 %
Lebih daripada
60 %
Sukar
Sukar
Sukar
Dibuang
Diterima
Perlu dibaiki
Marginal
Dibuang
Senang
Senang
Senang
Dibuang
Nilai yang hampir dengan 0.80 adalah biasa didapati untuk ujian bilik darjah kepada peserta
heterogen. Manakala nilai serendah 0.50 biasa didapati bagi kumpulan peserta-peserta
homogen. Sementara bagi Ebel (1979), nilai K-R20 0.50 atau kurang adalah nilai yang biasa
didapati bagi ujian pencapaian di sekolah rendah, menengah atau universiti. Bagi Carey
(1994), nilai K-R20 bergantung kepada kehomogenan kumpulan, kehomogenan kandungan,
panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk
menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih
panjang sebanyak sembilan kali daripada panjang asal.
Kesahan dan Kebolehpercayaan Soal Selidik
Satu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan
kebolehpercayaan soal selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di
bawah ini. Kesahan item soal selidik menggunakan nilai (1) Korelasi antara skor setiap item
dengan jumlah skor, dan (2) Korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation). Manakala nilai Cronbach Alpha digunakan bagi
mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan. Jadual 2
menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item
dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang
diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65
hingga 0.85. Nilai Cronbach Alpha pula adalah 0.92.
Jadual 2: Nilai korelasi dan Alfa bagi konstruk Penyampaian Pensyarah
Konstruk
Penyampaian
Pensyarah
0.84
0.79
0.80
0.88
0.73
0.84
0.77
0.82
0.78
0.72
0.74
0.85
0.65
0.80
0.69
0.75
0.91
0.92
0.92
0.91
0.92
0.91
0.92
0.91
0.92
Jadual 2 menunjukkan (1) Nilai korelasi skor item dengan jumlah skor dan (2) Nilai
korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation)
adalah melebihi 0.30. Hal ini memberikan kesimpulan bahawa item mempunyai nilai
kesahan yang tinggi sebagaimana yang disarankan oleh Abu Bakar (1987), Cohen (1988),
Norusis (1977) dan Nunally (1987). Sementara itu, nilai Cronbach Alpha adalah melebihi
0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan
dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach
Alpha ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh
diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran
(1992) dan Siti Rahayah (2003).
Kesahan dan Kebolehpercayaan Ujian Pencapaian
Sebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH
daripada ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat
fasa kursus yang mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa
Asas dan satu kertas ujian bagi tiga fasa kursus berikutnya. Dan bagi memilih item yang
sesuai dalam kajian tersebut, penulis telah melaksanakan proses yang dinamakan sebagai
analisis item.
Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75
item), Fasa Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item)
dan Fasa Berterusan (100 item). Analisis item dilaksanakan untuk menentukan Indeks
Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) dalam
usaha menentukan kesahan konstruk setiap item. Rumus yang digunakan dalam analisis ini
ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu, cuma item yang mempunyai
nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F bersamaan atau
melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang
disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan
kebolehpercayaan setiap item, nilai Kuder-Richardson 20 (K-R 20) bagi setiap konstruk
dihitung seperti yang disarankan oleh Carey (1994).
Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini
dilaksanakan secara tertutup, IAB tidak membenarkan sebarang item dipaparkan untuk
tatapan umum. Oleh itu penulis telah menggunakan kod bagi setiap item yang dipilih.
Sebagai contoh, Jadual 3 di bawah ini akan memaparkan hasil analisis item yang telah
dilaksanakan bagi item ujian pencapaian.
Bil
Kod
Aras
Kesukaran
(F)/%
Indeks
Pembezaan
(D)
Nilai K-R20
(r)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
AS04
AS20
AS25
AS33
AS35
AS46
AS47
AS53
BT07
BT10
BT11
BT16
BT17
BT18
BT19
BT20
BT22
BT23
BT24
BT25
BT26
BT27
PT02
PT07
PT09
76
53
53
77
59
54
59
73
60
79
74
59
47
57
75
42
41
66
43
45
49
64
53
51
76
0.21
0.33
0.37
0.30
0.49
0.25
0.21
0.21
0.44
0.26
0.30
0.21
0.23
0.23
0.33
0.25
0.21
0.28
0.54
0.30
0.32
0.25
0.31
0.22
0.27
0.65
Jumlah item = 25
AS Fasa Asas Kertas 1
BT Fasa Berterusan
PT Fasa Pertengahan
Berdasarkan nilai yang terdapat dalam Jadual 3, nilai D adalah melebihi 0.20 serta
nilai F adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti
dinyatakan oleh Macintosh dan Morrisson (1969). Manakala K-R20 yang dihitung
mempunyai nilai di antara 0.62 hingga 0.70. Nilai K-R 20 melebihi 0.60 yang memberikan
kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman (Cresswell 2005;
Sekaran 1992). Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan
yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant
(2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi ujian
pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya
kerana mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.
Semua item ujian pencapaian yang digunakan dalam kajian tersebut telah
ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar.
Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian
pencapaian ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan
analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan
(2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan
konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan
yang boleh diguna pakai. Sementara itu, nilai K-R 20 pula ditentukan yang memberikan
kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai KR20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh
diguna pakai dalam kajian tersebut.
Kesahan dan Kebolehpercayaan Program Sandaran
Analisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1)
Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian
strategik, serta (4) Kualiti peribadi. Rumus yang digunakan bagi tujuan analisis ditunjukkan
dalam Lampiran A. Jadual 4 di bawah ini menunjukkan nilai yang diperoleh daripada
analisis tersebut.
Jadual 4: Nilai F, D dan K-R20 bagi Program Sandaran
Konstruk
Program
Sandaran
Aspek
Aras
Kesukaran
(F)/%
Indeks
Pembezaan
(D)
Nilai
K-R20
Pengenalpastian Masalah
83
0.22
0.84
Perancangan Strategik
82
0.25
Pelaksanaan
Penilaian Strategik
Kualiti Peribadi
dan
81
0.25
88
0.23
ketekalan dalaman yang baik. Nilai K-R 20 ini merumuskan bahawa item mempunyai
kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut. Sehubungan
dengan itu, nilai kebolehpercayaan antara penilai (interrater reliability) sebanyak 0.85 juga
menunjukkan bahawa item dalam Program Sandaran boleh diguna pakai dalam kajian
tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian pencapaian Program
Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian objektif kajian
ketiga dan kelima.
Kesahan dan Kebolehpercayaan Temu Bual
Protokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian
reaksi, penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu
seperti reaksi responden terhadap Program Latihan NPQH, pengetahuan dan kemahiran
yang diperoleh, pemindahan pengetahuan dan kemahiran semasa Program Sandaran,
masalah yang dihadapi dan cadangan untuk meningkatkan kualiti program ini dimasukkan
dalam protokol temu bual. Ini merupakan satu usaha untuk menguatkan bukti daripada data
yang didapati melalui soal selidik, skor ujian pencapaian dan skor Program Sandaran.
Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk menguatkan
bukti daripada sumber yang berlainan.
Semua item dalam protokol temu bual yang digunakan dalam kajian tersebut telah
ditentukan dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar.
Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item temu bual ini.
Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa
digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang
dikaji (Zamri dan Noriah 2003). Penulis memadankan unit daripada data temu bual dengan
tema yang dominan. Dalam hal ini, penulis telah mendapatkan khidmat tiga orang pakar
analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang
seperti yang terdapat dalam Lampiran B.
Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa
digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang
dikaji (Zamri dan Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada
data temu bual dengan tema yang dominan. Penulis telah mendapatkan khidmat tiga orang
pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan
borang seperti yang terdapat dalam Lampiran B. Seterusnya, penulis menghitung nilai
persetujuan (Indeks Cohen Kappa) daripada borang yang diterima daripada pakar-pakar
tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:
K =
fa fc
---------N fc
Nilai Kappa
Kurang daripada 0
0.00 0.20
0.21 0.40
0.41 0.60
0.61 0.80
0.81 1.00
Interpretasinya
Sangat lemah
Lemah
Sederhana lemah
Sederhana
Baik
Sangat baik
Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3
Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam
Jadual 6 di bawah ini.
Jadual 6: Nilai persetujuan bagi koefisien Kappa
Pakar 1
46 24.5
K1 = -----------49 24.5
21.5
Pakar 2
47 24.5
K2 = ---------49 24.5
22.5
Pakar 3
46 24.5
K3 = ----------49 24.5
21.5
= -----24.5
= -----24.5
= -----24.5
= ---------------------3
= 0.88
= 0.92
= 0.88
= 0.89
Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini
merupakan satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis
yang dibuat oleh penulis adalah selari dengan tema yang dikemukakan, berdasarkan
persetujuan pakar.
Kesimpulan
Penulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item
yang digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat
pakar, penulis turut menggunakan kaedah statistik dengan mengemukakan nilai seperti
korelasi skor item dengan jumlah skor, korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation), Indek Kesukaran (F) dan Indeks Diskriminasi (D) bagi
menentukan kesahan item yang digunakan. Sementara nilai Cronbach Alpha dan KuderRicharson 20 (K-R20) dikemukakan bagi menentukan kebolehpercayaan item yang diguna
pakai.
Rujukan
Abu Bakar Nordin. 1986. Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya:
Longman Malaysia Sdn. Bhd.
Alias Baba. 1992. Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi:
Penerbit Universiti Kebangsaan Malaysia.
Black, T. R. 1999. Doing quantitative research in the social sciences an integrated
approach to research design, measurement and statistics. London: Sage
Publications.
Carey, L. M. 1994. Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and
Bacon.
Cohen, J. 1968. Weighted Kappa a nominal scale aggreement with provision for scaled
disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri
Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.
Cohen, J. W. 1988. Statistical power analysis for the behavioral sciences Ed. Second.
and Bacon.
Tuckman, B. W. 1999. Conducting educational research. Ed. Ke-5. California: Wadsworth
Thomson Learning.
Wood, D. A. 1961. Test construction - development and interpretation of achievement test.
Ohio: Charles E. Merril Books, Inc.
Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985. Pengukuran dan penilaian dalam
pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.
Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.