Anda di halaman 1dari 62

KULIAH 1:

PENGENALAN KEPADA UJIAN & PENGUKURAN PSIKOLOGI

UJIAN DAN PENGUKURAN APA ITU UJIAN PSIKOLOGI? Ujian adalah satu alat pengukuran atau teknik yang digunakan untuk menilai tingkah laku atau alat bantuan untuk memahami dan meramal sesuatu tingkah laku (Kaplan & Saccuzzo, 2001). Contoh: ujian mengeja perkataan (A spelling test) mengukur sejauh mana kebolehan seseorang itu mengeja perkataan atau sebaik mana seseorang itu belajar mengeja satu senarai perkataan khas. Satu ujian psikologi adalah satu set item yang direkabentuk untuk mengukur ciri-ciri manusia yang berkaitan dengan tingkah laku (overt and covert behavior)

Ahli-ahli psikologi klinikal menggunakan ujian-ujian objektif dan projektif untuk membantu mereka memilih rawatan-rawatan yang sesuai untuk klien mereka. Ujian-ujian juga digunakan di tempat kerja untuk membantu dalam pemilihan personnel dan perlesenan professional.

Ujian-ujian psikologi boleh digunakan untuk mengukur pelbagai atribut seperti kecerdasan, motivasi, minat kerjaya, kecekapan ruang (spatial ability), kebimbangan, persepsi dan sebagainya. Panel National Academy of Sciences membuat rumusan bahawa ujian psikologi boleh dikatakan adalah teknologi yang paling tepat, adil dan baik bagi membuat keputusan penting berkenaan seseorang individu.

UJIAN-UJIAN PSIKOLOGI: DEFINISI Ujian psikologi adalah satu alat pengukuran yang mempunyai tiga (3) ciri pendefinisian: 1. 2. 3. Ujian psikologi adalah satu sampel tingkah laku. Sampel tingkah laku itu diperoleh dalam keadaan piawai Terdapat peraturan permarkatan atau peraturan memperoleh maklumat kuantitatif tertentu daripada sampel tingkah laku berkenaan.

Overt behavior adalah aktiviti-aktiviti seseorang yang boleh


diperhatikan.

Covert behavior adalah aktiviti-aktiviti seseorang yang tidak


boleh diperhatikan secara langsung (misalnya, perasaan atau pemikiran) (Kaplan & Saccuzzo, 2001).

Ujian adalah satu prosedur sistematik bagi memerhati tingkah laku seseorang dan menjelaskannya dengan bantuan satu skala nombor atau sistem kategori (Cronbach, 1990)

APA ITU PENGUKURAN? Prosedur untuk menggambarkan ciri-ciri atau tingkah laku yang dinilai itu dengan menggunakan nombor.

Sampel Tingkah Laku Penggunaan sampel tingkah laku dalam pengukuran psikologi mempunyai beberapa implikasi : 1. membuat keputusan penting 2. Ujian psikologi bukan satu pengukuran sempurna sepenuhnya yang boleh digunakan untuk mengukur dan menjelaskan sesuatu atribut (contoh: kecekapan mengeja perkataan). Kualiti sesuatu ujian itu banyak bergantung kepada keupayaan keperwakilan sampel tingkah laku berkenaan atau sejauh mana sampel tingkah laku itu boleh mengukur atribut yang hendak

Kenapa Ujian Psikologi Penting? Ujian-ujian digunakan untuk berkenaan seseorang individu.

diukur (contoh: Ujian IQ mengandungi ujian yang menguji tentang kecekapan nombor, ruang, verbal dan non-verbal). Kepiawaian (Standardization) Ujian psikologi adalah satu sampel tingkah laku yang dikumpul dalam keadaan piawai. Kepiawaian itu merujuk kepada keseragaman prosedur penggunaan ujian psikologi iaitu dari segi pentadbiran dan permarkatan ujian. Contoh: mentadbir The Scholastic Assessment Tests (SAT) kepada seribu orang pelajar sekolah. Terdapat beberapa prosedur yang mesti diikut oleh pentadbir ujian: Pentadbir ujian akan membaca setiap arahan kepada semua pelajar sebelum ujian bermula. Masa ditetapkan untuk menjawa setiap bahagian ujian. Manual ujian mengandungi arahan-arahan yang lengkap berkaitan dengan pola kedudukan yang sesuai, kecerahan lampu, kecemasan. Jawapan untuk soalan umum. Manual ujian lengkap boleh memastikan keseragaman prosedur pentadbiran SAT di semua tempat.

Peraturan Permarkatan Objektif Merujuk kepada jika dua orang yang menggunakan peraturan permarkatan yang sama dalam menilai respon daripada seseorang individu, skor yang diperoleh individu itu akan sentiasa sama daripada dua orang penilai berkenaan. Ujian yang menggukan peraturan permarkatan objektif adalah ujian pelbagai pilihan (multiple choice test).

Peraturan Permarkatan Subjektif Permarkatan ini bergantung kepada penilaian penilai atau pentadbir ujian. Istilah subjektif ini tidak menunjukkan metod permarkatan ujian itu tidak tepat atau tidak boleh dipercayai. Ujian yang menggukan peraturan permarkatan subjektif adalah Rorschach inkblot tests dan ujian esei.

JENIS-JENIS UJIAN PSIKOLOGI Secara keseluruhan ujian psikologi boleh dibahagikan kepada tiga (3) kategori: 1. Ujian Prestasi (Test of Performance) Dalam ujian ini subjek diminta melakukan sesuatu tugas khas seperti menulis esei, menjawab soalan-soalan pelbagai pilihan, membuat putaran imej secara mental melalui komputer dll.

Peraturan Permarkatan

Tujuan ujian adalah untuk mengukur atau menjelaskan atributatribut tertentu individu yang mengambil ujian dalam bentuk angka atau bentuk kuantitatif. Dengan itu, ujian psikologi harus mempunyai peraturan atau prosedur tertentu dalam menjelaskan tingkah laku individu yang mengambil ujian itu dalam bentuk angka/nombor atau dalam bentuk kuantitatif.

2.

Permerhatian Tingkah Laku Ujian ini melibatkan permerhatian tingkah laku subjek dalam konteks tertentu.

3.

Laporan Kendiri (Self-report)

Subjek menjelaskan perasaan, sikap, kepercayaan, minat, pengalaman atau peringkat mental atau fizikalnya.

Permerhatian tingkah laku yang sistematik berguna dalam menilai atribut seperti kemahiran atau penyesuaian sosial. Contoh, menilai kecekapan kanak-kanak bersosial dengan rakanrakan.

Ujian Prestasi (Tests of Performance) Subjek diberi sesuatu tugas khas dan mereka akan cuba sedaya upaya untuk melaksanakan tugas berkenaan dengan jayanya. Skor ujian yang diperoleh subjek ditentukan dengan kejayaan subjek dalam menyempurnakan setiap tugas berkenaan. Dalam pengambilan ujian ini, subjek diandaikan tahu apakah yang sepatut dilakukan dalam memberi respon ke atas tugas yang diberikan. Daripada itu, subjek akan cuba sedaya upaya untuk menjayakan tugas yang diberikan. Ujian prestasi direka bentuk untuk menilai apa yang boleh dilakukan oleh seseorang dalam keadaan tertentu (keadaan yang hendak diuji, misalnya, menguji prestasi kerja operator mesin dalam keadaan bising dan panas). Contoh ujian prestasi: Ujian kecekapan mental (ujian kecerdasan/IQ), ujian kecekapan khusus (kecekapan ruang, kecekapan muzik, kecekapan matematik), ujian aktiviti psikomotor atau fizikal (ujian kecekapan psikomotor perkomputeran, flight simulators and ujian memandu).

Laporan Kendiri (Self-Report) Ujian-ujian psikologi yang meminta subjek untuk melapor atau menjelaskan perasaan, sikap, kepercayaan, minat, pengalaman atau peringkat mental atau fizikalnya. Contoh, ujian personaliti, ujian kecerdasan emosi dll.

UJIAN DAN KEPUTUSAN: KEGUNAAN UJIAN PSIKOLOGI Asal Usul Ujian

Some Milestones In The Development of Tests __________________________________________________________ _ 1000b.c 1850-1900 Testing in Chinese civil service Civil service examinations in the United States

Permerhatian Tingkah Laku Ujian-ujian psikologi yang melibatkan permerhatian tingkah laku dan respon-respon subjek dalam konteks tertentu. Contoh: menilai kecekapan jurujual, menilai sikap menolong pelajar dll. ujian ini tidak meminta subjek

1900-1920 Development of individual and group tests of cognitive ability, development of psychometric theory. 1920-1940 Development of factor analysis, development of projective tests and standardized personality inventories. 1940-1960 Development of vocational interest measures, standardized measures of psychopathology. 1980-present large-scale implimentation of computerized adaptive tests.

Berbeza dengan ujian prestasi, melaksanakan tugas tertentu.

Subjek mungkin tidak tahu tingkah laku mereka sedang dikaji. Ujian permerhatian tingkah laku menilai prestasi atau tingkah laku tipikal subjek dalam konteks khusus.

__________________________________________________________ _ Kegunaan Ujian Dalam Latar Pendidikan Dalam latar pendidikan ujian-ujian psikologi banyak digunakan dalam menilai pengambilan dan kemajuan pelajar. Misalnya: Penilaian pelajar bagi penempatan dalam pelbagai program pendidikan (e.g. ujian kecerdasan). Membuat diagnosis masalah pembelajaran (e.g. ujian prestasi dan ujian permerhatian tingkah laku). Menilai keberkesanan kurikulum.

Dalam latar klinikal ujian-ujian psikologi banyak digunakan untuk menilai individu klien untuk menentukan rawatan mana yang sesuai bagi mereka. Dalam bidang klinikal, ujian-ujian personaliti objektif dan projektif serta ujian diagnostik banyak digunakan. Ujian neuropsikologikal juga digunakan oleh ahli psikologi klinikal. Ahli psikologi klinikal biasanya akan mendapat latihan khusus dalam mentadbir ujian psikologi terutamanya ujian kecerdasan individu sebelum mereka menggunakan ujian itu untuk menilai klien atau pesakit mereka.

TESTING ACTIVITIES OF PSYCHOLOGISTS


KULIAH 2 : PENGUKURAN NORMA DAN STATISTIK ASAS BAGI UJIAN DAN

Kegunaan Ujian Dalam Latar Personnel Dalam latar organisasi, ujian-ujian psikologi banyak digunakan dalam pemilihan personnel. Ujian psikologi yang banyak digunakan dalam pemilihan personel adalah ujian kecekapan dan ujian kemahiran khusus. Ujian kecekapan juga banyak digunakan dalam latar ketenteraan sama ada untuk membuat penapisan atau penempatan tentara mengikut kecekapan dan kemahiran mereka. Dalam latar organisasi ujian-ujian digunakan untuk menilai keperluan menjalankan sesuatu latihan, menilai prestasi pekerja dalam latihan dan menilai kerjayaan sesuatu program latihan, menilai perkembangan pengurusan dan program kerjaya kaunseling.

LEARNING OBJECTIVE When you have complete this chapter, you should be able to: Discuss three properties of scales of measurement. Determine why properties of scales are important in the field of measurement. Describe the mean and the standard deviation. Define a Z & T score and explain how it is used. Relate the concepts of mean,standard deviation, and Z score to the concept of a standard normal distribution. Tell how norms are created. Relate the notion of tracking to the establishment of norms

Kegunaan Ujian Dalam Latar Klinikal

Kenapa Perlukan Statistik ?

Metod Statistik memainkan memahami persoalan saintifik: 1.

dua

peranan

penting

dalam

Statistik digunakan untuk tujuan deskriptif (Statistik Deskriptif) Menjelaskan dan meringkaskan maklumat yang dikumpul daripada satu sampel mengurangkan sejumlah besar data bentuk angka atau nombor ke dalam bentuk yang lebih tersusun (dalam jadual atau rajah). Statistik deskriptif adalah prosedur-prosedur statistik yang menjelaskan, menyusun dan meringkaskan ciri-ciri utama data sampel.

Adalah penting bagi seseorang penyelidik untuk mengenalpasti tahap pengukuran bagi data yang didapati sebelum sesuatu teknik analisis statistik digunakan. Teknik yang hendak digunakan bergantung kepada jenis atau tahap data yang diperoleh. cth. Teknik Khi Kuasa Dua tidak sesuai untuk data yang bersifat sela.

Terdapat tiga ciri utama yang menyebabkan skala pengukuran berbeza antara satu sama lain: magnitude, sela yang sama (equal intervals) dan kosong (0), mutlak (absolute 0)

2. Statistik digunakan untuk membuat inferensi atau keputusan (Statistik Inferensi) Ia membolehkan penyelidik untuk membuat keputusan (judgments) berkenaan populasi perhubungan dalam data sampel inferensi berdasarkan

Magnitude Magnitude menunjukkan ciri moreness.


Skala yang mempunyai ciri magnitude ia boleh menunjukkan ciri sama ada lebih, kurang atau sama. Cth. Ahmad (PNGK = 3.78) mempunyai pencapaian akademik yang lebih baik daripada Jamil (PNGK = 3.20) Skala yang tidak mempunyai ciri magnitude A pasukan bola sepak dibahagikan kepada Team 1, Team 2, Team 3 dan Team 4.

Statistik inferensi membolehkan generalisasi dibuat ke atas populasi dengan berdasarkan data sampel- yang diambil daripada populasi itu.

SKALA PENGUKURAN Definisi Pengukuran Pengukuran adalah satu prosedur menggambarkan ciri-ciri atau tingkah laku untuk

yang hendak dinilai itu dengan menggunakan nombor. Contoh: membuat pemeringkatan ke atas kepuasan hidup (1= sangat tidak puas hati, 10= sangat puas hati). Contoh lain berkaitan kebahagiaan (1 = Sangat tidak bahagia, 5 = Sangat bahagia)

Skala di atas boleh menjadi skala yang mempunyai ciri magnitude sekiranya pasukan tadi disusun mengikut tempat kemenangan mereka. Cth. No.1 adalah Team 3, No.2 adalah Team 1, No.3 adalah Team 4 dan terakhir adalah Team 2. Sela yang sama (Equal Intervals) Skala yang mempunyai ciri sela yang sama intervals) (equal

Ciri-Ciri Skala Pengukuran

Perbezaan di antara dua titik pada sesuatu ukuran adalah sama kuantitinya dengan perbezaan di antara dua titik lain pada ukuran yang sama. Cth. Perbezaan di antara 2 cm dan 4 cm pada satu pembaris menunjukkan kuantiti yang sama bagi perbezaan di antara 10 cm dan 12 cm, iaitu sebanyak 2 cm. Dalam ujian psikologi jarang mempunyai ciri sela yang sama. Cth. Perbezaan di antara IQ 45 dan 50 tidak menunjukkan makna yang sama dengan perbezaan di antara IQ 105 dan 110 Kosong (0) Mutlak (Absolute 0) Kosong mutlak bermakna tiada ukuran yang wujud. Cth. Denyutan jantung = 0, ini bermakna tiada kadar denyutan jantung atau bermakna orang itu telah mati. Jenis Skala Pengukuran Terdapat empat (4) jenis skala pengukuran: nominal, ordinal, sela(interval) dan nisbah(ratio). Jadual 1: Skala pengukuran dan ciri-cirinya Skala Nominal Skala nominal tidak mempunyai ketiga-tiga ciri magnitude, sela yang sama (equal intervals) atau kosong mutlak (absolute 0). Skala nominal sebenarnya bukanlah satu skala, tujuannya hanya untuk menamakan sesuatu objek atau perkara atau hanya sebagai satu cara pengelasan sahaja.

Skala Ordinal

Skala nominal digunakan apabila maklumat itu adalah berbentuk kualitatif dan bukan kuantitatif. Contoh, jantina. Dalam soal selidik subjek yang dilabel mengikut jantina. 1=lelaki, 2=perempuan.

Skala ordinal mempunyai ciri magnitude tetapi tidak mempunyai ciri sela yang sama atau kosong mutlak. Skala ini membolehkan kita membuat pemeringkatan ke atas individu atau objek. Skala ini boleh menunjukkan perbezaan antara pilihan tetapi tidak menjelaskan perbezaan secara mutlak. Contoh item berkenaan tahap kepuasan kerja yang bersifat ordinal:

Pekerjaan yang anda lakukan 1. 2. 3. 4. Sangat tidak puas hati Tidak puas hati Puas hati Sangat puas hati

Kita tidak boleh menyatakan perbezaan antara 1 dan 2 adalah sama dengan perbezaan antara 3 dan 4. Kita hanya boleh menganggapkan bahawa 4 adalah lebih puas dari 3 dan 3 adalah lebih puas dari 2 dan 2 lebih puas dari 1 Nombor-nombor hanyalah label mengikut urutan kepentingan sahaja. Skala Sela (Interval Scale) Skala ini mempunyai ciri magnitude dan sela yang sama tetapi tiada ciri kosong mutlak.

Skala ini mempunyai urutan atau pangkat serta anggapan bahawa perbezaan antara sela wujud. Contoh: ukuran suhu dalam darjah Fahrenheit atau Celsius. Skala suhu ini mempunyai ciri magnitude 35F adalah lebih panas daripada 32F , 65F adalah lebih panas daripada 64F dan sebagainya. Perbezaan antara 90F -80F sebanyak 10 adalah sama dengan perbezaan antara 75F -65F yang juga sebanyak 10. Dalam skala Fahrenheit, suhu tidak mempunyai ciri kosong mutlak. Walaupun 0 menunjukkan tahap beku bagi skala Celcius, ia tidak menunjukkan kosong mutlak Oleh kerana skala ini tidak mempunyai ciri kosong mutlak maka kita tidak boleh membuat kenyataan dalam bentuk nisbah suhu pada 22F adalah dua kali ganda lebih panas daripada suhu pada 11F

di mana: = skor piawai Z = skor / data mentah = min = sisihan piawai Transfomations: Skor Z

Ujian & Pengukuran Skor Amirul ( ) Min ( ) Sisihan Piawai ( ) Contoh Skor Piawai Z yang diperolehi Amirul: 80 70 5

Skala Nisbah (Ratio Scale) Skala ini mempunyai ketiga-tiga ciri [magnitude, sela yang sama dan kosong mutlak (absolute 0)]. contoh: umur, ketinggian, jarak dan kepantasan Seseorang yang berumur 20 tahun adalah dua kali umurnya dari seseorang yang berumur 10 tahun Ini bermakna perbandingan boleh dibuat dengan skala jenis ini

Skor piawai Z Ujian & Pengukuran = +2 Skor piawai z bagi U & P = +2 (0.9773) mempunyai pangkat peratusan sebanyak 98%. Ini bermaksud Amirul mendapat skor lebih baik berbanding 98% pelajar lain yang mengambil subjek ujian & pengukuran. Transformations: Skor T Jika kita menggunakan pengiraan skor z, terdapat nilai skor z berbentuk negatif contohnya nilai 2.0. Bagi mengelakkan nilai negatif ini, penggunaan pengiraan piawai T (Skor-T) boleh digunakan. Taburan skor T sama dengan

Transfomations: Skor Z Skor Piawai Z ialah skor piawai yang mempunyai min sifar dan sisihan piawai 1. Rumusnya adalah seperti berikut:

taburan skor Z Cuma bezanya skor T mempunyai min 50 dan sisihan piawai 10. Rumusnya adalah seperti berikut:

Dalam membuat tafsiran skor, beberapa kumpulan yang berbeza mungkin digunakan untuk mendapat maklumat normatif. Contoh:skor yang diperoleh oleh seorang setiausaha dalam ujian kepantasan menaip tahap awal boleh dibandingkan dengan Skor ujian kepantasan menaip daripada: 1. 2. 3. Orang umum Jurutaip yang berpengalaman Setiausaha juga kelulusan menaip tahap awal.

= skor piawai T = nilai skor piawai Z Jadual & Taburan Normal Transformations Lihat Table 5.1 (Murphy & Davidshofer, 2005) bagi transformasi data bagi ujian yang mempunyai min 100 dan sisihan piawai 15. Lihat Figure 5.4 (Murphy & Davidshofer, 2005) bagi Taburan Normal. Lihat Figure 3.10 (Hogan, 2003) untuk Taburan Normal. Norma Skor ujian-ujian psikologi yang mengukur sesuatu atribut jarang dalam bentuk skala pengukuran nisbah atau mutlak. Dengan itu, satu cara yang paling baik dalam menjelaskan prestasi seseorang dalam sesuatu ujian adalah dengan membandingkan skor ujiannya dengan skor ujian orang lain atau skor ujian bagi sesuatu kumpulan. Tafsiran berdasarkan norma (Norm-based interpretation) prestasi ujian seseorang ditafsir dengan membandingkan skor ujiannya dengan skor ujian bagi beberapa orang lain (kumpulan normatif yang dijadikan set piawai). Skor-skor yang dijadikan perbandingan itu dikenali sebagai norma, ia memberi satu piawai atau standard bagi mentafsir skor ujian yang diperoleh seseorang individu dan Ia menunjukkan kedudukan seseorang individu apabila dibandingkan dengan sekumpulan normatif tertentu yanng dijadikan set piawai

Contoh di atas menjelaskan dua fakta penting: 1. 2. Kumpulan normatif tidak semestinya daripada satu populasi sahaja. Daripada skor yang diperoleh banyak tafsiran berdasarkan norma boleh dibuat, ia bergantung kepada kumpulan normatif mana dipilih

Fakta di atas menjelaskan bahawa pendefinisian dan tujuan pembentukan norma haruslah jelas.

Jenis-jenis Norma Tiga bentuk data normatif yang paling umum adalah persentil, norma umur dan norma grade. Pangkat persentil Bentuk norma yang paling umum. refer Table 5-3 (Murphy & Davidshofer, 2005)

Norma Umur Banyak ciri-ciri psikologikal berubah mengikut masa bahasa, kebolehan matematik dan penakulan moral.

Norma umur mengkaitkan tahap prestasi seseorang dengan umurnya. refer Table 5-4 (Murphy & Davidshofer, 2005)

markat lagi berada di atasnya. Oleh itu, median boleh ditakrifkan sebagai persentil 50 (P50). Persentil 90 (P90) menunjukkan terdapat satu markat di mana sebanyak 90% markat-markat lain dalam taburan terletak pada markat tersebut dan di bawahnya. Jika persentil 90 bagi markat stres pelajar ialah 75, ini bermakna sebanyak 90% sampel dalam taburan yang mengambil satu ujian tersebut mempunyai markat 75 ke bawah. Pangkat persentil (PP) menunjukkan banyaknya skor/ markat/ kes yang berada pada sesuatu markat atau di bawah markat tersebut. Ia dinyatakan dalam bentuk peratus. PP membolehkan kita menentukan berapa peratus yang berada pada atau di bawah skor/ markat yang diberi. Sebagai contoh, pangkat persentil kepada skor / markat 75 ialah 90 (PR75). Ini bermakna sebanyak 90% skor / markat / kes berada pada skor / markat 75 ke bawah. Tracking For a variety of physical characteristics, children tend to stay at about their same percentile level, relative to other children in their age group, as they grow older This tendency to stay at about same level relative to ones peers is known as tracking. refer Figure 2-8 and Figure 2-9 (Kaplan & Saccuzzo, 2001)

Norma Grade Norma Grade seakan norma umur tetapi ia berdasarkan grade. Norma ini banyak digunakan dalm melaporkan tahap pencapaian kanak-kanak di sekolah

Persentil & Pangkat Persentil Seseorang pelajar (Contohnya Ali mendapat skor 70) sudah tentu ingin mengetahui berapa orang pelajar yang mendapat skor/markat stres yang sama; atau yang mendapat skor/markat stres di bawahnya. Dengan kata lain, Ali ingin tahu kedudukan skornya dalam taburan skor-skor itu. Kaedah Persentil boleh digunakan bagi menjawab persoalan tersebut. Berikut pula beberapa persoalan yang berkaitan persentil: Adakah skor stres 70 Ali berada di dalam atau luar julat kumpulan pelajar yang mengalami stres? Adakah skor 70 menghampiri atau berada jauh daripada min kumpulan pelajar? Atau skor itu berada di tengahtengah taburan atau di hujung taburan? Jika skor tersebut terletak di hujung taburan data, adakah kedudukan stres Ali berada di sebelah rendah atau tinggi? Berapa banyakkah skor yang tertabur di sebelah atas dan sebelah bawah skor tersebut? Persentil merupakan titik atau skor/ markat yang terletak pada atau di bawah peratus yang ditentukan dalam sesuatu taburan. Misalnya, median merupakan satu titik atau skor/ markat yang terletak di tengah-tengah taburan di mana sebanyak 50% markat dalam taburan berada di bawahnya sementara 50%

KULIAH 3 : RELIABILITI/ KEBOLEHPERCAYAAN INTRODUCTION Jack takes the college admissions test on Saturday, October 2, after a really tough week in school capped off by a Friday night football game. Jill also takes the test on the same date, feeling sharp as a tack and ready to whip the world.

Would Jack and Jill get substantially different scores if they were to take the test on Saturday, October 9, when their personal circumstances might be somewhat different? Terrys chemistry class includes 700 freshmen. To discourage cheating during an exam, the professor takes 100 test problems and divides them randomly into 4 sets of 25 problems each. Call them form A, B, C and D of the exam. The forms are distributed randomly to the class. Would Terrys score differ much if he took form A rather than form B.

Satu ujian yang reliable atau boleh dipercayai adalah ujian yang mana ia menghasilkan skor yang konsisten/tekal walaupun ujian itu diambil dua atau lebih kali oleh individu yang sama. Ataupun seseorang individu akan memperoleh skor yang tekal dalam dua borang/ujian alternate. Menurut Cronbach ( 1998), ujian yang reliable merujuk kepada ketepatan dan kejituan ujian itu dalam membuat ukuran. Persoalan di sini ialah Adakah ujian yang sama jika diberikan semula kepada subjek yang sama akan menghasilkan keputusan yang sama? kosisten/tekal

Konsep Ralat Dalam bidang psikologi, tiada ukuran yang tegar (rigid) untuk mengukur tret manusia seperti kecerdasan ataupun keagresifan dan sebagainya. Ukuran yang menyebabkan digunakan dalam psikologi mungkin pengguna ujian itu overestimate underestimate tret yang hendak diukur. akan atau

How much do scores on a personality test fluctuate from day to day? How similar are scores on an essay test depending on who scores the test? When two clinicians use a form to rate the severity of psychological maladjustment, are they likely to agree in their ratings? All these questions relate to the topic of reliability.

Sejarah dan Teori Reliabiliti Skor ujian yang diperoleh seseorang biasanya berbeza daripada kebolehan sebenar individu berkenaan. Perbezaan skor ini adalah biasa dalam ukuran berkenaan ciri manusia. Perbezaan di antara kebolehan sebenar dan pengukuran ini dikenali sebagai ralat pengukuran. kebolehan

Dengan demikian, ahli psikologi mesti menilai terlebih dahulu sebalum alat ukuran itu boleh digunakan.

Kajian Awal Spearman Pada tahun 1733 DeMoivre telah mengemukakan pendapat asas berkenaan ralat persampelan. Pada tahun 1896 Karl Pearson telah mengembangkan metod korelasi (product moment correlation). Pada tahun 1904 Spearman telah menggabungkan kedua-dua konsep itu dalam konteks pengukuran dan terbentuknya teori reliabiliti. Daripada itu,teori reliabiliti terus berkembang.

Ralat pengukuran dalam ujian psikologi bukan menunjukkan kesilapan yang telah dilakukan tetapi menunjukkan ketidaktepatan pengukuran tersebut. Tugas seorang pengguna ujian adalah untuk mengenalpasti nilai ralat berkenaan dan mencari jalan untuk meminimakannya. Ujian-ujian yang bebas daripada ralat pengukuran dikatakan adalah ujian yang reliable atau boleh dipercayai.

Teori Reliabiliti Reliabiliti ujian boleh dibahagikan dalam tiga konteks teoritikal: 1.

Classical test theory (CTT)

2. 3.

Item response theory (IRT) Generalizability theory (GT)

Skor ralat (E) mungkin dalam bentuk positif atau negatif. Teori skor ujian klasik mengandaikan bahawa dalam skor ujian yang diperoleh seseorang individu adalah skor sebenar sekiranya tiada ralat dalam pengukuran itu. Namun, alat kajian biasanya adalah tidak sempurna, di mana skor yang diperoleh/skor yang diperhatikan pada kebanyakan masa adalah berbeza daripada ciri atau kebolehan sebenar seseorang. Teori reliabiliti ujian dikemukakan untuk membantu dalam menilai kesan ketidaktekalan skor pada pengukuran psikologikal. Menurut teori relibiliti, skor ujian menggambarkan pengaruh dua faktor: 1. 2. Faktor-faktor yang menyumbang kepada ketekalan: ciriciri atau atributstabil yang hendak diukur. Faktor-faktor yang menyumbang kepada ketidaktekalan: keadaan individu atau situasi yang boleh mempengaruhi skor ujian, tetapi tidak berkaitan dengan atribut yang hendak diukur.

Teori Ujian Klasik (Classical test theory) Kata kunci dalam teori ujian klasik adalah skor diperoleh/skor diperhatikan(observed score)(O), skor sebenar (true score) (T) and skor ralat (error score) (E).

Skor diperoleh/diperhatikan (observed score) Skor diperoleh/diperhatikan (observed score) adalah skor yang diperoleh (ataupun skor mental) seseorang individu dalam sesuatu ujian. Skor diperoleh/diperhatikan (observed score) mungkin dipengaruh secara positif ataupun negatif oleh sumber-sumber yang menyebabkan ketidaktekalan skor. Skor diperoleh mungkin lebih tinggi kerana individu boleh meneka betul jawapan. Atau skor ini mungkin lebih rendah disebabkan individu itu mungkin tidak sihat semasa mengambil ujian.

Skor sebenar Skor sebenar adalah skor diperoleh seseorang sekiranya semua sumber yang menyebabkan ketidaktekalan skor itu dihapuskan. Purata skor yang diperoleh daripada banyak kali tadbiran ujian (secara teori) pada masa yang berbeza dan sedikit perbezaan keadaan purata atau min skor itu sepatutnya sama dengan skor sebenar.

Ini menunjukkan dalam skor ujian/skor yang diperoleh/diperhatikan (observed score) (O) mempunyai dua komponen iaitu, skor sebenar (T) dan ralat (E):

O (skor diperhatikan) = T (skor sebenar) + E (ralat) Atau, perbezaan yang wujud di antara skor sebenar dan skor yang diperhatikan adalah akibat daripada ralat pengukuran. XT=E Matlamat teori reliabiliti adalah untuk menilai ralat dalam pengukuran dan mencadangkan cara untuk memperbaiki supaya ralat pengukuran boleh diminimakan. Satu andaian teori reliabiliti adalah ralat pengukuran secara asasinya adalah random.

The true skor is what we really want to know, but in practice we never know it.

Skor Ralat (Error Score) Skor ralat adalah perbezaan di antara skor sebenar dan skor diperoleh.

Istilah random di sini bukan bermakna ralat itu berlaku kerana proses pengambilan sampel secara random. Tetapi ia bermakna, jika nilai ralat adalah tinggi dalam skor ujian seseorang individu, ia boleh senang diambilkira sekiranya kita tahu semasa mengambil ujian individu berkenaan mungkin a) mengulang kaji sampai larut malam b) duduk di tempat yagn bising semasa mengambil ujian, c) guna borang menjawab yang salah. Dalam kes individu, ralat dalam pengukuran bukanlah perkara random sepenuhnya. Tetapi dalam sekumpulan individu, punca-punca yang menyebabkan ralat pengukuran diandaikan adalah pelbagai dan kompleks. Dengan demikian, ralat pengukuran bertindak sebagai pembolehubah random. Jika ralat mempunyai ciri-ciri asasi pembolehubah random, maka wajarlah diandaikan bahawa secara sama rata ralat mungkin wujud dalam bentuk positif atau negatif dan ia tidak berkorelasi dengan skor sebenar dan ralat-ralat pada ujian lain. Dengan itu, ralat pengukuran diandaikan: Min bagi ralat pengukuran = 0 Skor sebenar dan ralat adalah tidak berkorelasi: r = 0 Ralat pada ukuran-ukuran lain adalah tidak berkorelasi r =0

2. 3.

perubahan akibat daripada ralat pengukuran. Maka, Jika nilai ralat pengukuran adalah tinggi dalam skor yang diperolehi, skor ujian yang diperoleh akan tidak tekal.

Jika ralat pengukuran hanya memberi sedikit kesan ke atas skor ujian, skor ujian yang diperoleh adalah tekal.

Pekali Reliabiliti (rxx ) rxx Pekali reliabiliti menggambarkan pengaruh relatif skor sebenar dan skor ralat ke atas skor yang diperoleh/ diperhatikan. Secara umum, pekali reliabiliti didefinisi sebagai nisbah varians skor sebenar kepada jumlah varians bagi skor ujian 2T 2X Sumber-Sumber Ralat Perbezaan wujud di antara skor yang diperoleh dan skor sebenar mungkin disebabkan: 1. Faktor situasi bunyi bising dalam bilik ujian, bilik ujian mungkin terlalu sejuk atau panas, subjek mungkin jatuh sakit atau mengalami depresi semasa mengambil ujian. Item-item pada ujian mungkin tidak dalam mewakili/mengukur domain atau gagasan yang hendak diukur. rxx
=

2T 2T + 2e

2.

Mengikut teori reliabiliti, varians bagi skor diperolehi adalah sama dengan jumlah varians bagi skor sebenar dan varians bagi ralat pengukuran. Iaitu: 2X
=

METOD-METOD PENILAIAN RELIABILITI Tujuan penilaian reliabiliti adalah untuk mengenalpasti sejauh mana perubahan skor ujian itu dipengaruhi oleh ralat pengukuran dan skor sebenar. Model ujian parallel mencadangkan satu strategi untuk mencapai tujuan itu.

2T

2e

Kenyataan di atas mencadangkan bahawa skor ujian berbeza adalah hasil daripada dua faktor: 1. perubahan dalam skor sebenar

Model Ujian Parallel Mengikut model ujian parallel adalah mungkin untuk membentuk dua borang ujian yang sama di mana skor sebenar yang diperoleh seseorang dalam borang borang A adalah sama dengan skor sebenar yang diperoleh pada borang B. Jika kedua-dua borang itu ditadbir kepada sekumpulan orang, perbezaan skor pada borang A dan borang B adalah semata-mata disebabkan ralat pengukuran. Dengan demikian, jika skor pada kedua-dua borang itu menunjukkan perbezaan skor yang besar , ralat pengukuran merupakan punca utama bagi perubahan skor ujian. Sebaliknya, jika skor pada kedua-dua borang itu menunjukkan tinggi persamaan, ralat pengukuran ralat pengukuran adalah kecil dan ujian itu mempunyai reliabiliti yang tinggi. Model ujian parallel memberi solusi konseptual sahaja dalam menilai reliabiliti dan bukan solusi praktikal, kerana ujian parallel adalah amat sukar dibentuk. Dengan itu, empat strategi penilaian reliabiliti ujian yang lebih praktikal telah diperkenalkan iaitu: Metod Test-Retest Metod Alternate Forms Metod Split-Half Metod Ketekalan Dalaman (Internal Consistency) menilai bagaimana prestasi seseorang itu pada item-item yang serupa dalam borang ukuran yang sama.

Metod Test-Retest Metod test retest adalah metod yang paling awal diperkenalkan dan ia merupakan metod yang paling muhasabah/praktis. Metod test retest menilai secara langsung sejauh mana skor-skor ujian itu adalah tekal daripada tadbiran ujian pertama kepada tadbiran ujian kedua. Penilaian reliabiliti dengan metod test-retest melibatkan: a. b. c. d. e. Tadbir sesuatu ujian kepada sekumpulan subjek. Tadbir semula ujian yang sama kepada kumpulan subjek yang sama setelah satu jangka masa. Korelasikan skor ujian pada kali pertama dengan skor ujian pada kali kedua. Hasil korelasi atau pekali korelasi menggambarkan reliabiliti ujian berkenaan. Korelasi yang tinggi menunjukkan ujian berkenaan mempnyai reliabiliti yang tinggi.

Rational metod test retest adalah disebabkan ujian yang sama ditadbir dua kali dan setiap ujian itu adalah parellel, maka perbezaan di antara skor ujian dengan skor ujian semula sepatutnya adalah disebabkan ralat pengukuran. Namun, kenyataan di atas adalah benar bagi pengukuran fizikal seperti ukuran pembaris dan tidak sentiasa benar bagi pengukuran psikologikal.

Perbezaan skor ujian psikologikal pada tadbiran kali pertama dan kali kedua mungkin disebabkan (masalah teoritikal): 1. Ciri-ciri atau atribut yang diukur mungkin telah berubah antara ujian pertama dan ujian semula (cth. a spelling test).

2. 3.

Reactivity

- subjek menggambil ujian.

telah

mempunyai

pengalaman

b. c. d. e. f. g.

Mengatasi masalah kesan reactivity dalam metod testretest. Jangka masa untuk tadbir ujian (Borang B) lebih pendek berbanding metod test-retest. Kelemahan metod alternate forms : Mahal dan tidak praktikal. Susah untuk membentuk borang alternatif. Sukar untuk mengenalpasti keselarian/ parallel antara dua borang berkenaan.

Kesan bawaan - subjek masih ingat jawapan yang diberikan pada ujian kali pertama (jika jarak masa bagi tadbiran ujian kali pertama dan kali kedua terlalu pendek).

Limitasi praktikal metod test retest adalah ujian perlu ditadbir sebanyak dua kali, ia mengambil masa yang lama dan metod penilai ini adalah mahal. Metod test retest paling sesuai digunakan jika seseorang itu berminat tentang ukuran yang long-term stability (cth., temporal stability of job performance measures)

Metod Split-Half Metod split-half memberi satu solusi pada dua masalah praktikal dalam metod alternate forms, iaitu: 1. 2. 3. 4. 5. 6. 7. 8. 9. Kesukaran membentuk borang alternatif. Pentadbiran ujian sebanyak dua kali. Kesan bawaan, kesan reaktiviti dan terutamanya kesan perubahan masa ke atas skor ujian boleh diminimakan. Penilaian reliabiliti dengan metod split-half melibatkan: Tadbir ujian kepada sekumpulan subjek. Pecahkan/ bahagikan ujian itu kepada dua bahagian. Korelasikan skor ujian bagi bahagian pertama dengan skor ujian bagi bahagian kedua. Hasil korelasi digunakan untuk menilai reliabiliti ujian. Tinggi korelasi menunjukkan mempunyai reliabiliti yang tinggi. ujian berkenaan

Metod Alternate Forms Satu kunci metod alternate forms bagi menilai reliabiliti alat kajian ialah wujudkan borang/ soal selidik alternatif yang selari dari segi kandungan, proses tindakan dan ciri-ciri statistiknya dengan borang/ soal selidik pertama. Penilaian reliabiliti dengan metod alternate forms melibatkan: a. b. c. d. e. Tadbir ujian (Borang A) kepada sekumpulan subjek. Tadbir ujian (Borang B atau Borang alternatif) kepada kumpulan subjek yang sama setelah satu jangka masa. Korelasikan skor ujian (Borang A) dengan skor ujian (Borang B). Hasil korelasi digunakan untuk menilai reliabiliti ujian. Tinggi korelasi menunjukkan mempunyai reliabiliti yang tinggi. ujian berkenaan

Kekuatan metod alternate forms : a. Mengatasi masalah kesan bawaan dalam metod testretest.

Ketidaktekalan skor yang diperoleh pada dua pecahan ujian yang berbeza menggambarkan ketidaktekalan respon subjek ke atas

ujian itu dan bukan disebabkan perubahan yang berlaku pada individu berkenaan. Terdapat beberapa cara untuk membahagi ujian kepada dua bahagian, iaitu membahagi ujian mengikut: 1. 2. 3. jumlah item dalam sesuatu ujian (cth, jumlah item = 40, bahagian 1 = 20 item, bahagian 2 = 20 item) nombor ganjil-genap item ujian itu (odd-even split). Dalam proses pembahagian, pengguna ujian harus mengenalpasti bahawa bahagian pertama dan bahagian kedua ujian itu adalah serupa dari segi kandungan, proses tindakan dll.

Jadual 2 Sepuluh Cara Membahagi Ujian yang Mengandungi Enam Item Kepada Dua Bahagian
cara
Membahagi

Kekuatan metod split-half : 1. 2. 3. 4. 5. 6. Mengatasi masalah membentuk borang alternatif. Hanya sekali tadbiran ujian. Mengatasi masalah kesan bawaan Mengatasi masalah reactiviti. Kelemahan metod split-half : Satu kelemahan paling nyata metod ini ialah terdapat banyak cara untuk membahagi ujian kepada dua bahagian. Cara pembahagian yang pelbagai menghasilkan korelasi yang berbagai (rujuk Jadual 2).

1 2 3 4 5 6 7 8 9 10

Item Ujian Bahagian A 1 2 3 1 2 4 1 2 5 1 2 6 1 3 4 1 4 5 1 5 6 2 3 5 2 4 5 2 4 6

Item Ujian Bahagian B 4 5 6 3 5 6 3 4 6 3 4 5 2 5 6 2 3 6 2 3 4 1 4 6 1 3 6 1 3 5

Reliabiliti 0.64 0.68 0.82 0.79 0.88 0.81 0.82 0.72 0.71 0.74

Metod Ketekalan Dalaman Penilaian reliabiliti metod ini adalah berdasarkan jumlah item dalam ujian (K) dan purata inter-korelasi antara item-item dalam ujian (rij). rij = 1 + (K-1) rij Penilaian reliabiliti dengan metod ketekalan dalaman melibatkan: a. b. c. Tadbir ujian kepada sekumpulan subjek. Kira korelasi antara semua item dan kira purata inter-korelasi antara item-item dalam ujian berkanaan. Gunakan formula rij = K(rij ) K(rij )

1 + (K-1) rij Kekuatan metod ketekalan dalaman :

a. b. c.

lebih praktikal. Sekali sahaja tadbiran ujian. Penilaian reliabiliti boleh dilakukan setiap kali ujian itu ditadbir.

Pekali reliabiliti membekalkan maklumat penting berkenaan sesuatu ujian. Pekali reliabiliti boleh digunakan dalam dua perkara penting iaitu: 1. 2. 3. 4. 5. Menganggar sejauh mana perubahan skor ujian adalah akibat daripada ralat pengukuran. Menganggar kesan ketidakbolehpercayaan (unreliability) sesuatu ujian daripada kolerasi di antara ujian-ujian. Pekali reliabiliti membekalkan maklumat berkenaan ukuran relatif ketetapatan skor Cth. Satu ujian yang mempunyai pekali reliabiliti .90 adalah lebih reliable daripada ujian yang mempunyai reliabiliti .80. Pekali reliabiliti tidak membekalkan petunjuk mutlak berkenaan ketepatan skor sesuatu ujian.

PENILAIAN RELIABILITI DAN RALAT Empat metod penilaian reliabiliti mengandungi sumber perubahan skor masing-masing yang menyumbang kepada ralat pengukuran. Metod split-half dan metod ketekalan dalaman mendefinisikan ralat pengukuran dalam bentuk ketekalan dan ketidaktekalan kandungan ujian itu sendiri. Metod test-retest dan metod alternate forms mendefinisikan ralat pengukuran dalam tiga faktor umum: a. b. c. KULIAH 4 : ketekalan dan ketidaktekalan kandungan ujian itu sendiri. Perubahan pada subjek setelah satu jangka masa. Kesan pengambilan ujian pertama ke atas pengambilan ujian kedua.

Ini kerana implikasi praktikal nilai pekali reliabiliti ke atas ketepatan skor ujian tidak dapat dibuktikan secara langsung. Tafsiran praktikal skor ujian perlu bergantung pada ralat piawai pengukuran. Maka, untuk menjelaskan ketepatan skor ujian secara konkret, kita perlu mengetahui terlebih dahulu nilai/saiz ralat piawai pengukuran. Semakin besar nilai ralat piawai pengukuran, semakin tidak tepat skor ujian/atribut yang telah diukur. Sebaliknya, ralat piawai pengukuran yang kecil menunjukkan skor yang diperoleh itu adalah dekat dengan nilai yang diukur atau lebih tepat skor ujian berkenaan.

UJIAN

MENTAFSIR & MENGGUNAKAN MAKLUMAT RELIABILITI

OBJEKTIF PEMBELAJARAN
Bagaimana maklumat reliabiliti boleh digunakan dalam menilai, mentafsir dan membaiki ujian psikologikal. Membincangkan hubungan di antara reliabiliti dan ketepatan skor-skor ujian. Membincangkan hubungan di antara reliabiliti dengan validiti ujian. Faktor-faktor yang mempengaruhi reliabiliti skor ujian.

The standard error of measurement (SEM) (Ralat piawai pengukuran ) is the standard deviation of a hypothetically infinite number of obtained scores around the persons true score. Refer Figure 1a and 1b Refer Figure 1, each of these distribution has a standard deviation. This particular kind of standard deviation is called a standard error of measurement.

Menggunakan Maklumat Reliabiliti

The distribution on the right in Figure 1 has a relatively large SEM. The distribution on the left in Figure 1 has a relatively small SEM. If test reliability is perfect (r = 1.00), SEM = 0 that is no measurement error.
Ralat piawai pengukuran (The standard error of measurement - SEM) adalah satu fungsi daripada dua(2) faktor: 1. 2. Reliabiliti ujian (rxx) Perubahan skor-skor ujian (x) SEM = x1- rxx SEM = ralat piawai pengukuran x = sisihan piawai skor-skor ujian rxx = pekali reliabiliti

Sela keyakinan 95% ditukar kepada skor z = 1.96. Kawasan atasan sela keyakinan adalah sama dengan min campur 1.69xSEM. Kawasan bawah sela keyakinan adalah sama dengan min tolak dengan 1.69xSEM. Bagi contoh di atas, kawasan atasan adalah 106 + 1.96(4.64) = 115.09

Kawasan bawah adalah: 106 1.96(4.64) = 96.91

95% daripada taburan normal, sela keyakinan adalah bersamaan (96.9 hingga 115.1). Daripada itu, walaupun kita tidak pasti skor IQ sebenar bagi individu yang memperoleh skor 106, tetapi 95% kita yakin bahawa skor sebenar individu berkenaan adalah terletak di antara 96.9 hingga 115.1.

Cth: satu ujian IQ dengan: min = 100, sisihan piawai = 14, reliabiliti ujian = .89 dan skor yang diperoleh subjek = 106. SEM = 141- .89 = 4.64

Hubungan Di Antara Reliabiliti Dengan Validiti Ujian


Reliabiliti membawa implikasi kepada validiti ujian (sama ada validiti pengukuran atau validiti membuat keputusan). Sesuatu ujian yang valid/ sah mestilah reliable. Tetapi ujian yang reliable tidak semestinya valid/sah. Contoh: ujian IQ yang tinggi reliabilitinya tetapi tidak valid.

Ralat piawai pengukuran yang diperoleh ini kemudiannya boleh digunakan untuk membentuk sela keyakinan (confidence intervals) yang berlingkar di antara skor yang diperoleh/ diperhatikan, dan menggunakan prosedur statistik untuk membuat anggaran kedudukan skor sebenar dalam sela keyakinan berkenaan.

1. Anda dilahirkan pada bulan __________. 2. Siapa nama ibu anda? ____________.

Sela keyakinan yang biasa digunakan dalam ujian psikologi adalah sela 68% , sela 95% dan sela 99% - sela ini dibentuk dengan menggunakan skor Z. Cth: kita ingin membentuk sela keyakinan 95% bagi ujian IQ daripada contoh sebelum.

3. 1 + 1 = ________. 4. Berapa hari dalam satu minggu? _________.

Faktor-Faktor Yang Mempengaruhi Reliabiliti Ujian


Sumber-sumber ralat pengukuran yang mempengaruhi reliabiliti skor ujian adalah:

a.

Kepanjangan Ujian semakin banyak item (ukur tret atau atribut yang sama) semakin reliable sesuatu ujian. Setiap item ujian itu bertindak sebagai satu permerhatian ke atas pengetahuan, kemahiran, kemampuan atau tret lain individu yang mengambil ujian. Semakin banyak permerhatian semakin tepat sesuatu ukuran itu.

d.

Permarkatan bersihkan data sebelum analisis. Pastikan tiada kesilapan semasa memasukkan data.

e.

Kerja sama daripada subjek kajian kenalpasti sama ada subjek jawab dengan jujur atau tidak. Peranan pentadbir ujian untuk mendapat kerjasama daripada subjek. Semak soal selidik atau jawapan yang diberikan oleh subjek.

b.

Kehomogenan Item-Item Ujian reliabiliti meningkat jika item-item sesuatu ujian itu adalah homogen - mengukur faktor yang sama. Ujian yang mengandungi item-item heterogen dijangkakan mempunyai pekali reliabiliti yang rendah. a. Jarak masa uji dan uji semula / test-retest.

f.

Metod yang digunakan untuk menilai reliabiliti Metod yang berbeza mempunyai definisi yang berbeza ke atas skor sebenar dan ralat pengukuran. Contoh: atribut yang berubah mengikut masa merupakan ralat pengukuran jika penilaian reliabiliti dengan metod test-retest. Reliabiliti ujian yang dinilai dengan metod ketekalan dalaman dan split-half dijangkakan mempunyai tahap reliabiliti yang lebih tinggi berbanding dengan menggunakan metod test-retest atau alternate form (lebih faktor yang menyumbang kepada ralat pengukuran)

Semakin lama jarak masa semakin rendah pekali reliabiliti. Tret atau atribut bagi seseorang individu mungkin telah berubah setelah satu jangka masa yang lama - skor sebenar telah berubah. Meningkatkan ralat pengukuran yang mungkin diakibatkan tadbiran ujian, perubahan yang berlaku pada persekitaran atau situasi subjek.

MENTAFSIR PEKALI RELIABILITI


Dua perkara penting yang harus diberi perhatian dalam mentafsir pekali reliabiliti/korelasi: a. Petanda nilai pekali (positif atau negatif) b. ujian yang reliable petanda nilai pekali mestilah dalam bentuk positif atau hubungan positif.

c.

Tadbiran Ujian arahan yang diberikan semasa tadbiran ujian. Arahan haruslah sama bagi setiap kali tadbir ujian. Arahan yang sama boleh mengurangkan ralat daripada tindakan berbeza subjek. Konsisten dari segi tadbiran ujian boleh elak ralat akibat daripada persekitaran tadbiran ujian yang berbeza.

Nilai pekali itu sendiri (-1 korelasi negatif sempurna, +1 korelasi positif sempurna)

Nilai pekali yang dekat dengan positif satu (+1) menunjukkan tahap reliabiliti yang tinggi dan sebaliknya, nilai pekali yang dekat dengan kosong (0) atau nilai pekali bentuk negatif menunjukkan tahap reliabliti yang rendah.

c.

Bagi Ujian IQ yang mempunyai a. b. c. Pekali reliabiliti = 0.90 (tahap reliabiliti tinggi) Pekali reliabiliti = 0.80 (tahap reliabiliti sederhana) Pekali reliabiliti = 0.70 (tahap reliabiliti rendah)

c.

contoh: ujian yang pekali reliabiliti = +0.91. Pekali 0.91 adalah dekat dengan +1, ini menunjukkan ujian itu mempunyai tahap reliabiliti yang tinggi. Pekali positif menjelaskan subjek yang mendapat skor tinggi/rendah pada kali pertama tadbiran ujian, mendapat skor tinggi/rendah (skor yang lebih kurang sama) pada kali kedua tadbiran ujian.

d.

Bagi ujian digunakana untuk membuat tapisan awal a. Pekali reliabiliti = 0.60 (tahap reliabiliti ini masih boleh diterima).

d.

Cara Meningkatkan Reliabiliti Ujian


Dua kaedah umum untuk memperbaiki reliabiliti ujian adalah: 1. 2. Meningkatkan kepanjang ujian dan singkirkan item-item yang lemah yang mana menurunkan tahap reliabiliti ujian. Menganggarkan kolerasi sebenar jika tidak wujudnya ralat pengukuran.

Sejauh Mana Tahap Reliabiliti Ujian Dikatakan Adalah Reliable?


Tiada nilai tetap yang boleh digunakan untuk mentafsir reliabiliti sesuatu ujian sama ada tahap reliabilitinya memuaskan atau tidak. Dan jawapannya bergantung kepada tujuan kegunaan ujian berkenaan. Bagi tujuan penyelidikan, jika sesuatu ujian itu menunjukkan tahap reliabiliti dalam lingkungan .70 dan .80 dikatakan adalah cukup baik. Dalam latar klinikal, ujian yang digunakan harus mempunyai tahap reliabiliti yang tinggi.

1. Meningkatkan Jumlah Item Mengikut model persampelan, setiap item dalam ujian adalah satu sampel tret yang berasingan. Maka, semakin besar sampel ujian itu semakin mewakili/mengukur ciri-ciri sebenar yang hendak diukur. boleh

1. Ujian yang digunakan harus mempunyai tahap reliabiliti yang tinggi jika: a. b. ujian itu digunakan untuk membuat sesuatu keputusan penting. Individu-individu yang dibahagikan kepada banyak kategori dengan berdasarkan perbezaan kecil di antara individu-individu berkenaan.

Reliabiliti ujian meningkat dengan peningkatan jumlah item ujian.

2. Tahap reliabiliti ujian rendah boleh diterima jika: a. b. ujian itu hanya digunakan untuk membuat tapisan awal. Ujian digunakan untuk membahagikan individu-individu kepada beberapa kategori sahaja dengan berdasarkan perbezaan keseluruhan individu-individu berkenaan.

Formula Spearman-Brown boleh digunakan untuk menganggar berapa banyak item yang perlu ditambah untuk meningkatkan reliabiliti ujian ke tahap yang boleh diterima.

rd 1 ro ro 1 rd

Item berkenaan mungkin mengukur perkara lain daripada item-item dalam ujian itu. Item itu mungkin terlalu senang atau terlalu payah sehingga ia tidak dalam membezakan skor-skor orang yang mengambil ujian.

Cth: seorang pengkaji ingin meningkatkan reliabilit ujian EQ yang mempunyai 20 item dengan tahap reliabiliti.87 kepada tahap reliabliti .95.

Hasil pengiraan itu menunjukkan pengkaji itu perlukan 2.82 ujian yang mana mengandungi 20 item. Maka, hasil pengiraan 2.82 harus didarab dengan 20 item iaitu, 2.82 x 20 item = 56.4. Ini bermakna untuk meningkatkan reliabiliti ujian kepada .95, item ujian itu haruslah ditambah daripada 20 item kepada 56 item.

.95 1 .87 .124 2.82 .87 1 .95 .044

Korelasi item keseluruhan yang rendah menunjukkan item berkenaan boleh menurunkan reliabiliti ujian dan item itu harus disingkirkan.

KULIAH 5 : VALIDITI PENGUKURAN: KENDUNGAN DAN GAGASAN VALIDITI PENGUKURAN Dua permasalahan utama pengukuran psikologikal adalah untuk: 1. 2. Mengenalpasti sama ada sesuatu ujian itu boleh mengukur apa (atau atribut) yang hendak diukur. Mengenalpasti sama ada sesuatu ujian itu boleh digunakan untuk membuat keputusan yang tepat. Untuk menjawab permasalah ini, American Psychological Associations Technical Recommendations telah mengenalpasti empat (4) cara untuk menilai validiti sesuatu ujian iaitu: 1. 2. Validiti kandungan (Content validity) Validiti gagasan (Construct

2. Analisis Faktor dan Analisis Item Reliabiliti ujian juga bergantung kepada adakah kesemua item dalam ujian itu mengukur ciri-ciri yang sama. Untuk mengenalpasati sama ada item-item itu mengukur perkara yang sama, dua kaedah boleh digunakan: 1. Analisis faktor # Ujian adalah reliable jika ia adalah unidimensional # Item-item yang tidak terletak dalam faktor yang terhasil (faktor mengira varians yang terbesar) boleh disingkirkan. 2. Analisis item Menilai kolerasi di antara setiap item dengan skor keseluruhan ujian. Analisis ini dinamakan discriminability analysis. Apabila kolerasi di antara item tertentu dengan skor keseluruhan ujian adalah rendah ini boleh dijelaskan:

validity)

3. 4.

Validiti ramalan (Predictive validity) Validiti serentak (Concurrent

validity)

Keempat-empat strategi validasi ini direkabentuk untuk mencapai satu matlamat yang sama iaitu untuk memahami maksud dan implikasi skor sesuatu ujian. Kedua-dua strategi validasi kandungan dan gagasan merupakan kaedah bagi mengenalpasti sama ada sesuatu ujian itu boleh mengukur atribut yang hendak diukur. Kaedah ini mendefinisikan validiti dalam bentuk pengukuran iaitu, sesuatu ujian itu dikatakan sah (valid) jika ia boleh mengukur apa yang sepatut hendak diukur. Kedua-dua strategi validasi ramalan dan serentak pula merupakan kaedah bagi mengenalpasti sama ada sesuatu ujian itu boleh digunakan untuk membuat keputusan yang tepat. Kaedah ini mengkaji validiti ujian dengan berdasarkan ramalan dan keputusan yang dibuat daripada ujian berkenaan. Sesuatu ujian itu dikatakan sah (valid) jika ia boleh digunakan untuk membuat keputusan yang betul atau tepat.

Menilai Validiti Pengukuran Tidak terdapat satu piawai universal yang boleh dijadikan perbandigan/panduan kepada skor-skor yang diperoleh daripada ujian psikologi. Dengan demikian, ahli psikologi harus menggunakan kaedah-kaedah tidak langsung dalam mengenalpasti validiti sesuatu ujian. Misalnya, mengumpul bukti-bukti daripada pelbagai sumber untuk menunjukkan ujian itu boleh mengukur apa yang hendak diukur. Validiti kandugan boleh dikenalpasti dengan menilai kandungan ujian itu sendiri. Validiti gagasan boleh dikenalpasti dengan menilai hubungan di antara skor-skor sesuatu ujian dengan ukuran lain.

Strategi Validasi Berorientasi Kandungan Validiti kandungan boleh dikenalpasti dengan menilai sama ada sampel tingkah laku dalam sesuatu ujian itu merupakan satu sampel yang boleh mewakili atribut yang ingin diukur. Validiti kandungan sesuatu ujian bergantung kepada ujian itu sendiri dan proses tindakan atau respon subjek terhadap ujian berkenaan. Dalam menilai validiti kandungan sesuatu ujian penilai boleh meneliti atau menilai sahaja setiap item dalam ujian dan memastikan adakah item itu mengukur atribut yang hendak diukur oleh ujian berkenaan. Namun cara ini tidak memadai. Maka, untuk mendapat bukti yang lebih kukuh tentang validiti kandungan sesuatu ujian itu penilai harus terlebih dahulu memahami konsep domain kandungan.

Perbezaan di antara validiti pengukuran dan validiti keputusan : Perbezaan kedua-dua jenis validiti pengukuran dan validiti keputusan boleh dijelaskan dengan merujuk kepada contoh ini: Sebuah organisasi ingin menggunakan alat kajian Leadership Skills Profile untuk membantu dalam permilihan pengurus organisasi. Sebelum menggunakan ujian ini, pihak organisasi akan mempersoalkan: 1. Adakah ujian itu boleh memberitahu mereka tentang kemahiran kepimpinan seseorang? Persoalan tentang validiti pengukuran ujian berkenaan. Adakah ujian itu boleh digunakan untuk mengukur atribut kepimpinan?

Domain Kandungan Satu deskripsi yang terperinci (detail description) berkenaan domain kandungan merupakan asas bagi penilaian validiti kandungan.

2.

Adakah orang yang mendapat skor tinggi dalam ujian ini akan merupa seorang pengurus yang baik nanti? Persoalan tentang validiti keputusan ujian berkenaan. Adakah ujian itu boleh digunakan untuk membuat keputusan yang betul atau tepat?

Satu domain kandungan mewakili sejumlah set tingkah laku yang digunakan untuk mengukur atribut tertentu atau ciri-ciri individu yang ingin diukur. Domain kandungan mempunyai ciri-ciri tertentu dan ciri-ciri ini boleh membantu dalam membuat penilaian validiti kandungan sesuatu ujian: 1. Domain kandungan mempunyai sempadan Deskripsi terperinci berkenaan sesuatu domain kandungan membolehkan seseorang penilai untuk mengenalpasti sama ada setiap item ujian itu terletak di dalam sempadan domain atau tidak. Amerika Abad 18 Abad 19 Afrika Asia dan Abad 18 Abad 19 Menilai Validiti Kandungan Eropah Abad 18 Abad 19

Social 5% 5% 6% 9% 2% 6%

Politik 10% 8% 17% 13% 0% 5%

Budaya 3% 2% 2% 5% 0% 2%

2. Domain kandungan mempunyai struktur. Kandungan bagi sesuatu domain kandungan biasanya boleh dibahagikan kepada beberapa kategori. Rujuk contoh dalam Jadual 1.

Jadual 1. Deskripsi Terperinci Satu Domain Kandungan 1. Domain yang diukur: Pengetahuan berkenaan sejarah dunia seperti yang diajar dalam kursus Sejarah tingkatan satu. 2. Bidang yang terangkum dalam domain ini ialah: A) Isu-Isu 1. Sosial 2. Politik 3. Budaya B) Bidang-Bidang 1. Eropah 2. Amerika 3. Afrika dan Asia C) Tempoh 1. Abad 18

Tiada satu ukuran statistik khusus yang boleh digunakan untuk menilai validiti kandungan. Validiti kandungan merupakan satu putusan (judgment) berkenaan sejauh mana sesuatu ujian itu membekalkan satu sampel tingkah laku yang memadai atau yang boleh mewakili bagi satu domain kandungan tertentu. Deskripsi terperinci domain kandungan membekalkan satu metod dan kerangka kerja pada seseorang penilai bagi menilai validiti pengukuran sesuatu ujian dengan lebih sistematik. Prosedur-prosedur asas penilaian validiti kandungan mengandungi tiga (3) langkah: 1. 2. Menjelaskan domain kandungan. Mengenalpasti bidang-bidang domain kandungan yang diukur oleh setiap item. Bandingkan struktur ujian itu dengan struktur domain kandungan

2. Abad 19

3. Bahagian-bahagian penting yang perlu diliputi: 3.

Hasil Daripada Pengujian Validiti Kandungan Hasil daripada pengujian validiti kandungan yang utama ialah satu putusan (judgment) berkenaan kecukupan sampel tingkah laku ujian itu dalam mewakili satu domain kandungan tertentu. Lawshe (1975) telah mencadangkan satu nisbah validiti kandungan. Ia merupakan ukuran berkenaan persetujuan-persetujuan pakar kepada validiti kandungan sesuatu ujian. Namun, statistik ini hanya mengukur persetujuan/pendapat pakar dan bukan validiti kandungan ujian berkenaan. Tiada statistik yang boleh digunakan untuk mengukur validiti kandungan. Untuk mendapat satu putusan (judgments) yang sistematik dan reliable berkenaan validiti kandungan sesuatu ujian, ia bergantung kepada deskripsi domain kandungan. Jika domain kandungan dibekalkan adalah jelas sempadan dan strukturnya, maka semakin yakinlah seseorang penilai dalam putusan mereka terhadap validiti kandungan sesuatu ujian itu.

Gagasan Psikologikal Bagi gagasan psikologikal, ia biasanya boleh dikaitkan dengan tingkah laku atau pengalaman yang boleh diperhatikan secara langsung atau tidak langsung. Contoh, bagi gagasan seperti keagresifan atau motivasi pencapaian adalah merujuk kepada punca/hasil daripada tingkah laku tertentu. Pengukuran psikologikal adalah satu proses yang berdasarkan tingkah laku yang boleh diperhatikan dan konkrit.

Maka, untuk mengenalpasti sama ada sesuatu ujian itu adalah satu ukuran bagi gagasan tertentu, gagasan abstrak itu harus diterjemahkan ke dalam bentuk yang konkrit dan boleh diperhatikan. Ini boleh dilakukan dengan menyediakan satu deskripsi terperinci berkenaan hubungan di antara tingkah laku tertentu dengan gagasan yang abstrak itu. Proses penyediaan deskripsi terperinci berkenaan hubungan di antara tingkah laku tertentu dengan gagasan yang diukur dinamakan construct explication.

Strategi Konstrak Validasi Berorientasi Gagasan/

Dalam bidang psikologi atribut yang biasa dikaji atau diukur oleh ahli psikologi adalah atribut yang abstrak (seperti, kecerdasan, keagresifan, kegembiraan, motivasi - gagasan) yang mana tidak wujud secara fizikal atau konkrit.

Construct explication adalah kunci (keyword) bagi mengenalpasti validiti


gagasan sesuatu ujian. Proses membentuk construct explication mengandungi tiga (3) langkah: Mengenalpasti tingkah laku yang berkaitan dengan gagasan yang ingin diukur. Mengenalpasti gagasan lain dan tentukan sama ada ia berkaitan atau tidak dengan gagasan yang hendak diukur. Mengenalpasti tambahan itu gagasan itu, berkaitan atau tingkah laku yang berkaitan dengan gagasan dan berdasarkan hubungan di antara gagasankenalpasti sama ada setiap tingkah laku itu tidak dengan gagasan yang hendak diukur.

Gagasan/Konstruk Semua gagasan atau konstruk mempunyai dua(2) ciri penting: 1. 2. Ia adalah Abstrak. Ia berkaitan dengan perkara atau entiti yang konkrit dan boleh diperhatikan. Contohnya, graviti

Refer Table 8-3 Step In Describing The Construct Aggressiveness In School Children

Metod Penilaian Validiti Gagasan Kesesuaian penggunaan metod bagi menilai validiti gagasan bergantung kepada gagasan yang hendak diukur. Metod-metod umum yang digunakan untuk menilai validiti gagasan adalah: 1. Korelasikan skor ujian dengan skor-skor ujian lain. Contoh. Korelasikan skor bagi skala kepuasan kerja dalam OSI dengan skor ujian Job Descriptive Index (JDI).

Hasil daripada proses construct explication akan terbentuknya satu deskripsi terperinci berkenaan hubungan di antara satu set gagasan dengan tingkah laku-tingkah laku dan hasil ini dinamakan sebagai nomological network.

Nomological network membekalkan definisi kepada gagasan yang ingin


diukur (contoh, keagresifan).

Nomological network merupakan satu cara alternatif yang lebih sistematik


bagi menjelaskan sesuatu gagasan. Contoh, keagresifan boleh didefinisikan sebagai satu ciri personal yang berkaitan dengan tingkah laku-tingkah laku (seperti membuli orang lain) tetapi tidak berkaitan dengan tingkah laku seperti suka menipu. 2.

Analisis Faktor Menilai korelasi di antara skor sesuatu item dengan skor bagi sesuatu faktor terhasil. Deskripsi terperinci bagi gagasan yang diukur memberi maklumat berkenaan hubungan yang dijangkakan, dan Metod analisis faktor boleh membantu kita untuk mengenalpasti sama ada pola hubungan di antara pembolehubah itu wujud seperti yang dijangkakan. experimental pada

Menilai Validiti Gagasan Matlamat validasi gagasan adalah untuk mengenalpasti sama ada skorskor sesuatu ujian itu boleh membekalkan satu ukuran yang baik bagi mengukur gagasan tertentu. Proses construct explication membekalkan satu definisi bagi gagasan yang hendak diukur dalam bentuk tingkah laku yang konkrit. Sesuatu ujian itu dikatakan mempunyai validiti gagasan yang tinggi sekiranya pola hubungan di antara skor-skor ujian dengan ukuran tingkah laku adalah sama dengan pola hubungan yang dijangkakan daripada ukuran sempurna gagasan berkenaan. Refer Table 8-4 and Table 8-5 (Muphy & Davidshofer, 2005, pg 167) gagasan bergantung kepada deskripsi terperinci (detailed description) hubungan di antara gagasan dengan sejumlah tingkah laku Validiti yang berbeza. Maka, semakin kita memahami/ tahu mengenai sesuatu gagasan, semakin yakinlah kita dalam mengenalpasti sama ada ujian itu boleh mengukur gagasan yang hendak diukur. 3.

Metod-metod yang melibatkan manipulasi gagasan yang hendak diukur.

Kaedah Multitrait-Multimethod Campbell dan Fiske (1959) telah mencadangkan Kaedah multitraitmultimethod untuk menilai validiti gagasan. Kaedah ini melibatkan penggunaan bebarapa metod dalam menilai lebih daripada satu gagasan atau tret.

Validiti Konvergen (Convergent Validity) Setiap gagasan diukur dengan menggunakan beberapa metod yang berlainan. Sekiranya, sesuatu ujian itu mempunyai validiti konvergen, penilaian daripada metod-metod yang berbeza ini akan menunjukkan hasil yang sama.

Contoh: Beberapa metod yang berlain diguna untuk mengukur kejujuran, keagresifan dan kecerdasan penilaian validiti daripada pelbagai ukuran ke atas ketiga-tiga gagasan memperoleh validiti yang lebih kurang sama.

Ujian psikologi penting kerana ia digunakan untuk membuat keputusan penting berkenaan individu. Maka, ketepatan sesuatu keputusan yang dibuat berdasarkan ujian secara langsung berkaitan dengan kesahan atau validiti skor ujian berkenaan. Sesuatu ujian yang tidak sah (valid) boleh membawa kepada keputusan yang tidak berkesan (dari sudut pandangan pembuat keputusan) dan keputusan yang tidak adil (dari sudut pandangan individu). Metod yang paling senang untuk mengenalpasti sama ada sesuatu ujian itu boleh digunakan untuk membuat keputusan yang sah atau tidak ialah dengan korelasikan skor-skor ujian berkenaan dengan ukuran kejayaan atau hasil darpada sesuatu keputusan (kriteria). Penilai validiti ujian dengan cara ini dinamakan validiti perhubungan kriteria. Korelasi di antara skor-skor ujian dengan kriteria membekalkan satu penilaian kuantitatif bagi validiti ujian. Hasil korelasi itu boleh digunakan untuk mendapatkan satu gambaran berkenaan kesan penggunaan ujian ke atas keputusan yang dibuat. Kriteria pula adalah satu ukuran yang boleh digunakan untuk mengenalpasti ketepatan keputusan yang dibuat. Dalam ujian psikologikal, kriteria secara tipikalnya adalah mewakili ukuran bagi hasil sesuatu rawatan atau keputusan yang dibentuk untuk dijadikan ukuran. Contoh, ukuran PNGK atau tempoh masa yang digunakan untuk menghabiskan pengajian dijadikan kriteria bagi menilai keputusan pemilihan dan penempatan di sekolah.

Validiti Diskriminan (Discriminant Validity) Jika terdapat sekumpulan gagasan yang mana secara teorinya tidak berkaitan, maka apabila gagasan-gagasan ini dikorelasikan ia akan menghasilkan korelasi yang lemah. Hasil korelasi itu akan adalah lebih rendah jika dibandingkan dengan korelasi di antara penilain daripada pelbagai ukuran bagi tret yang sama. Hasil korelasi di antara ukuran bagi gagasan-gagasan yang berbeza (secara teori tidak berkaitan) itu merupakan petunjuk kepada validiti diskriminan sesuatu ujian. Dalam penilaian validiti ujian dengan metod ini, biasanya gagasan yang dipilih memang jelas tidak berkaitan dengan gagasan ujian yang hendak dinilai. Dengan demikian, hasil korelasi di antara dua ukuran itu dijangka nyata tidak tinggi atau tidak berkorelasi.

Kaedah multitrait-multimethod mencadangkan sesuatu ujian yang baik mempunyai tiga(3) ciri: Skor ujian yang diperoleh adalah konsisten/tekal dengan skor yang diperoleh dengan ukuran lain yang mengukur gagasan yang sama. Skor ujian yang diperoleh adalah tidak berkaitan atau tidak berkorelasi dengan ukuran yang mana secara teorinya memang tidak berkaitan dengan gagasan yang hendak diukur. Metod pengukuran yang digunakan dalam ujian itu adalah tidak bias.

Strategi Validasi Perhubungan Kriteria Terdapat dua metod umum bagi menilai validiti perhubungan kriteria : Strategi validasi ramalan (Predictive validation strategies) Strategi validasi serentak (Concurrent validation strategies) Validiti ramalan dikatakan adalah metod yang paling tepat dalam menilai validiti sesuatu ujian, tetapi ia juga dikatakan adalah metod yang paling bermasalah dari segi praktikal dan etika.

KULIAH 6 : VALIDITI : VALIDITI PERHUBUNGAN KRITERIA VALIDITI : VALIDITI PERHUBUNGAN KRITERIA

Validiti serentak pula adalah metod yang lebih praktikal dalam menilai validiti sesuatu ujian. Dua kaedah ini mewakili dua strategi yang berlainan tetapi menilai kuantiti yang sama iaitu korelasi di antara skor-skor ujian dengan skorskor kriteria. Dua kaedah ini berbeza dari segi operasi dan praktikalnya. Namun, mempunyai tujuan asas yang sama.

Satu syarat bagi kaedah validiti ramalan ialah populasi dalam kajian validiti itu mesti sama dengan populasi umum. Maka, satu cara yang berkesan untuk menilai validiti ramalan ialah sama ada membuat keputusan yang sama bagi semua (ambil semua calon sebagai pekerja) atau membuat keputusan berdasarkan prosedur random (misalnya, memilih calon ikut lambungan duit siling). Strategi ini mempunyai masalah dari segi etika Keputusan yang tidak betul akan membawa kesan kepada individu dan pihak organisasi atau pihak yang membuat keputusan. Contoh: organisasi akan rugi dari segi kos latihan dan produktiviti. Individu/pekerja pula mungki mengalami tekanan, depresi atau hilang keyakinan.

Strategi Validasi Ramalan: Strategi Paling Ideal Validiti ramalan sesuatu ujian boleh dikenalpasti dengan mengkorelasikan skor-skor sesuatu ujian yang diperoleh sebelum keputusan dibuat dengan skor kriteria yang diperoleh selepas keputusan dibuat. Contoh, Dalam pemilihan personnel, keputusan dibuat sama ada mengambil atau menolak setiap calon dan ukuran prestasi kerja pula merupakan kriteria bagi menilai keputusan tersebut. Dalam latar personnel, penilaian validiti ramalan mengandungi dua langkah: Memperoleh skor-skor ujian daripada sekumpulan calon, tetapi jangan menggunakan ujian berkenaan sama ada secara langsung atau tidak langsung dalam membuat keputusan pengambilan. Setelah satu tempoh, dapatkan ukuran prestasi kerja bagi mereka yang telah diambil sebagai pekerja dan korelasikan ukuran-ukuran ini dengan skor-skor ujian untuk memperoleh pekali validiti ramalan.

Validiti ramalan sesuatu ujian boleh dikenalpasti dengan memperoleh skor-skor ujian dan skor-skor kriteria serentak atau pada tempoh yang lebih kurang sama daripada populasi preselected dan kemudian mengira korelasi di antara skor dua ukuran berkenaan. Skor-skor ujian dan skor-skor kriteria diperoleh dalam tempoh yang lebih kurang sama, dengan demikian strategi ini dinamakan sebagai strategi validasi serentak. Perbezaan utama di antara validiti ramalan dan validiti serentak ialah : 1. 2. Pekali validiti ramalan diperoleh daripada satu sampel random daripada populasi yang hendak dibuat keputusan. Pekali validiti serentak pula diperoleh daripada satu sampel preselected (misalnya, pekerja organisasi yang ada sekarang, pesakit yang sedang dalam rawatan) yang mana mungkin berbeza daripada populasi umum.

Kaedah validiti ramalan dikatakan adalah strategi yang paling ideal sebab: Strategi ini mudah dan tepat dalam menilai korelasi di antara skor-skor ujian dengan skor-skor kriteria. Namun, strategi ini adalah tidak praktikal dan tidak realistik kerana:

Guion and Cranny (1982) telah mencadangkan tiga(3) strategi umum validasi serentak : 1. Beri ujian kepada individu-individu yang telah dipilih daripada populasi calon dan mendapatkan ukuran kriteria pada tempoh yang lebih kurang sama. Pilih calon dengan menggunakan ujian (X) yang hendak dinilai validitinya, dan memperoleh ukuran kriteria (Y) setelah satu jangka masa. Kemudian korelasikan skor-skor ujian dan ukuran kriteria untuk memperoleh pekali validiti serentak. Menggunakan data daripada fail peribadi sebagai ukuran X dan Y. 2.

Range restriction akan berlaku jika subjek dipilih mengikut skor


ujian (yang dipilih adalah mereka yang mendapat skor yang tinggi dalam ujian). Kesannya adalah ke atas hasil korelasi di antara skor-skor ujian dengan skor-skor kriteria.

Range restriction akan menurunkan/melemahkan korelasi di


antara skor-skor ujian dengan skor-skor kriteria.

2.

Masalah Konsep Ujian biasanya digunakan untuk membezakan di antara calon yang menonjol dengan calon yang boleh diterima atau calon tidak baik (ditolak). Dalam kajian validiti serentak, populasinya adalah terdiri daripada mereka yang terpilih (preselected) yang mana pada biasanya mempunyai prestasi yang baik atau boleh diterima. Dengan demikian, jika populasi dalam kajian validiti serentak adalah berbeza dengan nyata daripada populasi umum maka hasil daripada penilaian validi itu tidak akan dapat membekalkan satu penilaian yang berguna bagi validiti keputusan ujian berkenaan.

3.

Dalam ketiga-tiga strategi ini, korelasi di antara skor-skor ujian dan ukuran kriteria boleh digunakan untuk menilai validiti ujian berkenaan. Namun, populasi dalam peramal dan kriteria yang diukur mungkin berbeza daripada populasi calon. Populasi dalam kajian validiti serentak adalah terdiri daripada mereka yang terpilih. Ini akan memberi kesan yang serius ke atas korelasi di antara skor-skor ujian dan skor-skor kriteria.

Kekuatan Strategi Validasi Serentak 1. Praktikal Strategi validasi serentak adalah lebih praktikal. Individu/pekerja tidak dipilih secara random. Skor ujian dan skor kriteria boleh diperoleh dalam masa yang lebih kurang sama. Hasil penilaian validiti ujian boleh diperoleh dalam masa yang singkat. Kajian validiti serentak mudah dilaksanakan berbanding kajian validiti ramalan. Hasil penilaian validiti dengan metod validiti serentak dan metod validiti ramalan adalah lebih kurang sama.

MENTAFSIR PEKALI VALIDITI Kajian validiti perhubungan kriteria membekalkan satu penilaian ke atas hubungan di antara skor-skor ujian dengan ukuran kriteria. Secara teori, korelasi ini adalah berlingkar daripada 0.0 hingga 1.0. Tetapi dalam amalan biasa, kebanyakan pekali validiti yang diperoleh adalah jauh lebih rendah. Biasanya tidak melebihi 0.5. Pekali validiti perhubungan kriteria yang diperoleh dalam kebanyakan kajian jarang melebihi 0.7. Tetapi jika telah diperbaiki kelemahan (corrected for attenuation) dan diperbaiki range restriction, korelasi sebenar adalah lebih besar. Begitu juga, hasil korelasi itu adalah lebih tinggi sekiranya ujian dan kriteria yang digunakan itu adalah reliable atau boleh dipercayai.

Kelemahan Strategi Validasi Serentak 1. Masalah Statistik

KULIAH 7 : ANALISIS ITEM TUJUAN ANALISIS ITEM 1. 2. Analisis item boleh membantu meningkatkan kefahaman kita tentang sesuatu ujian. Analisis item boleh tunjuk pada kita kenapa sesuatu ujian itu adalah boleh dipercayai/ reliable (atau tidak boleh dipercayai/reliable) atau sah (valid). Analisis item juga mencadangkan kepada kita cara-cara untuk memperbaiki ciri-ciri pengukuran sesuatu ujian.

Adakah respons ke atas sesuatu item itu berkaitan dengan respons ke atas itemitem lain ujian itu ANALISIS DISTRACTOR Secara tipikalnya hanya terdapat satu jawapan betul atau satu pilihan yang dikehendaki bagi Item jenis pelbagai pilihan. Banyak maklumat berkenaan ujian yang boleh diperoleh dengan mengkaji kekerapan respon salah yang diberikan oleh kumpulan subjek. Rujuk contoh dalam Table 10-1 (Murphy & Davishofer, 2005, pg 204). Sesuatu item yang baik mempunyai dua ciri: 1. 2. individu yang tahu jawapan akan sentiasa memilih respon yang betul. Individu yang tidak tahu jawapan akan memilih secara random di antara respon-respon yang mungkin merupakan jawapan. Analisis tentang diskriminasi item.

3.

Item yang tidak baik atau soalan mengelirukan (trick) boleh mempengaruhi tahap reliabiliti dan validiti sesuatu ujian. Maka, jika item yang tidak baik ini disingkirkan ia boleh meningkatkan tahap reliabiliti dan validiti ujian berkenaan.

Ciri-ciri Penting Item-item Ujian Persoalan yang perlu dijawab semasa menilai setiap item ujian adalah Adakah sesuatu item itu mengukur seperti apa yang diukur oleh item item lain dalam ujian berkenaan. Terdapat tiga(3) jenis ukuran yang boleh digunakan untuk menjawab persoalan di atas: 1. Ukuran distractor/ gangguan

Kenyataan/ciri ke 2 ini menunjukkan sesetengah orang menjawab betul kerana meneka. Ini juga bermakna kemungkinan subjek memberi respon salah ke atas setiap respon seharusnya adalah sama. Merujuk contoh dalam Jadual 10-1, respon a adalah jawapan betul sementara respons b, c dan d adalah gangguan (distractor). Hasil dalam Jadual 10-1 menunjukkan 55% daripada pelajar menjawab dengan betul item 42. Jika item ini adalah item yang baik, maka dijangkakan respon daripada baki 45% pelajar ke atas ketiga-tiga distractor itu haruslah sama (iaitu, 15% pelajar pilih b, 15% pelajar pilih c dan 15% pelajar pilih d).

Berapa orang memilih setiap respons 2. Menilai pola respon keseluruhan ke atas sesuatu item.

Ukuran kepayahan item

Berapa orang yang menjawab dengan betul item itu 2. Analisis tentang kepayahan sesuatu item.

Apa yang Dapat Diperhatikan Daripada Analisis Distractor Formula untuk mengira berapa orang yang dijangka memilih setiap distractor:

Ukuran diskriminasi

Mengukur Kepayahan Item = Merujuk Jadual 10-1, terdapat 39 orang menjawab salah item 42, maka dijangkakan terdapat 13 orang memilih setiap distractor. Apabila jumlah individu yang memilih sesuatu distractor itu lebihi jumlah yang dijangkakan, dua kemungkinan berlaku iaitu: Pilihan itu (distractor) menggambarkan sebahagian daripada pengetahuan. Item itu tidak baik kerana soalannya mengelirukan (trick). Ukuran umum kepayahan item ialah peratus subjek yang menjawab dengan betul sesuatu item itu (nilai p). Nilai p item boleh dikira dengan formula berikut:

Kesan Kepayahan Item Ke Atas Skor Ujian Salah satu andaian asas pengukuran ialah terdapat perbezaan sistematik di antara individu-individu dalam sesuatu gagasan atau domain kandungan yang diukur. Ujian merupakan satu metod yang boleh digunakan untuk menilai perbezaan di antara individu-individu berkenaan dalam gagasan atau domain kandungan yang diukur itu. sekiranya tiada individu yang menjawab dengan betul sesuatu item itu (nilai p = 0.0) atau semua orang menjawab dengan betul sesuatu item (nilai p = 1.0), ini menunjukkan tidak terdapat perbezaan antara individu dalam skor item berkenaan. Sesuatu Item yang nilai p = 0.0 atau nilai p = 1.0, menunjukkan: Item itu tidak dapat mendiskriminasi antara individu baik dan individu tidak baik. Item itu adalah satu item lemah. Item itu harus dibaiki atau disingkirkan daripada ujian. Jika item itu disingkirkan ia tidak akan memberi kesan ke atas urutan pemeringkatan atau saiz perbezaan skor di antara dua orang individu. Item ini akan mempengaruhi min skor ujian, tetapi Ia tidak memberi kesan ke atas reliabiliti, validiti ujian atau pembuatan keputusan yang berdasarkan skor ujian.

Item yang mengandungi distractor yang sangat popular cenderung menurunkan tahap reliabiliti dan validiti ujian. Item yang mengandungi distractor yang sangat tidak popular (jumlah individu memilih distractor ini kurang daripada yang dijangkakan) akan mengurangkan tahap kepayahan item berkenaan.

KEPAYAHAN ITEM Daripada item-item di bawah yang mana lebih payah? item 1. (6 x 3) + 4 = _________. item 2. 9[In (-3.68) x (1-In(+3.68)] = _________. item 1. Siapa Sigmund Freud? item 2. Siapa Daniel Gorman? Dari sudut psikometrik kepayahan item merujuk kepada jumlah individu atau berapa orangkah yang menjawab dengan betul sesuatu item itu. Jika semua orang memilih jawapan yang betul. Item itu dikatakan senang. Sebaliknya, jika hanya seorang daripada 100 yang menjawab betul, item itu dikatakan payah/susah.

Kesan kepayahan ke atas varians skor ujian adalah nyata sekiranya nilai p adalah ekstrim.

3. Indeks Diskriminasi (D)

Korelasi inter-item

Jika semua item dalam sesuatu ujian itu sangat payah, majoriti daripada mereka yang mengambil ujian itu akan mendapat skor ujian yang rendah. Jika semua item dalam sesuatu ujian itu sangat mudah, majoriti daripada mereka yang mengambil ujian itu akan mendapat skor ujian yang tinggi. Dalam kedua-dua keadaan ini, skor-skor ujian menunjukkan keperbezaan yang kecil (seragam). Ini menunjukkan nilai p yang ekstrim secara langsung akan menghadkan keperbezaan skor-skor ujian. Keperbezaan skor-skor ujian adalah maksima jika purata nilai p berkisar di sekitar 0.5 (optima). Atau semua item ujian itu berkisar di sekitar nilai p = 0.5.

Kuasa diskriminasi/membeza sesuatu item boleh diukur dengan membandingkan bilangan individu yang mendapat skor tinggi dalam sesuatu ujian yang menjawab betul item itu dengan bilangan inidividu yang mendapat skor rendah dalam ujian itu yang menjawab betul item yang sama. Jika sesuatu item itu boleh membeza di antara mereka yang skor tinggi dan mereka yang skor rendah, maka akan terdapat lebih ramai yang daripada kumpulan skor tinggi yang menjawab betul item berkenaan.

Langkah-langkah untuk mengira indeks diskriminasi (D) sesuatu item: 1. Pilih kumpulan tinggi (kumpulan yang mendapat skor tinggi dalam sesuatu ujian) dan kumpulan rendah (kumpulan yang mendapat skor rendah dalam sesuatu ujian). 2. Kelley mencadangkan 27% daripada kumpulan tinggi dan 27% daripada kumpulan rendah. Maindozha mencadangkan 33%daripada kumpulan tinggi dan 33% daripada kumpulan rendah.

DISKRIMINASI ITEM Setiap item dalam sesuatu ujian merupakan satu pemerhatian atau satu ujian. Jika sesuatu item itu mengukur seperti apa yang hendak diukur ujian itu maka dijangkakan: 1. 2. 3. individu yang mendapat skor tinggi dalam ujian itu menjawab dengan betul item berkenaan. individu yang mendapat skor rendah dalam ujian itu menjawab salah item berkenaan. Sesuatu item yang baik adalah item yang boleh mendiskriminasi/membezakan individu yang menjawab dengan baik dalam sesuatu ujian dengan individu yang lemah dalam ujian berkenaan.

Kira berapa peratus individu dari kumpulan tinggi dan kumpulan rendah yang menjawab betul item itu. @ Indeks diskriminasi item itu adalah perbezaan antara dua peratusan itu.

Terdapat tiga (3) statistik yang boleh digunakan untuk mengukur kuasa diskriminasi sesuatu item: 1. 2. Indeks diskriminasi Korelasi item keseluruhan

yang rendah Merujuk Jadual 7.1, item 1 dan item 2 nyata adalah lebih susah bagi kumpulan skor rendah berbanding kumpulan tinggi. yang

U= Bilangan calon kumpulan yang mendapat skor tinggi menjawab betul item L= Bilangan calon kumpulan yang mendapat skor rendah menjawab betul item nii = Bilangan calon dalam kumpulan yang mendapat skor tinggi ni = Bilangan calon dalam kumpulan yang mendapat skor D = U - L n

n = nii = ni

Logik Di Sebalik Statistik D 1. Secara definisi sesuatu ujian nyata adalah lebih payah bagi kumpulan skor rendah berbanding kumpulan skor tinggi. Jika sesuatu item itu mengukur perkara yang sama diukur ujian. Maka, item itu juga adalah lebih payah bagi kumpulan skor rendah berbanding kumpulan skor tinggi.

Korelasi Item Keseluruhan Korelasi item keseluruhan (item-total correlation) adalah satu statistik yang membekalkan maklumat berkenaan sejauh mana sesuatu item itu mengukur seperti apa yang diukur ujian. Statistik ini dijalankan dengan korelasi skor bagi sesuatu item dengan jumlah skor ujian. Tafsiran bagi korelasi item keseluruhan adalah lebih kurang sama dengan index diskriminasi item, D: 1. Korelasi positif item keseluruhan menunjukkan item itu boleh mendiskriminasi mereka yang menjawab dengan baik sesuatu ujian itu dengan mereka yang lemah dalam ujian berkenaan. Korelasi positif item keseluruhan juga menunjukkan item itu mengukur perkara yang sama diukur ujian. Korelasi item keseluruhan yang hampir dengan kosong (0) menunjukkan item itu tidak boleh mendiskiminasi antara skor tinggi dan skor rendah. Korelasi negatif item keseluruhan menunjukkan item itu tidak mengukur perkara yang sama diukur ujian (individu yang

2.

Item 3 kurang menunjukkan kuasa diskriminasi kerana nilai D kecil. Item 4 menunjukkan kuasa diskriminasi yang tinggi tetapi pada arah yang salah. Index D negatif menunjukkan item itu adalah senang bagi mereka memperoleh skor rendah dalam ujian berkenaan dan payah bagi mereka yang memperoleh skor tinggi.

2. 3.

Formula mengira D D = U - L nii ni

4.

menjawab betul item itu tetapi mendapat skor rendah dalam keseluruhan ujian). Kelebihan Kaedah Korelasi Item Keseluruhan Kaedah ini mudah iaitu dengan korelasikan skor item dengan skor ujian keseluruhan. Dengan kaedah ini, kita senang membuat keputusan ke atas kualiti sesuatu item. Misalnya, Jika korelasi item keseluruhan r = 0.40 ini menunjukkan item berkenaan menyumbang sebanyak 16% daripada variasi dalam skor ujian itu. Kenyataan ini tidak dapat dibuat bagi item yang mana index diskriminasinya = .40. Korelasi item keseluruhan berhubung secara langsung dengan reliabiliti ujian.

2.

Item itu harus diperbaiki atau disingkirkan.

Item itu mungkin berkorelasi secara positif dengan sesetengah item ujian itu tetapi berkorelasi secara negatif atau lemah korelasinya dengan item-item lain dalam ujian berkenaan. Keadaan ini berlaku sekiranya ujian itu mengukur dua atribut yang berbeza.

KULIAH 8 : PROSES MEMBENTUK UJIAN/ ALAT KAJIAN Proses membentuk ujian boleh dibahagikan kepada tiga(3) peringkat : 1. Pembentukan Alat Kajian/ Ujian Termasuk: menulis item, pembentukan skala, set respons dan memilih format ujian. 2. Membentuk Norma dan Mempiawai Ujian Mempiawaikan ujian bagi populasi sasaran, membentuk norma dan menjalankan penyelidikan untuk menilai reliabiliti dan validiti ujian. 3. Penerbitan dan Meneliti Semula Ujian Mengemaskini ujian setelah satu jangka masa. MEMBENTUK UJIAN Memilih Jenis Item Memastikan jenis item mana sesuai digunakan. 1. Item pelbagai pilihan. 2. Item jenis respon berbentuk/berstruktur

Korelasi Inter-Item Hasil metrik korelasi inter item membekalkan maklumat berikut: 1. 2. Memperoleh maklumat berkenaan reliabiliti ujian purata korelasi inter-item dan jumlah item dalam sesuatu ujian. Satu kegunaan paling penting korelasi inter-item ialah ia boleh membantu kita dalam memahami ukuran diskriminasi sesuatu item.

Item yang menunjukkan korelasi item keseluruhan yang positif dan kuat juga akan menunjukkan korelasi positif dengan kebanyakan item dalam ujian itu. Hasil korelasi inter-item juga membantu kita untuk memahami kenapa sesetengah item gagal untuk mendiskriminasi di antara mereka yang mendapat skor tinggi dengan mereka yang mendapat skor rendah dalam ujian. Jika hasil korelasi item keseluruhan adalah rendah, terdapat dua(2) penjelasan : 1. Item itu tidak berkaitan dengan item-item lain dalam ujian itu.

soalan esei, soalan struktur, soalan demonstrasi kemahiran tertentu dll. Item jenis respon berbentuk/berstuktur boleh mengukur dengan lebih mendalam berkenaan kebolehan dan kemahiran individu daripada item pelbagai pilihan. Ujian pelbagai pilihan biasanya digunakan untuk mengukur aspek kebolehan individu yang lebih berfokus. Namun, item pelbagai pilihan lebih diminati kerana: Adalah sukar untuk membentuk metod permarkatan yang reliable bagi item jenis respon berstruktur. Metod permarkatan bagi item jenis respon berstruktur mengambil masa yang lama dan mahal. Adalah lebih senang membentuk permarkatan bagi ujian pelbagai pilihan. Menulis Item Langkah pertama membentuk ujian adalah membentuk item pool (1.5 - 3 kali ganda item). proses metod

Sesetengah ujian dibentuk dengan berdasarkan teori tertentu. Menterjemahkan idea-idea teori kepada itemitem ujian. Contoh, Edwards Personal Preference Schedule (EPPS) dibentuk berdasarkan teori personaliti yang dikemukankan oleh Murray (1938). Definisi keperluan autonomi dalam teori itu orang yang sentiasa mempengaruhi orang untuk melakukan sesuatu untuk diri sendiri atau orang yang inginkan gaya hidup yang bebas dan tidak terikat dengan tradisi (Murray, 1938). Contoh item dalam EPPS I like to avoid situations where I am expected to do things in a conventional way and I like to avoid responsibilities and obligations Kelemahan item yang dibentuk dengan berdasarkan teori ialah item ini biasanya adalah agak transparent. Senang diteka atau nampak apa yang ingin diukur item-item berkenaan. Subjek biasanya akan memberi respon mengikut kehendak mereka atau apa yang sepatut dan bukan daripada persepsi sebenar mereka. Satu cara lain yang diguna untuk menulis item ialah tidak berpandukan teori atau atheoretical. Membentuk item pool yang besar. Masih tidak terdapat tema bagi mengkelompokan item-item yang dibentuk.

Isu-isu yang perlu dipertimbang dalam menulis item: Kepanjangan ayat, perbendaharaan kata, tahap akademik/ tahap membaca subjek sasaran, bahasa offensive, sexist atau racist. Kandungan Item

Membentuk item yang boleh membezakan sesuatu kumpulan daripada kumpulan lain. Contoh, The Minnesota Multiphasic Personality Inventory (MMPI). Alternatif-Alternatif Respons Item Alternatif respons item yang digunakan dalam ujian psikologikal adalah pelbagai. 1. Format respon betul-salah (cth., Personality Research Form), Format respon Setuju-Tidak Setuju cth., Chid Abuse Inventory Saya tidak pernah rasa kasihan terhadap orang lain 1. Setuju 2. Tidak Setuju

3. Cara permarkatan item ini tidak melibatkan putusan daripada penilai. Item pelbagai pilihan juga mempunyai kelemahan: 1. Adalah sukar menulis penyata alternatif bagi item ini atau adalah sukar untuk membentuk distractor yang baik. Kekuatan dan kelemahan item format respons bebas: 1. Kekuatan item ini ialah ia dapat memperoleh maklumat yang banyak dan mendalam. 2. Kelemahan item ini ialah dari segi permarkatan. Item pelbagai pilihan juga mempunyai kelemahan: 1. Adalah sukar menulis penyata alternatif bagi item ini atau adalah sukar untuk membentuk distractor yang baik. Kekuatan dan kelemahan item format respons bebas: 1. Kekuatan item ini ialah ia dapat memperoleh maklumat yang banyak dan mendalam. 2. Kelemahan item ini ialah dari segi permarkatan. Pembentukan Skala Setiap item dalam ujian psikologi mewakili permerhatian bagi tingkah laku atau tret tertentu. satu

2. Format jawapan pelbagai pilihan (cth., Tennessess Self-Concept Scale skala Likert 5 3. Format Respons bebas dalam ujian projectif subjek diminta memberi respons bebas dan tidak berstruktur ke atas pelbagai stimuli dalam ujian (cth., The Rorschach dan The Rotter Incomplete

Sentence Blank)

4. Format penyelesaian malasah, subjek diminta menghasilkan produk tertentu yang mana merupakan sebahagian daripada proses ujian (cth., ujian pencapaian dan ujian bakat) 5. Format yang paling popular ialah item pelbagai pilihan. Item ini mempunyai beberapa kelebihan: 1. Cara permarkatan item ini adalah mudah dan cepat, 2. Ralat pengukuran yang berkaitan dengan meneka jawapan bagi sesuatu item boleh dikurangkan dengan meningkatkan jumlah pilihan item berkenaan.

Jika item-item yang sama dikumpulkan, permerhatian pelbagai bagi tingkah laku atau tertentu boleh dibentuk.

Terdapat tidak metod membentuk skala bagi ujian psikologi: 1. Skala Rasional Metod membentuk skala yang paling lama. Ia menggunakan pemikiran/pendapat, kepercayaan atau rational sebagai asas dalam memilih dan mengumpulkan item-item ke dalam skala tertentu.

Kenalpasti kumpulan sasaran. Contohnya, kumpulan subjek yang mengalami schizophrenia dan kumpulan subjek normal. Satu set item yang sama ditadbirkan kepada dua kumpulan itu. Item-item yang boleh membezakan dua kumpulan itu akan dipilih untuk membentuk skala. Pembentukan skala dengan metod empirikal ini melibatkan penggunaan analisis faktor untuk memilih item-item yang mengukur tret atau tingkah laku yang sama. Hasil daripada analisis faktor - Item-item yang terkumpul dalam sesuatu komponen menunjukkan item-item itu mengukur sesuatu gagasan yang sama. Gagasan yang diukur dikenalpasti melalui kandungan item-item itu. Kekuatan metod psikometriknya. Kelemahan metod ini: Sukar untuk mengenalpasti gagasan yang diukur oleh item-item yang dipilih daripada hasil analisis statistik berbandingkan yang berdasarkan teori. Metod analisis faktor yang berlainan digunakan akan menghasilkan kelompok item yang berbeza. ini adalah dari segi ciri-ciri

Kekuatan menggunakan metod skala rasional: 1. Pencipta ujian boleh berpandukan teori tertentu untuk meramal tingkah laku yang diukur, kerana skala dibentuk untuk mengukur konsep-konsep teori.

Kelemahan menggunakan metod skala rasional: Validiti skala bergantung kepada kekukuhan sesuatu teori. Jika teori itu tidak kukuh, skala yang dibentuk berasaskan teori itu akan mempunyai validiti yang rendah. 2. Skala Empirikal 1. Pembentukan skala berdasarkan kajian empirikal. Satu set item ditadbirkan kepada subjek kumpulan sasaran dan subjek kumpulan biasa (bukan subjek sasaran). Item yang secara statistiknya boleh membezakan dua kumpulan itu dipilih.

3. Skala Rasional-Empirikal Skala dibentukkan dengan menggunakan kedua-dua atau kombinasi keadah skala rational dan kaedah skala empirikal Contoh, Personality Research Form

Set-Set Respons Untuk mengukur tret psikologi, inventori self-report (subjek diminta memberi maklumat tentang diri mereka) biasa digunakan. 1. Sesetengah item dalam ujian self-report adalah sangat personal dan segan dilaporkan. Maka, sesetengah subjek tidak memberi maklumat yang tepat atau sengaja tidak menjawab sesetengah item. sesetengah subjek tidak tahu bagaimana beri respons yang tepat pada sesetengah item yang kabur soalannya. sesetengah subjek cuai dalam menjawab soalan dan memberi jawapan yang tidak tepat. Perkara-perkara ini boleh meningkatkan ralat varians skor sesuatu ujian dan mempengaruhi proses tafsiran skor ujian. Ujian psikologi yang baik mengandungi metod bagi mengesan sumber-sumber varians ini.

Untuk mengatasi masalah ini Strategi untuk mengawal atau menghapuskan kesan daripada respon kehendak sosial pada ujian personaliti: 1. Guna format ipsative - buat pasangan bagi item yang boleh menimbulkan kehendak sosial. bentuk item yang tidak terlalu positif atau negatif bagi dimensi kehendak sosial (item neutral). Menyesuaikan skor-skor ujian menghapuskan kesan kehendak sosial untuk

2. 3.

2.

3. 4.

2. Respons Random Set respons random adalah hasil daripada subjek tidak faham kandungan item dan memberi respons secara random. Subjek juga akan beri respons random jika mereka tidak mahu dinilai atau mereka tidak boleh menjawab ujian berkenaan (misalnya, tidak boleh membaca soalan atau terganggu semasa mengambil ujian). Strategi mengawal masalah ini ialah membentuk ujian yang boleh mengenalpasti pola respons random iaitu masukkan item yang mana secara universal betul atau salah bagi semua orang .

5.

1. Kehendak Sosial (Social Desirability) 6. Subjek menjawab sesuatu item mengikut kehendak sosial atau apa yang diiktiraf oleh umum dan bukan dengan pendapat atau persepsi mereka sediri. Allen L. Edwards (1957, 1970) - menganalisis pelbagai ujian personaliti telah menyimpulkan bahawa banyak di antara ujian itu tidak mengukur tret yang hendak diukur kerana individu yang menjawab ujian itu memberi respons berdasarkan apa yang diiktiraf oleh sosial/ masyarakat.

7.

Sampel Item From The Infrequency Scale of The Personality Research Form Item Response 1. I was born over 90 years ago. True 2. I try to get at least some sleep every night False 3. I make all my own clothes and shoes. TRUE 4. Sometimes I feel thirsty or hungry False 5. I rarely use food or drink of any kind TRUE 6. I have no sense of touch in my fingers TRUE 7. I am able to breathe. False 8. I have never ridden in an automobile TRUE
3. Dissimulation Set response dissimulation merujuk kepada menjawab sesuatu inventori dengan sengaja menunjukkan kelakuan baik (faking good) atau kelakuan buruk (faking bad). Set respons ini banyak berlaku dalam situasi di mana ujian ditadbir untuk membantu dalam proses pemilihan kerja, kenaikan pangkat, membei anugerah atau membuat keputusan. Pola Respons Pola respons merujuk kepada satu kecenderungan sama ada setuju atau tidak setuju terhadap kenyataan-kenyataan/item-item tanpa membaca/memahami item itu. Terdapat pola tertentu dalam jawapan yang diberikan oleh subjek. MEMPIAWAIKAN UJIAN DAN MEMBENTUK NORMA Membentuk Norma Bagi Ujian Psikologi Kumpulan normatif haruslah terdiri daripada sampel yang boleh mewakili populasi.

biasanya, beberapa kumpulan normatif dibentukkan bagi sesuatu ujian supaya pengguna ujian boleh memilih kumpulan perbandingan yang lebih sesuai dengan tujuan mereka. Langkah-langkah membentuk norma: 1. Mendefinisikan Populasi Sasaran Kumpulan normatif diwujudkan adalah berdasarkan tujuan kegunaan ujian. Contohnya kebanyak ujian kemampuan mental direkabentuk untuk mengukur kemampuan seseorang individu berbanding populasi umum. Maka: kumpulan normatif yang sesuai adalah terdiri daripada satu sampel yang boleh mewakili dan daripada semua tahap pendidikan yang dipilih secara random. Jika kumpulan normatif terdiri daripada sampel yang lebih berfokus (misalnya, sampel daripada pelajar kolej/universiti), ia akan mengubah atau mempengaruhi tafsiran hasil ujian. Langkah pertama dalam membentuk dan mentafsir norma adalah untuk mengenalpasti kumpulan sasaran dengan berdasarkan kerelevanan dan kesesuaiannya. 2. Memilih Sampel Perkara penting dalam memilih sampel adalah mendapatkan sampel yang boleh mewakili populasi sasaran. Contoh: populasi sasaran bagi membentuk norma bagi ujian

pencapaian adalah terdiri daripada pelajar baru dan pelajar akhir tahun grade 7, grade 8 dan grade 9. Pelbagai teknik persempelan digunakan untuk mendapatkan sampel representatif. Tetapi terdapat sesetengah teknik tidak sesuai dan tidak praktikal. Metod yang biasa digunakan untuk membentuk norma (large-scale norms) adalah variation of cluster sampling: Kenalpasti kawasan dalam negeri yang sepatutnya mewakili. Kemudian bahagikan kawasan itu mungkin mengikut kawasan bandar dan luar bandar. Tentukan secara keseluruhan berapa orang subjek/pelajar yang diperlukan kenalpasti berapa banyak sistem sekoleh dalam kawasan itu (bandar dan luar bandar) dan berapa ramai subjek yang diperlukan bagi setiap kawasan itu. Pilih subjek sebanyak mungkin secara random dari sekolah yang telah dikenalpasti bagi pelajar gred 7, 8 dan 9.

Proses mempiawaikan ujian merangkumi arahan pengambilan ujian, had masa, prosedur permarkatan dan garis panduan mentafsir skor ujian. Kepiawaian melibatkan mengawal keadaan tadbiran ujian supaya tidak berbeza dengan keadaan tadbiran yang satu lagi mempiawaikan proses tadbiran ujian..

PENERBITAN UJIAN DAN PENELITIAN SEMULA Menulis Manual Ujian Menyediakan manual ujian: Pencipta ujian merangka tentang tujuan kegunaan ujian, Menjelaskan arahan tadbiran ujian dan cara permarkatan, dan Menjelaskan secara mendalam setiap langkah dalam pembentukan ujian. Maklumat berkenaan reliabiliti dan validiti ujian harus dimasukkan dalam manual. Maklumat berkenaan proses pembentukan norma juga harus dimasukkan bagaimana kumpulan normatif dipilih dan bagaimana ujian itu dijalankan. Jelaskan sampel yang digunakan (misalnya, jumlah subjek yang telah diuji, umur, bangsa, agama, tempat dan jantina subjek).

1.

2.

3.

Kepiawaian (Standardization) Satu tujuan penting mempiawaikan ujian adalah untuk menghapuskan sumber-sumber ralat yang mungkin timbul dalam proses pengukuran.

Meneliti Semula Ujian Peneliti semula ujian bergantung kepada tempoh dan kandungan ujian. Jika sesuatu ujian itu mudah ketinggalan masa kandungan item ujian itu harus diteliti atau dinilai semula dengan kerap. Satu faktor lain yang menyebabkan ujian itu kerap diteliti semula ialah dari segi popularnya. Data-data baru yang dikumpul biasa akan mendapat penemuan baru dan mencadangkan perubahan kandungan item, prosedur tadbiran ujian atau cara permarkatan ujian.

Membincangkan rujukan norma, rujukan kriteria dan penilaian authentik dalam bidang pendidikan

PEMBUATAN KEPUTUSAN DALAM BIDANG PENDIDIKAN Thorndike, Cunningham, Thorndike dan Hagen (1991) klasifikasikan pembuatan keputusan dalam bidang pendidikan kepada 8 jenis: 1) Pengajaran 2) pengredan 3) diagnostik 4) pemilihan 5) penempatan 6) kaunseling dan panduan 7) program dan kurikulum 8) polisi pentadbiran

Keputusan pengajaran, pengredan dan diagnostik dibuat oleh guru dengan menggunakan ujian yang dibentukkan oleh guru. Keputusan pemilihan, penempatan, kaunseling dan panduan, serta program dan kurikulum serta polisi pentadbiran dibuat oleh pakar ujian, pentadbir atau jawatan kuasa pentadbir dengan menggunakan ujian piawai bakat dan pencapaian.

KULIAH 9 - PENGGUNAAN UJIAN DALAM LATAR PENDIDIKAN PENGGUNAAN UJIAN DALAM LATAR PENDIDIKAN Objektif Mengetahui jenis keputusan dalam pendidikan yang dibuat berdasarkan ujian psikologi. Mengetahui bagaimana ujian digunakan dalam bidang pendidikan untuk membuat keputusan pemilihan dan penempatan. Mengetahui bagaimana ujian digunakan dalam bidang pendidikan untuk membuat keputusan kaunseling dan panduan. Mengetahui bagaimana ujian digunakan dalam bidang pendidikan untuk membuat keputusan kurikulum dan polisi pentadbiran.

UJIAN PSIKOLOGI DIGUNAKAN DALAM BIDANG PENDIDIKAN Ujian Digunakan Untuk Membuat Keputusan Dalam Bilik Darjah Gronlund (1998) membahagikan keputusan dalam bilik darjah kepada permulaan pengajaran, semasa pengajaran dan akhir pengajaran.

Keputusan Permulaan Pengajaran Pada permulaan sesuatu kursus atau sebelum pengajaran baru, ujian psikologi digunakan untuk membuat penilaian penempatan.

Penilaian penempatan merangkumi: Mengenalpasti tahap kemahiran dan pengetahuan pelajar dalam menerima bahan pengajaran baru. Mengenalpasti setakat mana pelajar tahu/ mempunyai maklumat berkenaan bahan pengajaran baru.

Skor ujian pelajar digunakan untuk meramal kejaya seseorang pelajar dalam sesebuah institusi nanti. Contoh ujian yang digunakan seperti: The Scholastic Assessment

Test (SAT I), The American College Test (ACT), The Graduate Record Exam (GRE) dll.

Keputusan Semasa Pengajaran Penilaian formatif: Mengenalpasti maklumat apa yang telah pelajar peroleh dan tidak peroleh dalam proses pengajaran. Guru boleh menggunakan maklumat ini untuk membuat penyesuai tentang cara pengajaran dan bahan pengajaran mereka. Penilaian diagnostik: Mengenalpasti masalah pembelajaran khusus.

UJIAN DIGUNAKAN UNTUK MEMBUAT KEPUTUSAN PENEMPATAN Hasil daripada ujian psikologi seperti ujian bakat, pencapaian dan kecerdasan dan informasi penilaian lain digunakan untuk membantu dalam penempatan pelajar pada sesuatu program.

UJIAN DIGUNAKAN UNTUK MEMBUAT KEPUTUSAN KAUNSELING DAN PANDUAN Bersama informasi penilaian lain, kaunselor menggunakan keputusan ujian psikologi untuk membantu pelajar memahami minat, kekuatan, kemampuan dan keutamaan mereka. Kaunselor juga menggunakan informasi-informasi penilaian ini untuk membantu pelajar dalam membuat keputusan kerjaya mereka. Ujian-ujian mengukur minat kerjaya/ vokasional:

Keputusan Pada Akhir Pengajaran Penilaian Summatif: Mengenalpasti sama ada pelajar telah mempelajari apa yang diajar atau apa yang sepatut dipelajari pada akhir kursus.

Strong Interest Inventory Kuder Occupational Interest Survey The Career Assessment Inventory The Campbell Interest and Skill Survey The Jackson Vocational Interest Survey The Minnesota Vocational Interest Inventory The Self-Directed Search

UJIAN DIGUNAKAN UNTUK MEMBUAT KEPUTUSAN PEMILIHAN DAN PENEMPATAN Ujian-ujian piawai pencapaian, bakat dan kecerdasan biasa digunakan untuk membantu dalam pembuatan keputusan pemilihan dan penempatan.

UJIAN DIGUNAKAN UNTUK MEMBUAT KEPUTUSAN PEMILIHAN

UJIAN DIGUNAKAN UNTUK MEMBUAT KEPUTUSAN PROGRAM, KURIKULUM DAN POLISI PENTADBIRAN Pentadbir-pentadbir pendidikan menggunakan keputusan ujian psikologi dan informasi penilaian lain untuk: menilai dan memodifikasi sistem pendidikan. mengenalpasti program atau kurikulum mana yang sesuai dilaksanakan atau digugurkan. RUJUKAN KRITERIA DAN PENILAIAN

Penilaian authentic memberi fokus kepada kebolehan pelajar dalam mengapplikasikan apa yang telah mereka pelajari dalam situasi sebenar. Contoh, mengukur kefahaman pelajar tentang validiti ujian. Guru akan minta pelajar menjelaskan secara oral berkenaan validiti sesuatu ujian dan minta pelajar menilai atau menganalisis validiti ujian dengan data yang telah dikumpul. Portfolio pelajar juga digunakan sebagai untuk menilai pelajar atau bantu dalam membuat keputusan penerimaan pelajar dalam sesuatu institusi. Portfolio merangkumi permerhatian berkenaan tingkah laku pelajar, keputusan pelajar dalam projek tertentu, atau prestasi pelajar dalam aktiviti tertentu dll.

RUJUKAN NORMA, AUTHENTIC

Ujian-Ujian Rujukan Norma (Norm-Referenced) Ujian rujukan norma - ujian piawai yang telah ditadbir kepada satu kumpulan besar subjek yang mewakili dan skor yang diperolehi oleh kumpulan subjek ini digunakan untuk membentuk norma. Ujian rujukan norma ini boleh perbandingan bagi prestasi pelajar. digunakan sebagai satu

Kuliah 10 : PENGUKURAN DALAM KLINIKAL & KAUNSELING MENGGUNAKAN KAUNSELING Objektif Menjelaskan kegunaan penilaian dalam amalan klinikal. Tiga model penilaian digunakan: Model Pengumpulan Maklumat, model terapeutik dan model rawatan perbezaan. Membincangkan temuduga klinikal, ujian personaliti, teknik projektif, ujian neuropsikologikal dan ujian bagi kecelaruan klinikal seperti depresi dan anxieti. UJIAN DALAM BIDANG KLINIKAL DAN

Dengan ujian rujukan norma ini prestasi pelajar boleh dibanding dengan prestasi rakan sekelasnya atau dengan prestasi pelajar umum.

Ujian-Ujian Rujukan Kriteria (Criterion-Referenced) Ujian-ujian rujukan kriteria melibatkan membanding skor ujian pelajar dengan piawai pencapaian objektif. Ujian rujukan kriteria boleh membantu dalam mengukur tahap pengetahuan pelajar dan membantu dalam mengenalpasti kelemahan pelajar yang harus diberi perhatian.

PENILAIAN KLINIKAL DAN UJIAN PSIKOLOGI Perbezaan di antara ujian psikologikal dan penilaian klinikal:

Penilaian Authentic

Kedua-dua metod ini adalah untuk mengumpul maklumat tetapi, but Penilaian klinikal adalah lebih luas berbanding ujian psikologikal ujian psikologikal hanya merupakan satu alat yang digunakan dalam proses penilaian. Iaitu penggunaan alat psikometrik bagi mengumpul maklumat. Penilaian klinikal pula melibatkan set pengumpulan makluamat yang lebih luas pengumpulan maklumat dan kemahiran mentafsir maklumat.

Keputusan ujian membekalkan satu garis dasar yang digunakan oleh ahli klinikal atau kaunselor untuk: mengenalpasti kecelaruan yang dialami kliennya merekabentuk program rawatan bagi kliennya.

Model Terapeutik Tujuan penilaian terapeutik adalah untuk memberi satu pengalaman dan informasi baru kepada klien untuk membolehkan mereka mengubah cara hidup mereka. Ahli klinikal atau kaunselor menggunakan informasi penilaian untuk membantu kliennya berkembang dan permahaman kendiri intervensi bagi perubahan positif.

Menurut Woody (1972) penilaian klinikal termasuklah: 1. reaksi ahli terapi terhadap klien. 2. Keputusan menerima klien. 3. Teknik dan perkhidmatan yang ditawarkan. 4. Keputusan untuk menamatkan intervensi. 5. Penilaian tentang keberkesanan intervensi. 6. Kerelavenan penilaian klinikal ini bagi klien akan datang.

Model Rawatan Perbezaan Ujian psikologi boleh digunakan dalam penyelidikan dan untuk menilai hasil sesuatu program - model rawatan perbezaan. Model ini juga diapplikasikan dalam kajian bentuk ujian pra dan post - kumpulan klien diberi sesuatu ujian psikologi sebelum dan selepas sesuatu intervensi/rawatan - tujuan menilai keberkesanan/ kejayaan sesuatu intervensi/rawatan dalam mengubah tingkah laku atau sikap klien

MODEL-MODEL PENILAIAN PSIKOLOGI Finn dan Tonsager (1997) mendefinisikan penilaian dalam amalan klinikal dalam tiga model: model pengumpulan maklumat, model terapeutik dan model rawatan perbezaan.

Model Pengumpulan Maklumat Pengumpulan maklumat untuk diagnosis. Ujian membolehkan penilai membuat ramalan tingkah laku kliennya dan membandingkan kliennya dengan orang lain.

Peranan Ahli Klinikal dan Kaunselor Menurut Hohenshil (1996), Kaunselor memberi khidmat pada mereka yang mengalami masalah perkembangan normal seperti masalah penyesuaian, perkahwinan, kerjaya atau kerjaya. Ahli psikologi klinikal dan ahli psikiatri (doktor perubatan yang khusus dalam bidang kesakitan mental) pula memberi khidmat

kepada mereka yang bertingkah laku abnormal, mengalami kecelaruan mental atau ketidakmampuan emosi. UJIAN-UJIAN DIGUNKANKAN UNTUK DIAGNOSIS DAN INTERVENSI Diagnosis adalah interpretasi atau makna yang diperolehi oleh penilai dari proses pengumpulan maklumat. Diagnosis = pengenalpastian masalah atau kecelaruan klien.

Menurut Geertsma (1972), kekuatan teknik temuduga tidak berstruktur adalah: Kelenturannya (flexibility) - respons klien secara bebas secara langsung dan tidak langsung memberi informasi tertentu untuk diagnosis.

Kelemahan teknik temuduga tidak berstruktur:

Screening - proses ke arah mencapai diagnosis


keputusan diagnosis boleh digunakan dalam membantu merekabentuk dan memilih teknik intervensi atau rawatan yang sesuai untuk menghapuskan tingkah laku atau simptom negatif klien dan menyelesaikan masalah klien.

1. Jangkaan penemuduga boleh mempengaruh arah atau hasil temuduga. 2. Bias pengesahan hipotesis (hypotesis confirmation bias) Penilai membentuk hipotesis ke atas tingkah laku klien. Penilai mendapatkan maklumat atau menghapuskan maklumat untuk menyokong hipotesis. 3. Bias self-fulfilling prophecy jangkaan penilai mempengaruhi tingkah laku subjek sehingga menyebabkan tingkah laku dibentuk ke arah jangkaan penilai Temuduga tidak berstruktur boleh dibahagikan kepada tiga bahagian: fasa permulaan, pertengahan dan tamat. 1) Fasa permulaan penemuduga membentuk rapport dengan klien. Penemuduga fokus pada persepsi klien tentang masalah yang mereka hadapi, sikap dan emosi yang ditunjukkan oleh klien. Penemuduga menentukan tujuan dan jangkaan bagi temuduga dan menentukan aktiviti penilaian lain.

Temuduga Klinikal Perbincangan antara klien dengan penilai (ahli psikologi klinikal atau kauselor). Penilai membuat permerhatian ke atas klien dan mengumpul maklumat berkenaan simptom dan masalah klien. Temuduga klinikal berstruktur Set soalan yang hendak ditanya disediakan terlebih dahulu. mengandungi soalan yang telah tersedia tetapi penilai juga boleh bertanya soalan terbuka. Temuduga klinikal tidak berstruktur atau tidak terarah hanya beberapa soalan disediakan, soalan bertujuan untuk mengenalpasti respon klien. penilai

2) Fasa pertengahan

fokus ke atas pengumpulan maklumat berkenaan latar sosial dan latar perubatan klien dan latar demografik klien (spt, pekerjaan, status perkahwinan dsb). Penemuduga membentuk hipotesis yang berkaitan dengan diagnosis dan membuat permerhatian dan mengumpul maklumat yang boleh menyokong atau menolak hipotesis berkenaan. Penemuduga membuat prognosis dan menganggar tempoh rawatan yang perlu diberi pada kliennya.

California Psychological Inventory (CPI) Gough adalah pembentuk asal CPI. CPI (telah disemak semula) mengukur 20 dimensi tingkah laku interpersonal. CPI popular digunakan dalam kajian personaliti. CPI juga digunakan untuk tujuan terapeutik dan diagnosis.

3) Fasa tamat

NEO Personality Inventory Ukur dimensi lima faktor: neurotisme, extraversion, openness to experience, agreeableness and conscientiouness. NEO untuk tret personaliti normal. NEO banyak digunakan dalam kajian personaliti dan tingkah laku dan untuk tujuan terapeutik dan diagnosis.

Penemuduga akan tanya klien sama ada dia mempunyai apa-apa soalan. Setelah menjawab soalan klien, penemuduga akan membuat penjelasan ringkas tentang temuduga itu. Penemuduga juga akan menjelaskan tentang penilaian atau aktiviti rawatan yang sesuai bagi klien pada akhir sesi temuduga.

16 Personality Factor Questionnaire (16PF) 16 PF dibentukkan oleh Raymond B. Cattell dalam tahun 1940-an. Ukur tret personaliti normal. 16 PF banyak digunakan dalam kajian dan dalam bidang kaunseling.

Ujian-Ujian Personaliti Berstruktur Minnesota Multiphasic Personality Inventory (MMPI) Diterbitkan oleh Hathaway dan Mckinley pada tahun 1943 dan disemak semula pada 1980-an. (MMPI-2) diterbitkan pada tahun 1989. MMPI-2 mengandungi 10 skala asas klinikal yang merangkumi tret personaliti dan predisposisi (sifat semula jadi). Skala mengukur kecelaruan tertentu dan disposisi. MMPI-2 digunakan sebagai satu alat screening dan diagnosis dalam setting hospital dan kesihatan mental. Ia juga digunakan dalam kajian personaliti normal dan abnormal.

Teknik-Teknik Projektif Ujian-ujian projektif - subjek memberi respons ke atas stimuli yang tidak berstruktur dan kabur misalnya melengkapkan ayat, inkbloks atau gambar abstrak. Idea ujian projektif adalah berasaskan konsep dari Teori Psikoanalisis Freud - projeksi adalah mekanisme bela diri yang melegakan anxieti dengan melepaskan emosi atau pemikiran ke atas individu atau perkara persekitaran.

Projektive Storytelling The Rorschach Inkblot Technique dan Thematic Apperception Test (TAT) adalah dua contoh projective storytelling.

Haak (1990) ujian melengkapkan ayat boleh digunakan untuk menilai masalah kecerdasan, tumpuan, stres, depresi, anxieti, gangguan pemikiran kanak-kanak sekolah.

The Rorschach Inkblot Technique dibina oleh Hermann Rorschach, seorang ahli psikiatri Swiss pada tahun 1921. Subjek diminta melihat pada inkblots dan jelaskan apa yang mereka nampak sama ada objek atau orang.

Ujian-Ujian Neuropsikologikal Neuropsikologi adalah cabang psikologi yang fokus ke atas hubungan antara fungsi otak dengan tingkah laku. Penilaian Neuropsikologikal biasanya psikologi dan psikiatri yang terlatih. dikendalikan oleh ahli

Thematic Apperception Test (TAT) dibina oleh Henry A. Murray (1943) dan C.D. Morgan. Subjek diminta melihat pada gambar yang diberikan dan membuat cerita tentang gambar itu.

Teknik elektrofisiologikal seperti electroencephalography dan metod neuroimaging seperti positron emission tomography (PET) dan magnetic resonance imaging (MRI) digunakan untuk memeriksa fungsi otak. Dua metod elektrofisiologikal utama yang digunakan untuk memeriksa fungsi otak: electroencephalogram (EEG) - recod aktiviti gelombang otak. Event-related potential (ERP) - recod respons elektrik otak bila berlaku peristiwa tertentu.

Projektive Drawing Subjek diminta lukis gambar diri mereka. Florence Goodenough (1926) mula guna kaedah ini untuk mengukur kecerdasan kanak-kanak. Kaedah ini kemudiannya juga digunakan untuk mengukur faktor emosi. Dua metod projective drawing ialah House-Tree-Person dan DrawA-Person Techniques.

Indeks EEG dan ERP digunakan untuk meramal tret psikologikal, fungsi dan ketidakfungsian kognitif dan psikopatologi. Dua kategori ujian neuropsikologikal: Psikopatologi dan perkembangan yang berkaitan dengan ketidakfungsian mental dan kecelaruan mental.

Melengkapkan Ayat Subjek diminta melengkapkan ayat sama ada secara verbal atau secara bertulis. Ujian ini digunakan oleh ahli psikologi sekolah untuk menilai personaliti kanak-kanak.

Applikasi Perkembangan Dalam penilaian fungsi otak dan neurologikal, tingkah laku dalam konteks perkembangan juga harus diberi perhatian.

Otak dan sistem saraf kanak-kanak adalah berbeza dengan otak dan sistem saraf orang dewasa. Neonatal dan kelahiran awal penilaian kecelaruan neurologikal bagi neonatal dan kelahiran awal boleh dibahagikan kepada empat bidang: 1) biokimia 2) elektrofisiologikal 3) neurobehavioral dan 4)

Dalam latar industri ujian luas digunakan semasa Perang Dunia II. Ujian digunakan untuk memilih personnel yang sesuai dan layak bagi sesuatu tugas. Kini di negara Barat, dua per tiga daripada semua syarikat menggunakan ujian bertulis dalam membuat pemilihan dan membuat keputusan kenaikan pangkat pekerja.

social-emotional functioning.
Dewasa dan tua

MERAMAL PRESTASI Cronbach (1990) mendefinisikan ujian sebagai a systematic

Dalam membuat penilaian ahli neuropsikologi akan mengambilkira perubahan normal fungsi otak mengikut umur. Perubahan fisiologikal mengikut umur termasuklah: Kurang berat dan volum otak. Kurang sesetengah neurotransmitter. Kurang fekuensi dominan EEG. Perubahan dalam metabolisme otak.

prosedur for observing behavior and describing it on a numerical scale or in terms of categories.

Daripada definisi Cronbach ujian selain daripada merujuk kepada paper-and-pencil instruments (soal selidik), prosedur seperti borang permohonan, temuduga atau surat sokongan (prosedur ini banyak digunakan dalam industri) juga boleh dikatakan adalah ujian. Prosedur utama yang digunakan dalam pemilihan personnel: Biodata Peramal sah bagi pelbagai kriteria yang berkaitan dengan kerja. Satu andaian menggunakan biodata dalam prosedur pemilihan personnel adalah tingkah laku berkaitan dengan kerja boleh diramal daripada pengalaman kerja terdahulu. Contoh: pekerja x telah tukar lima kali kerja dalam masa tiga tahun - pekerja x tidak kekal dalam sesuatu pekerjaan.

Applikasi Psikopatologi Tiga bidang utama kecelaruan psikopatologi: anxieti, depresi dan skizofrenia.

Kuliah 11 : PENGUKURAN PSIKOLOGIKAL DALAM INDUSTRI Objektif Mengetahui metod yang paling baik dalam meramal prestasi kerja. Mengetahui metod yang paling baik dalam mengukur prestasi kerja atau bagaimana mengukur kriteria.

Contoh: pekerja z pernah memenangi hadiah sains - pekerja z mungkin lebih sesuai ditempatkan di bahagian R&D. 6.

ditanya semasa temudaga dan mereka juga dilatih bagaimana bertanya soalan). Terdapat bukti yang menunjukkan terdapat sesetengah penemuduga adalah lebih berkesan daripada yang lain (penemuduga yang bijak dapat membuat putusan yang lebih baik daripada penemuduga yang kurang bijak).

Temuduga Strategi penilaian yang paling banyak digunakan dalam industri (lebih 95% daripada majikan menggunakan teknik temuduga dalam proses pemilihan pekerja) Pendapat ahli temuduga: 1. psikologi personnel berkenaan

Ujian-Ujian Kebolehan Kognitif Ujian-ujian yang mengukur kebolehan kognitif yang digunakan dalam latar personnel termasuklah: persepsi ruang, pengetahuan berkenaan mekanikal, dan kepantasan persepsi.

Hasil kajian menunjukkan teknik temuduga mempunyai reliabiliti interrater yang rendah (iaitu, sekitar 0.50). Dapatan ini menunjukkan kelemahan teknik ini dalam membekalkan petunjuk yang tepat berkenaan kesesuai calon. Pekali validiti rendah. Bukti menunjukkan terdapat kesan halo (halo effect). Terdapat masalah dari segi metodologi restriction of the range (pemohon telah dipilih melalui resume). Sukar mendiskriminasi pemohon yang mempunyai kelayakan yang lebih kurang sama. Teknik temudaga yang berlainan digunakan mendatangkan hasil yang berbeza. Temuduga tidak berstruktur dan temuduga berstruktur (penemuduga dibekalkan soalan-soalan khusus untuk

Wonderlic Personnel Test (WPT)


2. 3. 4.

Ujian kebolehan kognitif umum yang paling lama dan terkenal digunakan dalam latar industri dan organisasi. Ia ditadbir secara berkumpulan. 50 item berbentuk pelbagai pilihan dan masa menjawab dihadkan kepada 25 minit. Item-item ujian ini mengukur : perbendaharaan kata, menyusun semula ayat, aritmatik, induksi logikal dan menafsir peribahasa.

Minnesota Clerical Test Ujian yang mengukur kepantasan persepsi. Ia digunakan secara meluas untuk pemilihan pekerja perkeranian.

5.

Ujian ini mengandungi dua bahagian: membandingkan nombor dan membandingkan nama. Setiap bahagian itu mengandungi senarai pasangan nombor atau nama yang identikal dan sesetengahnya pula mengandungi senarai pasangan yang tidak identikal. Tugas subjek adalah mengenalpasti pasangan mana yang identikal dan pasangan mana yang tidak identikal dalam kadar secepat mungkin.

Dalam ulasan Guion and Gottier (1965) mereka menyimpulkan bahawa tidak terdapat bukti kukuh pembolehubah personaliti boleh meramal prestasi kerja pekerja. Hough dan rakan-rakannya (1990) mendapati bahawa pembolehubah-pembolehubah personaliti tidak begitu berjaya dalam meramal sama ada keterlibatan pekerja dalam kerja atau kecekapan pekerja dalam kerja. Hough et al. (1990) mendapati tiga pembolehubah dalam Big Five mungkin berguna dalam pemilihan pekerja iaitu,

Bennett Mechanical Comprehension Test Ujian ini digunakan untuk menguji pengetahuan berkenaan prinsip fizik dan mekanik yang boleh diapplikasikan untuk mengoperasikan mesin, alat atau kenderaan. Ujian ini mengandungi gambar berkenaan situasi hidup seharian.

Conscientiousness, experience.

Agreeableness

and

Openness

to

Terdapat kajian yang menunjukkan korelasi positif pembolehubah ini dengan aspek prestasi kerja seperti usaha dan kepimpinan. Tiga aspek ini didapati lebih berkesan dalam meramal aspek negatif prestasi kerja misalnya delinkuensi kerja dan ketagihan dadah. Hogan Personality Inventory yang berasaskan teori personaliti Big Five digunakan untuk meramal prestasi kerja dalam latar tentera, hospital dan industri. 5. Ujian-Ujian Kejujuran (Integrity) Polygraph (alat mengesan cakap bohong) digunakan untuk mengenalpasti pekerja yang delikuen. Pada tahun 1988 setelah Akta Employee Polygraph Protection Act diperkenalkan, pihak syarikat telah fokus

The General Aptitude Test Battery (GATB) Dibentukkan Service. oleh

United States Employment

Ujian ini mengandungi 12 bahagian yang mana mengukur 9 aptitud/bakat. Kombinasi daripada 9 bakat ini boleh mendapat skor komposit: Kognitif, persepsi dan psikomotor. Ujian ini digunakan dalam latar industri dan kaunseling.

Ujian-Ujian Personaliti

kepada ujian-ujian integrity untuk mengenalpasti delinkuensi/ kesalahan yang dilakukan oleh pekerja. Ujian-ujian bahagian:

integrity boleh dibahagikan kepada dua


1.

Overt integrity test


ujian ini mengandungi dua bahagian. Bahagian pertama mengandungi item yang mengukur sikap atau kepercayaan berkenaan perbuatan mencuri pekerja, kecenderungan mencuri, dan persepsi ke atas perbuatan mencuri. Bahagian kedua berkenaan aktivitiaktiviti melanggar undang-undang seperti berjudi atau ketagihan dadah.

Teknik-teknik yang digunakan oleh the assessment center ini adalah berbeza mengikut organisasi. Tetapi secara umumnya strategi ini melibatkan: Penilaian dilaksanakan dalam kumpulan - sebilangan pekerja yang berpotensi untuk dinaikan pangkat dikumpul dan dinilai secara serentak. Kumpulan penilai terdiri daripada pengurus organisasi, ahli psikologi dan ahli perunding. Dalam penilaian pelbagai metod digunakan. Ujian kemampuan dan ujian personaliti biasa digunakan. Ujian sampel kerja - pekerja yang dinilai diminta melaksanakan sesuatu kerja yang berkaitan dengan kerja yang akan sandang nanti. Ujian dalam bakul/ in-basket test - pekerja yang dinilai diminta mengendalikan surat, memo dan nota yang terdapat dalam bakul pengurus atau ketuanya. Assessment center mengumpul maklumat yang merangkumi pelbagai dimensi. Misalnya, perancangan organisasi, ketahanan seseorang pekerja terhadap stres pekerjaan dll.

2.

Ujian integrity yang berasaskan personaliti Gagasan yang diukur ujian-ujian ini merangkumi: dependability,

6. The Assessment Center

conscientiousness, control.

and

impulse

Satu strategi yang mengabungkan pelbagai prosedur penilaian untuk tujuan pemilihan dan kenaikan pangkat pekerja. Strategi ini banyak digunakan dalam personnel pengurusan. Ia juga digunakan dalam latar polis, tentera dan jabatan kerajaan. Strategi ini digunakan dalam perihal pemilihan, klasifikasi dan kenaikan pangkat pekerja.

KRITERIA PENGUKURAN Empat kaedah utama kriteria pengukuran, iaitu, ukuran hasilan, data personnel, sampel kerja dan pengkelasan.

1. Ukuran Hasilan Mengira jumlah hasilan yang dihasilkan oleh pekerja kilang, jumlah panggilan yang dikendalikan oleh operator dan jumlah jualan yang berjaya dilakukan oleh jurujual.

Terdapat jenis kerja tidak dapat dinilai melalui jumlah hasilan. Misalnya, kerja sebagai guru, pensyarah atau konsultan. 2. Data Personnel Guna data personnel seseorang pekerja. untuk menilai prestasi kerja

Terdapat pelbagai format digunakan dalam penilaian ini: Skala Pengkelasan grafik - penilaian ke atas kualiti kerja keseluruhan pekerja. Contoh: (a) Kualiti cermelang lemah 5 4 3 2 1 Senarai Peristiwa-Peristiwa Kritikal - senarai ini adalah berdasarkan tingkah laku berkaitan dengan kerja yang benar. Ia termasuk tingkah laku yang digalakkan dan tingkah laku yang tidak diingini.

Data yang dinilai berkaitan dengan kehadiran pekerja, kemalangan semasa kerja, anugerah yang pernah diperolehi dan pujian yang diterima. 3. Sampel Kerja Sampel kerja boleh digunakan untuk meramal prestasi kerja seseorang individu. Beberapa strategi digunakan: 1. Individu dikehendaki melalui situasi yang berkaitan dengan kerja dan diminta demonstrasikan kerja itu dan memberi penjelasan secara verbal bagaimana kerja itu dilaksanakan. 2. Individu dikehendaki melaksanakan simulasi realistik dan abstrak kerja yang diambil dari kerja sebenarnya. 3. Ujian pelbagai pilihan yang menguji pengetahuan dalam menyelesaikan sesuatu tugas. 4. Pengkelasan Metod paling umum digunakan untuk mengukur prestasi kerja. Ketua atau rakan kerja diminta menilai seseorang pekerja dengan berdasarkan satu piawai tertentu.

Contoh: ______ tanggungjawab terhadap kerja ______ selalu ponteng kerja ______ siapkan kerja pada masa Skala pilih-paksa (forced-choice scale) contoh:

Ketua yang menilai tidak tahu bahawa dalam empat pilihan ini hanya terdapat satu kenyataan yang positif (item B) dan hanya satu kenyataan negatif (item A). Jika B dipilih skor +1 diberikan pada seseorang pekerja. Jika A dipilih skor -1 diberikan pada pekerja itu. Jika C atau D dipilih skor (0) diberikan.

A. Cannot assume responsibility B. Knows how and when to delegate authority. C. Offers suggestions. D. Changes idea too easily

A Behaviorally Anchored Rating Scale (BARS)

Minta pakar mengenalpasti dimensi prestasi yang dinilai, tingkah laku kerja

yang relevan, penilaian.

dan

membentuk

skala

Kuliah 12 : UJIAN KEMAMPUAN: UJIAN-UJIAN INDIVIDU UJIAN KEMAMPUAN: UJIAN-UJIAN INDIVIDU Pengukuran kemampuan adalah di antara ujian psikologi yang paling banyak digunakan dalam kehidupan harian. Ujian kemampuan yang digunakan boleh diperingkat daripada ujian kemampuan umum (spt, ujian kecerdasan IQ) hingga ujian kemampuan khusus (spt, ujian kemampuan ruang, muzik dsb). Ukuran kecerdasan umum banyak diapplikasikan dalam latar pendidikan, klinikal dan personnel. Ia bertindak sebagai alat bantu dalam membuat keputusan. Ahli psikologi telah membentuk sejumlah ukuran kecerdasan (reliable) dan sah (valid).

Format-format pengkelasan yang ditunjukkan di atas mempunyai kelemahan masing-masing.

Rajah: A Behaviorally Anchored Rating Scale 9 Could be expected to conduct a full day's sales clinic with two new sales personnel and thereby develop them into top sales people in the department
Could be expected to give his sales personnel confidence and a strong sense of responsibility by delegating many important jobs to them

Could be expected never to fail to umum yang boleh dipercayai conduct training meetings with his people weekly at a scheduled hour and to convey to them exactly what Peranan Pemeriksa/Pentadbir Ujian he expects.

Could be expected to exhibit courtesy and respect toward his sales personnel.

Could be expected to remind sales personnel to wait on customers instead of conversing with each other

Dalam pentadbiran ujian individu kecerdasan ahli psikologi atau pentadbir perlu mendapat latihan atau kemahiran untuk mencapai tahap piawai yang boleh diterima. Bagi kebanyak ujian berkumpulan, subjek dikehendaki bertindak sendiri terhadap tugasan yang telah distrukturkan atau menjawab item berpandukan arahan-arahan yang terdapat dalam soal selidi. Tetapi, bagi ujian kemampuan individu pula melibatkan interaksi sosial di antara pemeriksa dengan subjek. Interaksi sosial di antara pemeriksa dengan subjek mempunyai beberapa implikasi: 1. Pentadbiran ujian secara individu oleh ahli psikologi merupakan satu perangsang kepada subjek untuk memberi respons yang cepat ke atas tugasan atau soal selidik yang diberikan.

Could be expected to be rather critical of store standards in front of his own people, therby risking their developing poor attitudes. 3

Could be expected to tell an individual to come in anyway even though she/ he called in to say she/he was ill

Could be expected to to back on a promise to an individual whom he had told could transfer back into previous department if she/he didn't like the new one.

Ciri-ciri pemeriksa seperti umur, jantina, bangsa, tarikan fizikal, kemahiran sosial, kemahiran bukan verbal boleh mempengaruhi respons subjek semasa mengambil ujian.

Pemeriksa juga harus berhati-hati dalam mengendalikan setiap bahagian ujian untuk mengekalkan piawai prosedur ujian. Pemeriksa harus memahami permarkatan piawai bagi ujian yang melibatkan penilaian respons atau soalan terbuka (open-ended questions). Adalah menjadi tanggungjawab pemeriksa atau ahli psikologi dalam menerangkan hasil ujian secara jelas, menyatakan kesignifikanan dan limitasi hasil ujian dan mencadangkan tindakan-tindakan tertentu berdasarkan hasil ujian.

2. Tingkah laku pemeriksa mungkin berubah mengikut atau dalam memberi respons kepada tingkah laku subjek. Misalnya, kanak-kanak engan menjawab atau tidak berkerjasama pemeriksa mungkin akan memujuk kanak-kanak berkenaan (tidak mengikut prosedur yang sebenar).

3. Interaksi sosial yang berlaku dalam ujian individu mungkin mempengaruhi persepsi subjek terhadap sesuatu tugasan. 4. Dalam ujian individu, subjek dikatakan lebih memberi respons kepada pemeriksa daripada ujian itu sendiri. 5. Reaksi pemeriksa terhadap respons awal subjek mungkin menjadi isyarat kepada tindakan subjek yang seterusnya. Daripada itu, ujian kemampuan individu mesti ditadbir oleh ahli psikologi yang telah mendapat latihan profesional. Tugas pertama ahli psikologi yang mentadbir ujian kemampuan individu ialah menwujud dan mengekalkan hubungan ( rapport) dengan subjek. Pemeriksa juga harus boleh meningkatkan minat dan motivasi subjek dalam menjawab atau melakukan dengan baik tugasan yang diberikan. Pemeriksa juga harus boleh menghapuskan kebimbangan subjek dalam melaksanakan sesuatu tugas akibat kehadirannya. Seorang pemeriksa haruslah seorang yang boleh dipercayai dan nonjudgmental. Ujian atau tugasan yang diberikan haruslah diperlihatkan sebagai menarik dan tidak mengancam.

UJIAN-UJIAN INDIVIDU KEMAMPUAN MENTAL UMUM The Stanford-Binet Banyak digunakan untuk menilai kecerdasan kanak-kanak dan orang awal dewasa. Ia adalah satu ujian yang berdasarkan pendekatan ujian psikologi yang dipraktiskan dalam situasi ujian. Ujian ini dibentuk oleh Binet dan Simon pada 1905, ia mengandungi 30 permasalahan yang pelbagai daripada tugasan yang sangat mudah seperti tugasan sensorimotor sehingga soalan yang melibatkan putusan dan penakulan. Strategi asas yang digunakan dalam ujian ini dan versi-versi seterusnya adalah untuk memperhatikan reaksi subjek ke atas pelbagai tugasan daripada yang biasa kepada tugasan yang mencabar. Skala asal Binet telah banyak kali diteliti semula. Ujian Stanford-Binet terkini adalah edisi ke-5, ia adalah hasil kumulatif daripada proses penambahbaikan yang berterusan dan berdasarkan teori kecerdasan yang kukuh. Ujian Stanford-Binet edisi ke-5 kurang menekankan ujian verbal berbanding yang terdahulu. Versi ini memberi penekanan yang sama di antara ujian verbal dan nonverbal.

Setiap sub ujian Stanford-Binet terdiri daripada soalan terbuka. Ciri-ciri Ujian Stanford-Binet: Seperti ujian kemampuan mental umum lain, ujian ini juga melibatkan pelbagai tugasan seperti memproses maklumat dan mengukur kecerdasan individu dengan membandingkan prestasi subjek dalam ujian itu. Ujian ini berpandukan teori kecerdasan yang kukuh dalam memilih dan membentuk sub ujiannya. Misalnya, berdasarkan model hierarki kemampuan kognitif untuk memilih sub ujian dan permarkatan. Stanford-Binet versi 5 mengukur lima faktor umum (penakulan fluid, pengetahuan, penakulan kuantitatif, memproses visual-spatial dan working memory) yang menggunakan tugasan verbal dan nonverbal. Pentadbiran dan Permarkatan Ujian Stanford-Binet Ujian stanford-Binet adalah satu ujian adaptif di mana individu hanya perlu memberi respons pada bahagian ujian yang sesuai dengan tahap perkembangannya. Sub ujian stanford-Binet dibentuk daripada sejumlah item yang mana disusun daripada soalan mudah kepada semakin sukar. Salah satu tugas pemeriksa adalah mengangarkan umur mental subjek bagi mengenalpasti tahap ujian yang mana seseorang itu sesuai diuji. Ujian Stanford-Binet terkini mengandungi metod objektif bagi menentukan tahap ujian yang sesuai bagi setiap individu.

The Wechsler Adult Intelligence Scale Ujian kecerdasan yang dibentuk oleh David Wechsler adalah sesuai untuk subjek dalam satu lingkungan umur yang besar. Ia tidak seperti ujian Stanford-Binet yang awal di mana ujian kecerdasan itu direkabentuk mengikut umur. Dalam ujian Wechsler, subjek diberi markat jika menjawab betul item tertentu (cara permarkatan ini adalah seperti kebanyakan ujian kecerdasan berkumpulan). IQ subjek ditentukan dengan berdasarkan jumlah item yang dijawab betul. Siri ujian pertama yang direkabentuk oleh Wechsler ialah Wechsler-Bellevue Intelligence Scale (Wechsler, 1939). Pembentukan ujian itu adalah atas kesedaran bahawa pada ketika itu masih tidak terdapat ukuran kecerdasan orang dewasa yang memadai dan ujian Stanford-Binet pada ketika itu banyak memberi fokus kepada kecerdasan kanak-kanak. Ujian Stanford-Binet juga menggunakan umur mental yang tidak sesuai dalam mengukur kecerdasan orang dewasa dan kandungannya juga lebih berfokus kepada kanak-kanak. Ciri respon cergas (speed of response) bagi kebanyak item dalam Stanford-Binet juga tidak sesuai bagi orang dewasa. Untuk mengatasi masalah-masalah ini Wechsler-Bellevue telah direkabentuk. Ujian ini lebih berorientasikan kecerdasan orang dewasa yang kurang menekankan kepantasan respons. Pada tahun 1955, Wechsler-Bellevue telah diganti dengan Wechsler Adult Intelligence Scale (WAIS) (Wechsler, 1955, 1958). Versi terkini ujian ini adalah WAIS-III yang telah ditambah baik dari segi kualiti teknikal dan asas saintifik ujian itu tanpa mengubah konsep asal yang diukur ujian itu.

Ciri-ciri WAIS-III WAIS-III mengandungi 14 sub ujian yang berasingan dan 11 di antaranya diguna untuk mengukur skor skala penuh IQ, skor verbal IQ dan skor prestasi IQ. Ujian ini juga mengukur kecerdasan yang lebih khusus seperti, comprehension, perceptual organization, working memory dan perceptual speed (versi awal WAIS mengukur prestasi verbal dan skor skala penuh IQ). Sub Ujian WAIS-III adalah seperti berikut: Ujian-Ujian Verbal Information, Digit Span, Vocabulary, arithmetic,

Dalam setiap sub ujian, item-itemnya disusun mengikut urutan kesukaran, daripada item yang senang dahulu kepada item yang paling susah. Bagi kebanyakan sub ujiannya, bukan semua item dalam ujian itu ditadbir kepada semua subjek. Biasanya, item yang senang akan diberi terdahulu. Jika subjek dapat menjawab dia akan memperoleh skor daripada jawapan yang betul. Sekiranya, subjek tidak dapat menjawab bermula daripada item pertama lagi, pemeriksa akan mentadbir semua item-item senang dalam semua sub ujian kepada subjek berkenaan dan mengenalpasti permasalahan mana yang boleh dan tidak boleh diselesaikan oleh subjek. Sama juga, jika subjek tidak dapat menjawab soalan atau permasalahan yang sederhana sukar, pemeriksa juga tidak akan teruskan dengan item tahap susah. Rasional disebalik prosedur ini adalah supaya subjek tidak hilang minat terhadap ujian Manual ujian WAIS-III membekalkan jadual yang berguna untuk menukar skor mental subjek dalam setiap sub ujian kepada skor piawai supaya boleh dibandingkan. Secara tradisi, tafsiran WAIS adalah berfokus kepada skala verbal, prestasi dan full-scale IQ. Tetapi bagi WAIS-III memberi fokus kepada: Verbal Comprehesion (vacabulary, similarities,

comprehension, similarities dan letter-number sequencing.

Ujian-Ujian Prestasi Picture completion, picture arrangement, block

design, object assembly, digit symbol coding, symbol search and matrix reasioning.

Pentadbiran dan Permarkatan Ujian WAIS-III Seperti ujian Stanford-Binet, ujian WAIS-III juga ditadbir secara individu oleh ahli psikologi terlatih. Seperti juga ujian Stanford-Binet, peranan utama pemeriksa bagi ujian WAIS-III adalah menwujud dan mengekalkan hubungan rapport dengan orang yang mengambil ujian. Sub-sub ujian WAIS-III ditadbir secara berasingan. Subjek akan diberi sub ujian picture completion yang senang terdahulu (untuk meningkatkan minat subjek untuk menjawab), diikuti sub ujian vocabulary, digit-symbol coding dan seterusnya.

information), perceptual organization (piture completion, block design, matrix reasoning), working memory (arithmetic, digit span. Letter-number sequencing) dan processing speed (digit-symbol coding, symbol search).

The Wechsler Intelligence Scale for Children The Wechsler Intelligence Scale for Children (WISC) dibentuk dalam tahun 1949 untuk mengukur kecerdasan kanak-kanak berumur antara 5 hingga 15 tahun. Banyak item bagi WISC diambil terus atau diadaptasi daripada borang II Wechsler-Bellevue. Namun, item-item itu kemudian telah dipiawai semula dengan menggunakan data daripada satu sampel besar kanak-kanak. Ujian ini juga telah banyak kali diteliti semula dan edisi terkini ialah ujian WISC-IV yang diterbitkan dalam tahun 2003. ujian WISC-IV masih menggunakan tema seperti versi lama tetapi terdapat penambahbaikan dari segi item, norma yang baik, sub ujian baru dan kajian validasi yang lebih luas. Tetapi masih banyak persamaan dengan versi WISC.

Pentadbiran dan Permarkatan Ujian WASC-IV Seperti WAIS-III, dalam permarkatan WASC-IV skor mental yang diperoleh subjek harus ditransform kepada skor piawai dengan min = 10 dan sisihan piawai = 3.

The Wechsler Preschool and Primary Scale of Intelligence The Wechsler Preschool and Primary Scale of Intelligence (WPPSI) dibentuk pada tahun 1968 untuk mengukur kecerdasan kanakkanak yang berumur 4 hingga 61/2 tahun. WPPSI adalah hasil ringkasan daripada WISC dan versi terkini adalah WPPSI-III diterbitkan pada tahun 2003 dan ia adalah sesuai untuk kanak-kanak yang berumur antara 3 hingga 7 tahun.

Ciri-ciri WPPSI-III Seperti WISC dan WAIS, WPPSI mengandungi sub-sub ujian yang dikelompokan kepada skala verbal dan prestasi. Kandungan WPPSI-III secara umumnya adalah sama dengan WISC-IV, walau bagaimanapun ia adalah lebih ringkas. Beberapa ciri WPPSI-III telah dipermudahkan seperti arahan dan respons bagi scala verbal. Ujian ini juga guna pelbagai warna dan bahan-bahan yang menarik. WPPSI-III dibahagi kepada dua band umur. Kanak-kanak yang berumur 2.5 hingga 4 tahun perlu mengambil 4 sub ujian utama (iaitu, receptive vocabulary, information, block design, object assembly). Setiap tugasan dalam sub ujian ini direkabentuk sesuai dengan tahap umur kanak-kanak. Bagi kanak-kanak yang lebih tua iaitu berumur 4 hingga 7 tahun perlu mengambil sub ujian tambahan (ujian yang mengukur perceptual speed).

Ciri-ciri WISC-IV WISC terdahulu ditafsir dalam bentuk satu taxonomi yang mana mengkelompokan ujian itu kepada faktor verbal dan prestasi. WISC-IV tidak lagi mentafsir dua bidang ini secara berasingan. WISC-IV mengandungi data normatif yang lebih baik, penilaian yang lebih dalam penakulan fluid, working memory dan processing speed daripada WISC. WISC-IV mengandungi sub ujian: Information,

similarities, arithmetic, vocabulary, comprehesion, digit span, picture concepts, picture arrangement, symbol search, object assembly, coding, word reasoning, matrix reasoning, letter-number sequencing, cancellation.

WPPSI-III membekalkan jangkaan skor verbal, prestasi dan fullscale IQ bagi semua tahap umur. Ia juga membekalkan skor perceptual speed bagi kanak-kanak yang lebih tua. Seperti WAIS dan WISC, peneliti semua WPPSI tidak mengubah dasar ujian itu. Pembaikan lebih kepada aspek teknikal dan kepiawaian ujian.

2. Ujian ini dibentuk atas dasar meminimakan bias budaya. 3. Ujian ini cuba mengasingkan kecerdasan fluid dan crystallized dan membekalkan maklumat diagnostik untuk membantu menjelaskan kenapa prestasi kanak-kanak baik dalam sesetengah tugasan tetapi lemah dalam yang lain. Ciri-ciri WISC-IV WISC terdahulu ditafsir dalam bentuk satu taxonomi yang mana mengkelompokan ujian itu kepada faktor verbal dan prestasi. WISC-IV tidak lagi mentafsir dua bidang ini secara berasingan. WISC-IV mengandungi data normatif yang lebih baik, penilaian yang lebih dalam penakulan fluid, working memory dan processing speed daripada WISC. WISC-IV mengandungi sub ujian: Information,

Pentadbiran dan Permarkatan Ujian WPPSI-III Pentadbiran dan Permarkatan Ujian WPPSI-III mempunyai banyak persamaan dengan WAIS dan WISC (pada sub ujian verbal dan prestasi). Dalam permarkatan WPPSI-III skor mental yang diperoleh subjek harus ditransform kepada skor piawai dengan min = 10 dan sisihan piawai = 3. Perbezaan WPPSI-III dengan WAIS dan WISC ialah tuntutan ke atas pemeriksa. Dalam pentadbiran WPPSI-III, pemeriksa harus secara aktif mengekalkan minat kanak-kanak untuk meneruskan ujian.

The Kaufman Assessment Battery for Children The Kaufman Assessment Battery for Children (K-ABC) adalah tambahan kepada domain ujian kemampuan mental individu terkini. Ia memberi fokus kepada penyelidikan dan telah ditadbir kepada lebih 1 juta kanak-kanak dalam masa empat tahun setelah diterbitkan. Ujian ini mempunyai kelebihan: 1. Seperti edisi ke 5 Stanford-BInet, K-ABC adalah berlandaskan teori kecerdasan yang kukuh (hasil daripada penyelidikan dalam neuropsikologi dan kognitif psikologi).

similarities, arithmetic, vocabulary, comprehesion, digit span, picture concepts, picture arrangement, symbol search, object assembly, coding, word reasoning, matrix reasoning, letter-number sequencing, cancellation.

Sequential processing berlaku sekiranya masalah diselesaikan


dengan cara langkah demi langkah (step-by-step).

Simultaneous

processing berlaku apabila terdapat pelbagai maklumat dan maklumat itu harus disusun dan diintegrasi untuk menyelesaikan masalah.
Skala pencapaian K-ABC mengukur vocabulary, reading comprehension, pengetahuan umum dan pengetahuan arithmetic. Ujian ini kurang bias budaya berbanding ujian kecerdasan lain.

Ujian ini banyak menggunakan item bukan verbal ini merupakan kekuatan ujian ini untuk menilai kecerdasan kanak-kanak yang tidak baik bahasanya.

skor yang dilaporkan dalam mentafsir kecedersaan kanak-kanak termasuklah: 1. Skor pencapaian mewakili tahap kecerdasan crystallized kanak-kanak. 2. Empat skor berlainan yang berkaitan tahap kecerdasan fluid kanak-kanak. 3. Skor nonverbal bagi sub ujian yang tidak melibatkan bahasa. 4. Skor-skor berasingan bagi tugasan processing sequential dan processing simultaneous. 5. Skor keseluruhan pemprosesan mental mengenalpasti tahap kecerdasan fluid kanak-kanak. Kuliah 13 : UJIAN MINAT OBJEKTIF Membincang empat ujian minat yang popular digunakan iaitu, Strong Interest Inventory (SII), the Kuder Occupational Interest Survey (KOIS), the Career Assessment Inventory (CAI) dan the Jackson Vocational Interest Survey (JVIS). Membincang bagaimana empat ujian ini dibentuk, ciri-ciri psikometrik dan bagaimana ahli psikologi menggunakannya.

Pentadbiran dan Permarkatan Ujian K-ABC Cara tadbiran ujian K-ABC adalah lebih flexible ini untuk menjamin penilaian yang adil dan tepat bagi semua kanak-kanak. Tiga item pertama dalam sub ujian pemprosesan mental boleh digunakan untuk teach the task. Pemeriksa digalakkan menggunakan perkataan alternatif, bimbingan atau bahasa asing untuk menjelaskan jangkaan bagi tugasan kepada subjek yang gagal menjawab tiga item pertama tadi. Prosedur yang flexible ini penting untuk mengukur kecerdasan kanak-kanak bagi golongan budaya minoriti yang mungkin tidak faham akan jangkaan tugasan dalam ujian berkenaan. Seperti ujian Stanford-BInet, ujian K-ABC sub ujian yang diberikan mengikut tahap umur subjek. 12 sub ujian ditadbir kepada kanakkanak yang berumur 7 tahun dan ke atas. Tetapi hanya 7 sub ujian yang ditadbir kepada kanak-kanak yang berumur 21/2 tahun. Sesetengah sub ujian yang melibatkan tugasan mengenalpasti yang senang ditadbir kepada kanak-kanak pra sekolah (berumur antara 21/2 hingga 4 tahun). Sub ujian yang melibatkan pembacaan pula hanya ditadbir kepada kanak-kanak yang berumur 5 tahun ke atas. Masa mengambil ujian dihadkan kepada 40 hingga 50 minit bagi kanak-kanak muda dan masa tadbiran 75 hingga 85 minit bagi kanak-kanak lebih tua. Dalam mentafsir skor K-ABC, selain skor bagi sub-sub ujian dilaporkan, lima skor bagi skala global juga dilaporkan. Setiap skala itu menggunakan min = 100 dan sisihan piawai = 15. skor-

The Strong Interest Inventory Idea mengukur minat kerjaya dan menggunakan maklumat ini untuk membantu dalam membuat penempatan bermula sejak Perang Dunia Pertama. Selepas Perang Dunia Pertama, ahli psikologi mula menggunakan maklumat ujian minat untuk membantu orang awam untuk membuat perancangan pendidikan dan kerjaya yang lebih baik. Bidang pengukuran minat yang ada pada hari ini adalah hasil kerja oleh Edward K. Strong, Jr.

Pada permulaan, 1,000 item berkenaan minat telah dihasilkan dan pelajar Strong yang bernama Karl Cowdery telah menggunakannya untuk mengkaji sama ada respons orang ke atas item-item itu berbeza mengikut pekerjaan masing-masing. Cowdery mendapati pemilihan-pemilian subjek ke atas ujian minat boleh membeza dengan tepat bidang kerjaya yang dijawat. Kajian Cowdery diteruskan oleh Strong dan sepanjang hayat Strong dicurah dalam mengkaji tentang pengukuran minat. The Strong Vocational Interest Blank telah dihasilkan pada tahun 1927. Strong telah menghabiskan banyak masa untuk mengumpul sampel bagi kumpulan pekerjaan untuk diuji dalam alat kajiannya dan pada mulanya dia hanya mengambilkira minat lelaki. Pada tahun 1933 borang mengukur minat perempuan baru dihasilkan. Borang ini diasingkan daripada borang bagi lelaki dan ia mempunyai format asas yang sama dengan item yang lebih unik. Usaha Strong kemudiannya diteruskan oleh David Campbell dan pada tahun 1966 borang lelaki baru telah dihasilkan dan pada tahun 1969 borang perempuan baru diterbitkan. Akhirnya, Campbell telah mengabungkan kedua-dua borang lelaki dan perempuan dan menerbitkannya pada tahun 1974 dengan nama the Strong-Campbell Interest Inventory. Alat kajian ini telah disemak semula pada tahun 1981,1985 dan 1994. Versi terakhir ujian ini dinamakan sebagai Strong Interest Inventory (SII).

Metod yang diguna oleh Strong dalam membentuk skala-skala pekerjaan melibatkan mentadbir alat kajiannya kepada pekerja dalam pelbagai bidang dan kemudian membandingkan respons mereka dengan kumpulan rujukan umum. Pekerja yang dipilih sebagai kumpulan kriteria mestilah terdiri daripada pekerja yang puas dengan kerja mereka dan sekurangkurangnya telah berkerja dalam bidang itu selama tiga tahun. Item yang didapati secara signifikan diminati lebih atau kurang diminati oleh kumpulan pekerja daripada kumpulan rujukan umum akan dipilih dan dimasukkan dalam skala minat bagi pekerjaan berkenaan. Versi terkini SII mengandungi 317 item yang mengukur minat subjek pada pelbagai pekerjaan, subjek-subjek sekolah, aktiviti yang berkaitan dengan kerja, aktiviti riadah, jenis-jenis individu, ciri-ciri personal dan minat-minat personal. Ujian ini mengandungi lima skala: index tadbiran ( administrative indexes), skala pola personal (personal style scales), skala tema pekerjaan umum (general occupational theme scales), skala minat asas (basic interest scales) dan skala pekerjaan (occupational scales). 1. Administrative Indexes Index ini mengandungi maklumat berkenaan jenis dan pola pemilihan yang dibuat oleh subjek. Ia dibentuk untuk memberi petunjuk kepada kaunselor kemungkinan-kemungkinan masalah tafsiran yang boleh menyebabkan penurunan validiti keputusan dan mengurangkan kegunaan maklumat yang diperoleh. Skala ini mengandungi beberapa sub skala iaitu, a. Indikator respons keseluruhan (the total response indicator) petunjuk kepada ketepatan jumlah

Pembentukan Strong Interest Inventory (SII)

2. Personal Stlye Scale

item yang dibaca oleh mesin. Jika terdapat banyak missing value, maka validiti keputusan haruslah dipertikaikan. b. Indikator validiti menyemak sama ada ujian itu dijawab dengan jujur. c. Matrik taburan respons (response distribution matrix) mengenalpasti peratusan menjawab like, indefferent dan dislike. Respons ini membolehkan kaunselor mengenalpasti masalah lain yang mungkin dihadapi subjek. Misalnya, subjek yang banyak memilih indefferent mungkin menghadapi masalah membuat keputusan.

Skala ini dibentuk untuk membekalkan maklumat khusus terkenaan perkara yang disukai dan tidak disukai oleh subjek. Skala ini mengandungi hanya beberapa item yang homogenous dengan kandungannya. Dan setiap skalanya berfokus kepada bidang yang menjurus.

Tafsiran Bagi SII Langkah pertama dalam tafsiran SII ialah mengenalpasti sama ada terdapat masalah respons daripada subjek yang mungkin boleh menyebabkan keputusan tidak sah. Ini boleh dikenalpasti dengan jumlah respons dan jumlah respons yang jarang dipilih serta taburan pemilihan subjek ke atas ketiga-tiga pilihan (like, indefferented dan dislike).

Skala ini reka bentuk untuk menilai jenis-jenis kerja dan persekiran pembelajaran dan aktiviti harian yang dirasakan membawa kepada kepuasan dan ganjaran.

The Kuder Interest Inventories Frederick Kuder seorang lagi yang banyak menyumbang dalam pengukuran minat. Inventori minat Kuder yang pertama telah diterbitkan pada tahun 1939. Alat kajian asal ini menggunakan item format perbandingan berpasangan untuk menilai minat individu bagi tujuh bidang minat. Pada tahun 1944, Kuder telah menerbitkan alat kajian Kuder Preference Record, Vocational (borang B). Pada tahun 1946 the Kuder Preference Record, Vocational (Borang C) telah ditambah dalam alat kajian sebelum dan masih digunakan sehingga kini. Dalam menjawab alat kajian ini, subjek diminta menandakan pilihan yang diminati dan paling tidak diminati daripada tiga alternatif dalam setiap item. Pada tahun 1956, Kuder telah beradaptasikan falsafah penilaian minat kerjaya yang berlainan. Dalam Kuder Preference RecordOccupational (Borang D), Kuder telah berfokus kepada kesamaan

3. General Occupational Theme Scales 4. Basic Interest Scale

a. Skala jenis kerja direkabentuk untuk membezakan mereka yang sukakan hubungan interpersonal dalam kerja dengan mereka yang sukakan kerja yang kurang berhubung dengan orang. b. Skala persekiran pembelajaran membekalkan maklumat berkenaan sama ada minat subjek adalah serupa dengan mereka yang masih bersekolah dengan mereka yang sedang menuntut di peringkat pengajian tinggi. c. Skala pola personal, pola kepimpinan merupakan skala yang digunakan untuk menilai jenis peranan kepimpinan yang disukai orang dalam latar kerja mereka. d. skala mengambil risiko (risk-taking-adventure scale) telah dijadikan sebahagian daripada skala minat asas. Ia direkabentuk untuk menilai minat subjek pada risiko fizikal dan adventure.

yang wujud di antara minat bagi individu yang dinilai dengan minat bagi kumpulan pekerjaan tertentu. Sepuluh tahun kemudian, the Kuder Occupational Interest Survey (Borang DD) telah diterbitkan. Versi ini memberi fokus terhadap mengukur darjah kesamaan di antara minat subjek dengan minat bagi kumpulan daripada pelbagai latar kerjaya. Pada tahun 1988, the Kuder General Interest Survey (Borang E) telah diterbitkan. Versi ini beradaptasi daripada Borang C. Ia boleh digunakan pada lingkungan umur subjek yang lebih luas. Ia juga mengandungi option permarkatan tambahan. Versi terkini alat kajian Kuder ialah Kuder Career Search yang diterbitkan pada tahun 1999. versi ini membekalkan padanan individu kepada individu dan bukan individu kepada kumpulan seperti yang sebelum.

3. Occupational scales. Ia direkabentuk untuk menilai kesamaan di antara minat subjek dengan minat pekerja dalam bidang tertentu.

4. College Major Scales. Skala ini direkabentuk untuk mengukur kesamaan di antara minat subjek dengan senior-senior di kolej yang major dalam pelbagai bidang akademik.

5. Experimental Scales. Skala ini digunakan untuk mengenalpasti validiti keseluruhan keputusan subjek. Ia mengandungi skala M (man) dan skala W (women) yang direkabentuk untuk menilai sama ada subjek melengkapkan inventori ini dengan sikap terbuka, jujur atau tidak. Satu lagi kegunaan skala M dan W ialah untuk menilai kesamaan minat subjek dengan minat bagi lelaki dan perempuan dewasa.

The Kuder Occupational Interest Survey (KOIS) KOIS tidak seperti SII, ia menggunakan beberapa kaedah berlainan untuk menilai minat. Seperti versi awal, KOIS menggunakan format item ipsative dalam format trichotomous. Di mana setiap item mengandungi 3 alternatif dan subjek diminat menandakan yang paling diminati dan paling tidak diminati. KOIS mengandungi skala-skala berikut:

Career Assessment Inventory (CAI) Career Assessment Inventory Johansson pada tahun 1976. (CAI) dibentuk oleh Charles

Pada asalnya ia direkabentuk untuk menilai minat bagi mereka yang mencari kerja dan bagi pekerja mahir, separuh mahir dan tidak mahir. Dalam versi baru telah ditambah tahap pekerjaan kepada profesional. Format respons item CAI adalah berbentuk pemeringkatan 5 mata daripada sangat suka kepada sangat tidak suka. CAI tidak mengandungi banyak jenis items yang berlain seperti dalam SII.

1. Verification Scales Skala ini direkabentuk untuk menilai sama ada subjek telah mengisi borang dengan baik

2. Vocational Interest Estimates Scale (VIE). Dalam skala ini minat dikategorikan kepada 10 bidang utama.

CAI mengandungi empat skala iaitu, skala tema, skala minat asas, skala pekerjaan dan skala administrative indexes and special scale. Skala tema, skala minat asas dan skala pekerjaan membekalkan analisis hierarki minat kepada minat bidang umum, minat lebih khusus dan minat sangat khusus. Sementara skala administrative indexes and special scale membekalkan satu semakan ke atas validiti keputusan alat kajian ini.

Jackson Vocational Interest Survey (JVIS) JVIS pertama telah diterbitkan pada tahun 1977. Perbezaan di antara versi pertama dengan versi baru JVIS ialah 16 item dalam alat kajian ini telah diubahsuai untuk membaiki readability, menghapuskan item yang telah ketinggalan zaman dan mengurangkan bias budaya. Versi baru JVIS membekalkan permarkatan secara manual dan mesin. JVIS mengandungi 289 aktiviti yang relevan dengan kerjaya yang mana telah disusun dalam format ipsative. Item-item itu telah dikelompokkan kepada 34 skala minat asas. Setiap skala direkabentuk untuk menilai dimensi seperti nama pada skala berkenaan. Bagi setiap 289 item JVIS, subjek dikehendaki memilih sama ada kenyataan A atau B bagi menentukan pilihan yang disukai. Daripada itu, terbentuk dua kumpulan iaitu kumpulan A dan kumpulan B dan setiap kumpulan itu mengandungi 17 skala. Item dalam setiap skala itu dibandingkan antara item dalam kumpulan A dan kumpulan B.

PT31703 UJIAN DAN PENGUKURAN NAMA PENSYARAH : DR. CHUA BEE SEOK SEKSYEN 1 KULIAH : ISNIN, 02.00 PM-04.00 PM, DKP 9. TUTORIAL : SELASA, 10.00 AM-11.0 AM, BT2.