Anda di halaman 1dari 47

TUGAS MATA KULIAH PSIKOLOGI INDUSTRI DAN

ORGANISASI
Mengevaluasi Teknik dan Keputusan Seleksi

Semester III, Reg B-2

Dosen Pengampu :
Findy Suri, S.Psi. M.Psi

KELOMPOK 5
Astri Putri Utami 178600256
Cindy Orva van 178600157
Fika Ayu Syafitri 178600209
Fitra Namira 178600263
Galuh Pravita Sari 178600222
Nanda Nadya 178600202
Afif Althouf 178600207

FAKULTAS PSIKOLOGI
UNIVERSITAS MEDAN AREA
MEDAN
2018
1
KATA PENGANTAR

Puji syukur kehadirat Tuhan Yang Maha Esa atas segala rahmat-Nya sehingga
makalah ini dapat tersusun hingga selesai . Tidak lupa kami juga mengucapkan banyak
terimakasih atas bantuan dari pihak yang telah berkontribusi dengan memberikan sumbangan
baik materi maupun pikirannya.

Dan harapan kami semoga makalah ini dapat menambah pengetahuan dan pengalaman
bagi para pembaca, untuk ke depannya dapat memperbaiki bentuk maupun menambah isi
makalah agar menjadi lebih baik lagi.

Karena keterbatasan pengetahuan maupun pengalaman kami, Kami yakin masih


banyak kekurangan dalam makalah ini. Oleh karena itu kami sangat mengharapkan kritik dan
saran yang membangun dari pembaca demi kesempurnaan makalah ini.

Medan , 18 September 2018

Penyusun

2
DAFTAR ISI
Daftar Isi

BAB I : Pendahuluan

1.1 Latar Belakangan

1.2 Rumusan Masalah

1.3 Tujuan Penulisan

BAB II : Pembahasan

A. Karakteristik Teknik Seleksi yang Efektif


1. Reliabilitas
D. Reliabilitas tes - retest
A. Reliabilitas bentuk alternatif
1. Reliabilitas internal
C. Reliabilitas pencetak skor
2. Mengevaluasi reliabilitas tes
2. Validitas
C. Validitas konten
2. Validitas kriteria
1. Validitas konstruk
A. Validitas wajah
1. Memilih cara untuk mengukur validitas
1. Mencari informasi keandalan dan validitas
3. Penghematan biaya

B. Menetapkan Kegunaan Perangkat Seleksi


1. Tabel taylor - russell
2. Proporsi keputusan yang tepat

3. Tabel Lawshe

4. Rumus utilitas brogden - croanbach - gleser

C. Menentukan Keadilan Test


3
1. Dampak negatif

2. Kevalidan dan grup tunggal

3. Validitas diferensial

D. Membuat Keputusan Mempekerjakan

1. Seleksi naik turun yang tidak disesuaikan

2. Tiga aturan

3 Skor tinggi

4. Banding

4
BAB I
PENDAHULUAN

1.1 Latar Belakang


Di Bab 3 , Anda belajar bahwa banyak undang-undang dan peraturan memengaruhi
metode seleksi karyawan. Di Bab 5 dan 6, Anda belajar tentang cara merekrut dan memilih
karyawan. Dalam bab ini, Anda akan belajar cara mengevaluasi apakah metode pemilihan
tertentu bermanfaat dan bagaimana menggunakan skor tes untuk membuat keputusan
perekrutan. Sepanjang bab ini, Anda akan menemukan tes kata. Meskipun kata ini sering
memunculkan gambar tes kertas dan pensil, dalam psikologi industri / organisasi (I / O), tes
mengacu pada teknik apa pun yang digunakan untuk mengevaluasi seseorang. Dengan
demikian, tes kerja mencakup metode-metode seperti referensi, wawancara, dan pusat
penilaian.

1.2 Rumusan Masalah


Berdasarkan uraian pada latar belakang masalah tersebut dapat dirumuskan
permasalahan sebagai berikut :
1. Apa yang dimaksud dengan reliabilitas dan validitas?
2. Apa saja yang termasuk dalam jenis - jenis validitas?
3. Bagaimana cara menetapkan kegunaan perangkat seleksi secara tepat?
4. Apa saja yang menjadi syarat untuk menentukan keadilan dalam tes?
5. Apa saja langkah-langkah dalam membuat keputusan untuk mempekerjakan karyawan?

1.3 Tujuan Penulisan


Berikut adalah tujuan dalam penulisan makalah ini, yaitu :
1. Untuk mengetahui tentang pengertian reliabilitas dan validitas
2. Untuk mengetahui jenis-jenis validitas
3. Untuk mengetahui cara yang tepat dalam menetapkan kegunaan perangkat seleksi
4. Untuk mengetahui syarat-syarat utama dalam menentukan keadilan dalam tes
5. Untuk mengetahui bagaimana membuat keputusan yang tepat dalam mempekerjakan
karyawan.

5
BAB II
PEMBAHASAN

A. Karakteristik Teknik Seleksi yang Efektif


Teknik seleksi yang efektif memiliki empat karakteristik, mereka dapat diandalkan,
valid, hemat biaya, dan dapat dipertahankan secara hukum.

1. Reliabilitas
Reliabilitas adalah sejauh mana skor dari ukuran seleksi stabil dan bebas dari
kesalahan. Jika skor dari ukuran tidak stabil atau bebas dari kesalahan, itu tidak dapat
digunakan dengan baik. Misalnya, kita menggunakan penggaris untuk mengukur panjang
papan yang akan digunakan untuk membangun rumah anjing. Kami ingin setiap papan
menjadi kaki panjang, tapi `setiap kali kita mengukur papan, kita mendapatkan nomor yang
berbeda. Jika penguasa tidak menghasilkan angka yang sama setiap kali papan yang sama
diukur, penggaris tidak bisa dianggap dapat diandalkan dan dengan demikian tidak ada
gunanya. Hal yang sama berlaku untuk metode seleksi. Jika pelamar mendapatkan skor
berbeda setiap kali mereka mengikuti tes, kami tidak yakin akan hasilnya skor aktual.
Akibatnya, skor dari ukuran seleksi sedikit nilai. Oleh karena itu, reliabilitas merupakan
karakteristik penting dari ukuran yang efektif. Uji reliabilitas ditentukan dalam empat cara:
reliabilitas tes-tes ulang, bentuk-pengganti reliabilitas, reliabilitas internal, dan reliabilitas
pencetak.
 Reabilitas tes - retest.
Dengan metode reliabilitas tes-tes ulang, masing-masing dari beberapa orang
mengambil yang sama tes dua kali. Skor dari administrasi pertama dari tes berkorelasi dengan
skor dari yang kedua untuk menentukan apakah mereka serupa. Jika ya, itu Tes dikatakan
memiliki stabilitas temporal: Skor tes stabil sepanjang waktu dan tidak sangat rentan terhadap
kondisi harian acak seperti penyakit, kelelahan, stres, atau kondisi pengujian yang tidak
nyaman. Tidak ada jumlah standar waktu itu harus berlalu antara dua administrasi tes.
Namun, waktunya Interval harus cukup panjang sehingga jawaban tes spesifiknya belum
hafal, tapi cukup pendek sehingga orang itu tidak berubah secara signifikan.

Sebagai contoh, jika 3 tahun telah berlalu antara administrasi suatu personal-
inventaris ity, mungkin ada korelasi yang sangat rendah antara dua set skor; tetapi korelasi

6
rendah mungkin bukan hasil dari uji reliabilitas rendah. Sebaliknya, itu bias disebabkan oleh
perubahan kepribadian orang-orang dalam sampel dari waktu ke waktu (Kaplan & Saccuzzo,
2009). Demikian juga jika hanya 10 menit yang memisahkan keduanya administrasi, korelasi
yang sangat tinggi antara dua set skor mungkin terjadi. Korelasi yang tinggi ini mungkin
hanya mewakili apa yang diingat oleh orang-orang dari pengujian pertama daripada apa yang
sebenarnya mereka yakini. Waktu khas antar vals antara administrasi tes berkisar dari 3 hari
hingga 3 bulan. Biasanya, itu semakin lama waktu interval, semakin rendah koefisien
reliabilitas (Anastasi & Urbina,1997). Koefisien reliabilitas tes-tes ulang tipikal untuk
pengujian yang digunakan dalam industry adalah .86(Hood, 2001).

Garis reliabilitas tes-tes ulang tidak sesuai untuk semua jenis tes. Itu tidak akan masuk
akal untuk mengukur reliabilitas tes-tes ulang dari tes yang dirancang untuk mengukur
suasana hati atau perasaan jangka pendek. Misalnya, Inventarisasi Kecemasan Negara-Trait
mengukur dua jenis kecemasan. Trait kecemasan mengacu pada jumlah kecemasan bahwa
seorang individu biasanya memiliki waktu, dan kecemasan negara adalah jumlah kecemasan
seorang individu pada saat tertentu. Agar tes itu berguna, itu benar penting untuk mengukur
kecemasan sifat, tetapi bukan ukuran kecemasan negara, untuk memiliki stabilitas sementara.

 Reliabilitas Bentuk-Alternatif
Dengan metode reliabilitas bentuk-alternatif, dua bentuk tes yang sama adalah
disusun. Seperti ditunjukkan pada Tabel 6.1, sampel 100 orang diberikan keduanya bentuk
tes; setengah dari sampel pertama menerima Formulir A dan Setengah lainnya B.
Penyeimbang order pengurutan ini dirancang untuk menghilangkan efek apa pun bahwa
mengambil satu bentuk tes pertama mungkin ada pada skor pada formulir kedua.

Skor pada kedua bentuk tersebut kemudian dikorelasikan untuk menentukan apakah
keduanya mirip. Jika mereka, tes dikatakan memiliki stabilitas bentuk. Kenapa ada orang
menggunakan metode ini? Jika ada kemungkinan besar orang akan melakukan tes lebih
banyak dari sekali, dua bentuk tes diperlukan untuk mengurangi potensi keuntungan individu
yang mengikuti tes untuk kedua kalinya. Situasi ini mungkin terjadi di kepolisian
pemeriksaan departemen. Dipromosikan di sebagian besar departemen kepolisian, sebuah
kantor harus lulus ujian promosi. Jika petugas gagal ujian satu tahun, petugas dapat
mengulang ujian tahun depan. Jika hanya satu bentuk tes yang tersedia, petugas yang merebut

7
kembali ujian untuk ketujuh kalinya dapat mengingat banyak hal pertanyaan dan mungkin
skor lebih tinggi dari seorang petugas yang mengikuti tes untuk yang pertama waktu.
Demikian juga, pelamar yang gagal ujian credentialing (misalnya, Bar Ujian untuk pengacara
atau sertifikasi Professional in Human Resources (PHR) untuk manusia sumber daya
profesional) kemungkinan akan mengulang ujian.

Apakah mengambil kembali ujian benar-benar menghasilkan nilai ujian yang lebih
tinggi? Metaanalisis oleh Hausknecht, Halpert, Di Paolo, dan Moriarty Gerard (2007)
menemukan itu pelamar mengambil kembali tes kemampuan kognitif yang sama (d = 46)
akan meningkatkan kemampuan mereka skor sekitar dua kali lipat dari pelamar yang
mengambil bentuk alternatif dari uji kemampuan nativ (d = .24). Tidak mengherankan,
semakin lama interval antara administrasi dua tes, semakin rendah gain dalam nilai tes. Harus
mencatat bahwa Hausknecht et al. meta-analisis terbatas pada kemampuan kognitif tes.
Tampaknya dengan tes pengetahuan, merebut kembali tes akan tetap meningkat nilai tes,
tetapi peningkatannya pada tingkat yang sama apakah tes kedua adalah tes yang sama atau
bentuk alternatif dari tes yang sama (Raymond, Neustel, & Anderson, 2007).

Beberapa bentuk juga dapat digunakan dalam kelompok besar peserta tes di mana ada
adalah kemungkinan kecurangan. Mungkin salah satu profesor Anda telah menggunakan
lebih dari itu satu bentuk tes yang sama untuk mencegah kecurangan. Terakhir kali kamu
mengambil milikmu uji pengemudi tertulis, beberapa formulir mungkin digunakan, sama
seperti kapan Anda mengambil SAT atau ACT untuk diterima di perguruan tinggi. Seperti
yang Anda lihat, banyak bentuk tes umum.

8
Ingat bahwa dengan reliabilitas tes-tes ulang, interval waktu antara administrator-
tions biasanya berkisar dari 3 hari hingga 3 bulan. Dengan reliabilitas bentuk-alternatif,
Namun, interval waktu harus sesingkat mungkin. Jika dua bentuk itu diberikan 3 minggu
terpisah dan hasil korelasi rendah, penyebab rendahnya reliabilitas sulit ditentukan. Artinya,
tes itu bisa kekurangan stabilitas bentuk atau stabilitas temporal. Dengan demikian, untuk
menentukan penyebab tidak dapat direliabilitaskan, interval harus pendek. Korelasi rata-rata
antara bentuk-bentuk alternatif tes digunakan dalam industri adalah .89 (Hood, 2001).

Selain berkorelasi, dua bentuk tes juga harus sama mean dan standar deviasi (Clause,
Mullins, Nee, Pulakos, & Schmitt, 1998). Tes pada Tabel 6.2, misalnya, menunjukkan
korelasi sempurna antara keduanya formulir. Orang yang mendapat nilai bagus di Form A
juga mendapat nilai bagus di Form B. Tapi skor rata-rata pada Formulir B adalah dua poin
lebih tinggi daripada pada Formulir A. Jadi, meskipun demikian korelasi sempurna
menunjukkan bahwa skor pada dua bentuk adalah paralel, selisih nilai rata-rata menunjukkan
bahwa kedua bentuk tersebut tidak setara. Sedemikian sebuah kasus, apakah formulir harus
direvisi atau standar yang berbeda (norma) harus digunakan untuk menginterpretasi hasil tes.

Setiap perubahan dalam tes berpotensi mengubah reliabilitas , validitas, kesulitan,


atau ketiganya. Perubahan tersebut mungkin termasuk urutan item, contoh yang digunakan
dalam pertanyaan, metode administrasi, dan batas waktu. Meskipun bentuk-alternatif
perbedaan berpotensi mempengaruhi hasil tes, sebagian besar penelitian menunjukkan bahwa
ini efeknya tidak ada atau agak kecil. Misalnya, meta-analisis sug- gest bahwa administrasi
komputer (Dwight & Feigelson,2000; Mead & Drasgow, 1993) atau administrasi PowerPoint

9
(Larson, 2001) tes kemampuan kognitif hasil dalam skor yang setara dengan administrasi
kertas dan pensil. Namun, studi kuasi-eksperimental oleh Ployhart, Weekley, Holtz, dan
Kemp (2003) ditemukan inventaris kepribadian dan tes penilaian situasional yang diberikan
pada Web menghasilkan skor yang lebih rendah dan reliabilitas internal yang lebih baik
daripada tes yang sama diatur dalam format kertas-dan-pensil tradisional. Menariknya,
penelitian menunjukkan bahwa Afrika Amerika, tetapi tidak kulit putih, skor lebih tinggi
berdasarkan video tes dari pada tes kertas-dan-pensil tradisional (Chan & Schmitt, 1997).

 Reliabilitas Internal
Cara ketiga untuk menentukan reliabilitas tes atau inventaris adalah dengan melihat
konsistensi dengan mana pemohon menanggapi item yang mengukur serupa dimensi atau
konstruksi (misalnya, ciri kepribadian, kemampuan, bidang pengetahuan). Itu sejauh mana
barang-barang serupa dijawab dengan cara yang sama disebut sebagai konsistensi internal
dan mengukur stabilitas barang.
Secara umum, semakin panjang tes, semakin tinggi konsistensi internalnya — yaitu,
kesepakatan di antara tanggapan terhadap berbagai item tes. Untuk mengilustrasikan hal ini,
biarkan kami melihat ujian akhir untuk kursus ini. Jika final didasarkan pada tiga bab, apakah
Anda menginginkan tes yang hanya terdiri dari tiga pilihan ganda? Mungkin tidak. Jika Anda
membuat kesalahan yang ceroboh dalam menandai jawaban Anda atau tertidur selama bagian
dari kuliah dari mana pertanyaan diambil, skor Anda akan rendah. Tetapi jika tes itu memiliki
100 item, satu kesalahan yang ceroboh atau satu bagian yang tidak terjawab dari sebuah
ceramah tidak akan sangat mempengaruhi total skor Anda.

Faktor lain yang dapat mempengaruhi reliabilitas internal suatu tes adalah item
kehomogenan. Artinya, apakah semua item mengukur hal yang sama, atau melakukannya
mengukur berbagai konstruksi? Semakin banyak barang yang homogen, semakin tinggi
konsistensi internal. Untuk mengilustrasikan konsep ini, mari kita kembali melihat ujian akhir
Anda berdasarkan tiga bab. Jika kami menghitung keandalan seluruh ujian, itu mungkin
relatif rendah. Mengapa? Karena materi yang dinilai oleh soal tes tidak homogen. Mereka
mengukur pengetahuan dari tiga bidang topik (tiga bab), dua sumber (kuliah dan teks), dan
dua jenis pengetahuan (faktual dan konseptual).

10
Jika kami menghitung keandalan seluruh ujian, itu mungkin akan relatif rendah.
Mengapa? Karena materi yang dinilai oleh soal tes tidak homogen. Mereka mengukur
pengetahuan dari tiga bidang topik (tiga bab), dua sumber (ceramah dan teks), dan dua jenis
pengetahuan (faktual dan konseptual). Jika kita memecahkan tes berdasarkan bab, sumber,
dan jenis barang, keandalan komponen uji yang terpisah akan lebih tinggi, karena kita akan
melihat kelompok barang-barang homogen.

Ketika membaca informasi tentang konsistensi internal dalam sebuah artikel jurnal-
cle atau manual tes, Anda akan menemukan tiga istilah yang mengacu pada metode
digunakan untuk menentukan konsistensi internal: split-half, koefisien alpha, dan K-R 20
(rumus Kuder-Richardson 20). Metode split-half adalah yang paling mudah digunakan,
karena item pada tes dibagi menjadi dua kelompok. Biasanya, semua bernomor ganjil item
dalam satu grup dan semua item bernomor genap ada di grup lain. Skor pada dua kelompok
item tersebut kemudian dikorelasikan. Karena jumlahnya item dalam tes telah dikurangi,
peneliti harus menggunakan rumus yang disebut Nubuatan Spearman-Brown untuk
menyesuaikan korelasi.

Alpha koefisien Cronbach (Cronbach, 1951) dan K-R 20 (Kuder & Richardson, 1937)
adalah metode yang lebih populer dan akurat untuk menentukan antar nal keandalan,
meskipun mereka lebih rumit untuk digunakan dan dengan demikian dihitung oleh program
komputer daripada dengan tangan. Pada dasarnya, keduanya adalah koefisien alpha dan K-R
20 mewakili koefisien reliabilitas yang akan diperoleh dari semua kombinasi yang mungkin
dari bagian split. Perbedaan antara keduanya adalah itu K-R 20 digunakan untuk tes yang
berisi item dikotomi (misalnya, ya / tidak, benar / false), sedangkan koefisien alpha dapat
digunakan tidak hanya untuk item dikotomi tetapi untuk tes yang berisi item interval dan
rasio seperti skala peringkat lima poin. Koefisien reliabilitas internal rata-rata yang
ditemukan dalam literatur penelitian adalah .81 dan koefisien alpha sejauh ini merupakan
ukuran internal yang paling sering dilaporkan reliabilitas (Hogan, Benjamin, & Brezinski,
2003).

 Reliabilitas Pencetak Skor


Cara keempat untuk menilai reliabilitas adalah reliabilitas penilai. Tes atau inventaris
bisa memiliki barang-barang yang homogen dan menghasilkan skor heterogen dan masih

11
belum dapat diandalkan. bisa jika orang yang menilai tes itu membuat kesalahan.
Keberhasilan pencetak adalah masalah di tes proyektif atau subjektif di mana tidak ada
jawaban yang benar, tetapi bahkan tes skor dengan menggunakan kunci menderita kesalahan
pencetak gol. Misalnya, Allard, Butler, Faust, dan Shea (1995) menemukan bahwa 53% dari
tes kepribadian yang dinilai dengan tangan mengandung setidaknya satu kesalahan penilaian,
dan 19% berisi kesalahan yang cukup untuk mengubah diagnosis klinis. Goddard, Simons,
Patton, dan Sullivan (2004) menemukan bahwa 12% persediaan bunga tangan-mencetak
mengandung skor atau merencanakan kesalahan, dan dari persentase itu, 64% akan
mengubah saran karir yang ditawarkan.

Ketika penilaian kinerja manusia terlibat, reliabilitas pencetak uang adalah dibahas
dalam hal reliabilitas interrater. Artinya, akan dua pewawancara memberi peringkat yang
sama pemohon, atau akan dua pengawas memberikan karyawan yang sama peringkat perfor
mance? Jika Anda penggemar American Idol, bagaimana anda menila ireliabilitas interrater
antara Simon, Paula, dan Randy?.

 Mengevaluasi Reliabilitas Tes


Di halaman-halaman sebelumnya, Anda belajar bahwa penting sekali nilai pada tes
dapat direliabilitas dan ada empat metode umum untuk menentukan reliabilitas. Ketika
memutuskan apakah tes menunjukkan reliabilitas yang cukup, dua factor harus
dipertimbangkan: besarnya koefisien reliabilitas dan orang-orangsiapa yang akan mengikuti
tes.
Koefisien reliabilitas untuk suatu tes dapat diperoleh dari data Anda sendiri, manual
tes, artikel jurnal menggunakan tes, atau tes kompendium yang akan dibahas nanti dalam bab
ini. Untuk mengevaluasi koefisien, Anda dapat membandingkannya dengan koefisien
reliabilitas biasanya diperoleh untuk jenis tes serupa. Sebagai contoh, jika Anda
mempertimbangkan untuk membeli inventaris kepribadian dan melihat dalam ujian manual
bahwa reliabilitas tes-tes ulang adalah .60, perbandingan dengan koefisien ditunjukkan pada
Tabel 6.3 akan menunjukkan bahwa keandalan untuk tes yang Anda pertimbangkan lebih
rendah dari apa yang biasanya ditemukan untuk jenis tes.

Faktor kedua yang perlu dipertimbangkan adalah orang-orang yang akan mengikuti
tes Anda. Untuk Misalnya, jika Anda akan menggunakan tes untuk manajer, tetapi koefisien

12
reliabilitas dalam panduan tes didirikan dengan siswa sekolah menengah, Anda akan
memiliki lebih sedikit keyakinan bahwa koefisien reliabilitas akan menyamaratakan dengan
baik untuk organisasi Anda tion. Contoh bagusnya adalah meta-analisis keandalan NEO skala
kepribadian. Dalam meta-analisis tersebut, Caruso (2003) menemukan bahwa reliabilitasnya
lebih rendah pada sampel pria dan siswa daripada sampel wanita dan orang dewasa. Kotak
Lokakarya Karir memberikan ringkasan evaluasi tes.

2. Validitas
Validitas adalah sejauh mana kesimpulan dari skor pada tes atau penilaian dibenarkan
oleh bukti. Seperti halnya reliabilitas, tes harus valid agar bermanfaat. Tetapi hanya karena
tes yang dapat diandalkan tidak berarti itu sah. Misalnya, anggaplah bahwa kami ingin
menggunakan persyaratan ketinggian untuk menyewa juru ketik. Ukuran tinggi kami
(Penguasa) tentu akan menjadi ukuran yang dapat diandalkan; kebanyakan orang dewasa
tidak akan lebih tinggi, dan dua orang yang mengukur tinggi pemohon mungkin akan sangat
mirip pengukuran. Namun demikian, diragukan bahwa tinggi badan berhubungan dengan
ketikan mance. Jadi, seorang penguasa akan menjadi ukuran tinggi yang dapat diandalkan,
tetapi tinggi badannya tidak menjadi ukuran yang valid untuk kinerja pengetikan.

Meskipun reliabilitas dan validitas tidak sama, mereka terkait. Itu validitas potensial
dari suatu tes dibatasi oleh keandalannya. Jadi, jika tes buruk keandalan, tidak dapat memiliki
validitas tinggi. Tapi seperti yang kita lihat pada contoh di atas, keandalan uji tidak
menyiratkan validitas. Sebaliknya, kami menganggap keandalan sebagai memiliki hubungan
yang diperlukan tetapi tidak cukup dengan validitas.

13
Ada lima strategi umum untuk menyelidiki validitas skor pada tes: konten, kriteria, konstruk,
wajah, dan kelompok yang dikenal.

 Validitas Konten
Salah satu cara untuk menentukan validitas tes adalah dengan melihat tingkat validitas
kontennya sejauh mana barang uji sampel konten yang mereka seharusnya untuk
meyakinkan. Sekali lagi, mari kita gunakan ujian akhir Anda sebagai contoh. Instruktur Anda
memberitahu Anda bahwa ujian akhir akan mengukur pengetahuan Anda tentang Bab 8, 9,
dan 10. Masing-masing bab adalah panjang yang sama, dan instruktur Anda menghabiskan
tiga periode kelas masing-masing bab. Tes ini akan memiliki 60 pertanyaan. Agar pengujian
valid, materi harus merupakan sampel representatif dari materi yang terkandung dalam
ketiganya bab; oleh karena itu, harus ada sekitar 20 pertanyaan dari setiap bab. Jika ada
masing-masing terdiri dari 30 pertanyaan dari Bab 8 dan 9, pengujian tidak akan menjadi
konten yang valid karena itu ditinggalkan Bab 10. Demikian juga, jika ada pertanyaan dari
Bab 4, tes tidak akan menjadi konten yang valid karena memerlukan pengetahuan yang
berada di luar dari domain yang sesuai.

Dalam industri, konten yang sesuai untuk uji atau uji baterai ditentukan oleh analisis
pekerjaan. Analisis pekerjaan pertama-tama harus menentukan tugas dan persyaratannya. di
mana mereka dilakukan. Selanjutnya KSAO (pengetahuan, keterampilan, kemampuan, dan
karakteristik lainnya) diperlukan untuk melakukan tugas-tugas di bawah itu keadaan tertentu
ditentukan. Semua dimensi penting diidentifikasi dalam analisis pekerjaan harus dicakup di
suatu tempat dalam pemilihan process, setidaknya sejauh dimensi (konstruksi) dapat akurat
dan diukur secara realistis. Apa pun yang tidak teridentifikasi dalam analisis pekerjaan harus
ditinggalkan.

Reliabilitas tes adalah contoh yang baik tentang bagaimana validitas konten yang
rumit dapat menjadi. Misalkan kita menentukan bahwa kesadaran adalah aspek penting dari
suatu pekerjaan. Kami menemukan inventaris kepribadian yang mengukur hati nurani, dan
kami yakin bahwa pengujian kami adalah konten valid karena mengukur identified dalam
analisis pekerjaan. Tetapi inventaris kepribadian sangat sulit untuk dibaca (misalnya,
mengandung kata-kata seperti teliti, extraverted, suka berteman) dan sebagian besar dari kami
pelamar hanya lulusan SMA. Apakah konten pengujian kami valid? Tidak karena itu

14
membutuhkan kemampuan membaca tingkat tinggi, dan kemampuan membaca tidak
teridentifikasi sebagai dimensi penting untuk pekerjaan kami.

 Kriteria Validitas
Ukuran lain dari validitas adalah validitas kriteria, yang mengacu pada sejauh mana
dimana nilai tes terkait dengan beberapa ukuran kinerja pekerjaan yang disebut kriteria
(kriteria akan dibahas lebih teliti di Bab 7). Kriteria yang umum digunakan termasuk
peringkat pengawas kinerja, ukuran kinerja aktual (misalnya, penjualan, jumlah keluhan,
jumlah penangkapan yang dilakukan), kehadiran (keterlambatan, ketidakhadiran), masa
jabatan, kinerja pelatihan (misalnya, nilai akademi kepolisian), dan masalah disiplin.

Validitas kriteria ditetapkan menggunakan salah satu dari dua desain penelitian: sewa
atau prediksi. Dengan desain validitas konkuren, tes diberikan kepada sekelompok karyawan
yang sudah bekerja. Skor pada tes tersebut kemudian dikorelasikan dengan ukuran kinerja
karyawan saat ini.

Dengan desain validitas prediktif, tes diberikan kepada sekelompok pekerjaan


pelamar yang akan dipekerjakan. Skor tes kemudian dibandingkan dengan ukuran masa
depan kinerja pekerjaan. Dalam situasi validitas prediktif yang ideal, setiap pelamar (atau
sampel acak pelamar) dipekerjakan, dan skor tes disembunyikan dari orang-orang yang
nantinya akan membuat evaluasi kinerja. Jika setiap pelamar dipekerjakan, berbagai macam
nilai tes dan kinerja karyawan mungkin ditemukan, dan semakin luas rentang skor, semakin
tinggi koefisien validitas. Tapi karena jarang praktis untuk mempekerjakan setiap pelamar,
desain prediktif yang ideal adalah tidak sering digunakan. Sebaliknya, sebagian besar studi
validitas kriteria menggunakan desain konkuren.

Mengapa desain konkuren lebih lemah daripada desain prediktif? Jawabannya terletak
dalam homogenitas skor kinerja. Dalam situasi kerja yang diberikan, sangat beberapa
karyawan berada pada ekstrem skala kinerja. Karyawan yang mau berada di bagian bawah
skala kinerja baik tidak pernah dipekerjakan atau sejak itu telah dihentikan. Karyawan yang
akan berada di ujung atas pertunjukan skala sering dipromosikan. Dengan demikian, kisaran
skor kinerja terbatas membuat mendapatkan koefisien validitas yang signifikan lebih sulit.

15
Masalah utama mengenai validitas kriteria tes berfokus pada konsep dikenal sebagai
generalisasi validitas, atau VG sejauh mana tes ditemukan valid untuk suatu pekerjaan di satu
lokasi berlaku untuk pekerjaan yang sama di lokasi yang berbeda. Dulu sebelumnya mengira
bahwa pekerjaan juru ketik di satu perusahaan tidak sama dengan itu di perusahaan lain,
pekerjaan petugas polisi di satu kota kecil tidak sama seperti itu di kota kecil lain, dan
pekerjaan supervisor toko ritel bukan sama seperti supervisor di restoran cepat saji.

Dalam tiga dekade terakhir, penelitian menunjukkan bahwa tes valid untuk suatu
pekerjaan dalam satu organisasi juga berlaku untuk pekerjaan yang sama di organisasi lain
(misalnya, Schmidt, Gast-Rosenberg, & Hunter, 1980; Schmidt & Hunter, 1998; Schmidt,
Hunter, Pearlman, & Hirsh, 1985). Schmidt, Hunter, dan rekan mereka menguji ratusan ribu
karyawan untuk sampai pada kesimpulan mereka. Mereka menyarankan bahwa pemikiran
sebelumnya dihasilkan dari studi dengan ukuran sampel kecil, dan uji validitas di satu lokasi
tetapi tidak yang lain adalah produk terutama dari kesalahan pemasangan. Dengan ukuran
sampel yang besar, tes yang ditemukan valid di satu lokasi mungkin akan berlaku di tempat
lain, dengan ketentuan bahwa pekerjaan itu sebenarnya serupa dan tidak hanya dua pekerjaan
terpisah yang berbagi jabatan yang sama.

Dua blok bangunan untuk generalisasi validitas adalah meta-analisis, didiskusikan di


Bab 1, dan analisis pekerjaan, dibahas di Bab 2. Meta-analisis dapat digunakan untuk
menentukan validitas rata-rata dari jenis tes khusus untuk berbagai pekerjaan. Misalnya,
beberapa penelitian menunjukkan bahwa kemampuan kognitif adalah prediktor yang sangat
baik kinerja polisi. Jika kita melakukan meta-analisis dari semua studi melihat hubungan ini,
kita akan dapat menentukan validitas rata-rata kemampuan kognitif dalam memprediksi
kinerja polisi. Jika koefisien validitas ini signifikan, kemudian departemen kepolisian mirip
dengan yang digunakan dalam meta-analisis dapat mengadopsi tes tanpa melakukan studi
validitas kriteria mereka sendiri. Ini akan sangat berguna untuk departemen kecil yang tidak
memiliki jumlah petugas yang diperlukan untuk benar melakukan studi validitas kriteria atau
keuangan sumber daya yang diperlukan untuk mempekerjakan para profesional untuk
melakukan studi semacam itu. Validitas umum alisasi harus digunakan hanya jika analisis
pekerjaan telah dilakukan, hasil dari yang menunjukkan bahwa pekerjaan tersebut serupa
dengan yang digunakan dalam meta-analisis.

16
 Validitas Konstruk
Validitas konstruk adalah yang paling teoritis dari jenis validitas. Pada dasarnya, itu
didefinisikan sebagai sejauh mana tes sebenarnya mengukur konstruk yang itu dimaksudkan
untuk mengukur. Validitas konstruk berkaitan dengan kesimpulan tentang tes skor, berbeda
dengan validitas konten, yang berkaitan dengan kesimpulan tentang konstruksi uji.

Mungkin contoh yang baik tentang pentingnya validitas konstruk adalah suatu situasi
Saya temui selama sekolah pascasarjana. Kami baru saja menyelesaikan analisis pekerjaan
posisi polisi entry-level untuk sebuah kota kecil. Salah satu dimensi penting sions
(konstruksi) yang muncul adalah kejujuran. Hampir setiap petugas bersikeras bahwa Petugas
polisi yang baik jujur, jadi kami mencari tes yang mengukur kejujuran dan dengan cepat
menemukan bahwa ada banyak tipe kejujuran sebuah kesimpulan juga dicapai oleh Rieke dan
Guastello (1995). Beberapa tes kejujuran mengukur pencurian, beberapa kecurangan, dan
penilaian moral lainnya. Tidak ada yang mengukur konstruk kejujuran seperti itu
didefinisikan oleh petugas polisi ini: tidak menerima suap dan tidak membiarkan teman-
teman mendapatkannya pergi dengan kejahatan. Tidak ada tes yang mengukur konstruk
khusus itu, meskipun semuanya tes diukur "kejujuran."

Validitas konstruk biasanya ditentukan dengan menghubungkan skor pada tes dengan
skor dari tes lain. Beberapa tes lain mengukur konstruk yang sama, sedangkan yang lain
tidak. Misalnya, anggap kita memiliki tes yang mengukur pengetahuan tepi psikologi. Seratus
orang diberikan Pengetahuan kita tentang Tes Psikologi serta tes pengetahuan psikologi
lainnya, tes membaca kemampuan, dan tes kecerdasan umum. Jika pengujian kami benar-
benar mengukur konstruk kami katakan itu pengetahuan psikologi itu harus berkorelasi tinggi
dengan tes pengetahuan psikologi lainnya tetapi tidak terlalu tinggi dengan dua tes lainnya.
Jika tes kami berkorelasi tertinggi dengan tes kemampuan membaca, tes kami mungkin
konten valid (mengandung item psikologi), tetapi tidak konstruk valid karena skor aktif tes
kami lebih didasarkan pada kemampuan membaca daripada pengetahuan psikologi.

Metode lain untuk mengukur validitas konstruk adalah validitas kelompok yang
diketahui (Hattie & Cooksey, 1984). Metode ini tidak umum dan hanya boleh digunakan
ketika metode lain untuk mengukur validitas konstruk tidak praktis. Dengan validitas grup

17
yang dikenal, tes diberikan kepada dua kelompok orang yang “dikenal” berbeda pada sifat
yang dipertanyakan.

Sebagai contoh, misalkan kita ingin menentukan validitas dari hon uji testy.
Pendekatan terbaik mungkin merupakan studi validitas kriteria di mana kita akan
melakukannya mengkorelasikan nilai tes karyawan kami dengan perilaku tidak jujur mereka,
seperti mencuri atau berbohong. Masalahnya adalah, bagaimana kita tahu siapa yang mencuri
atau siapa yang berbohong? Kita dapat bertanya kepada mereka, tetapi apakah orang yang
tidak jujur akan mengatakan yang sebenarnya? Mungkin tidak. Sebagai gantinya, kami
memutuskan untuk memvalidasi pengujian kami dengan memberikannya ke grup yang
dikenal sebagai jujur (imam) dan kelompok lain yang dikenal sebagai tidak jujur (penjahat).

Setelah memberikan tes kepada kedua kelompok, kami menemukan bahwa, cukup
pasti, imam skor lebih tinggi pada kejujuran daripada narapidana. Apakah ini berarti
pengujian kami sah? Belum tentu. Ini berarti bahwa tes tersebut memiliki validitas grup yang
dikenal tetapi tidak tentu jenis validitas lainnya. Kami tidak tahu apakah tes akan
memprediksi pencurian karyawan (validitas kriteria), kita juga tidak tahu apakah itu terukur
kejujuran (konstruk validitas). Ada kemungkinan bahwa tes sebenarnya mengukur konstruksi
lain yang membedakan kedua kelompok (misalnya, kecerdasan). Karena masalah ini,
pendekatan terbaik untuk mengambil dengan validitas kelompok yang dikenal adalah ini: Jika
kelompok yang dikenal tidak berbeda pada nilai tes, menganggap tes tersebut tidak valid. Jika
skor memang berbeda, orang masih tidak bisa memastikan keabsahannya.

Meskipun validitas kelompok yang dikenal biasanya tidak boleh digunakan untuk
menetapkan tes validitas, penting untuk dipahami karena beberapa perusahaan pengujian
menggunakan studi validitas kelompok untuk menjual tes mereka, mengklaim bahwa tes
tersebut valid. Personil Analis Jeff Rodgers pernah diminta untuk mengevaluasi tes yang
dianggap perusahaannya asing untuk memilih teller bank. Literatur tes terdengar
mengesankan, menyebutkan bahwa tes itu "didukung oleh lebih dari 100 studi validitas."
Rodgers curiga dan meminta salinan studi. Setelah beberapa bulan "panggilan telepon dan
gigi menarik, ”dia memperoleh laporan dari studi validitas. Sebagian besar studi digunakan
metodologi kelompok yang dikenal dan membandingkan sejumlah kelompok seperti
biarawan dan imam. Tidak satu studi pun yang melibatkan uji validitas kriteria untuk

18
menunjukkan hal itu tes itu sebenarnya bisa memprediksi kinerja teller bank. Jadi, jika Anda
mendengar itu tes valid, penting untuk mendapatkan salinan laporan penelitian.

 Memilih Cara untuk Mengukur Validitas


Dengan tiga cara umum untuk mengukur validitas, seseorang mungkin secara logis
menanyakan metode mana yang terbaik untuk digunakan. Seperti kebanyakan pertanyaan
dalam psikologi, jawabannya adalah tergantung. Dalam hal ini, tergantung pada situasi dan
juga apa yang dilakukan orang yang ingin dilakukan oleh studi validitas. Jika memutuskan
apakah tes akan menjadi alat prediksi yang berguna untuk kinerja karyawan, maka validitas
konten biasanya akan digunakan, dan studi validitas kriteria juga akan dilakukan jika ada
cukup karyawan dan jika ukuran kinerja pekerjaan yang baik adalah tersedia.

Dalam memutuskan apakah validitas konten sudah cukup, saya menyarankan


organisasi untuk menggunakan aturan tetangga sebelah. Artinya, tanyakan pada diri sendiri,
"Jika tetangga sebelah saya berada di juri dan saya harus membenarkan penggunaan tes saya,
Apakah validitas konten cukup? ”Misalnya, Anda melakukan analisis pekerjaan dari posisi
administrasi dan menemukan bahwa mengetik, mengisi, dan menjawab telepon adalah tugas
utama. Jadi Anda membeli tes pengetikan standar dan tes pengarsipan. Hubungan antara tes-
tes ini dan tugas-tugas yang dilakukan oleh pekerja klerus kami sangat jelas bahwa studi
validitas kriteria mungkin tidak penting untuk meyakinkan juri validitas kedua tes. Namun,
misalkan analisis pekerjaan Anda dari seorang perwira polisi menunjukkan bahwa membuat
keputusan di bawah tekanan adalah bagian penting dari pekerjaan itu. Untuk mengetuk
dimensi ini, Anda memilih Tes Berpikir Kritis Gandy. Karena hubungan antara tes Anda dan
kemampuan untuk membuat keputusan di bawah tekanan tidak begitu jelas, Anda mungkin
memerlukan studi validitas kriteria.

Mengapa tidak selalu melakukan studi validitas kriteria? Lagipula, bukankah


koefisien validitas yang signifikan lebih baik daripada seks? Memiliki koefisien validitas
yang signifikan sangat bagus. Namun bahayanya adalah dalam melakukan studi validitas.
Jika Anda melakukan studi validitas kriteria dan tidak mendapatkan signifikansi, kegagalan
itu bisa mematikan jika Anda dibawa ke pengadilan. Untuk mendapatkan koefisien validitas
yang signifikan, banyak hal harus berjalan dengan benar. Anda membutuhkan tes yang bagus,
ukuran kinerja yang baik, dan ukuran sampel yang layak. Selain itu, sebagian besar koefisien

19
validitasnya kecil (dalam rentang .20 hingga .35). Meskipun para ahli penilaian memahami
kegunaan dari korelasi kecil seperti itu, sulit untuk meyakinkan dewan juri atau pemerintah
untuk berbagi kegembiraan Anda setelah Anda menjelaskan bahwa kisaran untuk koefisien
korelasi adalah 0 sampai 1, Anda mendapat korelasi. 20, dan tes Anda menjelaskan 4% dari
varians. Akhirnya, tes itu sendiri tidak pernah bisa berlaku. Ketika kita berbicara tentang
validitas, kita berbicara tentang validitas nilai tes yang berkaitan dengan pekerjaan tertentu.
Sebuah tes dapat menjadi prediktor yang valid untuk masa jabatan konselor, tetapi bukan
kinerja bagi penjual sepatu. Jadi, ketika kita mengatakan bahwa tes itu valid, artinya ini
berlaku untuk pekerjaan tertentu dan kriteria tertentu. Tidak ada tes yang akan berlaku untuk
semua pekerjaan dan semua kriteria.
 Validitas Wajah
Meskipun validitas wajah bukan salah satu dari tiga metode utama untuk
menentukan validitas tes yang dikutip dalam Panduan Seragam federal tentang Prosedur
Pemilihan Karyawan, ini masih penting. Validitas wajah adalah sejauh mana suatu tes
tampaknya terkait dengan pekerjaan. Persepsi ini penting karena jika tes atau itemnya tidak
tampak valid, para pengambil tes dan administrator tidak akan memiliki keyakinan pada
hasil. Jika pelamar kerja tidak berpikir tes terkait pekerjaan, persepsi mereka tentang keadilan
menurun, seperti halnya motivasi mereka untuk melakukan tes dengan baik (Hausknecht,
Day, & Thomas, 2004). Demikian juga, jika karyawan yang terlibat dalam sesi pelatihan
tentang keterampilan interpersonal mengambil inventaris kepribadian dan diberi hasil,
mereka tidak akan termotivasi untuk mengubah atau menggunakan hasil inventaris kecuali
profil kepribadian yang diberikan kepada mereka tampak akurat.

Pentingnya validitas wajah telah dibuktikan dalam berbagai studi penelitian.


Misalnya, Chan, Schmitt, DeShon, Klausa, dan Delbridge (1997) menemukan bahwa tes yang
berlaku di wajah menghasilkan tingkat motivasi tes yang tinggi, yang pada gilirannya
menghasilkan tingkat kinerja tes yang lebih tinggi. Dengan demikian, validitas wajah
memotivasi pelamar untuk melakukan dengan baik pada tes. Tes yang sah yang diterima oleh
pelamar mengurangi kemungkinan gugatan hukum (Rynes & Connerley, 1993), mengurangi
jumlah pelamar yang keluar dari proses kerja (Thornton, 1993), dan meningkatkan
kemungkinan bahwa seorang pelamar akan menerima tawaran pekerjaan (Hoff Macan,
Avedon, & Paese, 1994).

20
Validitas wajah dan penerimaan hasil tes dapat ditingkatkan dengan memberi tahu
pelamar tentang bagaimana tes berhubungan dengan kinerja pekerjaan (Lounsbury, Bobrow,
& Jensen, 1989) dan dengan menjalankan tes dalam format multimedia (Richman-Hirsch,
Olson-Buchanan, & Drasgow, 2000). Penerimaan hasil tes juga meningkat ketika pelamar
menerima umpan balik yang jujur tentang kinerja tes mereka dan diperlakukan dengan
hormat oleh administrator tes (Gilliland, 1993).

Tetapi hanya karena tes memiliki validitas wajah tidak berarti itu sah (Jackson,
O'dell, & Olson, 1982). Misalnya, pernahkah Anda membaca deskripsi kepribadian
berdasarkan tanda astrologis Anda dan menemukan uraiannya cukup akurat? Apakah ini
berarti perkiraan astrologi akurat? Tidak semuanya. Jika Anda juga telah membaca deskripsi
kepribadian berdasarkan tanda astrologi yang berbeda, Anda mungkin menemukan itu
seakurat yang didasarkan pada tanda Anda sendiri. Kenapa ini? Karena sesuatu yang disebut
pernyataan Barnum (Dickson & Kelly, 1985) - pernyataan yang sangat umum sehingga dapat
berlaku untuk hampir semua orang. Misalnya, jika saya menggambarkan Anda sebagai
"terkadang sedih, kadang-kadang berhasil, dan kadang tidak bergaul dengan sahabat Anda,"
saya mungkin akan sangat akurat. Namun, pernyataan-pernyataan ini menggambarkan
hampir semua orang. Jadi, validitas wajah saja tidak cukup.

 Mencari Informasi Keandalan dan Validitas


Di halaman sebelumnya, kami telah membahas berbagai cara untuk mengukur
reliabilitas dan validitas. Tetapi meskipun sebagian besar dari Anda akhirnya akan terlibat
dengan beberapa bentuk pengujian karyawan, beberapa dari Anda benar-benar akan
melakukan penelitian tentang reliabilitas dan validitas tes. Akibatnya, dari mana Anda
mendapatkan informasi tentang ini? Ada banyak sumber yang sangat baik yang berisi
informasi reliabilitas dan validitas di bagian referensi sebagian besar perpustakaan
universitas.

Mungkin sumber informasi tes yang paling umum adalah Buku Tahunan
Pengukuran Mental Tujuh Belas (MMY) (Geisinger, Spies, Carlson, & Plake, 2007), yang
berisi informasi tentang ribuan tes psikologi yang berbeda serta ulasan oleh para ahli uji.
Perpustakaan Anda mungkin memiliki akses online ke MMY. Sumber informasi lain yang

21
bagus adalah ringkasan yang berjudul Tes di Print VII (Murphy, Spies, & Plake, 2006).
Untuk membantu Anda menggunakan ulasan uji ini, lengkapi Latihan 6.1 di buku kerja Anda.

3. Penghematan Biaya
Jika dua atau lebih tes memiliki validitas yang serupa, maka biaya harus
dipertimbangkan. Sebagai contoh, dalam memilih petugas polisi, adalah umum untuk
menggunakan tes kemampuan kognitif seperti Tes Personel Wonderlic atau Skala Kecerdasan
Dewasa Wechsler (WAIS). Kedua tes memiliki reliabilitas dan validitas yang sama, namun
Wonderlic hanya mengeluarkan biaya beberapa dolar per pemohon dan dapat diberikan
kepada sekelompok orang hanya dalam 12 menit. WAIS harus dikelola secara individual
dengan biaya waktu setidaknya satu jam per pemohon dan biaya keuangan lebih dari $ 100
per pemohon. Mengingat validitas yang serupa, tidak perlu seorang ilmuwan roket (atau
psikolog I/O) untuk mencari tahu mana yang lebih baik. Dalam situasi yang tidak begitu
jelas, formula utilitas yang dibahas nanti dalam bab ini dapat digunakan untuk menentukantes
terbaik.
Tes khusus biasanya dirancang untuk diberikan kepada pelamar individu atau
sekelompok pelamar. Tentu saja, pengujian kelompok biasanya lebih murah dan lebih efisien
daripada pengujian individual, meskipun informasi penting mungkin hilang dalam pengujian
kelompok. Sebagai contoh, salah satu alasan untuk mengelola tes kecerdasan individu adalah
mengamati cara seseorang memecahkan masalah atau menjawab pertanyaan. Dengan tes
grup, hanya jawabannya yang dapat dinilai.

Inovasi baru-baru ini dalam administrasi tes psikologi melibatkan penggunaan


komputer dan Internet. Dengan pengujian yang dibantu komputer, pemohon mengambil tes di
terminal komputer, komputer menilai tes, dan hasil dan interpretasi tes segera tersedia.
Karena pengujian yang dibantu komputer dapat menurunkan biaya pengujian, mengurangi
waktu umpan balik, dan menghasilkan hasil di mana peserta tes dapat memiliki kepercayaan
diri yang besar, banyak perusahaan publik dan swasta beralih ke metode ini. Banyak
pemerintah negara bagian telah menemukan penghematan biaya yang besar dalam
memungkinkan pelamar untuk mengambil tes komputer di dekat tempat mereka tinggal
daripada meminta mereka melakukan perjalanan jauh untuk mengikuti tes di lokasi pusat.
Peningkatan efisiensi ini tidak datang dengan biaya validitas menurun karena, seperti yang

22
disebutkan sebelumnya, tes yang diberikan secara elektronik tampaknya menghasilkan hasil
yang serupa dengan yang diberikan melalui format kertas-dan-pensil tradisional.

Penggunaan yang semakin umum dari pengujian komputer adalah pengujian komputer-
adaptif (CAT). Bahkan, Anda mungkin mengambil SAT dalam format komputer-adaptif.
Dengan CAT, komputer "menyesuaikan" pertanyaan berikutnya untuk ditanyakan
berdasarkan bagaimana pengambil tes menanggapi pertanyaan atau pertanyaan sebelumnya.
Misalnya, jika peserta ujian berhasil menjawab tiga pertanyaan perkalian berturut-turut,
komputer akan berpindah ke jenis matematika yang lain daripada membuang-buang waktu
dengan mengajukan tujuh pertanyaan perkalian lagi. Saat mengambil CAT, komputer
memulai dengan mengajukan pertanyaan kesulitan rata-rata. Jika pengambil tes menjawab ini
dengan benar, komputer akan mengajukan pertanyaan yang lebih sulit. Jika peserta ujian
menjawab pertanyaan-pertanyaan ini dengan salah, komputer akan mengajukan pertanyaan
yang lebih mudah. Logika di balik CAT adalah bahwa jika pengambil tes tidak dapat
menjawab pertanyaan mudah (mis., Penjumlahan dan pengurangan), tidak masuk akal untuk
mengajukan pertanyaan tentang aljabar dan geometri. Keuntungan untuk CAT adalah bahwa
lebih sedikit item tes yang diperlukan, tes membutuhkan waktu lebih sedikit untuk
menyelesaikan, perbedaan yang lebih baik dalam kemampuan pemohon dapat dibuat, peserta
tes dapat menerima umpan balik langsung, dan nilai tes dapat ditafsirkan tidak hanya pada
jumlah pertanyaan yang dijawab. benar, tetapi pertanyaan mana yang dijawab dengan benar

B. Menetapkan kegunaan perangkat seleksi


Walaupun suatu alat tes dapat diandalkan dan valid, hal itu belum tentu dalam
bermanfaat. Pada mulanya, ini mungkin tidak masuk akal, tetapi mempertimbangkan sebuah
alat tes yang telah terbukti valid untuk menyeleksi karyawan di restoran cepat saji. Misalkan
ada 100 lowongan pekerjaan dan 100 pencari kerja mengajukan permohonan untuk lowongan
pekerjaan tersebut. Meskipun tes ini valid, itu tidak akan berdampak karena rantai restoran
harus mempekerjakan setiap pelamar.

Contoh lainnya, bayangkan sebuah organisasi yang sudah memiliki tes yang baik
untuk memprediksi kinerja karyawan. Meskipun tes baru yang sedang dipertimbangkan
mungkin valid, tes lama mungkin telah berhasil dengan baik sehingga seluruh karyawannya
saat ini sukses. Atau organisasi tersebut sudah memiliki program pelatihan yang baik

23
sehingga seluruh karyawannya sukses. Jadi, tes baru (meskipun valid) mungkin tidak
memberikan perbaikan apa pun.

Untuk menentukan seberapa berguna suatu tes dalam situasi tertentu, beberapa rumus
dan tabel telah dirancang. Setiap rumus dan tabel memberikan informasi yang sedikit berbeda
kepada atasan. Tabel Taylor-Russell memberikan perkiraan persentase total karyawan baru
yang akan menjadi karyawan yang berhasil jika tes diadopsi (keberhasilan organisasi); kedua
grafik harapan dan tabel Lawshe memberikan kemungkinan keberhasilan untuk pelamar
tertentu berdasarkan nilai ujian (keberhasilan individu); dan rumus utilitas memberikan
perkiraan jumlah uang yang akan disimpan organisasi jika mengadopsi prosedur pengujian
baru.

1. Table Taylor-Russell

Tabel Taylor-Russell (Taylor & Russell, 1939) dirancang untuk memperkirakan


persentase karyawan masa depan yang akan berhasil dalam pekerjaan jika organisasi
menggunakan tes tertentu. Untuk menggunakan tabel Taylor-Russell, tiga bagian informasi
harus diperoleh.

Informasi pertama yang diperlukan adalah koefisien validitas kriteria tes. Ada dua
cara untuk mendapatkan koefisien ini. Yang terbaik adalah benar-benar melakukan studi
validitas kriteria dengan nilai tes berkorelasi dengan beberapa ukuran kinerja pekerjaan.
Seringkali, bagaimanapun, organisasi ingin tahu apakah pengujian berguna sebelum
menginvestasikan waktu dan uang dalam studi validitas kriteria.Di sinilah generalisasi
validitas ikut bermain. Atas dasar temuan oleh para peneliti seperti Schmidt dan Hunter
(1998), kami memiliki gagasan yang baik tentang koefisien validitas khas yang akan
dihasilkan dari berbagai metode seleksi. Untuk memperkirakan koefisien validitas yang
mungkin diperoleh organisasi, salah satu koefisien dari Tabel 5.2 di bab sebelumnya
digunakan. Semakin tinggi koefisien validitas, semakin besar kemungkinan tes akan berguna.

Bagian kedua dari informasi yang harus diperoleh adalah rasio seleksi, yang
merupakan persentase orang-orang yang harus dipekerjakan suatu organisasi. Rasio
ditentukan oleh rumus:

𝑗𝑢𝑚𝑙𝑎ℎ 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑘𝑎𝑛


Pemilihan rasio : 𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑝𝑙𝑖𝑘𝑎𝑠𝑖

Semakin rendah rasio seleksi, semakin besar potensi kegunaan dari tes.
24
Bagian terakhir dari informasi yang dibutuhkan adalah tingkat dasar kinerja saat ini
— persentase karyawan yang saat ini bekerja yang dianggap berhasil. Angka ini biasanya
diperoleh dengan salah satu dari dua cara. Metode pertama adalah yang paling sederhana
tetapi paling tidak akurat. Karyawan dibagi menjadi dua kelompok yang sama berdasarkan
pada skor mereka pada beberapa kriteria seperti kepemilikan atau kinerja. Tingkat dasar
menggunakan metode ini selalu .50 karena satu setengah dari karyawan dianggap
memuaskan.

Metode kedua dan lebih bermakna adalah memilih skor ukuran kriteria di atas yang
semua karyawan dianggap berhasil. Sebagai contoh, di salah satu agen perumahan, setiap
agen yang menjual lebih dari $300,000 properti menghasilkan keuntungan bagi agensi setelah
pelatihan dan biaya operasional telah dikurangi. Dalam hal ini, agen yang menjual lebih dari
$300,000 properti akan dianggap sukses karena mereka menghasilkan uang untuk
perusahaan.Agen yang menjual kurang dari $300,000 properti akan dianggap gagal karena
biaya perusahaan lebih banyak daripada yang mereka bawa. Dalam contoh ini, ada titik yang
jelas di mana karyawan dapat dianggap sukses. Namun, sebagian besar waktu, tidak ada poin
yang jelas. Dalam kasus ini, manajer akan secara subyektif memilih satu titik pada kriteria
yang mereka rasa dapat dipisahkan antara karyawan yang berhasil dan karyawan yang tidak
berhasil.

Setelah validitas, rasio seleksi, dan angka-angka tingkat dasar telah diperoleh, tabel
Taylor-Russell dikonsultasikan (Tabel 6.4). Untuk memahami bagaimana mereka digunakan,
mari kita ambil contoh berikut. Misalkan kita memiliki uji validitas.40 , rasio seleksi.30 , dan
tingkat dasar.50. Menemukan tabel yang sesuai dengan tingkat dasar .50 , kita melihat di
sepanjang bagian atas grafik sampai kita menemukan rasio pemilihan. Selanjutnya, kami
menemukan validitas .30 di sisi kiri tabel. Kami kemudian menelusuri seluruh tabel sampai
kami menemukan persimpangan dari kolom rasio seleksi dan baris validitas; kami telah
menemukan .69. Jika organisasi menggunakan tes seleksi tertentu, 69% dari karyawan masa
depan cenderung dianggap berhasil. Angka ini dibandingkan dengan tingkat dasar
sebelumnya .50, menunjukkan peningkatan in 38% pada karyawan yang berhasil (.19÷ .50 =
.38).

2. Proporsi Keputusan yang Tepat

Menentukan proporsi keputusan yang benar lebih mudah dilakukan tetapi kurang
akurat daripada tabel Taylor-Russell. Satu-satunya informasi yang diperlukan untuk
25
menentukan proporsi keputusan yang benar adalah nilai tes karyawan dan skor pada kriteria.
Dua nilai dari masing-masing karyawan digambarkan dalam grafik serupa dengan yang ada
pada gambar 6.1. Garis diambil dari titik pada sumbu y (kriteria skor) yang mewakili
pemohon yang berhasil, dan dari titik pada sumbu x yang mewakili nilai tes terendah dari
pelamar yang dipekerjakan. Seperti yang Anda lihat, garis-garis ini membagi skor menjadi
empat kuadran. Titik-titik yang terletak di kuadran I mewakili karyawan yang mendapat nilai
buruk pada tes tetapi dilakukan dengan baik di tempat kerja.

Poin yang terletak di kuadran II mewakili karyawan yang mendapat nilai bagus pada
tes dan berhasil dalam pekerjaan. Poin di kuadran III karyawan yang diwakili ulang yang
mendapat nilai tinggi pada tes, namun buruk dalam pekerjaan, dan poin di kuadran IV
mewakili karyawan yang mendapat nilai rendah pada tes dan melakukan pekerjaan dengan
buruk.

26
27
Jika tes adalah prediktor kinerja yang baik, harus ada lebih banyak poin di kuadran II
dan IV karena poin di dua kuadran lainnya mewakili "kegagalan prediksi." Yaitu, di kuadran
I dan III tidak ada korespondensi yang terlihat antara nilai tes dan nilai kriteria.

Untuk memperkirakan keefektifan tes, jumlah titik di setiap kuadran dijumlahkan, dan rumus
berikut digunakan:

Titik di kuadran II dan IV ÷ Jumlah poin di semua


kuadran
Jumlah yang dihasilkan mewakili persentase waktu yang kami harapkan akurat dalam
membuat keputusan seleksi di masa depan. Untuk menentukan apakah ini merupakan
perbaikan/kemajuan, kami menggunakan rumus berikut:
Titik di kuadran II dan IV ÷ Jumlah poin di semua
kuadran
Poin dalam kuadran I dan II ÷ Jumlah poin di semua
kuadran

Titikdari
Jika persentase di kuadran
rumus II dan IV lebih
pertama ÷ Jumlah poin
tinggi di semua
dari yang kedua, tes yang kami
kuadran
usulkan harus meningkatkan
Poin akurasi
dalam kuadran seleksi.
I dan II ÷ Jika tidak,
Jumlah poinmungkin
di semualebih baik untuk tetap
menggunakan metode
kuadranseleksi yang saat ini digunakan.

Sebagai contoh, lihat kembali pada Gambar 6.1.Ada 5 titik data di kuadran I, 10 di kuadran
Titik di kuadran II dan IV ÷ Jumlah poin di semua
II, 4 di kuadran III, dan 11 di kuadran IV. Persentase waktu yang kami harapkan akan akurat
kuadran
Poin dalam kuadran I dan II ÷ Jumlah poin di semua
di masa depan adalah:
kuadran
𝐼𝐼+𝐼𝑉 10+11 21
𝐼+𝐼𝐼+𝐼𝑉
= 5+10+4+11 = 30 = .70

Poin dalam kuadran I dan II ÷ Jumlah poin di semua


kuadran
28

Poin dalam kuadran I dan II ÷ Jumlah poin di semua


Untuk membandingkan angka ini dengan tes yang sebelumnya kami gunakan untuk memilih
karyawan, kami menghitung kinerja dasar yang memuaskan:

𝐼+𝐼𝐼 5+10 15
= 5+10+4+11 = 30 = .50
𝐼+𝐼𝐼+𝐼𝐼𝐼+𝐼𝑉

Menggunakan tes baru akan menghasilkan 40% peningkatan akurasi seleksi [.70- .50 = .20 ÷
.50] dibandingkan metode seleksi yang digunakan sebelumnya.

3. Tabel Lawshe

Tabel Taylor-Russell dirancang untuk menentukan dampak keseluruhan dari prosedur


pengujian. Tetapi kita sering perlu mengetahui kemungkinan bahwa pelamar tertentu akan
berhasil. Tabel Lawshe (Lawshe, Bolda, Brune, & Auclair, 1958) diciptakan untuk
melakukan hal itu. Untuk menggunakan tabel ini, tiga informasi diperlukan. Koefisien
validitas dan tingkat dasar ditemukan dengan cara yang sama seperti untuk tabel Taylor-
Russell. Bagian ketiga dari informasi yang dibutuhkan adalah nilai ujian pemohon. Lebih
spesifik lagi, apakah skor seseorang di atas 20%, berikutnya 20%, pertengahan 20% ,terendah
berikutnya 20% % atau dibawah 20%?

Setelah kami memiliki tiga bagian informasi, tabel Lawshe, seperti yang ditunjukkan
pada Tabel 6.5 diperiksa. Sebagai contoh, kami memiliki tingkat dasar .50, validitas .40, dan
pelamar yang mendapat nilai tertinggi ketiga dari 10. Pertama, kami menemukan tabel
dengan nilai dasar .50. Kemudian kami mencari kategori yang sesuai di bagian atas grafik.
Pemohon kami mendapat nilai tertinggi ketiga dari 10 pelamar, jadi dia akan berada di
kategori kedua, tertinggi berikutnya seperlima, atau 20%. Dengan menggunakan validitas .40,
kami menemukan persimpangan dari baris validitas dan kolom skor tes dan hasil akhirnya 59.
Ini berarti bahwa pelamar memiliki kesempatan 59 % untuk menjadi karyawan yang sukses.

4. Rumus Utilitas Brogden-Cronbach-Gleser

Cara lain untuk menentukan nilai tes dalam situasi tertentu adalah dengan menghitung
jumlah uang yang akan disimpan organisasi jika menggunakan tes untuk memilih karyawan.
Untungnya, I / O psikolog telah menyusun rumus utilitas yang cukup sederhana untuk
memperkirakan penghematan moneter untuk suatu organisasi. Untuk menggunakan rumus
ini, lima item informasi harus diketahui.

29
1. Jumlah karyawan yang dipekerjakan per tahun (n). Jumlah ini mudah untuk ditentukan: Ini
hanyalah jumlah karyawan yang dipekerjakan untuk posisi tertentu dalam setahun.

2. Kepemilikan rata-rata (t). Ini adalah jumlah waktu rata-rata karyawan dalam posisi tersebut
cenderung tinggal bersama perusahaan. Jumlah ini dihitung dengan menggunakan informasi
dari catatan perusahaan untuk mengidentifikasi waktu setiap karyawan dalam posisi itu
tinggal bersama perusahaan. Jumlah tahun penguasaan untuk setiap karyawan kemudian
dijumlahkan dan dibagi dengan jumlah total karyawan.

3. Uji validitas (r). Angka ini adalah koefisien validitas kriteria yang diperoleh baik melalui
studi validitas atau generalisasi validitas.

4. Standar deviasi kinerja dalam dolar (SDy). Selama bertahun-tahun, jumlah ini sulit untuk
dihitung. Penelitian telah menunjukkan, bagaimanapun, bahwa untuk pekerjaan di mana
kinerja terdistribusi secara normal, perkiraan yang baik dari perbedaan dalam kinerja antara
rata-rata dan pekerja yang baik (satu standar deviasi dalam kinerja) adalah 40% dari gaji
tahunan karyawan (Pemburu & Schmidt, 1982) . Aturan 40% menghasilkan hasil yang
serupa dengan metode yang lebih rumit dan lebih disukai oleh manajer (Hazer & Highhouse,
1997). Untuk mendapatkan ini, total gaji karyawan saat ini dalam posisi yang dimaksud harus
dirata-ratakan.

5. Rata-rata skor prediktor standar dari pelamar terpilih (m). Angka ini diperoleh dengan
salah satu dari dua cara. Metode pertama adalah mendapatkan skor rata-rata pada tes seleksi
untuk kedua pelamar yang dipekerjakan dan pelamar yang tidak dipekerjakan. Nilai rata-rata
tes dari pelamar yang tidak dipekerjakan dikurangi dari nilai rata-rata tes dari pelamar yang
dipekerjakan. Perbedaan ini dibagi dengan standar deviasi semua nilai tes.

Sebagai contoh, kami mengelola tes kemampuan mental untuk sekelompok 100 pelamar dan
mempekerjakan 10 dengan skor tertinggi. Skor rata-rata dari 10 pelamar yang dipekerjakan
adalah 34.6, skor tes rata-rata dari pelamar 90 lainnya adalah 28.4, dan standar deviasi dari
semua nilai tes adalah 8.3. Angka yang diinginkan adalah:

34.6−28.4 6.2
= 8.3 = .747
8.3

30
Cara kedua untuk menentukan m adalah menghitung proporsi pelamar yang
dipekerjakan dan kemudian menggunakan tabel konversi seperti pada Tabel 6.6 untuk
mengubah proporsi menjadi skor standar. Metode kedua ini digunakan ketika sebuah
organisasi berencana untuk menggunakan tes dan mengetahui kemungkinan rasio seleksi
berdasarkan pelamar sebelumnya, tetapi tidak tahu nilai ujian rata-rata karena organisasi tidak
pernah menggunakan tes. Dengan menggunakan contoh sebelumnya, proporsi pelamar yang
dipekerjakan adalah:

𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑒𝑙𝑎𝑚𝑎𝑟 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑘𝑎𝑛 10


= 100 = .10
𝑡𝑜𝑡𝑎𝑙 𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑒𝑙𝑎𝑚𝑎𝑟

31
Dari Tabel 6.6, kita melihat bahwa skor standar yang dikaitkan dengan rasio seleksi
.10 adalah 1.76. Untuk menentukan penghematan kepada perusahaan, kami menggunakan
rumus berikut: Penghematan = (n) (t) (r) (SDy) (m) - biaya pengujian (jumlah pelamar ×
biaya per pelamar)

Sebagai contoh, misalkan kita mempekerjakan sepuluh auditor per tahun, rata-rata orang
dalam posisi ini tetap 2 tahun, koefisien validitas adalah .30, dan gaji tahunan rata-rata untuk
posisi adalah $ 30,000, dan kita memiliki 50 pelamar untuk 10 lowongan. Maka,

n = 10

t=2

r = .30

SDy = $30,000 x .40 = $12,000

m = 10/50 = .20 = 1.40 (.20 dikonversi menjadi 1.40 dilihat dari tabel 6.6)

Biaya pengujian= (50 pelamar x $10)

Dengan menggunakan rumus diatas, maka dapat ditentukan :

(10) (2) (.30) (12,000) (1.40) - (50) (10) = $100,300

Ini berarti bahwa setelah memperhitungkan biaya pengujian, menggunakan tes khusus
ini, alih-alih memilih karyawan secara kebetulan, akan menghemat biaya perusahaan
$100,300 selama 2 tahun yang biasanya dimiliki auditor pada organisasi. Karena perusahaan
32
jarang memilih karyawan secara kebetulan, rumus yang sama harus digunakan dengan
validitas tes (wawancara, tes psikologi, referensi, dan sebagainya) yang saat ini digunakan
perusahaan. Hasil perhitungan ini kemudian harus dikurangkan dari yang pertama.

Angka akhir ini, tentu saja, hanyalah perkiraan berdasarkan asumsi bahwa pelamar
dengan skor tertinggi menerima tawaran pekerjaan. Untuk menjadi paling akurat, itu harus
disesuaikan dengan faktor-faktor seperti biaya variabel, diskon, tarif pajak perusahaan, dan
perubahan dalam tujuan strategis (Boudreau, 1983; Russell, Colella, & Bobko, 1993). Karena
perkiraan utilitas sering mencapai jutaan dolar, ada kekhawatiran bahwa para manajer
mungkin tidak mempercayai perkiraan tersebut.

Namun, penelitian menunjukkan bahwa manajer secara positif melihat perkiraan


utilitas, dan dengan demikian perkiraan ini dapat digunakan untuk mendukung kegunaan
pengujian (Carson, Becker, & Henderson, 1998; Hoff Macan & Foster, 2004). Ketika
seseorang menganggap biaya kinerja yang buruk konstan, ukuran perkiraan ini seharusnya
tidak mengejutkan. Penghematan yang diperkirakan tinggi bahkan lebih dapat dipercaya
ketika seseorang mempertimbangkan biaya salah satu karyawan. Sebagai contoh:

1. Seorang karyawan dari Oxford Organics Inc. salah melabeli bumbu vanilla buatan yang
dikirim ke General Mills, menghasilkan $150,000 dalam kerusakan pembeku kue.

2. Seorang mekanik Angkatan Laut meninggalkan kunci 5 inci di dalam kompartemen roda
jet, menyebabkan jatuhnya pesawat seharga $33 juta.

3.Kesalahan pengetikan dalam surat oleh pedagang mobil yang mengatakan kepada
pelanggan untuk memanggil nomor 900 bukan nomor 800. Nomor 900 ternyata merupakan
garis seks, dan pedagang harus mengirimkan surat 1,000 tambahan untuk meminta maaf dan
memperbaiki kesalahan.

Dengan demikian, biaya kinerja buruk harian, dikombinasikan dengan biaya


kesalahan sesekali seperti ini, memberikan dukungan untuk validitas perkiraan utilitas tinggi.

Meskipun rumus utilitas adalah sarana yang berguna untuk pengambilan keputusan,
perlu dicatat bahwa tidak semua manajer memercayai hasil rumus utilitas dan dengan
demikian cara lain untuk menunjukkan validitas mungkin diperlukan. Metode semacam itu
termasuk studi tolak ukur untuk menunjukkan bahwa apa yang dilakukan organisasi Anda
adalah "praktik terbaik"; mempelajari melihat pelamar dan reaksi karyawan untuk

33
menunjukkan bahwa "klien" Anda merasa nyaman dengan praktik pengujian Anda (validitas
wajah); data yang menunjukkan bahwa karyawan baru Anda berhasil (mis., peringkat kinerja,
penguasaan, komentar atasan); data yang menunjukkan bahwa hasil keputusan perekrutan
konsisten dengan tindakan afirmatif dan tujuan keragaman organisasi; dan data yang
menunjukkan bahwa proses perekrutan memenuhi tujuan organisasi untuk mengisi posisi
secara tepat waktu dengan karyawan yang kompeten. Untuk membantu Anda memahami
tabel utilitas dan rumus, selesaikan Latihan 6.2 dan 6.3 di buku kerja Anda.

D. Menentukan Keadilan Test


Sekali tes telah ditentukan untuk dapat diandalkan valid dan memiliki utilitas untuk
suatu organisasi, langkah selanjutnya adalah memastikan bahwa tes itu adil dan tidak bias.
Meskipun istilah yang adil dan tidak bias nampak serupa dan saling tumpang-tindih, mereka
sangat punya mengevaluasi teknik seleksi dan keputusan 225 arti yang berbeda. Istilah bias
atau tidak bias mengacu pada aspek teknis dari suatu tes. Tes dianggap bias jika ada
perbedaan grup (misal; Jenis kelamin, ras, atau usia) dalam nilai tes yang tidak terkait dengan
konstruk yang diukur. Misalnya, jika perbedaan ras pada tes logika adalah karena kata-kata
kosakata ditemukan lebih sering di Putih dari budaya Afrika Amerika, tes mungkin
dipertimbangkan bias.

Istilah keadilan dapat mencakup bias, tetapi juga mencakup politik dan sosial
masalah. Biasanya, tes dianggap adil jika orang dengan kemungkinan sukses yang sama pada
pekerjaan memiliki kesempatan yang sama untuk dipekerjakan. Meskipun beberapa orang
berpendapat bahwa sebuah tes tidak adil jika anggota kelas yang dilindungi skornya lebih
rendah daripada mayoritas (misal; Putih, pria), sebagian besar psikolog I / O setuju bahwa tes
itu adil jika dapat diprediksi kinerja sama baiknya untuk semua ras, jenis kelamin, dan asal
kebangsaan.
2. Dampak negatif
Langkah pertama dalam menentukan potensi bias pengujian adalah mencari tahu
apakah itu akan terjadi menghasilkan dampak buruk. Ada dua cara dasar untuk menentukan
ini: mencari pada hasil tes atau mengantisipasi dampak buruk sebelum ujian. Seperti yang
disebutkan di Bab 3, dampak merugikan terjadi jika tingkat seleksi untuk grup manapun lebih
kecil dari 80% dari kelompok skor tertinggi (signifikansi praktis) dan perbedaannya secara
statistik signifikan (signifikansi statistik).

34
Meskipun menentukan dampak negatif dari sebuah tes tampaknya sederhana —
yang mana dilakukan dengan membandingkan tingkat perekrutan (menyewa ÷ pelamar) dari
dua kelompok yang sebenarnya mur dan baut perhitungan bisa rumit, dan itu adalah hal biasa
penggugat dan tergugat tidak setuju pada siapa yang dianggap sebagai "pelamar" dan siapa
dianggap sebagai "karyawan". Misalnya, seperti yang ditunjukkan pada Tabel 6.7, jika
seseorang mendaftar untuk suatu pekerjaan tidak memenuhi kualifikasi minimum, ia tidak
dianggap sebagai pelamar dalam perhitungan dampak buruk. Misalnya, jika tukang ledeng
berlaku untuk pekerjaan sebagai ahli bedah otak, dia jelas tidak memiliki kualifikasi
minimum untuk pekerjaan itu gelar dokter.

Ada tiga kriteria untuk kualifikasi minimum: itu harus diperlukan melakukan
pekerjaan, dan bukan hanya menjadi preferensi; itu harus diidentifikasi secara formal dan
dikomunikasikan sebelum dimulainya proses seleksi; dan itu harus konsisten terapan. Seperti
yang Anda bayangkan, dengan kriteria seperti itu, ada banyak ruang untuk pertentangan. CD-
ROM Anda berisi data yang dapat Anda gunakan untuk menghitung dampak kerugian dan
menentukan siapa pelamar dan siapa yang harus dihitung sebagai karyawan / menawarkan.

Ingat bahwa pembelaan hukum untuk dampak negatif adalah keterkaitan pekerjaan
dan bahwa tes yang valid adalah tes yang berhubungan dengan pekerjaan. Jadi, bahkan jika
tes itu berdampak buruk, itu mungkin akan dianggap sebagai tes hukum.
Tetapi meskipun tes itu mungkin dianggap sah, organisasi tetap ada mungkin tidak ingin
menggunakannya. Jika hasil tes berdampak buruk, organisasi harus dapat pergi ke pengadilan
untuk membela diri. Meskipun tes yang sah mungkin akan memungkinkan organisasi untuk
memenangkan kasus, walaupun pergi ke pengadilan mahal. Jadi, jika utilitas dari tes rendah,
biaya pengadilan potensial akan lebih besar daripada tabungan minimal untuk organisasi.
Selain itu, tes dengan dampak buruk akan menyebabkan masyarakat miskin hubungan dengan
komunitas minoritas, yang dapat merugikan perekrutan atau pemasaran upaya oleh
organisasi.

Menggunakan aturan 80% untuk menentukan keadilan suatu uji berarti bahwa
organisasi harus menunggu sampai menggunakan tes untuk memilih karyawan, pada saat
mana kerusakan sudah dilakukan. Metode memperkirakan dampak merugikan
membandingkan skor rata-rata pelamar minoritas dengan pelamar Putih dan laki-laki. Ini

35
paling mudah dilakukan dengan mencari di buku petunjuk untuk menentukan apakah Afrika
Amerika dan kulit putih atau pria dan wanita memiliki perbedaan yang signifikan nilai ujian.
Jika demikian, tes mungkin akan berdampak buruk, dan alternatif tes bisa dicari.

Tabel 6.7 Siapa Pemohon dan Siapa yang Dipekerjakan?


Siapa Pemohon?
Dihitung sebagai pelamar
Mereka yang memenuhi kualifikasi minimum
Hapus dari perhitungan
Mereka yang tidak memenuhi kualifikasi minimum
Mereka yang tidak memenuhi syarat untuk mendaftar
Mantan karyawan yang diberhentikan (jika ini adalah kebijakan perusahaan)
Mantan karyawan yang tidak menunggu waktu yang dibutuhkan untuk mendaftar (jika ini
adalah kebijakan)
Aplikasi duplikat dalam jangka waktu tertentu
Mereka yang tidak lagi tertarik
Menemukan pekerjaan lain
Tidak lagi tertarik dengan pekerjaan itu
Ditolak atau tidak muncul untuk wawancara
Siapa yang dipekerjakan?
Keduanya menyewa dan menghitung
Hires
Dipekerjakan dan dilaporkan bekerja
Dipekerjakan tetapi tidak melaporkan untuk bekerja
Dipekerjakan tetapi gagal tes narkoba atau tes latar belakang
Lepas
Pekerjaan yang ditawarkan tetapi ditolak.

3. Kevalidan Grup Tunggal


Selain dampak buruk, organisasi juga dapat menentukan apakah tes memiliki
validitas satu kelompok, yang berarti bahwa tes akan secara signifikan memprediksi kinerja
untuk satu grup dan bukan yang lain. Misalnya, tes kemampuan membaca mungkin
memprediksi kinerja panitera Putih tetapi tidak dari Afrika Amerika juru tulis. Untuk menguji

36
validitas satu kelompok, korelasi terpisah dihitung antara tes dan kriteria untuk masing-
masing kelompok. Jika kedua korelasi itu signifikan, maka tes tidak menunjukkan validitas
satu kelompok dan melewati rintangan keadilan ini. Namun, jika hanya satu korelasi yang
signifikan, tes ini dianggap adil untuk hanya satu kelompok itu.

Validitas satu grup sangat jarang (O’Connor, Wexley, & Alexander, 1975) dan
biasanya merupakan hasil ukuran sampel yang kecil dan masalah metodologis lainnya
(Schmidt, 1988; Schmidt & Hunter, 1978). Di mana itu terjadi, organisasi memiliki tiga
pilihan. Ia dapat mengabaikan validitas satu kelompok karena penelitian menunjukkan bahwa
itu mungkin terjadi secara kebetulan; itu bisa berhenti menggunakan tes; atau bisa
menggunakan tes hanya untuk satu grup dan temukan tes lain untuk digunakan untuk
kelompok lain.

Mengabaikan keabsahan satu kelompok mungkin adalah pilihan yang paling tepat,
mengingat bahwa sebagian besar psikolog I / O percaya bahwa validitas satu kelompok hanya
terjadi kebetulan. Sebagai bukti ini, pikirkan alasan logis yang akan diprediksi secara berbeda
untuk orang Afrika Amerika daripada kulit putih atau berbeda untuk laki-laki dari pada
perempuan. Artinya, mengapa tes kecerdasan memprediksi kinerja untuk laki-laki tapi tidak
untuk wanita? Atau mengapa tes kepribadian memprediksi kinerja untuk Afrika Amerika
tetapi tidak untuk kulit putih? Mungkin ada banyak alasan budaya mengapa dua kelompok
mendapat skor berbeda pada tes (misalnya, peluang pendidikan, sosial ekonomi status), tetapi
menemukan alasan logis bahwa tes akan memprediksi secara berbeda untuk dua grup itu
sulit.

Jika kita tidak percaya bahwa validitas satu kelompok adalah hasil dari kebetulan,
kita harus mengadopsi salah satu dari dua opsi lainnya. Seperti yang Anda lihat, meskipun
opsi ketiga secara statistik benar, banyak masalah hukum dan hubungan masyarakat dapat
terjadi. Untuk Misalnya, jika seorang pemohon bertanya, "Mengapa saya mendapatkan satu
tes dan teman saya yang lain?" kami dapat menanggapi bahwa orang Afrika-Amerika
mendapatkan satu tes dan orang kulit putih mendapatkan yang lain. Seperti itu sebuah
tanggapan, bagaimanapun, adalah provokatif dan pada akhirnya dapat menjadi
kontraproduktif sebuah organisasi.

37
4. Validitas diferensial
Tes terakhir dari keadilan yang dapat dilakukan melibatkan validitas diferensial.
Dengan validitas diferensial, tes valid untuk dua grup tetapi lebih valid untuk satu daripada
untuk yang lain. Validitas satu kelompok dan validitas diferensial mudah bingung, tetapi ada
perbedaan besar antara keduanya. Ingat, dengan validitas satu grup, tes ini hanya berlaku
untuk satu grup. Dengan validitas diferensial, tes ini berlaku untuk kedua kelompok, tetapi
lebih valid untuk satu daripada yang lain.

Seperti validitas satu grup, validitas diferensial jarang terjadi (Katzell & Dyer,
1977; Schmidt & Hunter, 1981). Ketika itu terjadi, biasanya dalam pekerjaan didominasi oleh
satu jenis kelamin, tes paling valid untuk jenis kelamin dominan, dan tes kinerja minoritas
overpredik (Rothstein & McDaniel, 1992; Saad & Sackett, 2002). Jika validitas grup-
diferensial terjadi, organisasi memiliki dua pilihan. Itu pertama tidak menggunakan tes.
Biasanya, bagaimanapun, ini bukan pilihan yang baik. Mencari tes yang valid sulit dilakukan;
membuang tes yang baik akan memalukan.

Pilihan kedua adalah menggunakan tes dengan persamaan regresi terpisah untuk
setiap kelompok. Karena pelamar tidak menyadari bahwa tes dinilai berbeda, tidak ada
masalah hubungan masyarakat yang terjadi dengan penggunaan tes terpisah. Namun,
Undang-Undang Hak Sipil melarang penyesuaian skor berdasarkan ras atau jenis kelamin.
Akibatnya, menggunakan persamaan terpisah dapat diterima secara statistik tetapi tidak akan
dapat dipertahankan secara hukum. Jika tes tidak mengarah pada dampak buruk, tidak
memiliki validitas satu grup, dan tidak memiliki validitas diferensial, itu dianggap adil.

Jika tes gagal untuk melewati salah satu dari tiga kendala keadilan ini, itu mungkin
atau mungkin tidak adil, tergantung di mana model keadilan diikuti (Arvey & Faley, 1988).
Tetapi untuk digunakan dengan keyakinan penuh, tes harus valid, memiliki kegunaan, dan
adil.

E. Membuat Keputusan Mempekerjakan

Setelah tes seleksi yang valid dan adil telah diberikan kepada sekelompok pemohon,
keputusan akhir harus dibuat untuk pelamar atau pelamar yang akan dipekerjakan. Pada
awalnya, ini mungkin tampaknya keputusan yang mudah - mempekerjakan pelamar dengan
38
nilai tes paling tinggi. Tetapi keputusan menjadi lebih rumit karena jumlah dan variasi tes
meningkat.

Jika lebih dari satu tes yang valid-kriteria digunakan, skor pada tes harus
digabungkan. Biasanya, ini dilakukan dengan prosedur statistik yang dikenal sebagai regresi
berganda, dengan masing-masing skor tes tertimbang menurut seberapa baik itu memprediksi
kriteria. Pendekatan linear untuk merekrut biasanya mengambil salah satu dari empat bentuk:
seleksi naik turun yang tidak disesuaikan, tiga aturan,skor tinggi, atau banding.

2. Seleksi naik turun yang tidak di sesuaikan


Dengan reggresi berganda, para pelamar diberikan peringkat berdasarkan nilai ujian
mereka. Seleksi kemudian dibuat dengan memulai dengan skor tertinggi dan bergerak turun
sampai semua bukaan telah diisi. Sebagai contoh, untuk data dalam Tabel 6.8, jika kita
memiliki empat bukaan, kita akan mempekerjakan empat pencetak gol terbanyak, yang,
dalam hal ini, adalah Kilborne, Letterman, King, dan Williams. Perhatikan bahwa
keempatnya adalah laki-laki. Jika, untuk tujuan tindakan afirmatif, kami ingin
mempekerjakan dua wanita, pilihan top-down tidak akan memungkinkan kami untuk
melakukannya.

Keuntungan untuk pilihan top-down adalah bahwa dengan mempekerjakan top skor
pada tes yang valid, organisasi akan mendapatkan utilitas paling banyak (Schmidt, 1991).
Kelebihannya adalah bahwa pendekatan ini dapat menghasilkan tingkat dampak buruk yang
tinggi dan mengurangi fleksibilitas organisasi untuk menggunakan faktor-faktor nontest
seperti referensi atau fit organisasi.

Dalam pendekatan kompensasi untuk pilihan top-down, asumsinya adalah bahwa jika
beberapa nilai tes digunakan, hubungan antara skor rendah pada satu tes dapat
dikompensasikan dengan skor tinggi pada yang lain. Sebagai contoh, seorang siswa yang
mendaftar ke sekolah pascasarjana mungkin memiliki skor GRE rendah tetapi memiliki nilai
rata-rata kelas tinggi (IPK) yang tinggi. Jika IPK cukup tinggi, itu akan mengimbangi skor
GRE yang rendah. Untuk menentukan apakah skor pada satu tes dapat mengkompensasi skor
pada yang lain, regresi berganda digunakan di mana setiap skor tes diberi bobot sesuai
dengan seberapa baik ia memprediksi kriteria.

3. Tiga aturan

39
Teknik yang sering digunakan di sektor publik adalah tiga aturan (atau aturan lima),

di mana nama-nama dari tiga pencetak teratas diberikan kepada orang yang membuat
keputusan perekrutan (misalnya, kepala polisi, direktur SDM). Orang ini kemudian dapat
memilih

Tabel 6.8 Informasi pengujian hipotetis.

dari ketiganya berdasarkan kebutuhan mendesak pemberi kerja. Metode ini memastikan
bahwa orang yang dipekerjakan akan memiliki kualifikasi yang baik tetapi memberikan lebih
banyak pilihan daripada pilihan top-down.

4. Skor tinggi

Skor kelulusan adalah sarana untuk mengurangi dampak buruk dan meningkatkan
fleksibilitas. Dengan sistem ini, organisasi menentukan nilai terendah pada tes yang terkait
dengan kinerja yang dapat diterima di tempat kerja. Sebagai contoh, kita tahu bahwa siswa
yang menilai 1,300 di SAT mungkin akan memiliki nilai yang lebih baik di perguruan tinggi
daripada siswa yang menilai 800. Tapi, apa nilai terendah pada SAT yang bisa kita terima
dan tetap yakin bahwa siswa akan dapat lulus kelas dan akhirnya lulus?

Perhatikan perbedaan yang jelas antara pilihan top-down dan skor kelulusan. Dengan
pilihan top-down, pertanyaannya adalah, "Siapa yang akan melakukan yang terbaik di masa
depan?" Dengan nilai kelulusan, pertanyaannya menjadi, "Siapa yang akan dapat tampil pada
tingkat yang dapat diterima di masa depan?"
40
Seperti yang Anda bayangkan, nilai kelulusan memberikan organisasi dengan
fleksibilitas yang tinggi. Sekali lagi menggunakan Tabel6.8 sebagai contoh, misalkan kita
menentukan bahwa setiap penilaian 70 atau di atas akan dapat melakukan tugas-tugas
pekerjaan yang memadai. Jika kami menetapkan70 sebagai skor kelulusan, kami dapat
mengisi empat bukaan kami dengan salah satu dari delapan pelamar mencetak70 better atau
lebih baik. Karena, untuk alasan tindakan afirmatif, kami ingin dua dari empat bukaan diisi
oleh perempuan, kami bebas untuk mempekerjakan Winfrey dan O' Donnell. Penggunaan
skor kelulusan memungkinkan kami untuk mencapai sasaran aksi afirmatif kami, yang tidak
akan dipenuhi dengan pilihan top-down. Dengan mempekerjakan pelamar dengan nilai yang
lebih rendah, bagaimanapun, kinerja karyawan masa depan kita akan lebih rendah daripada
jika kita menggunakan seleksi top-down (Schmidt, 1991).

Meskipun penggunaan skor kelulusan tampaknya merupakan langkah yang masuk


akal untuk mencapai tujuan tindakan afirmatif, menentukan skor kelulusan yang sebenarnya
dapat menjadi proses rumit yang penuh dengan jebakan hukum (Biddle, 1993). Metode yang
paling umum untuk menentukan skor kelulusan (mis., Metode Angoff dan Nedelsky)
membutuhkan ahli pekerjaan untuk membaca setiap item pada tes dan memberikan perkiraan
tentang persentase karyawan yang memenuhi syarat minimal yang dapat menjawab item
dengan benar. Angka kelulusan kemudian menjadi rata-rata dari estimasi untuk setiap
pertanyaan. Masalah hukum dapat terjadi ketika pelamar yang tidak berhasil menantang
validitas skor kelulusan.

Jika ada lebih dari satu tes yang telah kami lewati, maka harus ada keputusan tentang
penggunaan pendekatan multiple-cutoff atau pendekatan multi-rintangan. Kedua pendekatan
digunakan ketika satu skor tidak dapat mengimbangi yang lain atau ketika hubungan antara
tes seleksi dan kinerja tidak linier. Dengan pendekatan multi-cutoff, para pelamar akan
diberikan semua tes pada satu waktu. Jika mereka gagal dalam salah satu tes (turun di bawah
skor kelulusan), mereka tidak akan dipertimbangkan lebih jauh untuk pekerjaan.

Sebagai contoh, anggaplah bahwa analisis pekerjaan kami menemukan bahwa seorang
petugas polisi yang baik adalah cerdas, memiliki gelar sarjana, percaya diri, dapat
mengangkat 50 dan tidak memiliki catatan kriminal. Studi validitas kami menunjukkan
bahwa hubungan baik kecerdasan dan keyakinan dengan kinerja pekerjaan adalah linier:
Semakin pintar dan lebih percaya diri petugas, semakin baik dia melakukan. Karena
hubungan antara kekuatan, tidak memiliki catatan kriminal, dan memiliki gelar sarjana tidak
41
linear, kami akan menggunakan pendekatan multi-cutoff di mana pelamar harus lulus
pemeriksaan latar belakang, memiliki gelar sarjana, dan dapat untuk angkat 50 pound. Jika
mereka memenuhi ketiga persyaratan, tingkat kepercayaan dan skor tes kemampuan kognitif
mereka digunakan untuk menentukan siapa yang akan dipekerjakan.

Satu masalah dengan pendekatan multi-cutoff adalah biayanya. Jika seorang pelamar
hanya lulus tiga dari empat tes, dia tidak akan dipekerjakan, tetapi organisasi telah membayar
pemohon untuk mengambil semua empat tes.

Untuk mengurangi biaya yang terkait dengan pelamar gagal satu atau lebih tes,
pendekatan multi-rintangan sering digunakan. Dengan pendekatan multi-rintangan, pemohon
diberikan satu tes dalam satu waktu, biasanya dimulai dengan yang paling murah. Pelamar
yang gagal tes dieliminasi dari pertimbangan lebih lanjut dan tidak melakukan tes lagi.
Pelamar yang lulus semua tes kemudian diberikan tes yang berhubungan linier; pelamar

dengan nilai tertinggi pada tes ini dipekerjakan.

Untuk memperjelas perbedaan antara pendekatan multiple-cutoff dan multi-hurdle, mari kita
lihat contoh berikut. Misalkan kita akan menggunakan empat tes lulus / gagal untuk memilih
karyawan. Tes memiliki biaya dan tingkat kegagalan berikut:

Jika tes biaya $180 per pelamar dan 100 pelamar berlaku untuk posisi, pendekatan multiple-
cutoff akan biaya organisasi kami $ 18,000 (100 pelamar × 180 masing-masing) untuk
mengelola tes untuk semua pelamar. Tetapi dengan pendekatan multi-rintangan, kita dapat
mengatur tes termurah (tes kekuatan) untuk semua pelamar100. Karena 10% dari pelamar

42
akan gagal dalam tes ini, kita dapat mengatur tes termurah berikutnya ke sisa 90. Proses ini
berlanjut sampai semua tes telah dilakukan. Penghematan $3,900 akan menghasilkan,
berdasarkan perhitungan berikut: Jika pendekatan multi-rintangan biasanya lebih murah,
mengapa itu tidak selalu digunakan daripada pendekatan multi-cutoff? Pertama, banyak tes
yang dikutip di atas membutuhkan waktu untuk melakukan atau membuat skor. Misalnya,
mungkin diperlukan beberapa minggu untuk menjalankan pemeriksaan latar belakang atau
beberapa hari untuk menafsirkan pemeriksaan psikologis. Oleh karena itu, tes biasanya harus
dilakukan pada beberapa kesempatan, dan aplikasi harus melewatkan beberapa hari kerja
untuk melamar pekerjaan tertentu. Karena orang sering tidak dapat atau tidak akan
mengambil lebih dari satu hari libur dari satu pekerjaan untuk mengajukan permohonan untuk
yang lain, banyak pelamar yang berpotensi unggul hilang sebelum pengujian dimulai.

Kedua, penelitian telah menunjukkan bahwa secara umum semakin lama waktu antara
pengajuan lamaran kerja dan keputusan perekrutan, semakin kecil jumlah pelamar Afrika
Amerika yang akan tetap berada di kolam pemohon (Arvey, Gordon, Massengill, &
Mussio,1975). Populasi Afrika-Amerika memiliki tingkat pengangguran yang lebih tinggi
daripada orang kulit putih, dan orang-orang yang menganggur lebih terburu-buru untuk
mendapatkan pekerjaan daripada orang dengan pekerjaan. Oleh karena itu, karena pendekatan
jamak takes lebih banyak membutuhkan waktu lebih lama daripada cutoff ganda, mungkin
membawa dampak buruk yang tidak diinginkan, dan tujuan tindakan afirmatif mungkin tidak
terpenuhi.

5. Banding
Seperti yang disebutkan sebelumnya, masalah dengan perekrutan dari atas ke bawah
adalah bahwa proses menghasilkan tingkat dampak negatif yang paling tinggi. Di sisi lain,
penggunaan skor kelulusan mengurangi dampak merugikan tetapi mengurangi utilitas.
Sebagai kompromi antara perekrutan top-down dan nilai kelulusan , upaya banding untuk

43
merekrut nilai ujian tertinggi sementara masih memungkinkan beberapa fleksibilitas untuk
tindakan afirmatif (Campion et 2001).

Banding mempertimbangkan tingkat kesalahan yang terkait dengan skor tes apa pun.
Jadi, meskipun satu pelamar mungkin mendapat nilai dua poin lebih tinggi daripada yang
lain, perbedaan dua poin mungkin merupakan hasil dari kebetulan (kesalahan) daripada
perbedaan kemampuan yang sebenarnya. Pertanyaannya kemudian menjadi, "Berapa banyak
poin terpisah yang harus dua pelamar sebelum kita mengatakan nilai tes mereka berbeda
secara signifikan?"

Kami dapat menjawab pertanyaan ini menggunakan statistik yang disebut standard
error (SE). Untuk menghitung statistik ini, kami memperoleh keandalan dan standar deviasi
(SD) dari tes tertentu dari katalog tes (atau kita dapat menghitungnya sendiri jika kita tidak
memiliki hal yang lebih baik
untuk dilakukan pada akhir
pekan!). Informasi ini kemudian dimasukkan ke dalam rumus berikut:

Misalnya, kita memiliki tes dengan keandalan 90 dan standar deviasi 13.60. Perhitungan
kesalahan standar adalah :Banding biasanya-tetapi tidak harus-ditentukan dengan mengalikan
kesalahan standar dengan 1.96 (skor standar yang terkait dengan tingkat konfirmasi 95%).
Karena kesalahan standar dari pengujian kami adalah 4.30, nilai tes dalam 8.4 poin (4.3 ×
1.96) satu sama lain akan dianggap statistik yang sama.Jika kita mengambil konsep ini sedikit
lebih jauh, kita dapat membuat besaran kelompok perekrutan 8.4. Misalnya, menggunakan
kesalahan standar kami 4.3 dan besaran kelompok kami 8.4(8), lihat pelamar yang
digambarkan pada Tabel 6.8. Misalkan kita memiliki empat bukan dan ingin mempekerjakan
setidaknya dua wanita jika memungkinkan.Misalkan kita memiliki empat bukaan dan ingin
mempekerjakan setidaknya dua wanita jika memungkinkan. Karena wanita dengan skor
tertinggi dalam contoh kami adalah Winfrey di 88, pendekatan top-down tidak akan
menghasilkan wanita yang dipekerjakan. Dengan kelompok yang tidak tergeser, kami bebas

44
untuk merekrut siapa pun yang nilainya jatuh di antara skor teratas (Kilborne at 99) dan 91
(99 - 8.4). Seperti halnya pemilihan top-down, penggunaan kelompok yag tidak tergeser,
dalam contoh ini tidak akan menghasilkan wanita yang dipekerjakan. Dengan sebuah
kelompok tergeser, bagaimanapun, kita mulai dengan skor tertinggi (Kilborne di 99) dan
kurangi dari itu besaran kelompok (8.4).Dalam hal ini, 99 - 8.4 = 90.6, yang berarti bahwa
semua pelamar yang mencetak antara 91 dan 99 dianggap secara statistik memiliki skor yang
sama. Karena tidak ada wanita yang termasuk dalam band ini, kami merekrut Kilborne dan
kemudian menghitung skor Letterman berikutnya di 98. Melalui kelompok 98 (90 - 8.4) kami
berikutnya masih tidak berisi seorang wanita, jadi kami merekrut Letterman dan kemudian
mempertimbangkan skor King berikutnya di 91. Kelompok baru kami antara 94 -86 berisi
empat pelamar, salah satunya adalah seorang wanita. Karena kami bebas untuk
mempekerjakan siapa pun di dalam band, kami mungkin akan merekrut Winfrey untuk
memenuhi sasaran tindakan afirmatif kami. Kami kemudian akan menyewa Raja sebagai
orang keempat kami. Dengan banding, satu wanita lagi dipekerjakan daripada yang akan
terjadi di bawah sistem top-down. Namun, perlu diketahui bahwa tujuan kami untuk
mempekerjakan dua wanita tidak tercapai, seperti ketika kami menggunakan nilai kelulusan.
Untuk berlatih cara membuat band, lengkapi Latihan 6.4 di buku kerja Anda.

Meskipun konsep bandeng telah disetujui dalam beberapa kasus pengadilan


(Bridgeport Guardians v. City of Bridgeport, 1991; Chicago Firefighters Union Local No. 2.
Kota Chicago, 1999; Pejabat untuk Keadilan v. Komisariat Dinas Sipil, 1992), hanya
memilih minoritas dalam sebuah band akan menjadi ilegal. Sebaliknya, tujuan aksi afirmatif
harus dianggap sebagai satu-satunya faktor dalam memilih pelamar dari sebuah band.
Sebagai contoh, dengan memungkinkan beberapa fleksibilitas dalam perekrutan, penggunaan
bandiisasi dapat memungkinkan kepala polisi untuk menyewa pemohon berbahasa Spanyol
dengan penilaian yang lebih rendah atau pelamar dengan keterampilan komputer atas pelamar
yang mendapatkan skor lebih tinggi tanpa yang diinginkan, tetapi tidak diperlukan
keterampilan.

Meskipun banding tampaknya menjadi kompromi yang baik antara top-down


perekrutan dan lulus skor (Zedeck, Cascio, Goldstein, & Outtz, 1996), itu bukan tanpa kritik
(Campion et al., 2001). Penelitian menunjukkan bahwa pita dapat menghasilkan utilitas yang
lebih rendah daripada perekrutan top-down (Schmidt, 1991), yang mungkin tidak benar-benar
mengurangi dampak merugikan dengan cara yang signifikan (Gutman & Christiansen,1997),

45
dan bahwa kegunaannya dalam mencapai tujuan tindakan afirmatif dipengaruhi oleh faktor-
faktor seperti rasio seleksi dan persentase pelamar minoritas (Sackett & Roth, 1991).

46
BAB III

PENUTUP

3.1 Kesimpulan

Reliabilitas adalah sejauh mana skor dari ukuran seleksi stabil dan bebas dari
kesalahan. Jika skor dari ukuran tidak stabil atau bebas dari kesalahan, itu tidak dapat
digunakan dengan baik. Reliabilitas terdiri atas beberapa jenis, yaitu reliabilitas tes - retest,
reliabilitas bentuk alternatif, reliabilitas internal,dan reliabilitas pencetak skor.

Validitas adalah suatu ukuran yang menunjukan tingkat kevalidan atau kesahihan
suatu instrumen, yang dibuktikan kebenarannya dengan adanya data-data. Validitas terdiri
ataa beberapa jenis, yaitu validitas konten, validitas kriteria, validitas konstruk dam validitas
wajah.

Walaupun suatu alat tes dapat diandalkan dan valid, hal itu belum tentu dalam
bermanfaat. Untuk menentukan seberapa berguna suatu tes dalam situasi tertentu, beberapa
rumus dan tabel telah dirancang, seperti dengan menggunakan table taylor - russell , tabel
lawshe,dan rumus utilitas brogden - croanbach - gleser.

Sekalipun suatu tes telah ditentukan untuk dapat diandalkan valid dan memiliki utilitas
untuk suatu organisasi, langkah selanjutnya adalah memastikan bahwa tes itu adil dan tidak
bias. Biasanya, tes dianggap adil jika orang dengan kemungkinan sukses yang sama pada
pekerjaan memiliki kesempatan yang sama untuk dipekerjakan. Setelah tes seleksi yang valid
dan adil telah diberikan kepada sekelompok pelamar, keputusan akhir harus dibuat untuk
pelamar yang akan dipekerjakan secara tepat.

47

Anda mungkin juga menyukai