Anda di halaman 1dari 17

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Kinerja Manusia

ISSN: 0895-9285 (Cetak) 1532-7043 (Online) Halaman muka jurnal:http://www.tandfonline.com/loi/hhup20

Kesepakatan penilai, akurasi, dan beban kognitif


yang dialami: Perbandingan pendekatan penilaian
distribusi dan tradisional terhadap kinerja penilaian

Adam J. Vanhove, Alyssa M. Gibbons & Uma Kedharnath

Untuk mengutip artikel ini:Adam J. Vanhove, Alyssa M. Gibbons & Uma Kedharnath (2016):
Kesepakatan penilai, akurasi, dan beban kognitif yang dialami: Perbandingan pendekatan
penilaian distribusi dan tradisional terhadap kinerja penilaian, Kinerja Manusia, DOI:
10.1080/08959285.2016.1192632

Untuk menautkan ke artikel ini:http://dx.doi.org/10.1080/08959285.2016.1192632

Dipublikasikan secara online: 11 Juli 2016.

Kirimkan artikel Anda ke jurnal ini

Tampilan artikel: 3

Lihat artikel terkait

Lihat data Tanda silang

Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di


http://www.tandfonline.com/action/journalInformation?journalCode=hhup20

Unduh oleh:[Universitas California, San Diego] Tanggal:15 Juli 2016, Pukul: 10:07
KINERJA MANUSIA
http://dx.doi.org/10.1080/08959285.2016.1192632

Kesepakatan penilai, akurasi, dan beban kognitif yang dialami:


Perbandingan pendekatan penilaian distribusi dan tradisional
terhadap kinerja penilaian
Adam J. VanhoveSebuah, Alyssa M. GibbonsB, dan Uma KedharnathC

SebuahUniversitas James Madison;BUniversitas Negeri Colorado;CUniversitas Wisconsin–Whitewater

ABSTRAK
Kesalahan dalam penilaian kinerja biasanya diyakini karena kompleksitas kognitif dari
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

tugas penilaian. Distribusi penilaian (DA) diusulkan untuk meningkatkan akurasi penilai
dengan mengurangi beban kognitif. Dalam dua penelitian laboratorium, penilai
melaporkan persepsi upaya kognitif dan kesulitan saat menilai target penilaian
menggunakan DA atau pendekatan penilaian tradisional. Di kedua studi, penilai DA
menunjukkan kesepakatan antar penilai yang lebih besar, dan temuan Studi 2
memberikan beberapa dukungan untuk DA yang dikaitkan dengan akurasi penilaian
skor sebenarnya yang lebih besar. Namun, penilai DA juga melaporkan mengalami
beban kognitif yang lebih besar selama tugas pemeringkatan, dan beban kognitif tidak
memediasi hubungan antara format penilaian dan akurasi penilai. Temuan ini memiliki
implikasi penting mengenai pemahaman kita tentang beban kognitif dalam proses
penilaian.

Kinerja penilaian adalah proses yang kompleks, dan banyak yang berpendapat bahwa kesalahan dalam penilaian tersebut
sering terjadi sebagai akibat dari kurangnya kapasitas pemrosesan kognitif evaluator atau kegagalan untuk melakukan
sumber daya kognitif yang cukup untuk tugas (DeNisi, Cafferty, & Meglino,1984; Feldman,1981; Murphy & Cleveland,1995).
Banyak penelitian yang bertujuan untuk mengurangi kesalahan penilai secara implisit membahas masalah beban kognitif
dengan berfokus pada strategi untuk menyederhanakan proses penilaian, seperti membatasi jumlah dimensi yang akan
dinilai (Gaugler & Thornton,1989), memberikan kesempatan untuk berlatih (Kolk, Born, van der Flier, & Olman,2002), dan
mengaitkan contoh perilaku spesifik dengan poin berbeda pada skala penilaian (Smith & Kendall,1963). Dengan kata lain,
literatur ini telah mengasumsikan hubungan mediasi dimana memanipulasi fitur dari proses penilaian mengurangi beban
kognitif penilai, yang pada gilirannya meningkatkan akurasi penilai.
Kane (1986,2000) dan rekan (Kane & Woehr,2006) telah membuat keterkaitan ini secara eksplisit terkait dengan
salah satu fitur tersebut—format respons yang digunakan untuk membuat peringkat kinerja. Mereka berpendapat
bahwa penilaian kinerja menggunakan format tradisional, yang mengharuskan pengguna untuk secara mental
rata-rata kisaran perilaku terkait kinerja yang diamati selama periode evaluasi, membutuhkan sumber daya kognitif
yang cukup besar, dan memperkenalkan sumber kesalahan penilai yang penting. Sebagai alternatif, Kane dan rekan
berpendapat bahwa menggunakan format respons berbasis frekuensi mengurangi kesalahan penilai dengan
menghilangkan kebutuhan untuk rata-rata secara mental perilaku terkait kinerja untuk menghasilkan peringkat
rata-rata. Ada bukti yang menunjukkan bahwa penilaian distribusi (DA), metode berbasis frekuensi, dapat
meningkatkan akurasi penilai (Deadrick & Gardner,1997; Kane,2000; Woehr & Miller,1997). Namun, penelitian belum
secara langsung menguji apakah ini terjadi sebagai fungsi dari penurunan beban kognitif.
Untuk mengatasi kesenjangan ini, kami melakukan dua eksperimen di mana peserta melaporkan beban
kognitif mereka setelah menilai empat target menyelesaikan latihan simulasi pusat penilaian menggunakan
penilaian tradisional (TA) atau DA berbasis frekuensi. Kami menilai kesepakatan antar penilai dan akurasi
skor yang dikembangkan panel ahli antara penilai menggunakan dua format respons ini,

KONTAKAdam J. Vanhove vanhovaj@jmu.edu Sekolah Studi Kepemimpinan Strategis, James Madison University,
Lakeview Hall MSC 1505, 298 Port Republic Road, Harrisonburg, VA 22807.
© 2016 Taylor & Francis
2 VANHOVE, Owa, DAN KEDHARNATH

menyelidiki efek format respons pada beban kognitif yang dialami oleh penilai selama tugas pemeringkatan,
dan menguji model di mana beban kognitif memediasi hubungan antara format respons dan akurasi skor
sebenarnya. Studi-studi ini memberikan bukti pertama mengenai peran beban kognitif sebagai mekanisme
mediasi dimana memanipulasi fitur dari proses penilaian mempengaruhi akurasi penilai. Dengan demikian,
temuan yang disajikan di sini memiliki implikasi untuk literatur penilaian kinerja yang lebih luas.

Penilaian tradisional dan distribusi


Dalam konteks evaluasi kinerja, target peringkat menghasilkan berbagai perilaku terkait kinerja selama periode
evaluasi tertentu (Kane,1986), dengan kualitas kinerja yang biasanya bervariasi dari waktu ke waktu (misalnya, Beal,
Weiss, Barros, & MacDermid,2005; Reb & Cropanzano,2007). Saat menggunakan TA, penilai merangkum
keseluruhan informasi terkait kinerja ini ke dalam satu angka pada skala penilaian. Dengan demikian, peringkat TA
kehilangan informasi yang berpotensi penting mengenai variabilitas kinerja. Sebagai alternatif, saat menggunakan
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

DA, penilai melaporkan proporsi relatif dari kinerja target pemeringkatan di setiap tingkat pada skala penilaian
(Kane,1986). Seperti yang digambarkan dalamGambar 1, kategori respon yang digunakan dalam TA dan DA tidak
berbeda. Namun, meskipun TA hanya memunculkan peringkat ringkasan, DA memunculkan distribusi kinerja (“
miskin” 15% dari waktu, . . . "sangat baik" 10% dari waktu).
Dari sudut pandang praktis, DA memiliki dua keunggulan dibandingkan TA. Pertama, seperti
yang baru saja disinggung, DA menangkap informasi tentang jangkauan dan konsistensi kinerja
karyawan yang tidak dapat diperoleh melalui TA. Kedua, frekuensi rata-rata di seluruh kategori
respons menghasilkan perkiraan kinerja rata-rata yang lebih tepat, karena skor rata-rata tidak
dibatasi oleh seluruh angka skala penilaian. Rata-rata peringkat DA dalamGambar 1adalah 3,05,
yang sangat mirip dengan peringkat rata-rata TA diGambar 1(yaitu, 3). Namun, sebagai fungsi
dari peningkatan presisi ini, peringkat DA juga lebih mampu membedakan antara target
peringkat. Artinya, kinerja seorang karyawan yang menerima peringkat rata-rata 3,05 sangat
berbeda dengan kinerja karyawan yang menerima peringkat rata-rata 3,48, perbedaan yang
tidak dapat dibedakan jika menggunakan format TA. Peningkatan presisi dan informasi
tambahan yang terkait dengan DA dapat bermanfaat bagi berbagai fungsi sumber daya
manusia. Misalnya, informasi distribusi dapat digunakan untuk mengidentifikasi kebutuhan
perkembangan dan menetapkan tujuan kinerja. Selain itu, peringkat DA dapat
menginformasikan keputusan seleksi dan promosi, terutama dalam situasi ketika sangat
konsisten atau kinerja maksimum tingkat tinggi lebih disukai.1986,2000; Kane & Woehr,2006).
Namun, ini mungkin bukan satu-satunya manfaat menggunakan pendekatan evaluasi berbasis
frekuensi.

Penilaian Tradisional Penilaian Distribusi


instruksi: instruksi:

Silakan menilai karyawan dalam skala dari 1 Tolong tunjukkan proporsi waktu
= “buruk” sampai 5 = “sangat baik”. kinerja karyawan di setiap level, dari
1 = “buruk” hingga 5 =
"bagus sekali".

x 15% 15% 30% 30% 10%


1 2 3 4 5 12345

Gambar 1.Contoh skala penilaian penilaian tradisional dan distribusional.


KINERJA MANUSIA 3

Belajar 1

DA dan akurasi penilai

Secara keseluruhan, bukti bahwa DA meningkatkan akurasi penilai agak mengecewakan. Misalnya, percobaan laboratorium
awal menemukan bahwa DA tidak memberikan keuntungan lebih dari TA sehubungan dengan kesepakatan antar penilai
(Jako & Murphy,1990; Steiner, Hujan, & Smalley,1993). Namun, penelitian baru-baru ini menunjukkan peringkat DA
mengungguli peringkat TA pada beberapa kriteria kesepakatan penilai dalam pengaturan lapangan (Fox, Bizman, & Garti,
2005) dan menunjukkan peringkat DA untuk menghasilkan kesalahan pengukuran yang jauh lebih sedikit daripada
peringkat TA (Woehr & Miller,1997).
Pertimbangan konsistensi kinerja target peringkat dapat menyoroti temuan yang sebagian besar tidak konsisten ini.
Artinya, ketika kinerja target pemeringkatan sangat konsisten selama periode pengamatan, kemungkinan relatif mudah
untuk mengevaluasi kinerja secara akurat, terlepas dari format respons spesifik yang digunakan. Demikian juga, bias seperti
kebaruan atau kelebihan episode kinerja tertentu akan memiliki pengaruh yang lebih kecil pada peringkat rata-rata.
Sebaliknya, mencoba untuk rata-rata secara mental berbagai perilaku kinerja yang tidak konsisten dapat mengakibatkan
kesalahan penilai yang cukup besar, yang memimpin evaluasi berbasis frekuensi untuk menghasilkan akurasi penilai yang
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

jauh lebih besar. Ada dukungan empiris untuk proposisi ini, seperti Steiner et al. (1993) menemukan kesepakatan yang lebih
besar di antara penilai DA daripada di antara penilai TA dalam kondisi peningkatan variabilitas kinerja.

Tujuan pertama kami adalah untuk mereplikasi temuan kesepakatan penilai sebelumnya. Secara umum, kami mengharapkan penilai DA
untuk menunjukkan kesepakatan antar penilai yang lebih besar daripada penilai TA. Namun, seperti yang baru saja dijelaskan, kami berharap
perbedaan ini menjadi sangat menonjol ketika kinerja target pemeringkatan tidak konsisten.

H1a: Penilai DA akan menunjukkan kesepakatan antar penilai yang lebih besar daripada penilai TA.

H1b: Selisih kesepakatan antar penilai antara penilai DA dan TA akan lebih besar ketika target
kinerja tidak konsisten daripada ketika kinerja target konsisten.

Yang penting, penelitian DA sebagian besar mengandalkan berbagai bentuk interraterpersetujuan


sebagai proxy untuk penilaiakurasi (Edwards & Woehr,2007; Fleisher, Woehr, Edwards, & Cullen,2011; Fox
dkk.,2005; Jako & Murphy,1990; Steiner dkk.,1993). Hanya satu studi DA yang membahas akurasi penilai
relatif terhadap standar eksternal. Membandingkan peringkat DA dan TA dengan ukuran objektif kinerja
tipikal dalam sampel supervisor pabrik mesin jahit, Deadrick dan Gardner (1997) menemukan dua format
penilaian sama-sama akurat. Selain kriteria objektif, akurasi peringkat kinerja dapat dinilai dibandingkan
dengan peringkat skor sebenarnya yang dikembangkan oleh panel penilai ahli, suatu pendekatan yang
memberikan alternatif yang berguna sebagai standar eksternal ketika kriteria objektif tidak tersedia atau
tidak sesuai (mis. Schleicher, Day, Mayes, & Riggio, 2002; Sulsky & Balzer,1988). Tujuan kedua adalah untuk
membandingkan akurasi penilai TA dan DA menggunakan kriteria penilaian skor benar yang dikembangkan
ahli. Sejalan dengan harapan kami mengenai kesepakatan penilai, kami juga mengharapkan DA untuk
menghasilkan peringkat yang lebih akurat.

H2: Penilai DA akan menunjukkan akurasi skor sebenarnya yang lebih besar daripada penilai TA.

DA dan akurasi peringkat: Peran beban kognitif


Dalam konteks evaluasi kinerja, beban kognitif—jumlah sumber daya kognitif yang dilakukan individu untuk
memproses informasi pada titik tertentu (Paas & Van Merrienboer,1994)—dialami oleh penilai sejauh
mereka secara sadar memperhatikan, memproses, dan mengingat informasi terkait kinerja. Proses
mengevaluasi kinerja orang lain secara akurat diyakini secara luas menuntut kognitif (misalnya, DeNisi et al.,
1984). Dalam literatur penilaian kinerja, tidak jarang menggambarkan keterbatasan kognitif penilai,
menerapkan beberapa variasi pada tugas penilaian, dan kemudian menyimpulkan
4 VANHOVE, Owa, DAN KEDHARNATH

bahwa setiap peningkatan yang diamati dalam akurasi penilai adalah hasil dari penyederhanaan tugas dan pengurangan
beban kognitif yang dialami oleh penilai. Misalnya, Gaugler dan Thornton (1989) mengurangi jumlah dimensi kinerja yang
akan dinilai, menunjukkan bahwa ini meringankan beban memperhatikan dan mengingat perilaku tambahan. Demikian
pula, penelitian tentang pelatihan penilai menyiratkan bahwa, karena penilai lebih siap untuk tugas pemeringkatan, mereka
dapat lebih mudah memproses informasi terkait kinerja (misalnya, Day & Sulsky,1995; DeNisi & Peters,1996; Pulakos,1984).

Seperti yang baru saja dijelaskan, Kane (1986) berpendapat bahwa TA membutuhkan penilai untuk mengumpulkan
banyak perilaku terkait kinerja untuk mengembangkan peringkat kinerja rata-rata, elemen yang kemungkinan
menggabungkan tugas yang sudah menuntut secara kognitif (Edwards & Woehr,2007; Kane,2000). Sebaliknya, frekuensi
kejadian diyakini secara otomatis dikodekan dan dipanggil kembali, membutuhkan sedikit usaha sadar (Cosmides & Tooby,
1996; lihat Hasher & Zacks,1984). Memungkinkan penilai untuk langsung melaporkan distribusi kinerja dan menghilangkan
kebutuhan penilai untuk mengintegrasikan informasi kinerja yang berpotensi kontradiktif atau tidak konsisten ke dalam
peringkat rata-rata, DA diharapkan dapat secara signifikan mengurangi pengalaman penilai beban kognitif selama tugas
pemeringkatan (Edwards & Woehr,2007; Kane,2000; Kane & Woehr,2006). Pengurangan beban kognitif ini, pada gilirannya,
diharapkan berkontribusi pada peningkatan akurasi penilai (Kane,1986). Namun, peran mediasi beban kognitif belum diukur
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

secara langsung dalam DA atau literatur peringkat kinerja yang lebih luas. Dengan demikian, tujuan ketiga adalah untuk
memeriksa apakah penggunaan DA mengurangi beban kognitif yang ditempatkan pada penilai.

H3: Penilai DA akan melaporkan mengalami beban kognitif yang lebih sedikit daripada penilai TA.

H4: Beban kognitif akan memediasi hubungan antara format respons (DA atau TA) dan benar
akurasi skor.

metode

Peserta
Mahasiswa sarjana dari universitas besar di wilayah Pegunungan Rocky (N =205) mengikuti penelitian
ini untuk pemenuhan sebagian SKS. Empat peserta dikeluarkan dari analisis karena data penilaian
kinerja yang tidak lengkap. Dengan demikian, 201 peserta (71,6% perempuan) menjadi sampel akhir.

Prosedur dan bahan


Setiap sesi pengumpulan data berlangsung sekitar 75 menit, dan partisipasi diselesaikan menggunakan komputer laptop. Pertama, peserta diberikan

pelatihan penilai singkat, yang menggambarkan latihan simulasi yang akan mereka lihat, dimensi keterampilan di mana mereka harus mengevaluasi target,

dan contoh perilaku yang terkait dengan setiap tingkat kinerja pada skala penilaian yang ditambatkan secara perilaku (BARS). ) yang mereka gunakan untuk

membuat peringkat. Pelatihan berlangsung sekitar 20 menit dan disampaikan melalui presentasi PowerPoint interaktif otomatis. Pelatihan yang diterima oleh

mereka yang berada dalam kondisi TA dan DA adalah sama, kecuali instruksi mengenai penggunaan format respon (yaitu, DA atau TA). Setelah menyelesaikan

pelatihan penilai, peserta melihat video dari empat target pemeringkatan (konfederasi) yang menyelesaikan latihan simulasi pusat penilaian yang sama.

Setiap video berdurasi sekitar 8 menit, menghasilkan total waktu menonton sekitar 32 menit. Semua peserta melihat empat video yang sama, dan hanya

format tanggapan (yaitu, DA dan TA) dan urutan video yang berbeda antar peserta. Peserta diarahkan untuk menilai satu target tertentu selama setiap

latihan. Setelah melihat setiap video, peserta menilai kinerja target pada dua dimensi keterampilan (kerja tim dan komunikasi) dan melaporkan beban kognitif

yang mereka alami saat menilai target tersebut. DA dan TA) dan urutan video berbeda antar peserta. Peserta diarahkan untuk menilai satu target tertentu

selama setiap latihan. Setelah melihat setiap video, peserta menilai kinerja target pada dua dimensi keterampilan (kerja tim dan komunikasi) dan melaporkan

beban kognitif yang mereka alami saat menilai target tersebut. DA dan TA) dan urutan video berbeda antar peserta. Peserta diarahkan untuk menilai satu

target tertentu selama setiap latihan. Setelah melihat setiap video, peserta menilai kinerja target pada dua dimensi keterampilan (kerja tim dan komunikasi)

dan melaporkan beban kognitif yang mereka alami saat menilai target tersebut.

Latihan simulasi dan video.Latihan simulasi melibatkan target pemeringkatan yang bekerja dengan konfederasi lain
untuk merencanakan acara sosial bagi mahasiswa baru yang masuk. Mahasiswa pascasarjana berperan sebagai
target peringkat dalam video. Dua target diarahkan untuk menggambarkan kinerja yang konsisten,
KINERJA MANUSIA 5

dan dua diarahkan untuk menggambarkan tingkat kinerja yang tidak konsisten. Daftar perilaku yang harus disampaikan selama
latihan diberikan kepada setiap target untuk membantu penggambaran mereka yang efektif.

Pengukuran
Target kinerja.Penilaian kinerja masing-masing target pada dimensi keterampilan komunikasi dan kerja
sama tim dibuat menggunakan format respons DA atau TA (TA = 0, DA = 1). Mengikuti praktik terbaik untuk
penelitian DA seperti yang ditentukan oleh Kane (2000), BARS, sebagai lawan dari jangkar kata sifat
sederhana (misalnya, "baik," "buruk"), disediakan untuk setiap dimensi peringkat dan digunakan dengan
format TA dan DA. Jangkar perilaku yang digunakan dalam penelitian ini diadaptasi dari BARS 7 titik yang
ada yang dikembangkan untuk pusat penilaian perkembangan universitas. BARS yang ada termasuk jangkar
perilaku untuk empat tingkat kinerja (1, 3, 5, 7). Kami menyesuaikan BARS yang ada dengan skala 4 poin,
yang memberikan peserta dengan jangkar perilaku di setiap titik skala. Ini meminimalkan subjektivitas
dalam interpretasi penilai kategori peringkat, sejalan dengan rekomendasi DA yang diajukan oleh Kane (
2000).
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

Kesepakatan antar penilai.Kesepakatan antar-penilai dalam kelompok dinilai untuk setiap target peringkat × kombinasi
dimensi keterampilan. Sesuai dengan penelitian DA terbaru (Fleisher et al.,2011), kami menggunakanRwg(Yakobus,
Demaree, & Serigala,1984) untuk menilai persetujuan, yang dihitung sebagai berikut:
- -
Rwg¼.1S2xj=s2 mpv=m;

di manaRwgadalah kesepakatan antar-penilai dalam kelompok di antarakpenilai pada satu set target peringkat × keterampilan
peringkat dimensi,xJ; S2xjadalah varians yang diamati dalamxJ; S2 mpv/madalah varians maksimum yang mungkin
dan dihitung sebagai berikut:
- -
S2mpv=m¼.k M½.HthL- - M2-H L =Dk -1TH;

di manaMadalah rata-rata yang diamati di antarakpenilai danHdanLadalah nilai skala penilaian tertinggi dan terendah.
Ketika kesepakatan yang sempurna ada di antara penilaiRwg=1. SebuahRwgnilai 0,80 atau lebih besar menunjukkan
persetujuan yang kuat (Wagner, Rau, & Lindemann,2010).

Akurasi skor yang sebenarnya.Peringkat skor sebenarnya untuk setiap target peringkat pada setiap dimensi
keterampilan dikembangkan secara terpisah untuk format respons DA dan TA oleh panel yang terdiri dari empat
penilai ahli yang terdiri dari satu anggota fakultas dan tiga mahasiswa pascasarjana yang telah menyelesaikan
kursus tentang metode pusat penilaian dan dibantu dengan mengelola pusat penilaian universitas. Panel meninjau
empat video, mengembangkan peringkat secara independen, dan bertemu untuk mencapai konsensus tentang
peringkat rata-rata TA yang sebenarnya dan distribusi kinerja DA. Setelah konsensus, peringkat rata-rata DA yang
sebenarnya dihitung langsung dari distribusi kinerja DA sebagai berikut:

TM¼ ðP1F1= 100Þ þ ðP2F2= 100. . . DP4F4= 100TH;


di manaTMadalah peringkat rata-rata DA yang sebenarnya,Padalah nilai poin pada skala penilaian
(yaitu, 1-4), danFadalah frekuensi kinerja yang dilaporkan (dari 100%) padaP.Misalnya, distribusi
frekuensi di seluruh skala peringkat 4 poin 1 = 15%, 2 = 25%, 3 = 50%, dan 4 = 10% untuk target
peringkat pada dimensi kinerja akan dihitung sebagai berikut:

2:55¼ ð1 15=100Þ þ ð2 25=100Þ þ ð3 50=100Þ þ ð4 10=100TH

.
Untuk memastikan bahwa skor DA dan TA yang sebenarnya dapat dibandingkan, skor ini harus berada dalam jarak
setengah poin satu sama lain, yang menyiratkan bahwa peringkat DA akan dibulatkan ke nilai bilangan bulat dari
peringkat TA. Misalnya, jika nilai rata-rata TA yang sebenarnya sama dengan 3, nilai rata-rata DA sebenarnya yang
sesuai yang dihitung dari distribusi kinerja sebenarnya harus turun antara 2,50 dan 3,49, dan sebaliknya. Karena
kami mengoperasionalkan akurasi skor sebenarnya sebagai jarak absolut antara yang diberikan
6 VANHOVE, Owa, DAN KEDHARNATH

peringkat yang diamati dan skor benar panel ahli yang sesuai, nilai yang lebih kecil menunjukkan akurasi yang lebih
besar.
Berbagai cara untuk mengoperasionalkan akurasi skor sebenarnya telah dikemukakan dalam literatur (lihat Sulsky & Balzer,1988).
Masing-masing mewakili cara yang berbeda dalam menggabungkan informasi dalam-penilai (misalnya, di seluruh dimensi
keterampilan dan/atau target penilaian) untuk memperkirakan akurasi skor sebenarnya dalam desain penelitian tingkat tunggal.
Kami, bagaimanapun, menggunakan desain analitik bertingkat untuk menjelaskan fakta bahwa kedelapan peringkat yang dibuat
sebagai bagian dari tugas peringkat (dua dimensi keterampilan × empat target peringkat) bersarang di dalam penilai. Pendekatan ini
membuat operasionalisasi akurasi yang ada untuk desain tingkat tunggal tidak dapat dipertahankan. Namun, ini juga memungkinkan
operasionalisasi akurasi skor sebenarnya yang lebih mudah daripada desain tingkat tunggal. Artinya, kami mengoperasionalkan
akurasi skor sebenarnya sebagai perbedaan mutlak antara skor sebenarnya yang diamati dan yang sesuai untuk masing-masing dari
delapan penilaian yang dibuat oleh peserta.

Beban kognitif.Beban kognitif diukur menggunakan dua item terpisah: "Apa tingkat upaya mental Anda
selama tugas yang baru saja Anda selesaikan?" (Paas,1992) dan “Seberapa sulit tugas yang baru saja Anda
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

selesaikan?” (Kalyuga, Chandler, & Sweller,1999; Mayer & Chandler,2001). Meskipun ukuran item tunggal
sering dikritik, item khusus ini banyak digunakan dalam penelitian tentang beban kognitif dan telah terbukti
sangat andal (lihat Ayres,2006). Kedua item menggunakan skala 9 poin, dengan skor yang lebih tinggi
menunjukkan beban kognitif yang lebih besar.

Hasil
Statistik deskriptif
Tabel 1menyajikan statistik deskriptif dan korelasi untuk semua variabel studi, dengan upaya kognitif,
kesulitan, dan akurasi peringkat rata-rata di empat peringkat dari setiap variabel yang dibuat oleh setiap
peserta. Meskipun kami menguji hipotesis kami menggunakan pemodelan persamaan struktural bertingkat
(MLSEM), yang lebih akurat menjelaskan sifat data yang bersarang, statistik lintas peserta ini dapat
memberikan wawasan awal yang berguna mengenai tren keseluruhan.

Kesepakatan antar penilai antara penilai DA dan TA


Perkiraan kesepakatan antar penilai untuk setiap target peringkat × dimensi keterampilan ditampilkan secara
terpisah untuk kondisi DA dan TA diMeja 2. Penilai DA menunjukkan kesepakatan antar penilai yang lebih besar di
semua delapan peringkat. berartiRwgantara penilai DA dan TA masing-masing adalah 0,89 dan 0,77. Berdasarkan
pedoman Wagner et al. (2010) untuk menafsirkanRwgnilai, penilai DA menunjukkan persetujuan yang kuat di seluruh
peringkat, sedangkan penilai TA menunjukkan persetujuan yang moderat. Temuan ini mendukung H1a. H1b
memperkirakan perbedaan kesepakatan antara penilai DA dan TA lebih besar ketika kinerja target pemeringkatan
tidak konsisten, dibandingkan dengan konsisten. Meskipun kesepakatan lebih besar di antara penilai DA untuk
secara konsisten (DAPakwg= .90; TAPakwg= .74) dan target pemeringkatan yang tidak konsisten (DAPakwg= .88; TAPak
wg= .81), kesepakatan di antara penilai TA sebenarnya lebih dekat dengan penilai DA ketika kinerja target
pemeringkatan tidak konsisten. Dengan demikian, H1b tidak didukung.

Tabel 1.Studi 1 berarti, standar deviasi, dan korelasi.


M SD 1 2 3 4
1. Format tanggapan 0,52 0,50
2. UsahaSebuah 5.06 1.84 . 17*
3. KesulitanSebuah 3.34 1.44 . 12 . 39*
4. Akurasi Peringkat–CSebuah 0.38 0.21 . 02 . 11 . 03
5. Akurasi Peringkat–TSebuah 0.39 0,23 . 01 . 00 . 11 . 06
Catatan.C = dimensi peringkat komunikasi; T = dimensi penilaian kerja sama tim.
SebuahVariabel mewakili rata-rata yang dihitung, dalam individu, di keempat tugas pemeringkatan.
* p < .05.
KINERJA MANUSIA 7

Meja 2.Pelajari 1 kesepakatan antar penilai.

TASebuah DAB
Target Konsistensi Kinerja Dimensi Peringkat RWG S2mpv/m RWG S2mpv/m
SEBUAH Konsisten Komunikasi 0.73 1.18 0,90 1.49
SEBUAH Konsisten Kerja tim 0,86 1.83 0.93 1.80
B Konsisten Komunikasi 0,67 0,53 0,91 0,78
B Konsisten Kerja tim 0,69 0.27 0,86 0.82
C tidak konsisten Komunikasi 0,84 2.07 0,89 1.90
C tidak konsisten Kerja tim 0.93 2.05 0,95 2.07
D tidak konsisten Komunikasi 0,80 1.98 0,85 1.92
D tidak konsisten Kerja tim 0,67 2.06 0.82 2.16
Sebuahn =97.Bn =104.

Akurasi skor sebenarnya dan beban kognitif di antara penilai DA dan TA


Kami menguji hipotesis yang tersisa dalam kerangka MLSEM, seperti yang diusulkan oleh Preacher, Zyphur,
dan Zhang (2010; lihat juga LeBreton, Wu, & Bing,2008). Analisis dilakukan dengan menggunakan Mplus
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

(Muthén & Muthén,2010). Variabel yang termasuk dalam model mediasi adalah format respon DA/TA
(prediktor), usaha dan kesulitan kognitif (mediator), dan akurasi skor sebenarnya (hasil). Karena peserta
menggunakan format respons TA atau DA untuk membuat semua peringkat, format respons diperlakukan
sebagai variabel Level 2 (antara-penilai). Variabel Level 1 (dalam-penilai) termasuk upaya dan kesulitan
kognitif dan akurasi skor sebenarnya, karena setiap penilai memiliki empat set peringkat yang terpisah (satu
untuk setiap target). Ini menciptakan model MLSEM 2-1-1. Karena peringkat komunikasi dan kerja tim
bersarang di dalam target, yang bersarang di dalam penilai, termasuk kedua peringkat hasil secara
bersamaan akan memerlukan model tiga tingkat. Namun, perbedaan antara peringkat komunikasi dan kerja
tim tidak menjadi perhatian utama di sini. Dengan demikian, peringkat untuk komunikasi dan kerja tim
dianalisis secara terpisah, dan = 0,025 digunakan untuk menentukan signifikansi statistik dari jalur mediasi
dari upaya kognitif dan kesulitan kognitif ke akurasi skor sebenarnya dan jalur langsung dari tipe format
respons ke akurasi skor sebenarnya. Hal ini dilakukan untuk menghindari peningkatan tingkat kesalahan
familywise. Alfa 0,05 digunakan untuk jalur yang tersisa, karena tidak terpengaruh oleh dimensi mana yang
dinilai, dan perkiraannya identik terlepas dari dimensi keterampilan (lihatGambar 2).

Tanggapan Di antara-
Format peserta
JalurSebuah (Level 2)
. 18* (.07)

kognitif JalurD Di dalam-

Upaya
. 52 (.89),-.15 (1.16) peserta
JalurB
(Tingkat 1)
. 13 (.07)
JalurC Akurasi Peringkat:
. 38*** (.08) komunikasi/Tim

kognitif Jalure
Kesulitan - . 04 (.36),-.29 (1,95)

JalurF
- . 11 (.36),.03 (.59)

Gambar 2.Model mediasi bertingkat untuk komunikasi dan penilaian kerja tim.Catatan.Kesalahan standar ada dalam tanda kurung;
Nilai kerja tim dicetak tebal; *p < .025 di mana perkiraan terpisah diberikan untuk peringkat Komunikasi dan Kerja Sama dan
* p < .05 untuk semua perkiraan lainnya; Kom = Komunikasi; Tim = Kerja tim.
8 VANHOVE, Owa, DAN KEDHARNATH

Korelasi intraclass (ICCs) mencerminkan varians yang terkait dengan perbedaan Level 2 (yaitu, karena
format respons yang digunakan), relatif terhadap varians total di Level 1 dan 2, dalam model tidak terbatas
atau nol sebelum prediktor diperhitungkan. ICC menunjukkan bahwa 74% dari varians dalam upaya kognitif,
58% dari varians dalam kesulitan kognitif, 2% dari varians dalam akurasi skor sebenarnya untuk peringkat
komunikasi, dan 0,1% dari varians dalam akurasi skor sebenarnya untuk peringkat kerja tim disebabkan oleh
format jawaban yang digunakan. Estimasi ini menunjukkan perbedaan yang berpotensi bermakna dalam
beban kognitif yang dilaporkan antara penilai DA dan TA, tetapi signifikansi praktis minimal untuk
perbedaan antara akurasi skor sejati penilai DA dan TA untuk kedua dimensi keterampilan.
Gambar 2menggambarkan hasil model MLSEM untuk komunikasi dan kerja tim. H2 mengusulkan bahwa akurasi skor
sebenarnya akan lebih besar di antara mereka yang menggunakan format respons DA. Hasil gagal mendukung hipotesis ini,
karena efek langsung dari format respons pada akurasi skor sebenarnya (jalurF)tidak signifikan secara statistik baik dalam
model komunikasi atau kerja tim. H3 mengusulkan bahwa penilai DA akan melaporkan beban kognitif yang lebih sedikit
daripada penilai TA. Hasil memang menunjukkan hubungan yang signifikan antara format respons dan upaya kognitif
(jalur).Sebuah),tetapi bertentangan dengan hipotesis kami, penilai DA melaporkan melakukan lebih banyak upaya selama
tugas pemeringkatan daripada penilai TA. Format respons tidak secara signifikan memengaruhi laporan penilai tentang
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

kesulitan kognitif (jalur)B).Bersama-sama, temuan ini tidak mendukung H3. H4 mengusulkan beban kognitif untuk
menengahi hubungan antara format respon dan akurasi skor yang sebenarnya. Namun, tidak satu pun dari indikator beban
kognitif yang secara signifikan berhubungan dengan akurasi skor sebenarnya di kedua model. Dengan demikian, hasil gagal
mendukung H4.

Diskusi
Konsisten dengan penelitian sebelumnya, temuan kami menunjukkan bahwa penilai DA menghasilkan kesepakatan antar
penilai yang lebih besar daripada penilai TA di seluruh target penilaian dan dimensi keterampilan. Namun, temuan juga
menunjukkan perbedaan ini menjadi lebih kecil (tidak lebih besar) di antara peringkat pemain yang tidak konsisten, sebuah
temuan yang bertentangan dengan teori dan bukti yang ada. Berkenaan dengan efek pada beban kognitif dan akurasi skor
sebenarnya, penilai DA tidak lebih akurat, melaporkan tugas pemeringkatan tidak kalah sulitnya secara kognitif, dan
melaporkan melakukan upaya yang lebih signifikan selama tugas pemeringkatan. Akhirnya, kami tidak menemukan bukti
bahwa beban kognitif memediasi hubungan antara format respons dan akurasi skor sebenarnya.
Temuan ini menimbulkan beberapa pertanyaan menarik tentang peran upaya kognitif dan kesulitan yang
berkaitan dengan penggunaan DA dan TA, serta proses penilaian kinerja secara umum. Sebelum implikasi ini dapat
dieksplorasi, bagaimanapun, perlu untuk mengatasi dua masalah desain studi yang dapat menjelaskan beberapa
dari hasil nol ini. Pertama, kami mengadaptasi skala 7 poin yang ada dengan jangkar perilaku di setiap titik lain
pada skala menjadi skala 4 poin untuk memberikan jangkar perilaku untuk setiap opsi respons. Kedua, semua
penilai menerima pelatihan untuk membiasakan mereka dengan skala tugas dan respons. Kedua fitur ini digunakan
untuk menyelaraskan dengan rekomendasi penggunaan DA (Kane,2000). Namun, rentang pilihan respons terbatas
yang terkait dengan skala penilaian 4 poin dan penyediaan pelatihan penilai, yang meskipun singkat telah terbukti
meningkatkan akurasi (Woehr & Huffcutt,1994), mungkin telah meminimalkan permintaan kognitif dan kesalahan
penilaian di antara penilai dalam kedua kondisi tersebut. Dengan demikian, kekuatan statistik yang cukup besar
kemungkinan akan diperlukan untuk menghasilkan perbedaan antarkondisi yang signifikan secara statistik.

Belajar 2

Kami berusaha untuk mereplikasi hasil Studi 1 melalui tugas pemeringkatan yang lebih menantang. Secara
khusus, kami menggunakan skala penilaian 7 poin. Sejalan dengan Kane (2000) rekomendasi kami
mempertahankan penggunaan jangkar perilaku. Namun, jangkar disediakan hanya pada titik bergantian
dari skala penilaian (yaitu, 1, 3, 5, dan 7). Kami juga memperkenalkan manipulasi eksperimental baru: Sekitar
setengah dari peserta di setiap kondisi menyelesaikan pelatihan penilai dan separuh lainnya tidak. Karena
pelatihan penilai sering direkomendasikan sebagai mekanisme untuk meningkatkan akurasi dalam semua
jenis penilaian kinerja (misalnya, Lievens,2001; Woehr & Huffcutt,1994), kami berusaha untuk memeriksa
KINERJA MANUSIA 9

efek moderasi pelatihan penilai pada hubungan antara format respons dan akurasi
penilaian.

H5a: Penilai DA akan menunjukkan kesepakatan antar penilai yang lebih besar daripada penilai TA.

H5b: Selisih kesepakatan antar penilai antara TA dan DA akan paling besar ketika target
kinerja tidak konsisten dan pelatihan penilai tidak diberikan.

H6: Penilai DA akan menunjukkan akurasi skor sebenarnya yang lebih besar daripada penilai TA.

H7: Penilai yang menerima pelatihan penilai akan menunjukkan akurasi skor sebenarnya yang lebih besar daripada mereka yang
tidak menerima pelatihan penilai.

H8: Pelatihan penilai akan memoderasi hubungan antara format respons dan akurasi skor sebenarnya,
di mana penilai DA akan lebih akurat daripada penilai TA ketika pelatihan penilai tidak diberikan.
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

H9: Penilai DA akan melaporkan mengalami lebih sedikit beban kognitif daripada penilai TA.

H10: Beban kognitif akan memediasi hubungan antara format respons (DA atau TA) dan benar
akurasi skor.

metode

Peserta
Sebanyak 438 mahasiswa sarjana dari sebuah universitas besar di kawasan Rocky Mountain mengikuti studi untuk
pemenuhan sebagian kredit mata kuliah. Dua puluh satu peserta memiliki data peringkat kinerja yang tidak
lengkap. Konsisten dengan Studi 1, orang-orang ini telah dihapus meninggalkan sampel akhir dari 417 peserta
(56,6% perempuan).

Ukuran, bahan, dan prosedur


Prosedur yang digunakan dalam Studi 2 hampir identik dengan yang di Studi 1. Namun,
selain ditugaskan untuk kondisi DA atau TA, peserta dibagi lagi menjadi kondisi pelatihan
dan tanpa pelatihan. Penilai DA dan TA dalam kondisi pelatihan mengikuti prosedur
pelatihan yang digunakan dalam Studi 1. Peserta dalam kondisi tanpa pelatihan hanya
menerima instruksi umum untuk menilai target dalam video. Semua peserta kemudian
melihat empat video yang sama yang digunakan dalam Studi 1 dan menilai setiap target
pada dimensi keterampilan komunikasi dan kerja tim. BARS yang sama digunakan dalam
Studi 2 seperti dalam Studi 1. Namun, peringkat dalam Studi 2 dibuat menggunakan skala 7
poin, dengan contoh perilaku yang diberikan pada poin 1, 3, 5, dan 7.

Hasil

Statistik deskriptif
Tabel 3menyajikan statistik deskriptif dan korelasi antar variabel penelitian. Seperti dalam Studi 1, nilai untuk upaya
kognitif, kesulitan kognitif, dan akurasi skor sebenarnya dalam tabel ini didasarkan pada rata-rata peringkat
masing-masing peserta di empat tugas pemeringkatan.
10 VANHOVE, Owa, DAN KEDHARNATH

Tabel 3.Studi 2 berarti, standar deviasi, dan korelasi.


M SD 1 2 3 4 5
1. Format tanggapan 0,53 0,50
2. Pelatihan 0.38 0,49 . 06
3. UsahaSebuah 5.18 1.98 . 03 . 00
4. KesulitanSebuah 3.04 1.34 . 21* . 00 . 32*
5. Akurasi Peringkat–CSebuah 0.82 0.33 . 11* . 08 . 04 . 06
6. Akurasi Peringkat–TSebuah 0,69 0.32 . 11* . 08 . 07 . 02 . 20*

Catatan.C = dimensi peringkat komunikasi; T = dimensi penilaian kerja sama tim.


SebuahVariabel mewakili rata-rata yang dihitung, dalam individu, di keempat tugas pemeringkatan.
* p < .05.

Kesepakatan antar penilai


Tabel 4menggambarkan perkiraan kesepakatan antar penilai untuk penilai DA dan TA. Perkiraan disediakan untuk semua
penilai DA dan semua penilai TA, serta secara terpisah untuk penilai terlatih dan tidak terlatih dalam setiap kondisi format
respons. Di antara penilai terlatih dan tidak terlatih, penilai DA sekali lagi menunjukkan persetujuan yang lebih besar
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

daripada penilai TA di kedelapan peringkat. berartiRwgantara penilai DA dan TA masing-masing adalah 0,88 dan 0,83. Hasil
ini mendukung H5a. Namun, perbedaan ini relatif kecil, dengan kedua kondisi mencapai tingkat kesepakatan rata-rata yang
kuat (lih. Wagner et al.,2010). Beralih ke kesepakatan antar penilai di bawah konsistensi kinerja tertentu dan kondisi
pelatihan penilai, penilai DA menunjukkan tingkat kesepakatan yang kuat secara konsisten (Rwg= .83-.94), sedangkan TA
menunjukkan persetujuan yang agak lebih rendah (Rwg= .74-.93). Yang menarik, kesepakatan antar penilai di antara penilai
TA tampaknya membaik dengan meningkatnya kompleksitas tugas pemeringkatan. Artinya, kesepakatan penilai TA paling
lemah di antara penilaian penilai terlatih untuk kinerja yang konsisten (TAPakwg= .80 vs. DAPakwg= .89), sedangkan
kesepakatan penilai TA paling besar di antara penilaian penilai yang tidak terlatih untuk kinerja yang tidak konsisten (TAPak
wg= .86 vs. DAPakwg= .90; melihatTabel 4). Secara keseluruhan, hasil gagal mendukung H5b, yang memperkirakan bahwa
perbedaan kesepakatan antara penilai DA dan TA akan paling menonjol di antara penilai yang tidak terlatih yang menilai
kinerja yang tidak konsisten.

Akurasi skor sebenarnya dan beban kognitif di antara penilai DA dan TA


Menggunakan skala respons 7 poin, kami mereplikasi model MLSEM dari Studi 1, dengan satu pengecualian: Kami
menambahkan efek pelatihan antara penilai (Level 2) (lihatGambar 3). Ini memperkenalkan empat jalur tambahan
untuk model: efek langsung pada upaya kognitif (jalur)G),kesulitan kognitif (jalanH),dan akurasi skor sebenarnya
(jalursaya),dan efek moderasi pada hubungan antara format respons dan skor sebenarnya

Tabel 4.Pelajari 2 kesepakatan antar penilai.

Tidak hujan Pelatihan Total


TASebuah DAB TAC DAD TAe DAF
Pertunjukan Peringkat S2mpv/ S2mpv/ S2mpv/ S2mpv/ S2mpv/ S2mpv/
Target Konsistensi Dimensi RWG M RWG M RWG M RWG M RWG M RWG M
SEBUAH Konsisten Komunikasi . 79 6.95 . 87 6.85 . 82 6.94 . 86 6.54 . 80 . 86 6.70
6.91
SEBUAH Konsisten Kerja tim . 88 8.06 .92 7.88 . 87 7.32 . 89 7.86 . 87 . 91 7.84
7.79
B Konsisten Komunikasi . 82 1,34 . 87 2.40 . 74 2.18 . 87 1.82 . 78 . 87 2.15
1.63
B Konsisten Kerja tim . 83 2.28 . 87 2.76 . 76 1.62 . 92 1.74 . 81 . 88 2.34
2.05
C tidak konsisten Komunikasi . 85 8.53 . 88 8.22 . 79 7.69 . 89 7.39 . 82 . 88 7.88
8.25
C tidak konsisten Kerja tim . 93 8.42 . 93 8.42 . 91 7.80 . 94 7.91 . 92 . 93 8.19
8.19
D tidak konsisten Komunikasi . 87 6.25 . 90 5,75 . 84 6.98 . 85 7.17 . 86 . 87 6.35
6.48
D tidak konsisten Kerja tim . 80 6.30 . 88 6.09 .81 6.57 . 83 7.01 .81 . 85 6.46
6.36
Sebuahn =126.Bn =131.Cn =68.Dn =92.en =194.Fn =223.
KINERJA MANUSIA 11

Pelatihan

Jalursaya

. 14 (.26),.51 (.41)
JalurG
Di antara-
. 00 (.05)
peserta
Tanggapan
JalurSebuah
(Level 2)
. 03 (.05) JalurH
Format
- . 01 (.05)

JalurB
. 22* (.05) JalurD Di dalam-
kognitif
- . 02 (.03),.06 (.03) peserta
Upaya
(Tingkat 1)

JalurC Akurasi Peringkat:


. 36* (.04) komunikasi/Tim

JalurJ
. 16 (.26), Jalure
kognitif
- . 30 (.35) - . 02 (.03),-.01 (.03)
Kesulitan
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

JalurF
- . 39* (.18),-.31 (.29)

Gambar 3.Model mediasi bertingkat untuk komunikasi dan penilaian kerja tim.Catatan.Kesalahan standar ada dalam tanda kurung;
Nilai kerja tim dicetak tebal; *p < .025 di mana perkiraan terpisah diberikan untuk peringkat Komunikasi dan Kerja Sama dan
* p < .05 untuk semua perkiraan lainnya; Kom = Komunikasi; Tim = Kerja tim.

akurasi (jalurJ).Sekali lagi kami menguji model terpisah yang memprediksi akurasi skor sebenarnya pada dimensi
keterampilan komunikasi dan kerja tim. ICC menunjukkan bahwa variabel antara penilai (format tanggapan dan
pelatihan) menyumbang 81% dari varians dalam upaya kognitif, 70% dari varians dalam kesulitan kognitif, 3% dari
varians dalam akurasi skor sebenarnya untuk peringkat komunikasi, dan 2% dari varians dalam akurasi peringkat
untuk peringkat kerja tim.
Gambar 3menggambarkan hasil model untuk komunikasi dan kerja tim. H6 mengusulkan bahwa akurasi skor
sebenarnya akan lebih besar di antara mereka yang menggunakan format respons DA. Seperti yang ditunjukkan
padaGambar 3 (jalurF),kami menemukan efek langsung yang signifikan untuk format respons pada akurasi skor
sebenarnya di antara peringkat komunikasi. Arahan negatif dari efek menunjukkan perbedaan yang lebih kecil
secara signifikan antara peringkat skor yang diamati dan nilai sebenarnya di antara penilai DA, yang menunjukkan
akurasi yang lebih besar. Efek langsung untuk kerja tim juga negatif tetapi tidak signifikan. Dengan demikian, hasil
sebagian mendukung H6. H7 mengusulkan bahwa akurasi skor sebenarnya akan lebih besar di antara penilai
terlatih (jalursaya), dan H8 mengusulkan bahwa apakah penilai menerima pelatihan atau tidak akan memoderasi
efek format respons pada akurasi skor sebenarnya (jalurJ).H7 dan H8 tidak didukung baik dalam model komunikasi
atau kerja tim. Pemeriksaan sarana untuk akurasi peringkat rata-rata peserta di empat tugas, menurut format
peringkat dan kondisi pelatihan, mendukung kesimpulan ini (Tabel 5).1Selanjutnya, meskipun kami tidak menyajikan
hipotesis spesifik mengenai efek pelatihan penilai pada upaya atau kesulitan kognitif (jalur)GdanH),kami memang
menyertakan jalur ini dalam model dengan cara eksplorasi. Namun, hasil menunjukkan bahwa efek tersebut tidak
signifikan dan besarnya sepele.
Seperti dalam Studi 1, kami sekali lagi berusaha untuk menilai efek mediasi potensial dari beban kognitif pada hubungan antara
format respons dan akurasi penilai. Secara khusus, kami berhipotesis bahwa penilai DA akan melaporkan mengalami lebih sedikit
beban kognitif daripada penilai TA (H8) dan bahwa DA secara tidak langsung akan mempengaruhi akurasi skor sebenarnya melalui
pengurangan beban kognitif ini (H9). Kami menemukan efek yang signifikan secara statistik untuk

1Analisis varians dilakukan dengan akurasi peringkat rata-rata peserta sebagai variabel dependen menyarankan kemungkinan utama
efek untuk format penilaian: komunikasi,F(1, 413) = 4,77,p = .03; Kerja tim,F(1, 413) = 4,72,p = .03, meskipun ini tidak
memenuhi kriteria untuk signifikansi (Bonferroni-dikoreksi = 0,025). Namun, tidak ada efek utama yang signifikan dari
komunikasi pelatihan,F(1, 413) = 2,93,p = .09; kerja tim,F(1, 413) = 2,80,p = .09—atau interaksi antara pelatihan dan format
penilaian—komunikasi,F(1, 413) = 0,49,p = .48; kerja tim,F(1, 413) = 0,88,p = .35.
12 VANHOVE, Owa, DAN KEDHARNATH

Tabel 5.Pelajari 2 cara akurasi peringkat berdasarkan kondisi.

Komunikasi Kerja tim


Tidak hujan Pelatihan Tidak hujan Pelatihan

Format M SD M SD M SD M SD
TA . 85 . 36 . 88 . 41 . 69 . 40 . 78 . 32
DA . 76 . 26 . 84 . 31 . 64 . 26 . 67 . 25
Catatan.Semua peringkat mewakili rata-rata yang dihitung, dalam individu, di keempat tugas peringkat. TA = penilaian tradisional; DA =
penilaian distribusi.

format respons pada laporan peserta tentang kesulitan kognitif selama tugas penilaian. Namun, serupa dengan efek format
respons pada upaya kognitif dalam Studi 1, penilai DA melaporkan tugas itu lebih (tidak kurang) sulit daripada penilai TA.
Selain itu, baik laporan upaya kognitif maupun kesulitan tidak secara signifikan memprediksi akurasi skor sebenarnya untuk
kedua dimensi keterampilan. Dengan demikian, H8 dan H9 tidak didukung.
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

Diskusi
Dalam Studi 2, kami berusaha untuk mereplikasi temuan Studi 1 melalui tugas pemeringkatan yang lebih
kompleks. Secara khusus, kami menggunakan skala peringkat dengan rentang pilihan respons yang lebih
luas karena kemungkinan bahwa skala 4 poin yang digunakan dalam Studi 1 membatasi variabilitas dalam
peringkat yang diamati dan meningkatkan akurasi skor sebenarnya dalam kondisi DA dan TA. Selain itu,
kami memanipulasi apakah penilai dalam kondisi DA dan TA menerima pelatihan untuk memeriksa apakah
pelatihan penilai yang diberikan kepada semua peserta dalam Studi 1 semakin mengurangi potensi
kesalahan di seluruh kondisi format respons. Hasil kami menunjukkan bahwa pelatihan bukanlah penjelasan
yang memadai untuk hasil Studi 1, karena tidak ada hipotesis mengenai pelatihan yang didukung. Meskipun
kekuatan statistik dapat menjadi perhatian ketika menguji efek interaksi di MLSEM (Mathieu, Aguinis,
Culpepper, &2012), ICC kecil untuk akurasi peringkat dan statistik deskriptif yang disajikan dalamTabel 3dan
5menyarankan bahwa efek pelatihan minimal, dan tidak mungkin menunjukkan kepentingan praktis bahkan
jika kekuatan statistik penelitian ditingkatkan.
Meskipun kami tidak menemukan bukti yang menunjukkan bahwa menghapus pelatihan penilai menghasilkan efek
diferensial, penilai DA memang menunjukkan kesepakatan antar penilai yang lebih besar di seluruh peringkat dan akurasi
skor sebenarnya yang lebih besar untuk salah satu dari dua dimensi keterampilan. Namun, penilai DA kembali melaporkan
peningkatan, bukan penurunan, beban kognitif, kali ini dengan melaporkan kesulitan kognitif yang lebih besar secara
signifikan.

Diskusi Umum
Sudah lama diasumsikan bahwa menilai kinerja orang lain mewakili tugas yang menuntut secara kognitif dan
bahwa penyederhanaan yang dibuat untuk proses berkontribusi pada pengurangan kesalahan penilai dan
peningkatan akurasi penilai. Teori yang ada menunjukkan bahwa DA meningkatkan akurasi penilai, sebagian,
melalui melewati rata-rata mental yang terkait dengan menentukan peringkat rata-rata (Kane,2000; Kane & Woehr,
2006). Namun, sejumlah proposisi yang melekat pada gagasan ini belum diuji secara langsung melalui penelitian
sebelumnya.
Temuan kami memberikan dukungan tentatif untuk proposisi bahwa DA meningkatkan akurasi penilai. Secara
tidak langsung, temuan kami menunjukkan bahwa penilai DA secara konsisten menunjukkan persetujuan yang
lebih kuat dalam penilaian mereka daripada penilai TA. Penelitian ini juga yang pertama memberikan bukti yang
mendukung proposisi sebelumnya melalui penggunaan kriteria akurasi eksternal, dan, meskipun efek DA pada
akurasi skor sebenarnya signifikan secara statistik hanya dalam satu dari empat kasus, arah efek sebagian besar
mendukung penilai DA. Sebaliknya, temuan kami tidak mendukung proposisi bahwa peningkatan akurasi penilai
dihasilkan dari pengurangan beban kognitif yang dialami oleh penilai. Artinya, penilai DA, bukan penilai TA, yang
melaporkan beban kognitif yang lebih besar selama tugas pemeringkatan. Lebih-lebih lagi,
KINERJA MANUSIA 13

tak satu pun dari model yang diuji menunjukkan bahwa beban kognitif berperan sebagai mediasi. Jadi, meskipun
tampaknya ada beberapa keuntungan menggunakan DA dalam hal mengurangi kesalahan penilai, pemahaman kita saat ini
tentang "mengapa" (yaitu, pengurangan beban kognitif) mungkin tidak sepenuhnya akurat.
Namun, sebelum menarik kesimpulan tegas apa pun mengenai kelayakan teori DA yang ada, sejumlah poin perlu
disebutkan lebih lanjut. Pertama, menggunakan DA untuk menilai kinerja merupakan tugas baru. Meskipun TA adalah hal
yang biasa dan mayoritas (jika tidak semua) peserta penelitian memiliki pengalaman yang cukup dalam menggunakan
format ini, beberapa (jika ada) peserta penelitian kemungkinan memiliki pertemuan sebelumnya dengan DA. Dengan
demikian, kebaruan DA mungkin memerlukan setidaknya investasi awal sumber daya kognitif tambahan, yang mungkin
telah berkontribusi pada laporan beban kognitif yang lebih besar.
Kedua, tugas pemeringkatan mungkin terlalu sederhana untuk tuntutan kognitif untuk menghasilkan efek
mediasi. Bahkan penilai DA melaporkan mengalami beban kognitif yang terbatas, dengan tingkat kesulitan dan
upaya rata-rata di seluruh studi umumnya jatuh di dekat atau di bawah titik tengah pada skala ini. Kami berusaha
meningkatkan kompleksitas tugas pemeringkatan dalam Studi 2. Namun, periode pengamatan tetap relatif singkat
(masing-masing sekitar 8 menit), membatasi jumlah perilaku terkait kinerja yang dapat dihasilkan oleh target
pemeringkatan. Faktor-faktor ini mungkin telah membatasi tuntutan kognitif dari tugas pemeringkatan dan
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

kesempatan untuk melaporkan peringkat yang sangat tidak akurat, terlepas dari format respons yang digunakan,
dan mungkin sebagian menjelaskan mengapa perbedaan yang lebih besar dalam akurasi skor sebenarnya tidak
ditemukan antara kondisi DA dan TA.
Akhirnya, temuan kami menunjukkan perbedaan yang lebih sedikit dalam kesepakatan penilai antara penilai DA
dan TA di bawah kondisi tugas pemeringkatan yang lebih kompleks, yang juga bertentangan dengan teori yang ada
mengenai keuntungan yang diusulkan dari DA (Kane,2000; Kane & Woehr,2006). Yang penting, ini bukan karena
penurunan kesepakatan penilai di antara penilai DA, yang menunjukkan kesepakatan yang stabil di seluruh kondisi
pemeringkatan. Sebaliknya, ini dihasilkan dari peningkatan kesepakatan di antara penilai TA di bawah kondisi
pemeringkatan yang lebih kompleks, mungkin karena meningkatnya kompleksitas tugas pemeringkatan yang
relatif mudah sebenarnya membangkitkan keterlibatan penilai TA dalam tugas tersebut.
Temuan ini sangat penting karena model yang diuji di sini dan teori DA yang ada bertumpu pada asumsi bahwa
penilai secara aktif terlibat dalam proses pemeringkatan. Namun, ada kemungkinan bahwa terbatasnya jumlah
perilaku terkait kinerja dan keakraban peserta dengan TA ditambah dengan (kadang-kadang) kinerja target yang
konsisten mengakibatkan peningkatan kerentanan terhadap penggunaan heuristik (Tversky & Kahneman,1974).
Kerentanan yang sama ini mungkin tidak ada dalam peringkat DA. Memang, banyak temuan dari literatur psikologi
kognitif menunjukkan bahwa estimasi frekuensi kurang rentan terhadap heuristik daripada penilaian rata-rata (lihat
Kane & Woehr,2006). Dengan asumsi bahwa DA memaksa penilai untuk kurang mengandalkan heuristik, dan
akibatnya untuk mempertahankan keterlibatan yang lebih besar dalam tugas pemeringkatan, dapat menjelaskan
tidak hanya mengapa penilai DA menunjukkan persetujuan penilai yang kuat secara konsisten tetapi juga mengapa
mereka secara konsisten melaporkan tingkat beban kognitif yang lebih besar. Dalam hal penilai secara aktif terlibat
dalam tugas penilaian dan termotivasi untuk menilai secara akurat, TA memang dapat menghasilkan beban kognitif
yang cukup besar. Dalam kondisi ini, evaluasi berbasis frekuensi mungkin kurang menuntut secara kognitif
daripada menimbang semua informasi kinerja yang tersedia untuk menghasilkan peringkat rata-rata. Namun,
ketika kondisi ini tidak berlaku, mengingat kembali beberapa perilaku yang diperlukan oleh DA mungkin lebih sulit
dan membutuhkan lebih banyak usaha daripada penggunaan heuristik. Selain itu, ketika tugas pemeringkatan
relatif mudah,
Temuan ini menimbulkan pertanyaan tentang pendukung DA dan pernyataan literatur evaluasi kinerja
yang lebih luas yang secara efektif mengurangi tuntutan kognitif yang ditempatkan pada penilai mengarah
pada peningkatan akurasi penilai. Sedangkan penelitian peringkat kinerja masa lalu berfokus pada
penyederhanaan tugas pemeringkatan, penelitian tentang heuristik menunjukkan bahwa penilai sering
menyederhanakan tugas untuk diri mereka sendiri. Meskipun DA dapat secara efektif meningkatkan akurasi
peringkat dalam situasi peringkat kinerja yang sangat kompleks dengan menghilangkan rata-rata mental
yang terkait dengan peringkat rata-rata, DA juga dapat menghindari penggunaan heuristik dengan
memaksa keterlibatan yang lebih aktif di pihak penilai—yaitu, dengan mengharuskan penilai untuk lebih
hati-hati mempertimbangkan jangkauan dan konsistensi kinerja target. Argumen bahwa peningkatan
akurasi bukan karena menyederhanakan tugas pemeringkatan,
14 VANHOVE, Owa, DAN KEDHARNATH

diterapkan pada banyak teknik yang dipelajari sebelumnya. Misalnya, mengharuskan penilai untuk mengingat
pengamatan perilaku tertentu (Baltes & Parker,2000), membuat penilai menyadari perbedaan antara definisi dan
perilaku yang terkait dengan dimensi kinerja tertentu (Woehr & Huffcutt,1994), dan meminimalkan redundansi di
antara dimensi penilaian—sehingga mengurangi kemampuan penilai untuk menggeneralisasi perilaku lintas
dimensi (Gaugler & Thornton,1989)—adalah semua pendekatan yang meningkatkan tuntutan kognitif yang terkait
dengan aspek spesifik dari tugas pemeringkatan untuk meminimalkan penggunaan heuristik dan meningkatkan
akurasi.
Temuan kami memberikan bukti empiris bahwa asumsi yang ada mengenai hubungan antara karakteristik
peringkat, beban kognitif, dan akurasi mungkin tidak berlaku di seluruh situasi peringkat kinerja. Namun, kami
harus menekankan bahwa meskipun kami menemukan beberapa bukti bahwa DA meningkatkan beban kognitif
dan meningkatkan akurasi penilai, kami tidak menemukan dukungan untuk mediasi. Meskipun demikian, bukti
yang disajikan di sini menunjukkan perlunya teori dan penelitian lebih lanjut mengenai peran beban kognitif dalam
proses penilaian.
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

Keterbatasan dan arah masa depan

Desain laboratorium dari studi ini memberi kami kontrol atas variabel kunci (misalnya, semua penilai melihat
kinerja yang sama dari target yang sama) dan memungkinkan kami untuk menyelidiki pertanyaan yang akan
sulit dijawab dalam pengaturan lapangan. Meminta penilai dalam konteks penilaian kinerja organisasi untuk
melaporkan beban kognitif yang mereka alami kemungkinan akan dipandang sebagai beban dan
mengganggu. Namun desain ini juga membawa keterbatasan tertentu, terutama sehubungan dengan
generalisasi temuan kami. Pertama, motivasi peserta sarjana dalam pengaturan konsekuensi rendah ini
dapat menimbulkan kekhawatiran. Namun, kurangnya motivasi di pihak penilai tidak hanya terjadi di
laboratorium.1991), dan penelitian yang cukup besar menunjukkan bahwa, bahkan dalam situasi penilaian
kinerja operasional, penilai umumnya mengandalkan heuristik (Kulik & Ambrose,1993). Kedua, meskipun
kompleksitas tugas pemeringkatan meningkat dalam Studi 2, mengevaluasi dua dimensi keterampilan
selama latihan simulasi 8 menit tetap merupakan tugas yang relatif sederhana dibandingkan dengan yang
dihadapi oleh evaluator dalam pengaturan lapangan. Pada akhirnya, kami mengakui ketidakmampuan
setiap studi laboratorium untuk sepenuhnya mensimulasikan penilaian kinerja di tempat kerja. Meskipun
studi laboratorium seperti ini dapat memberikan informasi awal yang berguna mengenai variabel seperti
beban kognitif, yang sulit diukur dalam konteks terapan, peningkatan penelitian lapangan tentang DA jelas
dibutuhkan.
Penelitian di masa depan tentang DA juga harus memperhatikan perbedaan antara kesepakatan penilai dan
akurasi penilai. Sebagian besar penelitian tentang DA (dan banyak penelitian tentang penilaian kinerja) berfokus
pada kesepakatan. Namun, temuan kami menunjukkan bahwa keduanya tidak identik. Misalnya, besaran dan arah
efek DA pada kesepakatan antar penilai dan akurasi skor sebenarnya berbeda sampai tingkat tertentu. Kami sangat
mendesak penelitian di masa depan untuk mempertimbangkan berbagai kriteria untuk menentukan kualitas
peringkat kinerja dan untuk mengeksplorasi secara lebih rinci kondisi di mana kriteria persetujuan dan akurasi
dapat berbeda.
Bahkan jika DA tidak secara nyata meningkatkan akurasi penilai, masih ada alasan untuk menyelidiki implikasi
praktis dari informasi variabilitas kinerja tambahan yang disertakan dalam peringkat DA. Kane (2000) menyarankan
bahwa peningkatan akurasi hanyalah salah satu dari beberapa keuntungan potensial yang terkait dengan
penggunaan DA, termasuk penyediaan informasi yang lebih rinci tentang kinerja. Penelitian belum meneliti nilai
potensial dari informasi tambahan ini. Distribusi informasi kinerja mungkin terbukti berharga untuk
mengembangkan karyawan dengan menyoroti kinerja yang tidak konsisten, dengan membantu karyawan dan
supervisor mereka mengidentifikasi dalam kondisi atau situasi apa karyawan sangat efektif atau tidak efektif, atau
dengan lebih baik mendokumentasikan keberadaan pola kinerja yang buruk. Akan sangat berharga untuk melihat
bagaimana informasi distribusi memengaruhi kepuasan penilai dan target pemeringkatan dengan proses
pemeringkatan, penerimaan umpan balik target, dan perubahan tren kinerja target di seluruh periode penilaian.
Akhirnya, temuan kami menyarankan kebutuhan untuk lebih memperhatikan proses kognitif aktual penilai dan untuk
memeriksa beban kognitif secara langsung daripada mengasumsikan pentingnya atau keberadaannya. Kami menemukan
KINERJA MANUSIA 15

bahwa DA, sebuah proses yang dianggap mengurangi beban kognitif, pada kenyataannya meningkatkan persepsi penilai
tentangnya. Selain itu, dapat dikatakan bahwa intervensi pemeringkatan lainnya seperti pelatihan penilai mungkin memiliki
efek yang sama; alih-alih menyederhanakan tugas, intervensi semacam itu dapat mengarahkan perhatian penilai ke
kompleksitas tugas pemeringkatan dan mencegah penggunaan heuristik. Banyak dari apa yang kita ketahui tentang
peringkat kinerja bersandar pada implikasi bahwa beban kognitif yang tinggi menyebabkan kesalahan. Namun, kami tidak
menemukan hubungan antara beban kognitif yang dilaporkan sendiri dan akurasi. Temuan ini perlu diuji dalam konteks
penilaian kinerja lain dan dengan strategi alternatif untuk menilai beban kognitif.

Kesimpulan

Studi ini menguji beberapa klaim kunci dari teori DA—bahwa DA meningkatkan akurasi penilai, dan hal itu dilakukan dengan
mengurangi beban kognitif penilai. Bertentangan dengan asumsi dalam banyak penelitian sebelumnya tentang DA dan karakteristik
peringkat lainnya, beban kognitif yang dilaporkan sendiri pada dasarnya tidak terkait dengan akurasi dan tidak ditunjukkan untuk
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

memediasi hubungan antara format respons dan akurasi penilai. Namun, kami menemukan bukti bahwa DA meningkatkan laporan
beban kognitif; kesepakatan antar penilai; dan, dalam beberapa keadaan, akurasi skor sebenarnya. Ini menunjukkan perlunya
pemahaman yang lebih dalam tentang proses kognitif yang terlibat dalam DA, dan mungkin dalam penilaian kinerja secara umum.
Secara khusus, penting untuk mengeksplorasi lebih jauh apakah proses pemeringkatan yang berat menghasilkan kelebihan beban
yang mengarah pada kesalahan atau mencegah penyederhanaan proses pemeringkatan yang berlebihan.

Referensi
Ayres, P. (2006). Menggunakan ukuran subjektif untuk mendeteksi variasi beban kognitif intrinsik dalam masalah.Sedang belajar
dan Instruksi, 16,389–400. doi:10.1016/j.learninstruc.2006.09.001
Baltes, BB, & Parker, CP (2000). Mengurangi efek ekspektasi kinerja pada penilaian perilaku.
Perilaku Organisasi dan Proses Keputusan Manusia, 82,237–267. doi:10.1006/obhd.2000.2897
Beal, DJ, Weiss, HM, Barros, E., & MacDermid, SM (2005). Sebuah model proses episodik pengaruh afektif pada
pertunjukan.Jurnal Psikologi Terapan, 90,1054–1068. doi:10.1037/0021-9010.90.6.1054
Cosmides, L., & Tooby, J. (1996). Apakah manusia ahli statistik intuitif yang baik? Memikirkan kembali beberapa kesimpulan dari
literatur tentang penilaian di bawah ketidakpastian.Kognisi, 58,1–73. doi:10.1016/0010-0277(95)00664-8
Hari, DV, & Sulsky, LM (1995). Efek pelatihan kerangka acuan dan konfigurasi informasi pada memori
organisasi dan akurasi peringkat.Jurnal Psikologi Terapan, 80,158–167. doi:10.1037/0021-9010.80.1.158
Deadrick, DL, & Gardner, DG (1997). Peringkat distribusi tingkat kinerja dan variabilitas: Pemeriksaan
validitas penilaian dalam pengaturan lapangan.Manajemen Grup & Organisasi, 22,317–342. doi:10.1177/
1059601197223002
DeNisi, AS, Cafferty, TP, & Meglino, BM (1984). Pandangan kognitif dari proses penilaian kinerja: Sebuah model
dan proposisi penelitian.Perilaku Organisasi dan Kinerja Manusia, 33,360–396. doi:10.1016/0030-5073
(84)90029-1
DeNisi, AS, & Peters, LH (1996). Organisasi informasi dalam memori dan proses penilaian kinerja:
Bukti dari lapangan.Jurnal Psikologi Terapan, 81,717–737. doi:10.1037/0021-9010.81.6.717 Edwards, BD, &
Woehr, DJ (2007). Pemeriksaan dan evaluasi pengukuran kepribadian berbasis frekuensi.
Kepribadian dan Perbedaan Individu, 43,803–814. doi:10.1016/j.paid.2007.02.005
Feldman, JM (1981). Melampaui teori atribusi: Proses kognitif dalam penilaian kinerja.Jurnal Terapan
Psikologi, 66,127-148. doi:10.1037/0021-9010.66.2.127
Fleisher, MS, Woehr, D., Edwards, BD, & Cullen, KL (2011). Menilai variabilitas kepribadian dalam orang melalui
estimasi frekuensi: Lebih banyak bukti untuk pendekatan pengukuran baru.Jurnal Penelitian Kepribadian, 45,535– 548.
doi:10.1016/j.jrp.2011.06.009
Fox, S., Bizman, A., & Garti, A. (2005). Apakah penilaian distribusional lebih efektif daripada kinerja tradisional?
metode penilaian mance?Jurnal Penilaian Psikologis Eropa, 21,165-172. doi:10.1027/1015- 5759.21.3.165

Gaugler, BB, & Thornton, GC, III. (1989). Jumlah dimensi assessment center sebagai penentu asesor
ketepatan.Jurnal Psikologi Terapan, 74,611–618. doi:10.1037/0021-9010.74.4.611
Hasher, L., & Zacks, RT (1984). Pemrosesan otomatis informasi fundamental: Kasus frekuensi
kejadian.Psikolog Amerika, 39,1372–1388. doi:10.1037/0003-066X.39.12.1372
16 VANHOVE, Owa, DAN KEDHARNATH

Jako, RA, & Murphy, KR (1990). Peringkat distribusi, dekomposisi penilaian, dan dampaknya terhadap antarpenilai
kesepakatan dan akurasi peringkat.Jurnal Psikologi Terapan, 75,500–505. doi:10.1037/0021-9010.75.5.500 James, LR,
Demaree, RG, & Wolf, G. (1984). Memperkirakan keandalan antar-penilai dalam kelompok dengan dan tanpa
bias respon.Jurnal Psikologi Terapan, 69,85–98. doi:10.1037/0021-9010.69.1.85
Kalyuga, S., Chandler, P., & Sweller, J. (1999). Mengelola split-perhatian dan redundansi dalam instruksi multimedia.
Psikologi Kognitif Terapan, 13,351–371. doi:10.1002/(ISSN)1099-0720
Kane, JS (1986). Penilaian distribusi kinerja. Dalam RA Berk (Ed.),Penilaian kinerja: Metode dan
aplikasi (hal. 237–273). Baltimore, MD: Johns Hopkins University Press.
Kane, JS (2000). Akurasi dan determinannya dalam penilaian distribusi.Kinerja Manusia, 13,47–84.
doi:10.1207/S15327043HUP1301_3
Kane, JS, & Woehr, DJ (2006). Pengukuran kinerja dipertimbangkan kembali: Pemeriksaan estimasi frekuensi
sebagai dasar penilaian. Dalam W. Bennett, C. Lance, & DJ Woehr (Eds.),Pengukuran kinerja: Perspektif saat ini
dan tantangan masa depan (hlm. 77–110). Hillsdale, NJ: Erlbaum.
Kolk, NJ, Lahir, MP, van der Flier, H., & Olman, JM (2002). Prosedur pusat penilaian: Beban kognitif selama
fase observasi.Jurnal Internasional Seleksi dan Penilaian, 10,271–278. doi:10.1111/ijsa.2002.10. masalah-4

Kulik, CT, & Ambrose, ML (1993). Proses berbasis kategori dan berbasis fitur dalam penilaian kinerja:
Mengintegrasikan sumber data kinerja visual dan komputerisasi.Jurnal Psikologi Terapan, 78,821–830. doi:
Diunduh oleh [University of California, San Diego] pada 10:07 15 Juli 2016

10.1037/0021-9010.78.5.821
LeBreton, JM, Wu, J., & Bing, MN (2008). Kebenaran tentang pengujian mediasi di bidang sosial dan organisasi
ilmu pengetahuan. Dalam CE Lance & RJ Vandenberg (Eds.),Mitos statistik dan metodologis dan legenda urban: Doktrin,
kebenaran, dan dongeng dalam ilmu organisasi dan sosial (hal.107–141). New York, NY: Taylor & Francis. Lievens, F.
(2001). Strategi pelatihan penilai dan pengaruhnya terhadap akurasi, keandalan antar penilai, dan diskriminan
keabsahan.Jurnal Psikologi Terapan, 86,255–264. doi:10.1037/0021-9010.86.2.255
Mathieu, J., Aguinis, H., Culpepper, SA, & Chen, G. (2012). Memahami dan memperkirakan kekuatan untuk mendeteksi cross-
efek interaksi tingkat dalam pemodelan bertingkat.Jurnal Psikologi Terapan, 97,951–966. doi:10.1037/a0028380 Mayer, RE, &
Chandler, P. (2001). Saat belajar hanya dengan sekali klik: Apakah interaksi pengguna yang sederhana mendorong lebih dalam?
pemahaman tentang pesan multimedia?Jurnal Psikologi Pendidikan, 93,390–397. doi:10.1037/0022-
0663.93.2.390
Meyer, HH (1991). Sebuah solusi untuk teka-teki umpan balik penilaian kinerja.Akademi Manajemen Eksekutif, 5,
68–76. doi:10.5465/AME.1991.4274724
Murphy, KR, & Cleveland, JN (1995).Memahami penilaian kinerja: Sosial, organisasi, dan berbasis tujuan
perspektif.Thousand Oaks, CA: Sage.
Muthén, LK, & Muthén, BO (2010).Panduan pengguna Mplus (edisi ke-6). Los Angeles, CA: Muthén & Muthén. Paas, FGWC
(1992). Strategi pelatihan untuk mencapai transfer keterampilan pemecahan masalah dalam statistik: A kognitif-
pendekatan beban.Jurnal Psikologi Pendidikan, 84,429–434. doi:10.1037/0022-0663.84.4.429
Paas, FGWC, & Van Merrienboer, JJG (1994). Kontrol instruksional beban kognitif dalam pelatihan kompleks
tugas kognitif.Tinjauan Psikologi Pendidikan, 6,351–371. doi:10.1007/BF02213420
Pengkhotbah, KJ, Zyphur, MJ, & Zhang, Z. (2010). Kerangka kerja SEM bertingkat umum untuk menilai bertingkat
mediasi.Metode Psikologis, 15,209–233. doi:10.1037/a0020141
Pulakos, ED (1984). Perbandingan program pelatihan penilai: Pelatihan kesalahan dan pelatihan akurasi.Jurnal dari
Psikologi Terapan, 69,581–588. doi:10.1037/0021-9010.69.4.581
Reb, J., & Cropanzano, R. (2007). Mengevaluasi kinerja dinamis: Pengaruh karakteristik gestalt yang menonjol pada
peringkat kinerja.Jurnal Psikologi Terapan, 92,490–499. doi:10.1037/0021-9010.92.2.490
Schleicher, DJ, Hari, DV, Mayes, BT, & Riggio, RE (2002). Kerangka baru untuk pelatihan kerangka acuan:
Meningkatkan validitas konstruk pusat penilaian.Jurnal Psikologi Terapan, 87,735–746. doi:10.1037/
0021-9010.87.4.735
Smith, PC, & Kendall, LM (1963). Penerjemahan ulang harapan: Sebuah pendekatan untuk konstruksi yang tidak ambigu
jangkar untuk skala penilaian.Jurnal Psikologi Terapan, 47,149–155. doi:10.1037/jam0047060
Steiner, DD, Hujan, JS, & Smalley, MM (1993). Distribusi peringkat kinerja: Pemeriksaan lebih lanjut dari a
format penilaian baru.Jurnal Psikologi Terapan, 78,438–442. doi:10.1037/0021-9010.78.3.438
Sulsky, L., & Balzer, W. (1988). Arti dan pengukuran akurasi peringkat kinerja: Beberapa metodologi dan
kekhawatiran teoretis.Jurnal Psikologi Terapan, 73,497–506. doi:10.1037/0021-9010.73.3.497
Tversky, A., & Kahneman, D. (1974). Penilaian di bawah ketidakpastian: Heuristik dan bias.Sains, 185,1124–1131.
doi:10.1126/sains.185.4157.1124
Wagner, SM, Rau, CL, & Lindemann, E. (2010). Metodologi beberapa informan: Tinjauan kritis dan
rekomendasi.Metode & Penelitian Sosiologi, 38,582–618. doi:10.1177/0049124110366231
Woehr, DJ, & Huffcutt, AI (1994). Pelatihan penilai untuk penilaian kinerja: Sebuah tinjauan kuantitatif.Jurnal dari
Psikologi Kerja dan Organisasi, 67,189–205. doi:10.1111/joop.1994.67.issue-3
Woehr, DJ, & Miller, MJ (1997). Distribusi peringkat kinerja: Lebih banyak bukti untuk format peringkat baru.
Jurnal Manajemen, 23,705–720. doi:10.1177/014920639702300505

Anda mungkin juga menyukai