RESULTS
Disaggregation Strategy
Tabel 1 menyajikan hasil dari tindakan ANOVA yang diulang (bandingkan dengan Lipe dan
Salterio 2000, Tabel 3). Jika BSC terpilah berhasil dalam mencegah bias tindakan umum yang
diamati oleh Lipe dan Salterio, harus ada interaksi yang signifikan antara tindakan Unigue
dan Divisi. Seperti yang ditunjukkan pada Panel A, interaksi Division x Unigue (f - 30.51, px
«0.0l) serta interaksi Division Xx Common adalah signifikan (f - 12.81, p« 0.01). Oleh karena
itu, hasil kami memberikan bukti bahwa tindakan umum dan tidak penting penting dalam
menjelaskan perbedaan dalam skor evaluasi keseluruhan. Hasil ini berbeda dari Lipe dan
Salterio, yang menemukan signifikansi hanya pada langkah-langkah umum. (Catatan: Tidak
satu pun dari tes antar-subjek yang ditunjukkan pada Panel A yang signifikan, juga tidak ada
interaksi tiga arah dalam subjek. Ini adalah hasil dari desain eksperimental yang seimbang
dan diharapkan.)
Panel B dari Tabel 1 melaporkan berarti menggambarkan arah dan besarnya hasil. Konsisten
dengan Lipe dan Salterio, ketika langkah-langkah umum lebih menyukai RadWear, atasan
memberi peringkat manajer RadWear 2,28 poin lebih tinggi dari manajer Pakaian Kerja.
Demikian juga, ketika langkah-langkah umum mendukung WorkWear, atasan menempatkan
manajer WorkWear 2,58 poin lebih tinggi dari manajer RadWear. Perbedaan untuk ukuran
umum ini sedikit signifikan, p - 0,05.
Namun, berbeda dengan Lipe dan Salterio, hasil kami menunjukkan bahwa ketika tindakan
tidak sesuai mendukung RadWear, atasan memberi peringkat manajer RadWear 3,75 poin
lebih tinggi daripada manajer WorkWear. Demikian pula, ketika langkah-langkah unigue
mendukung WorkWear, atasan peringkat manajer WorkWear 4,0 poin lebih tinggi dari
manajer RadWear. Perbedaan-perbedaan ini untuk ukuran unigue signifikan, p «0,0l.
Untuk meneliti lebih lanjut pengaruh relatif dari langkah-langkah umum dan tidak nyata,
kami merundingkan perbedaan dalam evaluasi kinerja atasan secara keseluruhan pada
langkah-langkah umum dan tidak sama. Lipe dan Salterio melaporkan koefisien kemiringan
positif yang signifikan dari regresi 10,87 untuk tindakan umum (t - 3,28, p «0,01), tetapi
koefisien tidak signifikan untuk ukuran Unigue, 0,08 (t - 0,02, p? 0,10). Sebaliknya, seperti
yang ditunjukkan pada Tabel 2, ukuran Common dan Unigue dalam penelitian kami memiliki
koefisien kemiringan positif yang signifikan: 5,18 (t— 3,63, p «0,001) dan 8,00 (t- 5,67, p«
0,001) untuk Common dan Unigue, masing-masing.
TABEL 1
Berdasarkan hasil yang ditunjukkan pada Tabel 1 dan 2, kami menyimpulkan BSC terpilah
efektif dalam menghilangkan bias pengukuran umum yang ditemukan Lipe dan Salterio
ketika BSC digunakan untuk evaluasi kinerja holistik.
Bonus Distribution (Allocation)
Hipotesis kedua kami menguji pengaruh evaluasi kinerja pada alokasi bonus. Kami
menghitung perbedaan dalam bonus manajer yang diberikan oleh masing-masing peserta.
Kami merevisi perbedaan ini pada perbedaan dalam evaluasi kinerja keseluruhan manajer
yang ditugaskan oleh setiap peserta menggunakan BSC Disaggregated (PerformDiff),
mengendalikan perbedaan dalam skor agregat mekanis setiap manajer (AggScDiff). Tabel 3
melaporkan hasil regresi. Model kompensasi kinerja adalah signifikan, f - 48,84, p «0,0001.
Skor evaluasi keseluruhan manajer ”signifikan (p« 0,0001). Skor yang dikumpulkan secara
mekanis, termasuk sebagai variabel kontrol, secara signifikan sedikit (p - 0,07). Menariknya,
model hanya menjelaskan 55 persen dari perbedaan dalam perbedaan bonus. Dengan
demikian, atasan tampaknya menggunakan evaluasi kinerja BSC Terpisah sebagai bagian
dari model penilaian mereka untuk menetapkan bonus, tetapi mereka tidak konsisten dalam
aplikasi informasi evaluasi kinerja mereka atau menyesuaikan alokasi bonus untuk faktor
tambahan yang tidak termasuk dalam BSC.
Supplemental Analyses
Secara desain, skor BSC yang diagregasi secara mekanis mewakili input untuk kinerja atasan
dan keputusan kompensasi. Keputusan akhir atasan dibuat secara terpisah dari agregasi
mekanik. Yang penting, keputusan mereka dibingkai sebagai evaluasi keseluruhan (holistik).
Perbedaan ini meningkatkan penilaian sampai sejauh mana evaluasi kinerja secara
keseluruhan dipengaruhi oleh skor BSC awal yang teragregasi secara mekanis.
Untuk mengatasi hubungan ini, kami mengkorelasikan penilaian subyektif atasan
keseluruhan dari kinerja masing-masing manajer dengan skor agregat mekanis mereka
untuk manajer yang sama. Koefisien korelasi untuk RadWear adalah 0,74 (p «0,0001) dan
untuk WorkWear, 0,84 (p« 0,0001). Dengan demikian, untuk setiap manajer divisi, skor
agregat mekanis secara signifikan berkorelasi dengan evaluasi subyektif dan keseluruhan.
Kedua korelasi kurang dari 1,0, namun, menunjukkan evaluasi holistik atasan termasuk
beberapa penyesuaian mental dari skor agregat mekanis mereka atau, setidaknya, mereka
tidak konsisten sempurna. "
Penelitian sebelumnya telah menemukan keputusan terpilah meningkatkan konsensus dan
perjanjian antar-hakim (Libby dan Libby 1989: Davis 1998). Kami membandingkan standar
deviasi untuk evaluasi peserta kami (Tabel 1, Panel B) dengan yang dilaporkan oleh Lipe dan
Salterio (2000, Tabel 3, Panel B). Statistik F-signifikan hanya untuk satu dari delapan
perbandingan (p <0,05). Dengan demikian, kami menyimpulkan bahwa pemisahan evaluasi
BSC tidak mengurangi variasi di antara para evaluator. Kami mencatat, bagaimanapun,
bahwa peserta kami menggunakan dua kali jumlah item BSC sebagai peserta Lipe dan
Salterio. Juga, standar deviasi yang tersedia untuk perbandingan dengan Lipe dan Salterio
adalah rata-rata di dua sel eksperimental, yang tentu menunjukkan variasi kurang dari rata-
rata sel individual.
IMPLICATIONS, LIMITATIONS, AND SUGGESTIONS
Implications
Lipe dan Salterio (2000) mencatat langkah-langkah umum yang digunakan dalam BSC
cenderung menjadi langkah-langkah keuangan yang lebih tradisional, seperti pengembalian
penjualan dan penurunan harga rata-rata, dan bahwa langkah-langkah ini cenderung
meninggalkan kinerja aktual. Sebaliknya, langkah-langkah tidak penting, seperti penjualan
dari para pemimpin pasar baru dan pangsa pasar relatif terhadap ruang ritel, cenderung
non-tradisional dan, yang lebih penting, indikator kinerja terkemuka yang menangkap
unsur-unsur penekanan strategis perusahaan dan divisi yang tidak ditangkap di tempat lain.
Dengan demikian, mengabaikan langkah-langkah tidak nyata dalam BSC sama saja, dalam
banyak kasus, mengabaikan banyak indikator utama dan lebih memfokuskan perhatian
manajerial pada indikator yang tertinggal.
Agar efektif sebagai perangkat kontrol manajemen, BSC harus menghasilkan evaluasi yang
akurat, obyektif, dan dapat diverifikasi (Malina dan Selto 2001, 75). Konflik dan ketegangan
yang signifikan antara atasan dan evaluasi diamati ketika evaluasi dianggap subyektif.
Persepsi subjektivitas menyebabkan penolakan terhadap BSC dan kembali ke ukuran kinerja
keuangan di perusahaan besar lainnya (Ittner et al. 2002).
Dengan menggunakan Balanced Scorecard yang terpilah, para partisipan kami
menggunakan faktor-faktor yang tidak signifikan secara substansial. Sementara dua
penelitian lain menemukan pelatihan (Dilla dan Steinbart 2002) dan komunikasi eksplisit
tentang pentingnya semua tindakan BSC (Roberts et al. 2002) dapat meningkatkan
pemanfaatan langkah-langkah tidak nyata, kedua studi Jatter ini menemukan langkah-
langkah umum menghitung dua hingga empat kali lipat. yariasi dalam evaluasi daripada
langkah-langkah unigue. Item BSC tidak secara eksplisit diberi bobot dalam salah satu dari
studi ini. Sebaliknya, penelitian ini menunjukkan bobot yang ditetapkan sebagai bagian dari
desain BSC memungkinkan pengambil keputusan untuk menempatkan bobot egual atau
lebih besar pada langkah-langkah yang tidak sesuai, konsisten dengan strategi perusahaan.
Sejauh langkah-langkah unigue merupakan indikator utama, BSC yang didaggregasikan akan
memungkinkan manajer untuk melakukan intervensi lebih cepat ketika divisi menghadapi
masalah dan mencoba tindakan korektif.
Limitations
Hasil penelitian ini terbatas pada evaluasi komparatif. Seperti dibahas di atas, Slovic dan
MacPhillamy's (1974) menemukan bias tindakan umum tidak berlaku ketika individu, bukan
pasangan, dievaluasi. Dengan demikian, ketika BSC digunakan untuk mengevaluasi divisi
secara individual, kondisi penting yang mengarah ke bias tindakan bersama akan tidak ada.
Juga, peserta dalam percobaan ini tidak memiliki pengalaman pribadi dengan manajer yang
dievaluasi atau akuntabilitas individu untuk evaluasi kinerja dan keputusan kompensasi
mereka. Akuntabilitas telah secara positif mempengaruhi pengambilan keputusan dalam
beberapa konteks terkait, seperti ketika alat bantu pengambilan keputusan tidak tersedia
(Ashton 1990) dan ketika pembuat keputusan secara terpisah memproses beberapa item
informasi positif dan negatif (Kennedy 1993). Akhirnya, meskipun peserta kami mirip
dengan Lipe dan Salterio (2000), yaitu, siswa MBA di universitas negeri besar, mungkin ada
perbedaan lain antara peserta kami dan / atau waktu dan pengaturan dua percobaan tentang
yang tidak kami sadari dan belum dipertimbangkan.
Suggestions
Kami menggunakan dua bagian, strategi bantuan keputusan agregat terpilah-secara-
mekanis yang konsisten dengan penelitian sebelumnya tentang "penilaian manusia versus
model manusia" (Ashton 1982, 34-43). Dalam pendekatan kami, bagaimanapun, pembuat
keputusan manusia melakukan agregasi, seperti yang disarankan oleh Bowman (1963),
sebelum melakukan evaluasi subyektif, keseluruhan. Dengan demikian, bias tindakan umum
mungkin dapat dikurangi dengan (1) meminta pengguna BSC untuk mengevaluasi kinerja
pada setiap ukuran BSC dan / atau (2) menyarankan bobot untuk setiap ukuran. Penelitian
di masa depan dapat menguji apakah bias tindakan umum dapat dikurangi atau diatasi
dengan salah satu dari pendekatan ini saja. Kami mencatat, bagaimanapun, satu penelitian
menemukan bahwa meminta penilaian terpilah tanpa memberikan mekanisme untuk
kombinasi menghasilkan penurunan kualitas penilaian dibandingkan dengan penilaian
holistik (Lyness dan Cornelius 1982). Juga, memberikan bobot yang disarankan
kemungkinan akan menghasilkan hasil yang mirip dengan pengingat untuk menggunakan
semua tindakan (Roberts et al. 2002).
Selain itu, atasan dapat diminta untuk mengevaluasi kinerja untuk setiap kategori BSC, yaitu
untuk mengevaluasi kinerja pada empat item sekaligus, dan kemudian membuat penilaian
holistik. Secara teoritis, ini akan secara substansial mengurangi jumlah informasi yang akan
diproses pada setiap tahap, sehingga mengurangi kebutuhan akan strategi penyederhanaan
kognitif yang ada dalam studi Lipe dan Salterio (2000).
Penelitian di masa depan harus memeriksa sejauh mana agregasi mekanik dapat diterima
oleh manajer dan atasan. Pengaruh faktor-faktor di luar langkah-langkah BSC yang
dinyatakan juga harus diatasi. Dalam studi ini, skor yang dikumpulkan secara mekanis
menjelaskan sedikit lebih dari 50 persen variasi dalam keseluruhan evaluasi kinerja untuk
satu divisi (RadWear) dan 70 persen variasi dalam evaluasi kinerja untuk divisi lain
(WorkWear). Mungkin peserta melihat pasar RadWear remaja sebagai lebih fluktuatif dari
pasar WorkWear, menghasilkan varians yang lebih besar dalam evaluasi RadWear, atau
atasan dapat bereaksi negatif terhadap beberapa item pada BSC. Mereka mungkin
mengabaikan BSC karena, dalam percobaan ini, mereka bukan peserta aktif dalam
mengembangkan tindakan, atau mereka dapat bereaksi negatif terhadap praktik penetapan
target BSC. Sebagai contoh, mungkin tampak tidak biasa bagi para peserta bahwa kedua
divisi melebihi kinerja target mereka pada semua 16 ukuran BSC. Para atasan mungkin
menerapkan standar kinerja mereka sendiri yang agak berbeda dari pedoman BSC.
Kemungkinan ini disarankan oleh skor agregat mekanis rata-rata, serta skor holistik yang
diperoleh oleh Lipe dan Salterio, dalam kisaran 70-80 untuk kinerja manajerial yang
melampaui target pada semua 16 ukuran. Ini dan penjelasan lain yang mungkin harus
diselidiki oleh penelitian masa depan. Karena penerimaan alat evaluasi kinerja sangat
penting untuk perilaku ex ante manajer (Lipe dan Salterio 2000, 293), masalah ini penting
untuk dipahami.
CONCLUSIONS
Lipe dan Salterio (2000) menunjukkan batasan penting untuk menggunakan BSC. Tanpa
menyediakan cara untuk menjelaskan beban kognitif pada pengguna, pembuat keputusan,
ketika melakukan evaluasi komparatif, akan cenderung memusatkan perhatian hanya pada
langkah-langkah yang umum di kalangan manajer dan mengabaikan tindakan yang tidak
dilakukan oleh manajer divisi. Studi kami menunjukkan metode yang efisien untuk
mengurangi tuntutan kognitif yang terlalu besar dari Balanced Scorecard, sementara
memungkinkan pengguna untuk membuat evaluasi yang konsisten dengan semua elemen
penting dari strategi dan misi perusahaan.
Meskipun mereka menghindari masalah ini, Kaplan dan Norton (1996) menunjukkan
perilaku karyawan tidak mungkin dimodifikasi tanpa kaitan yang pasti dengan kompensasi.
Jika jumlah kompensasi yang akan diterima ditentukan dari evaluasi atasan atas kinerja
karyawan dalam memenuhi tujuan divisi, maka penting untuk mengetahui bagaimana
evaluasi atasan-atasan itu dipengaruhi oleh dimasukkannya bobot pada BSC. Hasil kami
menunjukkan keputusan kompensasi pembuat keputusan sangat didukung oleh skor
evaluasi kinerja keseluruhan dari Balanced Scorecard yang dipilah. Bukti ini, dan bukti
serupa dari praktik, harus meyakinkan karyawan di perusahaan yang telah mengadopsi
pendekatan BSC bahwa bonus mereka, pada kenyataannya, berdasarkan pada pesan yang
dikomunikasikan oleh manajemen — tetapi hanya jika bobot dan skor terpilah dibuat secara
eksplisit.