Anda di halaman 1dari 11

DEBIASING BALANCED SCORECARD EVALUATIONS

Michael L. Roberts Thomas L. Albright Aleecia R. Hibbets The University of Alabama


ABSTRACT: Lipe dan Salterio (2000) menemukan bahwa atasan mengabaikan setengah dari
informasi ketika menggunakan Balanced Scorecard untuk mengevaluasi kinerja dua manajer
divisi. Hanya tindakan umum yang memengaruhi evaluasi holistik atasan, mengalahkan
tujuan Balanced Scorecard. Studi kami meneliti apakah pemisahan hasil Balanced Scorecard
dalam evaluasi konsisten dengan maksud dari pendekatan Balanced Scorecard. Hasil-hasil
menunjukkan bahwa strategi terpilah memungkinkan para atasan untuk memanfaatkan
tindakan-tindakan umum dan tidak sama, sehingga mengatasi bias tindakan-umum. Selain
itu, kami menemukan bahwa evaluasi kinerja Balanced Scorecard menjelaskan lebih dari
setengah variasi dalam keputusan kompensasi sub-perusahaan.
INTRODUCTION
Kaplan dan Norton (1996) mengamati bahwa banyak manajer perusahaan bergantung pada
ukuran keuangan saja untuk mengevaluasi kinerja bawahan, mengabaikan elemen-elemen
kunci dalam misi strategis perusahaan dan secara tidak sengaja menekankan langkah-
langkah yang menghambat, alih-alih memimpin, kinerja perusahaan yang sebenarnya.
Kaplan dan Norton (1996) menciptakan Balanced Scorecard (BSC) untuk memungkinkan
para manajer untuk menggunakan langkah-langkah penting non finansial dan strategis
secara finansial. Premis utama di balik BSC adalah bahwa setiap unit bisnis perusahaan
harus mengembangkan kartu skor sendiri dengan langkah-langkah yang menangkap
strategi unigue unit. Alat ini sekarang banyak digunakan dalam organisasi (Silk 1998).
Namun, Lipe dan Salterio (2000) menunjukkan bahwa siswa M.B.A ditugaskan untuk peran
atasan menggunakan tindakan mengabaikan BSC tidak sesuai dengan divisi tertentu. Para
atasan hanya mengandalkan barang-barang yang muncul di kartu skor kedua divisi.
Setengah dari langkah-langkah yang termasuk dalam kartu penilaian, yang tidak khas atau
khusus untuk satu divisi, diabaikan. Karena semua item pada BSC dianggap sebagai langkah
penting yang kritis dari kinerja strategis, bias tindakan umum ini mengurangi potensi
manfaatnya.
Lipe dan Salterio (2000) mengaitkan bias tindakan umum yang mereka temukan dengan
kebutuhan atasan untuk menggunakan strategi kognitif yang disederhanakan. Tujuan dari
penelitian ini adalah untuk menguji pendekatan potensial untuk evaluasi kinerja debias
menggunakan BSC. Kami menggunakan Balanced Scorecard Balanced Scorecard “terpilah /
teragregasi secara mekanis” (selanjutnya disagregasi Balanced Scorecard) di mana peserta:
(1) mengevaluasi kinerja secara terpisah untuk masing-masing dari 16 ukuran kinerja dan
kemudian (2) secara agregat menghakimi penilaian terpisah menggunakan bobot yang telah
ditentukan sebelumnya. untuk setiap ukuran. Setelah agregasi-plus-mekanik-agregasi ini,
peserta membuat evaluasi keseluruhan. Dengan demikian, kami memeriksa apakah bias
tindakan umum yang ditemukan oleh Lipe dan Salterio (2000) ketika BSC digunakan untuk
membuat penilaian holistik dapat diatasi dengan menggunakan strategi pemrosesan
informasi yang dipilah secara agregat, yang diagregasi secara mekanis.
M.B.A. siswa bermain peran atasan dalam penelitian kami membebani langkah-langkah
tidak konsisten secara konsisten dengan pedoman BSC mereka diberikan untuk langkah-
langkah tidak sama dan umum, berbeda dengan Lipe dan Salterio (2000). Dengan demikian,
temuan kami menyarankan pemisahan langkah-langkah yang terlibat dalam melakukan
evaluasi BSC dapat mengatasi bias tindakan umum. Memisahkan proses, oleh karena itu,
adalah salah satu pendekatan untuk meningkatkan efektivitas BSC. Menggunakan langkah-
langkah terpilah tidak disarankan oleh pencetus BSC, Kaplan dan Norton (1996).
Kami juga memperluas Lipe dan Salterio (2000) untuk menguji pengaruh evaluasi kinerja
BSC pada keputusan kompensasi subseguent. Meskipun Kaplan dan Norton menyarankan
BSC harus mempengaruhi kompensasi, mereka tidak memberikan pedoman untuk
hubungan ini (Kaplan dan Norton 1996, Lipe dan Salterio 2000). Kami menemukan evaluasi
kinerja atasan menggunakan strategi BSC terpilah menjelaskan sedikit lebih dari setengah
variasi dalam keputusan atasan untuk mendistribusikan bonus kepada manajer divisi.
Alokasi kinerja dan bonus sangat berkorelasi.
Sisa dari makalah ini disusun menjadi lima bagian. Bagian selanjutnya mengulas literatur
yang relevan dan menyajikan hipotesis. Pada bagian ketiga, kami menjelaskan metode
penelitian kami. Kemudian kami mempresentasikan hasil percobaan kami, tes hipotesis, dan
analisis tambahan dari gui terkait. Pada bagian keempat, kami membahas implikasi, batasan,
dan menawarkan saran untuk penelitian di masa depan. Di bagian terakhir, kami menyajikan
kesimpulan kami.
LITERATURE REVIEW AND HYPOTHESIS DEVELOPMENT
Cognitive Demands in Comparative and Individual Judgments
Penelitian sebelumnya dalam psikologi telah menunjukkan bahwa pembuat keputusan
dihadapkan dengan evaluasi komparatif cenderung menggunakan informasi yang umum
untuk kedua objek dan untuk informasi yang kurang berat tidak sesuai untuk setiap objek
(Slovic dan MacPhillamy 1974). Dominasi informasi umum hanya ditemukan ketika objek
dievaluasi berpasangan. Item informasi yang sama tidak mendominasi ketika setiap objek
dievaluasi secara individual.
Peserta Lipe dan Salterio (2000) (selanjutnya Lipe dan Salterio) lebih tua, siswa M.B.A., rata-
rata memiliki lima tahun pengalaman kerja, dan bisa dibilang lebih berpengetahuan tentang
tugas mereka daripada peserta sarjana Slovic dan MacPhillamy's (1974). Lipe dan Salterio
menginstruksikan peserta mereka untuk mengevaluasi dua manajer divisi ritel secara
independen, berbeda dengan Slovic dan MacPhillamy (1974), yang tugasnya melibatkan
memilih yang mana dari dua kandidat yang akan lebih sukses. Namun, bahan eksperimental
Lipe dan Salterio memberi peserta Balanced Scorecard untuk kedua manajer divisi sebelum
mereka mengevaluasi kinerja masing-masing manajer.
Hasil Lipe dan Salterio konsisten dengan Slovic dan MacPhillamy (1974). Lipe dan Salterio
menemukan peserta M.B.A. mereka, bermain peran sebagai atasan mengevaluasi manajer
divisi, menggunakan langkah-langkah umum tetapi mengabaikan langkah-langkah unigue
dalam mengevaluasi kinerja manajer divisi menggunakan BSC. Dengan demikian, Lipe dan
Salterio mendemonstrasikan penerapan bias tindakan umum dalam konteks BSC, aplikasi
praktis yang penting.
Langkah-langkah umum dapat mendominasi dalam evaluasi komparatif untuk setidaknya
tiga alasan terkait. Pertama, mereka membentuk subset yang lebih kecil dari total informasi,
dan secara kognitif lebih mudah untuk menyimpan dan memproses lebih sedikit, daripada
lebih banyak, informasi (Anderson 1990). Kedua, ini tidak hanya menghasilkan informasi
yang kurang keseluruhan, tetapi juga dapat mengakibatkan lebih sedikit kategori atau jenis
informasi untuk diproses (Lipe dan Salterio 2002). Ketiga, langkah-langkah umum adalah
satu-satunya informasi yang tersedia untuk secara langsung membandingkan para manajer.
An Aid to Debiasing
Lipe dan Salterio (2000, 287) menyarankan subyek mereka mengabaikan langkah-langkah
yang tidak sesuai untuk mengurangi upaya mereka untuk menyelesaikan tugas evaluasi.
Salah satu metode untuk meningkatkan kualitas penilaian ketika upaya tidak mencukupi
adalah dengan menggunakan alat bantu pengambilan keputusan (Kennedy 1995). Mencari
kombinasi optimal dari penilaian manusia dan pemodelan statistik, Einhorn (1972)
menunjukkan peningkatan akurasi keputusan ketika hakim manusia mengkodekan
informasi keputusan ke dalam bentuk guantitatif dan output dihasilkan menggunakan
aturan kombinasi mekanis. Bowman (1963) menyarankan menggabungkan manusia dan
model dengan menggunakan "sintesis klinis" di mana individu menggunakan output dari
model sebagai input untuk penilaian akhir individu.
Penerapan Einhorn's (1972) dan Bowman (1963) menyarankan pendekatan untuk BSC akan
melibatkan proses dua langkah: (1) memisahkan keputusan evaluasi menjadi beberapa
keputusan yang lebih kecil dan (2) menggabungkan keputusan yang lebih kecil menjadi skor
keseluruhan berdasarkan skor yang telah ditentukan sebelumnya. bobot (misalnya, Einhorn
1972, Lyness dan Cornelius 1982, Edwards dan Newman 1982). Langkah 1, memisahkan
keputusan yang kompleks, akan mendorong sejauh mana setiap dimensi individu diproses.
Ketika memfokuskan perhatian pada satu dimensi, memori kerja jangka pendek pembuat
keputusan akan bebas dari secara simultan menjaga informasi tentang dimensi lain dari
pembusukan. Pergeseran dalam perhatian dan kapasitas pemrosesan ini harus memfasilitasi
upaya total yang lebih besar dan memastikan bahwa upaya dilakukan pada semua langkah.
Langkah ini harus mengatasi bias tindakan umum sejauh bias tersebut disebabkan oleh
kegagalan untuk mengikuti langkah-langkah yang tidak sesuai. Pada Langkah 2, bobot yang
telah ditentukan yang digunakan untuk menggabungkan evaluasi menjadi skor keseluruhan
harus memperkuat pentingnya langkah-langkah umum dan tidak sama bagi organisasi.
Dengan demikian lebih mungkin bahwa langkah-langkah umum dan tidak tepat akan
digunakan dalam evaluasi holistik subseguent karena pembuat keputusan akan telah
mengeluarkan biaya pemrosesan untuk mengevaluasi setiap dimensi.
Strategi penilaian terdisaggregasi lebih menguntungkan semakin kompleks penilaian yang
ditetapkan, bahkan ketika penilaian "kompleks" memasukkan sedikitnya sembilan isyarat
informasi (Lyness dan Cornelius 1982). Sebagai perbandingan, BSC biasanya mensyaratkan
empat hingga tujuh ukuran kinerja di masing-masing empat kategori (seperti yang
disarankan oleh Kaplan dan Norton 1996). Akibatnya, evaluator yang menggunakan BSC
berpotensi memiliki 16 hingga 28 isyarat untuk diproses, secara holistik, dalam menilai
kinerja manajer perusahaan. Dengan demikian, penilaian kinerja yang menggunakan BSC
harus rumit secara adeguat untuk menyadari manfaat dari penilaian yang terpilah dan
terpilah secara mekanis.
Penilaian terpilah ditambah agregasi mekanik mengurangi dan meningkatkan tuntutan
tugas. Tuntutan kognitif pada satu waktu berkurang karena jumlah informasi yang akan
dipertimbangkan untuk mengevaluasi setiap dimensi individu lebih kecil daripada informasi
di seluruh BSC. Namun, total waktu dan upaya bertambah karena jumlah evaluasi dan
perhitungan meningkat.
Sebagai contoh, untuk menerapkan disagregasi-plus-mekanik-agregasi untuk Lipe dan
Salterio's BSC, 16 evaluasi terpisah akan diperlukan untuk masing-masing dari dua manajer
divisi (total 32 penilaian terpisah, dibandingkan dengan hanya dua penilaian holistik di Lipe
dan Salterio) . Kemudian masing-masing dari 16 evaluasi harus diperpanjang oleh bobot
keputusannya, dan total 16 produk dijumlahkan. Sebanyak 96 evaluasi dan perhitungan
akan diperlukan.
Konsisten dengan kerangka kerja debiasing Kennedy (1995), kami berharap bahwa
memberikan atasan dengan BSC terpilah akan meningkatkan upaya kognitif total yang
dikeluarkan untuk mengevaluasi semua langkah sebelum melakukan evaluasi holistik.
Dengan upaya yang meningkat ini, kami berharap para atasan menggunakan semua tindakan
BSC daripada strategi yang dipilih oleh peserta Lipe dan Salterio yang hanya menggunakan
setengah dari tindakan BSC. Berdasarkan hal di atas, kami menguji hipotesis berikut dalam
bentuk alternatif:
H1: Mempresentasikan BSC dalam format terpilah akan menghasilkan evaluasi holistik
subsisten atas kinerja manajer yang mencerminkan tindakan yang tidak sama (dan juga
umum).
Kami menjelaskan metode spesifik yang kami gunakan untuk memisahkan-secara mekanis-
agregat BSC di bagian tiga. Pertama, bagaimanapun, kami menggambarkan ekstensi
tambahan Lipe dan Salterio (2000).
Linking the BSC to Compensation
Secara konseptual, evaluasi kinerja menggunakan BSC harus dikaitkan dengan kompensasi
manajer unit (Kaplan dan Norton 1996, 217). Namun, perusahaan secara tradisional telah
menerapkan BSC secara eksperimental dan telah menunggu untuk menjadi lebih akrab
dengan alat evaluasi kinerja baru sebelum mengubah praktik kompensasi (Chow et al. 1997,
McWilliams 1996). Akibatnya, Kaplan dan Norton (1996) tidak membuat rekomendasi
tentang bagaimana evaluasi BSC harus diterapkan pada keputusan kompensasi.
Pengawas mungkin enggan untuk "terikat" dengan alat evaluasi formal yang tidak
memungkinkan mereka untuk memberikan kompensasi kepada bawahan sesuai kebijakan
mereka. Oleh karena itu, penting untuk menentukan apakah atasan akan mengikuti prosedur
BSC formal dalam membuat keputusan kompensasi.
Lipe dan Salterio tidak menguji keterkaitan teoritis antara evaluasi kinerja dan keputusan
kompensasi dalam studi mereka. Karena hubungan antara evaluasi kinerja dan kompensasi
dipandang penting untuk keputusan ex ante manajer (Lipe dan Salterio 2000, 293), kami
menguji hubungan ini secara langsung dengan hipotesis berikut:
H2: Evaluasi kinerja holistik atasan menggunakan BSC terpilah akan memengaruhi
keputusan kompensasi subseguent.
PROCEDURES
Siswa M.B.A diberi kasus yang melibatkan dua divisi WCS Incorporated, sebuah perusahaan
ritel yang mengkhususkan diri dalam pakaian wanita. Kasing ini dikelola selama kelas,
sebelum instruksi pada Balanced Scorecard. Tidak ada kredit yang diberikan untuk
partisipasi, dan tanggapannya anonim. Pendekatan ini identik dengan Lipe dan Salterio
(2000), yang 58 peserta tahun pertamanya M.B.A. menyelesaikan kasus kelas. Kasus ini
diadaptasi dari Lipe dan Salterio, yang mengikuti contoh Kenyon Stores dari Kaplan dan
Norton (1996) tentang implementasi BSC. Peserta diminta untuk mengambil peran sebagai
eksekutif senior WCS yang baru-baru ini berpartisipasi dalam simposium Sekolah Bisnis
Harvard tentang Balanced Scorecard. Peserta diberi pernyataan misi WCS dan
diperkenalkan kepada dua manajer divisi. Kasus ini menginformasikan peserta tentang
strategi masing-masing divisi dan mempresentasikan Balanced Scorecard masing-masing
divisi.
Selanjutnya, peserta menyelesaikan dua langkah BSC Terpisah: mereka (1) menilai kinerja
masing-masing manajer pada masing-masing dari 16 item Balanced Scorecard,
menggunakan skala dari O (Tidak Dapat Diterima) hingga 100 (Sangat Baik), dan kemudian
(2) mengalikan penilaian individu ini dengan bobot yang ditentukan sebelumnya dan
menjumlahkan skor tertimbang untuk membuat skor total, agregat untuk setiap divisi. Bobot
yang telah ditentukan sebelumnya untuk ukuran unigue adalah 64 persen dari total. Kedua
langkah ini tidak digunakan oleh Lipe dan Salterio juga tidak disarankan oleh Kaplan dan
Norton (1996).
Peserta kemudian membuat penilaian keseluruhan yang terpisah dari kinerja masing-
masing manajer, diukur pada skala dari 0 (Penugasan Kembali) hingga 100 (Sangat Bagus).
Penilaian keseluruhan ini dinyatakan sama dan menggunakan skala yang sama dengan studi
Lipe dan Salterio dan digunakan untuk menguji HI. Penilaian terpisah ini diperoleh untuk
memberikan peserta kesempatan untuk menyesuaikan penilaian keseluruhan mereka jika
mereka tidak puas dengan hasil skor agregat mekanis mereka dengan alasan apa pun.
Dengan demikian, para peserta tidak terikat oleh agregasi mekanik dari penilaian terpilah
mereka. Mereka bebas untuk mengabaikan mereka sepenuhnya atau menggunakannya
tetapi mereka melihat cocok dalam mengevaluasi kinerja masing-masing manajer.
Setelah melakukan evaluasi keseluruhan kinerja masing-masing manajer, peserta
mengalokasikan total dana bonus akhir tahun sebesar $ 100.000 antara dua manajer divisi.
Alokasi ini digunakan untuk menguji H2. Kemudian mereka menyelesaikan pertanyaan
tindak lanjut tentang kasus ini, memberikan informasi demografis, menjawab cek
manipulasi, dan menjawab pertanyaan mengenai kesulitan tugas, realisme, dan pemahaman.
Peserta diberi informasi tentang dua divisi WCS, RadWear (RAD), spesialisasi pakaian
remaja, dan WorkWear (WORK), yang berspesialisasi dalam seragam bisnis wanita. Strategi
untuk setiap divisi disajikan, dan ukuran kinerja yang sesuai untuk strategi divisi
dipekerjakan pada kartu skor masing-masing divisi.
Desainnya adalah 2 x 2 x 2, dengan dua faktor antar-subjek (Umum dan Unigue) dan satu
faktor dalam-subyek (Divisi). Faktor antar-subjek pertama, Umum, menunjukkan apakah
RadWear atau WorkWear berkinerja lebih baik pada langkah-langkah umum. Faktor antar-
subyek kedua, Unigue, menunjukkan apakah RadWear atau WorkWear berkinerja lebih baik
pada langkah-langkah unigue. Setiap peserta mengevaluasi manajer dari kedua divisi,
sehingga Divisi adalah faktor subjek.
Setiap scorecard berisi 16 ukuran terpisah, empat di masing-masing dari empat kategori.
Dalam setiap kategori, dua ukuran adalah umum di seluruh divisi, dan dua ukuran tidak
sesuai untuk masing-masing divisi. Misalnya, dalam kategori keuangan, kedua divisi
memiliki ukuran untuk pengembalian penjualan dan pertumbuhan penjualan. Dua ukuran
yang tidak sesuai dengan RadWear adalah penjualan toko baru dan pangsa pasar relatif
terhadap ruang ritel, dua ukuran finansial tidak penting WorkWear adalah pendapatan per
kunjungan penjualan dan keuntungan katalog. Kedua divisi tampil lebih baik dari target pada
16 langkah. Namun, persentase target di atas bervariasi sehingga RadWear atau WorkWear
tampil lebih baik seperti yang ditunjukkan dalam desain eksperimental yang dijelaskan di
atas. Persentase target di atas dihitung ke digit kedua dan dilaporkan dalam kolom kartu
skor. Persentase ini identik dengan Lipe dan Salterio (2000).
Dengan 16 ukuran umum dan tidak sama, bobot unit akan menyiratkan bobot 6,25 persen
untuk setiap ukuran (100/16). Bobot total untuk masing-masing dari empat kategori
ditetapkan 25 persen, dan dalam setiap kategori kami memvariasikan bobot yang ditetapkan
sebelumnya antara 4,0 dan 9,0 persen. ”Bobot ini diberikan kepada peserta pada saat
menghadapi BSC Terpilah. Langkah-langkah unigue ditugaskan 64 persen dari total bobot.3
Salinan BSC terpilah ditampilkan dalam Lampiran.
Jika langkah unigue digunakan dalam evaluasi seperti dihipotesiskan, interaksi Division dan
Unigue harus diamati. Ini merupakan tambahan dari interaksi Division dan Common yang
dilaporkan oleh Lipe dan Salterio (2000).
Participants
Delapan puluh satu (81) M.B.A siswa berpartisipasi dalam percobaan. Tujuh puluh sembilan
(79) tanggapan yang dapat digunakan dilaporkan di bawah ini karena satu peserta gagal
menyelesaikan evaluasi kinerja keseluruhan untuk kedua manajer, dan peserta lain tidak
memberikan skor terpilah untuk WorkWear. Dua puluh lima (25) peserta adalah siswa
Eksekutif M.B.A.: 54 adalah siswa M.B.A. reguler. Kami menguji perbedaan sistematis
potensial dalam dua kelompok peserta ini pada variabel yang menarik dengan memasukkan
program gelar sebagai variabel dalam setiap model statistik. Tidak ada perbedaan yang
signifikan yang diamati untuk program gelar, oleh karena itu, kedua kelompok itu runtuh
untuk analisis yang dilaporkan di bawah ini.
Usia rata-rata adalah 27,6 (median, 25,0), dengan pengalaman kerja 5,1 tahun (median, 2,0).
Tujuh puluh tiga (73) persen peserta adalah laki-laki. Lima puluh tiga (53) persen
menunjukkan pengalaman sebelumnya dalam melakukan evaluasi kinerja.
Attention and Manipulation Checks
Secara keseluruhan, peserta menganggap kasus itu realistis, mudah dimengerti, dan tidak
sulit untuk diselesaikan. Skor rata-rata untuk realisme adalah 2,2 pada skala dari -5,0 ke 5.0,
dengan 5,0 menunjukkan peserta “sangat setuju” kasusnya realistis. Skor rata-rata untuk
dapat dimengerti adalah 3,1, dan skor rata-rata untuk kesulitan adalah -2,6. Peserta juga
menyetujui item BSC dikategorikan berguna (rata-rata 2,6), bahwa RadWear dan WorkWear
menargetkan pasar yang berbeda (skor rata-rata 3,7), menggunakan ukuran yang berbeda
(skor rata-rata 3,1), dan harus menggunakan ukuran yang berbeda (skor rata-rata 3,4) ). AN
berarti secara signifikan berbeda dari nol (p «0,01).
Kami juga memeriksa perkalian masing-masing peserta dan penambahan skor tertimbang
untuk agregasi mekanik (Langkah 2) bagian dari tugas. Untuk RadWear, 70 dari 79 peserta
"secara agregat skor teknis berada dalam # / - 1.0 dari perhitungan ulang kami, dan semua
79 berada dalam« / - 5.0. Untuk WorkWear, 75 peserta berada dalam # / - 1.0 dari
perhitungan ulang kami, dan semua 79 berada dalam # / - 6.0.

RESULTS
Disaggregation Strategy
Tabel 1 menyajikan hasil dari tindakan ANOVA yang diulang (bandingkan dengan Lipe dan
Salterio 2000, Tabel 3). Jika BSC terpilah berhasil dalam mencegah bias tindakan umum yang
diamati oleh Lipe dan Salterio, harus ada interaksi yang signifikan antara tindakan Unigue
dan Divisi. Seperti yang ditunjukkan pada Panel A, interaksi Division x Unigue (f - 30.51, px
«0.0l) serta interaksi Division Xx Common adalah signifikan (f - 12.81, p« 0.01). Oleh karena
itu, hasil kami memberikan bukti bahwa tindakan umum dan tidak penting penting dalam
menjelaskan perbedaan dalam skor evaluasi keseluruhan. Hasil ini berbeda dari Lipe dan
Salterio, yang menemukan signifikansi hanya pada langkah-langkah umum. (Catatan: Tidak
satu pun dari tes antar-subjek yang ditunjukkan pada Panel A yang signifikan, juga tidak ada
interaksi tiga arah dalam subjek. Ini adalah hasil dari desain eksperimental yang seimbang
dan diharapkan.)
Panel B dari Tabel 1 melaporkan berarti menggambarkan arah dan besarnya hasil. Konsisten
dengan Lipe dan Salterio, ketika langkah-langkah umum lebih menyukai RadWear, atasan
memberi peringkat manajer RadWear 2,28 poin lebih tinggi dari manajer Pakaian Kerja.
Demikian juga, ketika langkah-langkah umum mendukung WorkWear, atasan menempatkan
manajer WorkWear 2,58 poin lebih tinggi dari manajer RadWear. Perbedaan untuk ukuran
umum ini sedikit signifikan, p - 0,05.
Namun, berbeda dengan Lipe dan Salterio, hasil kami menunjukkan bahwa ketika tindakan
tidak sesuai mendukung RadWear, atasan memberi peringkat manajer RadWear 3,75 poin
lebih tinggi daripada manajer WorkWear. Demikian pula, ketika langkah-langkah unigue
mendukung WorkWear, atasan peringkat manajer WorkWear 4,0 poin lebih tinggi dari
manajer RadWear. Perbedaan-perbedaan ini untuk ukuran unigue signifikan, p «0,0l.
Untuk meneliti lebih lanjut pengaruh relatif dari langkah-langkah umum dan tidak nyata,
kami merundingkan perbedaan dalam evaluasi kinerja atasan secara keseluruhan pada
langkah-langkah umum dan tidak sama. Lipe dan Salterio melaporkan koefisien kemiringan
positif yang signifikan dari regresi 10,87 untuk tindakan umum (t - 3,28, p «0,01), tetapi
koefisien tidak signifikan untuk ukuran Unigue, 0,08 (t - 0,02, p? 0,10). Sebaliknya, seperti
yang ditunjukkan pada Tabel 2, ukuran Common dan Unigue dalam penelitian kami memiliki
koefisien kemiringan positif yang signifikan: 5,18 (t— 3,63, p «0,001) dan 8,00 (t- 5,67, p«
0,001) untuk Common dan Unigue, masing-masing.
TABEL 1
Berdasarkan hasil yang ditunjukkan pada Tabel 1 dan 2, kami menyimpulkan BSC terpilah
efektif dalam menghilangkan bias pengukuran umum yang ditemukan Lipe dan Salterio
ketika BSC digunakan untuk evaluasi kinerja holistik.
Bonus Distribution (Allocation)
Hipotesis kedua kami menguji pengaruh evaluasi kinerja pada alokasi bonus. Kami
menghitung perbedaan dalam bonus manajer yang diberikan oleh masing-masing peserta.
Kami merevisi perbedaan ini pada perbedaan dalam evaluasi kinerja keseluruhan manajer
yang ditugaskan oleh setiap peserta menggunakan BSC Disaggregated (PerformDiff),
mengendalikan perbedaan dalam skor agregat mekanis setiap manajer (AggScDiff). Tabel 3
melaporkan hasil regresi. Model kompensasi kinerja adalah signifikan, f - 48,84, p «0,0001.
Skor evaluasi keseluruhan manajer ”signifikan (p« 0,0001). Skor yang dikumpulkan secara
mekanis, termasuk sebagai variabel kontrol, secara signifikan sedikit (p - 0,07). Menariknya,
model hanya menjelaskan 55 persen dari perbedaan dalam perbedaan bonus. Dengan
demikian, atasan tampaknya menggunakan evaluasi kinerja BSC Terpisah sebagai bagian
dari model penilaian mereka untuk menetapkan bonus, tetapi mereka tidak konsisten dalam
aplikasi informasi evaluasi kinerja mereka atau menyesuaikan alokasi bonus untuk faktor
tambahan yang tidak termasuk dalam BSC.
Supplemental Analyses
Secara desain, skor BSC yang diagregasi secara mekanis mewakili input untuk kinerja atasan
dan keputusan kompensasi. Keputusan akhir atasan dibuat secara terpisah dari agregasi
mekanik. Yang penting, keputusan mereka dibingkai sebagai evaluasi keseluruhan (holistik).
Perbedaan ini meningkatkan penilaian sampai sejauh mana evaluasi kinerja secara
keseluruhan dipengaruhi oleh skor BSC awal yang teragregasi secara mekanis.
Untuk mengatasi hubungan ini, kami mengkorelasikan penilaian subyektif atasan
keseluruhan dari kinerja masing-masing manajer dengan skor agregat mekanis mereka
untuk manajer yang sama. Koefisien korelasi untuk RadWear adalah 0,74 (p «0,0001) dan
untuk WorkWear, 0,84 (p« 0,0001). Dengan demikian, untuk setiap manajer divisi, skor
agregat mekanis secara signifikan berkorelasi dengan evaluasi subyektif dan keseluruhan.
Kedua korelasi kurang dari 1,0, namun, menunjukkan evaluasi holistik atasan termasuk
beberapa penyesuaian mental dari skor agregat mekanis mereka atau, setidaknya, mereka
tidak konsisten sempurna. "
Penelitian sebelumnya telah menemukan keputusan terpilah meningkatkan konsensus dan
perjanjian antar-hakim (Libby dan Libby 1989: Davis 1998). Kami membandingkan standar
deviasi untuk evaluasi peserta kami (Tabel 1, Panel B) dengan yang dilaporkan oleh Lipe dan
Salterio (2000, Tabel 3, Panel B). Statistik F-signifikan hanya untuk satu dari delapan
perbandingan (p <0,05). Dengan demikian, kami menyimpulkan bahwa pemisahan evaluasi
BSC tidak mengurangi variasi di antara para evaluator. Kami mencatat, bagaimanapun,
bahwa peserta kami menggunakan dua kali jumlah item BSC sebagai peserta Lipe dan
Salterio. Juga, standar deviasi yang tersedia untuk perbandingan dengan Lipe dan Salterio
adalah rata-rata di dua sel eksperimental, yang tentu menunjukkan variasi kurang dari rata-
rata sel individual.
IMPLICATIONS, LIMITATIONS, AND SUGGESTIONS
Implications
Lipe dan Salterio (2000) mencatat langkah-langkah umum yang digunakan dalam BSC
cenderung menjadi langkah-langkah keuangan yang lebih tradisional, seperti pengembalian
penjualan dan penurunan harga rata-rata, dan bahwa langkah-langkah ini cenderung
meninggalkan kinerja aktual. Sebaliknya, langkah-langkah tidak penting, seperti penjualan
dari para pemimpin pasar baru dan pangsa pasar relatif terhadap ruang ritel, cenderung
non-tradisional dan, yang lebih penting, indikator kinerja terkemuka yang menangkap
unsur-unsur penekanan strategis perusahaan dan divisi yang tidak ditangkap di tempat lain.
Dengan demikian, mengabaikan langkah-langkah tidak nyata dalam BSC sama saja, dalam
banyak kasus, mengabaikan banyak indikator utama dan lebih memfokuskan perhatian
manajerial pada indikator yang tertinggal.
Agar efektif sebagai perangkat kontrol manajemen, BSC harus menghasilkan evaluasi yang
akurat, obyektif, dan dapat diverifikasi (Malina dan Selto 2001, 75). Konflik dan ketegangan
yang signifikan antara atasan dan evaluasi diamati ketika evaluasi dianggap subyektif.
Persepsi subjektivitas menyebabkan penolakan terhadap BSC dan kembali ke ukuran kinerja
keuangan di perusahaan besar lainnya (Ittner et al. 2002).
Dengan menggunakan Balanced Scorecard yang terpilah, para partisipan kami
menggunakan faktor-faktor yang tidak signifikan secara substansial. Sementara dua
penelitian lain menemukan pelatihan (Dilla dan Steinbart 2002) dan komunikasi eksplisit
tentang pentingnya semua tindakan BSC (Roberts et al. 2002) dapat meningkatkan
pemanfaatan langkah-langkah tidak nyata, kedua studi Jatter ini menemukan langkah-
langkah umum menghitung dua hingga empat kali lipat. yariasi dalam evaluasi daripada
langkah-langkah unigue. Item BSC tidak secara eksplisit diberi bobot dalam salah satu dari
studi ini. Sebaliknya, penelitian ini menunjukkan bobot yang ditetapkan sebagai bagian dari
desain BSC memungkinkan pengambil keputusan untuk menempatkan bobot egual atau
lebih besar pada langkah-langkah yang tidak sesuai, konsisten dengan strategi perusahaan.
Sejauh langkah-langkah unigue merupakan indikator utama, BSC yang didaggregasikan akan
memungkinkan manajer untuk melakukan intervensi lebih cepat ketika divisi menghadapi
masalah dan mencoba tindakan korektif.
Limitations
Hasil penelitian ini terbatas pada evaluasi komparatif. Seperti dibahas di atas, Slovic dan
MacPhillamy's (1974) menemukan bias tindakan umum tidak berlaku ketika individu, bukan
pasangan, dievaluasi. Dengan demikian, ketika BSC digunakan untuk mengevaluasi divisi
secara individual, kondisi penting yang mengarah ke bias tindakan bersama akan tidak ada.
Juga, peserta dalam percobaan ini tidak memiliki pengalaman pribadi dengan manajer yang
dievaluasi atau akuntabilitas individu untuk evaluasi kinerja dan keputusan kompensasi
mereka. Akuntabilitas telah secara positif mempengaruhi pengambilan keputusan dalam
beberapa konteks terkait, seperti ketika alat bantu pengambilan keputusan tidak tersedia
(Ashton 1990) dan ketika pembuat keputusan secara terpisah memproses beberapa item
informasi positif dan negatif (Kennedy 1993). Akhirnya, meskipun peserta kami mirip
dengan Lipe dan Salterio (2000), yaitu, siswa MBA di universitas negeri besar, mungkin ada
perbedaan lain antara peserta kami dan / atau waktu dan pengaturan dua percobaan tentang
yang tidak kami sadari dan belum dipertimbangkan.
Suggestions
Kami menggunakan dua bagian, strategi bantuan keputusan agregat terpilah-secara-
mekanis yang konsisten dengan penelitian sebelumnya tentang "penilaian manusia versus
model manusia" (Ashton 1982, 34-43). Dalam pendekatan kami, bagaimanapun, pembuat
keputusan manusia melakukan agregasi, seperti yang disarankan oleh Bowman (1963),
sebelum melakukan evaluasi subyektif, keseluruhan. Dengan demikian, bias tindakan umum
mungkin dapat dikurangi dengan (1) meminta pengguna BSC untuk mengevaluasi kinerja
pada setiap ukuran BSC dan / atau (2) menyarankan bobot untuk setiap ukuran. Penelitian
di masa depan dapat menguji apakah bias tindakan umum dapat dikurangi atau diatasi
dengan salah satu dari pendekatan ini saja. Kami mencatat, bagaimanapun, satu penelitian
menemukan bahwa meminta penilaian terpilah tanpa memberikan mekanisme untuk
kombinasi menghasilkan penurunan kualitas penilaian dibandingkan dengan penilaian
holistik (Lyness dan Cornelius 1982). Juga, memberikan bobot yang disarankan
kemungkinan akan menghasilkan hasil yang mirip dengan pengingat untuk menggunakan
semua tindakan (Roberts et al. 2002).
Selain itu, atasan dapat diminta untuk mengevaluasi kinerja untuk setiap kategori BSC, yaitu
untuk mengevaluasi kinerja pada empat item sekaligus, dan kemudian membuat penilaian
holistik. Secara teoritis, ini akan secara substansial mengurangi jumlah informasi yang akan
diproses pada setiap tahap, sehingga mengurangi kebutuhan akan strategi penyederhanaan
kognitif yang ada dalam studi Lipe dan Salterio (2000).
Penelitian di masa depan harus memeriksa sejauh mana agregasi mekanik dapat diterima
oleh manajer dan atasan. Pengaruh faktor-faktor di luar langkah-langkah BSC yang
dinyatakan juga harus diatasi. Dalam studi ini, skor yang dikumpulkan secara mekanis
menjelaskan sedikit lebih dari 50 persen variasi dalam keseluruhan evaluasi kinerja untuk
satu divisi (RadWear) dan 70 persen variasi dalam evaluasi kinerja untuk divisi lain
(WorkWear). Mungkin peserta melihat pasar RadWear remaja sebagai lebih fluktuatif dari
pasar WorkWear, menghasilkan varians yang lebih besar dalam evaluasi RadWear, atau
atasan dapat bereaksi negatif terhadap beberapa item pada BSC. Mereka mungkin
mengabaikan BSC karena, dalam percobaan ini, mereka bukan peserta aktif dalam
mengembangkan tindakan, atau mereka dapat bereaksi negatif terhadap praktik penetapan
target BSC. Sebagai contoh, mungkin tampak tidak biasa bagi para peserta bahwa kedua
divisi melebihi kinerja target mereka pada semua 16 ukuran BSC. Para atasan mungkin
menerapkan standar kinerja mereka sendiri yang agak berbeda dari pedoman BSC.
Kemungkinan ini disarankan oleh skor agregat mekanis rata-rata, serta skor holistik yang
diperoleh oleh Lipe dan Salterio, dalam kisaran 70-80 untuk kinerja manajerial yang
melampaui target pada semua 16 ukuran. Ini dan penjelasan lain yang mungkin harus
diselidiki oleh penelitian masa depan. Karena penerimaan alat evaluasi kinerja sangat
penting untuk perilaku ex ante manajer (Lipe dan Salterio 2000, 293), masalah ini penting
untuk dipahami.
CONCLUSIONS
Lipe dan Salterio (2000) menunjukkan batasan penting untuk menggunakan BSC. Tanpa
menyediakan cara untuk menjelaskan beban kognitif pada pengguna, pembuat keputusan,
ketika melakukan evaluasi komparatif, akan cenderung memusatkan perhatian hanya pada
langkah-langkah yang umum di kalangan manajer dan mengabaikan tindakan yang tidak
dilakukan oleh manajer divisi. Studi kami menunjukkan metode yang efisien untuk
mengurangi tuntutan kognitif yang terlalu besar dari Balanced Scorecard, sementara
memungkinkan pengguna untuk membuat evaluasi yang konsisten dengan semua elemen
penting dari strategi dan misi perusahaan.
Meskipun mereka menghindari masalah ini, Kaplan dan Norton (1996) menunjukkan
perilaku karyawan tidak mungkin dimodifikasi tanpa kaitan yang pasti dengan kompensasi.
Jika jumlah kompensasi yang akan diterima ditentukan dari evaluasi atasan atas kinerja
karyawan dalam memenuhi tujuan divisi, maka penting untuk mengetahui bagaimana
evaluasi atasan-atasan itu dipengaruhi oleh dimasukkannya bobot pada BSC. Hasil kami
menunjukkan keputusan kompensasi pembuat keputusan sangat didukung oleh skor
evaluasi kinerja keseluruhan dari Balanced Scorecard yang dipilah. Bukti ini, dan bukti
serupa dari praktik, harus meyakinkan karyawan di perusahaan yang telah mengadopsi
pendekatan BSC bahwa bonus mereka, pada kenyataannya, berdasarkan pada pesan yang
dikomunikasikan oleh manajemen — tetapi hanya jika bobot dan skor terpilah dibuat secara
eksplisit.

Anda mungkin juga menyukai