Anda di halaman 1dari 22

The Balanced Scorecard: Judgmental Effects of Common and Unique Performance

Measures
Marlys Gascho Lipe, University of Oklahoma
Steven E. Salterio, University of Waterloo
I. Introduction
BSC berisi satu set beragam ukuran kinerja, yang mencakup kinerja keuangan, hubungan
pelanggan, proses bisnis internal, dan pembelajaran dan pertumbuhan kegiatan organisasi
(Kaplan dan Norton 1992). Ini set besar langkah-langkah yang dirancang untuk menangkap
strategi bisnis yang diinginkan perusahaan (Kaplan dan Norton 1993, 1996a) dan menyertakan
driver kinerja di semua bidang penting untuk perusahaan. Penggunaan BSC harus meningkatkan
pengambilan keputusan manajerial dengan menyelaraskan ukuran kinerja dengan tujuan dan
strategi perusahaan dan unit bisnis perusahaan. BSC relatif mahal untuk mengembangkan
sehingga keuntungan bersih yang diperoleh dalam mengadopsi BSC tergantung pada sejauh
mana itu meningkatkan keputusan manajer. Dalam studi ini, kita membahas bagaimana
keterbatasan kognitif manajer dapat mencegah suatu organisasi dari sepenuhnya manfaat dari
informasi BSC. Kami meneliti karakteristik diamati dari BSC (yaitu, langkah-langkah umum
untuk beberapa unit vs langkah unik untuk unit tertentu) yang dapat membatasi kemampuan
manajer untuk sepenuhnya mengeksploitasi informasi yang ditemukan dalam satu set beragam
ukuran kinerja.
Untuk menyelidiki apakah langkah-langkah umum mendominasi evaluasi BSC berbasis
unit bawahan, kita mengembangkan percobaan dimana siswa MBA mengevaluasi dua divisi dari
perusahaan pakaian. Dua divisi menjual ke pasar yang berbeda dan memiliki strategi bisnis yang
berbeda. Mereka memiliki balanced scorecard dengan beberapa umum dan beberapa tindakan
yang unik. Kami memanipulasi kinerja dua divisi (relatif terhadap target mereka) tentang
langkah-langkah umum dan mereka yang unik dalam desain menyeberang. Divisi satu dapat
mengungguli (atau underperform) divisi dua pada langkah-langkah umum, dan divisi satu
mungkin juga mengungguli (atau underperform) divisi dua pada langkah-langkah yang
unik. Hasil kami menunjukkan bahwa peserta percobaan mengevaluasi divisi hanya didasarkan
pada kebijakan umum. Kinerja pada langkah-langkah yang unik tidak berpengaruh pada
penilaian evaluasi.

Sisa kertas ini disusun sebagai berikut. Bagian selanjutnya menjelaskan BSC dan
penggunaannya, seperti yang dibayangkan oleh Kaplan dan Norton (1996b). Dalam Bagian III
kami meninjau penilaian dan pengambilan keputusan literatur berlaku untuk mempelajari BSC
dan mengembangkan hipotesis penelitian kami. Bagian IV dan V menggambarkan metode
eksperimen dan hasil, dan bagian akhir membahas implikasi dan keterbatasan penelitian
II. BALANCED SCORECARD
Implementation
Kaplan dan Norton (1996a, 1996b) mengidentifikasi empat langkah utama dalam
melaksanakan BSC: (1) menjelaskan dan menerjemahkan visi dan strategi, (2) berkomunikasi
dan menghubungkan, (3) perencanaan dan pengaturan sasaran, dan (4) umpan balik strategis dan
belajar. Langkah pertama, mengklarifikasi dan menerjemahkan visi dan strategi, umumnya
dilakukan oleh tim manajemen atas, meskipun Kaplan dan Norton (1996b) menunjukkan bahwa
ini telah berhasil dicapai oleh seorang eksekutif senior tunggal. Tujuan dari fase ini adalah untuk
mengembangkan pemahaman tentang misi perusahaan dan strategi untuk mendapatkan
tujuannya. Sejak pernyataan misi yang sering kabur, manajemen harus menerjemahkan misi ke
dalam tujuan tertentu dan kemudian mengembangkan strategi yang akan menggunakan kekuatan
perusahaan untuk memenuhi tujuan. Dengan demikian, manajemen harus mengembangkansatu
set langkah-langkah yang menangkap strategi ini. Ini akan menjadi BSC organisasi.
Dalam kegiatan normal dari implementasi BSC, setiap manajer Unit (dan tim-nya)
mengembangkan scorecard unit, sementara manajer tingkat yang lebih tinggi menyetujui
Scorecard dan menggunakannya untuk evaluasi dan pengambilan keputusan lebih lanjut. Chow
dkk. (1997) menunjukkan bahwa bahkan usaha kecil mengembangkan beberapa Scorecard,
masing-masing disesuaikan dengan strategi dan tujuan dari 286 subunit tertentu. Dengan
demikian, langkah kedua pelaksanaan BSC membutuhkan banyak orang di seluruh unit
organisasi untuk mengembangkan Scorecard untuk segmen khusus mereka dari bisnis. Dalam
langkah-langkah yang tersisa dari implementasi BSC, manajer menetapkan target dan anggaran
(langkah ketiga), dan dari waktu ke waktu, menerima umpan balik pada strategi unit bisnis dan
perusahaan dengan mengevaluasi kinerja relatif terhadap ukuran scorecard (langkah empat).

Categories of Measures
BSC harus mencakup ukuran kinerja keuangan, hubungan pelanggan, proses bisnis
internal, dan pembelajaran organisasi dan pertumbuhan (Kaplan dan Norton 1996b).Seperti
dibahas di atas, beberapa langkah-langkah khusus yang dipilih untuk masing-masing unit bisnis
individu dalam organisasi kemungkinan akan berbeda dari unit lain, karena tindakan harus
disesuaikan dengan tujuan spesifik masing-masing unit dan strategi. Set terakhir ukuran kinerja
berkaitan dengan pembelajaran dan pertumbuhan dan mereka sering yang paling sulit untuk
memilih. Kaplan dan Norton (1996b, 127) menyarankan langkah-langkah dari kemampuan
karyawan, informasi kemampuan sistem, dan motivasi karyawan dan pemberdayaan.
Linking the BSC to Performance Evaluation and Compensation
Kaplan dan Norton (1996b, 217-223) menunjukkan bahwa itu adalah bermasalah untuk
meminta manajer untuk fokus pada langkah-langkah BSC jika kompensasi dan evaluasi manajer
didasarkan pada ukuran finansial tradisional. Namun, Kaplan dan Norton (1996b) tidak
memberikan

rekomendasi

khusus

mengenai

bagaimana

menghubungkan

BSC

untuk

kompensasi. Mengingat Kaplan dan Norton (1996b) keengganan pada link antara BSC dan
kompensasi, percobaan kami menyelidiki penggunaan BSC untuk pengukuran dan evaluasi
kinerja, bukan untuk kompensasi. Kaplan dan Norton (1996b, 1996a) menunjukkan bahwa
manajer akan menggunakan BSC untuk evaluasi kinerja selama ulasan operasional. Ulasan
operasional kinerja menggunakan BSC mirip dengan yang di perusahaan non-BSC (yaitu,
manajer mengevaluasi unit bawahan dan manajer unit) kecuali bahwa BSC menyediakan
manajer mengevaluasi dengan satu set yang lebih luas dari tindakan (termasuk tindakan non
keuangan) untuk digunakan dalam menilai kinerja bawahan.Dengan demikian, kita
mempertimbangkan efek dari set ini lebih luas dari tindakan dalam konteks penilaian kinerja
organisasi dan evaluasi.
III. JUDGMENT AND DECISION-MAKING RESEARCH
The Use of Common and Unique Information
Sebuah penilaian dan pengambilan keputusan studi klasik menunjukkan bahwa orang
menggunakan informasi umum dan unik berbeda. Slovic dan (1974) peserta relawan sarjana
MacPhillamy ini dinilai yang dua mahasiswa memiliki tinggi mahasiswa IPK. Subyek
3

eksperimental berdasarkan penilaian mereka pada informasi numerik mengenai kemampuan


bahasa Inggris siswa, bakat kuantitatif, dan kebutuhan untuk berprestasi. Peserta melihat
beberapa informasi yang umum untuk dua mahasiswa dan informasi unik lainnya. Misalnya,
bahan bisa memberikan nilai pada kemampuan bahasa Inggris untuk siswa, skor bakat kuantitatif
untuk mahasiswa satu, dan kebutuhan untuk skor prestasi bagi siswa dua.
Para peserta melihat informasi tersebut untuk pasang siswa dan dinilai mana siswa akan
memiliki tinggi IPK mahasiswa dan besarnya perbedaan. Slovic dan MacPhillamy (1974)
menemukan bahwa peserta tertimbang langkah-langkah umum lebih berat daripada langkahlangkah unik untuk kedua penilaian dan pilihan. Insentif moneter dan umpan balik tidak
menghilangkan diferensial pembobotan ini. Selanjutnya, efeknya tidak hasil dari diagnosticity
diferensial item umum dan unik; kelompok lain peserta yang meramalkan IPK ketika informasi
masing-masing siswa disajikan secara individual (yaitu, tidak ada kasus perbandingan diberikan)
tidak berat item informasi secara diferensial.
Singkatnya, meskipun keputusan klasik dan studi pengambilan keputusan menunjukkan
bahwa item umum didominasi barang-barang unik di tugas prediksi kelas, tidak jelas apakah efek
yang sama akan timbul dalam evaluasi BSC. Sementara kami percaya bahwa pengambilan
keputusan strategis adaptif sering otomatis dan tidak sadar dan bahwa penilaian secara inheren
komparatif (Hsee 1996, 1998), bobot tindakan umum dan unik yang digunakan pada balanced
scorecard merupakan isu empiris belum teruji. Oleh karena itu kita mengandaikan hipotesis
berikut dinyatakan dalam bentuk null.
Hipotesis 1: Kinerja evaluasi menggunakan balanced scorecard akan terpengaruh oleh langkahlangkah yang unik dan langkah-langkah umum.
Bagian selanjutnya menjelaskan uji eksperimental hipotesis.
IV. METHOD
Overview of Experiment
Peserta dalam percobaan membaca kasus meminta mereka untuk mengambil peran
seorang eksekutif senior dari WCS Incorporated perusahaan yang mengkhususkan diri dalam
pakaian perempuan. Bahan Kasus fokus pada dua divisi terbesar WCS. Kasus ini menunjukkan
bahwa direktur keuangan perusahaan menghadiri simposium Harvard Business School pada

balanced scorecard. Selanjutnya, ia menjelaskan konsep BSC dan daftar empat kategori
tindakan. Peserta belajar bahwa WCS memutuskan untuk menerapkan BSC.
Kasus ini mengutip pernyataan misi WCS, memperkenalkan manajer dari dua unit bisnis
(divisi), menjelaskan strategi divisi, dan menyajikan balanced scorecard untuk setiap
divisi. Peserta bertindak sebagai eksekutif senior WCS (superior), membuat penilaian berikut
untuk manajer masing-masing (bawahan) unit. Tugas ini berikut Kaplan dan Norton (1996b,
1996a) dalam setiap unit mengembangkan scorecard sendiri dan manajer unggul mengevaluasi
unit relatif terhadap scorecard ini. Setelah mengevaluasi manajer unit, peserta menyelesaikan
kuesioner pembekalan. Ini meminta informasi demografis, disediakan cek manipulasi (dibahas
lebih lanjut dalam hasil di bawah ini), dan mengumpulkan data mengenai kesulitan tugas,
realisme, dan dimengerti. Tabel 1 menyajikan salah satu divisi balance scorecard.

Subjects
Pertama tahun lima puluh delapan siswa MBA menjabat sebagai peserta eksperimen. Siswa
memiliki, rata-rata, lebih dari lima tahun pengalaman kerja dan 63 persen adalah laki-laki.
Design and Procedure
5

Pengalaman mempekerjakan 2x2 antara subjek (Ss) desain, dalam hubungannya dengan
faktor 2-tingkat dalam-Ss (yaitu desain lengkap adalah 2 x 2 x 2). Faktor independen pertama
menunjukkan pola tertentu kinerja untuk dua unit usaha berdasarkan langkah-langkah bersama
mereka. Kami mengembangkan Scorecard keseimbangan 16-ukuran yang terpisah untuk dua
divisi WCS. Scorecard berisi empat ukuran kinerja di masing-masing kategori BSC. Setiap
kategori termasuk dua langkah umum dan dua ukuran yang unik.Kami memilih semua data
kinerja sehingga barang umum dan unik memiliki kinerja kelebihan yang sama. Tabel 1
menunjukkan bahwa persen 'lebih baik dari target', dihitung untuk digit kedua, muncul sebagai
kolom dalam Scorecard disajikan kepada peserta.
Pilot Testing the Instruments
Desain percobaan untuk membandingkan merespon bagaimana subjek untuk umum vs
tindakan yang unik, sehingga peserta harus percaya dua set langkah-langkah memiliki validitas
yang sama. Sayangnya, kami tidak bisa melihat item tertentu sebagai ukuran umum untuk
beberapa mata pelajaran dan ukuran yang unik bagi orang lain. Kami melakukan beberapa tes
untuk menentukan apakah peserta yang dirasakan dua set langkah-langkah yang sama.
1. Kami memilih apakah kelompok tindakan yang unik dipilih untuk RadWear dan pakaian
kerja adalah serupa dalam hubungannya dengan kategori BSC.
2. Kami menguji apakah langkah-langkah umum dan unik sama-sama relevan dengan
penilaian evaluasi kinerja kami meminta subyek untuk membuat.
3. Kami memeriksa sebuah studi oleh Dempsey et al. (1997), ia meminta para analis
keuangan untuk menilai serangkaian langkah-langkah strategis untuk frekuensi
penggunaan dan nilai prediktif untuk analis; sepuluh langkah-langkah kami (lima umum
dan lima unik) muncul dalam daftar mereka.
Singkatnya uji coba ini menunjukkan bahwa langkah-langkah unik, untuk dua divisi yang sama
perwakilan dari kategori BSC mereka.
Dependent Measure
Semua mata pelajaran dievaluasi manajer RadWear serta manajer workwear. Penelitian
ini ingin mengetahui apakah kinerja pada langkah-langkah umum dan unik mempengaruhi
evaluasi mata pelajaran 'dari manajer divisi. Jika langkah-langkah umum mempengaruhi evaluasi
ini, kita akan mengamati interaksi divisi dan langkah-langkah umum. Jika langkah-langkah yang
6

unik mempengaruhi evaluasi, kita akan menemukan sebuah interaksi divisi dan langkah-langkah
yang unik.
V. Results
Sebuah cek manipulasi menunjukkan peserta mengakui bahwa divisi dua mempekerjakan
ukuran kinerja yang berbeda (p <0,01). Cek manipulasi lebih lanjut menunjukkan bahwa peserta
setuju dua divisi menjual ke pasar yang berbeda (p<0,01) dan yang sesuai untuk divisi untuk
menggunakan langkah-langkah kinerja yang berbeda (p<0,01). selain tidak ada perbedaan di
perawatan eksperimental dalam kemudahan pemahaman, kasus kesulitan atau kasus realisme
(semua p-nilai>0,10). hasil manipulasi cek tidak bervariasi di seluruh perawatan eksperimental.
ANOVA digunakan untuk menguji hipotesis, dan hasilnya, di Panel A efek hanya
signifikan secara statistik adalah interaksi langkah-langkah umum dan pembagian (F = 30,69, df
= 1,54, p<0,01) menunjukkan bahwa pola kinerja pada langkah-langkah umum mempengaruhi
evaluasi manajer, sedangkan pola untuk langkah-langkah yang unik tidak.Panel B menunjukkan
bahwa ketika langkah-langkah umum mendukung RadWear, manajer unggul mengevaluasi
RadWear ini manajer 5,97 poin lebih tinggi dari manajer workwears ini. Demikian pula ketika
umum ukuran mendukung workwear, manajer Workwear dievaluasi 7.17 poin lebih tinggi
daripada manajer RadWear ini. Sebaliknya, ketika langkah-langkah yang unik mendukung
RadWear (workwear), tidak ada perbedaan yang signifikan dalam evaluasi manajer, perbedaan
rata-rata 0,64 (1,77). Penelitian ini juga menggunakan analisis regresi, regresi perbedaan dalam
evaluasi kinerja manajerial terhadap kinerja relatif pada langkah-langkah umum, dan kinerja
relatif pada langkah-langkah yang unik. Ukuran umum memiliki koefisien kemiringan secara
signifikan positif dari 10,87 (t = 3.28, p>0,01) sedangkan koefisien unik item dari 0,08 tidak
signifikan (t = 0,02, p>0,01). Sehingga hasilnya menunjukkan bahwa Slovic dan MacPhillamy
(1974) menemukan strategi penyederhanaan alami dimana langkah-langkah umum mendominasi
tindakan unik juga berlaku dalam konteks BSC.

VI. Implication, Limitations, and Research Issues


1. Implikasi dari Hasil yang
Bukti bahwa langkah-langkah unik diabaikan dalam evaluasi ex post kinerja dari unit
bisnis 'manajer memiliki implikasi signifikan bagi unit manager' s keputusan ex ante

membuat strategi.
Kaplan dan Norton (1996b) mencatat bahwa tindakan lagging sering agak generik,
sedangkan ukuran memimpin lebih mungkin untuk disesuaikan untuk setiap unit

bisnis.
2. Batasan Studi
Para peserta percobaan tidak terlibat dalam pengembangan unit 'Scorecard, sehingga
kita bisa' t mengetahui pengaruh keterlibatan tersebut, meskipun keterlibatan yang
lebih besar dapat meningkatkan ketergantungan pada semua langkah BSC, termasuk

langkah-langkah yang unik.


Para peserta mungkin pemula dalam penggunaan BSC dan tidak selalu memiliki
pengalaman bisnis di sektor ritel dan pakaian dari mana kita mengembangkan bahan

kasus.
Ada kemungkinan bahwa kinerja merasakan relatif terhadap target berbeda untuk

berbagai kelompok tindakan.


3. Hambatan penelitian
Ketidakmampuan untuk langsung menerapkan model analitis untuk banyak situasi dunia
nyata berarti bahwa kriteria normatif terhadap yang untuk mengevaluasi penilaian dan keputusan
akan sering absen. Jumlah faktor, jumlah tes, isu-isu yang sentral dan perifer mereka untuk
penelitian semua ditentukan dengan teori. Investigasi fenomena dunia nyata mengarah ke laporan
keinginan alami bagaimana perusahaan benar-benar melakukan bisnis dan berapa banyak
perusahaan yang menggunakan metode bunga. Data tersebut dapat sangat sulit untuk
mendapatkan, terutama karena perusahaan membuat transisi ke metode baru atau seperti dalam
kasus BSC, ketika perusahaan mempertimbangkan informasi kepemilikan dan sensitie (Kaplan
dan Norton, 1996b, 148).

Debiasing Balanced Scorecard Evaluations


By Michael L. Roberts, dkk.
Introduction
Tujuan studi ini adalah menguji pendekatan untuk menghapus bias (debias) evaluasi
kinerja menggunakan BSC. Peneliti menggunakan disaggregated balanced scorecard dimana
partisipan (1) mengevaluasi kinerja secara terpisah untuk tiap 16 ukuran kinerja lalu (2)
menggabungkan pertimbangan secara terpisah menggunakan bobot yang telah ditetapkan
sebelumnya untuk tiap ukuran. Oleh karena itu, peneliti menguji apakah bias pengukuran yang
ditemukan oleh Lipe dan Salterio (2000) ketika BSC digunakan untuk membuat pertimbangan
holistik dapat diatasi menggunakan disaggregated information processing strategy.
Temuan menunjukkan bahwa pemisahan tahap ketika mengevaluasi BSC dapat mengatasi
bias pengukuran. Pemisahan proses merupakan satu pendekatan untuk meningkatkan efektivitas
BSC. Studi juga memperluas Lipe dan Salterio (2000) untuk menguji pengaruh evaluasi kinerja
BSC pada keputusan kompensasi.Meskipun Kaplan dan Norton mengusulkan bahwa BSC
seharusnya mempengaruhi kompensasi, mereka tidak memberi pedoman atas keterkaitan ini.
Peneliti menemukan evaluasi kinerja menggunakan disaggregated BSC strategy menjelaskan
variasi keputusan untuk membagikan bonus pada manajer divisi. Kinerja dan alokasi bonus
sangat terkait.
Literature Review and Hypothesis Development
H1 : Menyajikan BSC dalam disaggregated format akan menghasilkan evaluasi holistik kinerja
manajer yang mencerminkan pengukuran yang khusus serta umum.
H2 : Evaluasi kinerja holistik menggunakan disaggregated BSC akan mempengaruhi keputusan
kompensasi.
Procedures
Mahasiswa MBA diberikan sebuah kasus terkait dua divisi dalam WCS, perusahaan ritel
yang khusus bergerak dalam pakaian wanita. Kasus akan diberikan selama kelas, sebelum
perintah balanced scorecard. Tidak ada imbalan yang diberikan atas partisipasi dan respon
bersifat anonim.Kasus diadaptasi dari Lipe dan Salterio, yang telah mengikuti contoh Kaplan dan
Norton (1996) terkait implementasi BSC.Partisipan diminta untuk menduga peran eksekutif
9

senior WCS yang telah berpartisipasi dalam simposium Harvard Business School terkait
Balanced Scorecard.Partisipan diberikan pernyataan misi WCS dan diperkenalkan terhadap dua
manajer divisi. Kasus yang diberikan pada partisipan terkait strategi divisi secara individu dan
disajikan balanced scorecard tiap divisi.
Selanjutnya, partisipan menyelesaikan dua tahap disaggregated BSC yaitu mereka (1)
memperingkat kinerja tiap manajer berdasarkan tiap item dari 16 item balanced scorecard
menggunakan skala dari 0 (tidak dapat diterima) sampai 100 (sangat baik) lalu (2) mengalikan
pertimbangan individu ini dengan bobot yang telah ditentukan dan menjumlahkan skor untuk
memperoleh skor total untuk tiap divisi.
Partisipan lalu melakukan penilaian keseluruhan secara terpisah untuk kinerja tiap
manajer yang diukur dengan skala dari 0 (reassign) sampai 100 (excellent).Penilaian ini
digunakan untuk menguji H1.Pertimbangan secara terpisah diperoleh untuk memberikan peluang
bagi partisipan untuk menyesuaikan penilaiannya secara keseluruhan jika mereka tidak puas
dengan skor agregat.Mereka bebas untuk mengabaikan atau menggunakannya.
Setelah itu partisipan mengalokasikan dana bonus akhir tahun sebesar $100.000 antara 2
manajer divisi. Alokasi ini akan digunakan untuk menguji H2. Lalu mereka menyeleasikan
pertanyaan tindak lanjut (follow-up), menyediakan informasi demografis, menjawab pengecekan
manipulasi dan menjawab pertanyaan terkait kesulitan, realisme dan kemampuan tugas untuk
dipahami.
Partisipan diberikan informasi mengenai dua divisi WCS yaitu RadWear (RAD) divisi
khusus baju remaja dan WorkWear (WORK), divisi khusus seragam kerja wanita. Strategi tiap
divisi akan disajikan dan ukuran kinerja yang sesuai dengan strategi divisi akan digunakan untuk
tiap scorecard divisi.
Tiap scorecard berisi 16 ukuran secara terpisah dimana 4 kategori berisi 4 hal.Di tiap
kategori, dua ukuran biasa digunakan antar divisi dan dua ukuran khusus bagi tiap divisi.Contoh
dalam kategori keuangan, kedua divisi telah mengukur return on sales dan sales growth. Ukuran
ini khusus bagi Radwear dimana penjualan dan market share masih baru dalam pasar ritel.
Ukuran keuangan WorkWear yang bersifat khusus adalah revenue per sales visit dan catalog

10

profit. Kedua divisi menunjukkan kinerja lebih baik dibanding target. Persentase di atas target
akan dihitung dan dilaporkan dalam sebuah kolom di scorecard.
Dengan 16 ukuran umum dan khusus, bobot unit menunjukkan 6,25% untuk tiap ukuran
(100/16). Total bobot untuk masing-masing dari 4 kategori ditetapkan 25% dan dalam tiap
kategori akan beragam bobot yang ditetapkan antara 4-9%. Bobot ini diberikan pada partisipan di
awal disaggregated BSC. Pengukuran khusus ditetapkan 64% dari total bobot.
Participants
81 mahasiswa MBA berpartisipasi dalam penelitian. 79 Jawaban yang dapat digunakan
karena 1 partisipan gagal melengkapi seluruh evaluasi kinerja bagi kedua manajer dan 1
partisipan tidak memberikan disaggregated score untuk WorkWear. 25 Partisipan adalah
mahasiswa MBA eksekutif dan 54 partisipan mahasiswa MBA reguler. Peneliti juga menguji
potensi perbedaan sistematis antar dua kelompok partisipan dengan memasukkan tingkat
program sebagai variabel dalam tiap model statistik. Tidak terdapat perbedaan antara tingkat
program dan dua kelompok tsb digabungkan.
Attention and Manipulation Checks
Partisipan memandang kasus bersifat realistis, mudah dipahami dan tidak sulit
diselesaikan. Peneliti juga menguji tiap perkalian dan penambahan yang dilakukan partisipan
ketika pembobotan skor untuk mechanical aggregation.

RESULTS
Disaggregation Strategy
Tabel 1 menyajikan hasil diulang tindakan ANOVA (dibandingkan dengan Lipe dan
Salterio 2000, tabel 3). Jika Pemisahan BSC berhasil dalam mencegah common-langkah Bias
diamati oleh Lipe dan Salterio, harus ada interaksi yang signifikan antara langkah-langkah unik
dan Divisi. Seperti ditunjukkan dalam Panel A, kedua Divisi x interaksi Unik (f = 30,51, p <0,01)
serta Divisi x interaksi umum adalah signifikan (f = 12,81, p <0,01). Oleh karena itu, hasil kami
memberikan bukti bahwa langkah-langkah baik umum dan unik yang penting dalam menjelaskan
differences dalam skor evaluasi secara keseluruhan. Hasil ini berbeda dari Lipe dan Salterio,
11

yang menemukan makna hanya pada langkah-langkah umum. (Catatan:. Tak satu pun dari
antara-subyek tes yang ditunjukkan pada Panel A adalah significant, juga interaksi tiga arah
dalam subyek ini adalah hasil dari desain eksperimental seimbang dan diharapkan.)
Panel B dari Tabel 1 laporan berarti untuk menggambarkan arah dan besarnya hasil.
Konsisten dengan Lipe dan Salterio, ketika langkah-langkah umum mendukung RadWear, atasan
peringkat manajer RadWear ini 2,28 poin lebih tinggi dari manajer workwear ini. Demikian juga,
ketika tindakan umum mendukung workwear, atasan peringkat manajer Workwear ini 2,58 poin
lebih tinggi dari manajer RadWear ini. Perbedaan-perbedaan ini untuk langkah-langkah umum
adalah sedikit signifikan, p = 0,05.
Namun, berbeda dengan Lipe dan Salterio, hasil kami menunjukkan bahwa ketika
langkah-langkah unik mendukung RadWear, atasan peringkat manajer RadWear ini 3,75 poin
lebih tinggi dari manajer workwear ini. Likewise, ketika tindakan unik mendukung workwear,
atasan peringkat manajer Workwear ini 4.0 poin lebih tinggi dari manajer RadWear ini.
Perbedaan-perbedaan ini untuk langkah-langkah yang unik yang signifikan, p <0,01.
Untuk lebih menguji pengaruh relatif dari tindakan umum dan unik, kami kemunduran
perbedaan atasan 'evaluasi kinerja keseluruhan pada langkah-langkah umum dan unik. Lipe dan
Salterio melaporkan koefisien slope positif yang signifikan dari regresi 10,87 untuk langkahlangkah umum (t = 3.28, p <0,01), tetapi koefisien tidak signifikan untuk tindakan Unik, 0,08 (t
= 0,02, p> 0,10). Sebaliknya, seperti yang ditunjukkan pada Tabel 2, langkah-langkah baik
umum dan unik di penelitian kami memiliki koefisien kemiringan secara signifikan positif: 5.18
(t = 3.63, p <0,001) dan 8.00 (t = 5.67, p <0,001) untuk umum dan unik, masing-masing .

12

13

Berdasarkan hasil yang ditunjukkan pada Tabel 1 dan 2, kami menyimpulkan Pemisahan
BSC efektif dalam menghilangkan common-langkah Bias Lipe dan Salterio ditemukan ketika
BSC digunakan untuk evaluasi kinerja holistik.
Bonus Distribution (Allocation)
Hipotesis kedua kami meneliti pengaruh evaluasi kinerja pada allocation bonus. Kami
menghitung selisih bonus manajer ditugaskan oleh masing-masing peserta. Kami kemunduran
perbedaan ini pada perbedaan dalam evaluasi kinerja keseluruhan manajer ditugaskan oleh
masing-masing peserta menggunakan Pemisahan BSC (PerformDiff), mengendalikan perbedaan
di setiap manajer Rata mekanis agregat (AggScDiff). Tabel 3 melaporkan hasil regresi. Model
performance-kompensasi signifikan, f = 48,84, p <0,0001. Skor evaluasi secara keseluruhan
manajer 'yang signifikan (p <0,0001). Skor agregat mekanis, termasuk sebagai variabel kontrol,
yang sedikit signifikan (p = 0,07). Menariknya, model menjelaskan hanya 55 persen dari varians
dalam perbedaan bonus. Dengan demikian, atasan muncul untuk menggunakan evaluasi kinerja
Pemisahan BSC sebagai bagian dari model penilaian mereka untuk menetapkan bonus, tapi
mereka baik tidak konsisten dalam penerapannya informasi evaluasi kinerja atau mereka
menyesuaikan alokasi bonus untuk faktor additional tidak termasuk dalam BSC

Supplemental Analyses
Dengan desain, skor BSC mekanis dikumpulkan merupakan masukan untuk perforMance dan kompensasi keputusan atasan '. Keputusan akhir atasan 'dibuat terpisah dari agregasi
saya-chanical. Yang penting, keputusan mereka telah dijadikan sebagai keseluruhan (holistik)
evaluasi. Perbedaan ini menimbulkan pertanyaan sejauh mana evaluasi kinerja secara
keseluruhan dipengaruhi oleh awal, skor BSC mekanis agregat.
Untuk mengatasi hubungan ini, kita berkorelasi 'subjektif, evaluasi keseluruhan dari
setiap manajer atasan kinerja dengan skor agregat mekanis mereka untuk manajer yang sama.
Koefisien korelasi untuk RadWear yang 0,74 (p <0,0001) dan untuk workwear, 0,84 (p <0,0001).
Dengan demikian, untuk setiap manajer divisi, skor agregat mekanik secara signifikan
berkorelasi dengan subjektif, evaluasi secara keseluruhan. Kedua korelasi kurang dari 1,0,

14

bagaimanapun, evaluasi holistik atasan yang menunjukkan 'termasuk beberapa penyesuaian


mental skor agregat mekanis atau, setidaknya, mereka tidak benar-benar konsisten.
Penelitian sebelumnya telah menemukan disaggregating keputusan meningkatkan
konsensus dan antar-hakim setuju-ment (Libby dan Libby 1989; Davis 1998). Kami
membandingkan standar deviasi untuk evaluasi peserta kami '(Tabel 1, Panel B) dengan yang
dilaporkan oleh Lipe dan Salterio (2000, Tabel 3, Panel B). Statistik F yang signifikan untuk
hanya satu dari delapan perbandingan (p <0,05). Dengan demikian, kami menyimpulkan bahwa
disaggregating evaluasi BSC tidak mengurangi variasi antara evaluator. Kami mencatat,
bagaimanapun, bahwa peserta kami memanfaatkan dua kali jumlah item BSC sebagai Lipe dan
Salterio ini peserta. Juga, standar deviasi yang tersedia untuk perbandingan dengan Lipe dan
Salterio adalah rata-rata di dua sel eksperimental, yang tentu akan menunjukkan variasi kurang
dari cara individu sel.

IMPLICATIONS, LIMITATIONS, AND SUGGESTIONS


IMPLICATIONS
Lipe dan Salterio (2000) mencatat langkah-langkah umum digunakan di BSC cenderung
langkah-langkah keuangan yang lebih tradisional, seperti pengembalian penjualan dan
markdown rata, dan bahwa langkah-langkah ini cenderung tertinggal kinerja aktual. Sebaliknya,
langkah-langkah yang unik, seperti penjualan dari pemimpin pasar baru dan pangsa pasar relatif
terhadap ruang ritel, cenderung non-tradisional dan, yang lebih penting, indikator kinerja yang
unsur penangkapan penekanan strategis perusahaan dan divisi tidak ditangkap di tempat lain
terkemuka. Dengan demikian, mengabaikan langkah-langkah unik dalam BSC sama saja, dalam
banyak kasus, untuk mengabaikan banyak indikator terkemuka dan memfokuskan perhatian
manajerial lebih pada indikator lagging.
Agar efektif sebagai alat kontrol manajemen, BSC harus menghasilkan evaluasi yang
akurat, obyektif, dan dapat diverifikasi (Malina dan selto 2001, 75). Konflik yang signifikan dan
ketegangan antara atasan dan evaluatees diamati ketika evaluasi dianggap sebagai subjektif.
15

Perceptions subjektivitas menyebabkan penolakan BSC dan kembali ke ukuran kinerja keuangan
pada perusahaan besar lain (Ittner et al. 2002).
Menggunakan Balanced Scorecard terpilah, peserta kami memanfaatkan faktor unik
untuk sebagian besar. Sementara dua studi lainnya menemukan pelatihan (Dilla dan Steinbart
2002) dan komunikasi eksplisit pentingnya semua langkah BSC (Roberts et al. 2002) dapat
meningkatkan pemanfaatan langkah yang unik, baik studi terakhir menemukan langkah-langkah
umum account untuk dua sampai empat kali lebih variasi dalam evaluasi dari tindakan yang
unik. Item BSC tidak secara eksplisit tertimbang di salah satu dari studi ini. Sebaliknya,
penelitian ini menunjukkan bobot didirikan sebagai bagian dari desain BSC memungkinkan
pengambil keputusan untuk menempatkan bobot yang sama atau lebih besar pada langkahlangkah yang unik, konsisten dengan strategi perusahaan. Sejauh tindakan unik mewakili
indikator terkemuka, yang disaggregated BSC akan memungkinkan manajer untuk campur
tangan cepat ketika divisi mengalami masalah dan untuk mencoba tindakan korektif.

LIMITATIONS
Hasil penelitian ini terbatas pada evaluasi komparatif. Seperti dibahas di atas, Slovic dan
MacPhillamy (1974) temuan umum-langkah Bias tidak tahan ketika individu, bukan pasangan,
dievaluasi. Jadi, ketika BSC digunakan untuk mengevaluasi divisi individual, kondisi penting
yang mengarah ke umum-langkah Bias akan absen. Juga, para peserta dalam percobaan ini tidak
memiliki pengalaman pribadi dengan manajer yang dievaluasi atau akuntabilitas individu untuk
evaluasi kinerja mereka dan keputusan kompensasi. Akuntabilitas telah affected positif
pengambilan keputusan dalam beberapa konteks terkait, seperti ketika bantuan keputusan tidak
tersedia (Ashton 1990) dan ketika pengambil keputusan berurutan memproses beberapa item
information positif dan negatif (Kennedy 1993). Akhirnya, meskipun peserta kami mirip
dengan Lipe dan Salterio (2000), yaitu, mahasiswa MBA di sebuah universitas publik utama,
mungkin ada perbedaan lain antara peserta dan / atau waktu dan pengaturan dari dua percobaan
tentang apa yang kita tidak menyadari dan belum dipertimbangkan.
SUGGESTIONS

16

Kami menggunakan dua bagian, terpilah-mekanis-dikumpulkan strategi bantuan


keputusan konsisten dengan penelitian sebelumnya pada "penilaian manusia terhadap model
manusia" (Ashton 1982, 34-43). Dalam pendekatan kami, namun, para pembuat keputusan
manusia melakukan agregasi, seperti yang disarankan oleh Bowman (1963), sebelum membuat
subjektif, evaluasi secara keseluruhan. Dengan demikian, langkah-langkah umum-Bias mungkin
bisa diatasi dengan baik (1) mengharuskan pengguna BSC untuk mengevaluasi kinerja pada
masing-masing ukuran BSC dan / atau (2) menunjukkan bobot untuk setiap ukuran. Penelitian di
masa depan bisa menguji apakah common-langkah bias dapat dikurangi atau diatasi dengan salah
satu dari pendekatan ini saja. Kami mencatat, bagaimanapun, satu studi menemukan bahwa
membutuhkan penilaian terpilah tanpa memberikan mekanisme untuk kombinasi mengakibatkan
penurunan kualitas penilaian dibandingkan dengan penilaian holistik (Lyness dan Cornelius
1982). Juga, memberikan bobot yang disarankan kemungkinan akan menghasilkan hasil yang
serupa dengan pengingat untuk menggunakan semua tindakan (Roberts et al. 2002).
Selain itu, atasan bisa diminta untuk mengevaluasi kinerja untuk setiap kategori BSC,
yaitu, untuk mengevaluasi kinerja pada empat item sekaligus, dan kemudian membuat penilaian
holistik. Secara teoritis, ini secara substansial akan mengurangi jumlah informasi yang akan
diproses pada setiap tahap, sehingga mengurangi kebutuhan untuk strategi penyederhanaan
kognitif (ies) hadir di (2000) studi Lipe dan Salterio ini.
Penelitian masa depan harus meneliti sejauh mana agregasi mekanik diterima untuk
manajer dan atasan. Pengaruh faktor-faktor luar untuk langkah-langkah BSC menyatakan juga
harus ditangani. Dalam studi ini, skor agregat mekanis menjelaskan sedikit lebih dari 50 persen
dari variasi dalam evaluasi keseluruhan kinerja selama satu divisi (RadWear) dan 70 persen dari
variasi dalam evaluasi kinerja untuk divisi lain (workwear). Mungkin peserta melihat pasar
RadWear remaja karena lebih stabil daripada pasar workwear, sehingga varians lebih besar dalam
evaluasi RadWear, atau atasan bisa bereaksi negatif terhadap beberapa item pada BSC. Mereka
mungkin diskon BSC agak sejak, dalam percobaan ini, mereka tidak peserta aktif dalam
mengembangkan langkah-langkah, atau mereka bisa bereaksi negatif terhadap praktek
pengaturan sasaran dari BSC. Kemungkinan ini suggested dengan skor agregat mekanis rata,
serta skor holistik diperoleh Lipe dan Salterio, dalam 70-80 kisaran untuk kinerja manajerial
yang melampaui target pada semua 16 langkah. Ini dan penjelasan lain yang mungkin harus
17

diselidiki oleh penelitian masa depan. Sejak penerimaan alat evaluasi kinerja sangat penting
untuk perilaku ex ante manajer '(Lipe dan Salterio 2000, 293), isu-isu ini penting untuk
memahami.

18

Relative Weighting of Common and UniqueBalanced Scorecard Measures by


Knowledgeable Decision Makers
William N. Dilla, Paul John Steinbart

INTRODUCTION
Balanced Scorecard (BSC) diperkenalkan lebih dari satu dekade lalu (Kaplan dan Norton
1992) dan telah banyak diadopsi oleh kedua besar (Silk 1998) dan perusahaan kecil (Frigo dan
Krumwiede 2000). Sebuah atraksi utama dari BSC adalah bahwa hal itu dirancang untuk
memberikan pandangan multidimensi dari kinerja organisasi. Selain itu, BSC pendukung
berpendapat bahwa hal itu bisa, dan harus, digunakan tidak hanya untuk mengevaluasi kinerja,
tetapi juga sebagai alat untuk menerapkan dan memantau strategi (Kaplan dan Norton 1996a,
2001a, 2001b). Penelitian terbaru, bagaimanapun, mengidentifikasi masalah potensial dalam
menggunakan BSC untuk mengevaluasi kinerja. Lipe dan Salterio (2000) menemukan bahwa
siswa MBA ditugaskan peran manajer unggul diabaikan langkah BSC unik ketika mengevaluasi
kinerja divisi.
Lipe dan Salterio (2000) digunakan peserta yang tidak memiliki pengalaman kerja
sebelumnya dengan BSC. Pilihan desain ini memperkuat kontrol eksperimental dengan
memastikan bahwa semua peserta memiliki tingkat umum pengetahuan sebelumnya.Bagian
berikutnya dari makalah ini menyajikan latar belakang untuk pengembangan dan teoritis
penelitian ini. Bagian ketiga dan keempat menggambarkan metode eksperimen dan menyajikan
hasil. Bagian terakhir membahas temuan kami dan implikasinya terhadap praktek dan penelitian
masa depan.

BACKGROUND AND HYPOTHESES


Perbedaan kompleksitas tugas dan peserta. pengetahuan dapat menjelaskan mengapa Lipe
dan Salterio ini hasil pemanfaatan isyarat berbeda dari psikologi dan perilaku konsumen
19

penelitian. Dalam jenis kedua penelitian, peserta biasanya disediakan dalam jumlah terbatas
informasi, disajikan dalam format akrab seperti matriks tabular. Mereka diminta untuk merespon
skenario akrab, seperti membuat pilihan konsumen atau memprediksi kinerja siswa. Sebaliknya,
BSC adalah laporan yang kompleks yang berbeda dari laporan tradisional yang digunakan untuk
mengevaluasi kinerja dalam hal ini mencakup langkah-langkah baik umum dan unik yang
diselenggarakan oleh atribut finansial dan nonfinansial.
Penelitian penghakiman Audit menunjukkan bahwa hasil yang lebih besar pengetahuan
dalam kinerja penilaian yang lebih baik di berbagai macam tugas audit yang (Bonner 1990;
Bonner dan Lewis 1990; Libby dan Tan 1994).Pelatihan formal adalah salah satu cara untuk
memperoleh pengetahuan. Penelitian penghakiman Audit telah menemukan bahwa kinerja
auditor berpengalaman berkorelasi positif dengan tingkat pelatihan-tugas tertentu yang mereka
terima (Bonner 1990; Bonner dan Pennington 1991, 32).
Salah satu alasan untuk ini adalah bahwa lebih mudah untuk membandingkan alternatif
langkah-langkah umum karena nilai-nilai atribut diwakili pada skala yang sama. Hal ini
memungkinkan pembuat keputusan untuk langsung mengevaluasi peringkat relatif dari setiap
alternatif. Sebaliknya, membandingkan alternatif pada langkah-langkah unik adalah lebih
kompleks. Pengambil keputusan membutuhkan skala mutlak untuk setiap ukuran yang unik, agar
dapat mengevaluasi kinerja pada dimensi itu. Dalam kasus penilaian berdasarkan BSC, ini
menunjukkan bahwa bahkan pengambil keputusan dengan pengalaman dalam membangun BSC
dan pengetahuan tentang struktur akan tetap menempatkan bobot yang lebih besar pada umum
dari pada langkah-langkah yang unik. Hal ini menyebabkan hipotesis pertama kami:
H1: Pengambil keputusan dengan pengalaman dalam membangun BSC dan pengetahuan
tentang struktur akan menggunakan langkah-langkah baik umum dan unik ketika membuat
keputusan evaluasi kinerja, tapi akan menempatkan penekanan lebih besar pada umum
daripada langkah-langkah yang unik.
H2: Pengambil keputusan dengan pengalaman dalam membangun BSC dan pengetahuan
tentang struktur akan menggunakan langkah-langkah baik umum dan unik ketika membuat

20

keputusan alokasi bonus, tapi akan menempatkan penekanan lebih besar pada umum daripada
langkah-langkah yang unik.

EXPERIMENTAL DESIGN AND PROCEDURE


Task
Peserta diminta untuk berperan sebagai seorang eksekutif senior yang bertugas untuk
mengevaluasi kinerja dua divisi dari WCS Incorporated. Mereka membaca kasus yang
menggambarkan misi dan struktur organisasi WCS Incorporated keinginan untuk menerapkan
konsep BSC, dan penjelasan dari strategi dan tujuan dari dua divisi terbesar perusahaan tertentu:
RadWear, sebuah divisi ritel yang mengkhususkan diri dalam pakaian untuk remaja
perkotaan; dan workwear, sebuah divisi yang menjual seragam bisnis langsung ke klien. Kasus
ini disediakan BSC terpisah untuk setiap divisi. Setiap BSC terdiri dari 16 langkah, empat di
setiap bagian. Delapan dari langkah-langkah, dua di setiap bagian, yang umum untuk kedua
divisi; delapan lainnya langkah tercermin strategi unik dari setiap divisi. Tabel 1 menampilkan
contoh BSC untuk divisi RadWear.
Setelah membaca kasus ini, peserta membuat dua set penilaian. Pertama, mereka
mengevaluasikinerja setiap manajer divisi, dengan menggunakan skala 101poin berlabuh pada 0
= menetapkan kembali dan 100 = sangat baik. Kedua, mereka mengalokasikan bonus $ 20.000
untuk dua manajer.

Design and Procedure


Percobaan mempekerjakan 22 antara-subyek desain, bersama dengan faktor
withinsubject dua tingkat, sehingga desain lengkap adalah 222. Pertama faktor antara-subyek
adalah divisions kinerja relatif pada kebijakan itu bersama-sama dengan divisi lainnya. Faktor
ini memiliki dua tingkat: RadWear bisa melakukan lebih baik daripada Workwear pada kebijakan
21

umum, atau sebaliknya. Kedua antara subyek-faktor itu setiap divisi kinerja relatif pada
kebijakan yang unik termasuk dalam BSC. Faktor ini juga memiliki dua tingkat: baik RadWear
atau Workwear bisa melakukan lebih baik daripada divisi lain pada langkah-langkah yang
unik. Setiap subjek mengevaluasi kinerja dua divisi, RadWear dan workwear; dengan demikian,
divisi adalah faktor dalam subyek.

Percobaan berlangsung selama sesi kelas yang dijadwalkan secara rutin. Partisipasi
adalah sukarela. Peserta bisa mendapatkan 10 poin kredit tambahan (sekitar 1,5 persen grade)
dengan berpartisipasi; mereka yang tidak ingin berpartisipasi bisa menyelesaikan proyek
alternatif untuk mendapatkan kredit poin tambahan.

22