Anda di halaman 1dari 23

Machine Translated by Google

Keandalan dan Validitas Ukuran Objektif


Layanan Pelanggan: “Belanja Misteri”

Diterbitkan di Australian Journal of Market Research Januari 2000

John Dawes
Byron Tajam
Pusat Ilmu Pemasaran
Universitas Australia Selatan http://www.marketing.unisa.edu.au/
Teras Utara Adelaide
Australia Selatan 5000
Australia

1
Machine Translated by Google

Keandalan dan Validitas Ukuran Objektif


Layanan Pelanggan: “Belanja Misteri”

Abstrak

Tujuan dari makalah ini adalah untuk menguji reliabilitas dan validitas metode
“objektif” dalam mengukur layanan pelanggan yang sering digunakan oleh
beberapa organisasi riset pasar. Cara ini sering disebut dengan “belanja misteri”.
Menggunakan empat perempat data dari sebuah misteri besar
program belanja yang melibatkan lebih dari 200 outlet kami menguji reliabilitas antar
penilai, validitas konvergen, dan validitas kriteria. Kami kemudian menguji stabilitas
berbagai faktor kinerja layanan dalam memprediksi kualitas layanan melalui empat
survei berbeda selama periode dua belas bulan. Akhirnya, kami menguji validitas
proses pengukuran kualitas layanan objektif di tingkat masing-masing toko. Kami
menemukan bahwa memang mungkin untuk menciptakan instrumen belanja misteri
yang menampilkan tingkat tinggi
keandalan. Kami juga menemukan bahwa skor belanja misteri menunjukkan tanda
validitas positif, termasuk berbagai aspek kinerja layanan menunjukkan hubungan
yang konsisten dengan kualitas layanan secara keseluruhan. Namun, kami
menemukan bahwa terdapat variasi yang cukup besar dalam skor toko di antara
gelombang-gelombang tersebut dan karena potensi kesalahan pengambilan sampel
dalam pembelian misteri (misteri shopping) cukup tinggi, maka mustahil untuk
menentukan apakah hal ini merupakan perubahan nyata atau tidak. Terlepas dari
kesalahan pengambilan sampel, tingkat variasi dalam kinerja layanan yang kami
laporkan menimbulkan keraguan besar terhadap kebermaknaan pelaporan tingkat
rata-rata kualitas layanan untuk sebuah toko. Hasil ini mempunyai implikasi terhadap
cara hasil belanja misteri disajikan dan diinterpretasikan oleh organisasi riset pasar.
Secara khusus, kami menyimpulkan bahwa survei belanja misteri sebaiknya jarang
digunakan untuk menilai perubahan kinerja layanan di tingkat masing-masing toko.

Kata Kunci: Mystery shopping, pelayanan pelanggan, reliabilitas, validitas

2
Machine Translated by Google

Pendahuluan: Pengukuran Kualitas Pelayanan yang Objektif

Dalam artikel ini kami mengkaji masalah pengukuran dalam penelitian belanja misteri, yang
digunakan untuk menilai kualitas penyampaian layanan toko.

Pentingnya menyediakan tingkat layanan pelanggan yang dapat diterima tentu telah diapresiasi
oleh para pebisnis sejak perdagangan berlangsung. Namun, dalam beberapa tahun terakhir,
akademisi, manajemen populer, dan media pemasaran telah menyaksikan lonjakan minat
terhadap topik ini (lihat Rust, Zahorik, dan Keiningham 1995) sejalan dengan pertumbuhan
luar biasa dalam sektor jasa di perekonomian negara-negara maju.
Sebagian besar fokus penelitian adalah pada operasionalisasi, pengujian dan
penyempurnaan ukuran persepsi pelanggan terhadap kualitas layanan. Penelitian perintis
dalam bidang ini dilakukan oleh Parasuraman Zeithaml dan Berry (1988) yang
mengembangkan alat pengukuran berdasarkan paradigma ekspektasi-diskonfirmasi.
Pendekatan ini telah banyak dikritik karena mengacaukan kualitas layanan dengan
kepuasan (Cronin dan Taylor 1994), di antara kritik lainnya. Menanggapi kritik ini model
berbasis kinerja (Cronin dan Taylor 1994) telah diusulkan yang disarankan untuk menjadi
operasionalisasi kualitas layanan yang lebih tepat.
Berbasis kinerja berarti skor yang lebih tinggi lebih baik dan ekspektasi tidak
dipertimbangkan atau diukur. Dalam studi ini kami menggunakan pendekatan berdasarkan
model berbasis kinerja, khususnya untuk situs ritel yang tidak hanya menyediakan
“layanan” tetapi juga “produk” fisik (Dabholkar, Thorpe, dan Rentz 1996). Namun, karena
kami menggunakan pendekatan yang sangat berbeda, dengan menggunakan penilai ahli
dan bukan sentimen konsumen, kami sengaja tidak meninjau literatur yang luas mengenai
kualitas/kepuasan layanan berbasis pelanggan.

Pembuatan instrumen kami mengikuti bukti yang disajikan dalam Buttle (1996)
bahwa instrumen yang dirancang untuk mengukur kualitas layanan mungkin
memerlukan penyesuaian untuk industri tertentu. Hal ini tidak berarti bahwa hasil yang diperoleh tidak dapat digene
karena seperti yang akan terlihat, barang yang digunakan adalah barang yang diterima
banyak orang sebagai komponen dasar pelayanan yang baik. Selain itu, tujuan utamanya
bukan untuk mengidentifikasi atau memvalidasi komponen kualitas layanan itu sendiri ,
melainkan untuk menunjukkan, melalui pengujian sifat statistiknya, sejauh mana keandalan
dan validitas suatu pendekatan untuk mengukur kualitas layanan objektif, yaitu belanja misteri1 .

Tindakan Objektif

Perbedaan antara kualitas yang dirasakan dan kualitas obyektif merupakan salah satu hal
penting dalam literatur kualitas produk. Bagi ilmuwan atau teknisi, kualitas obyektif
adalah sesuatu yang dapat diukur melalui tes. Ini adalah tingkat kinerja terhadap beberapa
standar (Riesz 1980) yang pada akhirnya bersifat subjektif (Maynes 1976), seperti efisiensi
energi, jumlah cacat, bahkan jumlah fitur atau jenis bahan.
Di sini kita menggunakan istilah “objektif” dalam kaitannya dengan kualitas layanan
yang berarti bahwa skor yang dihasilkan relatif tidak bergantung pada orang yang
memberikan peringkat dan waktu terjadinya peringkat (lihat Ehrenberg dan Shewan 1953).

1
Juga dikenal sebagai belanja bayangan, atau belanja hantu.

3
Machine Translated by Google

Berbeda dengan literatur kualitas produk dimana terdapat sejarah panjang pemanfaatan
kualitas produk yang obyektif dan peringkat fitur produk (misalnya Morris dan Bronson
1969; Jacoby dan Olson 1985; Kamakura dan Russell 1993), terdapat kelangkaan
penelitian yang menggunakan ukuran objektif dari kualitas produk. kualitas layanan. Mungkin
salah satu alasan kurangnya penggunaan layanan ini adalah ketakutan bahwa ukuran
obyektif mungkin kurang valid karena mungkin lebih sulit untuk menilai secara jelas fitur-fitur pemberian layanan dib
Kekhawatiran lain mungkin adalah bahwa ukuran obyektif mungkin tidak banyak berhubungan dengan penilaian
pelanggan terhadap kualitas layanan. Mungkin penilai yang diberi pengarahan untuk mengamati dan menilai
pengalaman layanan dengan cermat akan memperhatikan aspek-aspek yang tidak akan diperhatikan oleh pelanggan sebenarnya.

Terlepas dari ketakutan ini, ada sejumlah fitur menarik dari ukuran obyektif kinerja dan
kualitas layanan. Penilaian obyektif berpotensi berguna bagi manajemen karena dapat
memberikan evaluasi keseluruhan atas layanan yang diberikan, namun juga memungkinkan
pekerjaan survei untuk fokus pada aspek-aspek tertentu yang merupakan kepentingan manajerial.
Aspek-aspek tertentu dari kinerja staf layanan, penampilan outlet, atau merchandising dapat
diperiksa, misalnya, penyediaan informasi yang lengkap dan benar mengenai harga,
kebijakan pengembalian uang, atau garansi. Pengukuran dapat berfokus pada contoh-
contoh spesifik mengenai kinerja buruk atau pengecualian terhadap kebijakan. Misalnya,
sebuah organisasi dapat memulai sistem pelatihan untuk meningkatkan keramahan dan
pengetahuan produk stafnya. Pemerintah kemudian dapat memantau efektivitas rezim ini melalui survei belanja raha
Karena persepsi pelanggan terhadap kualitas layanan mungkin tertinggal dari perubahan kinerja
layanan (lihat Bolton dan Drew 1991), pendekatan ini menawarkan penilaian yang lebih cepat
mengenai dampak dari setiap upaya pelatihan yang dirancang untuk meningkatkan kualitas
layanan yang diberikan staf kepada pelanggan. Oleh karena itu, tidak jarang sistem
penghargaan atau insentif bagi staf layanan dikaitkan dengan hasil pengukuran
kualitas layanan yang obyektif.

Selain penilaian terhadap organisasi sendiri, teknik ini kadang-kadang digunakan untuk
memperoleh informasi intelijen atau tolok ukur mengenai operasi atau profil
pemasaran pesaing. Hal ini juga digunakan oleh organisasi untuk memantau pengetahuan
produk, layanan pelanggan atau keterampilan menjual staf mereka sendiri atau staf
pengecer, misalnya produsen komputer dapat mensurvei pengecer untuk menentukan
merek mana yang direkomendasikan secara aktif. Meskipun hanya ada sedikit karya yang
dipublikasikan mengenai topik ini, situs-situs World Wide Web seperti US National Mystery
Shopper Directory mengarahkan pertanyaan ketenagakerjaan ke lebih dari 450 organisasi
yang melakukan penelitian di Amerika Serikat. Di Inggris, Dawson & Hillier (1995) menemukan
lebih dari separuh perusahaan dalam sampel 88 organisasi yang menggunakan beberapa
bentuk riset pasar, juga melakukan belanja misteri. Bukanlah hal yang tidak masuk akal
untuk menyimpulkan bahwa pengeluaran belanja misteri di seluruh dunia mencapai ratusan juta dolar setiap tahunny

Pertanyaan penelitian

Belanja misteri dan pendekatan lain untuk mengukur kualitas layanan objektif tampaknya
tersebar luas dan keputusan manajemen mungkin dibuat berdasarkan hasil tersebut. Namun,
seperti disebutkan sebelumnya, kurangnya publikasi mengenai masalah ini menunjukkan
bahwa hanya sedikit yang diketahui mengenai ukuran obyektif kualitas layanan. Pencarian
literatur melalui jurnal ilmiah hanya menghasilkan tiga karya yang diterbitkan mengenai
topik tersebut: Dawson & Hillier (1995), Morrison dkk (1997) dan Wilson (1998). Dawson
& Hillier (1995) terutama membahas masalah etika, Morrison et al (1997) meneliti masalah
kognitif yang mempengaruhi akurasi, dan Wilson (1998) memberikan gambaran umum

4
Machine Translated by Google

dari metode penelitian. Tampaknya hanya ada sedikit penelitian mengenai topik
konstruksi skala, keandalan atau validitas instrumen belanja misteri atau proses itu
sendiri. Oleh karena itu, organisasi penelitian mungkin menggunakan teknik ini, dan
menyajikan hasil survei yang mungkin gagal dalam kriteria pengukuran yang dapat diterima.
Permasalahan lainnya adalah sejauh mana tindakan berbasis transaksi tersebut dapat
digeneralisasikan ke tingkat layanan “biasa”. Survei belanja misteri biasanya hanya
menggunakan sampel kecil, hingga beberapa kunjungan ke outlet tertentu atau bahkan
hanya satu kunjungan. Berdasarkan pengalaman kami, organisasi penelitian sering kali
menyajikan hasil survei belanja misterius dengan mengurutkan outlet berdasarkan tingkat
kinerja yang diidentifikasi. Sebuah toko yang berkinerja pada tingkat tertentu selama satu
atau beberapa transaksi langsung diklasifikasikan sebagai berkinerja berlebih atau
kurang pada periode tersebut. Namun apakah hal ini dapat dibenarkan masih dipertanyakan.

Makalah ini membahas masalah-masalah ini dengan mempertimbangkan pertanyaan-pertanyaan dasar berikut:

1. Dapatkah instrumen belanja misteri yang andal diciptakan? Keandalan merupakan syarat yang
diperlukan, namun tidak cukup untuk validitas (misalnya Peter 1981). Kami menemukan
bahwa tingkat keandalan yang tinggi, setidaknya, dapat dicapai dengan kuesioner yang
dirancang dengan cermat dan pewawancara yang terlatih.

2. Seberapa validkah belanja misteri? Kami menemukan bahwa skor belanja misteri
tentu saja dapat menunjukkan validitas konvergen dan kriteria.

3. Seberapa stabilkah komponen kualitas pelayanan obyektif? Yang kami maksud dengan
komponen adalah aspek-aspek individual dari kualitas layanan yang secara kolektif
membentuk evaluasi keseluruhan. Jika aspek-aspek penting berbeda dari survei ke
survei, maka akan sulit bagi manajer untuk mengetahui aspek-aspek pemberian
layanan apa yang penting untuk dipusatkan pada peningkatan. Kami menemukan tingkat
stabilitas yang tinggi di seluruh survei yang merupakan komponen penting dari kualitas layanan yang obyektif.

4. Seberapa akurat skor belanja misteri, mengingat hasil survei tingkat toko individual dapat
mengalami kesalahan pengambilan sampel? Mengidentifikasi satu contoh pelayanan yang
baik atau buruk mungkin tidak mempunyai signifikansi manajerial jika contoh tersebut
tidak memberikan indikasi mengenai tingkat pelayanan yang “biasa” yang
diberikan. Dapatkah para manajer secara masuk akal menyimpulkan bahwa
satu survei atau bahkan serangkaian survei memberikan indikasi yang masuk akal
mengenai tingkat kinerja layanan rata-rata suatu gerai ritel? Kami menemukan bahwa
tingkat kesalahan pengambilan sampel sangat besar, cukup untuk membuat sebuah
toko berubah dari yang terbaik hingga yang berkinerja terburuk dari satu survei ke survei berikutnya.

5. Selain kesalahan pengambilan sampel, apa variabel kualitas layanan ritel? Kami
menemukan bahwa terdapat variasi yang cukup besar dalam kualitas layanan di satu
toko. Hal ini menimbulkan keraguan terhadap pentingnya memastikan dan melaporkan
tingkat kualitas layanan rata-rata toko mana pun.

Implikasi dari temuan ini dibahas di akhir makalah.

5
Machine Translated by Google

Instrumen pengukuran

Dalam penelitian empiris kami, kami menguji kualitas layanan di lingkungan ritel, mensurvei
penyediaan layanan di gerai ritel yang semuanya menjual rangkaian produk yang
sama. Instrumen pengukuran dikembangkan setelah dua diskusi kelompok terfokus dengan
pengguna kategori produk reguler dan sesekali. Ini adalah layanan hiburan sekali pakai
dengan harga rendah di mana konsumen sering mengajukan pertanyaan sederhana kepada
penjual mengenai pilihan dan biaya. Jasa tersebut dijual melalui berbagai perusahaan
ritel yang bertindak sebagai “agen”, dan seperti banyak jasa yang dikonsumsi pada saat
produksi. Diskusi kelompok terfokus berpusat pada penentuan isu-isu yang menonjol bagi
konsumen dalam persepsi mereka mengenai apa yang merupakan layanan yang baik
atau buruk untuk kategori produk tertentu. Spektrum permasalahan pelayanan yang diteliti
mengikuti lima faktor kualitas pelayanan yang dikemukakan oleh Parasuraman, Zeithaml &
Berry (1988) yaitu bukti fisik, keandalan, daya tanggap, jaminan dan empati.

Beberapa aspek layanan pelanggan untuk produk ini tampaknya paling baik diukur secara
kategoris, seperti apakah penjual dapat memberikan jawaban yang benar atas pertanyaan
pelanggan. Yang lain paling baik diukur berdasarkan derajat, misalnya keramahan.
Oleh karena itu, campuran skala metrik dan kategorikal digunakan. Itemnya ditunjukkan pada
Tabel I.

MASUKKAN Tabel I DI SINI

Daftar tersebut tidak hanya menunjukkan item yang secara intuitif diharapkan terkait
dengan persepsi pelanggan terhadap layanan, namun dua item lain yang ingin disertakan
oleh organisasi klien untuk mengukur efektivitas penjualan pengecer. Hal ini tidak
menjadi masalah karena akan terlihat bahwa item-item tersebut “keluar” dari analisis
regresi selanjutnya yang menguji prediktor paling signifikan terhadap keseluruhan penilaian
kualitas layanan obyektif.

Metodologi survei

Sekitar empat ratus lima puluh lokasi disurvei tiga kali dalam setiap putaran survei. Proses
ini diulang empat kali selama dua belas bulan. Beberapa situs tidak diikutsertakan dalam
setiap putaran survei karena situs tersebut berada di bawah ambang batas penjualan
minimum yang digunakan untuk dimasukkan dalam survei belanja misteri. Selanjutnya
beberapa situs dikeluarkan dari analisis karena tidak tampil di keempat putaran. Hal ini tidak
dianggap sebagai hasil yang bias karena lokasi sampel lainnya masih memiliki variasi volume
penjualan yang sangat luas.

Pada setiap putaran survei, tim penilai dialokasikan kembali sehingga penilai menilai outlet
yang berbeda pada setiap putaran. Tim penilai berjumlah sekitar 60 orang di setiap putaran.

Setiap survei terdiri dari tiga kunjungan terpisah, pada hari berbeda dalam seminggu, selama
periode 10 hari kerja, pada waktu berbeda dalam sehari, meminta produk berbeda dalam
rangkaian produk kecil. Para pembeli diberi pengarahan dengan pertanyaan yang
disusun dengan cermat dan mengisi kuesioner segera setelah pertemuan berbelanja.
Penjual (situs ritel) mengetahui bahwa prinsipal mereka melakukan penelitian ini tetapi
tidak mengetahui kapan penelitian ini akan dilakukan, atau bentuk pertanyaannya. Selama
proses tersebut tidak ada laporan dari penjual yang menebak bahwa pertanyaan tersebut adalah hal lain selain itu

6
Machine Translated by Google

asli. Pada setiap kesempatan pembeli melakukan pembelian untuk memastikan bahwa pengalaman
berbelanja itu realistis. Penjual tidak diberitahu pada akhir pertemuan bahwa itu adalah audit layanan.

Mendasarkan serangkaian pertanyaan pada sentimen konsumen yang diungkapkan serta umpan balik
dari orang-orang yang berpengalaman dalam industri ini memberi kami keyakinan mengenai validitas item
tersebut. Kami sekarang mengatasi masalah keandalan proses belanja misteri melalui pemeriksaan
keandalan antar penilai.

Q.1 Keandalan

Validitas dapat didefinisikan sebagai sejauh mana suatu perangkat mengukur apa yang ingin diukur (misalnya
Churchill 1979). Prasyarat yang diperlukan namun tidak cukup untuk mencapai validitas adalah tingkat
reliabilitas yang tinggi, yaitu tingkat di mana penilaian mencerminkan skor sebenarnya, atau variasi, dalam
fenomena yang diteliti (Guilford 1954). Dalam hal keandalan antar penilai, keandalan dapat
dioperasionalkan dalam dua cara. Untuk pemeringkatan berdasarkan skala metrik, reliabilitas adalah
sejauh mana penilaian dari berbagai hakim bersifat proporsional ketika dinyatakan sebagai
penyimpangan dari rata-rata mereka (Ebel 1951). Penilai juga dapat menggunakan item kategorikal dalam hal
ini statistik yang relevan adalah kesepakatan – sejauh mana hakim yang berbeda membuat penilaian yang
sama mengenai subjek yang dinilai (Tinsley dan Weiss 1975). Tingkat kesesuaian juga dapat diterjemahkan
ke dalam perkiraan keandalan yang sebanding seperti yang akan ditunjukkan segera.

Untuk mendapatkan data yang sesuai untuk menguji reliabilitas penilai, kami melakukan 60 pertemuan
belanja dengan menggunakan pasangan penilai yang melakukan penyelidikan dan pembelian bersama-sama,
dan kemudian mengisi kuesioner mereka secara terpisah. Kami menggunakan empat pasang penilai yang
masing-masing menyurvei 15 gerai, sehingga total ada 60 gerai yang disurvei dengan cara ini. Untuk
meminimalkan dampak apa pun yang disebabkan oleh kesamaan peluang dalam keringanan hukuman/
tingkat keparahan antar penilai, kami merotasi pasangan tersebut seperti yang ditunjukkan pada Tabel II.

MASUKKAN Tabel II DI SINI

Kami menguji reliabilitas antar penilai untuk item skala metrik menggunakan Koefisien Korelasi
Intraclass (1979) yang didasarkan pada analisis model varians.
Kesepakatan antar penilai untuk pertanyaan kategoris diperiksa melalui proporsi kesepakatan yang
disesuaikan dengan pengurangan kerugian secara proporsional dari penggunaan peringkat gabungan.
Kami menghindari penggunaan ukuran persetujuan yang disesuaikan dengan peluang yang populer,
Kappa (Cohen 1960) karena Kappa adalah ukuran yang terlalu konservatif dan tidak sesuai
untuk sebagian besar aplikasi riset pemasaran (Rust dan Cooil 1994). Untuk mengatasi kekurangan ini,
Perreault & Leigh (1989) mengembangkan ukuran reliabilitas yang disebut PRL (Proportional Reduction in
Loss) untuk data nominal yang menyesuaikan jumlah penilai dan jumlah kategori. Pada dasarnya, item
dengan lebih banyak kategori dan/atau lebih banyak juri dengan tingkat persetujuan tertentu akan
menunjukkan skor PRL yang lebih tinggi dibandingkan item dengan kesepakatan yang sama dengan
kategori dan/atau juri yang lebih sedikit. Hasil analisis ICC dan PRL disajikan pada Tabel III dan Tabel V.

MASUKKAN Tabel III DAN Tabel V DI SINI

Seperti yang dapat dilihat, tingkat keandalan peringkat secara keseluruhan adalah tinggi. Baik pengukuran
ICC maupun PRL sebanding dengan Cronbach's alpha (Rust dan Cooil 1994), (sebenarnya Cronbach's
alpha adalah salah satu jenis ICC) yang mempunyai aturan praktis yang tersebar luas sebesar 0,7

7
Machine Translated by Google

dapat diterima untuk analisis eksplorasi dan 0,9 untuk penelitian eksperimental. Tabel III
dan IV menunjukkan bahwa semua item kecuali Q 12 lebih dari 0,7. Proses ini sendiri
dapat dilihat berguna dalam mengidentifikasi item masalah, namun secara keseluruhan
kuesioner tersebut tampaknya memiliki tingkat keandalan yang memadai hingga tinggi.

Salah satu keterbatasan tes ini adalah bahwa empat penilai yang melakukan
pengujian reliabilitas merupakan orang-orang yang lebih berpengalaman dan paling terlatih
dalam tim lapangan yang lebih besar. Meskipun hal ini mungkin memiliki kelemahan
karena hasilnya kurang dapat digeneralisasikan, hal ini memberikan tingkat keyakinan
bahwa tidak terjadi kolusi antar penilai yang akan meningkatkan tingkat kesepakatan
dalam skor. Meskipun penilai mungkin merupakan pewawancara yang berpengalaman,
namun hal ini menunjukkan bahwa tingkat keandalan antar penilai yang tinggi setidaknya dapat dicapai.

Setelah menetapkan bahwa instrumen, dan sampel personel mampu mencapai tingkat
reliabilitas antar penilai yang umumnya tinggi, kini kami membahas masalah validitas
konvergen.

Q.2 Validitas Konvergen

Validitas konvergen mengacu pada apakah skor dari variabel tertentu berkorelasi
dengan variabel lain yang dirancang untuk mengukur konstruk yang sama (Campbell dan
Fiske 1959). Dalam hal ini ukuran lainnya adalah skor kualitas layanan “global” atau
keseluruhan yang diberikan oleh pembelanja misterius. Karena kami menggunakan
kombinasi variabel metrik dan kategori, kami menggunakan tabulasi silang untuk variabel
kategori (setelah juga mengkode ulang skor global menjadi tiga kategori), dan korelasi
untuk variabel metrik. Hasilnya ditunjukkan pada Tabel VII. Mereka menunjukkan bahwa
sebelas dari tiga belas variabel mempunyai hubungan yang kuat dengan penilaian kualitas layanan global.

MASUKKAN Tabel VII DI SINI

Validitas Kriteria

Validitas kriteria (terkadang disebut validitas prediktif) mengacu pada seberapa baik skor
tes berkorelasi dengan beberapa kriteria minat lainnya. Misalnya saja timbangan
mengukur pasar, atau orientasi pelanggan sering kali berkorelasi dengan kinerja organisasi
(misalnya Deshpandé dan Farley 1998). Kualitas layanan dianggap berhubungan dengan
penjualan, dan alasan peningkatan kualitas layanan biasanya adalah bahwa hal tersebut
akan menyebabkan peningkatan penjualan bagi organisasi. Kami menilai validitas kriteria
dengan menguji hubungan antara skor kualitas layanan objektif dan kinerja penjualan
menggunakan korelasi. Korelasinya positif, meskipun tidak terlalu tinggi (Pearson r =
0,18) dan signifikan pada p<0,001. Pengukuran kualitas layanan yang obyektif tampaknya
menunjukkan validitas kriteria, serta reliabilitas antar penilai dan validitas konvergen.

Q3. Stabilitas komponen kualitas pelayanan

Kami kemudian ingin menilai stabilitas dari prediktor terpenting kualitas layanan
secara keseluruhan. Untuk melakukan hal tersebut kami membuat model regresi dengan
menggunakan metode bertahap, yang memasukkan dan menolak variabel independen dalam model regresi menu

8
Machine Translated by Google

nilai-F mereka (Norusis 1993). Prosedur ini digunakan pada setiap rangkaian hasil survei (n = sekitar
1.300 pertemuan belanja di setiap rangkaian, dirata-ratakan untuk menghasilkan 400 kasus untuk
masing-masing empat gelombang survei) untuk menentukan variabel mana yang merupakan
prediktor signifikan. Untuk memfasilitasi penggunaan variabel kategori, variabel ini diberi kode
sebagai variabel dummy (lihat Hair et al. 1995).

Kami memeriksa kemungkinan bias dalam hasil yang disebabkan oleh penilai individu dengan
memeriksa skor rata-rata untuk variabel yang diprediksi, oleh penilai. Ada beberapa yang berada
jauh di bawah rata-rata. Namun, mereka semua adalah penilai yang melakukan pemeringkatan
dalam jumlah kecil (biasanya 0,03% dari sampel) dan skor rata-rata mereka tampaknya sebagian besar
merupakan fungsi dari wilayah geografis tempat mereka dialokasikan (wilayah non-
metropolitan dan wilayah sosio-ekonomi rendah). untuk mendapat skor buruk, terlepas dari
penilainya). Selain diagnosis ini, sampel penilai diberi kode sebagai variabel dummy untuk
menentukan apakah penilai itu sendiri mungkin merupakan variabel prediktor yang signifikan. Hal ini
tidak jelas, menghasilkan R2 s sebesar 0,00.

Kami memeriksa data untuk mengetahui adanya penyimpangan dari persyaratan normal untuk regresi.
Ini adalah linearitas, varian konstan, independensi, normalitas distribusi suku kesalahan,
dan tidak adanya multikolinearitas (Hair et al. 1995). Sebagian besar merasa puas.
Pengecualian adalah kemerdekaan. Kami mendeteksi autokorelasi positif pada residu,
dengan uji Durbin-Watson menunjukkan autokorelasi ini signifikan pada p<0,05. Hal ini menandakan
adanya efek “mabuk” ringan, dimana skor yang diberikan pada outlet tertentu oleh penilai
tertentu sebagian dapat diprediksi dari skor yang diberikan oleh penilai tersebut kepada toko
sebelumnya. Residu yang terotokorelasi dapat menyebabkan perkiraan kemampuan prediksi
model yang berlebihan (Mendenhall dan Sincich 1996). Untuk mengatasinya kami memperkenalkan
istilah autoregresi, yang ditunjukkan pada persamaan 1:

Yt = B0+ B1X1 + B2X2 + B3X3 +B4X4 +B5X5 +B6Yt-1 +kesalahan (1)

Memperkenalkan istilah autoregresi mengurangi tingkat autokorelasi dalam residu ke tingkat


yang dapat diterima seperti yang ditunjukkan oleh statistik Durbin-Watson. Hal ini juga
menghasilkan sedikit perbaikan pada R2 untuk setiap gelombang antara 0,01 hingga 0,08. R2 yang
disesuaikan dengan atau tanpa istilah autoregresif lebih dari 0,70, menunjukkan bahwa
bagian dari variabel merupakan “prediktor” yang sangat baik terhadap kualitas layanan secara keseluruhan.

Untuk menjawab pertanyaan tentang stabilitas “prediktor” ini, kita dapat menguji koefisien
regresi. Koefisien yang terstandarisasi digunakan karena koefisien tersebut dapat dibandingkan
secara langsung walaupun menggunakan skala pengukuran yang berbeda, seperti yang terjadi di
sini. Koefisien standar dari analisis regresi menggunakan persamaan (1) menunjukkan bahwa lima
indikator yang sama ditambah istilah autoregresi merupakan prediktor signifikan terhadap
peringkat kinerja layanan secara keseluruhan, selama empat gelombang pengumpulan data.
Selain itu, mereka cenderung mempertahankan kepentingan relatifnya. Hasilnya ditunjukkan pada
Tabel VIII.

MASUKKAN Tabel VIII DI SINI

Kesesuaian nilai Beta

Koefisien terstandarisasi, atau nilai beta, dapat dipengaruhi oleh tingkat (Allison 1977) atau
varians dalam data (Schumacker dan Lomax 1996) dan oleh karena itu hal ini mempunyai pengaruh

9
Machine Translated by Google

telah diperdebatkan bahwa mereka tidak pantas untuk dibandingkan pada beberapa
kumpulan data (Schumacker dan Lomax 1996).

Kami memeriksa apakah nilai beta mungkin terpengaruh oleh perubahan tersebut. Item kuesioner
dengan pergerakan nilai beta terbesar dari waktu ke waktu adalah Q6 (menunjukkan
minat). Standar deviasi untuk Q6 adalah 1.4,1.2,1.3, dan 1.3 untuk gelombang 1-4. Uji F
menunjukkan terdapat perbedaan variasi yang signifikan pada keempat gelombang (P<0,004).
Namun perubahan ini sangat kecil (0,02 dari gelombang 1 ke gelombang 2) secara absolut, dan
kami menyimpulkan bahwa variansinya cukup kecil sehingga tidak terlalu mempengaruhi nilai
beta. Skor rata-rata untuk pertanyaan ini adalah 5.1,5.3,5.1, dan 5.1 untuk empat gelombang.
Tes post hoc menunjukkan perbedaan yang signifikan antara gelombang 2 dan gelombang
lainnya, namun perbedaan ini juga sangat kecil secara absolut (0,02). Kami menyimpulkan
bahwa bobot beta tidak terlalu terpengaruh oleh perubahan varian atau level.

Hasilnya menunjukkan bahwa serangkaian variabel kuesioner yang konsisten


(mengesampingkan istilah autoregresif) menyumbang lebih dari 70% varian dalam evaluasi
pengalaman berbelanja secara keseluruhan. Selain itu, variabel-variabel ini menunjukkan stabilitas
yang wajar selama empat putaran dalam hal kepentingan relatifnya dalam memprediksi evaluasi
keseluruhan. Misalnya, Q6 (kepentingan) cenderung menjadi variabel paling penting atau
paling penting kedua dan Q5 (mengakhiri pertukaran dengan harapan baik) cenderung
mempertahankan peringkatnya sebagai variabel paling tidak penting dalam hal bobot beta.
Stabilitas ini dikonfirmasi dengan mengambil koefisien regresi yang diperoleh dari data
Gelombang 1 dan menggunakannya untuk membuat perkiraan penilaian kualitas layanan untuk
tiga gelombang data lainnya . R2 yang dihasilkan masing-masing adalah 0,71, 0,74 dan 0,70
untuk gelombang 2,3, dan 4, yang menunjukkan bahwa model regresi asli (yaitu, dihitung
dari gelombang 1) memiliki kemampuan untuk memprediksi penilaian kualitas layanan secara keseluruhan pada kumpulan
Ini merupakan hasil yang menggembirakan mengingat peneliti seperti Ehrenberg (1993) telah
mencatat catatan buruk mengenai metode berbasis kuadrat terkecil dalam
mengembangkan generalisasi empiris. Ada pendapat bahwa mereka tidak membantu dalam
mengidentifikasi generalisasi empiris dalam pemasaran karena mereka mengarahkan
penekanan pada pengembangan model baru daripada menyempurnakan/menguji model yang
sudah ada (Lindsay dan Ehrenberg 1993; Ehrenberg 1995). Hasil kami menunjukkan bahwa
regresi masih bisa menjadi prosedur yang berguna untuk mengembangkan generalisasi
empiris, tetapi seperti yang dikemukakan Ehrenberg, hanya replikasi yang digunakan dan peneliti mencari konsistensi dal

Stabilitas nilai koefisien ini digambarkan pada Gambar 1 untuk memudahkan interpretasi. Hal
ini menunjukkan bahwa meskipun masing-masing variabel bersifat mobile dari waktu ke
waktu, terdapat stabilitas yang wajar dalam hal peringkat dari yang paling penting hingga yang
paling tidak penting. Istilah autoregresif khususnya menurun selama empat gelombang, mungkin
menunjukkan beberapa efek pembelajaran dari pembeli misterius yang berpartisipasi dalam
empat putaran, dan mungkin peningkatan dalam pengarahan dan pelatihan. Kami menafsirkan
stabilitas komponen layanan sebagai prediktor evaluasi keseluruhan sebagai bukti positif bahwa
instrumen belanja misteri dapat diandalkan dan valid.

MASUKKAN Gambar I DI SINI

10
Machine Translated by Google

TingkatTingkat Toko Individu


Q.4 Akurasi

Pemeriksaan kami menunjukkan bahwa instrumen pengukuran menunjukkan tingkat reliabilitas


yang baik, validitas konvergen & kriteria, dan digunakan. Namun bagaimana hasil survei belanja
misteri tersebut dapat digunakan? Menurut pengalaman penulis, cara paling umum dalam
menggunakan data belanja misteri adalah dengan mencantumkan skor gerai-gerai yang
disurvei untuk periode tersebut, dan mungkin dibandingkan dengan periode sebelumnya.
Implikasinya adalah skor suatu outlet mewakili “tingkat kualitas” pada periode tersebut, dan
perubahan skor diinterpretasikan sebagai peningkatan atau penurunan kualitas
layanan. Apakah ini dibenarkan? Untuk menjawab pertanyaan ini kami mempertimbangkan
varians skor dan masalah kesalahan pengambilan sampel. Skor tersebut merupakan nilai
prediksi yang dihasilkan oleh prosedur regresi SPSS, untuk setiap gelombang. Skor yang
diprediksi di sini berlaku, yaitu gabungan tertimbang dari prediktor signifikan terhadap
kualitas layanan secara keseluruhan.

Variasi skor

Kami menemukan bahwa terdapat variasi skor yang cukup besar untuk masing-masing gerai
dari gelombang ke gelombang. Gambar 11 mengilustrasikan hal ini dengan menggunakan
sampel enam gerai yang dipilih secara acak. Seperti yang dapat dilihat, skor tinggi dalam satu
babak sering kali diikuti dengan skor yang jauh lebih rendah di babak lainnya, dan sebaliknya. Kami
menemukan bahwa hal ini umumnya terjadi. Faktanya, jumlah rata-rata variasi skor
untuk setiap outlet selama empat putaran mendekati jumlah rata-rata variasi untuk semua
outlet dalam satu putaran. Deviasi standar rata-rata untuk semua gerai dalam satu gelombang
adalah 10,1. Deviasi standar rata-rata untuk saluran keluar pada empat gelombang adalah 7,8. Hal
ini menunjukkan seberapa besar perbedaan skor untuk setiap outlet dari satu gelombang ke
gelombang lainnya. Oleh karena itu, mungkin sangat tidak bijaksana untuk mengkategorikan
suatu outlet tertentu sebagai outlet yang berkinerja “baik” atau “buruk” berdasarkan satu putaran
belanja misteri. Hal ini terjadi kecuali jika jumlah observasinya sangat besar, yang mana hal ini merupakan penghalang bia

MASUKKAN Gambar II DI SINI

Replikasi

Temuan terkait variasi skor ini mengejutkan. Jika artefak data kami tidak dapat
digeneralisasikan, kami mereplikasi analisis pada kumpulan data yang tidak terkait.
Kumpulan data baru terdiri dari 5 pengamatan individu selama periode 12 bulan untuk
masing-masing 40 gerai ritel. Gerai-gerai ini berada dalam industri jasa yang sama sekali berbeda
dengan studi pertama, dan tim lapangan yang melakukan survei ini tidak memiliki anggota yang
terlibat dalam studi pertama. Temuannya serupa. Variasi rata-rata dalam skor untuk outlet
tertentu selama lima putaran kira-kira sama dengan variasi rata-rata untuk semua outlet dalam
satu putaran (11.2 lih. 11.9).

Kesalahan pengambilan sampel

Kami menunjukkan bahwa rata-rata terdapat variasi skor yang cukup besar untuk outlet tertentu
dari waktu ke waktu. Masalah yang lebih serius adalah apakah perubahan ini disebabkan
oleh kesalahan pengambilan sampel. Setiap gelombang survei belanja misteri dianalisis

11
Machine Translated by Google

makalah ini terdiri dari tiga pengamatan. Angka ini merupakan angka yang sangat kecil untuk
dijadikan dasar kesimpulan statistik, meskipun angka ini mungkin besar jika dibandingkan
dengan banyak survei belanja misteri komersial. Kami ingin melihat apakah observasi dalam
jumlah kecil ini cukup untuk mengidentifikasi seberapa stabil atau bervariasinya kualitas
layanan dari waktu ke waktu. Jika tiga observasi ternyata tidak cukup, kami akan menggabungkan
hasil dari gelombang 1&2 dan membandingkannya dengan hasil gabungan untuk gelombang 3&4.

Kami menghitung standar deviasi skor untuk tiga observasi untuk setiap outlet. Hal ini
dilakukan di semua gelombang. Deviasi standar rata-rata adalah 13,1.
Hal ini memungkinkan kami menghitung interval kepercayaan pada skor rata-rata untuk setiap
outlet, untuk satu gelombang hasil belanja misteri. Ini menggunakan rumus dasar (Berenson dan
Levine 1996) untuk interval kepercayaan 95%:

Mx ± (1,96)x / n (2)

Dimana Mx adalah skor rata-rata, 1,96 adalah nilai Z yang sesuai dengan luas (1-0,05)/2
dari pusat distribusi normal, x adalah simpangan baku dan n adalah ukuran sampel.

Dari sini kami menghitung interval kepercayaan 95% menjadi +/- 15 poin skala.
Oleh karena itu, jika skor rata-rata suatu outlet selama dua periode berada di luar interval
(besar) ini, kita dapat menyimpulkan dengan tingkat keyakinan 95% bahwa tingkat kualitas
layanannya berbeda dari satu gelombang ke gelombang lainnya.

Kami memeriksa 228 gerai yang dipantau selama empat gelombang pengumpulan data
dan perbedaan skor untuk masing-masing gerai tersebut antara gelombang 1&2, 2&3, dan 3&4.
Banyaknya perbedaan kualitas pelayanan yang signifikan ditunjukkan pada Tabel X.

MASUKKAN Tabel X DI SINI

Jumlah kasus ini berada di bawah perkiraan yang diperkirakan secara kebetulan. Pada
tingkat kepercayaan 95% kita mengharapkan 228 x 0,05 = 11 perbedaan signifikan hanya karena
kebetulan. Oleh karena itu, perbandingan antara dua rangkaian dari tiga observasi tidak
memberikan bukti bahwa kualitas layanan bervariasi dari waktu ke waktu. Tentu saja, banyak toko
mungkin telah mengalami perubahan nyata dalam rata-rata kualitas penyediaan layanannya,
namun kurangnya kekuatan statistik yang disediakan oleh hanya 3 pengamatan membuat
perubahan nyata ini tidak dapat dibedakan dari variasi pengambilan sampel.

Mengingat bahwa tiga observasi memang merupakan jumlah yang kecil, kami menggabungkan
skor untuk gelombang 1&2 dan juga skor agregat untuk gelombang 3&4. Mengagregasi berarti
kami sekarang membandingkan dua set yang terdiri dari enam observasi. Interval
kepercayaan menggunakan rumus (2) sekarang +/- 11,5 poin.

Kami membandingkan dua skor agregat untuk masing-masing 228 gerai untuk mengidentifikasi
apakah terdapat perbedaan kinerja yang signifikan.

Hasilnya ditunjukkan pada Tabel XI.

MASUKKAN Tabel XI DI SINI

12
Machine Translated by Google

Jumlah kasus yang menunjukkan perbedaan signifikan juga berada dalam kesalahan pengambilan sampel.

Jadi kami telah menunjukkan bahwa terdapat variasi tingkat individu yang substansial dari satu survei
ke survei lainnya, namun variasi ini dapat dengan mudah disebabkan oleh kesalahan pengambilan
sampel. Untuk semua tujuan praktis, tidak mungkin untuk menentukan apakah peningkatan atau
penurunan penyediaan layanan suatu toko dari satu survei ke survei berikutnya adalah nyata atau
tidak. Hal ini membuat perbandingan hasil di tingkat masing-masing toko hampir tidak bernilai.
Tentu saja salah jika manajer toko menggunakan perubahan dalam toko belanja misteri
menilai staf atau kinerja mereka sendiri. Pengecualian mungkin berupa penggunaan hasil untuk
mengidentifikasi pengecualian terhadap standar minimum yang telah ditentukan sebelumnya yang
tidak mengharuskan manajer untuk menggeneralisasi kinerja staf atau toko.

Q.5 Variasi dalam Kualitas Pelayanandi Individu Situs Tingkat

Selain kesalahan pengambilan sampel, seberapa besar variasi yang ada dalam kinerja layanan?
Bahkan jika sensus lengkap dilakukan terhadap setiap pertemuan layanan di sebuah toko
(sehingga menghilangkan semua kesalahan pengambilan sampel), apakah masih akan ada variasi
yang cukup besar, pertemuan demi pertemuan? Jika hal ini terjadi, maka tidak ada gunanya
membicarakan rata-rata atau tingkat kualitas layanan secara umum.

Untuk menjawab pertanyaan ini, kami melaporkan variasi skor yang ditunjukkan oleh toko-toko
dalam satu gelombang survei pada Tabel XII. Hal ini menunjukkan betapa sedikit atau seberapa
besar variasi kualitas layanan di gerai ritel tertentu (dalam penelitian kami) dalam waktu sepuluh
hari. Rentang mengacu pada rentang poin dari peringkat terendah hingga peringkat tertinggi untuk
tiga pengamatan.

MASUKKAN Tabel XII DI SINI

Tabel XII menunjukkan bahwa sebagian besar gerai ritel ini menunjukkan variasi besar dalam
tingkat layanan yang dilaporkan dalam satu gelombang. 59% outlet memiliki rentang skor melebihi 20
poin. Kisaran skala efektif adalah sekitar 90 poin dengan skor terendah dihitung dari koefisien
regresi sebesar 9 dan tertinggi sebesar 99. Hal ini menunjukkan bahwa membicarakan tingkat
kualitas layanan (rata-rata) gerai ritel selama suatu periode mungkin tidak ada artinya. Pepatah
Perancis kuno tampaknya tepat: tidak ada anggur yang enak, yang ada hanya botol yang bagus.

Tentu saja, hal ini sebagian disebabkan oleh tingginya variabilitas dalam pemberian layanan
sehingga perusahaan ingin mengukur kualitas layanan. Berbeda dengan produk yang standarisasinya
lebih mudah, standarisasi kualitas layanan sulit dilakukan dan memerlukan manajemen berkelanjutan.

Kesimpulan

Penelitian ini memiliki implikasi penting bagi penyedia penelitian belanja misteri.
Kami telah menguraikan pendekatan untuk menguji keandalan instrumen belanja misteri dan telah
menunjukkan bahwa tingkat keandalan antar penilai yang baik adalah mungkin.
Kami juga telah menunjukkan bahwa komponen item dalam instrumen belanja misteri dapat
menampilkan tingkat konvergensi dan validitas kriteria yang dapat diterima; dan stabilitas
dalam kepentingan komparatif pada berbagai survei. Namun, validitas proses itu sendiri, yaitu
pemeringkatan dan pemeringkatan masing-masing gerai berdasarkan survei yang dilakukan pada
beberapa layanan saja, masih diragukan. Hasilnya menunjukkan bahwa organisasi penelitian, dan mereka

13
Machine Translated by Google

klien, harus menafsirkan hasil survei belanja misteri dengan hati-hati. Tidak disarankan untuk
menggeneralisasi sejauh mana gerai tertentu memiliki kinerja yang baik dari survei
belanja misteri yang sebenarnya hanya mengukur kinerja individu. Tingkat pelayanan
yang diberikan oleh gerai ritel dalam penelitian ini cukup bervariasi untuk sebagian besar gerai.

Jelas sekali bahwa pendekatan yang bijaksana adalah dengan mengumpulkan hasil belanja
misterius di seluruh periode waktu, dan bahkan lebih baik lagi, di seluruh toko/karyawan/agen.
Daripada memeringkat masing-masing penyedia layanan dan membandingkan perubahan peringkat
atau skor dari waktu ke waktu, akan lebih baik jika kita berkonsentrasi pada skor agregat, mungkin
untuk wilayah atau negara, dan mengevaluasi kinerja mereka.

• tingkat absolut – seberapa baik kinerja kita?

• tingkat variasi – seberapa konsisten pengiriman kami ke seluruh outlet?

• komponen – dalam hal apa kita kuat/lemah? apa yang sebenarnya penting?

• dan perubahan statistik ini dari waktu ke waktu.

Penggunaan lain yang sangat tepat untuk belanja misteri adalah untuk memantau “standar
minimum” bagi organisasi. Misalnya, organisasi jasa dapat menetapkan standar bahwa
tidak ada pelanggan yang boleh menunggu lebih dari 3 menit untuk dilayani atau staf
penjualan harus menyebutkan manfaat produk tertentu yang telah ditentukan sebelumnya saat melayani klien.
Tidak perlu menggeneralisasi hasil tersebut di tingkat masing-masing toko. Penyedia
penelitian kemudian dapat melihat apakah standar tersebut pernah dilanggar dan memberikan
umpan balik yang sesuai kepada klien.

Rekomendasi untuk penelitian masa depan

Studi kami setidaknya sebagian menimbulkan keraguan terhadap validitas proses belanja
misteri. Penelitian lebih lanjut diperlukan untuk lebih menggambarkan keterbatasan teknik dan
cara yang mungkin untuk mengatasi keterbatasan tersebut. Salah satu cara untuk
mengeksplorasi adalah sejauh mana persepsi pelanggan terhadap kinerja layanan berkorelasi
dengan penilaian pakar yang menggunakan kriteria yang sama. Hal ini akan memberikan lebih
banyak bukti mengenai apakah belanja misteri benar-benar mengukur apa yang ingin diukur.

Studi ini juga menyarankan bahwa kualitas layanan mungkin dikonseptualisasikan sebagai
sesuatu yang sangat bervariasi dari satu transaksi ke transaksi lainnya. Apakah variasi ini
harus menjadi perhatian yang lebih besar bagi manajer pemasaran dibandingkan kualitas
layanan rata-rata suatu toko atau kelompok toko? Bisa saja terjadi asimetri akibat tinggi
rendahnya kualitas pelayanan. Kinerja pelayanan yang sangat baik sering kali mempunyai
pengaruh yang kecil, sedangkan pelayanan yang sangat buruk sering kali mengakibatkan
pembelotan pelanggan atau promosi mulut ke mulut yang buruk. Jika hal ini benar, maka
manajemen sebaiknya tidak terlalu mengkhawatirkan peningkatan rata-rata kinerja layanan dan lebih mengkhawatirkan
mengurangi variabilitas (menurun). Ini adalah pertanyaan-pertanyaan yang memerlukan
penyelidikan empiris.

Yang terakhir, ada juga pertanyaan yang jelas mengenai apakah dan seberapa besar,
perubahan yang diidentifikasi oleh penilaian kualitas layanan objektif sesuai dengan penilaian
subjektif pelanggan terhadap kualitas layanan secara keseluruhan. Dengan kata lain, seberapa besar perhatian pelangg

14
Machine Translated by Google

perubahan kualitas layanan? Penelitian semacam itu akan memberikan para


manajer bukti lebih lanjut mengenai kegunaan program belanja misteri. Penelitian
replikasi dan perluasan juga diperlukan pada kategori layanan lainnya. Penelitian
kami meneliti layanan hiburan dengan keterlibatan yang cukup rendah, penelitian
diperlukan di toko produk tahan lama tradisional, layanan keuangan, dan
tempat lain di mana seluruh layanan dikonsumsi di lokasi, misalnya restoran.

15
Machine Translated by Google

Referensi

Allison, Paul D. (1977), "Menguji Interaksi dalam Regresi Berganda," American


Journal of Sociology, 83 (No. 1), 144-153.

Berenson, Mark L. dan David M. Levine (1996), Statistik Bisnis Dasar - Konsep dan
Aplikasi, Edisi keenam. Tebing Englewood, New Jersey: Prentice Hall, Inc.

Bolton, Ruth N. dan James H. Drew (1991), "Analisis Longitudinal Dampak


Perubahan Layanan terhadap Sikap Pelanggan," Journal of Marketing, 55 (Januari), 1-9.

Buttle, Francis (1996), "SERVQUAL: Review, Kritik, Agenda Penelitian,"


Jurnal Pemasaran Eropa, 30 (No. 1), 8-32.

Campbell, Donald T. dan Donald W. Fiske (1959), "Validasi Konvergen dan


Diskriminan oleh Matriks Multitrait-Multimetode," Buletin Psikologis, 56 (No. 2,
Maret), 81-105.

Churchill, Gilbert A., Jr (1979), "Paradigma untuk Mengembangkan Ukuran


Konstruksi Pemasaran yang Lebih Baik," Jurnal Riset Pemasaran, 16 (Februari), 64-73.

Cohen, Jacob (1960), "Koefisien Kesepakatan untuk Skala Nominal," Pengukuran


Pendidikan dan Psikologis, 20 (1), 37-46.

Cronin, J. Joseph, Jr. dan Steven A. Taylor (1994), "SERVPERF Versus


SERVQUAL: Rekonsiliasi Pengukuran Kualitas Pelayanan Berbasis Kinerja dan
Persepsi-Minus-Ekspektasi," Jurnal Pemasaran, 58 (Januari), 125-131.

Dabholkar, Pratibha A., Dayle I. Thorpe dan Joseph O. Rentz (1996), "Ukuran
Kualitas Layanan untuk Toko Ritel: Pengembangan Skala dan Validasi," Jurnal
Akademi Ilmu Pemasaran, 24, 3-16.

Dawson, Janet dan Jill Hillier (1995), "Belanja Misteri Pesaing:


Pertimbangan Metodologis dan Implikasinya terhadap Kode Etik MRS,"
Jurnal Masyarakat Riset Pasar, 37 (No. 4, Oktober), 417-428.

Deshpandé, Rohit dan John U. Farley (1998), "Konstruksi Orientasi Pasar:


Korelasi, Budaya, dan Komprehensif," Jurnal Manajemen Berfokus Pasar, 2
(No. 3), 237-239.

Ebel, Robert L. (1951), "Estimasi Keandalan Peringkat," Psikometrika, 16 (No. 4),


407-424.

Ehrenberg, ASC (1995), "Generalisasi Empiris, Teori, dan Metode,"


Ilmu Pemasaran, 14 (No. 3, Bagian 2 dari 2), G20-G28.

Ehrenberg, Andrew SC dan John A. Bound (1993), "Prediktabilitas dan Prediksi,"


Jurnal Royal Statistical Society Association, 156 (Bagian 2), 167-206.

Ehrenberg, ASC dan JM Shewan (1953), "Pendekatan Objektif Tes Sensorik


Makanan," Jurnal Ilmu Pangan dan Pertanian, 4 (Oktober), 482-490.

16
Machine Translated by Google

Guilford, JP (1954), Metode Psikometri. Bombay: Tata - Bukit McGraw.

Hair, Joseph F., Rolph E. Anderson, Ronald L. Tatham dan William C. Black (1995),
Analisis Data Multivariat, Edisi keempat. New Jersey: Prentice Hall Internasional.

Jacoby, Jacob dan Jerry C. Olson (1985), "Kualitas yang Dirasakan," Lexington: Lexington Books.

Kamakura, Wagner A. dan Gary J. Russell (1993), "Mengukur Nilai Merek dengan
Data Pemindai," Jurnal Internasional Riset Pemasaran, 10, 9-22.

Lindsay, R. Murray dan ASC Ehrenberg (1993), "Desain Studi yang


Direplikasi," The American Statistician, 47 (3), 217-228.

Maynes, SE (1976), “Konsep dan Pengukuran Kualitas Produk,”


Produksi dan Konsumsi Rumah Tangga, 40, 529-59.

Mendenhall, William dan Terry Sincich (1996), Kursus Kedua Statistika: Analisis
Regresi, Edisi kelima. Jersey baru: Prentice-Hall International, Inc.

Morris, Ruby Turner dan Claire Sekulski Bronson (1969), "Kekacauan


Persaingan Diindikasikan oleh Laporan Konsumen," Jurnal Pemasaran, 33 (Juli), 26-43.

Morrison, Lisa J., Andrew M. Colman dan Carolyn C. Preston (1997), "Riset
Pelanggan Misteri: Proses Kognitif yang Mempengaruhi Akurasi," Journal of the
Market Research Society, 39 (No. 2, April), 349-361.

Norusis, Marija J. (1993), SPSS untuk Windows - Statistik Lanjutan Rilis 6.0.
Chicago, AS: SPSS Inc.

Parasuraman, A, V Zeithaml dan LL Berry (1988), "SERVQUAL: Skala Beberapa


Item untuk Mengukur Persepsi Konsumen terhadap Kualitas Layanan," Journal of
Retailing, 64 (Spring), 12-40.

Perreault, William D., Jr. dan Laurence E. Leigh (1989), "Keandalan Data Nominal
Berdasarkan Penilaian Kualitatif," Jurnal Ilmu Pemasaran, 26 (Mei), 135-
148.

Peter, J. Paul (1981), "Membangun Validitas: Tinjauan Masalah Dasar dan Praktik
Pemasaran," Jurnal Riset Pemasaran, 18 (Mei), 133-145.

Riesz, Peter C. (1980), "Studi Kualitas yang Dipersepsikan Harga Dikaji Ulang,"
Jurnal Riset Pemasaran, 17 (Mei), 259-262.

Rust, Roland T. dan Bruce Cooil (1994), "Ukuran Keandalan untuk Data Kualitatif:
Teori dan Implikasinya," Jurnal Riset Pemasaran, 31 (Februari), 1-14.

Rust, Roland T., Anthony J. Zahorik dan Timothy L. Keiningham (1995), "Return on
Quality (ROQ): Membuat Kualitas Layanan Bertanggung Jawab Secara
Finansial," Jurnal Pemasaran, 59 (April), 58-70.

17
Machine Translated by Google

Schumacker, Randall E. dan Richard G. Lomax (1996), Panduan Pemula untuk Pemodelan
Persamaan Struktural. New Jersey: Lawrence Erlbaum Associates, Penerbit.

Shrout, Patrick E. dan Joseph L. Fleiss (1979), "Korelasi Intrakelas: Penggunaan dalam
Menilai Keandalan Penilai," Buletin Psikologis, 86 (No. 2), 420-428.

Tinsley, Howard EA dan David J. Weiss (1975), "Keandalan Antar Penilai dan Kesepakatan
Penilaian Subjektif," Jurnal Psikologi Konseling, 22 (No. 4), 358-376.

Wilson, Alan M. (1998), "Penggunaan Mystery Shopping dalam Pengukuran Pemberian Jasa,"
The Service Industries Journal, 18 (3, Juli), 148-163.

18
Machine Translated by Google

TABEL DAN GAMBAR

Tabel I Item Kuesioner


Keramahan metrik
Minat metrik
Pertemuan yang menyenangkan metrik
Percaya diri dalam menjawab pertanyaan metrik
Refleksi positif pada kepala sekolah metrik
Kebersihan dan kerapihan outlet metrik
Servis segera atau tunggu kategoris
Bentuk sapaan kategoris
Pertukaran verbal yang kategoris
ramah Penjual mengakhiri pertukaran dengan kategoris
ucapan selamat Penyebutan produk lain oleh kategoris
penjual Mendorong pembelian/penjualan kategoris
silang Pengetahuan kategoris
produk Masalah teknis kategoris
Ukuran kepuasan global terhadap pengalaman pembelian secara keseluruhan. Item metrik, peringkat
ini digunakan sebagai variabel dependen dalam uji validitas prediktif kuesioner dari 100.

Tabel II Rotasi Penilai


Penilai 1 & 2 - masing-masing 15 outlet
Penilai 1 & 3 - masing-masing 15 outlet
Penilai 2 & 3 - masing-masing 15 outlet
Penilai 2 & 4 - masing-masing 15 outlet

Tabel III Nilai Interrater Reliability


Butir nilai ICC
Q.4 0,90
Q.6 0,90
Q.7 0,86
Q.11 0,76
Q.12 0,55
Q.15 0,81

19
Machine Translated by Google

Tabel V Keandalan - pertanyaan kategoris


Barang Perjanjian # kategori Keandalan
Proporsi
Rata-rata
Q.1 0,87 7 0,90
Q.2 0,83 3 0,85
Q.3 0,67 5 0,75
Q.5 0,87 3 0,89
Q.8 0,98 2 0,99
Q.9 1.0 3 1.0
Q.10 0,95 0,98
Q.13 0,10 34 1.0

Tabel VII Ukuran hubungan antara komponen kualitas layanan dan skor
global
Variabel Jenis Asosiasi dengan penilaian
kualitas layanan secara keseluruhan
Keramahan metrik r=0,73, p<0,001
Minat metrik r=0,78, p<0,001
Pertemuan yang menyenangkan metrik r=0,82, p<0,001
Percaya diri dalam menjawab pertanyaan metrik r=0,52 p<0,001
Refleksi positif pada kepala sekolah metrik r=0,38 p<0,001
Kebersihan dan kerapihan outlet metrik r=0,40, p<0,001
Servis segera atau tunggu kategorikal ÿ2=57, df 12, p<0,0001
Bentuk salam kategorikal ÿ2=283, df 4, p<0,0001
Pertukaran verbal yang ramah kategorikal ÿ2=303, df 8, p<0,0001
Penjual mengakhiri pertukaran dengan harapan baik kategorikal ÿ2=312, df 4, p<0,0001
Penyebutan produk lain oleh penjual kategorikal ÿ2=23, df 2, p<0,0001
Mendorong pembelian/penjualan silang kategorikal ÿ2=6, df 2, p=0,21
Pengetahuan produk kategorikal ÿ2=182, df 4, p<0,0001
Masalah teknis kategorikal ÿ2=2, df 2, p=0,46

20
Machine Translated by Google

Tabel VIII Koefisien Regresi Standar (Beta).

(Kesalahan standar dalam tanda kurung)

Gelombang Gelombang 2 Gelombang 3 Gelombang 4


1

Beta Beta Beta Beta


Q 4 (keramahan) .32 .24 .30 .24
(.03) (.04) (.04) (.03)
Q6 (bunga) .29 .35 .37 .45
(.03) (.03) (.04) (.03)
Q11 (kepercayaan diri .19 .20 .13 .18
dalam menjawab pertanyaan) (.01) (.02) (.01) (.01)
Q15 (area bersih dan .22 .17 .15 .15
rapi) (.02) (.02) (.01) (.01)
Q5 (akhiri pertukaran 0,05 .08 .07 .10
dengan harapan baik - (.01) (.01) (.01) (.02)
ya Tidak)
Q16 TERLAMBAT .28 .15 0,17 .10
(.02) (.01) (.02) (.01)
Adj. R2 dengan 0,80 .73 0,77 .76
istilah autoregresi
Adj. R2 tanpa 0,72 0,72 0,74 0,75
istilah autoregresi

Catatan: semua koefisien signifikan pada P <0,01.

21
Machine Translated by Google

Gambar I Nilai Beta untuk empat putaran survei (rata-rata dari 3 pertemuan setiap
putaran)
Q 4 (keramahan)
0,45

0,4
Q6 (bunga)
0,35

0,3
Q11 (kepercayaan diri
0,25 dalam menjawab pertanyaan)

0,2
Q15 (area bersih dan
0,15 rapi)
0,1
Q5 (akhiri pertukaran
0,05 dengan harapan baik
- ya/tidak)
0
Istilah autoregresif
Gelombang 1 Gelombang 2 Gelombang 3 Gelombang 4

Lima prediktor teratas skor kualitas layanan secara keseluruhan tetap stabil peringkatnya selama empat
putaran survei

Gambar II Varians skor dari gelombang ke gelombang - enam outlet yang dipilih secara acak
Skor / 100 100

95

90

85 jalan keluar 1

jalan keluar 2
80
jalan keluar 3
75 jalan keluar 4

jalan keluar 5
70
jalan keluar 6
65

60

55

50
Gelombang 1 Gelombang 2 Gelombang 3 Gelombang 4

22
Machine Translated by Google

Tabel X Perbedaan Signifikan


Ombak Jumlah gerai yang menunjukkan perbedaan
signifikan pada P<0,05
1&2 5
2&3 7
3&4 1

Tabel XI Perbedaan Signifikan - menggabungkan gelombang survei

Jumlah gerai yang menunjukkan perbedaan


signifikan pada P<0,05
Perbandingan skor agregat gelombang 1&2 dibandingkan 4
skor agregat gelombang 3&4

Tabel XII Variasi skor gerai dalam satu survei

Rentang Persentase gerai


1 hingga kurang dari 5 3

poin 5 hingga kurang dari 10


10 poin 10 hingga 28
kurang dari 20 poin
20 hingga kurang 28
dari 30 poin
30 hingga kurang 18
dari 40 poin
lebih dari 40 poin 13

23

Anda mungkin juga menyukai