Anda di halaman 1dari 50

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Dokumentasi dan observasi 139

3. Catatan lapangan ditranskripsikan ke dalam skrip kata demi kata tentang


siapa mengatakan apa kepada siapa di dalam ruang rapat. Transkrip
verbatim dari perilaku verbal direktur diperiksa silang dengan sekretaris
dewan selama periode pengumpulan data lima tahun.
4. Analisis isi transkrip digunakan untuk mengkodekan perilaku verbal
anggota dewan berdasarkan kategori yang lengkap dan saling
eksklusif. Lima belas iterasi skema analisis konten dilakukan untuk
memastikan kategori pengkodean lengkap dan saling eksklusif.

5. Keandalan antar-penilai dinilai. Ada indeks keandalan antar


penilai di tiga penilai.
6. Transkrip dikuantifikasi dengan mencatat jumlah berbagai jenis
perilaku verbal yang ditimbulkan oleh anggota dewan. Ini adalah
jumlah perilaku verbal anggota dewan.
7. Berdasarkan jumlah perilaku verbal direktur, hipotesis tentang proses
kelompok diuji menggunakan teknik statistik yang sesuai untuk
menghitung data. Ini memberikan ukuran perubahan dalam satu variabel
dari waktu ke waktu, hubungan bivariat antara dua variabel, dan analisis
multivariat yang menggunakan kontrol statistik untuk menghilangkan
efek potensial dari variabel pengganggu.

Dalam penelitian ini dikembangkan teori mengenai seluk-beluk konflik,


perebutan kekuasaan, dan advokasi kelompok kepentingan yang ditampilkan oleh
anggota dewan di dalam ruang dewan. Curral dkk. (1999) menemukan bahwa:

- Tingkat aktivitas keseluruhan direktur luar yang baru, tetapi bukan direktur pekerja,
meningkat dari waktu ke waktu.
- Direktur eksekutif lebih dominan dalam diskusi dewan, debat, dan
argumentasi daripada direktur luar, baru, atau pekerja yang sudah ada
sebelumnya, terutama pada topik yang membutuhkan pengetahuan
spesifik perusahaan. Direktur pekerja adalah subkelompok yang paling
tidak dominan.
- Tidak ada banyak argumen kelompok kepentingan dan konflik dalam
pertimbangan dewan mengenai pengadaan perusahaan lain. Konflik tidak
hanya disebabkan oleh argumen kelompok kepentingan, tetapi juga karena
kritik terhadap keputusan manajemen oleh direktur luar (baik yang sudah ada
sebelumnya maupun yang baru).
140 Bagian 3 Metode pengumpulan data

Curral dkk. (1999) menyoroti kekuatan observasi kualitatif


vasi untuk menyelidiki proses kelompok. Kekuatan-kekuatan ini adalah:

- Data observasi kaya akan detail tentang perilaku dan interaksi


anggota kelompok.
- Seorang pengamat memperoleh pengetahuan yang mendalam tentang sejarah kelompok

dan norma-norma untuk digunakan sebagai kerangka kerja interpretatif untuk


menguraikan tindakan anggota kelompok.
- Observasi memungkinkan peneliti untuk mengumpulkan data pada suatu kelompok seperti

yang terungkap dari waktu ke waktu, sehingga memungkinkan untuk melakukan penyelidikan
longitudinal.

Dalam penelitian ini, para peneliti juga mencatat kelemahan


metodologis yang terkait dengan teknik khusus ini. Masalah yang
berkaitan dengan:

- keterbatasan pemrosesan informasi kognitif seorang pengamat

(beberapa perilaku tidak direkam);


- peneliti lain tidak dapat menentukan bagaimana pengamat membuat

interpretasi dari catatan lapangan; dan


- catatan lapangan tidak digunakan untuk menguji hipotesis menggunakan teknik inferensi

statistik, hanya digunakan sebagai deskripsi yang kaya tentang peristiwa dan perilaku.

Melakukan observasi terstruktur sebagai teknik penelitian

Pengamatan terstruktur (juga disebut sistematis) membutuhkan penggunaan


sistem penilaian dan kategori yang telah diatur sebelumnya yang diterapkan
secara konsisten dalam pencatatan perilaku yang diamati. Akibatnya, daftar
periksa pengamatan diperlukan di mana informasi dicatat di bawah judul.
Kategori dalam daftar periksa mencakup item perilaku yang terjadi secara
alami dalam situasi dan dapat diamati dan dicatat. Observasi kasual seringkali
diperlukan pada awalnya untuk menentukan kategori yang digunakan untuk
observasi. Lebih dari satu pengamat dapat digunakan, dan kemudian
kesepakatan antara dua atau lebih pengamat dihitung untuk membangun
keandalan antar-penilai. Setidaknya dua pengamat independen disarankan
pada tahap awal proyek penelitian sampai keandalan telah ditetapkan.
Pengamat juga harus memiliki lokasi dari mana perilaku
Dokumentasi dan observasi 141

dapat direkam. Langkah-langkah penelitian observasi sistematis


(Sommer & Sommer,1991) adalah:

1. Tentukan pertanyaan yang menarik untuk penelitian.


2. Melakukan observasi biasa, membedakan antara observasi
(perilaku yang sebenarnya) dan inferensi (interpretasi).
3. Jelaskan kategori pengamatan dengan jelas.
4. Rancang instrumen pengukuran (misalnya, daftar periksa, kategori, sistem
pengkodean).
5. Merancang penelitian sehingga valid; yaitu, mengukur apa yang
seharusnya diukur dan memiliki beberapa generalisasi.
6. Latih pengamat dalam penggunaan instrumen.
7. Lakukan uji coba:
- menguji prosedur pengamatan yang sebenarnya; dan
- periksa keandalan kategori menggunakan setidaknya dua pengamat

independen. Statistik yang mengukur derajat kesepakatan, seperti Kappa,


dapat dihitung untuk membangun keandalan antar-penilai (lihat Bab12
untuk rincian).
8. Merevisi prosedur dan instrumen. Jika ada perubahan
substansial, lakukan uji coba lagi.
9. Mengumpulkan data.

10. Mengkompilasi, menganalisis, dan menginterpretasikan hasilnya.

Ada kesulitan dalam menyimpulkan sikap, keyakinan, atau pendapat


orang dari pengamatan perilaku yang terstruktur. Sikap, keyakinan, dan
pendapat individu harus dinilai secara langsung melalui wawancara atau
kuesioner. Sebagai alternatif, penelitian observasi partisipan dapat
digunakan di mana pengamat ingin mengeksplorasi makna, interpretasi,
dan motif dalam konteks sosial.

Masalah dengan observasi sebagai metode penelitian

Ada sejumlah perangkap yang harus dihindari peneliti ketika melakukan


penelitian observasional, baik partisipan maupun terstruktur (Sommer &
Sommer, 1991). Masalah potensial ini meliputi:

1. Efek reaktif dari yang diamati (kesadaran diri, perilaku


akomodatif, dll.).
142 Bagian 3 Metode pengumpulan data

Observasi partisipan sangat berguna untuk menyelidiki kelompok


budaya. Karena pengamat berada di sana lebih lama, penghuni
cenderung tidak mengubah perilaku mereka di hadapannya dan
pengamat diakomodasi daripada bereaksi (Bogdewic,1992).
2. Kesalahan pengamat (kategori pengamatan yang tidak jelas dan tidak dapat
diandalkan, bias pengamat, perubahan periode pengamatan selama penelitian,
dll.).
Dalam observasi partisipan, pengamat partisipan mungkin merasa sulit untuk
mempertahankan peran pasif. Bias pengamat juga dapat terjadi, serta
kelelahan atau kebosanan. Pengamat dapat diberikan pelatihan tentang cara
mengamati dan apa yang harus direkam (Sekaran,1992). Jika ada beberapa
pengamat, keandalan antar pengamat dapat dihitung.
Catatan lapangan dari pengamat partisipan dapat kurang reliabel dan
pengamat dapat mengubah perilaku mereka yang diamati, atau menjadi bias, atau
terlalu mengidentifikasi diri dengan partisipan. Cara lain untuk mengatasi masalah
ini adalah triangulasi, atau penggunaan lebih dari satu metode, pengamat (tim),
situs lain, dan catatan publik atau pribadi untuk memberikan pemeriksaan
tambahan pada satu pengamat (Sommer & Sommer,1991). Oleh karena itu, sudut
pandang atau metode yang berbeda dapat digunakan untuk menunjukkan dengan
tepat aspek dari fenomena yang sama.
3. Kesalahan pengambilan sampel (orang yang diamati tidak mewakili kelompok
yang hasilnya akan digeneralisasi, periode waktu yang tidak memadai, bias
karena lokasi, hari, dll.).

Kesimpulan

Analisis dokumentasi melibatkan pengembangan pemahaman


induktif kelompok dokumen perusahaan melalui pemahaman
deduktif dari keseluruhan. Dokumen mungkin tidak dapat diambil
begitu saja. Mereka tidak dapat dianalisis secara terpisah dan hanya
dapat dipahami dalam konteks pandangan holistik organisasi dan
dalam kaitannya dengan jenis analisis lainnya. Salah satu keuntungan
dari analisis dokumentasi adalah dapat menyoroti interaksi antara
subkelompok yang berbeda dan politik kehidupan organisasi.
Observasi diterapkan untuk menjawab pertanyaan penelitian tentang perilaku
alami. Pengamatan biasa tidak menggunakan kategori yang telah diatur
sebelumnya atau sistem penilaian dan mungkin paling berguna pada tahap awal
Dokumentasi dan observasi 143

penelitian. Pengamatan terstruktur menggunakan kategori rinci dan sistem


penilaian. Ada sumber kesalahan dari pengamatan terstruktur, seperti efek reaktif,
kesalahan pengamat, dan pengambilan sampel yang bias. Reliabilitas dapat
dihitung dengan memiliki dua atau lebih pengamat pada tahap awal penelitian.
Observasi partisipatif adalah dimana pengamat menjadi bagian dari peristiwa
yang sedang dipelajari; namun, mungkin ada masalah reliabilitas dan generalisasi.
Dalam observasi partisipan, triangulasi dapat digunakan untuk memeriksa
keandalan dan lebih dari satu metode, pengamat, atau situs dapat digunakan
untuk memberikan pemeriksaan tambahan pada akun pengamat.

Referensi

Andrews, J. (2001). Tempat kerja kelompok dalam pekerjaan sosial: Sebuah analisis sejarah.jurnal
Sosiologi dan Kesejahteraan Sosial, 28, 45–65.
Kamar Dagang Australia, Kamar Asosiasi Produsen
Australia, & Asosiasi Industri Perdagangan Logam Australia (2006). Kompas
Australia (edisi ke-35). Prahran: Publikasi Isaacson.
Bedola, M. (1992). Metode sejarah: Pengantar singkat. Di BF Crabtree & WL
Miller (eds.), Melakukan penelitian kualitatif (hlm. 163-173). Newbury Park, CA: Sage
Publications.
Bogdewic, SP (1992). Observasi peserta. Dalam BF Crabtree & WL Miller (eds.),
Melakukan penelitian kualitatif (hlm. 45–69). Newbury Park, CA: Sage Publications.
Bryman, A. (2004).Metode penelitian sosial. Oxford: Pers Universitas Oxford. Bisnis
Who's Who of Australia (2005).500 perusahaan teratas Australia (edisi 19).
Chatswood: Dun & Bradstreet. Creswell, JW (2003).Desain penelitian – kualitatif,
kuantitatif, dan metode campuran
pendekatan (edisi ke-2). Thousand Oaks, CA: Sage Publications.
Currall, SC, Palu, TH, Baggett, LC, & Doniger, GM (1999). Menggabungkan kualitas-
metodologi itatif dan kuantitatif untuk mempelajari proses kelompok. Metode
Penelitian Organisasi, 2, 5-36.
Kesempatan yang Sama bagi Perempuan di Agensi Tempat Kerja (2004–2005). Kesempatan yang Sama-
Laporan Tahunan tunity for Women in the Workplace Agency. Canberra: Layanan
Penerbitan Pemerintah Australia.
Forster, N. (1994). Analisis dokumentasi perusahaan. Dalam C. Cassell & G. Symon
(edisi.), Metode kualitatif dalam penelitian organisasi (hal. 147–166). London:
Publikasi Sage.
Lee, TW (1999). Menggunakan metode kualitatif dalam penelitian organisasi. Thousand Oaks,
CA: Sage Publications.
144 Bagian 3 Metode pengumpulan data

Mason, RO, McKenney, JL, & Copeland, DG (1997a). Mengembangkan sejarah


tradisi dalam penelitian MIS. MIS Triwulanan, 21, 257–278.
Mason, RO, McKenney, JL, & Copeland, DG (1997b). Sebuah metode sejarah untuk
penelitian SIM. MIS Triwulanan, 21, 307–320.
Miller, WL & Crabtree, BF (1992). Penelitian perawatan primer: Tipologi multimetode
dan peta jalan kualitatif. Dalam BF Crabtree & WL Miller (eds.),Melakukan penelitian
kualitatif (hlm. 3–30). Newbury Park, CA: Sage Publications.
Patemore, G. (1998). Menggali masa lalu: Metode sejarah dalam hubungan industrial
riset. Dalam KW Whitfield & G. Strauss (eds.),Meneliti dunia kerja: Strategi dan
metode dalam mempelajari hubungan industrial (hlm. 213–227). Ithaca, NY: Cornell
University Press.
Payne, SC, Finch, JF, & Tremble, TR, Jr (2003). Memvalidasi tindakan pengganti
konstruksi psikologis: Penerapan kesetaraan konstruk data arsip. Metode
Penelitian Organisasi, 6, 363–382.
Schuler, R. (1989), Manajemen sumber daya manusia strategis. Hubungan manusia, 42(2),
157–184.
Sekaran, U. (1992). Metode penelitian untuk bisnis: Pendekatan pengembangan keterampilan. New
York: John Wiley & Sons.
Sommer, B. & Sommer, R. (1991). Panduan praktis untuk penelitian perilaku: Alat dan
teknik. New York: Pers Universitas Oxford.
Program Pembangunan PBB (2005). Laporan pembangunan manusia. New York:
Pers Universitas Oxford.
Waddington, D. (1994). Observasi peserta. Dalam C. Cassell & G. Symon (eds.),
Metode kualitatif dalam penelitian organisasi (hal.107–123). London: Publikasi
Sage.
Whitfield, KW & Strauss, G. (1998). Meneliti dunia kerja: Strategi dan
metode dalam mempelajari hubungan industrial. Ithaca, NY: Cornell University Press.

Pertanyaan ulasan bab

1 Apa yang dimaksud dengan dokumentasi bila digunakan sebagai metode penelitian?

2 Kapan dokumentasi dapat digunakan dalam desain penelitian?

3 Apa jenis dokumentasi utama yang digunakan dalam


4 penelitian? Apa masalah dengan penggunaan dokumentasi?
5 Apa kelebihan menggunakan dokumentasi?
6 Apa langkah-langkah dalam menggunakan dokumentasi dalam desain penelitian?
7 Bagaimana dokumentasi dapat dianalisis?
8 Apa langkah-langkah dalam studi dokumentasi yang khas (misalnya, studi Forster
[1994])?
9 Apa itu penelitian observasi?
10 Apa jenis observasi utama yang digunakan dalam desain penelitian?
Dokumentasi dan observasi 145

11 Apa itu penelitian observasi partisipan?


12 Kapan observasi partisipan digunakan dalam desain penelitian?
13 Apa kelebihan dan kekurangan observasi partisipan sebagai metode
pengumpulan data?
14 Apa saja langkah-langkah dalam observasi
15 partisipatif? Bagaimana observasi terstruktur
16 dilakukan? Apa masalah dengan observasi?
Bagian 4

Pengukuran
8 Keandalan dan validitas

Tujuan

Di akhir bab ini Anda akan dapat:


- jelaskan apa itu reliabilitas;
- menentukan validitas;
- membedakan reliabilitas dari validitas;
- menggambarkan konsistensi internal dan keandalan stabilitas;
- membandingkan jenis validitas: konstruk, konten, dan validitas terkait kriteria;
- menjelaskan bagaimana mengukur reliabilitas;
- menjelaskan bagaimana mengukur validitas;
- menjelaskan bagaimana meningkatkan keandalan;
- dan jelaskan cara meningkatkan validitas.

ISI
Meningkatkan kualitas penelitian: Reliabilitas dan validitas
ukuran 150
Jenis keandalan 152
Jenis validitas 155
Kesimpulan 157
Referensi 158
Pertanyaan ulasan bab 158

149
150 Bagian 4 Pengukuran

Meningkatkan kualitas penelitian: Keandalan dan


validitas pengukuran

Konstruksi dan langkah-langkah

Bab ini dimulai dengan mendefinisikan beberapa istilah kunci. Mengikuti Edwards
dan Bagozzi (2000), sebuah konstruk adalah istilah konseptual untuk fenomena
yang menarik secara teoritis. Konstruk dengan demikian adalah konsep yang ada
sebagai bagian dari bahasa teoretis. Contoh konstruksi yang digunakan dalam
penelitian manajemen adalah 'manajemen kualitas total', 'kepemimpinan
transformasional', dan 'kecerdasan emosional'. Kebanyakan konstruksi yang
menarik bagi peneliti dikonseptualisasikan sebagai variabel; yaitu, mereka dapat
mengambil nilai atau keadaan yang berbeda, baik yang bersifat kualitatif maupun
kuantitatif. Untuk alasan ini, konstruksi sering disebut variabel laten atau tidak
teramati. Karena konstruksi adalah abstraksi, peneliti harus mampu
mengoperasionalkan atau mengukurnya dalam studi empiris. Ukuran
didefinisikan di sini sebagai skor atau nilai yang diamati yang diambil untuk secara
empiris mewakili suatu konstruk (Edwards & Bagozzi,2000). Langkah-langkah
dapat dikumpulkan melalui metode pengumpulan data seperti kuesioner,
dokumentasi, dan observasi. Dengan demikian kita dapat berbicara tentang
variabel yang diukur atau diamati sebagai:indikator konstruksi laten masing-
masing. Namun, tidak ada ukuran yang merupakan representasi sempurna dari
konstruk yang mendasarinya. Bagian penting dari penelitian empiris adalah
memaksimalkan reliabilitas dan validitas pengukuran.

Keandalan dan validitas pengukuran

'Keandalan' mengacu pada sejauh mana ukuran bebas dari kesalahan


pengukuran acak (Smithson, 2005). Ukuran yang sangat andal tidak memiliki
kesalahan pengukuran acak. Keandalan dapat didefinisikan sebagai rasio
varians skor sebenarnya terhadap varians skor yang diamati (varians adalah
mean dari kuadrat deviasi dari mean, dan standar deviasi adalah akar kuadrat
dari varians), karena masing-masing diamati (yaitu, diukur) skor terdiri dari
skor 'benar' dan kesalahan pengukuran. Jika ada kesalahan pengukuran acak,
pengukuran memiliki keandalan yang kurang sempurna. Tentu saja, sebagian
besar ukuran yang digunakan dalam penelitian tidak sempurna. Namun, jika
keandalan ukuran terlalu rendah, itu tidak bisa
Keandalan dan validitas 151

akan digunakan dalam penelitian. Perhatikan bahwa reliabilitas adalah properti dari
skor (yaitu, ukuran) dan bukan dari instrumen atau prosedur yang digunakan untuk
mengumpulkan data. Oleh karena itu, reliabilitas harus diuji setiap kali instrumen
digunakan untuk menghasilkan skor untuk sampel.
Validitas adalah apakah peneliti mengukur konstruk yang
dimaksudkan untuk diukur. Dengan kata lain, sejauh mana suatu ukuran
mengukur apa yang seharusnya diukur. Misalnya, jika seorang peneliti
memeriksa ukuran harga diri, dia perlu bertanya apakah itu benar-benar
mengukur harga diri, atau apakah itu sebenarnya mengukur kepercayaan
diri (evaluasi diri yang serupa), atau kurangnya depresi, atau kurangnya
kecemasan, atau kepuasan hidup (ukuran lain dari pengaruh/sikap positif
yang sangat terkait dengan harga diri).
Validitas adalah tingkat kepercayaan yang dapat dimiliki seorang peneliti dalam
kesimpulan yang diambil dari skor, dan kepercayaan yang dapat dimiliki seorang
peneliti dalam arti yang dilampirkan pada skor. Penting untuk dipahami bahwa suatu
ukuran tidak dapat valid kecuali jika dapat diandalkan, tetapi suatu ukuran dapat
diandalkan tetapi tidak valid. Reliabilitas dengan demikian merupakan kondisi yang
diperlukan tetapi tidak cukup untuk validitas. Keandalan dan validitas berlaku untuk
data kualitatif dan kuantitatif. Seringkali, lebih mudah untuk menilai reliabilitas dan
validitas dengan data kuantitatif; namun, menurut kami, mereka sama pentingnya
dengan data kualitatif.

Perlunya reliabilitas dan validitas

Studi yang menggunakan ukuran dengan reliabilitas dan validitas yang buruk
menghasilkan data, baik kuantitatif maupun kualitatif, yang kurang teliti.
Akibatnya, peneliti tidak dapat membenarkan penggunaan langkah-langkah ini
karena interpretasi lain dapat diambil dari data.
Misalnya, statistik seperti koefisien korelasi dilemahkan (dikurangi ukurannya)
karena adanya kesalahan pengukuran. Peneliti sering mengukur hubungan antar
variabel (misalnya, antara niat untuk meninggalkan pekerjaan dan perputaran
tenaga kerja yang sebenarnya). Jika seorang peneliti memiliki ukuran dengan
reliabilitas rendah, dia cenderung tidak mendeteksi hubungan antara variabel
ketika mereka sebenarnya terkait. Alasan untuk ini adalah bahwa, ketika suatu
ukuran memiliki keandalan yang rendah, itu melemahkan ukuran efek dan
dengan demikian membatasi kekuatan statistik untuk mendeteksi hubungan
dengan variabel lain.
152 Bagian 4 Pengukuran

Jika seorang peneliti adalah untuk menyusun ukuran konstruk dan


tampak seolah-olah mengukur konstruk itu (yaitu, ia memiliki validitas
wajah), ini tidak akan merupakan bukti yang cukup bahwa itu benar-
benar. Misalnya, ukuran kecerdasan sebenarnya dapat menangkap
seberapa baik seseorang mampu menjawab tes tertulis (yang mungkin
dipraktikkan dengan baik sebagai hasil dari pendidikan tinggi), daripada
kecerdasan bawaannya, seperti yang tercermin dalam genetik. warisan.
Oleh karena itu, dalam contoh ini, alih-alih mengukur kecerdasan
(kemampuan bawaan), peneliti sebenarnya juga mengukur lama sekolah
dan nilai rata-rata. Orang-orang dengan tingkat pendidikan yang lebih
tinggi sehingga skor lebih tinggi pada ukuran ini dibandingkan dengan
tingkat pendidikan yang lebih rendah. Akibatnya, skor bukanlah ukuran
kecerdasan yang valid,
Sebelum memulai proyek penelitian, peneliti perlu menetapkan bahwa mereka
menggunakan ukuran yang dapat diandalkan dan valid. Di beberapa daerah,
peneliti akan menemukan bahwa ukuran variabel telah dikembangkan dan
mereka disarankan untuk menggunakannya. Di daerah lain, mungkin tidak ada
ukuran yang ditetapkan dan oleh karena itu peneliti harus menetapkan reliabilitas
dan validitasnya.

Jenis keandalan

Kami telah mendefinisikan keandalan sebagai sejauh mana ukuran bebas


dari kesalahan pengukuran acak. Ukurannya dapat berupa skor item
tunggal atau multi item (yaitu, dijumlahkan atau dirata-ratakan di
beberapa item). Pengembangan dan validasi skala multi-item dibahas
secara lebih rinci di Bab9. Berikut ini adalah pembahasan tentang
berbagai cara mengestimasi reliabilitas skor.

Reliabilitas Konsistensi Internal

Keandalan konsistensi internal digunakan untuk pengukuran multi-item.


Jika ukuran multi-item memiliki sedikit kesalahan pengukuran acak,
peneliti akan mengharapkan item tersebut konsisten satu sama lain.
Keandalan konsistensi internal biasanya diukur dengan statistik yang
disebut koefisien alfa Cronbach (lihat Cortina,1993). Koefisien alfa
Keandalan dan validitas 153

mengukur seberapa berkorelasi setiap item satu sama lain dalam skala. Ini
adalah ukuran konsistensi karena jika item dalam skala terkait satu sama lain,
itu adalah ukuran yang konsisten secara internal.
Koefisien alfa dihitung dengan menggunakan korelasi rata-rata antar
item. Jadi setidaknya dua item diperlukan untuk menghitung koefisien alfa.
Koefisien alfa berkisar dari 0 hingga 1. Tidak mungkin memperoleh koefisien
alfa negatif, kecuali jika peneliti telah membuat kesalahan komputasi
(misalnya, gagal membalikkan skor item dengan kata-kata negatif), atau
skalanya sangat tidak dapat diandalkan. Secara umum, ukuran yang sangat
andal memiliki koefisien alfa 0,90 atau lebih besar, sedangkan skala yang
memiliki alfa di bawah 0,70 dapat dikatakan memiliki reliabilitas yang kurang
wajar (walaupun alfa 0,60 atau lebih tinggi dapat diterima untuk skala yang
baru dikembangkan) ( nunnally,1978). Penting untuk dipahami bahwa alfa
Cronbach tidak menunjukkan bahwa skalanya unidimensional atau valid.
Perlu juga diingat bahwa ketika seorang peneliti meningkatkan jumlah item,
koefisien alpha Cronbach juga akan meningkat. Kecuali item memiliki
interkorelasi rata-rata yang tinggi, mungkin sulit untuk mendapatkan
keandalan konsistensi internal yang dapat diterima untuk skala dengan
sejumlah kecil item (misalnya, dua atau tiga item).

Reliabilitas Tes Ulang

Keandalan tes-tes ulang adalah sejauh mana ukuran memberikan hasil yang sama
pada dua (atau lebih) administrasi berulang. Jika suatu ukuran benar-benar andal,
itu harus memberikan skor yang sama pada pemberian berulang. Misalnya, jika
seorang peneliti mengukur kecerdasan seseorang dalam satu minggu, dia dapat
memperoleh perkiraan reliabilitas tes-tes ulang dengan mengukur ulang
kecerdasan dua minggu kemudian menggunakan tes yang sama. Jika ukuran
tersebut dapat diandalkan, skor tes harus serupa. Demikian pula, jika seorang
peneliti mengukur kepuasan kerja karyawan atau niat untuk pergi pada suatu hari,
kepuasan dan niat karyawan untuk pergi harus kira-kira sama dua minggu
kemudian. Jenis keandalan ini disebut sebagai stabilitas. Kesalahan yang terkait
dengan reliabilitas tes-tes ulang adalah segala sesuatu yang menghasilkan skor
berbeda pada administrasi berulang. Panjang waktu antara tindakan merupakan
pertimbangan penting; interval yang lebih pendek biasanya akan menghasilkan
korelasi yang lebih tinggi. Keandalan tes-tes ulang sering digunakan untuk
mengukur keandalan dalam item tunggal
154 Bagian 4 Pengukuran

ukuran, asalkan konstruk yang mendasarinya tidak diharapkan berubah secara


substantif dari waktu ke waktu.
Reliabilitas tes-tes ulang diukur melalui koefisien korelasi (misalnya,
koefisien korelasi Pearson). Untuk mendapatkan koefisien ini, peneliti
hanya mengkorelasikan skor pada pemberian pertama pengukuran
dengan skor kecocokannya pada pemberian kedua. Ini menyiratkan
bahwa peneliti memerlukan data longitudinal dan perlu mencocokkan
skor dari administrasi pertama ke administrasi kedua. Koefisien korelasi
harus positif dan setinggi mungkin. Uji-uji ulang (yaitu, stabilitas)
koefisien biasanya lebih rendah dari perkiraan keandalan konsistensi
internal. Menurut Corcoran dan Fischer (1987) kriteria, koefisien tes-tes
ulang di atas 0,80 menunjukkan stabilitas yang kuat; koefisien di atas 0,71
menyiratkan stabilitas yang baik; dan koefisien di atas 0,51 menunjukkan
stabilitas yang adil.

Keandalan antar-penilai

Data sering dikumpulkan melalui observasi. Dengan data


observasi, observasi seorang peneliti bisa jadi berbeda dengan
observasi peneliti lainnya. Masalah serupa muncul dengan analisis
data kualitatif (tekstual). Biasanya dengan data kualitatif, peneliti
ingin menentukan apakah ada tema yang dapat diidentifikasi
dalam teks. Sekali lagi, interpretasi satu peneliti mungkin berbeda
dari interpretasi peneliti lain. Dalam situasi seperti ini, statistik
keandalan antar-penilai (atau antar-pengamat) dapat dihitung.
Untuk menilai reliabilitas antar penilai, dua (atau lebih) peneliti
harus memberikan peringkat atau skor untuk masing-masing
variabel dalam data. Ada banyak statistik untuk menghitung
keandalan antar-penilai, termasuk persetujuan persen dan
koefisien seperti Kappa. Secara umum, keandalan antar penilai
harus .

Ukuran keandalan lainnya

Ada beberapa ukuran keandalan lainnya. Alih-alih koefisien alfa, peneliti


dapat menerapkankeandalan split-setengah untuk mengukur internal
Keandalan dan validitas 155

konsistensi skala multi-item. Untuk melakukan ini, peneliti dapat membagi


item ukuran ke dalam item ganjil (misalnya, item pertama, ketiga, kelima) dan
genap (kedua, keempat, keenam), dan kemudian memperkirakan koefisien
yang menunjukkan seberapa terkait ganjil skor dengan skor genap. Jika suatu
ukuran menilai apa yang seharusnya diukur, maka itu harus konsisten secara
internal. Akibatnya, tes dibagi menjadi dua bagian dan skor total untuk item
ganjil diperoleh, serta skor total untuk item genap untuk setiap responden.
Kemudian untuk keseluruhan sampel diestimasi korelasi skor ganjil dengan
skor genap.
Bentuk reliabilitas lain diperkirakan dengan mengembangkan bentuk
paralel dari ukuran. Mereka mengukur konstruk atau fenomena yang
sama, dengan item yang sangat mirip, tetapi tidak identik. Koefisien
korelasi dihitung dengan memberikan dua ukuran pada sampel yang
sama. Prosedur ini disebut sebagaibentuk paralel.

Jenis validitas

Ada beberapa jenis validitas, dan peneliti harus terbiasa dengan semuanya
ketika mencari ukuran yang dipublikasikan dan/atau ditetapkan untuk
membuat keputusan yang tepat tentang apakah ukuran tersebut menilai apa
yang dimaksudkan untuk diukur. Sulit untuk menetapkan validitas untuk
ukuran 'home-grown' (yang dikembangkan oleh peneliti untuk penelitian ini),
karena ukuran sampel yang besar dan beberapa ukuran diperlukan.
Informasi lebih lanjut tentang memvalidasi ukuran atau skala multi-item
dapat ditemukan di Bab12.

Validitas konstruk

Pada dasarnya, validitas konstruk mengacu pada apakah suatu ukuran


berhubungan dengan ukuran lain dengan cara yang diprediksi oleh teori yang
mendasari konstruk. Validitas konstruk terdiri dari dua subtipe: validitas
konvergen dan divergen. Jika suatu ukuran menangkap apa yang seharusnya
diukur, skor pada ukuran itu harus lebih terkait dengan skor pada konstruk
serupa lainnya (validitas konvergen) dan tidak, atau kurang, terkait dengan
skor pada konstruk berbeda (validitas diskriminan). Misalnya, jika ukuran
tingkat manajerial benar-benar menilai tingkat manajerial, itu
156 Bagian 4 Pengukuran

harus lebih terkait dengan konstruksi yang terkait erat dengan


tingkat manajerial (misalnya, gaji, jumlah promosi manajerial, dan
jumlah bawahan yang bertanggung jawab kepada orang itu)
daripada konstruksi lain yang mungkin palsu terkait dengan
kemajuan. Yang terakhir dapat berupa usia, jumlah tahun bekerja
dalam pekerjaan penuh waktu, jumlah level dalam organisasi, dan
ukuran organisasi. Dengan demikian, jika item tingkat manajerial
itu valid, itu akan lebih berkorelasi dengan konstruk sebelumnya
(validitas konvergen), dan tidak terkait atau kurang terkait dengan
konstruk yang terakhir (validitas diskriminan). Dengan kata lain,
validitas konvergen dan divergen dari suatu ukuran dinilai dengan
menentukan apakah pola hubungan dalam data empiris cocok
dengan yang ada dalam jaringan nomologis (yaitu,2005).
Pendekatan lain untuk menguji validitas konstruk adalah melalui
penggunaan analisis faktor eksploratori dan konfirmatori untuk
menentukan bukti validitas konvergen dan diskriminan.

Validitas terkait kriteria

Jika suatu ukuran valid, ukuran itu harus memprediksi sesuatu yang
menarik bagi peneliti. Misalnya, jika wawancara seleksi atau tes seleksi
adalah ukuran yang valid untuk memilih staf masa depan, itu harus
memprediksi kinerja mereka dalam pekerjaan. Validitas terkait kriteria
berarti bahwa ukuran memprediksi kriteria yang relevan. Dengan kata
lain, ia mencoba menjawab pertanyaan, 'Apakah itu penting?' Validitas
terkait kriteria bersifat praktis dan pragmatis. Namun, pilihan variabel
kriteria sangat penting. Smithson (2005) mencatat bahwa ukuran kriteria
harus diketahui reliabel dan valid.
Validitas terkait kriteria dapat bersifat prediktif atau bersamaan,
tergantung pada cara pengukurannya. Validitas prediktif adalah sejauh mana
ukuran memprediksi kinerja atau perilaku selanjutnya. Misalnya, skor dapat
diperoleh dalam wawancara seleksi (misalnya, kemampuan pengawasan),
kemudian orang dipekerjakan (untuk tujuan penelitian, akan lebih baik untuk
mempekerjakan semua orang untuk menghindari masalah pembatasan
jangkauan), dan kinerja pekerjaan mereka diukur setahun kemudian. .
Validitas prediktif ditentukan oleh kekuatan korelasi (disebut koefisien
validitas) antara kemampuan pengawasan, diukur pada seleksi, dan kinerja,
Keandalan dan validitas 157

diukur setahun kemudian. Sebagai alternatif, peneliti dapat mengukur staf


saat ini pada kemampuan pengawasan, menggunakan wawancara, dan
kemudian mengambil skor kinerja pekerjaan mereka dan mengkorelasikan
keduanya. Ini disebut sebagai validitas konkuren, karena ukuran
(keterampilan pengawasan yang diukur melalui wawancara) berkorelasi
dengan kriteria (kinerja pekerjaan) yang diukur pada titik waktu yang sama.
Agar koefisien validitas memiliki validitas terkait kriteria, koefisien harus
setinggi mungkin. Satu aturan praktis adalah bahwa suatu hubungan dapat
dianggap lemah jika koefisien validitasnya 0,10, sedang jika 0,30, dan kuat jika
0,50 (Cohen,1988).

Validitas konten

Validitas isi mengacu pada apakah item-item yang dirancang untuk


ukuran tersebut secara memadai mencakup domain yang diminati.
Misalnya, ujian dengan validitas konten akan memiliki pertanyaan
yang mencakup semua konten yang telah dibahas dalam kursus.
Dengan demikian, validitas isi difokuskan pada sejauh mana isi suatu
ukuran mewakili materi yang lebih luas yang coba dinilai. Validitas isi
sering diperkirakan dengan tinjauan menyeluruh dari literatur yang
relevan dan konsultasi dengan ahli materi pelajaran, untuk
menentukan apakah item dalam ukuran telah cukup sampel domain.

Validitas wajah

Ukuran yang memiliki validitas wajah muncul, pada nilai nominal, seolah-olah mereka
mengukur apa yang mereka katakan mereka ukur. Validitas wajah bersifat subjektif. Namun
demikian, semua ukuran harus memiliki validitas wajah. Namun, hanya karena suatu ukuran
tampaknya mengukur apa yang diklaimnya diukur, tidak ada jaminan bahwa itu benar.
Ukuran tersebut memiliki validitas wajah, tetapi tidak validitas yang ditunjukkan secara
empiris.

Kesimpulan

Ukuran yang digunakan dalam penelitian harus reliabel dan valid.


Jika tidak valid dan reliabel, peneliti tidak dapat yakin tentang
158 Bagian 4 Pengukuran

kesimpulan yang ditarik dari studi tersebut. Ini berlaku untuk


menafsirkan data kualitatif dan kuantitatif. Terlepas dari jenis data
yang dikumpulkan, itu harus dapat diandalkan. Ukurannya juga harus
valid. Dengan kata lain, perlu mengukur apa yang seharusnya diukur,
memprediksi kriteria yang relevan, mencakup konten yang mendasari
konstruk, serupa dengan konstruk serupa dan berbeda dari konstruk
yang berbeda, dan tidak terkontaminasi oleh faktor metode seperti
keinginan sosial. Ini mungkin memerlukan penggunaan ukuran yang
dipublikasikan, yang telah melalui pemeriksaan reliabilitas dan
validitas yang ketat. Sebagai alternatif, peneliti dapat menggunakan
data keras (misalnya, jumlah penjualan untuk mengukur kinerja),
yang validitasnya dapat lebih mudah ditunjukkan. Seringkali yang
terbaik bagi peneliti untuk menggunakan beberapa ukuran,

Referensi

Cohen, J. (1988). Analisis kekuatan statistik untuk ilmu perilaku (edisi ke-2).
Hillsdale, NJ: Lawrence Erlbaum Associates. Corcoran, K. & Fischer, J. (1987).
Tindakan untuk praktik klinis: Buku sumber. New York: Pers Bebas.

Cortina, JM (1993). Apa itu koefisien alfa?Jurnal Psikologi Terapan, 78, 98-104.

Edwards, JR & Bagozzi, RP (2000). Tentang sifat dan arah hubungan


antara konstruksi dan ukuran. Metode Psikologis, 5, 155-174.
Nunnally, JC (1978). Teori Psikometri (edisi ke-2). New York: McGraw-Hill. Schwab,
DP (2005).Metode penelitian untuk studi organisasi. Hillsdale, NJ: Lawrence
Erlbaum Associates.
Smithson, M. (2005). Statistik dengan percaya diri. Thousand Oaks, CA: Sage
Publications.

Pertanyaan ulasan bab

1 Apa itu keandalan?


2 Apa itu validitas?
3 Apakah ada perbedaan kebutuhan akan reliabilitas dan validitas data kualitatif
dan kuantitatif?
4 Apa itu keandalan konsistensi internal?
Keandalan dan validitas 159

5 Apa itu reliabilitas tes-tes ulang?


6 Bagaimana reliabilitas konsistensi internal dan reliabilitas tes-tes ulang berbeda?
7 Apa itu keandalan antar penilai?
8 Bagaimana keandalan antar-penilai dihitung?
9 Apa yang dimaksud dengan konstruk, konten, dan validitas terkait
10 kriteria? Bagaimana berbagai ukuran validitas berbeda?
9 Pengembangan skala

Tujuan

Di akhir bab ini Anda akan dapat:


- mengidentifikasi apa itu skala multi-item;
- mengembangkan skala multi-item baru untuk mengukur suatu konstruksi;
- menjelaskan langkah-langkah utama yang terlibat dalam mengembangkan skala multi-
- item; jelaskan alasan di balik setiap langkah dan mengapa itu diperlukan;
- menguraikan masalah yang harus diatasi dalam mengembangkan ukuran yang andal dan valid;
- menerapkan metode yang diperlukan pada setiap langkah untuk menghasilkan ukuran yang andal dan

valid; dan
- menjelaskan bagaimana mengetahui apakah ukuran yang dirancang dapat diandalkan dan valid.

ISI
Tindakan multi-item 161
Masalah dengan langkah-langkah yang digunakan dalam penelitian 161
manajemen Keinginan sosial dan respon persetujuan set Kesimpulan 171
173
Referensi 174
Pertanyaan ulasan bab 175
Lampiran A: Sumber-sumber organisasi, psikologi sosial, dan
alat ukur komunitas 176
Lampiran B: Batang item standar dan konvensional dan mereka
kategori tanggapan 179

160
Pengembangan skala 161

Tindakan multi-item

Peneliti manajemen akan sering menggunakan skala multi-item dalam studi


mereka. Faktanya, ukuran multi-item adalah perangkat pengukuran yang paling
umum digunakan dalam penelitian manajemen. Mereka biasanya digunakan
untuk mengukur konstruksi kompleks yang tidak dapat diamati seperti sikap, nilai,
dan keyakinan, dan membentuk bagian utama dari instrumen pengumpulan data
seperti kuesioner. Seperti yang dibahas dalambab sebelumnya, satu indikator
tidak mungkin menangkap konstruk yang mendasarinya. Askala didefinisikan di
sini sebagai ukuran yang terdiri dari dua atau lebih item yang dirancang untuk
mengukur suatu konstruk. Setiap item (misalnya, pertanyaan) merupakan
indikator konstruk. Salah satu penggunaan skala yang paling umum adalah untuk
menghasilkan skor gabungan (jumlah/rata-rata item) yang mengoperasionalkan
konstruksi minat – misalnya, kepuasan kerja, gaya kepemimpinan karismatik,
keterlibatan kerja, motivasi, dan sebagainya. Konstruksi dapat unidimensional
atau multidimensi. Skor skala tunggal hanya dirancang untuk mengukur konstruk
unidimensional. Konstruksi multidimensi terdiri dari dua atau lebih dimensi. Untuk
konstruksi multidimensi, setiap dimensi (atau segi) akan membutuhkan
pengembangan subskala.
Ada banyak manfaat dalam menggunakan ukuran multi-item dalam
penelitian:

- Pengukuran multi-item biasanya memiliki reliabilitas dan validitas yang unggul

dibandingkan dengan pengukuran item tunggal.


- Pengukuran multi-item dapat lebih mudah diuji untuk bukti keandalan

daripada pengukuran item tunggal.


- Skor gabungan (rata-rata/jumlah) yang terdiri dari dua atau lebih item dapat

digunakan untuk mewakili konstruk yang diminati, sehingga menyederhanakan


analisis kuantitatif.
- Hubungan antara ukuran multi-item dan konstruksi yang mendasarinya

dapat dimodelkan menggunakan prosedur analitik faktor.

Masalah dengan ukuran yang digunakan dalam penelitian manajemen

Schriesheim, Powers, Scandura, Gardiner, dan Lankau (1993) meninjau literatur


manajemen dan mengidentifikasi beberapa masalah dalam pengembangan dan
penggunaan tindakan. Masalahnya termasuk ketergantungan
162 Bagian 4 Pengukuran

pada pengukuran item tunggal, kurangnya pelaporan keandalan


pengukuran, pengukuran skala penuh yang dipersingkat, item atau
instruksi yang dimodifikasi ke skala asli, kategori respons yang diubah
dari aslinya, dan spesifikasi pengukuran yang hilang atau salah. Masalah-
masalah ini diuraikan di bawah ini.

- Pengukuran item tunggal digunakan tanpa menunjukkan reliabilitas antar-penilai

atau tes-tes ulang. Juga, ukuran item tunggal biasanya tidak dapat mencakup
konstruksi secara memadai.
- Kurangnya pelaporan keandalan ukuran menunjukkan bahwa

kesalahan pengukuran tidak dihitung. Keandalan juga merupakan


pendahulu validitas (meskipun bukan validitas). Keandalan perlu
dilaporkan dari penelitian sebelumnya dan juga dihitung untuk
penelitian ini. Ini karena reliabilitas adalah properti sampel (milik skor
untuk sampel tertentu yang digunakan) dan bukan properti instrumen
pengumpulan data itu sendiri.
- Penggunaan ukuran yang dipersingkat dari skala penuh tanpa membenarkan

pemilihan item, setidaknya, dengan menghitung ulang keandalan atau


memeriksa validitas dan kecukupan konten – apakah ukuran masih mencakup
konstruk?
- Penggunaan item atau instruksi yang dimodifikasi ke skala asli tanpa

membenarkan, setidaknya, dengan menghitung ulang keandalan atau


memeriksa apakah ukurannya masih memadai.
- Pekerjaan kategori respons yang berbeda dengan aslinya, tanpa

pembenaran.
- Tidak merinci versi ukuran yang digunakan dan sering melaporkan
versi yang salah.

Beberapa komentar lebih lanjut tentang tindakan item tunggal diperlukan.


Diyakini bahwa ukuran item tunggal lebih sesuai untuk konstruksi beton dan
mudah diukur. Misalnya, ukuran item tunggal biasanya digunakan dalam
kuesioner (dan wawancara) untuk mengukur tipe data faktual seperti usia,
pekerjaan, dan sebagainya. Survei skala besar – misalnya, jajak pendapat
Gallup – menggunakan item tunggal untuk mengukur opini publik. Mereka
telah bertahun-tahun merancang item kuesioner dan telah mengujinya
beberapa kali, termasuk dalam uji coba. Peneliti dapat menggunakan item
tersebut karena mereka biasanya telah berkembang dengan baik.
Pengembangan skala 163

Di beberapa bidang investigasi, peneliti memiliki data objektif dan 'keras'


yang mengukur apa yang ingin mereka ukur. Ini sering merupakan ukuran
tunggal, seperti untuk kinerja keuangan (misalnya, laba atas investasi, rasio
lancar, margin bersih) dan lebih valid daripada data 'lunak' subjektif lainnya.
Namun, selalu yang terbaik untuk menggunakan beberapa ukuran data
keras, karena setiap ukuran tunggal dapat memanfaatkan hanya satu segi
dari keseluruhan konstruksi.
Wanous, Reichers, dan Hudy (1997, P. 247) berpendapat bahwa tunggal-
ukuran item mungkin tepat asalkan konstruknya 'cukup sempit dan tidak
ambigu'. Misalnya, kepuasan kerja global sering diukur dengan satu
pertanyaan (misalnya, 'Seberapa puaskah Anda dengan pekerjaan Anda?').
Demikian pula, efektivitas pelatihan atau pengajaran sering diukur dengan
menggunakan satu item (misalnya, 'Secara keseluruhan, seberapa efektif
pelatihan/pengajaran dalam program ini?'). Wanous dan Hudy (2001) telah
menjelaskan dua metode untuk menghitung reliabilitas item tunggal (koreksi
untuk rumus redaman dan analisis faktor). Selain itu, setelah studi meta-
analitik, Wanous dan Hudy menyimpulkan bahwa perkiraan minimum 0,70
untuk keandalan item tunggal dapat diterima untuk data tingkat individu,
sedangkan perkiraan keandalan minimum 0,80 masuk akal untuk data tingkat
kelompok.

Langkah-langkah yang dipublikasikan

Umumnya, adalah praktik yang tidak bijaksana bagi peneliti untuk membuat
ukuran mereka sendiri. Cara terbaik adalah menggunakan ukuran yang
diterbitkan atau ditetapkan yang reliabilitas dan validitas datanya dilaporkan
dalam jurnal. Ada buku-buku ukuran yang diterbitkan untuk ilmu-ilmu perilaku
dan sosial yang biasanya memberikan seorang peneliti evaluasi kualitas ukuran
konstruk itu - misalnya, dalam hal validitas dan reliabilitas.Lampiran A menyajikan
beberapa buku yang digunakan dalam perilaku organisasi. Mereka juga
menyediakan beberapa ukuran dari konstruk yang sama sehingga peneliti dapat
membuat pilihan, tergantung pada kebutuhannya. Setiap ukuran yang diterbitkan
dalam sebuah buku yang diadakan di perpustakaan biasanya bukan hak cipta dan
dapat digunakan selama penulisnya dikutip. Jurnal teratas (misalnya,Jurnal
Akademi Manajemen, Jurnal Psikologi Terapan, Jurnal Manajemen, Jurnal Perilaku
Kejuruan,Psikologi Personalia) biasanya memastikan penulis menempatkan
ukuran mereka, jika baru,
164 Bagian 4 Pengukuran

dalam lampiran makalah dan dapat digunakan tanpa masalah hak cipta. Melihat
melalui jurnal-jurnal itu, secara elektronik atau dengan tangan, akan sering
memberi peneliti ukuran yang tepat yang dia butuhkan, dengan sangat rinci.
Seorang peneliti dapat memperoleh ukuran, dan penilaian mereka, dari artikel
atau menulis kepada penulis untuk mereka.

Mengembangkan skala baru

Konstruksi ukuran multi-item baru adalah proses yang sangat kompleks.


Beberapa langkah diperlukan untuk mengembangkan skala multi-item untuk
mengukur suatu konstruk. Peneliti perlu:

1. menerapkan dasar teoritis untuk mengembangkan item;


2. desain item individu;
3. melakukan analisis item untuk menghilangkan item yang buruk (ambigu, tidak ada
variasi);
4. menentukan validitas konstruk ukuran menggunakan analisis
faktor;
5. menentukan validitas konvergen dari ukuran;
6. menentukan validitas divergen (validitas diskriminan, termasuk efek
metode); dan
7. menilai keandalannya.

Kedua Hinkin (1995) dan DeVellis (2003) telah meninjau praktik-


tices digunakan untuk mengembangkan skala, dan mereka telah mengembangkan
serangkaian langkah yang peneliti harus ikuti ketika membangun skala. Ringkasan
langkah-langkah ini disajikan di bawah ini.

Menetapkan apa yang harus diukur oleh skala

Sebagai langkah pertama untuk pengembangan skala, peneliti harus hati-hati


memeriksa teori yang ada yang berkaitan dengan konstruk yang ingin dia
ukur. Teori dapat memberikan panduan dalam hal mengembangkan
formulasi konseptual yang diperlukan untuk operasionalisasi. Meneliti teori
membantu menetapkan parameter konstruk untuk memastikan bahwa isi
skala difokuskan pada domain minat yang sebenarnya, daripada area yang
tidak terkait. Peneliti juga perlu menentukan tingkat kekhususan yang
diperlukan dari skala tersebut. Ini sebagian besar akan ditentukan
Pengembangan skala 165

oleh pertanyaan penelitian, karena tingkat kekhususan skala harus


selaras dengan tingkat kekhususan pertanyaan penelitian dan
konstruksi lain yang akan dibandingkan (DeVellis, 2003).

Pembuatan item: Gunakan dasar teoretis

Peneliti harus mengembangkan item dari teori konstruk (variabel laten)


sehingga konsisten dengannya. Jika ada dasar teoretis untuk konstruk ini,
konstruk ini dapat didefinisikan dan jenis hubungan yang dimilikinya dengan
konstruk lain dapat diprediksi. Misalnya, harga diri diwakili oleh perasaan
persetujuan atau ketidaksetujuan terhadap diri sendiri dan merupakan
evaluasi diri, menunjukkan apakah seseorang merasa layak, sukses,
signifikan, atau penting. Harga diri yang tinggi harus dikaitkan dengan
perasaan afek positif secara umum, seperti kepercayaan diri dan kurangnya
depresi dan kecemasan. Namun, berbeda dengan kemampuan dan
kecerdasan, dan juga berbeda dengan ukuran pengaruh dalam hubungannya
dengan pekerjaan, seperti kepuasan kerja, komitmen organisasi, dan niat
untuk keluar.
Setelah konstruk didefinisikan dan hubungannya dengan konstruk lain
ditetapkan, item ditulis untuk mengukurnya dari teori. Item hanyalah satu
pertanyaan atau pernyataan. Redundansi perlu menjadi fitur dari
kumpulan item awal, karena beberapa item akan dihapus dalam skala
akhir. Perlu juga dicatat bahwa harus ada item yang tumpang tindih dan
tampaknya berlebihan dalam skala akhir, karena aspek umum dari item
akan dijumlahkan atau dikumpulkan di seluruh item dan aspek yang tidak
relevan akan dinegasikan (DeVellis,2003). Tidak ada konvensi yang
ditetapkan untuk menentukan jumlah item yang harus dimasukkan dalam
kumpulan item awal. Namun, DeVellis telah menyarankan bahwa harus
ada tiga atau empat kali lebih banyak item di kumpulan item awal
daripada jumlah item yang diantisipasi dalam skala akhir. Oleh karena itu,
skala delapan item mungkin dimulai dari kumpulan item awal 32.
Saat menulis item yang sebenarnya, peneliti harus memastikan bahwa
item tersebut relatif singkat dan bahasa yang digunakan tidak terlalu rumit,
untuk menghindari kebingungan. Selain itu, item negatif ganda (misalnya,
'Saya tidak peduli ketika atasan saya gagal untuk mengakui pencapaian saya')
dan ganda (misalnya, 'Saya berkomitmen pada organisasi saya karena saya
puas dengan pekerjaan saya') harus dihindari. .
166 Bagian 4 Pengukuran

Peneliti juga dapat mengembangkan item kata-kata yang negatif, serta


positif (secara teratur). Hal ini untuk menghindari rangkaian respons
persetujuan di mana, ketika semua item diberi kata-kata positif, orang lebih
cenderung setuju, karena mereka berada dalam arah yang positif. Namun,
beberapa penulis sangat menganjurkan, berdasarkan data empiris, bahwa
item negatif tidak boleh dikembangkan (Schriesheim & Eisenbach,1995).
Masalah lainnya adalah jumlah kategori respons yang optimal untuk suatu
item. Format tanggapan yang paling umum digunakan adalah skala Likert lima
atau tujuh poin (misalnya, sangat tidak setuju, tidak setuju, tidak setuju atau tidak
setuju, setuju, sangat setuju). hinkin (1995) menyimpulkan bahwa lima sampai
tujuh kategori respon cukup untuk sebagian besar item. Alternatif untuk skala tipe
Likert adalah diferensial semantik. Diferensial semantik digunakan untuk
mengukur sikap menggunakan skala bipolar yang didefinisikan dengan kata sifat
yang kontras di setiap ujungnya.Lampiran B menyediakan beberapa batang item
dan kategori respons yang umum digunakan untuk skala Likert.
Hinkin (1995) tinjauan literatur manajemen mengidentifikasi bahwa
generasi item adalah komponen yang paling penting dari mengembangkan
langkah-langkah suara. Dia menemukan bahwa ukuran seringkali tidak
memiliki validitas isi (kecukupan yang digunakan ukuran untuk menilai
domain yang diminati). Schriesheim, Cogliser, Scandura, Lankau, dan Powers (
1999) berpendapat bahwa validitas isi harus menjadi properti psikometrik
awal dari skala yang akan dinilai. Jika validitas isi dari suatu ukuran tidak
dapat diterima, seseorang tidak dapat memastikan bahwa itu akan
mencerminkan definisi teoritis dari konstruk yang dimaksudkan oleh skala
untuk dinilai (yaitu, validitas konstruk). Mereka menyarankan bahwa jika
ukuran yang baru dikembangkan tidak memiliki validitas konten, penilaian
validitas konstruk selanjutnya mungkin berlebihan, setidaknya sampai
kecukupan kontennya ditingkatkan.
hinkin (1995) menyimpulkan bahwa perlu untuk mengembangkan tautan yang jelas
antara item dan domain teoritis mereka. Ini dapat dicapai dengan menggunakan
proses penyortiran yang kuat yang mencocokkan item untuk membangun definisi.

Gunakan panel ahli untuk validasi konten

Setelah peneliti menghasilkan kumpulan item awal, langkah selanjutnya melibatkan


panel yang terdiri dari pakar materi pelajaran untuk meninjau item tersebut
Pengembangan skala 167

dalam hal kecukupan konten. Para ahli ini harus diberikan definisi
konstruk dan diinstruksikan untuk mengurutkan item menurut definisi
ini, untuk menentukan apakah pengurutannya sesuai dengan
konseptualisasi pengembang skala. Item yang tidak diurutkan dengan
benar dapat dijatuhkan, diganti, atau dimodifikasi. Biasanya, ini adalah
proses yang relatif murah. Schriesheim dkk. (1993) juga
merekomendasikan agar panel menilai kecukupan konten item, yang
kemudian dirata-ratakan. Secara khusus, setiap item dinilai untuk
pencapaian beberapa tujuan/subdomain tertentu (misalnya, bagian dari
definisi konstruk). Dengan demikian, majelis hakim secara terpisah
menilai item tertentu untuk kecukupan mereka dalam mewakili konstruk.
Schriesheim dkk. menyarankan bahwa peringkat panel dari relevansi
teoretis setiap item kemudian harus dianalisis faktor. Analisis faktor akan
menunjukkan dimensi item dan kekhasan kategori konten (lihat Bab11).
Schriesheim dkk. mengembangkan contoh kuesioner penilaian untuk
diberikan kepada hakim. Peneliti dapat memodifikasi kuesioner penilaian
juri ini untuk digunakan dalam studi mereka sendiri. Secara keseluruhan,
metode ini relatif cepat, mudah dinilai, dan mudah dianalisis.

Desain studi pengembangan: Lakukan analisis item

Analisis item awal dilakukan untuk menentukan apakah item ambigu


atau miring (peserta cenderung merespon sangat mirip dengan item).
Analisis item dasar biasanya melibatkan perolehan data dari sampel
perkembangan untuk menghilangkan item yang ambigu, dan
menghitung statistik dasar, seperti rata-rata dan deviasi standar dan
frekuensi, untuk menghilangkan item yang miring. Peneliti tidak boleh
menyimpan item yang gagal membedakan responden. Oleh karena
itu, item perlu bertahan dari analisis item. Langkah-langkah
konstruksi lain yang relevan secara teoritis juga harus diberikan pada
sampel perkembangan. Peneliti kemudian dapat memeriksa pola
hubungan antara skala baru dan konstruksi relevan lainnya untuk
menilai validitas skala baru (DeVellis,2003). hinkin (1995) menemukan
bahwa untuk memeriksa sifat psikometrik
ukuran baru, harus dibuat jelas mengapa sampel tertentu dipilih.
Sampel perkembangan harus mewakili populasi yang skalanya
dimaksudkan. DeVellis (2003) berpendapat
168 Bagian 4 Pengukuran

bahwa ukuran sampel untuk studi perkembangan harus memperhitungkan


jumlah item dan jumlah skala yang akan diekstraksi. Hinkin telah
menganjurkan, minimal, sampel 150 untuk prosedur pengembangan skala.
Dia juga menyatakan bahwa harus ada pemeriksaan yang cermat terhadap
pemuatan faktor untuk menentukan apakah item dengan kata-kata negatif
bermasalah, dan dampaknya terhadap keandalan konsistensi harus dinilai.
Dia menemukan bahwa tindakan panjang dan pendek memiliki potensi efek
negatif pada hasil. Menurut Hinkin, lima atau enam item yang menggunakan
skala Likert lima atau tujuh poin cukup untuk sebagian besar ukuran
organisasi.

Konstruksi skala: Tentukan validitas konstruk ukuran

Langkah selanjutnya melibatkan melakukan analisis faktor eksplorasi pada


item yang tersisa. Metode yang biasanya diterapkan dalam konteks ini adalah
analisis komponen utama (Hinkin,1995). Tujuan dari analisis faktor eksplorasi
adalah untuk menganalisis skor pada beberapa item untuk melihat apakah
mereka dapat direduksi menjadi dimensi yang mendasarinya. Item-item yang
sangat terkait satu sama lain akan dimuat pada satu faktor. Beban mereka
pada faktor (seberapa banyak mereka terkait dengan faktor) harus 0,30 atau
0,40 (Kim & Mueller,1978) atau lebih besar (pembebanan dapat berkisar dari –
1.00 hingga +1.00). Jika seorang peneliti mengembangkan ukuran harga diri
global (keseluruhan), dia akan mengharapkan hanya satu faktor yang muncul
dari analisis. Kadang-kadang peneliti menginginkan lebih dari satu faktor
karena mereka mengembangkan ukuran konstruksi yang berbeda atau
memiliki komponen yang berbeda (misalnya, variasi tugas, otonomi, umpan
balik pekerjaan, signifikansi, identitas tugas) dari konstruksi yang
mendasarinya (misalnya, kompleksitas pekerjaan). Item yang mengukur satu
konstruk harus memuat pada satu faktor dan item yang mengukur konstruk
lain harus memuat pada faktor yang berbeda. Analisis yang tidak
menghasilkan faktor yang jelas atau satu faktor (untuk skala unidimensional)
bermasalah. Selain itu, analisis faktor harus menjelaskan sejumlah besar
varians dalam skor. Berdasarkan pembebanan faktor tersebut,

hinkin (1995) telah menganjurkan penggunaan analisis faktor konfirmatori


(menggunakan LISREL, AMOS, atau EQS), daripada komponen utama
Pengembangan skala 169

analisis faktor, dalam konstruksi skala untuk memeriksa stabilitas struktur


faktor dan memberikan informasi untuk membantu menyempurnakan
ukuran baru. Dia menganjurkan teknik konfirmasi karena mereka
memungkinkan peneliti lebih presisi daripada teknik eksplorasi (yaitu, analisis
komponen utama) dalam mengevaluasi model pengukuran. Analisis faktor
konfirmatori mengasumsikan bahwa ada model teoritis yang mendasari
ukuran dan bahwa kecocokan model keseluruhan dengan data (yaitu,
kovarians) dan pemuatan item diuji. Misalnya, Teori Karakteristik Pekerjaan
menyatakan bahwa pekerjaan memiliki lima dimensi inti: variasi keterampilan,
identitas tugas, signifikansi, otonomi, dan umpan balik hasil. Survei
Diagnostik Pekerjaan mengukur masing-masing dimensi ini menggunakan
tiga item, dan teori menyatakan bahwa mereka harus terkait. Karenanya,
model lima faktor miring (memungkinkan keterkaitan) diuji untuk kesesuaian
terbaik dengan data dan dibandingkan dengan kecocokan model saingan
lainnya yang mungkin ada: model ortogonal lima faktor (karakteristik
pekerjaan tidak terkait), model satu faktor ( kompleksitas pekerjaan), dan
model nol, di mana semua 15 item memuat faktor-faktor terpisah. Model
yang paling cocok dengan data digunakan. Yang dicari adalah model miring
lima faktor yang harus dikonfirmasi, karena itu konsisten dengan model
teoritis.
DeVellis (2003) juga menyatakan bahwa teknik konfirmasi mendukung
memberikan lebih banyak fleksibilitas daripada pendekatan eksplorasi, seperti
memungkinkan peneliti untuk memvariasikan independensi istilah kesalahan dan
untuk memasukkan faktor-faktor yang tidak berkorelasi dan berkorelasi dalam model
yang sama. Namun, dia juga telah memperingatkan bahwa menerapkan kriteria
statistik untuk seberapa baik data sesuai dengan teknik konfirmasi model tertentu
dapat menyebabkan overfactoring. Selain itu, DeVellis telah menyarankan bahwa jika
praktik pengujian model yang bersaing dan membandingkan bagaimana mereka cocok
dengan data dilakukan secara tidak bijaksana, itu dapat menghasilkan peningkatan
model yang cocok; namun, spesifikasi model mungkin secara teoritis tidak dapat
dijelaskan.
Pendekatan yang tepat adalah yang disarankan oleh Kelloway (1998),
di mana analisis faktor eksploratori digunakan pada tahap awal penelitian,
diikuti oleh analisis faktor konfirmatori seiring dengan meningkatnya
pengetahuan tentang topik tertentu. Akhirnya, Hikin (1995) telah
memperingatkan bahwa skala tidak boleh diturunkan secara post hoc, hanya
berdasarkan hasil analisis faktor. Item yang memuat faktor yang sama tidak
selalu mengukur konstruk teoritis yang sama.
170 Bagian 4 Pengukuran

Penilaian keandalan

Setelah memeriksa struktur faktor, item-item ini kemudian perlu diperiksa


keandalannya. Keandalan adalah isu penting dalam pengembangan skala dan
mengacu pada jumlah varians disebabkan skor sebenarnya dari konstruk laten
(DeVellis,2003). Salah satu bentuk reliabilitas, konsistensi internal, ditentukan
dengan menghitung koefisien alpha. Koefisien ini harus setinggi mungkin. Jika
tidak, item yang berkontribusi terhadap reliabilitas rendah (korelasi item terhadap
total rendah) perlu dibuang dan item baru dikembangkan. Keandalan adalah
prasyarat yang diperlukan untuk validitas. hinkin (1995) menyatakan bahwa
mengandalkan secara eksklusif pada keandalan konsistensi internal tidak
memadai. Beberapa metode penilaian keandalan idealnya diperlukan. Sementara
koefisien alfa 0,70 dan lebih tinggi diperlukan untuk skala yang telah ditetapkan,
koefisien konsistensi internal 0,60 atau lebih baik dapat diterima untuk skala yang
baru dikembangkan (Nunnally,1978). Masalah reliabilitas muncul karena
kurangnya perhatian peneliti pada tahap pengembangan item. Keandalan, dalam
hal stabilitas ukuran dalam bentuk korelasi tes-tes ulang, hanya boleh dihitung jika
konstruk yang diperiksa tidak diharapkan berubah dari waktu ke waktu. Metode
alternatif untuk memperoleh beberapa ukuran reliabilitas adalah dengan
menghitung koefisien reliabilitas konsistensi internal lainnya dengan memberikan
ukuran tersebut ke sampel tambahan (Hinkin,1995). DeVellis berpendapat bahwa
skala yang dapat diandalkan memberikan kekuatan statistik yang lebih besar,
untuk setiap ukuran sampel yang diberikan, jika dibandingkan dengan skala yang
kurang dapat diandalkan. Alasan untuk ini adalah bahwa skala yang dapat
diandalkan memperkenalkan lebih sedikit kesalahan pada analisis statistik,
dibandingkan dengan ukuran yang kurang dapat diandalkan.

Evaluasi skala: Validitas

Perlu dicatat bahwa menetapkan bahwa skala dapat diandalkan tidak


memastikan bahwa variabel laten yang dinilai oleh item sebenarnya
adalah konstruk yang ingin diukur oleh pengembang skala (DeVellis, 2003
). Peneliti juga perlu menentukan validitas konvergen dan divergen
(validitas diskriminan, termasuk efek metode) dari pengukurannya.
Secara khusus, dia perlu memeriksa bahwa tidak ada penjelasan alternatif
yang masuk akal untuk apa yang diukur oleh skala. Untuk melakukan ini,
peneliti akan memperoleh ukuran skala dari sampel
Pengembangan skala 171

dari siapa dia juga memperoleh ukuran konstruk yang skalanya harus
dikaitkan, termasuk ukuran alternatif dari konstruk yang diminati (
validitas konvergen), dan konstruksi skala tidak boleh terkait dengan (
validitas divergen). Hubungan ini dihitung dengan koefisien korelasi
(misalnya, koefisien korelasi momen produk Pearson – lihat Bab10).
Variabel yang skalanya tidak boleh dikaitkan dapat mencakup efek
metode, seperti set respons persetujuan dan keinginan sosial, yang ada
ukurannya (lihat Robinson, Shaver, & Wrightsman,1991). Jika tidak ada
korelasi validitas konvergen (sedang ke tinggi) dan divergen (nol ke
rendah) yang berukuran tepat, maka item perlu diperiksa dalam skala
dalam hal alternatif apa yang mungkin mereka ukur, selain konstruk ini,
dan kemudian tambahan item perlu ditambahkan. Setelah ini, studi
terkait kriteria harus dilakukan, di mana ukuran tersebut digunakan
untuk memprediksi apa yang seharusnya diprediksi (misalnya,
kemampuan penjualan dengan kinerja penjualan). Data dikumpulkan dari
responden pada konstruk, serta pada kriteria (atau kriteria) yang harus
diprediksi, dan koefisien korelasi dihitung.
hinkin (1995) menyimpulkan bahwa validasi konstruk sangat penting untuk
pengembangan ukuran kualitas. Tinjauannya terhadap literatur konstruksi
skala dalam manajemen mengidentifikasi ketergantungan pada analisis
faktor untuk menyimpulkan keberadaan validitas konstruk. Validitas terkait
kriteria diperlukan; namun, harus dicatat bahwa ukuran sampel yang besar
akan menghasilkan hubungan yang signifikan secara statistik karena
kekuatannya yang meningkat. Memang, Hinkin (1995) menemukan bahwa
sebagian besar hubungan yang berhubungan dengan kriteria memiliki
besaran yang sangat kecil, yang berarti mereka tidak memiliki signifikansi
praktis yang kecil. Jika, setelah menyelesaikan prosedur di atas, versi akhir
skala berisi jumlah dimensi yang sesuai dan terkait dengan apa yang
seharusnya terkait dan tidak terkait dengan apa yang tidak seharusnya
terkait, itu dapat dianggap memiliki validitas konstruk.

Set respons keinginan sosial dan persetujuan

Dalam merancang skala, peneliti perlu memastikan bahwa item tersebut tidak
diinginkan secara sosial. Selain itu, peneliti perlu memberikan pertimbangan
untuk masalah set respon persetujuan. Masing-masing masalah metode ini
dibahas secara lebih rinci di bawah ini.
172 Bagian 4 Pengukuran

Keinginan sosial

Keinginan sosial (lihat Moorman & Podsakoff, 1992; Paulus,1991; Richman, Kiesler,
Weisband, & Drasgow,1999; Penonton,1987) adalah kecenderungan responden
untuk memilih respons yang diinginkan secara sosial, terlepas dari apakah itu
benar atau tidak, dan untuk menampilkan diri mereka dalam cahaya yang
menguntungkan, terlepas dari perasaan mereka yang sebenarnya tentang suatu
masalah atau topik. Kecenderungan tersebut dipandang sebagai masalah karena
berpotensi membiaskan jawaban responden, dan juga karena dapat menutupi
hubungan antara dua variabel atau lebih, atau menghasilkan hubungan palsu.
Responden yang mendapat skor tinggi pada skala keinginan sosial dikatakan
'pura-pura baik' dan akan mencemari hasil data yang diperoleh dari mereka
(Moorman & Podsakoff,1992).
Seringkali masalah dapat dikurangi dengan awalnya mengembangkan
langkah-langkah yang rendah dalam keinginan sosial. Hal ini dicapai dengan
memberikan sampel skala yang baru dikembangkan, di samping skala yang
mengukur keinginan sosial, dan kemudian menghapus item yang berkorelasi
tinggi dengan skala keinginan sosial. Moorman dan Podsakoff (1992) tinjauan
studi empiris menunjukkan bahwa keinginan sosial terkait dengan locus of
control (eksternal), kepuasan kerja umum, konflik peran dan ambiguitas
peran (keduanya negatif), dan komitmen organisasi, meskipun besarnya
hubungan itu lemah.

Set respons persetujuan

Set respons persetujuan (juga disebut set respons persetujuan) terjadi ketika
responden ditanyai pertanyaan yang diutarakan secara positif dan cenderung
menjawab secara positif. Set respon persetujuan dengan demikian
kecenderungan responden untuk setuju dengan item, terlepas dari isinya (Spector,
1987). Ini adalah kecenderungan untuk setuju atau setuju, meskipun itu juga
terjadi ketika seorang responden tidak setuju dengan semua item, terlepas dari
isinya. Salah satu metode untuk mengurangi persetujuan adalah dengan
memasukkan item dengan kata-kata negatif, serta item dengan kata-kata positif,
dalam skala multi-item. Meskipun mengembangkan item dengan kata-kata negatif
dapat mengurangi persetujuan, penyertaannya sering menyebabkan salah tafsir
oleh responden. Memang, Schriesheim dan Eisenbach
Pengembangan skala 173

(1995) berpendapat bahwa item dengan kata-kata negatif menyebabkan


kesalahan pengukuran dalam skala, mengutip bukti untuk beberapa skala
terkenal termasuk Survei Diagnostik Pekerjaan dan ukuran konflik peran dan
ambiguitas yang biasa. Schriesheim dan Eisenbach membedakan antara item
dengan kata-kata negatif, yang biasanya mencakup kata 'tidak' (misalnya, 'Saya
tidak bahagia') dan item yang berlawanan, yang merupakan negatif alami
(misalnya, 'Saya sedih'). Misalnya, item yang dinegasikan pada Survei Komitmen
Organisasi yang paling populer adalah, 'Tidak banyak yang bisa diperoleh dengan
bertahan di organisasi ini tanpa batas waktu'. Hal yang berlawanan adalah,
'Seringkali, saya merasa sulit untuk menyetujui kebijakan organisasi ini tentang
hal-hal penting yang berkaitan dengan karyawannya.'
Tampaknya analisis faktor skala dapat menempatkan item bernada positif
pada satu faktor dan item negatif pada yang lain. Faktor negatif seringkali
memiliki reliabilitas konsistensi internal yang rendah (yaitu, koefisien alfa).
Schriesheim dan Eisenbach (1995) menunjukkan bahwa faktor negatif cenderung
menjadi faktor metode (mereka semua item negatif) dan meningkatkan kesalahan
pengukuran dalam skala penuh. Dalam uji empiris mereka, Schriesheim dan
Eisenbach menunjukkan bahwa item dengan kata-kata positif lebih unggul dalam
segala hal, termasuk tingkat kesalahan dan efek metode yang lebih rendah dan
keandalan yang lebih tinggi, daripada faktor negatif. Dengan demikian,
merancang item dengan kata-kata negatif mungkin tidak diperlukan dan,
memang, mungkin bermasalah. Jika item dengan kata-kata negatif dimasukkan
dalam skala, koefisien alfa harus diperiksa untuk skala total baik dengan, dan
tanpa, item dengan kata-kata negatif, untuk menentukan kapan kesalahan
tertinggi (yaitu, alfa terendah).

Kesimpulan

Ada sejumlah langkah penting yang diperlukan untuk merancang ukuran


atau skala multi-item baru. Pertama, konstruk perlu didefinisikan.
Perhatian besar perlu diberikan pada cara item dibuat. Harus ada
hubungan yang kuat dan jelas antara item dan teori atau teori. Item yang
cukup harus dikembangkan untuk memungkinkan penghapusan nanti
dari item yang dianggap berlebihan. Penghapusan mungkin timbul
karena validitasnya buruk (dinilai melalui analisis faktor, atau penilaian
oleh orang lain) atau karena terkait kriteria
174 Bagian 4 Pengukuran

tes dan/atau reliabilitasnya rendah. Proses penyortiran yang


mengelompokkan item secara andal ke dalam konstruksi yang seharusnya
mereka ukur adalah persyaratan minimum. Skala harus memiliki bias respons
minimum dan panjang yang cukup untuk memastikan pengambilan sampel
yang memadai dari domain konstruk. Teknik analisis faktor harus digunakan
untuk menilai struktur faktor yang mendasarinya. Reliabilitas konsistensi
internal (yaitu, koefisien alfa) harus dihitung, mengingat reliabilitas tidak
menjamin validitas. Stabilitas dari waktu ke waktu (yaitu, korelasi tes-tes
ulang) harus digunakan jika konstruk tidak diharapkan berubah sementara.
Pengembangan skala pada akhirnya berusaha untuk menunjukkan validitas
konstruk. Hal ini dapat dicapai dengan menggunakan analisis faktor dalam
ukuran, tetapi juga dengan menghitung hubungan dengan variabel kriteria.
Skala kemudian perlu dimodifikasi, dengan skala baru yang disajikan.
Penggunaan beberapa tes/analisis (analisis faktor konfirmasi, validitas terkait
kriteria) dan beberapa sampel (untuk mendapatkan lebih dari satu koefisien
alfa) diperlukan.

Referensi

DeVellis, RF (2003). Pengembangan skala: Teori dan aplikasi (edisi ke-2). Ribu
Oaks, CA: Sage Publications.
Hinkin, TR (1995). Tinjauan praktik pengembangan skala dalam studi organisasi
sasi. Jurnal Manajemen, 21, 967–988.
Kelloway, EK (1998). Menggunakan LISREL untuk pemodelan persamaan struktural. Thousand Oaks,
CA: Sage Publications.
Kim, JO & Mueller, CW (1978). Analisis faktor. Beverly Hills, CA: Sage Publications.

Moorman, RH & Podsakoff, PM (1992). Sebuah tinjauan meta-analitik dan uji empiris
dari efek pembaur potensial set respon keinginan sosial dalam penelitian
perilaku organisasi. Jurnal Psikologi Kerja dan Organisasi, 65, 131–149.

Nunnally, JC (1978). Teori Psikometri. New York: McGraw-Hill.


Paulhus, DL (1991). Pengukuran dan pengendalian bias respon. Dalam JP Robinson, PR
Alat cukur, & LS Wrightsman (eds.), Ukuran kepribadian dan sikap psikologis
sosial (hlm. 17–60). New York: Pers Akademik.
Richman, WL, Kiesler, S., Weisband, S., & Drasgow, F. (1999). Sebuah studi meta-analitik
distorsi keinginan sosial dalam kuesioner yang dikelola komputer. Jurnal
Psikologi Terapan, 84, 754–775.
Pengembangan skala 175

Robinson, JP, Alat Cukur, PR, & Wrightsman, LS (1991). Ukuran kepribadian dan
sikap psikologis sosial. San Diego, CA: Pers Akademik.
Schriesheim, CA, Cogliser, CC, Scandura, TA, Lankau, MJ, & Powers, KJ (1999).
Perbandingan empiris pendekatan untuk secara kuantitatif menilai kecukupan
konten instrumen pengukuran kertas dan pensil. Metode Penelitian Organisasi
, 2, 140-156.
Schriesheim, CA & Eisenbach, RJ (1995). Sebuah faktor eksplorasi dan konfirmasi-
investigasi analitik efek kata-kata item pada struktur faktor yang diperoleh dari
metode kuesioner survei. Jurnal Manajemen, 21, 1177-1193.
Schriesheim, CA, Powers, KJ, Scandura, TA, Gardiner, CG, & Lankau, MJ
(1993). Meningkatkan pengukuran konstruk dalam penelitian manajemen.Jurnal
Manajemen, 19, 385–417.
Spector, PE (1987). Varians metode sebagai artefak dalam pengaruh dan kinerja yang dilaporkan sendiri
persepsi di tempat kerja: Mitos atau masalah signifikan? Jurnal Psikologi Terapan, 72,
438–443.
Wanous, JP & Hudy, MJ (2001). Keandalan item tunggal: Replikasi dan ekstensi.
Metode Penelitian Organisasi, 4, 361–375.
Wanous, JP, Reichers, AE, & Hudy, MJ (1997). Kepuasan kerja secara keseluruhan: Seberapa bagus?
adalah ukuran item tunggal? Jurnal Psikologi Terapan, 82, 247–252.

Pertanyaan ulasan bab

1 Masalah apa yang ditemukan dalam pengembangan langkah-langkah dalam penelitian


manajemen?
2 Apa langkah-langkah yang dipublikasikan? dimana kamu menemukan mereka?

3 Apa lima langkah utama dalam mengembangkan ukuran multi-item? Bagaimana cara

4 menghasilkan item? Mengapa Anda melakukannya dengan cara itu?

5 Apa itu analisis item? Bagaimana Anda melakukan analisis item, dan mengapa Anda melakukannya
seperti itu?
6 Bagaimana Anda menilai validitas konstruk suatu ukuran?
7 Bagaimana Anda menilai keandalan suatu ukuran? Apa itu keandalan konsistensi
internal (yaitu, keandalan alfa)? Apa itu reliabilitas tes-tes ulang/stabilitas? Apa itu
keandalan antar penilai?
8 Bagaimana Anda mengevaluasi skala/ukuran baru?
9 Apa itu validitas konvergen?
10 Apa itu validitas diskriminan?
11 Apa itu kesalahan keinginan sosial? Apa yang dapat Anda lakukan? Apa yang
12 dimaksud dengan set respons persetujuan? Apa yang dapat Anda lakukan?
13 Apa alasan dari masing-masing prinsip yang dapat digunakan untuk mengatasi
masalah dengan langkah-langkah dalam penelitian studi korelasional (survey)?
176 Bagian 4 Pengukuran

Lampiran A: Sumber alat ukur organisasi, psikologi sosial, dan


komunitas

Beere, CA (1992). Peran gender: Buku pegangan tes dan pengukuran. New York: Pers
Greenwood.

Buku ini memberikan deskripsi dan evaluasi dari banyak ukuran yang digunakan di bidang
peran gender, termasuk stereotip peran seks, sikap terhadap perempuan dan peran gender,
ukuran peran pekerjaan-keluarga, peran gender, peran karyawan, peran ganda, dan ukuran
keluarga.

Telekomunikasi Inggris (1984). Bank barang survei. Volume 1: Ukuran kepuasan.


Bradford, Inggris: MCB University Press.

Volume ini berisi skala yang mencakup kepuasan kerja global, kepuasan kerja ekstrinsik,
kepuasan kerja intrinsik, serta kebutuhan dan dorongan internal. Ini dipecah menjadi tiga
bagian:

1. Pemuas ekstrinsik, yaitu aspek kepuasan yang bukan merupakan bagian


integral dari pekerjaan itu sendiri – seperti gaji, prospek promosi,
pengawasan, rekan kerja, staf lain, perusahaan, kondisi kerja fisik, keamanan
kerja, status sosial, dan pekerjaan. diri.
2. Pemuas intrinsik, yaitu aspek kepuasan yang muncul secara alami dari sifat
pekerjaan yang dilakukan – variasi, otonomi, dan tanggung jawab. Bagian ini
diakhiri dengan menjelaskan masing-masing skala Survei Diagnostik Pekerjaan
Hackman dan Oldham.
3. Motivasi internal berfokus pada motivasi pekerja. Bagian ini menjelaskan skala
keterlibatan kerja, ukuran kebutuhan akan pemuas ekstrinsik (gaji, keamanan,
harga diri, dll.), dan pemuas intrinsik (kebutuhan akan otonomi, peluang
pertumbuhan, dll.). Salinan lengkap dari semua skala diberikan.

Telekomunikasi Inggris (1984). Bank barang survei. Volume 2: Ukuran karakter organisasi
karakteristik. Bradford, Inggris: MCB University Press.

Volume ini berkaitan dengan ukuran organisasi di bawah lima judul:

1. Konteks organisasi.
2. Struktur organisasi.
3. Proses yang digunakan oleh organisasi (perencanaan, pengorganisasian, berbagai aspek kepegawaian,
pengambilan keputusan, dan pengendalian).
4. lingkungan fisik organisasi.
5. Nilai dan norma organisasi mengenai orang, inovasi dan risiko, ide dan
penelitian, aturan, dan pekerjaan.
Pengembangan skala 177

Salinan lengkap dari semua skala diberikan. Dalam volume 1 dan 2 Bank Item Survei
memberikan informasi untuk setiap skala. Sebagian besar skala diberi skor hanya dengan
menambahkan skor pada item individual. Bila memungkinkan, norma persentil juga
diberikan untuk setiap skala di Bank Item Survei.

Buros, OK (berbagai edisi). Tes dalam cetakan. Highland Park, NJ: Gryphon Press.

Semua tes psikologi dievaluasi untuk reliabilitas dan validitas dalam seri ini.

Cook, JD, Hepworth, SJ, Wall, TD, & Warr, PR (1981). Pengalaman kerja.
London: Pers Akademik.

Ini adalah sumber skala dan bukti terbaik tentang validitas dan reliabilitasnya. Ini berisi 249
skala yang mengukur kepuasan kerja secara keseluruhan, kepuasan spesifik, keterasingan,
komitmen, kesehatan kerja dan kesehatan yang buruk, keterlibatan kerja, motivasi kerja,
nilai-nilai kerja, keyakinan dan kebutuhan, karakteristik pekerjaan, iklim organisasi, gaya
kepemimpinan, dan lain-lain. Ini juga memberikan definisi konstruk, bukti reliabilitas dan
validitas, dan banyak referensi di mana skala telah digunakan. Selain itu, buku ini mencakup
salinan skala lengkap dan prosedur penilaian. Timbangan harus dirakit untuk digunakan.

De Bello, TC (1990). Perbandingan sebelas model gaya belajar utama.Membaca,


Ketidakmampuan Menulis dan Belajar, 6, 203–222.

Artikel ini mengulas dan mengkritik 11 ukuran gaya belajar, termasuk inventaris Kolb. Itu
tidak memberikan langkah-langkah tetapi memberikan sumbernya.

Furnham, A. & Gunter, B. (1993). Penilaian perusahaan: Mengaudit kinerja perusahaan


sonalitas. London: Routledge.

Termasuk dalam sumber ini adalah ukuran budaya organisasi, iklim, ideologi,
partisipasi karyawan, audit komunikasi, audit pelanggan, audit sistem orang,
termasuk praktik manajemen sumber daya manusia, dan komitmen organisasi. Ini
juga memberikan beberapa ukuran penuh, dan meninjau ukuran budaya dan iklim
organisasi dan, di mana tidak memberikan ukuran penuh, memberikan dimensi
dan contoh yang mendasarinya.

Greenbaum, HH, Clamputt, P., & Willihaganz, S. (1988). komunikasi organisasi-


tion: Pemeriksaan empat instrumen. Komunikasi Manajemen Triwulanan,2,
245–282.

Artikel ini mengevaluasi dan menjelaskan empat ukuran komunikasi organisasi.

Hackman, JK & Oldham, GR (1980). Desain ulang pekerjaan. Membaca, MA: Addison Wesley
Publishing Co.

Berisi Survei Diagnostik Pekerjaan, yang merupakan ukuran karakteristik pekerjaan yang paling sering
digunakan.
178 Bagian 4 Pengukuran

Kline, P. (1993). Buku pegangan tes psikologi. New York: Routledge.

Buku ini memberikan bukti reliabilitas dan validitas untuk tes psikologi khusus yang
digunakan dalam industri di bidang kecerdasan, kemampuan, bakat dan pencapaian,
kepribadian, tes proyektif, tes motivasi dan minat, sikap, dan lain-lain. Ini tidak memberikan
setiap tes khusus tetapi menggambarkan ukuran secara rinci dan memberikan informasi
administrasi tes dan reliabilitas dan validitas. Ini juga mencakup kesimpulan apakah ukuran
itu layak untuk digunakan.

Miller, DC (1991). Buku pegangan desain penelitian dan pengukuran sosial. London:
Publikasi Sage.

Sumber ini mencakup deskripsi ukuran status sosial, struktur kelompok, struktur
organisasi, komunitas, partisipasi sosial, kepemimpinan dalam organisasi kerja, moral
dan kepuasan kerja, keluarga dan pernikahan, kepribadian, dan sikap. Selain itu, ia
memberikan bukti reliabilitas dan validitas dan kegunaan dari tindakan tersebut. Ini
mungkin sering mencakup skala penuh.

Pfeiffer, JW, Heslin, R., & Jones, JE (1976). Instrumentasi dalam pelatihan hubungan manusia-
ing. La Jolla, CA: University Associates Inc.

Termasuk dalam publikasi ini adalah timbangan dengan fokus individu (kepribadian),
skala dengan fokus interpersonal (umum, perkawinan, keluarga, dan dinamika
kelompok), dan skala dengan fokus organisasi (iklim organisasi, gaya manajemen/
kepemimpinan, dan supervisor-bawahan). hubungan). Itu tidak memberikan skala,
tetapi memberikan deskripsi dan fitur positif dan negatifnya.

Pfeiffer, JW & Jones, JE (1970–1981). Buku pegangan tahunan untuk fasilitator kelompok. La
Jolla, CA: University Associates Inc.
Pfeiffer, JW (1981 hingga sekarang). Tahunan: Mengembangkan sumber daya manusia. San Diego,
CA: Pfeiffer dan Perusahaan.

Seri ini mencakup skala komunikasi, konsultasi/fasilitasi termasuk pelatihan/gaya


belajar, kelompok/tim, manajemen/kepemimpinan termasuk sikap, organisasi
termasuk diagnosis, sikap dan nilai/budaya karyawan, faktor pribadi termasuk
konflik/stres, perencanaan hidup/manajemen karier, nilai/isu seksual, kepribadian,
pengembangan dan iklim organisasi, proses dan perilaku kelompok,
kepemimpinan, komunikasi, motivasi, dan pengawasan, di bagian instrumentasi di
buku pegangan setiap tahun atau tahunan. Tujuan setiap skala, deskripsi
penggunaan yang disarankan, referensi, dan terkadang salinan skala lengkap dan
penilaian juga disediakan.

Harga, JL (1997). Buku pegangan pengukuran organisasi. Jurnal Ketenagakerjaan


Internasional, 18(4/5/6), 303–558. Harga, JL & Mueller, CW (1986).Buku pegangan
pengukuran organisasi. Marshfield, MA: Pitman.
Pengembangan skala 179

Artikel oleh Price (1997) adalah versi revisi dari teks Price dan Mueller (1986). Skala
mencakup 32 topik organisasi – absensi, intensitas administratif, otonomi,
sentralisasi, komunikasi, kompleksitas, motivasi, komitmen, pelatihan umum,
kekuatan kebutuhan, kepuasan, formalisasi, standarisasi, rutinitas, mekanisasi,
efektivitas, koordinasi, keadilan distributif, departementalisasi, produktivitas,
stratifikasi gaji, basis kekuasaan, ukuran organisasi, ideologi, inovasi, kekerasan
konflik, pergantian, beban kerja, kohesi kelompok kerja, dll. Ini memberikan
definisi topik dan bagaimana diukur, diikuti dengan deskripsi skala, penilaian
validitas, reliabilitas, dan referensi. Biasanya memiliki sejumlah skala untuk
mengukur satu topik dan mencakup item sampel tetapi tidak keseluruhan skala.

Robinson, JRP & Alat Cukur, PR (1975). Ukuran sikap psikologis sosial. Ann
Arbor, MI: Lembaga Penelitian Sosial.

Sumber ini mencakup kepuasan hidup, harga diri, locus of control, keinginan sosial, dan topik
lainnya. Ini memberikan tinjauan komprehensif dari masing-masing bidang ini dan
menunjukkan skala mana dalam setiap topik yang/adalah yang terbaik. Selain itu, deskripsi
skala, reliabilitas dan validitas, referensi, penilaian, administrasi, dan salinan lengkap dari
setiap skala disertakan.

Robinson, JP, Alat Cukur, PR, & Wrightsman, LS (1991). Ukuran kepribadian dan
sikap psikologis sosial. New York: Pers Akademik.

Ini secara luas dianggap sebagai buku terbaik dari ukuran psikologi sosial. Semua berlaku
untuk pengaturan organisasi. Ini mencakup skala untuk respon bias, kesejahteraan, harga
diri, kecemasan sosial dan rasa malu, depresi dan kesepian, keterasingan dan anomie,
kepercayaan interpersonal dan sikap terhadap sifat manusia, locus of control,
otoritarianisme, peran seks, dan nilai-nilai. Ini juga memberikan deskripsi reliabilitas dan
validitas skala, referensi, penilaian, administrasi, dan salinan lengkap dari setiap skala.

Lampiran B: Batang item standar dan konvensional dan


kategori tanggapannya

Di bawah ini adalah beberapa batang item standar dan kategori tanggapannya seperti yang digunakan
dalam penelitian manajemen.

Kategori respons lima poin

Batang barang
Harap tunjukkan tingkat persetujuan atau ketidaksetujuan Anda dengan pernyataan berikut.

Kategori skala/poin
180 Bagian 4 Pengukuran

1. Sangat tidak setuju


2. Tidak setuju
3. Tidak setuju atau tidak setuju
4. Setuju
5. Sangat setuju

Batang barang
Secara keseluruhan, seberapa

bagus. . . ?Kategori skala/poin

1. Sangat miskin
2. Miskin
3. Adil
4. Bagus
5. Baik sekali

Batang barang
Seberapa puaskah Anda

dengan . . . ?Kategori skala/poin

1. Sangat tidak puas


2. Tidak puas
3. Tidak puas atau tidak puas
4. Puas
5. Sangat Puas

Batang barang
Seberapa sering . . . ?

Kategori skala/poin

1. Terlalu sedikit
2. Terlalu sedikit
3. Tentang benar
4. Terlalu banyak
5. Terlalu jauh

ATAU

1. Tidak pernah

2. Jarang
3. Kadang-kadang
4. Sering
5. sepanjang waktu
Pengembangan skala 181

ATAU

1. Tidak pernah

2. Jarang
3. Tentang sesering tidak
4. Sangat sering
5. Selalu

ATAU

1. Praktis tidak pernah


2. Sekali-sekali
3. Kadang-kadang
4. Cukup sering
5. Sangat sering

ATAU

1. Jarang
2. Kurang dari separuh waktu
3. Sekitar separuh waktu
4. Sebagian besar waktu
5. sepanjang waktu

Batang barang
Berapa banyak dari . . . ?

Kategori skala/poin

1. Hampir tidak ada


2. Kurang dari setengah

3. Sekitar setengah

4. Lebih dari setengah


5. Hampir semua

Batang barang
Betapa benarnya. . . ?

Kategori skala/poin

1. Benar-benar salah
2. Sebagian besar salah

3. Sebagian salah dan sebagian benar


4. Sebagian besar benar

5. Benar sekali
182 Bagian 4 Pengukuran

Batang barang
Bagaimana Anda menilai peluang

Anda. . . ?Kategori skala/poin

1. Tidak ada kesempatan

2. Sedikit kesempatan
3. Kesempatan yang masuk akal

4. Kesempatan bagus
5. Kesempatan yang sangat bagus

Batang barang
Sejauh mana . . . ?

Kategori skala/poin

1. Sama sekali tidak

2. Untuk sebagian kecil


3. Sampai batas tertentu
4. Untuk sebagian besar
5. Untuk sebagian besar

ATAU

1. Untuk tingkat yang sangat sedikit

2. Sedikit banyak
3. Sampai batas tertentu
4. Untuk sebagian besar
5. Untuk sebagian besar

Kategori respons tujuh poin

Ini adalah versi tujuh poin dari beberapa batang di atas ditambah beberapa lainnya. Ini mungkin memberi
Anda lebih banyak spread.

Batang barang
Harap tunjukkan tingkat persetujuan atau ketidaksetujuan Anda dengan pernyataan berikut.

Kategori skala/poin

1. Sangat tidak setuju


2. Tidak setuju
3. Sedikit tidak setuju
4. Tidak setuju atau tidak setuju
Pengembangan skala 183

5. Agak setuju
6. Setuju
7. Sangat setuju

ATAU

1. Sangat tidak setuju


2. Sangat tidak setuju
3. Sedikit tidak setuju
4. Tidak setuju atau tidak setuju
5. Agak setuju
6. Cukup setuju
7. Sangat setuju

Batang barang
Seberapa puaskah Anda dengan masing-masing

ini?Kategori skala/poin

1. Sangat tidak puas


2. Tidak puas
3. Sedikit tidak puas
4. Tidak puas atau tidak puas
5. Sedikit puas
6. Puas
7. Sangat Puas

Batang barang
Seberapa sering Anda

mendapatkan. . . ?Kategori skala/poin

1. Sama sekali tidak

2. Hampir tidak pernah

3. Jarang
4. Kadang-kadang
5. Sering
6. Hampir selalu
7. Selalu

Batang barang
Betapa benarnya. . . ?

Kategori skala/poin

1. Tidak pernah atau hampir tidak pernah benar


184 Bagian 4 Pengukuran

2. Biasanya tidak benar


3. Kadang-kadang tapi jarang benar
4. Kadang benar
5. Sering benar
6. Biasanya benar
7. Selalu atau hampir selalu benar

Batang barang
Seberapa besar kemungkinan masing-masing hal ini akan

terjadi. . . ?Kategori skala/poin

1. Sama sekali tidak mungkin

2. Sedikit mungkin

3. Agak mungkin
4. Sepertinya
5. Kemungkinan sedang
6. Sangat mungkin

7. Sangat mungkin

ATAU

1. Sangat tidak mungkin


2. Sangat tidak mungkin

3. Sedikit tidak mungkin


4. Tidak mungkin atau tidak mungkin

5. Sedikit mungkin
6. Sepertinya
7. Sangat tidak mungkin

Batang barang
Betapa pentingnya. . . ?

Kategori skala/poin

1. Sama sekali tidak penting


2. Sedikit penting
3. Agak penting
4. Cukup penting
5. Cukup penting
6. Sangat penting
7. Sangat penting

Batang barang
Tolong tunjukkan seberapa akurat setiap pernyataan dalam kaitannya dengan . . .
Pengembangan skala 185

Kategori skala/poin

1. Sangat tidak akurat


2. Sebagian besar tidak akurat

3. Sedikit tidak akurat


4. Tidak pasti
5. Sedikit akurat
6. Sebagian besar akurat
7. Sangat akurat
Bagian 5

Metode analisis data

Anda mungkin juga menyukai