CHAPTER 12
Measurement : Scaling, realibility, validity
Pengukuran adalah pemberian angka atau simbol-simbol lain terhadap karakteristik
dari sebuah objek berdasarkan sekumpulan peraturan yang spesifik. Pengukuran mempunyai
arti mengumpulkan data dalam bentuk angka dan agar bisa dipahami dibutuhkan skala. Skala
adalah sebuah alat atau mekanisme yang dilakukan individu untuk membedakan antara satu
variabel dengan variabel lain dalam sebuah penelitian. Ada empat tipe dasar skala yaitu
nominal, ordinal, interval dan rasio.
TIPE SKALA
Skala Nominal
Skala ini merupakan salah satu yang memungkinkan peneliti untuk menetapkan
subjek terhadap suatu kategori atau grup yang pasti. Misalnya, dalam hal variabel mengenai
gender, peneliti dapat membedakan menjadi dua kategori, pria dan wanita. Kategori ini dapat
ditetapkan dengan kode nomer 1 dan 2. Informasi yang bisa dikumpulkan dari nominal
scaling adalah perhitungan persentase banyaknya jumlah responden pria dan wanita, jika
untuk responden pria diberi kode 1 dan untuk responden wanita diberi kode 2. Nominal
scaling memberikan informasi yang mendasar, categorical dan kasar.
Skala Ordinal
Skala ini tidak hanya mengkategorikan variabel tetapi juga memberikan peringkat atas
kategori tersebut berdasarkan pilihan responden. Contohnya dari yang paling tinggi ke paling
rendah. Skala ini memberikan informasi yang lebih dibandingkan skala nominal, karena
selain mengkategorikan, responden juga bisa membedakan kategori tersebut berdasarkan
ranking.
Skala Interval
Skala ini memungkinkan peneliti untuk mengukur jarak antara dua titik pada skala.
Hal ini membantu peneliti untuk menghitung rata-rata dan standar deviasi atas respon
variabel. Dalam interval scaling terdapat range angka untuk tiap-tiap variabel atau objek yang
akan diukur. Angka tersebut digunakan untuk melihat preferensi responden.
Ratio Scale
Skala rasio tidak hanya mengukur magnitude dari perbedaan antara poin dalam skala
tetapi juga memberikan proporsi dalam perbedaan tersebut.
RATING SCALE
a. Dichotomous scale
Menggunakan form Yes or No Question. Menggunakan skala nominal.
b. Category scale
Menggunakan banyak item untuk memperoleh respon tunggal. Menggunakan skala
nominal.
c. Semantic differential scale
Hampir sama dengan skala interval, melihat kecenderungan titik preferensi responden
untuk memilih antara dua objek.
d. Numerical scale
Sama dengan semantic differential scale, namun preferensi responden ditentukan dengan
angka.
e. Itemized rating scale
Menggunakan skala interval. Setiap item diberi point biasanya lima atau tujuh point dan
responden menyatakan angka yang tepat di samping masing-masing item atau melingkari
angka yang relevan tiap item.
f. Likert scale
Skala ini didesain untuk menentukan seberapa besar subjek setuju atau tidak setuju dengan
statement dalam skala lima point.
g. Fixed or constant sum scale
Responden diminta untuk mendistribusikan angka yang sudah diberikan atas masing-
masing item.
h. Stapel scale
Skala ini secara simultan mengukur baik arah maupun intensitas perlakuan atas sebuah
item dalam penelitian. Hal ini dilakukan agar bisa terlihat seberapa dekat atau jauh respon
dari responden terhadap stimulus. Skala ini termasuk skala interval.
i. Graphic rating scale
Skala ini membantu responden untuk memberi skala atas jawaban mereka terhadap
pertanyaan tertentu dengan memberikan tanda pada point yang tepat dalam garis.
j. Consensus scale
Skala juga bisa dikembangkan lewat konsensus dimana penilai memilih beberapa item.
Item-item tersebut dipilih berdasarkan hubungan dan relevansi dengan konsep. Skala ini
dikembangkan setelah item terpilih diuji validitas dan reliabilitasnya. Skala ini jarang
dilakukan karena butuh waktu untuk mengembangkannya.
k. Other scale
Terdapat juga beberapa metode scaling lanjutan seperti multidimentional scaling, dimana
objek, orang atau keduanya secara visual diberi skala dan dilakukan analisis atas hal-hal
tersebut. Hal ini memberikan gambaran visual dari hubungan yang dituangkan dalam
bentuk ruang.
RANKING SCALE
Rangking skala digunakan untuk mengungkap preferensi antara dua atau lebih objek
atau item tetapi mungkin tidak memberi petunjuk yang pasti mengenai jawaban yang dicari.
Berikut metode-metode alternatif yang dapat digunakan:
1. Paired Comparison
Perbandingan Berpasangan, digunakan ketika di antara sejumlah kecil objek,
responden diminta untuk memilih antara dua objek pada satu waktu. Semakin banyak
jumlah objek atau stimulus, semakin banyak jumlah perbandingan pasangan diberikan
kepada responden dan semakin tinggi kelelahan responden.
2. Forced Choice
Pilihan yang Diharuskan, memungkinkan responden untuk merangking objek secara
relative satu sama lain, di antara alternative yang disedikan. Hal ini mempermudah
responden, khususnya jika jumlah pilihan yang harus diranking terbatas jumlahnya.
3. Comparative Scale
Skala Komparatif, memberikan standar (benchmark) atau poin referensi untuk
menilai sikap terhadap objek, kejadian, atau situasi saat penelitian dilaksanakan.
Singkatnya, skala nominal berkaitan dengan skala dikontomi dan kategori, data ordinal
berhubungan dengan semua skala ranking – perbandingan, , pilihan yang diharuskan atau
skala komparatif, dan data interval atau mirip interval berkaitan dengan skala tingkat lainnya.
Skala numerikal dan skala sematik sebenarnya bukan skala interval, meskipun keduanya
sering dilakukan dalam skala interval dalam analisis data. Skala peringkat dipakai untuk
mengukur kebanyakan konsep yang berhubungan dengan perilaku. Skala ranking digunakan
utuk membuat perbandingan atau meranking variabel yang diungkap pada skala nominal.
GOODNESS OF MEASURES
Sekarang bahwa kita telah melihat bagaimana operasional mendefinisikan variabel
dan menerapkan teknik skala yang berbeda , penting untuk memastikan bahwa instrumen
yang telah kami kembangkan untuk mengukur konsep tertentu memang secara akurat
mengukur variabel , dan bahwa , pada kenyataannya , kita sebenarnya mengukur konsep yang
kami gunakan untuk mengukur . ini memastikan bahwa dalam operasional mendefinisikan
persepsi dan variabel sikap , kami belum diabaikan beberapa dimensi penting dan elemen
atau termasuk beberapa yang tidak relevan. Penggunaan instrumen yang lebih baik akan
memastikan akurasi lebih dalam hasil, yang pada gilirannya akan meningkatkan kualitas
ilmiah penelitian. Oleh karena itu, dalam beberapa cara, kita perlu menilai “kebaikan " dari
ukuran dikembangkan. yaitu, kita harus cukup yakin bahwa instrumen yang kita gunakan
dalam penelitian kami memang mengukur variabel yang seharusnya mereka , dan bahwa
mereka mengukur dengan akurat
Mari kita memeriksa bagaimana kita dapat memastikan bahwa langkah-langkah
dikembangkan adalah cukup baik. Pertama, analisis item tanggapan terhadap pertanyaan
menekan variabel dilakukan, dan reabilitas dan validitas tindakan yang membangun, sebagai
jelaskan di bawah.
Item Analysis
Analisis item dilakukan untuk melihat apakah item dalam instrumen milik ada atau
tidak. Setiap item diperiksa karena kemampuannya untuk membedakan antara subjek-subjek
yang nilai keseluruhan yang tinggi dan mereka dengan skor rendah. Dalam analisis item,
sarana antara kelompok - skor tinggi dan kelompok skor rendah tes untuk mendeteksi
pemikiran yang berbeda signifikan dengan t - nilai .Item dengan t - nilai (tes yang mampu
mengidentifikasi item yang sangat diskriminatif dalam instrumen) yang kemudian
dimasukkan dalam instrumen. setelah itu , tes untuk reliabilitas instrumen dilakukan dan
validitas mengukur didirikan
Sangat singkat, keandalan adalah ujian seberapa konsisten alat ukur mengukur konsep apa
pun yang mengukur. Validitas adalah tes dari seberapa baik suatu instrumen yang
dikembangkan mengukur konsep tertentu memang ditujukan untuk mengukur. Kata lain yang
patut, validitas prihatin dengan apakah kita mengukur konsep yang tepat, dan kehandalan
dengan stabilitas dan konsistensi pengukuran. validitas dan reliabilty ukuran yang
membuktikan kekuatan ilmiah yang telah pergi ke studi penelitian .
Validity
Dalam bab 10 kita meneliti persyaratan validitas internal dan validitas eksternal dalam
konteks desain experimental. Yaitu, kita akan khawatir tentang isu keaslian hubungan sebab
dan akibat (validitas internal) dan generalisasi mereka ke environtment eksternal (eksternal
validitas). Untuk saat ini, kita akan menguji validitas alat ukur itu sendiri. Artinya, ketika
kami meminta seperangkat pertanyaan dengan harapan bahwa kita menekan konsep,
bagaimana kita dapat cukup yakin bahwa kita memang mengukur konsep kami berangkat
untuk mengukur dan bukan sesuatu yang lain? ini dapat ditentukan dengan menerapkan uji
validitas tertentu
Beberapa jenis uji validitas digunakan untuk menguji kebaikan tindakan dan penulis
menggunakan istilah yang berbeda untuk menunjukkan mereka . Demi kejelasan, kita
mungkin uji validitas kelompok bawah tiga judul luas: konten validitas, validitas terkait
kriteria, dan validitas konstruk.
Content Validity
Validitas isi atau content validity memastikan bahwa pengukuran memasukkan
sekumpulan item yang memadai dan mewakili yang mengungkap konsep. Semakin item
skala mencerminkan kawasan atau keseluruh konsep yang diukur, semakin besar validitas isi.
Atau dengan kata lain, validitas isi merupakan fungsi seberapa baik dimensi dan elemen
sebuah konsep yang telah digambarkan.
Criterion-related Validity
Validitas kriteria (criterion-related validity) terpenuhi jika pengukuran membedakan
individu menurut suatu criteria yang diharapkan diprediksi. Hal tersebut bisa dilakukan
dengan menghasilkan validitas konkuren (concurrent validity) atau validitas predictive
(predictive validity). Validitas konkuren dihasilkan jika skala membedakan individu yang
diketahui berbeda, yaitu mereka harus menghasilkan skor yang berbeda pada instrument,
sedangkan validitas predictive menunjukkan kemampuan instrument pengukuran untuk
membedakan orang dengan referensi pada suatu kriteria masa depan (Sekaran, 2006).
Construct Validity
Validitas konsep atau concept validity menunjukkan seberapa baik hasil yang
diperoleh dari pengukuran cocok dengan teori yang mendasari desain test. Hal ini dapat
dinilai dari validitas konvergen dan validitas diskriminan. Validitas konvergen terpenuhi jika
skor yang diperoleh dengan dua instrument berbeda yang mengukur konsep yang sama
menunjukkan korelasi yang tinggi. Validitas diskriminan terpenuhi jika berdasarkan teori, dua
variabel diprediksi tidak berkorelasi, dan skor yang diperoleh dengan mengukurnya benar-
benar secara empiris membuktikan hal tersebut.
Secara umum, Sekaran (2006) membagi beberapa istilah validitas sebagai berikut:
a. Validitas isi yaitu apakah pengukuran benar-benar mengukur konsep ?
b. Validitas muka yaitu apakah para ahli mengesahkan bahwa instrument mengukur apa
yang seharusnya diukur
c. Validitas berdasarkan criteria yaitu apakah pengukuran membedakan cara yang
membantu memprediksi criteria variabel
d. Validitas konkuren yaitu apakah pengukuran membedakan cara yang membantu
memprediksi criteria saat ini ?
e. Validitas prediktif yaitu apakah pengukuran membedakan individual dalam membantu
memprediksi di masa depan ?
f. Validitas Konsep yaitu apakah instrument menyediakan konsep sebagai teori ?
g. Validitas konvergen yaitu apakah dua instrument mengukur konsep dengan korelasi
yang tinggi ?
h. Validitas diskriminan yaitu apakah pengukuran memiliki korelasi rendah dengan
variabel yang diperkiraka tidak ada hubungannya dengan variabel tersebut ?
Reliability
Keandalan memperlihatkan penelitian bebas dari kesalahan sehingga menjamin
pengukuran yang konsisten lintas waktu dan lintas beragam item dalam instrument.
Keandalan suatu pengukuran merupakan indikasi mengenai stabilitas dan konsistensi di mana
instrument mengurup konsep dengan menekankan pada:
Stability of Measure
Kemampuan ukuran untuk tetap sama dari waktu ke waktu - meskipun kondisi
pengujian tidak terkendali atau keadaan responden sendiri - merupakan indikasi dari stabilitas
dan kerentanan rendah untuk mengubah situasi . Ini attets untuk kebaikan yang karena konsep
ini stabil diukur , tidak peduli ketika hal itu dilakukan . Dua uji stabilitas kehandalan tes-tes
ulang dan paralel - bentuk kehandalan .
Test-Retest Reliability
Koefisien reliabilitas diperoleh dengan pengulangan ukuran yang sama pada
kesempatan kedua disebut keandalan tes-tes ulang. Artinya, ketika kuesioner yang berisi
beberapa item yang seharusnya untuk mengukur konsep yang diberikan untuk mengatur dari
responden , sekarang dan lagi untuk responden yang sama , mengatakan beberapa minggu ke
enam bulan kemudian , maka korelasi antara skor yang diperoleh di dua waktu yang berbeda
dari satu dan set yang sama dari responden adalah panggilan koefisien tes-tes ulang . yang
lebih tinggi itu adalah , semakin baik keandalan tes-tes ulang dan akibatnya , stabilitas
mengukur seluruh waktu
Parallel-form reliability
Ketika respon pada dua set sebanding tindakan penyadapan konstruk yang sama
sangat berkorelasi, kami telah paralled - bentuk kehandalan. Kedua bentuk memiliki item
serupa dan respon format yang sama , perubahan hanya menjadi kata-kata dan ketertiban atau
urutan pertanyaan . Jika dua bentuk yang sebanding tersebut sangat berkorelasi ( mengatakan
8 dan di atas ) , kita dapat cukup yakin bahwa langkah-langkah yang cukup handal , dengan
minimal varians kesalahan yang disebabkan oleh kata-kata , pemesanan , atau faktor-faktor
lain
Internal Consistency of Measures
Konsistensi internal dari tindakan merupakan indikasi homogenitas item dalam
ukuran yang keran konstruk . dengan kata lain , item harus " menggantung bersama sebagai
satu set " dan mampu secara mandiri mengukur konsep yang sama sehingga responden
melampirkan arti keseluruhan yang sama untuk masing-masing item . Hal ini dapat dilihat
dengan memeriksa apakah item dan subtes yang og item dalam alat ukur yang berkorelasi
sangat . Konsistensi dapat diperiksa melalui interitem konsistensi reliabilty dan split-
setengah keandalan tes.
Interitem Consistency Reliabilty
Responden menjawab semua item dalam ukuran. Untuk tingkat yang item tindakan
independet dari beberapa konsep, akan berkorelasi dengan satu anothe. Tes yang paling
populer pada keandalan konsistensi interitem adalah Cronbachs koefisien alpha (Cronbach,
1946), yang digunakan untuk item multipoint-skala, dan rumus Kuder-Richardson (Kuder
Dan Richardson, 1937), yang digunakan untuk item dikotomis. Semakin tinggi koefisien,
semakin baik alat pengukur.
Split-Half Reliability
Split-setengah kehandalan mencerminkan korelasi antara dua bagian dari instrumen.
Perkiraan akan bervariasi tergantung pada bagaimana item dalam mengukur dibagi menjadi
dua bagian. Split-setengah reliabilitas mungkin lebih tinggi dari alpha Cronbach hanya
keadaan yang ada lebih dari satu dimensi respon yang mendasari disadap oleh ukuran dan
ketika kondisi tertentu lainnya terpenuhi juga (untuk rincian lengkap, lihat Campbell, 1976).
Oleh karena itu, dalam hampir semua kasus, alpha Cronbach dapat dianggap indeks sempurna
memadai dari antar-item konsistensi reliabilitas.
Reflective Versus Formative Measurement Scales
Saat ini , penting untuk kembali ke anggapan bahwa item dari ukuran multi-item harus
bersatu sebagai satu set dan mampu secara mandiri mengukur konsep yang sama .
kenyataannya adalah bahwa item yang mengukur konsep tidak harus selalu bersatu : ini
hanya berlaku untuk reflektif , tetapi tidak untuk formatif , timbangan
Reflective Scales
Di skala reflektif, item (semua dari mereka) diharapkan berkorelasi. Berbeda dengan
item yang digunakan dalam skala formatif, dibahas bersih, masing-masing item dalam skala
reflektif diasumsikan berbagi secara umum (konstruk yang mendasari bunga)
Reflective Versus Formative Measurement Scales
Dalam skala reflektif, semua item (dalam skala reflektif) diharapkan berkolerasi.
Berbeda dengan item yang digunakan dalam skala formatif. Setiap item dalam skala reflektif
diasumsikan berbagi secara umum. Oleh karena itu, peningkatan nilai konsep akan
diterjemahkan ke dalam peningkatan nilai untuk semua item yang mewakili konsep. Sebuah
skala formatif digunakan ketika membangun dipandang sebagai kombinasi penjelas dari
indikator-indikator ( Fornell & Bookstein , 1982; Fornell , 1987) .
Sebuah skala formatif digunakan ketika membangun sesuatu ditinjau sebagai
kombinasi penjelas dari indikator tersebut. Ambil Job Description Index, suatu ukuran
gabungan yang dimaksudkan untuk mengevaluasi kepuasan kerja. Langkah ini meliputi lima
dimensi: jenis pekerjaan (18 item), kesempatan untuk promosi (9 item), kepuasan terhadap
pengawasan (18 item), rekan kerja (18 item), dan pembayaran (9 item).
Lima dimensi dijabarkan ke dalam 72 elemen yang dapat diamati dan terukur seperti
"Kesempatan Baik untuk kemajuan", "promosi Reguler", "Cukup kesempatan baik untuk
promosi", "Penghasilan yang memadai untuk biaya normal", "Sangat dibayar tinggi", dan
"Memberikan rasa prestasi ". Singkatnya, Job Description Index meliputi lima dimensi dan
72 item. Sebuah skala yang berisi item yang tidak selalu berhubungan disebut skala formatif.
JURNAL
Variabel Independen :
a. Pengetahuan Peraturan
b. Komitmen Manajemen
c. Lingkungan Birokrasi
a. Pendekatan kuantitatif
Analisis pendekatan kuantitatif dilakukan dengan analisis statistik SEM berbasis
varian atau Partial Least Squares Structural Equation Modeling (PLS-SEM). Responden
pada uji pilot adalah pegawai pengadaan barang/jasa pada SKPD di Provinsi Sumatera Utara
di Dinas Pertanian dan Inspektorat, serta Dinas Pendapatan Pengelolaan Keuangan dan Aset
Kabupaten Sidoarjo Provinsi Jawa Timur. Analisis uji pilot untuk menguji validitas dan
reliabilitas konstruk dilakukan dengan menggunakan program SmartPLS ver 2.0.M3. Hasil
uji pilot telah memenuhi uji validitas dan reliabilitas sehingga instrumen yang telah diuji pilot
dapat digunakan untuk uji lapangan. Hasil uji pilot tidak hanya mempertimbangkan validitas
dan reliabilitas berdasarkan PLS-SEM, tetapi juga mempertimbangkan validitas isi. Validitas
isi menunjukkan tingkat seberapa besar item-item di instrumen mewakili konsep yang diukur
(Hartono 2011). Uji Pilot dengan menggunakan PLS-SEM dan validitas isi digunakan karena
instrumen pada penelitian ini dikembangkan sendiri oleh peneliti.
b. Pendekatan kualitatif
Pendekatan kualitatif dilakukan dengan mewawancarai responden yang terlibat dalam
analisis kuantitatif. Wawancara dilakukan dengan bertatap muka langsung dengan metode
wawancara semi terstruktur. Berdasarkan hasil uji pilot, pertanyaan-pertanyaan yang
digunakan untuk uji lapangan telah memenuhi asumsi validitas dan reliabilitas. Pertanyaan-
pertanyaan tersebut menggunakan skala Likert 1-5 (Sangat tidak setuju sampai sangat setuju).
Variabel tes meliputi proxy untuk kinerj, kekuatan, dan concern CSR. Dalam model (1),
variabel CSRT skor kinerja CSR korporasi secara keseluruhan. Hal ini diukur sebagai total
skor kekuatan CSR (STR) dikurangi total skor kepedulian CSR (CON). Penulis
menggunakan model (1) untuk menguji H1. Model (2) meliputi STR dan CON sebagai
variabel uji. Penulis menggunakan model (2) untuk menguji H2.
Penting untuk diketahui bahwa peneliti tidak bisa langsung mengamati konstruksi
teoritis kualitas audit. Variabel bebas konseptual-bertingkat membangun komposit untuk
kualitas audit yang mencerminkan tingkat kedua input dan proses sesuai dengan IAASB
Framework.8 variabel dependen konseptual tingkat kualitas audit pada tingkat output. Lebih
khusus, peneliti fokus pada biaya transaksi klien yang muncul setelah audit.
Pada tingkat operasional, peneliti berhubungan kualitas input dan proses audit untuk
apakah perusahaan menunjuk auditor Big Four. Peneliti mewakili hubungan antara kualitas
input audit dan proses dan ukuran operasional dengan Link 2 pada Gambar. 1. Peneliti fokus
pada kualitas output audit dalam bentuk transaksi biaya klien, yang peneliti mengukur dengan
ekuitas dan harga utang. Hubungan antara konsep kualitas output Audit: klien transaksi biaya
dan dua langkah-langkah operasional ditampilkan sebagai Link 3 di model.9 auditor dan
karakteristik klien terdiri dari variabel kontrol yang terkait dengan variabel dependen
operasional itu Link 4.