Anda di halaman 1dari 34

Diajukan untuk Memenuhi Tugas Mata Kuliah Penyusunan Skala Psikologi

Mata Kuliah Penyusunan Skala Psikologi

Dosen Pengampu: Dr. Kristiani Dewayani, M.Si., Psikolog.

Disusun Oleh:

Nama : Syifa Salsabila Ruswanda


Kelas : 3PA13
NPM :16518952

FAKULTAS PSIKOLOGI
UNIVERSITAS GUNADARMA
DEPOK
SEPTEMBER 2021
JOURNAL

Applied Psychometrics: The Steps of Scale Development and Standardization Process

Judul Jurnal : Applied Psychometrics: The Steps of Scale Development


and Standardization Process (Psikometri Terapan:
Langkah-langkah Pengembangan Skala dan Proses
Standardisasi)

Nama Jurnal : Scientific Research Publishing

Penulis Jurnal : Theodoros A. Kyriazos, Nishtha Kathuriab, Anastasios


Stalikas.

Volume & Halaman Jurnal : 9 & 2531-2560

Tahun : 2018

ABSTRAK

Penelitian ini berfokus pada penyajian proses pengembangan pengukuran tentang


self-reporting (pelaporan diri). Banyak prosedur pengembangan skala yang ditinjau
kembali. Mereka semua diringkas ke dalam kerangka keseluruhan secara berturut-turut.
Sebuah deskripsi singkat yang terkandung dalam setiap langkah. Masalah yang dibahas
meliputi. Pertama, landasan teoritis dari konstruksi skala dijelaskan, bersama dengan
spesifikasi respons dan format respons tersedia (yang paling populer seperti Likert dan
beberapa lainnya yang lebih terperinci). Kemudian pedoman penulisan itemnya diikuti
bersama dengan strategi untuk membuang item yang buruk saat menyelesaikan
kumpulan item. Kriteria pemilihan item yang dijelaskan terdiri dari review panel ahli,
pretesting dan analisis item. Dan terakhir, evaluasi dimensi diringkas bersama dengan
penilaian tes dan standarisasi (sesuai norma).
KATA KUNCI

Konstruksi Tes, Pengembangan Skala, Kuesioner, Timbangan Laporan Mandiri,


Butir Penulisan, Penskalaan, Analisis Butir, Analisis Faktor, Review Panel Ahli,
Standardisasi, Norma.

1. Pengenalan dan Konsep Dasar


Kuesioner (juga disebut tes atau skala) didefinisikan sebagai seperangkat item
yang dirancanguntuk mengukur satu atau lebih konstruksi yang mendasari, disebut
juga variabel laten (Fabrigar & Ebel-Lam, 2007). Dengan kata lain, ini merupakan
serangkaian pertanyaan laporan diri (self-reporting) yang objektif dan standar yang
tanggapannya kemudian dirangkum untuk menghasilkan skor. Skor item
didefinisikan sebagai angka yang ditetapkan untuk kinerja padaitem, tugas, atau
stimulus (Dorans, 2018 hal. 578). Definisi kuesioner atau tes luas dan mencakup
segala sesuatu mulai dari skala, hingga, mengukur kepuasan diri (misalnya SWLS
Diener et al., 1985), untuk menyelesaikan tesbaterai (battery-test) seperti baterai
Woodcock-Johnson IV oleh Schrank, Mather, danMcGrew (2014) terdiri dari tes
kognitif, (Irwing & Hughes, 2018). Skala item adalah indikator dari konstruk yang
diukur karena skornya juga merupakanindikator konstruk (Zumbo et al., 2002;
Singh et al., 2016). Umumnya, ada skala sikap, sifat, dan kemampuan (Irwing &
Hughes, 2018). Sikap, kemampuan dan ukuran penalaran intelektual atau ukuran
kepribadian dianggap sebagai alat teknis, yang setara, misalnya dengan pengukur
tekanan atau voltmeter (Coolican, 2014). Selama beberapa dekade terakhir,
instrumen tersebut menjadi populer dipsikologi terutama karena mereka
memberikan banyak informasi terkait konstruk laten yang telah dinilai (Raykov,
2012). Pengembangan Skala atau
konstruksi, adalah tindakan merakit atau menulis item yang paling tepat yang
merupakan pertanyaan dalam tes untuk populasi target (Chadha, 2009). Populasi
target adalah sebagai kelompok untuk apa tes itu dikembangkan (Dorans, 2018).
Pengembangan tes dan standardisasi (atau norma) adalah dua proses yang
terkaitpengembangan tes yang didahulukan kemudian mengikuti standardisasi.
Selama pengembangan tes, setelah perakitan dan analisis item, item-item yang
merupakan indikator terkuat dari konstruk laten yang diukur, dipilih dan yang
terakhir muncul, sedangkan dalam standardisasi, norma standar sudah ditentukan
(Chadha, 2009). Konstruksi skala yang efektif memiliki implikasi penting pada
kesimpulan penelitian, yang pertama-tama mempengaruhi kualitas dan ukuran efek
yang diperolehdan kedua signifikansi statistik dari efek tersebut (Furr, 2011), atau
dengan kata lain akurasi dan sensitivitas instrumen (Price, 2017). Serangakain set
standar untuk menilai tes standar untuk psikologi dan pendidikan telahditerbitkan
bersama oleh American Educational Research Association, theAmerican
Psychological Association, dan Dewan Nasional Pengukuran dalam Pendidikan
(AERA/APA/NCME, 1999, 2014; Streiner, Norman, &Kairo, 2015).Menurut
Irwing dan Hughes(2018) umumnya, tes yang berhasil dikembangkan karena
beberapa kombinasi dari tiga kondisi berikut, yaitu1) Kemajuan teoretis (misalnya
NEO PI-R oleh Costa & McCrae, 1995), 2) Kemajuan empiris (Misalnya MMPI
oleh Butcher, Dahlstrom, Graham, Tellegen, & Kaemmer, 1989), 3) Kebutuhan
praktis atau pasar (misalnya SAT oleh Coyle & Pillow, 2008).
Tujuan dari penelitian ini adalah untuk memberikan tinjauan pengembangan
skala dan proses standarisasi.

2. Ikhtiar Proses Pengembangan Skala


Proses pengembangan skala seperti yang dijelaskan oleh Trochim (2006)
diselesaikan menggunakan lima langkah (dikutip oleh Dimitrov, 2012), yaitu :1)
Tentukan sifat yang diukur, dengan asumsiunidimensional. 2) Hasilkan kumpulan
item Likert potensial, (lebih disukai80-100) dinilai pada skala 5 atau 7 skala yang
tidak setuju. 3) Item tersebut dinilaioleh panel ahli pada skala 1 - 5 tentang seberapa
baik item-item tersebut dapat mengukurkonstruk (dari 1 = sangat tidak
menguntungkan, sampai 5 = sangat mendukung). 4) Pilih item yang akan
dipertahankan untuk skala akhir. 5) Mengelola skala dan untuk beberapa tanggapan
dari semua item (skor mentah skala), membalikkan item yang mengukur sesuatu
dari arah yang berlawanan dari sisa skala. Karena secara keseluruhanpenilaian
dengan instrumen didasarkan pada skor responden pada semua item, kemudian
kualitas pengukuran skor total menjadi perhatian yang khusus (Dimitrov,2012).
Dalam nada yang sama, Furr (2011) juga menggambarkannya sebagai proses yang
diselesaikan dalam lima langkah: (a) Tentukan konstruk yang diukur dan
konteksnya, (b) Pilih Format Respons, (c) Susun kumpulan item awal, (d) Pilih dan
revisi item, (e) Mengevaluasi sifat psikometrik (lihat bagian yang relevan). Langkah
(d) dan(e) adalah proses iterative (berulang) dari penyempurnaan kumpulan awal
sampai sifat-sifat skalanya memadai. Skor tes kemudian dapat distandarisasi (lihat
bagian yang relevan).
Ada beberapa model pengembangan tes. Dalam praktiknya, langkah-langkah
dalam tahapan yang berbeda sebenarnya dapat dikelompokkan dan dilakukan dalam
kombinasi dan urutan yang berbeda, dan yang terpenting banyak langkah dari proses
yang berulang (Irwing & Hughes, 2018). Pada Tabel 1 dijelaskan proses
pengembangan skala oleh berbagai sumber berbeda yang disajikan sebagai langkah-
langkah yang disarankan oleh berbagaisumber yang berbeda. Perhatikan bahwa pada
Tabel 1 pendekatan integratif untuk proses pengembangan skala yang
menggabungkan langkah-langkah oleh semua sumber terdapat di bagian bawah.
Tabel 1. Tahapan proses pengembangan skala disajikan pada bagian di bawah
ini.

3. Fase A: Tujuan Instrumen dan Konstruksi Terukur


Ketika instrumen dikembangkan secara efektif, instrument tersebut
menunjukkan reliabilitas dan validitas yang memadai sehingga mendukung
penggunaan skor yang dihasilkan. Untuk mencapai tujuan ini, diperlukan
pengembangan yang sistematis (Price, 2017). Namun, pengembangan skala untuk
menilai atribut subjektif dianggap agak sulit dan membutuhkan sumber daya mental
serta keuangannya (Streiner et al., 2015). Prasyaratnya adalah menyadari semua
skala yang ada yang sesuai dengan tujuan instrumen pengukuran yang ingin
dikembangkan, menilai penggunaannya tanpa kecenderungan, untuk
memaksimalkan kekurangan sebelum memulai konstruksi pengujian jenis apa pun.
Kemudian, terdapat satu pertimbangan lagi: kelayakan. Beberapa dimensi kelayakan
yang perludipertimbangkan adalah waktu, biaya, penilaian, metode administrasi,
gangguan, konsekuensi dari keputusan positif palsu dan negatif palsu, dan
sebagainya. (Streiner et al., 2015). Setelah itu, proses pengembangan skala dapat
dimulai dengan definisi tujuan instrumen dalam domain tertentu, skor instrumen dan
kendala yang melekat dalam pengembangan (Dimitrov,2012; Price, 2017). Sebagai
aturan, dalam bidang penelitian psikologi, tujuan umum skala adalah untuk
membedakan antara individu dengan tingkat konstruksi yang diukur dari mereka
yang memiliki tingkat yang lebih rendah (Furr, 2011).
Namun, tes yang dikembangkan pertama-tama harus menentukan dengan jelas
konstruk yang dimaksud yang telah diukur. Mendefinisikan konstruk yang akan
diukur adalah langkah yang penting dimana membutuhkan kejelasan dan spesifikasi
(DeVellis, 2017; Price, 2017). Menguraikan konstruksi yang memungkinkan dengan
menghubungkan ide dengan teori (misalnya kecerdasan emosional;

Tabel 1. Proses pengembangan skala dijelaskan oleh berbagai sumber yang berbeda.
Sumber Langkah Proses Pengembangan

Crocker &
Algina,
1986

DeVellis,
2017

Furr,
2011:
p. 6

Streiner et
al., 2016:
p.5
Price,
2017:
p. 167

Irwing
& Hughes,
2018

Pendekata
n integratif
dari semua
sumber

Goleman, 1995). Namun, konstruksi dalam psikologi tidak dapat diamati secara
langsung (Kline, 2009; Sawilowsky, 2007; Milfont & Fisher, 2010 di antara banyak
lainnya), sehingga pengembang pertama-tama harus mendefinisikan landasan
filosofis umum untuk menghubungkan konstruksi dengan serangkaian sifat atau
perilaku yang dapat diamati. (Harga, 2017). Misalnya, Teori Broaden and Build
emosi positif oleh Fredrickson (Fredrickson, 1998, 2001, 2003, 2013) didalilkan
dalam gerakan psikologi positif, diprakarsai oleh Seligman (Seligman, 1998;
Seligman & Csikszentmihalyi, 2000) yang memandang psikologi dalam perspektif
yang berbeda dari "seperti biasa" (Seligman & Pawelski, 2003). Artinya, landasan
filosofis suatu tes atau instrumen adalah penghubung antara konstruk yang akan
diukur dan badan terkait dari suatu materi yang disebut domain (Nunnally &
Bernstein, 1994: p. 295 direproduksi oleh Price, 2017). Dimitrov (2012)
menawarkan contoh ilustratif: berbagai definisi "kemanjuran diri" ada dalam model
seperti Teori Kognitif Sosial (Bandura, 1997), Teori Perilaku yang Direncanakan
(Ajzen, 1991), Model Transtheoretical (Prochaska, Norcross, Fowler, Follick, &
Abrams, 1992), dan pendekatan Proses Tindakan Kesehatan (Schwarzer, 2001).
Kemudian konstruksi dapat dioperasionalkan. Memutuskan konstruk biasanya
didasarkan pada tinjauan literatur terkait, bersama dengan konsultasi dengan ahli
materi pelajaran. Kemudian definisi konstruk yang ringkas, jelas dan tepat
dihasilkan. Dengan menggunakan definisi ini, konten item ditentukan dengan presisi
dan kejelasan (Price 2017; DeVellis, 2017). Definisi konstruk awal harus sejelas
mungkin (DeVellis, 2017) tetapi seringkali agak luas. Dari titik ini, dengan tinjauan
literatur sistematis, tes yang ada diidentifikasi dan sifat dari konstruk target
dipelajari. Setelah tinjauan ini, pengembang tes dapat menyempurnakan definisi
konstruk lebih lanjut (Irwing & Hughes, 2018). Operasionalisasi konstruk
menetapkan hal-hal berikut: (a) model struktur internal; (b) model hubungan
eksternal dengan konstruksi lain; (c) indikator potensial yang relevan, dan (d) proses
terkait konstruk (Dimitrov, 2012). Langkah selanjutnya adalah menautkan konten
domain dengan kriteria terkait domain. Maka perencanaan diperlukan (Irwing &
Hughes, 2018) untuk menentukan berbagai pilihan yang tersedia berkaitan dengan
spesifikasi barang yang dijelaskan selanjutnya. Metode untuk mengidentifikasi
atribut yang secara akurat mewakili konstruk yang ditargetkan (terutama berguna
dalam tes kemampuan dan kecerdasan) oleh Price (2017) disajikan pada Tabel 2 dan
Gambar 1.

4. Fase B: Spesifikasi Skala Respon


Salah satu keputusan pertama saat merancang sebuah kuesioner adalah apakah
akan memasukkan pertanyaan terbuka (memungkinkan jawaban dengan kata-kata
responden sendiri) atau tertutup (memaksa tanggapan dari serangkaian pilihan).
Sebagian besar item tertutup, meskipun beberapa pertanyaan terbuka digunakan
dalam penelitian survei atau item yang membutuhkan input numerik misalnya usia,
berat badan, (Krosnick & Presser, 2010). Namun demikian, item 

Tabel 2. Metode untuk mengidentifikasi atribut yang secara akurat mewakili konstruksi yang ditargetkan.
Pakar materi pelajaran memutuskan atribut yang akan diukur
Wawancara elemen kunci melalui proses berulang
Tinjauan literatur terkait
Analisis isi untuk melacak dimensi atau area topik
Pengamatan langsung
(Price, 2017: hlm. 190-191; Wolfe & Smith, 2007 ; Dimitrov, 2012

Gambar 1. Pertanyaan yang harus dijawab selama perencanaan pengembangan skala (isi oleh Irwing &
Hughes, 2018: hlm. 9-10)

digunakan dalam kuesioner/tes penelitian psikologis bersifat tertutup karena ini


memungkinkan data yang akan dianalisis (Coolican, 2014; Furr, 2011). Kasus ketiga
adalah kombinasi format terbuka dan tertutup dengan menyertakan opsi "lain".
responden cenderung mengabaikan pilihan lain (Krosnick & Presser, 2010; Lindzey
& Guest, 1951; Schuman & Scott, 1987) Penskalaan pada item tertutup dapat
dikategorikan sebagai 1) kategoris atau kontinu; 2) berdasarkan tingkat
pengukurannya, yaitu nominal, ordinal, interval dan rasio (Streiner et al., 2015).
Dalam skala kategoris skor diperoleh dengan menjumlahkan (atau rata-rata) item
yang menerima jawaban dengan nilai biner (yaitu 1 = benar, 0 = salah). Dalam skala
berkelanjutan, skor dijumlahkan (atau dirata-ratakan) berdasarkan item dengan
nomor yang ditetapkan untuk kategori respons, yaitu dari 1 = sangat tidak setuju
hingga 5 = sangat setuju untuk item skala Likert lima poin (Dimitrov, 2012; Barker,
Pistrang, & Elliott, 2016). Terlepas dari ambiguitas dan ketidaksepakatan, peneliti
umumnya memperlakukan skala tipe Likert sebagai tingkat pengukuran interval
(Furr, 2011). Namun, skala penilaian yang dinilai pada skala 5 poin, tidak dianggap
sebagai pengukuran tingkat interval tetapi berkelanjutan (Streiner et al., 2015).
Pengembang harus memutuskan apa format respons pada tahap awal, bersamaan
dengan pembuatan item sehingga keduanya memiliki kompatibilitas (DeVellis,
2017). Skala respons datang dalam format yang berbeda dengan beberapa
spesifikasi yang harus dipertimbangkan oleh pengembang (lihat Gambar 2).

4.1. Format Skala Respon 


Secara kasar, format skala respons menunjukkan cara item disusun dan
respons diperoleh dan dievaluasi (Furr, 2011). Format skala umum

Jangka
Waktu Item

Jumlah
Kategori
Respon
Format
Respon Spresifikasi item untuk
Skala dipertimbangkan terutama pada
Skala Likert

Label
Kategori
Respon

Titik
Tengah
Gambar 2. Spesifikasi item terutama yang berhubungan dengan Likert dan skala tipe Liker yang
seharusnya diputuskan bersamaan dengan penulisan butir item.

(a) Penskalaan Guttman (Guttman, 1941, 1944, 1946); (b) Penskalaan


Thurstone (Thurstone, 1928); (c) Penskalaan Likert (Likert, 1932,
1952). (A) dan (B) bukan timbangan item yang berbobot sama,
sedangkan (c) seperti itu (timbangan item yang berbobot sama)
(DeVellis, 2017). Model Pengukuran Klasik lebih cocok untuk skala
dengan item yang kira-kira setara dengan sensor dari konstruksi yang
diukur, seperti Likert (lihat juga Price, 2017). Umumnya, skala yang
terdiri dari item yang diberi skor pada kontinum dan kemudian
dijumlahkan untuk menghasilkan skor skala lebih kompatibel dengan
Model Pengukuran Klasik (pengukuran variabel laten) menyebutkan
bahwa item adalah indikator yang sebanding dari konstruk yang
mendasarinya dibandingkan dengan Teori Respon Item yang merupakan
perspektif pengukuran alternative (DeVellis, 2017; Price, 2017) dan
kasus (A) dan (B) lebih cocok (DeVellis, 2017). Untuk alasan ini, kami
hanya menjelaskan secara singkat Penskalaan Guttman dan Thurstone
dan secara lebih rinci Penskalaan Likert atau umumnya semua (skala)
estimasi langsung yang kontinu dan bobotnya sama (DeVellis, 2017;
Streiner et al., 2015).

Penskalaan Guttman
Ini adalah metode perbandingan (Streiner et al., 2015). Penskalaan Guttman
(Guttman, 1941, 1944, 1946; Aiken, 2002) yang terdiri dari item-item yang
menyentuh tingkat atribut yang semakin tinggi (juga disebut analisis skalogram,
penskalaan deterministik, atau penskalaan kumulatif; Dimitrov, 2012). Seorang
responden harus memilih sekelompok item sampai jumlah atribut yang diukur
melebihi yang dimiliki oleh responden. Pada saat itu, tidak ada item lain yang harus
dipilih oleh grup. Data deskriptif murni bekerja dengan baik dengan skala Guttman,
misalnya ApakahAnda minum? “Apakah Anda minum lebih dari 2 gelas sehari?”
dan lain-lain. Tingkat atribut respondenditunjukkan dengan jawaban afirmatif
tertinggi. Penskalaan Guttman memiliki penerapan yang agak terbatas dengan
kerugian yang sering kali lebih besar daripada keuntungannya karena asumsi
hubungan sebab akibat yang sama kuatnya antara variabel laten dan masing-
masingitem tidak akan berlaku untuk item skala Guttman. Nunnally dan Bernstein
(1994) menyarankan model konseptual untuk skala ini (DeVellis, 2017; Streiner et
al., 2015). Dalampraktiknya, pola respon yang menggambarkan skala Guttman yang
sempurna jarang terjadi (Price, 2017). Lihatlah Tabel 3 untuk contoh.

Penskalaan Thurstone
Thurstone (1927) mengusulkan tiga metode untuk mengembangkan skala
unidimensional: metode interval yang tampak sama, metode interval berurutan, dan
metode perbandingan berpasangan (Dimitrov, 2012). Ide sentral dalam ketiga
metodeadalah bahwa pengembang skala merancang item yang sesuai dengan tingkat
yang berbeda dari atribut yang diukur (DeVellis, 2017). Kemudian sekelompok ahli
menilai derajat item yang mewakili atribut pada skala 1 (paling tidak representatif)
sampai 11 = paling representatif (Dimitrov, 2012). Namun, sebagai aturan, masalah
praktis yang melekat dalam menggunakan metode dengan Model Pengukuran
Klasik (DeVellis, 2017), proses pengembangannya yang menuntut dalam kombinasi
dengan hasil yang sebanding dengan skala Likert (Streiner et al., 2015) sering
meminimalkan keuntungannya.

Penskalaan Likert
Skala Likert—atau skala normatif Likert (Saville & MacIver, 2017)—
dikembangkan oleh Likert (1932, 1952)—mungkin merupakan format respon paling
umum dalam psikologi (Furr, 2011; Dimitrov, 2012; Barker et al., 2016) dan
serbaguna dan efektif untuk membedakan tingkat kemampuan atau pencapaian
(Haladyna, 2004; Price, 2017). Terdapat dua bagian: (1) item dan (2) skala respons
yang berisiserangkaian alternatif intensitas yang meningkat yang ditunjukkan oleh
nilai numerik bilangan bulat dan deskriptor verbal yang disebut jangkar (Barker et
al., 2016). Setiap respon dinilai dengan nilai integer (bilangan bulat) tertentu
(misalnya, 1 = Sangat Tidak Setuju; 5 = Sangat Setuju), dijumlahkan atau dirata-
ratakan di semua item dari dimensi skala (Fur, 2011). Contoh ditunjukan pada
Tabel 4.
Peringkat ditampilkan di Tabel 4 dipetakan ke kontinum bipolar dari titik-titik
yang sama mulai dari pernyataan sangat setuju hingga sangat tidak setuju. Pilihan
tanggapan harus diberi kata-kata untuk memiliki interval yang sama sehubungan
dengan persetujuan/ketidaksepakatan yang membentuk sebuah kontinum (DeVellis,
2017). Titik netral pada skala menawarkan opsi respons "middle of the road"(Price,
2017). Item Likert yang efisien dapat menilai pendapat, sikap, keyakinan dalam
istilah yang jelas, tetapi lebih cocok dengan pernyataan dengan kata-kata yang kuat
karena item yang ringan menghasilkan kesepakatan umum. (DeVellis, 2017).
Meskipun memungkinkan perbandingan langsung antara orang-orang skala Likert
telah menerima beberapa kritik karena kuantifikasi abstrak dari tingkat pengukuran
(Saville & MacIver, 2017). Variasi lain dari skala kategoris terurut seperti Likert
adalah skala penilaian perilaku. Misalnya, perilaku siswa di kelas dengan item
seperti “Siswa berperilaku tidak baik di kelas” dinilai sebagai Selalu = 5, Tidak
pernah = 1 (Price, 2017, contoh diadaptasi dari Price).

Tabel 3. Format Skala yang populer


Aku bisa (pilih satu):
1. Berlari sejauh 200 meter Benar… Salah…
Skala Guttman 2. Berlari sejauh 400 meter Benar… Salah…
3. Berlari sejauh 600 meter Benar… Salah…
4. Berlari sejauh 1 kilometer Benar… Salah…
1. Bagi saya sukses adalah syarat untuk
Setuju… Tidak Setuju…
bahagia
2. Mendapatkan pekerjaan yang baik itu
Setuju… Tidak Setuju…
penting, tapi tidak perlu
Skala Thurstone
3. Kebahagiaan tidar berhubungan dengan
Setuju… Tidak Setuju…
uang atau pencapaian
4. Mencapai kesuksesan mengahalangi
Setuju… Tidak Setuju…
kebahagiaan
Diferensial Video game itu:
Mudah Sulit
Semantik Baik Buruk
Seberapa parah sakit kepala anda dalam 24 jam terakhir ini ?
Analog Visual Sakit kepala paling parah yang
Tidak terasa
dialami
Skala peringkat Likert dan skala peringkat yang dijumlahkan tidak mengikuti
model pengukuran (Torgerson, 1958) namun, asumsi berikut dibuat: 1) interval kategori
memiliki panjang yang kira-kira sama, 2) label kategori ditetapkan secara subyektif, dan
3) fase tes awal selama pengembangan item diikuti dengan analisis item dari respon
(Price, 2017). Tidak perlu merentangkan rentang pernyataanlemah hingga kuat dalam
skala jenis ini karena opsi respons menawarkan kemungkinan gradasi konstruk yang
terukur (DeVellis, 2017).
Sama seperti bentuk pertanyaan yang dapat mempengaruhi tanggapan, demikian
juga bentuk skala tanggapan (Barker et al., 2016; Saris & Gallhofer, 2007; Schwartz,
1999). Alternatif skala respons lain untuk tipe Likert secara singkat disajikan dalam
Tabel 5.
Diferensial Semantik
Skala diferensial semantik (Osgood & Tannenbaum, 1955; Osgood, Tannenbaum,
& Suci, 1957) menghasilkan peringkat pada skala bipolar dengan kata sifat yang
berlawananberpasangan di setiap ujungnya (Heise, 1970; Price, 2017; DeVellis, 2017).
Nilai responsdikumpulkan di semua pasangan kata sifat untuk menghitung skor peserta
(Furr, 2017). LihatTabel 3untuk contoh.

Tabel 4. Skala Likert dengan 5 dan 7 poin.


Ada banyak yang bisa disyukuri dalam Saya sedang mencari arti dalam
Positif
hidup ini kehidupan ini
1 = Sangat Jarang atau
1 = Sangat Tidak Setuju 1 = Sangat Tidak Benar
Tidak Pernah
2 = Tidak Setuju 2 = Jarang 2 = Hampir Tidak Benar
3 = Sedikit Tidak Setuju 3 = Terkadang 3 = Sedikit Tidak Benar
4 = Netral 4 = Sering 4 = Tidak Bisa Menentukan
5 = Sedikit Setuju 5 = Sangat Sering 5 = Sedikit Benar
6 = Setuju 6 = Hampir Benar
7 = Sangat Setuju 7 = Sangat Benar
Scale of Positive and
The Gratitude Questionnaire-Six Item
Negative Experience Meaning in Life Questionnaire
Form (GQ-6) oleh (McCullough,
(SPANE) (Diener et al., (MLQ) oleh Steger et al. (2006)
Emmons, & Tsang, 2002)
2009, 2010)

(BAGIAN ARIP)
label, apakah yang menawarkan opsi titik tengah atau "tidak ada pendapat" dan
detail lainnya seperti kerangka waktu (Dimitrov, 2012; DeVellis, 2017; Price, 2017;
Barker et al., 2016; Fur, 2011). Pertimbangan ini sangat relevan dengan skala likert
dimana skala ini yang paling umum digunakan (Furr, 2011; Dimitrov, 2012; Barker
et al., 2016).

Jumlah Opsi Respon


Jumlah minimum yang diperlukan adalah dua, yaitu dalam skala biner
(misalnya, Setuju/Tidak Setuju, Benar/Salah), tetapi jumlah yang lebih besar
memiliki manfaat serta biaya (Furr, 2011). Likert (1932, 1952) timbangan yang
paling sering menggunakan 5 poin ialah; diferensial semantik (Osgood, Suci, &
Tannenbaum, 1957) 7 poin, dan Thurstone (1928) 11 poin (Krosnick & Pers, 2010).
Sumber lain menyarankan 5 poin untuk unipolar dan 7 poin untuk bipolar sebagai
skala optimal yang panjang (Fabrigar & Ebel-Lam, 2007). Lima hingga sembilan
poin cocok untuk kesempatan yang besar dan dalam hal apa pun (Streiner at al.,
2015; Krosnick & Presser, 2010) yang paling sering digunakan (Furr, 2011).
Namun, sebenarnya tidak ada standar (Krosnick & Presser, 2010: p. 268). Penskoran
item biner adalah sebagian besarnya digunakan dalam pengaturan di mana
nonresponse bukanlah opsi yang memungkinkan, atau/dan itu diperlakukan sebagai
yang tidak benar (Dorans, 2018) jika tidak, dapat mengakibatkan hilangnya
informasi dan (Streiner et al., 2015) mungkin tidak menarik bagi responden
(Streiner et al., 2015; juga mengutip Jones, 1968; Carp, 1989).
Manfaat potensialnya adalah jumlah opsi yang relatif besar, memungkinkan opsi
gradasi yang lebih baik (Furr, 2011), seperti meningkatkan akurasi mikroskop. Jika
sebuah skala respons tidak dapat membedakan perbedaan dalam konstruk target,
utilitasnya akan terbatas (DeVellis, 2017). Selain itu, keandalanyan lebih rendah
untuk skala yang dengan hanya dua atau tiga poin dibandingkan dengan skala
dengan lebih banyak poin, peningkatan keandalan ini menghilang setelah 7 poin
(Krosnick & Presser, 2010 juga mengutip Lissitz & Hijau, 1975; Jenkins & Taber,
1977; Martin, 1978; Srinivasan & Basu, 1989) dan hal yang sama umumnya berlaku
untuk validitas (Krosnick & Presser, 2010; Hijau & Rao, 1970; Lehmann & Hulbert,
1972; Lissitz & Hijau, 1975; Martin, 1973, 1978; Ramsay, 1973).
Biaya potensial memiliki banyak pilihan respons yaitu peningkatan kesalahan
acak, daripada bagian sistematis dari peningkatan konstruk target (Furr, 2011;
DeVellis, 2017). Masalah lain yang perlu dipertimbangkan adalah kemampuan
responden untuk membedakan secara bermakna di antara beberapa opsi. Terkadang
juga terlalu banyak pilihan yang menyebabkan responden hanya menggunakan
pilihan yang kelipatan 5 atau 10 (DeVellis, 2017). Akhirnya, beberapa bukti empiris
menunjukkan bahwa orang-orang di banyak negara dalam melakukan tugasnya tidak
dapat membedakan dengan mudah yang bisa melampaui tujuh poin (Streiner at al.,
2015 juga mengutip Miller, 1956; Hawthorne et al., 2006).

Label opsi respons (penahan)


Deskriptor paling sering digunakan mengetuk persetujuan (Sangat setuju hingga
Sangat tidak setuju), tetapi dimungkinkan untuk membangun skala Likert yang
dapat dibangun untuk mengukur hampir semua atribut, seperti persetujuan (Sangat
setuju hingga Sangat tidak setuju), penerimaan (Paling setuju - Paling tidak setuju),
kesamaan (Yang paling saya suka – Yang paling tidak saya suka), atau probabilitas
(kemungkinan) misalnya Kemungkinan besar - Kemungkinan kecil (Streiner et al.,
2015).
Umumnya, penelitian empiris menganggap penggunaan opsi respons berlabel
penuh lebih efektif yaitu pelabelan menghasilkan langkah-langkah dengan kualitas
psikometrik yang lebih baik daripada pelabelan hanya titik akhir (Krosnick et al.,
2005; Furr, 2011; Fabrigar & Ebel-Lam, 2007; Streiner dkk., 2015) atau setiap titik
lain dan titik akhir (Sreiner at al., 2015). responden dapat dipengaruhi oleh kata sifat
pada skala berakhir daripada yang terletak di antaranya. Mereka juga cenderung
lebih puas ketika semua titik skala diberi label (Streiner et al., 2015; Dickinson &
Zellinger 1980) dan cenderung lebih sering memilih label daripada poin yang tidak
berlabel (Streiner et al., 2015). Namun, ketika memberi label beberapa hal praktis
perlu dipertimbangkan.
1. Pertama, label harus membedakan secara bermakna tingkat pengukuran yang
ditawarkan.
2. Selain itu, mereka harus mewakili perbedaan yang setara. secara psikologis
di antara opsi respons (DeVellis, 2017; Furr, 2011).
3. Ketiga adalah peringkat opsi respons harus bermakna untuk semua item,
logis dan konsisten (Fur, 2011).

TITIK TENGAH
Titik tengah netral juga dapat ditambahkan ke skala peringkat dikotomis/bipolar
dengan memilih sejumlah opsi respons titik genap (Fur, 2011), misalnya, sikap
positif yang kuat vs sikap negatif yang kuat. Hal ini dapat dicapai dengan
menentukan jumlah poin yang ganjil, memungkinkan dalih ("tidak setuju atau tidak
setuju") atau ketidakpastian ("tidak yakin"). Dalam skala unipolar, masalah jumlah
poin ganjil atau genap mungkin memiliki konsekuensi yang kecil (Streiner et al.,
2015). Pilihan umum untuk titik tengah termasuk "tidak setuju atau tidak setuju",
"setuju dan tidak setuju sama-sama" (DeVellis, 2017), “netral” (Furr, 2011; Streiner
et al., 2015), atau "belum memutuskan" (Harga, 2017).
Krosnick dan Schuman (1988) dan Uskup (1990) menyarankan bahwa mereka
yang memiliki sikap kurang intens atau dengan minat terbatas lebih cenderung
memilih titik tengah (O'Muircheartaigh dkk., 1999; Krosnick & Presser, 2010).
O'Muircheartaigh dkk. (1999) juga memperhatikan untuk menambahkan titik tengah
keandalan dan validitas peringkat ditingkatkan. Juga, Pemodelan Persamaan
Struktural pada struktur kesalahan menunjukkan bahwa penghilangan titik tengah
menghasilkan pemilihan acak dari salah satu alternatif titik skala yang lebih dekat.
untuk menunjukkan bahwa menawarkan pilihan titik tengah mungkin lebih tepat
daripada mengecualikannya (Krosnick & Presser, 2010). Namun, opsi respons
"Tidak tahu" telah terbukti secara empiris tidak efisien (bahkan ketika ditawarkan
secara terpisah dari titik tengah) (Krosnick et al., 2005; Furr, 2011).
Namun, tergantung pada konstruk target, mungkin ada alasan untuk
mengecualikan dalih jika responden kemungkinan besar akan menggunakan pilihan
titik tengah untuk menghindari menjawab (Fabrigar & Ebel-Lam, 2007; DeVellis,
2017). Tidak ada kriteria selain kebutuhan penelitian tertentu (Streiner et al., 2015).
Analisis empiris tanggapan titik tengah menunjukkan bahwa mempertimbangkan
tanggapan titik tengah sebagai setengah jalan antara dua ujung yang berlawanan dari
konstruk target kompromi sifat psikometrik skala (Furr, 2011 juga mengutip
O'Muircheartaigh dkk., 2000).

5. Fase C: Pembuatan Item (Kolam Item)


Seiring dengan menentukan format respons, langkah paralel dalam
mengembangkan kuesioner adalah mengumpulkan atau merancang item untuk
kumpulan awal. (DeVellis, 2017; Furr, 2011). Spesifikasi isi instrumen
mengharuskan pengembang:
1) Mengoperasionalkan konstruk dengan menentukan daftar lengkap indikator
potensial (item) dari konstruk target,
2) Memilih daftar sampel representatif dari indikator (Dimitrov, 2012). Mungkin
menjadi salah satu langkah terpenting dari proses (Harga, 2017), karena tidak
ada operasi statistik berikutnya yang dapat mengimbangi item yang dinyatakan
dengan buruk atau tidak ada (Streiner et al., 2015)

Jumlah item yang disertakan

Kumpulan item awal lebih besar dari set skala akhir. Sebagai aturan, bisa 3 atau
4 kali lebih besar (DeVellis, 2017; Streiner et al., 2015), atau konstruksinya agak
menyempit 2 kali lebih besar (DeVellis, 2017). Menulis item yang lebih baik
daripada yang diperlukan memungkinkan pemilihan item terbaik, yaitu item yang
paling baik memperkirakan konstruk target dan yang bekerja dengan baik dengan
item lain dalam skala berdasarkan penelitian (Saville & MacIver, 2017). Redundansi
konten adalah aset kumpulan konstruksi karena meningkatnya keandalan konsistensi
internal yang pada gilirannya, mendukung validitas (Devellis, 2017).

Sumber barang potensial


Sumber informasi pertama adalah memeriksa apa yang telah dilakukan orang
lain (Furr, 2011; Streiner et al., 2015; Wechsler (1958), misalnya, dimasukkan ke
dalam tes IQ 11 subtes (dapat dilihat pada Taylor, 1953; Hathaway & McKinley,
1951 untuk strategi serupa). Ada beberapa alasan untuk adaptasi item dari instrumen
sebelumnya.

1. Pertama, menghemat pekerjaan.


2. Kedua, item yang ada biasanya terbukti secara psikometris dan
3. ketiga, sebagai aturan,
tidak ada cara yang tidak terbatas untuk bertanya tentang masalah tertentu.
(Streiner et al., 2015). Selain itu, saat menulis item, ada lima sumber ide potensial
yang berbeda (Streiner et al., 2015) :
a) populasi sasaran (kelompok fokus),
b) teori,
c) penelitian yang ada,
d) pendapat ahli dan/atau wawancara informan kunci dan
e) observasi klinis, jika ada.
Sumber item ini tidak saling eksklusif dan pengembang skala dapat
menggunakan item yang dihasilkan dari beberapa atau semua sumber (Streiner et
al., 2015). Kelompok fokus adalah sekelompok orang yang dipilih dengan cermat
(Willms & Johnson, 1993; P. 61) berbicara secara bebas dan spontan tentang
konstruk target di hadapan fasilitator (Streiner et al., 2015; Willms & Johnson,
1993). Biasanya, dua atau tiga kelompok dianggap cukup. Kondisi yang membuat
kelompok fokus tidak efektif adalah ketika populasi target sulit untuk berinteraksi
secara publik (yaitu karena fobia tertentu) atau karena konstruknya menyadap
perilaku yang memalukan atau ketidakmampuan yang dirasakan (Streiner et al.,
2015). Teori di sisi lain (didefinisikan secara luas), dapat mencakup model formal
atau ide-ide perilaku yang terbentuk secara samar, terutama jika konstruksinya
termasuk dalam domain yang relatif sempit. Selain itu, temuan penelitian dapat
menjadi sumber yang kaya untuk item dan sub skala potensial baik melalui tinjauan
pustaka dari studi yang ada di area tersebut atau penelitian. Namun, ketika
konstruksi menyentuh area baru, penelitian sebelumnya mungkin tidak tersedia.
Selanjutnya, praktik pendapat ahli tidak memiliki aturan tentang berapa banyak ahli
yang akan digunakan, bagaimana memilih mereka, atau bagaimana perbedaan di
antara pandangan mereka dapat ditentukan. Wawancara informan kunci adalah
wawancara dengan sejumlah kecil orang yang dipilih karena pengetahuannya.
Umumnya, semakin sedikit yang diketahui tentang area yang diteliti, semakin tidak
terstruktur wawancaranya. Tidak ada jumlah pasti orang yang harus diwawancarai.
Pengamatan klinis mungkin merupakan salah satu sumber item yang paling
bermanfaat untuk skala yang menargetkan populasi klinis (Streiner et al., 2015).
Informasi yang dikumpulkan dari prosedur di atas (misalnya tinjauan ahli) harus
digunakan untuk mendukung aspek isi validitas konstruk (Dimitrov, 2012; Streiner
et al., 2015; DeVellis, 2017).

Kata-kata Item
Kata-kata item penting sebagai cara dalam pengungkapan pertanyaan untuk
dapat menentukan respons (Sudman & Bradburn, 1982; Bradburn et al., 2004; Saris
& Gallhofer, 2007; Schwartz, 1999). Selama penulisan soal, isu-isu seperti kejelasan
bahasa, relevansi isi, dan penggunaan skala seimbang (yaitu dengan butir-butir kata
baik positif maupun negatif) biasanya dipertimbangkan (Fur, 2011).
Menyeimbangkan skala berarti mengatakan beberapa (Smith dkk., 2008) item secara
positif dan negatif terhadap konstruk target untuk meminimalkan efek set respons,
yaitu serangkaian respons yang serupa (Anastasi, 1982; Likert, 1932; Cronbach,
1950). Namun, penelitian umumnya menunjukkan bahwa tidak efisien (Streiner et
al., 2015; DeVellis, 2017). Saran berikut dibuat untuk konstruksi item skala sikap
(Gable & Wolfe, 1993: hlm. 40-60; direproduksi oleh Harga, 2017: hal. 178) :
1) Hindari item dalam bentuk lampau;
2) Membangun item yang mencakup satu pemikiran;
3) Hindari negatif ganda;
4) Menyukai item dengan struktur kalimat sederhana;
5) Hindari kata-kata yang menunjukkan kemutlakan seperti hanya atau
hanya, selalu, tidak ada;
6) Hindari barang-barang yang kemungkinan akan didukung oleh semua
orang;
7) Hindari item dengan multitafsir;
8) Gunakan bahasa yang sederhana dan jelas;
9) Simpan item di bawah 20 kata.
Berarti yang mendekati kemampuan membaca anak usia 11 - 13 tahun, tingkat
membaca yang digunakan oleh sebagian besar surat kabar (DeVellis, 2017; Streiner
et al., 2015). Secara khusus, kemampuan membaca anak-anak kelas lima adalah 14
kata dan 18 suku kata per kalimat, yaitu satu item (berdasarkan penelitian teks
berkelanjutan).(Dale & Chall, 1948; Fry, 1977; DeVellis, 2017; Streiner et al.,
2015), sehingga dipertanyakan (lihat Streiner dkk., 2015). Kalimat-kalimat yang
dapat dikuasai anak-anak kelas enam terdiri dari 15 - 16 kata dan sekitar 20 suku
kata. Aturan umum untuk implementasi yang efisien dari aturan kemampuan
membaca adalah akal sehat (DeVellis, 2017), dan hal yang sama berlaku untuk
aturan penulisan item (Krosnick & Presser, 2010).
Umumnya, kata-kata yang dipersonalisasi lebih melibatkan dan lebih disukai
oleh sebagian besar pengembang. Namun, ini mungkin bukan aset dalam konteks
yang sensitif. tense yang digunakan di semua item harus konsisten menunjuk pada
kerangka waktu yang jelas (Irwing & Hughes, 2018). Selain itu, apakah item dengan
kata-kata positif dan negatif keduanya termasuk dalam kumpulan harus
dipertimbangkan. Bagaimanapun, aturan tata bahasa harus diikuti. Ini akan
membantu menghindari beberapa ambiguitas sering muncul dari kumpulan item
yang berisi item dengan kata-kata positif dan negatif (Devellis, 2017) Untuk
memasukkan atau tidak item pengisi juga merupakan pertimbangan lain (lihat
DeVellis, 2017 untuk rincian). Lihat ringkasan prinsip-prinsip kunci menulis item
yang baik ada pada Gambar 3 dan beberapa contoh item dengan kata-kata yang
tidak berhasil pada Tabel 6.
6. Fase D: Evaluasi Item
Fase pembuatan item selesai ketika panel ahli meninjau kumpulan item
(DeVellis, 2017). Item yang dihasilkan ditinjau kualitas dan relevansinya oleh panel
ahli (Morrison & Embretson, 2018) atau dengan uji coba (Harga, 2017). Umumnya,
setelah meninjau item oleh kelompok ahli, juga merupakan praktik umum untuk
menguji coba item untuk memperoleh data untuk analisis item pertama (Irwing &
Hughes, 2018 mengutip dari DeMaio & Landreth, 2004; Presser & Blair, 1994;
Willis, Schechter, & Whitaker, 2000). Sebagai alternatif, empat metode tambahan
dapat digunakan untuk memberikan umpan balik tentang relevansi, kejelasan, dan
ketidak jelasan :
a. Uji coba lapangan,
b. Wawancara kognitif,
c. Eksperimen acak, dan
d. Kelompok fokus.

Item Yang harus Item Yang harus Item Yang harus Item Yang harus
dimiliki dimiliki dimilki dimiliki
(Barker, et al., 2016) (Furr, 2011) (Fabriger & Ebel-Lam, (Saville and Maclver,
2007) 2017)
1. Kejelasan (clarity) 1. Tidak ada 1. Keringkasan 1. Ditargetkan dan
2. Kesederhanaan kata yang (Brievity) sederhana
(simplicity) rumit (no 2. Ketidakjelasan (Targeted and
3. Kekhususan complex (unambiguity) simple)
(Specificity) words) 3. Kejelasan 2. Singkat dan
4. Satu pertanyaan di 2. Tidak ada (Clarity) mudah dipahami
setiap item (single jargon 4. Tidak ada item (short and
question at each psikologi (no beralas ganda (no comprehensible)
item) psychology double-barreled 3. Langsung dan
5. Keringkasan jargon) item) tanpa idiom
(brevity) 3. Tidak ada (Direct and
ganda Without idioms)
negative (no 4. Diutarakan
double- secara langsung
negatives) dan mengacu
4. Tidak ada pada diri sendiri
item berlaras (positively
ganda phrased and self-
(no double- referent)
barreled item) 5. Relevan dengan
pekerjaan dan
internasional
(work-relevant
and
internasional)
Gambar 3. Prinsip-prinsip kunci untuk penulisan item yang sukses seperti yang disarankan oleh empat sumber
berbeda dalam literatur pengembangan skala

Tabel 6. Beberapa contoh kata-kata item yang tidak berhasil.

Item Masalah (Problem)


Tidakkah anda berfikir bahwa merokok harus dilarang Pertanyaan utama – lebih menyukai jawaban ya
digedung-gedung umum ?
Asusmsi implisit - diasumsikan responden
Seberapa sering anda merujuk ke psikolog? merujuk ke psikologi

Seberapa sering anda menangis ? Non-netralitas – “Break down” memberikan


nada negative pada tangisan
Apakah anda pernah menderita sakit punggung?
Ambigu dan tidak jelas – tidak merinci maslaah
Apakah anda puas dengan pekerjaan anda atau anda dan kerangkan waktu
mengalami masalah ?
Pertanyaan beralas ganda (meminta dua hal yang
Apakah anda melihat gejala konversi motorik selama 4 berbeda pada saat yang sama)
minggu terakhir ini ?
Rumit-menggunakan jargon yang professional
Memang benar bahwa salah satu hal yang sepertinya
bermasalah membuat poin ketika berdiskusi dengan Kurangnya singkatan/ekonomi – “saya sering
orang lain mengalami kesulitan dalam menyampaikan
maksud” menyampaikan arti yang sama dengan
kata-kata yang lebih singkat
Konten diadaptasi oleh Barker et al., 2016: hlm. 111-112; DeVellis, 2017: hal. 101.

(Irwing & Hughes, 2018; Streiner et al., 2015). Validitas item dilengkapi dengan
analisis item untuk memperkirakan kualitas psikometrik setiap item dalam
mengukur konstruk target (misalnya,Ackerman, 1992; Allen & Yen, 1979; Anastasi
& Urbina, 1997; Clauser, 2000; Crocker & Algina, 1986; Haladyna, 1999; Janda,
1998; Wilson, 2005; Wright & Masters, 1982seperti dikutip oleh Dimitrov, 2012).
Hasil analisis item dari validitas konstruk pendukung(Streiner dkk., 2015).

ULASAN PARA AHLI UNTUK PANEL ITEM

Tinjauan ahli dapat mencakup: 1) tinjauan konten, yang memberikan masukan


tentang kumpulan item awal terkait relevansinya dengan domain konten, akurasi,
dan kelengkapan; 2) tinjauan sensitivitas, mengevaluasi bias item potensial; dan 3)
penetapan standar, sebuah proses di mana para ahli mengidentifikasi skor cutoff
untuk keputusan yang direferensikan kriteria pada tingkat kinerja atau klasifikasi
diagnostik (Dimitrov, 2012).

Tinjauan ini memiliki berbagai tujuan terkait dengan memaksimalkan validitas


konten. Proses peninjauan sangat berguna ketika mengembangkan instrumen yang
terdiri dari skala terpisah untuk mengukur beberapa konstruksi. Prosedur umumnya
melibatkan penilaian relevansi setiap item untuk konstruk menurut definisi yang
diberikan. Definisi tersebut bisa juga bisa menegaskan atau tidak. Reviewer juga
dapat menilai kejelasan dan keringkasan setiap item. Peninjau ahli juga dapat
menilai kelengkapan konten. Pengembang dapat menerima atau menolak saran para
ahli karena ahli konten mungkin tidak terbiasa dengan prinsipprinsip konstruksi
skala (DeVellis, 2017). Kriteria untuk item yang akan dibuang dirangkum dalam
Tabel 7.

Panduan yang lebih canggih untuk memilih item yang paling berharga adalah
dengan menggunakan rasio validitas konten (CVR) (Lawshe, 1975; Waltz &
Bausell, 1981; Lynn, 1986). Setiap anggota panel ahli (mungkin terdiri dari
cendekiawan dan masyarakat umum), diberikan daftar item beserta dimensi
kontennya. Tugas mereka adalah mengevaluasi setiap item pada skala 4 poin (4 =
Sangat Relevan; 3 = Cukup Relevan/Sangat Relevan tetapi Perlu Penyusunan Kata
Ulang; 2 = Agak Relevan; dan 1 = Tidak Relevan). Kemudian CVR dihitung
menggunakan rumus berikut untuk mengevaluasi peringkat: Tabel 7.

Kriteria yang Diusulkan untuk mempertahankan dan membuang barang sebelum


atau/dan setelah tinjauan ahli Interpretabilitas Tertinggi Ambiguitas Terendah Tolak
item berlaras ganda (memeriksa dua hal dalam satu item) seperti “Saya merasa
pusing dan tangan gemetar” Tolak item menggunakan bahasa Jargon Jangan
mencampur item positif dan negatif Hindari item yang panjang Konten didasarkan
pada Streiner dkk., 2015.

Formula 1: Rasio validitas isi (CVR) :

di mana ne adalah jumlah penilai dengan peringkat 3 atau 4 (yaitu peringkat


item penting) dan n adalah jumlah total penilai. CVR dapat berkisar dari 1 hingga
+1, dan nilai nol berarti bahwa setengah dari panel menilai item sebagai penting.
Lawshe (1975) menyarankan nilai CVR 0,99 untuk lima atau enam penilai (jumlah
minimum), 0,85 untuk delapan penilai, dan 0,62 untuk 10 penilai. Item dengan nilai
lebih rendah harus ditolak(Streiner et al., 2015).

Uji coba Item (Pretesting)

Sejauh ini, konstruksi tes tergantung pada teori, bukti empiris sebelumnya, dan
penilaian subjektif berdasarkan pengetahuan ahli. Tahap selanjutnya termasuk
administrasi ke sampel yang sesuai(Irwing & Hughes, 2018). Ini dianggap mungkin
intisari dari proses pengembangan skala mungkin setelah pengembangan item
(DeVellis, 2017). Pengujian percontohan melibatkan pengujian skala ke sampel
yang representatif dari populasi target untuk mendapatkan informasi statistik tentang
item, komentar, dan saran(Streiner et al., 2015). Statistik deskriptif kemudian akan
melalui analisis item yang memberikan informasi penting untuk setiap item(Harga,
2017). Analisis item digunakan untuk memilih item terbaik. Analisis item
memungkinkan deteksi item yang: 1) ambigu, 2) salah mengetik atau mencetak gol,
3) terlalu mudah atau terlalu sulit, dan 4) tidak cukup diskriminatif (Harga, 2017).
Fase ini umumnya terdiri dari teknik statistik berikut: a) Periksa interkorelasi antara
semua pasangan item berdasarkan penilaian ahli panel dan uji coba; b) Hapus item
yang berkorelasi rendah dengan skor total; c) Lacak perbedaan antara rata-rata item
dan 25% dari peringkat ahli. Item yang memiliki nilai lebih tinggi berpotensi
menjadi pembeda yang lebih baik dari konstruk target; dan d) Mempertimbangkan
karakteristik setiap item dan pertimbangan praktis mempertahankan item dengan
korelasi item-total tinggi dan diskriminasi tinggi (Dimitrov, 2012; Trochim, 2006).

Perhatikan, bagaimanapun, bahwa beberapa sarjana menyarankan sampel


pengembangan besar misalnya n = 300 untuk skala 20 item setelah tinjauan ahli
(DeVellis, 2017), sementara yang lain mengusulkan tinjauan item (seperti tinjauan
panel) dalam 1 - 3 kelompok kecil. Saran sampel grup bervariasi darin = 100 (Singh
et al., 2016) sampai 6 - 10 (lihat Streiner dkk., 2015) atau 20 - 30 (Barker et al.,
2016) untuk mengevaluasi kejelasan item, keandalan, dan karakteristik item (sarana
dan standar deviasi) dan memeriksa dimensi sebelum penelitian skala besar untuk
merencanakan penelitian skala besar dengan lebih baik (Muthén & Muthén, 2009;
Barker et al., 2016; Singh et al., 2016). Hal ini disebabkan kurangnya konsensus
umum pada semua langkah proses pengembangan skala. Lihat perbandingan
berbagai proses alternatif di Tabel 1 . Uji coba percontohan adalah bagian dari
interproses aktif yang dapat diulang sebanyak yang diperlukan untuk memastikan
properti item yang diinginkan (Furr, 2011; Harga, 2017). Masalah ukuran sampel
umumnya merupakan bagian dari perdebatan sampel validasi konstruk dan itu
berada di luar cakupan pekerjaan ini. Untuk detail lihatKyriazos (2018a, 2018b).

Kriteria Analisis Item


Item yang serupa sejauh mereka memiliki relevansi dengan konstruk target dan
tidak berkaitan dengan aspek lain dapat menjadi item yang baik dan tidak dibuang
(DeVellis, 2017). Kriteria kualitas butir soal berkorelasi tinggi dengan nilai
sebenarnya dari variabel laten. Jadi, item interkorelasi tertinggi yang ditunjukkan
dengan memeriksa matriks korelasi lebih disukai. Jika item dengan korelasi negatif
dengan item lain terjadi, maka skor terbalik dapat dipertimbangkan. Item yang
berkorelasi positif dengan beberapa dan berkorelasi negatif dengan yang lain harus
dihilangkan dalam set yang homogen jika item dengan skor terbalik tidak
menghilangkan korelasi negatif (DeVellis, 2017). LihatGambar 4 untuk ikhtisar
kriteria pengujian percontohan yang diusulkan oleh Streiner dkk. (2015: hlm. 94).
Perhatikan juga bahwa analisis Item dapat dilakukan dalam konteks SEM, namun
pendekatan ini berada di luar cakupan pekerjaan ini. Mengacu padaRaykov (2012)
untuk rincian.

Bias Respon

Pertimbangan tambahan saat memilih item adalah apakah item menyebabkan set
respons yang bias respons atau menghasilkan artefak respons. Umumnya, ini
terutama dikaitkan dengan urutan item. Kumpulan respons yang paling umum
adalah: mengatakan ya (bias persetujuan—responden setuju dengan pernyataan),
tidak mengatakan (responden menolak pernyataan), artefak konsistensi dan
ketersediaan, halo(Thorndike, 1920; Campbell & Fiske, 1959: hlm. 84), dan

ITEM PRETEST
Bisa dimengerti Tidak ambigu Bertanya satu persatu
Buang atau tulis ulang item yang tidak bertemu dengan kriteria dan pretest ulang

Evaluasi internal dengan konsistensi item korelasi


Korelasi tiap item Eliminasi item dengan Mengurutkan urutan sisa
dengan skala total item pearson r <0,20 dan memilih item dari
yang hilang korelasi tertinggi
Kalkulasi Cronbach a atau KR-20 koefesiensi
Eliminasi satu item Hapus item meningkatkan nilai a secara signifikan
dalam satu waktu

Untuk kuesioner multiskala, cek item dengan skala yang benar


Fakta analisa Eliminasi item muatan
silang
Gambar 4. Ikhtisar prosedur pengujian percontohan dan prosedur analisis item

artefak keinginan sosial, yaitu responden mencoba menampilkan diri mereka dalam
cahaya yang menguntungkan Skala Likert juga dapat menghadirkan bias tendensi
sentral responden menghindari pemilihan kategori skala ekstrim (Irwing & Hughes,
2018; Dimitrov, 2012).

7. Fase E: Menguji Sifat Psikometrik Skala.


Pada tahap akhir dari proses pengembangan tes, studi validasi selalu dilakukan
dalam sampel pengembangan yang besar dan representatif (DeVellis, 2017) untuk
memperkirakan lebih lanjut sifat psikometrik skala (Dimitrov, 2012). Yaitu, setelah
kumpulan item awal telah dikembangkan dan uji coba (pra-tes) dalam sampel yang
representatif, kinerja item individual untuk memilih yang paling tepat untuk
dimasukkan ke dalam skala akhir dan untuk memeriksa dimensi skala (DeVellis,
2017). Teknik statistik yang digunakan untuk tujuan ini adalah analisis item (seperti
pada saat pretesting) dan analisis faktor (Price, 2017). Kriteria pemilihan butir soal
analisis butir soal pada tahap ini sama dengan pada tahap pretesting (Singh et al.,
2016). Dimensi skala diperiksa dengan Analisis Faktor Eksplorasi dan Analisis
Faktor Konfirmatori (Furr, 2011; Singh et al., 2016). Biasanya, timbangan
diberikan, dianalisis, direvisi, dan dikelola kembali beberapa kali sebelum sifat
psikometriknya dapat diterima (Irwing & Hughes, 2018; Furr, 2011).
7.1. Dimensi
Dimensi skala, atau struktur faktor, mengacu pada jumlah dan sifat
variabel yang tercermin dalam item-itemnya (Fur, 2011). Sebuah skala
mengukur konstruksi tunggal (misalnya properti atau kemampuan) disebut
unidimensional. Artinya ada satu variabel laten (faktor) yang mendasari item
skala. Sebaliknya, skala yang mengukur dua atau lebih konstruksi (variabel
laten) bersifat multidimensi (Dimitrov, 2012). Pengembang memeriksa
beberapa masalah mengenai dimensi skala dalam fase proses pengembangan
skala ini. Pertama, mereka berusaha untuk menentukan jumlah dimensi di
bawah konstruk. Ini disebut variabel laten (faktor) dan diukur dengan item
skala. Sebuah skala unidimensional ketika semua item menyentuh satu
konstruksi (misalnya harga diri). Di sisi lain, skala multidimensi ketika item
skala menyentuh dua atau lebih variabel laten, misalnya tes kepribadian
(Dimitrov, 2012). Jika skalanya multidimensi, pengembang juga memeriksa
apakah dimensi tersebut saling berkorelasi. Akhirnya, dalam skala
multidimensi, variabel laten harus ditafsirkan sesuai dengan latar belakang
teoritis untuk melihat dimensi apa yang mereka sentuh, mengidentifikasi
sifat konstruk yang direfleksikan oleh dimensi. (Fur, 2011) menunjukkan
validitas konstruk (Streiner dkk. (2015) dan menghitung keandalan masing-
masing. Analisis faktor memiliki jawaban atas pertanyaan dimensi (lihat
Gambar 5).

Sumber:Diadaptasi oleh Furr, 2011: hal. 26.

Gambar 5. Proses evaluasi dimensi skala dalam pengembangan danisu-isu yang terkait dengannya.
7.2. Analisis Faktor
Analisis faktor adalah teknik statistik yang menyediakan pendekatan yang
ketat untuk mengkonfirmasikan apakah set item tes terdiri dari fungsi tes
dengan cara yang kongruen dengan teori G yang mendasari tes (Price, 2017:
hal. 180), berdasarkan teori pengukuran klasik, juga disebut Teori Tes Klasik
(DeVellis, 2017). Analisis faktor merupakan bagian integral dari
pengembangan skala. Ini memungkinkan data dianalisis untuk menentukan
jumlah faktor yang mendasari taruhan kesehatan sekelompok item yang
disebut faktor sehingga prosedur analitik dari sifat psikometrik seperti alpha
Cronbach (Cronbach, 1951) korelasi dengan konstruksi lain dapat dilakukan
dengan baik. Akhirnya, melalui wawasan identifikasi faktor ke dalam sifat
variabel laten yang mendasari item skala diperoleh (DeVellis, 2017). Faktor
didefinisikan sebagai perwakilan variabel yang tidak teramati atau laten dari
suatu konstruk (Price, 2017: hal. 236). Penjelasan rinci tentang teknik-teknik
ini berada di luar cakupan pekerjaan ini tetapi Anda dapat merujuk ke
Kyriazos (2018a, 2018b) untuk deskripsi lengkap dari proses validasi
konstruk. Untuk studi validasi skala, lihat Howard dkk. (2016), El Akremi,
Gond, Swaen, De Roeck, and Igalens (2015), Konrath, Meier, Bushman
(2017). Pavot (2018) juga menyarankan untuk meninjau Lyubomirsky dan
Lepper (1999), Seligson, Huebner, dan Valois (2003) dan Diener dkk.
(2010).
7.3. Teori Respon Item (IRT)
Ada juga alternatif model teori tes klasik yang disebut teori respon item
(IRT). IRT sering disajikan sebagai alternatif unggul untuk CTT (lihatDe
Boeck & Wilson, 2004; Embretson & Reise, 2010; Nering & Ostini, 2010;
Reise & Revicki, 2015 dikutip oleh DeVellis, 2017). IRT merupakan
pendekatan pengukuran berbasis model dengan menggunakan pola respon
item dan kemampuan seseorang. Dalam IRT, tanggapan pribadi untuk setiap
item skala dapat dijelaskan berdasarkan tingkat kemampuannya.
Kemampuan responden diwakili oleh fungsi yang meningkat secara
monoton, berdasarkan pola respons (Price, 2017).
Menurut IRT, beberapa faktor mempengaruhi respons seseorang. Seiring
dengan tingkat konstruk yang dirasakan seseorang yang diukur oleh setiap
item skala, properti item lain yang berpotensi mempengaruhi tanggapan
adalah: (a) kesulitan item, (b) diskriminasi item, dan (c) menebak. Dalam
sebagian besar aplikasi IRT dalam konteks psikologi, peneliti
memperkirakan kedua sifat psikometrik pada tingkat item dan pada tingkat
skala. IRT mencakup banyak model pengukuran spesifik sebagai fungsi dari
berbagai faktor yang berpotensi mempengaruhi respons individu. Namun,
semua model IRT dibingkai menurut probabilitas responden untuk
merespons dengan cara tertentu terhadap suatu item, sebagai akibat dari
tingkat tertentu dari perilaku yang mendasarinya. Model pengukuran IRT
yang paling sederhana hanya terdiri dari kesulitan item sementara model
yang lebih kompleks juga terdiri dari dua atau lebih parameter item, seperti
diskriminasi item dan tebakan. Ada model yang berbeda untuk item
dikotomis dan berbeda untuk item politomus (Fur, 2011). Model IRT juga
bervariasi sesuai dengan jumlah opsi respons item.
Efektivitas suatu teknik adalah fungsi dari kerangka teoritis dari konstruk
target. Penilaian IRT digunakan dalam tes kemampuan kognitif, namun,
dalam situasi lain, jenis penilaian ini mungkin tidak diinginkan (Irwing &
Hughes, 2018). Kombinasi CTT dan TRT disarankan sebagai pilihan
alternatif (Embretson & Hershberger, 1999; DeVellis, 2017; Irwing &
Hughes, 2018). Dalam kebanyakan kasus, praktik umum dalam
pengembangan tes melibatkan kombinasi analisis faktor konfirmatori (CFA)
dan IRT(Irwing & Hughes, 2018) atau lebih umum kombinasi EFA dan CFA
(Steger et al., 2006; Fabrigar & Wegener, 2012; Kyriazos, 2018a).
7.4. Skor Tes dan Standardisasi (Norming)
Skor skala mentah dapat didasarkan pada jumlah skor item tertimbang
unit atau pada skor faktor. Skema penilaian berbobot unit, hasilkan skor
standar menggunakan sampel standarisasi yang sesuai, atau sampel
normative (Dimitrov, 2012), misalnya, skor stanine, sten, dan t (Smith &
Smith, 2005). Jumlah bobot unit skor item tanpa standarisasi dapat
dipertimbangkan pada beberapa kerangka penelitian. Prosedur Box-Cox
(Box & Cox, 1964) untuk memperkirakan kekuatan yang skor skala harus
dinaikkan untuk mengikuti normalitas. Selanjutnya, skor skala juga
dinaikkan ke kekuatan yang diperkirakan sebelumnya dan distandarisasi.
Standardisasi (atau norming) dilakukan dengan mengurangkan nilai rata-rata
yang ditransformasikan dari skor skala yang ditransformasikan dan
membaginya dengan standar deviasi dari skor-skor yang ditransformasikan.
(Irwing & Hughes, 2018). Skor standar menunjukkan posisi relatif setiap
responden dalam populasi target.
(A) Pembobotan variabel pada item skala hanya efektif dalam kondisi
tertentu.
(B) jika tes dibuat untuk penggunaan lokal/terbatas, hanya jumlah item yang
mungkin cukup. Untuk memungkinkan perbandingan hasil dengan
instrumen lain, skor disarankan untuk diubah menjadi persentil, menjadi
skor-z atau skor-T.
(C) Untuk pengukuran atribut-atribut yang tidak sama pada laki-laki dan
perempuan, atau untuk atribut-atribut yang menunjukkan perubahan
perkembangan maka dapat dipertimbangkan norma usia dan/atau usia-
jenis kelamin yang terpisah.
8. Ringkasan & Kesimpulan
Para ahli menyarankan bahwa pengukuran yang efektif adalah landasan
penelitian ilmiah (DeVellis, 2017; Netemeyer, Bearden, & Sharma, 2003) dan
merupakan bagian integral dari model variabel laten (Slavec & Novsek, 2012).
Secara umum ada ukuran sikap, sifat, dan kemampuan. Tujuan penskalaan adalah
untuk membangun skala dengan karakteristik pengukuran tertentu untuk konstruk
yang diukur. Format respons yang paling umum digunakan dalam semua psikologi
adalah jenis Likert, pilihan ganda, atau item pilihan paksa. Penskalaan umumnya
dibagi menjadi jenis yang ditetapkan oleh: Thurstone (1927, 1928), Likert (1932,
1952), atau Guttman (1941, 1944, 1946).
Dalam penskalaan Likert, tingkat respons ditambatkan dengan nilai bilangan
bulat berurutan, masing-masing sesuai dengan label verbal yang menunjukkan
interval jarak yang kira-kira sama dan ini adalah skala paling populer dalam ukuran
psikologi. (Dimitrov, 2012; Furr, 2011, Barker et al., 2016). Sampai tingkat tertentu,
jenis penskalaan dan format respons, berdampak pada penulisan item dan pada
pengembangan skala secara keseluruhan. (Irwing & Hughes, 2018). Kumpulan item
harus sekaya mungkin untuk skala yang sedang berkembang. Itu harus berisi banyak
item yang berkaitan dengan konstruksi target (DeVellis, 2017). Langkah-langkah
proses pengembangan instrumen meliputi: 1) definisi tujuan instrumen, domain dan
konstruk; 2) mendefinisikan format skala respon; 3) pembuatan item untuk
membangun kumpulan item 2 - 4 kali lebih besar dari panjang yang diinginkan dari
versi skala akhir; 4) pemilihan item berdasarkan review panel ahli dan/atau
pretesting untuk memaksimalkan reliabilitas instrumen dengan analisis item; 5)
studi validasi skala besar untuk menetapkan validitas konstruk dengan analisis item
tambahan, analisis faktor dan untuk menstandarisasi skor skala.
Membangun studi validasi untuk mengevaluasi dimensi dan norma skala adalah
langkah yang diperlukan dalam pengembangan skala setelah kumpulan diperiksa
oleh para ahli dan/atau pra-pengujian. Keandalan pengukuran menandakan sejauh
mana skor menunjukkan akurasi, konsistensi, dan replikabilitas. Validitas konstruk
terutama dibuktikan dengan konsistensi korelasional dan pengukuran dari konstruk
target dan item-itemnya (indikator) terutama dengan mengukir analisis faktor
(Dimitrov, 2012). Timbangan yang dikembangkan dengan cermat dan tepat
memiliki potensi lebih besar untuk berkembang menjadi kuesioner yang mengukur
kriteria dunia nyata dengan lebih akurat (Saville & MacIver, 2017).

Konflik Kepentingan

Para penulis menyatakan tidak ada konflik kepentingan mengenai publikasi makalah
ini.

Anda mungkin juga menyukai