Terjemahan Jurnal Psychometric
Terjemahan Jurnal Psychometric
Disusun Oleh:
FAKULTAS PSIKOLOGI
UNIVERSITAS GUNADARMA
DEPOK
SEPTEMBER 2021
JOURNAL
Tahun : 2018
ABSTRAK
Tabel 1. Proses pengembangan skala dijelaskan oleh berbagai sumber yang berbeda.
Sumber Langkah Proses Pengembangan
Crocker &
Algina,
1986
DeVellis,
2017
Furr,
2011:
p. 6
Streiner et
al., 2016:
p.5
Price,
2017:
p. 167
Irwing
& Hughes,
2018
Pendekata
n integratif
dari semua
sumber
Goleman, 1995). Namun, konstruksi dalam psikologi tidak dapat diamati secara
langsung (Kline, 2009; Sawilowsky, 2007; Milfont & Fisher, 2010 di antara banyak
lainnya), sehingga pengembang pertama-tama harus mendefinisikan landasan
filosofis umum untuk menghubungkan konstruksi dengan serangkaian sifat atau
perilaku yang dapat diamati. (Harga, 2017). Misalnya, Teori Broaden and Build
emosi positif oleh Fredrickson (Fredrickson, 1998, 2001, 2003, 2013) didalilkan
dalam gerakan psikologi positif, diprakarsai oleh Seligman (Seligman, 1998;
Seligman & Csikszentmihalyi, 2000) yang memandang psikologi dalam perspektif
yang berbeda dari "seperti biasa" (Seligman & Pawelski, 2003). Artinya, landasan
filosofis suatu tes atau instrumen adalah penghubung antara konstruk yang akan
diukur dan badan terkait dari suatu materi yang disebut domain (Nunnally &
Bernstein, 1994: p. 295 direproduksi oleh Price, 2017). Dimitrov (2012)
menawarkan contoh ilustratif: berbagai definisi "kemanjuran diri" ada dalam model
seperti Teori Kognitif Sosial (Bandura, 1997), Teori Perilaku yang Direncanakan
(Ajzen, 1991), Model Transtheoretical (Prochaska, Norcross, Fowler, Follick, &
Abrams, 1992), dan pendekatan Proses Tindakan Kesehatan (Schwarzer, 2001).
Kemudian konstruksi dapat dioperasionalkan. Memutuskan konstruk biasanya
didasarkan pada tinjauan literatur terkait, bersama dengan konsultasi dengan ahli
materi pelajaran. Kemudian definisi konstruk yang ringkas, jelas dan tepat
dihasilkan. Dengan menggunakan definisi ini, konten item ditentukan dengan presisi
dan kejelasan (Price 2017; DeVellis, 2017). Definisi konstruk awal harus sejelas
mungkin (DeVellis, 2017) tetapi seringkali agak luas. Dari titik ini, dengan tinjauan
literatur sistematis, tes yang ada diidentifikasi dan sifat dari konstruk target
dipelajari. Setelah tinjauan ini, pengembang tes dapat menyempurnakan definisi
konstruk lebih lanjut (Irwing & Hughes, 2018). Operasionalisasi konstruk
menetapkan hal-hal berikut: (a) model struktur internal; (b) model hubungan
eksternal dengan konstruksi lain; (c) indikator potensial yang relevan, dan (d) proses
terkait konstruk (Dimitrov, 2012). Langkah selanjutnya adalah menautkan konten
domain dengan kriteria terkait domain. Maka perencanaan diperlukan (Irwing &
Hughes, 2018) untuk menentukan berbagai pilihan yang tersedia berkaitan dengan
spesifikasi barang yang dijelaskan selanjutnya. Metode untuk mengidentifikasi
atribut yang secara akurat mewakili konstruk yang ditargetkan (terutama berguna
dalam tes kemampuan dan kecerdasan) oleh Price (2017) disajikan pada Tabel 2 dan
Gambar 1.
Tabel 2. Metode untuk mengidentifikasi atribut yang secara akurat mewakili konstruksi yang ditargetkan.
Pakar materi pelajaran memutuskan atribut yang akan diukur
Wawancara elemen kunci melalui proses berulang
Tinjauan literatur terkait
Analisis isi untuk melacak dimensi atau area topik
Pengamatan langsung
(Price, 2017: hlm. 190-191; Wolfe & Smith, 2007 ; Dimitrov, 2012
Gambar 1. Pertanyaan yang harus dijawab selama perencanaan pengembangan skala (isi oleh Irwing &
Hughes, 2018: hlm. 9-10)
Jangka
Waktu Item
Jumlah
Kategori
Respon
Format
Respon Spresifikasi item untuk
Skala dipertimbangkan terutama pada
Skala Likert
Label
Kategori
Respon
Titik
Tengah
Gambar 2. Spesifikasi item terutama yang berhubungan dengan Likert dan skala tipe Liker yang
seharusnya diputuskan bersamaan dengan penulisan butir item.
Penskalaan Guttman
Ini adalah metode perbandingan (Streiner et al., 2015). Penskalaan Guttman
(Guttman, 1941, 1944, 1946; Aiken, 2002) yang terdiri dari item-item yang
menyentuh tingkat atribut yang semakin tinggi (juga disebut analisis skalogram,
penskalaan deterministik, atau penskalaan kumulatif; Dimitrov, 2012). Seorang
responden harus memilih sekelompok item sampai jumlah atribut yang diukur
melebihi yang dimiliki oleh responden. Pada saat itu, tidak ada item lain yang harus
dipilih oleh grup. Data deskriptif murni bekerja dengan baik dengan skala Guttman,
misalnya ApakahAnda minum? “Apakah Anda minum lebih dari 2 gelas sehari?”
dan lain-lain. Tingkat atribut respondenditunjukkan dengan jawaban afirmatif
tertinggi. Penskalaan Guttman memiliki penerapan yang agak terbatas dengan
kerugian yang sering kali lebih besar daripada keuntungannya karena asumsi
hubungan sebab akibat yang sama kuatnya antara variabel laten dan masing-
masingitem tidak akan berlaku untuk item skala Guttman. Nunnally dan Bernstein
(1994) menyarankan model konseptual untuk skala ini (DeVellis, 2017; Streiner et
al., 2015). Dalampraktiknya, pola respon yang menggambarkan skala Guttman yang
sempurna jarang terjadi (Price, 2017). Lihatlah Tabel 3 untuk contoh.
Penskalaan Thurstone
Thurstone (1927) mengusulkan tiga metode untuk mengembangkan skala
unidimensional: metode interval yang tampak sama, metode interval berurutan, dan
metode perbandingan berpasangan (Dimitrov, 2012). Ide sentral dalam ketiga
metodeadalah bahwa pengembang skala merancang item yang sesuai dengan tingkat
yang berbeda dari atribut yang diukur (DeVellis, 2017). Kemudian sekelompok ahli
menilai derajat item yang mewakili atribut pada skala 1 (paling tidak representatif)
sampai 11 = paling representatif (Dimitrov, 2012). Namun, sebagai aturan, masalah
praktis yang melekat dalam menggunakan metode dengan Model Pengukuran
Klasik (DeVellis, 2017), proses pengembangannya yang menuntut dalam kombinasi
dengan hasil yang sebanding dengan skala Likert (Streiner et al., 2015) sering
meminimalkan keuntungannya.
Penskalaan Likert
Skala Likert—atau skala normatif Likert (Saville & MacIver, 2017)—
dikembangkan oleh Likert (1932, 1952)—mungkin merupakan format respon paling
umum dalam psikologi (Furr, 2011; Dimitrov, 2012; Barker et al., 2016) dan
serbaguna dan efektif untuk membedakan tingkat kemampuan atau pencapaian
(Haladyna, 2004; Price, 2017). Terdapat dua bagian: (1) item dan (2) skala respons
yang berisiserangkaian alternatif intensitas yang meningkat yang ditunjukkan oleh
nilai numerik bilangan bulat dan deskriptor verbal yang disebut jangkar (Barker et
al., 2016). Setiap respon dinilai dengan nilai integer (bilangan bulat) tertentu
(misalnya, 1 = Sangat Tidak Setuju; 5 = Sangat Setuju), dijumlahkan atau dirata-
ratakan di semua item dari dimensi skala (Fur, 2011). Contoh ditunjukan pada
Tabel 4.
Peringkat ditampilkan di Tabel 4 dipetakan ke kontinum bipolar dari titik-titik
yang sama mulai dari pernyataan sangat setuju hingga sangat tidak setuju. Pilihan
tanggapan harus diberi kata-kata untuk memiliki interval yang sama sehubungan
dengan persetujuan/ketidaksepakatan yang membentuk sebuah kontinum (DeVellis,
2017). Titik netral pada skala menawarkan opsi respons "middle of the road"(Price,
2017). Item Likert yang efisien dapat menilai pendapat, sikap, keyakinan dalam
istilah yang jelas, tetapi lebih cocok dengan pernyataan dengan kata-kata yang kuat
karena item yang ringan menghasilkan kesepakatan umum. (DeVellis, 2017).
Meskipun memungkinkan perbandingan langsung antara orang-orang skala Likert
telah menerima beberapa kritik karena kuantifikasi abstrak dari tingkat pengukuran
(Saville & MacIver, 2017). Variasi lain dari skala kategoris terurut seperti Likert
adalah skala penilaian perilaku. Misalnya, perilaku siswa di kelas dengan item
seperti “Siswa berperilaku tidak baik di kelas” dinilai sebagai Selalu = 5, Tidak
pernah = 1 (Price, 2017, contoh diadaptasi dari Price).
(BAGIAN ARIP)
label, apakah yang menawarkan opsi titik tengah atau "tidak ada pendapat" dan
detail lainnya seperti kerangka waktu (Dimitrov, 2012; DeVellis, 2017; Price, 2017;
Barker et al., 2016; Fur, 2011). Pertimbangan ini sangat relevan dengan skala likert
dimana skala ini yang paling umum digunakan (Furr, 2011; Dimitrov, 2012; Barker
et al., 2016).
TITIK TENGAH
Titik tengah netral juga dapat ditambahkan ke skala peringkat dikotomis/bipolar
dengan memilih sejumlah opsi respons titik genap (Fur, 2011), misalnya, sikap
positif yang kuat vs sikap negatif yang kuat. Hal ini dapat dicapai dengan
menentukan jumlah poin yang ganjil, memungkinkan dalih ("tidak setuju atau tidak
setuju") atau ketidakpastian ("tidak yakin"). Dalam skala unipolar, masalah jumlah
poin ganjil atau genap mungkin memiliki konsekuensi yang kecil (Streiner et al.,
2015). Pilihan umum untuk titik tengah termasuk "tidak setuju atau tidak setuju",
"setuju dan tidak setuju sama-sama" (DeVellis, 2017), “netral” (Furr, 2011; Streiner
et al., 2015), atau "belum memutuskan" (Harga, 2017).
Krosnick dan Schuman (1988) dan Uskup (1990) menyarankan bahwa mereka
yang memiliki sikap kurang intens atau dengan minat terbatas lebih cenderung
memilih titik tengah (O'Muircheartaigh dkk., 1999; Krosnick & Presser, 2010).
O'Muircheartaigh dkk. (1999) juga memperhatikan untuk menambahkan titik tengah
keandalan dan validitas peringkat ditingkatkan. Juga, Pemodelan Persamaan
Struktural pada struktur kesalahan menunjukkan bahwa penghilangan titik tengah
menghasilkan pemilihan acak dari salah satu alternatif titik skala yang lebih dekat.
untuk menunjukkan bahwa menawarkan pilihan titik tengah mungkin lebih tepat
daripada mengecualikannya (Krosnick & Presser, 2010). Namun, opsi respons
"Tidak tahu" telah terbukti secara empiris tidak efisien (bahkan ketika ditawarkan
secara terpisah dari titik tengah) (Krosnick et al., 2005; Furr, 2011).
Namun, tergantung pada konstruk target, mungkin ada alasan untuk
mengecualikan dalih jika responden kemungkinan besar akan menggunakan pilihan
titik tengah untuk menghindari menjawab (Fabrigar & Ebel-Lam, 2007; DeVellis,
2017). Tidak ada kriteria selain kebutuhan penelitian tertentu (Streiner et al., 2015).
Analisis empiris tanggapan titik tengah menunjukkan bahwa mempertimbangkan
tanggapan titik tengah sebagai setengah jalan antara dua ujung yang berlawanan dari
konstruk target kompromi sifat psikometrik skala (Furr, 2011 juga mengutip
O'Muircheartaigh dkk., 2000).
Kumpulan item awal lebih besar dari set skala akhir. Sebagai aturan, bisa 3 atau
4 kali lebih besar (DeVellis, 2017; Streiner et al., 2015), atau konstruksinya agak
menyempit 2 kali lebih besar (DeVellis, 2017). Menulis item yang lebih baik
daripada yang diperlukan memungkinkan pemilihan item terbaik, yaitu item yang
paling baik memperkirakan konstruk target dan yang bekerja dengan baik dengan
item lain dalam skala berdasarkan penelitian (Saville & MacIver, 2017). Redundansi
konten adalah aset kumpulan konstruksi karena meningkatnya keandalan konsistensi
internal yang pada gilirannya, mendukung validitas (Devellis, 2017).
Kata-kata Item
Kata-kata item penting sebagai cara dalam pengungkapan pertanyaan untuk
dapat menentukan respons (Sudman & Bradburn, 1982; Bradburn et al., 2004; Saris
& Gallhofer, 2007; Schwartz, 1999). Selama penulisan soal, isu-isu seperti kejelasan
bahasa, relevansi isi, dan penggunaan skala seimbang (yaitu dengan butir-butir kata
baik positif maupun negatif) biasanya dipertimbangkan (Fur, 2011).
Menyeimbangkan skala berarti mengatakan beberapa (Smith dkk., 2008) item secara
positif dan negatif terhadap konstruk target untuk meminimalkan efek set respons,
yaitu serangkaian respons yang serupa (Anastasi, 1982; Likert, 1932; Cronbach,
1950). Namun, penelitian umumnya menunjukkan bahwa tidak efisien (Streiner et
al., 2015; DeVellis, 2017). Saran berikut dibuat untuk konstruksi item skala sikap
(Gable & Wolfe, 1993: hlm. 40-60; direproduksi oleh Harga, 2017: hal. 178) :
1) Hindari item dalam bentuk lampau;
2) Membangun item yang mencakup satu pemikiran;
3) Hindari negatif ganda;
4) Menyukai item dengan struktur kalimat sederhana;
5) Hindari kata-kata yang menunjukkan kemutlakan seperti hanya atau
hanya, selalu, tidak ada;
6) Hindari barang-barang yang kemungkinan akan didukung oleh semua
orang;
7) Hindari item dengan multitafsir;
8) Gunakan bahasa yang sederhana dan jelas;
9) Simpan item di bawah 20 kata.
Berarti yang mendekati kemampuan membaca anak usia 11 - 13 tahun, tingkat
membaca yang digunakan oleh sebagian besar surat kabar (DeVellis, 2017; Streiner
et al., 2015). Secara khusus, kemampuan membaca anak-anak kelas lima adalah 14
kata dan 18 suku kata per kalimat, yaitu satu item (berdasarkan penelitian teks
berkelanjutan).(Dale & Chall, 1948; Fry, 1977; DeVellis, 2017; Streiner et al.,
2015), sehingga dipertanyakan (lihat Streiner dkk., 2015). Kalimat-kalimat yang
dapat dikuasai anak-anak kelas enam terdiri dari 15 - 16 kata dan sekitar 20 suku
kata. Aturan umum untuk implementasi yang efisien dari aturan kemampuan
membaca adalah akal sehat (DeVellis, 2017), dan hal yang sama berlaku untuk
aturan penulisan item (Krosnick & Presser, 2010).
Umumnya, kata-kata yang dipersonalisasi lebih melibatkan dan lebih disukai
oleh sebagian besar pengembang. Namun, ini mungkin bukan aset dalam konteks
yang sensitif. tense yang digunakan di semua item harus konsisten menunjuk pada
kerangka waktu yang jelas (Irwing & Hughes, 2018). Selain itu, apakah item dengan
kata-kata positif dan negatif keduanya termasuk dalam kumpulan harus
dipertimbangkan. Bagaimanapun, aturan tata bahasa harus diikuti. Ini akan
membantu menghindari beberapa ambiguitas sering muncul dari kumpulan item
yang berisi item dengan kata-kata positif dan negatif (Devellis, 2017) Untuk
memasukkan atau tidak item pengisi juga merupakan pertimbangan lain (lihat
DeVellis, 2017 untuk rincian). Lihat ringkasan prinsip-prinsip kunci menulis item
yang baik ada pada Gambar 3 dan beberapa contoh item dengan kata-kata yang
tidak berhasil pada Tabel 6.
6. Fase D: Evaluasi Item
Fase pembuatan item selesai ketika panel ahli meninjau kumpulan item
(DeVellis, 2017). Item yang dihasilkan ditinjau kualitas dan relevansinya oleh panel
ahli (Morrison & Embretson, 2018) atau dengan uji coba (Harga, 2017). Umumnya,
setelah meninjau item oleh kelompok ahli, juga merupakan praktik umum untuk
menguji coba item untuk memperoleh data untuk analisis item pertama (Irwing &
Hughes, 2018 mengutip dari DeMaio & Landreth, 2004; Presser & Blair, 1994;
Willis, Schechter, & Whitaker, 2000). Sebagai alternatif, empat metode tambahan
dapat digunakan untuk memberikan umpan balik tentang relevansi, kejelasan, dan
ketidak jelasan :
a. Uji coba lapangan,
b. Wawancara kognitif,
c. Eksperimen acak, dan
d. Kelompok fokus.
Item Yang harus Item Yang harus Item Yang harus Item Yang harus
dimiliki dimiliki dimilki dimiliki
(Barker, et al., 2016) (Furr, 2011) (Fabriger & Ebel-Lam, (Saville and Maclver,
2007) 2017)
1. Kejelasan (clarity) 1. Tidak ada 1. Keringkasan 1. Ditargetkan dan
2. Kesederhanaan kata yang (Brievity) sederhana
(simplicity) rumit (no 2. Ketidakjelasan (Targeted and
3. Kekhususan complex (unambiguity) simple)
(Specificity) words) 3. Kejelasan 2. Singkat dan
4. Satu pertanyaan di 2. Tidak ada (Clarity) mudah dipahami
setiap item (single jargon 4. Tidak ada item (short and
question at each psikologi (no beralas ganda (no comprehensible)
item) psychology double-barreled 3. Langsung dan
5. Keringkasan jargon) item) tanpa idiom
(brevity) 3. Tidak ada (Direct and
ganda Without idioms)
negative (no 4. Diutarakan
double- secara langsung
negatives) dan mengacu
4. Tidak ada pada diri sendiri
item berlaras (positively
ganda phrased and self-
(no double- referent)
barreled item) 5. Relevan dengan
pekerjaan dan
internasional
(work-relevant
and
internasional)
Gambar 3. Prinsip-prinsip kunci untuk penulisan item yang sukses seperti yang disarankan oleh empat sumber
berbeda dalam literatur pengembangan skala
(Irwing & Hughes, 2018; Streiner et al., 2015). Validitas item dilengkapi dengan
analisis item untuk memperkirakan kualitas psikometrik setiap item dalam
mengukur konstruk target (misalnya,Ackerman, 1992; Allen & Yen, 1979; Anastasi
& Urbina, 1997; Clauser, 2000; Crocker & Algina, 1986; Haladyna, 1999; Janda,
1998; Wilson, 2005; Wright & Masters, 1982seperti dikutip oleh Dimitrov, 2012).
Hasil analisis item dari validitas konstruk pendukung(Streiner dkk., 2015).
Panduan yang lebih canggih untuk memilih item yang paling berharga adalah
dengan menggunakan rasio validitas konten (CVR) (Lawshe, 1975; Waltz &
Bausell, 1981; Lynn, 1986). Setiap anggota panel ahli (mungkin terdiri dari
cendekiawan dan masyarakat umum), diberikan daftar item beserta dimensi
kontennya. Tugas mereka adalah mengevaluasi setiap item pada skala 4 poin (4 =
Sangat Relevan; 3 = Cukup Relevan/Sangat Relevan tetapi Perlu Penyusunan Kata
Ulang; 2 = Agak Relevan; dan 1 = Tidak Relevan). Kemudian CVR dihitung
menggunakan rumus berikut untuk mengevaluasi peringkat: Tabel 7.
Sejauh ini, konstruksi tes tergantung pada teori, bukti empiris sebelumnya, dan
penilaian subjektif berdasarkan pengetahuan ahli. Tahap selanjutnya termasuk
administrasi ke sampel yang sesuai(Irwing & Hughes, 2018). Ini dianggap mungkin
intisari dari proses pengembangan skala mungkin setelah pengembangan item
(DeVellis, 2017). Pengujian percontohan melibatkan pengujian skala ke sampel
yang representatif dari populasi target untuk mendapatkan informasi statistik tentang
item, komentar, dan saran(Streiner et al., 2015). Statistik deskriptif kemudian akan
melalui analisis item yang memberikan informasi penting untuk setiap item(Harga,
2017). Analisis item digunakan untuk memilih item terbaik. Analisis item
memungkinkan deteksi item yang: 1) ambigu, 2) salah mengetik atau mencetak gol,
3) terlalu mudah atau terlalu sulit, dan 4) tidak cukup diskriminatif (Harga, 2017).
Fase ini umumnya terdiri dari teknik statistik berikut: a) Periksa interkorelasi antara
semua pasangan item berdasarkan penilaian ahli panel dan uji coba; b) Hapus item
yang berkorelasi rendah dengan skor total; c) Lacak perbedaan antara rata-rata item
dan 25% dari peringkat ahli. Item yang memiliki nilai lebih tinggi berpotensi
menjadi pembeda yang lebih baik dari konstruk target; dan d) Mempertimbangkan
karakteristik setiap item dan pertimbangan praktis mempertahankan item dengan
korelasi item-total tinggi dan diskriminasi tinggi (Dimitrov, 2012; Trochim, 2006).
Bias Respon
Pertimbangan tambahan saat memilih item adalah apakah item menyebabkan set
respons yang bias respons atau menghasilkan artefak respons. Umumnya, ini
terutama dikaitkan dengan urutan item. Kumpulan respons yang paling umum
adalah: mengatakan ya (bias persetujuan—responden setuju dengan pernyataan),
tidak mengatakan (responden menolak pernyataan), artefak konsistensi dan
ketersediaan, halo(Thorndike, 1920; Campbell & Fiske, 1959: hlm. 84), dan
ITEM PRETEST
Bisa dimengerti Tidak ambigu Bertanya satu persatu
Buang atau tulis ulang item yang tidak bertemu dengan kriteria dan pretest ulang
artefak keinginan sosial, yaitu responden mencoba menampilkan diri mereka dalam
cahaya yang menguntungkan Skala Likert juga dapat menghadirkan bias tendensi
sentral responden menghindari pemilihan kategori skala ekstrim (Irwing & Hughes,
2018; Dimitrov, 2012).
Gambar 5. Proses evaluasi dimensi skala dalam pengembangan danisu-isu yang terkait dengannya.
7.2. Analisis Faktor
Analisis faktor adalah teknik statistik yang menyediakan pendekatan yang
ketat untuk mengkonfirmasikan apakah set item tes terdiri dari fungsi tes
dengan cara yang kongruen dengan teori G yang mendasari tes (Price, 2017:
hal. 180), berdasarkan teori pengukuran klasik, juga disebut Teori Tes Klasik
(DeVellis, 2017). Analisis faktor merupakan bagian integral dari
pengembangan skala. Ini memungkinkan data dianalisis untuk menentukan
jumlah faktor yang mendasari taruhan kesehatan sekelompok item yang
disebut faktor sehingga prosedur analitik dari sifat psikometrik seperti alpha
Cronbach (Cronbach, 1951) korelasi dengan konstruksi lain dapat dilakukan
dengan baik. Akhirnya, melalui wawasan identifikasi faktor ke dalam sifat
variabel laten yang mendasari item skala diperoleh (DeVellis, 2017). Faktor
didefinisikan sebagai perwakilan variabel yang tidak teramati atau laten dari
suatu konstruk (Price, 2017: hal. 236). Penjelasan rinci tentang teknik-teknik
ini berada di luar cakupan pekerjaan ini tetapi Anda dapat merujuk ke
Kyriazos (2018a, 2018b) untuk deskripsi lengkap dari proses validasi
konstruk. Untuk studi validasi skala, lihat Howard dkk. (2016), El Akremi,
Gond, Swaen, De Roeck, and Igalens (2015), Konrath, Meier, Bushman
(2017). Pavot (2018) juga menyarankan untuk meninjau Lyubomirsky dan
Lepper (1999), Seligson, Huebner, dan Valois (2003) dan Diener dkk.
(2010).
7.3. Teori Respon Item (IRT)
Ada juga alternatif model teori tes klasik yang disebut teori respon item
(IRT). IRT sering disajikan sebagai alternatif unggul untuk CTT (lihatDe
Boeck & Wilson, 2004; Embretson & Reise, 2010; Nering & Ostini, 2010;
Reise & Revicki, 2015 dikutip oleh DeVellis, 2017). IRT merupakan
pendekatan pengukuran berbasis model dengan menggunakan pola respon
item dan kemampuan seseorang. Dalam IRT, tanggapan pribadi untuk setiap
item skala dapat dijelaskan berdasarkan tingkat kemampuannya.
Kemampuan responden diwakili oleh fungsi yang meningkat secara
monoton, berdasarkan pola respons (Price, 2017).
Menurut IRT, beberapa faktor mempengaruhi respons seseorang. Seiring
dengan tingkat konstruk yang dirasakan seseorang yang diukur oleh setiap
item skala, properti item lain yang berpotensi mempengaruhi tanggapan
adalah: (a) kesulitan item, (b) diskriminasi item, dan (c) menebak. Dalam
sebagian besar aplikasi IRT dalam konteks psikologi, peneliti
memperkirakan kedua sifat psikometrik pada tingkat item dan pada tingkat
skala. IRT mencakup banyak model pengukuran spesifik sebagai fungsi dari
berbagai faktor yang berpotensi mempengaruhi respons individu. Namun,
semua model IRT dibingkai menurut probabilitas responden untuk
merespons dengan cara tertentu terhadap suatu item, sebagai akibat dari
tingkat tertentu dari perilaku yang mendasarinya. Model pengukuran IRT
yang paling sederhana hanya terdiri dari kesulitan item sementara model
yang lebih kompleks juga terdiri dari dua atau lebih parameter item, seperti
diskriminasi item dan tebakan. Ada model yang berbeda untuk item
dikotomis dan berbeda untuk item politomus (Fur, 2011). Model IRT juga
bervariasi sesuai dengan jumlah opsi respons item.
Efektivitas suatu teknik adalah fungsi dari kerangka teoritis dari konstruk
target. Penilaian IRT digunakan dalam tes kemampuan kognitif, namun,
dalam situasi lain, jenis penilaian ini mungkin tidak diinginkan (Irwing &
Hughes, 2018). Kombinasi CTT dan TRT disarankan sebagai pilihan
alternatif (Embretson & Hershberger, 1999; DeVellis, 2017; Irwing &
Hughes, 2018). Dalam kebanyakan kasus, praktik umum dalam
pengembangan tes melibatkan kombinasi analisis faktor konfirmatori (CFA)
dan IRT(Irwing & Hughes, 2018) atau lebih umum kombinasi EFA dan CFA
(Steger et al., 2006; Fabrigar & Wegener, 2012; Kyriazos, 2018a).
7.4. Skor Tes dan Standardisasi (Norming)
Skor skala mentah dapat didasarkan pada jumlah skor item tertimbang
unit atau pada skor faktor. Skema penilaian berbobot unit, hasilkan skor
standar menggunakan sampel standarisasi yang sesuai, atau sampel
normative (Dimitrov, 2012), misalnya, skor stanine, sten, dan t (Smith &
Smith, 2005). Jumlah bobot unit skor item tanpa standarisasi dapat
dipertimbangkan pada beberapa kerangka penelitian. Prosedur Box-Cox
(Box & Cox, 1964) untuk memperkirakan kekuatan yang skor skala harus
dinaikkan untuk mengikuti normalitas. Selanjutnya, skor skala juga
dinaikkan ke kekuatan yang diperkirakan sebelumnya dan distandarisasi.
Standardisasi (atau norming) dilakukan dengan mengurangkan nilai rata-rata
yang ditransformasikan dari skor skala yang ditransformasikan dan
membaginya dengan standar deviasi dari skor-skor yang ditransformasikan.
(Irwing & Hughes, 2018). Skor standar menunjukkan posisi relatif setiap
responden dalam populasi target.
(A) Pembobotan variabel pada item skala hanya efektif dalam kondisi
tertentu.
(B) jika tes dibuat untuk penggunaan lokal/terbatas, hanya jumlah item yang
mungkin cukup. Untuk memungkinkan perbandingan hasil dengan
instrumen lain, skor disarankan untuk diubah menjadi persentil, menjadi
skor-z atau skor-T.
(C) Untuk pengukuran atribut-atribut yang tidak sama pada laki-laki dan
perempuan, atau untuk atribut-atribut yang menunjukkan perubahan
perkembangan maka dapat dipertimbangkan norma usia dan/atau usia-
jenis kelamin yang terpisah.
8. Ringkasan & Kesimpulan
Para ahli menyarankan bahwa pengukuran yang efektif adalah landasan
penelitian ilmiah (DeVellis, 2017; Netemeyer, Bearden, & Sharma, 2003) dan
merupakan bagian integral dari model variabel laten (Slavec & Novsek, 2012).
Secara umum ada ukuran sikap, sifat, dan kemampuan. Tujuan penskalaan adalah
untuk membangun skala dengan karakteristik pengukuran tertentu untuk konstruk
yang diukur. Format respons yang paling umum digunakan dalam semua psikologi
adalah jenis Likert, pilihan ganda, atau item pilihan paksa. Penskalaan umumnya
dibagi menjadi jenis yang ditetapkan oleh: Thurstone (1927, 1928), Likert (1932,
1952), atau Guttman (1941, 1944, 1946).
Dalam penskalaan Likert, tingkat respons ditambatkan dengan nilai bilangan
bulat berurutan, masing-masing sesuai dengan label verbal yang menunjukkan
interval jarak yang kira-kira sama dan ini adalah skala paling populer dalam ukuran
psikologi. (Dimitrov, 2012; Furr, 2011, Barker et al., 2016). Sampai tingkat tertentu,
jenis penskalaan dan format respons, berdampak pada penulisan item dan pada
pengembangan skala secara keseluruhan. (Irwing & Hughes, 2018). Kumpulan item
harus sekaya mungkin untuk skala yang sedang berkembang. Itu harus berisi banyak
item yang berkaitan dengan konstruksi target (DeVellis, 2017). Langkah-langkah
proses pengembangan instrumen meliputi: 1) definisi tujuan instrumen, domain dan
konstruk; 2) mendefinisikan format skala respon; 3) pembuatan item untuk
membangun kumpulan item 2 - 4 kali lebih besar dari panjang yang diinginkan dari
versi skala akhir; 4) pemilihan item berdasarkan review panel ahli dan/atau
pretesting untuk memaksimalkan reliabilitas instrumen dengan analisis item; 5)
studi validasi skala besar untuk menetapkan validitas konstruk dengan analisis item
tambahan, analisis faktor dan untuk menstandarisasi skor skala.
Membangun studi validasi untuk mengevaluasi dimensi dan norma skala adalah
langkah yang diperlukan dalam pengembangan skala setelah kumpulan diperiksa
oleh para ahli dan/atau pra-pengujian. Keandalan pengukuran menandakan sejauh
mana skor menunjukkan akurasi, konsistensi, dan replikabilitas. Validitas konstruk
terutama dibuktikan dengan konsistensi korelasional dan pengukuran dari konstruk
target dan item-itemnya (indikator) terutama dengan mengukir analisis faktor
(Dimitrov, 2012). Timbangan yang dikembangkan dengan cermat dan tepat
memiliki potensi lebih besar untuk berkembang menjadi kuesioner yang mengukur
kriteria dunia nyata dengan lebih akurat (Saville & MacIver, 2017).
Konflik Kepentingan
Para penulis menyatakan tidak ada konflik kepentingan mengenai publikasi makalah
ini.