10-11 Pengembangan Alat Ukur Non-Kognitif

Pengembangan Alat Ukur
Non-Kognitif
Karakteristik Performansi Tipikal
• Validitas hasil tergantung ‘kejujuran’ testee
• Stimulus tidak terstruktur jelas
• Respon dimaknai berbeda
Pentingnya alat ukur “yang benar”
• Alat ukur memegang peranan yang kritikal dalam
pengukuran
• Alat ukur yang tidak benar akan membuat pengukuran
menjadi tidak benar
• Pengukuran yang tidak benar akan menghasilkan data
tidak benar
• Data yang tidak benar akan menghasilkan kesimpulan
tidak benar
Pengukuran
• Proses kuantifikasi atribut dari suatu entitas dengan mengikuti aturan
tertentu (Steven, 1946)
• Kesamaan dalam definisi:
• Hasil pengukuran selalu berupa angka
• Atribut (yang diangkakan) dalam pendidikan, ilmu social, dan humaniora
bersifat teoretik/konseptual
• Karena itu pengukuran dalam pendidikan, ilmu social, dan humaniora tidak
pernah 100% akurat, karena pengukuran hanya dapat dilakukan secara tidak
langsung (melalui indicator-indicator dari atribut yang diangkakan)
Teoretik/
Definisi
Konseptual Operasional
Alat Ukur
(Persepsi,
Attitude,
Intensi) Item
kisi2
Indikator
Item
Konstruk
Indikator Item
Indikator
• Metode untuk mengukur konstruk.
• Suatu proses untuk membuat suatu konsep bisa
diukur
• Proses dimana peneliti memilih indicator atau
sekumpulan indicator untuk mengukur konsep
disebut Operasionalisasi
• Hasilnya adalah kisi-kisi (blue print)
(Babbie, 1989)
Tujuan dan Standar
• Tujuan:
• Mendapatkan alat ukur yang efisien dengan
menjamin reliabilitas dan validitas hasil
pengukurannya
• Standar:
• Standards for Educational and Psychological Testing
– AERA, APA, NCME (1999, 2014)
Ketersediaan alat ukur
Ketersediaan:
• Membuat alat tes baru
• Melakukan adaptasi tes
Rutin:
• Melakukan uji validitas dan reliabilitas secara berkala
• Re-norming
Tahapan Penyusunan Alat Ukur
Konseptualisasi
Penskalaan Operasionalisasi Jenis Skala
Blue Print
Penulisan item
(review dan revisi)
Analisis & Perakitan

Uji Coba
Alat Ukur
Validasi Format Final

Tahapan Penyusunan Alat Ukur
Konseptu Operasio Penulisan

Uji coba Perakitan Validasi
alisasi nalisasi butir
Konseptualisasi
• Mendefinisikan tujuan penggunaan alat ukur, termasuk populasi
pengguna (target population)
• Alat ukur untuk pemetaan tentu beda untuk seleksi, dll
• Biasanya ditulis dengan:
• Tes ini mengukur apa
• Dengan tujuan apa
• Untuk dipergunakan oleh siapa/populais siapa → anak SMA misalnya
• Mendefinisikan konstruk yang akan diukur
• Definisi teoretik-konseptual dari variabel yang akan diteliti
• Didasarkan pada teori yang dipergunakan atau teori yang dikembangkan
• Menurut teori elemen/aspek nya apa saja
Konseptualisasi
• Pendekatan penyusunan alat ukur di sini adalah pendekatan
deduktif, khususnya theory driven approach
• Teori yang dipakai tidak ada batasan
• Akan tetapi biasanya skala dibangun atas pilihan dari satu
teori yang digunakan berdasarkan hasil review
• Bisa juga dari beberapa teori pada tingkat pendidikan lebih
tinggi
Operasionalisasi
• Untuk mengukur konsep harus dilakukan “penerjemahan”
konsep itu menjadi measureable (bisa diukur, bisa
diobervasi) yang disebut dengan indikator atau sekumpulan
indikator
• Berasal dari definisi operasional variabel yang diteliti
• Menghasilkan indikator-indikator
• Indiaktor:
• Digunakan untuk mengukur sebuah konsep
• Merupakan manifestasi (behavioral) yang dapat diamati
• Diturunkan dari aspek (jika ada aspek)
Operasionalisasi
• Perlu logika, pengamatan di lapangan

• Hasilnya : kisi-kisi/blue print
• Disebut blue print karena proses selanjutnya tergantung dari
ini
• Contoh:
Konstruk agresi
• Manifestasi: mudah menyakiti orang lain (indikator)
Bentuk Kisi-Kisi
• Konstruk: . . . .
• Definisi: . . .
Dimensi/Aspek Indikator Item Jenis Skala No.Item
(R/bukan)
Konstruk: Vigor 1. 1.
Engagement Definisi: . . . 2.
3.
kisi2 4.
2. Dst.
3.
Dedication 1.
Definisi: . . .
2.
Absorption 1.
Definisi: . . . .
2.
Kolom 1 dan 2 literatur

Kolom 3 diturunkan sendiri
Penulisan butir/item
• Mengacu pada kisi-kisi
• Menghasilkan sekumpulan item (item pool) →
berjumlah 2-3x dari item target
• Bisa dilakukan oleh pengembang dan bisa
dilakukan lebih banyak orang
• Item kemudian direview dan direvisi sesuai
hasil review
Jumlah target Item
• Tidak aturan baku mengenai berapa butir yang dilibatkan dalam skala
• Semakin luas domain ukur konstruk yang hendak diukur semakin
banyak butir yang dilibatkan
• Alat ukur yang dipakai untuk mengkategorikan individu dengan lebih
mendetail memerlukan butir lebih banyak disbanding dengan yang
dipakai untuk mendeskripsikan saja
• Dalam konteks high stake decision (missal seleksi), dianjurkan butir
yang dilibatkan lebih banyak
• Semakin luas cakupan indicator keperilakuan tes, semakin banyak
butir yang dibutuhkan
Jumlah target Item
• Karakteristik sampel menentukan jumlah butir. Instrumen untuk
LANSIA lebih sedikit daripada ORANG DEWASA
• Elelahan responden dan kemauan bekerjasama perlu
dipertimbangkan. Disarankan menggunakan pengukuran pendek akan
tetapi efektif sehingga kelelahan dan kebosanan dapat diatasi.
• KESIMPULAN: rata-rata jumlah butir dalam satu

faktor/aspek adalah 3 hingga 6 butir.
Proses Review dalam Penulisan butir
• Merupakan review Judgmental
• Digunakan untuk menghindari
• construct under representation (semua definisi konstruk
tidak terepresentasikan, missal: ada indikator yang
gugur semua itemnya) → menulis item lagi, uji coba lagi
• construct irrelevance
• Menghindari item fake atau diisi dengan cara yang
salah
Proses Review dalam Penulisan butir
Yang harus diperhatikan:
• Dilakukan oleh SME (Subject Matter Expert) adalah
orang yang memiliki pengetahuan atau keahlian di
bidang yang diukur
• Siapa → kualifikasi (mengapa dipilih sebagai SME, missal
dosen yang mengajar mk tertentu, atau penelitian)
• Berapa → menurut kaidah 5-15 (Lawse) → paling efisien
9
Proses Review dalam penulisan butir
• Apa yang direview:
• Construct definition dan Kisi-kisi
• Item → Bisa
• Relevance dengan konsep dan kisi-kisi
diangkakan
• Importance
menjadi:
• Clarity (yang diberi skala siapa)
CVR dan CVI
Hasil SME menghasilkan CVR (Content Validity Rasio)
CVR ketika dirata-rata oleh setiap item → CVI (Content Validity Index)
Hal Penting dalam Penulisan Item Alat Ukur
Psikologi
•Menulis jumlah item 2-3 kali lipat dari
jumlah item yang diharapkan
•Berpedoman pada kaidah penulisan item
Format Item
Format Item
• Pernyataan dengan pilihan
• Lebih mudah diskor karena langsung diangkakan dari
respon
• Pertanyaan
• Jika pertanyaannya adalah pertanyaan terbuka, disebut
constructed response item
• Lebih sulit diskor karena memerlukan rubrik
Format Item
Terkait dengan indicator, aspek/sub construct, dan
construct
• Diupayakan sama jumlahnya untuk setiap aspek/sub-
construct
• Karena jika tidak, maka skor total yang diperoleh bisa jadi
didominasi aspek tertentu
• Tidak harus sama per-indikator (proporsional),
tergantung luasnya definisi konstruk dan sub-construct
Format Respon
• Format respon dapat berupa bentuk perilaku seperti
menggambar, menjawab, memilih gambar, memilih
jawaban dalam bentuk kalimat/kata (selected
response item)
• Jenjang rating respon dalam skala bervariasi, mulai
hanya dua jenjang sampai dengan sebelas jenjang
Format Respon
• Yang popular jawaban dalam bentuk rating scale
• Persetujuan : setuju – tidak setuju
• Kesesuaian : sesuai – tidak sesuai ;
menggambarkan diri saya – tidak menggambarkan diri saya
• Sifat/perilaku : pemarah – tenang, rajin – malas
• Evaluatif : baik – buruk (biasanya untuk
pengukuran value)
• Frekuensi/intensitas : jarang, kadang-kadang, sering
• Dikotomi : ya – tidak (bentuk checklist)
Kaidah-kaidah Penulisan Item (Edwards, 2006)
• Hindari membuat pernyataan yang berhubungan dengan masa
lalu
• Hindari membuat pernyataan tentang fakta atau yang dapat
diinterpretasikan sebagai fakta/realitas/kebenaran
• Karena respon akan didasarkan pengetahuan bukan trait
• Hindari membuat pernyataan yang dapat diinterpretasikan lebih
dari satu/ambigu
• Bisa dihindari dengan melakukan uji keterbacaan kepada cross-review
• Item harus menggambarkan perilaku spesifik. Hindari membuat
pernyataan yang tidak relevan dengan konstruk yang diukur
• Minimalkan social desireability, yaitu item yang mengungkap
pernyataan normative (norma social/agama/etika) yang
cenderung akan disetujui banyak responden
• Buat pernyataan yang memungkinkan orang untuk
memberikan respon yang variatif, misalnya dari rentang
setuju-tidak setuju, selalu-jarang
• Diusahakan Monotonic increasing, mis: orang yang makin engage
maka makin setuju dengan item
• Buat pernyataan dengan bahasa sederhana, jelas,
mudah dimengerti dengan bahasa baku. Kecuali
penelitian khusus budaya tertentu
• Inilah yang disebut Clarity oleh SME → bisa direview 2x
oleh cross-review dan SME
• Buatlah pernyataan yang sederhana (tidak lebih dari
20 kata)
• Direct simple sentences
• Fokus pada pernyataan yang memiliki satu pokok pikiran
utama/gagasan
• Jika lebih dari satu pokok pikiran disebut double barrel question
• Contoh: saya suka dan sering makan nasi goreng (bagaimana jika suka tapi
tidak sering and vice versa)
• Hindari kata-kata ekstrim seperti: semua, selalu, tidak satupun, tidak
pernah, sering
• Mendorong respon ekstrim
• Gunakan secara hati-hati kata-kata: hanya, hampir, atau kata lain yang
sama artinya
• Bisa multi interpretasi pada subjek
• Hindari penggunaan kalimat majemuk. Misalnya
dengan kata “dan, atau, selain itu” dsb
• Hindari dua kata negatif dalam satu kalimat
• Contoh: saya bukan tidak menyukai pekerjaan di luar
rumah
• Jika ada kata negatif harus diberi penekanan misal diberi
garis bawah atau cetak miring
• Mengacu indikator perilaku. Jangan menulis item yang
langsung menanyakan atribut yang hendak diungkap
• Saya adalah orang yang memiliki engagement tinggi di
perusahaan → yang ditanyakan langsung konstruknya
• Nanti yang keluar adalah perceived engagementnya
(konstruk yang dipersepsikan)
• Hindari menulis pernyataan yang akan cenderung
disetujui/ditolak oleh Sebagian besar responden karena ingin
terlihat baik (faking good – bad)
• Berkaitan dengan social desireability
• Alat ukur yang berbentuk inventory (objective personality
asessement) selalu mengandung beberapa kelemahan; seperti:
response management (kecenderungan orang untuk memanage
respon), faking, social desireability, bias (kecenderungan untuk
menjawab ekstrim atau di tengah)
• Membuat item favorable dan unfavorable untuk
melihat konsistensi jawaban responden
• Item unfav jangan hanya sekedar kebalikan dari fav→ bisa
sengaja diadakan untuk mengecek konsistensi (tapi jangan
diskor 2x), ex EPPS
• Contoh tidak tepat: suka → tidak suka
• Tidak perlu setengah-setengah (50% fav, 50% unfav)
• Unfav lebih sedikit dari fav tapi harus ada
• Dalam penskoran item unfav harus dibalik
•Hindari penggunaan istilah teknis keilmuan

• Ditakutkan subjek tidak memiliki keilmuan
yang sama, missal: anxiety, attitude, dll
•Perhatikan daya beda item (diskriminasi
item)
• Perhatikan apakah item bisa membedakan
subjek satu dengan yang lain
Meniadakan pilihan tengah/netral?
•Belum ada bukti empiric yang kuat untuk
meniadakan pilihan tengah (netral)
•Kasus: Sebagian besar (mayoritas)
responden memilih netral → apa akibatnya?
• Item kurang sensitive → daya beda item
rendah
• Validitas respon
Uji Coba
• Setiap alat ukur (berikut seluruh itemnya) harus
diuji cobakan sebelum digunakan
• Uji coba dilakukan dengan mengambil sampel
yang ditarik dari populasi target pengguna
Uji Coba
• Kegunaan uji coba:
• Mendapatkan data empirik sebagai indikasi dari
flaw suatu item dan bagaimana suatu item dapat
diperbaiki : review dan revisi
• Mendapatkan gambaran reliabilitas dari skor yang
didapat
• Pemilihan item dalam perakitan alat ukur
• Mendapatkan bukti awal validitas
Uji Coba
• Bisa didasarkan pada:
• Teori tes klasik
• LT, Item response theory
Jumlah sampel uji coba
Tergantung analisis yang dipakai
Tes klasik (CTT) : 50 sudah cukup
• Yang penting stabil → penambahan sampel tidak
mempengaruhi Mean
• Yang harus dicapai adalah distribusi normal
Tes laten (LT), CFA : 200 stabil, rasch 150
IRT : 150-200 / 600 / 800
Analisis data hasil uji coba
Reliabilitas dan
Standard Eror of
Measurement
Analisis berdasarkan
teori tes klasik
Distribusi jawaban
terhadap setiap item,
Data
Daya pembeda,
DIF/Bias
Analisis berdasarkan
latent theory/IRT
Analisis teori tes klasik
Distribusi jawaban setiap butir soal
• Korelasi antar butir soal (inter item correlation matrix) → antar item
berkorelasi 0.8/0.9 pilih salah satu item
• Item statistics
• P-value (tingkat kesukaran) → hanya untuk item yang dinilai secara dikotomis
(ada kunci=1, salah-0)
• Daya pembeda (korelasi anatara item dengan total atau corrected total score)
→ untuk item tes typical performance
Reliabilitas
• Test-retest
• Parallel form dan split-halves → 2 form atau 2x tes
• Internal consistency: Cronbach’s alpha
Analisis berdasarkan teori tes klasik
• Daya pembeda: korelasi item vs. total (atau
corrected item-total correlation)
• Negatif: item bekerja berlawanan dengan item
lainnya → perlu dibuang
• Sangat kecil: item tidak memberikan kontribusi
terhadap penilaian perbedaan individu
• Sangat besar, negative: Unfavorable item yang
skoringnya belum dibalik
Rule of thumb (Popham, dll.) untuk Daya
Pembeda
Magnitude Interpretation Decision
≥ .40 Very good Include
discrimination
≥ .30, but <.40 Good discrimination Include
≥ .20, but <.30 Marginal Evaluate
discrimination
≥ 0, but <.20 Poor discrimination Revise/discard
<0 Reverse discrimination Discard
Analisis berdasarkan teori tes klasik
• Reliabilitas
• 0,7 atau lebih tinggi
• 0,9 untuk high stake atau diagnostic
Perakitan
• Berdasarkan hasil analisis dan revisi dari uji coba dipilih item
yang:
• Memiliki daya pembeda tertinggi
• Distribusi jawaban cukup menyebar
• Mengukur setiap indikator dalam kisi-kisi
• Melakukan re-analisis hanya dengan menggunakan item-
item terpilih
• Reliabilitas
• Corrected item total correlation
Validasi
•Adalah upaya mengumpulkan bukti-bukti

(evidences)
•Salah satu yang dapat dijadikan bukti adalah
hasil CVI pada tahapan penulisan butir
Apakah validasi?
• Upaya mengumpulkan bukti-bukti dan teori yang
mendukung interpretasi dan penggunaan skor yang didapat
(Standard, 2014)
• Sumber bukti validasi:
• Test content
• Response process
• Internal structure
• Relation to other variable
• Consequences of testing
Content validity Content-related evidence
of validity
Predictive validity
Criterion-related
evidence of validity
1954- Concurrent validity
1985-
1984 Construct-related
1999
Construct validity evidence of validity
Evidence based
on test content
Evidence based Evidence based

on internal on response
structure process
Validitas 1999
Evidence based
Evidence based
on the
on relations to
consequences
other variables
of testing
Brief Explanation about Review
Jenis
Judgemental Empirik
Tujuan Revisi Apakah memenuhi kaidah-kaidah Hasil uji coba :
(tahap konstruksi penulisan item CTT/IRT/LT (dengan
item untuk Oleh : cross-reviewer CFA)
diperbaiki)
Validitas SME: CVR dan CVI (Relevance, Hubungan dengan
Clarity, Importance) variabel/tes lain
Internal struktur
(apakah sesuai
aspek dan indicator)
→ dengan CFA

10-11 Pengembangan Alat Ukur Non-Kognitif

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

10-11 Pengembangan Alat Ukur Non-Kognitif

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengembangan Alat Ukur

Penskalaan Operasionalisasi Jenis Skala

Analisis & Perakitan

Validasi Format Final

Konseptu Operasio Penulisan

• Perlu logika, pengamatan di lapangan

Kolom 1 dan 2 literatur

• KESIMPULAN: rata-rata jumlah butir dalam satu

•Hindari penggunaan istilah teknis keilmuan

•Adalah upaya mengumpulkan bukti-bukti

Evidence based Evidence based

Anda mungkin juga menyukai