2
DEFINING AND MEASURING VARIABLES
(Gravetter & Forzano, 2018, chapter 3)
Tidur
Attention
Validitas Reliabilitas
Standard (1999)
Validitas Reliabilitas
Validitas
▪ Seberapa jauh bukti dan teori mendukung interpretasi dan penggunaan
skor yang didapat.
▪ Yang dievaluasi adalah interpretasi dari skor alat ukur tersebut berikan,
bukan alat ukurnya.
▪ Validitas sebuah pengukuran dievaluasi berdasarkan bukti-bukti yang
mendukung bahwa alat ukur tersebut valid.
Validitas: 5 Sumber Bukti (Standard, 1999)
▪ Test content
▪ Response process
▪ Internal structure
▪ Relation to other variable
▪ Consequences of testing
Bukti validitas: Test content
▪ Analisis hubungan antara isi dari alat ukur, dengan konstruk yang ingin diukur.
▪ Isi: tema, bahasa yang digunakan, format soal, tugas, pertanyaan yang ada
▪ Bukti:
• Analisis logis dan empiris di mana isi tes merepresentasikan isi dari konstruk, dan
relevansi dari bagian konten dengan interpretasi dari skor alat ukur (blueprint)
• Evaluasi pakar/ahli
▪ Contoh: Pembelajaran 🡪 Kuis
• Soal dibuat berdasarkan tujuan pembelajaran.
• Diberikan ke ahli bidang tersebut, sesuai atau tidak.
Bukti validitas: Responses process
▪ Sejauh apa tugas atau tipe respon yang dibutuhkan oleh partisipan
sesuai dengan konstruk yang ingin diukur.
• Bukti. Cara menjawab partisipan.
• Contoh: untuk pengukuran konstruk psikologi (affective domain)
menggunakan survei 🡪 buktinya adalah kalau partisipan tidak memberikan
jawaban yang diharapkan oleh orang lain (socially desirable answers)
Partisipan dapat
berubah antar
pengukuran.
Contoh: Sumber
mengerjakan tes IQ Eror
waktu lapar Variabel lingkungan
(seperti waktu, udara, dll)
Perubahan dapat mengubah hasil
Perubahan
pada pengukuran.
Lingkungan
Partisipan Contoh: Diukur waktu
mendung, dengan waktu
panas, hasilnyabisa beda
INTERNAL
EKSTERNAL
(konsistensi hasil antar aitem
(konsistensi antar pengukuran)
dalam tes)
Tipe Reliabilitas
Split-half reliability
membagi aitem kuesioner/tes Test-retest reliability
dalam dua bagian, lalu stabilitas hasil tes antar waktu
menghitung tingkat konsistensi pengukuran
antar dua skor tersebut.
Item-score reliability
Inter-rater reliability
seberapa jauh skor sebuah aitem
konsistensi penilaian antar dua
berhubungan dengan skor total
atau lebih penilai
dari tes
Validitas dan Reliabilitas Alat Ukur
https://images.app.goo.gl/vJxV517d2rphavfo6
Scales of Measurement
▪ Pengukuran merupakan prosedur untuk mengelompokkan individu ke
dalam kategori. Kategori disebut sebagai skala pengukuran (scale of
measurement).
▪ Proses pengukuran melibatkan dua komponen:
• Satuan pengukuran
• Prosedur untuk mengelompokkan individu ke dalam kategori.
Scales of Measurement
Dealing with Equivocal Measurements
▪ Seringkali dalam penelitian psikologi, skala yang digunakan tidak dapat
dikategorikan dalam tipe apa secara jelas.
• Contoh: IQ merupakan interval, namun apakah IQ 85 dan 86, dengan IQ
141 dan 142 memiliki perbedaan yang sama persis?
• Ya = Interval
• Tidak = Ordinal
▪ Penelitian psikologi juga sering menggunakan skala likert untuk
mengukur variabel.
• Contoh: Satisfaction with Life Scale (Diener et al., 1985)
Dealing with Equivocal Measurements
▪ Walaupun kelihatannya muncul dalam bentuk skala interval, dengan jarak yang
sama, namun apakah jarak antara 2 dan 3 dengan 6 dan 7 sama?
1 2 3 4 5 6 7
Strongly Slightly Slightly Strongly
Disagree Neutral Agree
Disagree Disagree Agree Agree
Sensitivity &
Multiple Measures Artifacts
Range Effects
Other Aspects: Multiple Measures
▪ Menggunakan beberapa prosedur yang berbeda untuk mengukur
variabel yang sama.
• Contoh: Depresi
• Interview, kuesioner screening, observasi terstruktur
Other Aspects: Sensitivity and Range Effects
▪ Di awal penelitian, biasa peneliti memiliki ekspektasi bagaimana variabel
akan muncul, secara spesifik mengenai arah dan tingkat perubahannya.
▪ Perlu dipertimbangkan apakah prosedur pengukuran cukup sensitif
untuk mendeteksi perubahan yang diharapkan.
• Contoh: Apakah CBT efektif mengurangi gejala depresi. Kalau alat ukur
depresinya kurang sensitif, maka perubahan yang terjadi tidak terlihat dari
hasil tes.
▪ Permasalahan sensitivity dapat muncul saat skor yang diperoleh
cenderung berkumpul di salah satu ujung skala.
Other Aspects: Sensitivity and Range Effects
▪ Permasalahan sensitivity dapat muncul saat skor yang diperoleh
cenderung berkumpul di salah satu ujung skala (range effect).
• Mayoritas skor tinggi (ceiling effect), atau mayoritas rendah (floor effect).
▪ Contoh: Apakah CBT efektif mengurangi tingkat depresi.
• Kalau ternyata partisipan yang diteliti skor depresinya rendah, maka
diberikan CBT perubahannya tidak terlalu banyak (floor effect)
▪ Contoh: Apakah program mengajar baru efektif dalam meningkatkan
pemahaman mahasiswa?
• 95% mahasiswa di kelas tersebut skor awalnya sudah tinggi. Maka saat
diberikan program baru juga perubahannya tidak signifikan (ceiling effect)
Other Aspects
Partisipan mengubah perilakunya
secara sadar atau tidak sadar
Reactivity karena mengetahui sedang diteliti
Experimenter
Bias Artifacts
Isyarat atau fitur apapun dari
penelitian yang memberikan (a)
Demand gambaran kepada partisipan
tujuan atau hipotesis penelitian,
Characteristics
dan (b) mempengaruhi partisipan
Ekspektasi eksperimenter/peneliti untuk merespon dalam cara
mempengaruhi hasil penelitian tertentu.
Artifacts: Experimenter Bias
▪ Peneliti dapat mempengaruhi hasil akhir dari penelitian, sesuai dengan
prediksi yang dibuat (baik secara sengaja maupun tidak).
• Contoh: Dalam penelitian tidur, bisa jadi ruang tes untuk kelompok kontrol
(cukup tidur) lebih nyaman dibandingkan ruang tes kelompok
eksperimental (kurang tidur) karena prediksinya adalah atensi kelompok
kurang tidur lebih buruk.
▪ Peneliti memanipulasi HASIL AKHIR dari segi prosedur, setting, dll.
▪ Bagaimana cara mengatasi experimenter bias?
• Single-blind atau double-blind research
Artifacts: Demand Characteristics & Reactivity
▪ Individu dapat mengadopsi cara yang berbeda dalam merespon
treatment eksperimental, berdasarkan apa yang mereka anggap sesuai
dalam situasi tersebut.
▪ Weber dan Cook (1972) 🡪 4 Peran Subjek
• Good 🡪 merespon sesuai dengan hipotesis peneliti
• Negativistic 🡪 merespon berlawanan dengan hipotesis peneliti
• Apprehensive 🡪 sangat khawatir penelitian ini untuk mengukur kemampuan
• Faithful 🡪 mengikuti instruksi, tidak berperilaku dibuat-buat, natural
Artifacts: Demand Characteristics & Reactivity
▪ Reactivity biasa muncul dalam penelitian laboratorium
• Partisipan sepenuhnya sadar bahwa mereka diteliti
▪ Untuk melihat perilaku sehari-hari dapat menggunakan penelitian
lapangan (field)
• Partisipan diobservasi dalam kondisi alamiah, dan tanpa diatur
Jadi bagaimana kita memilih prosedur pengukuran?
▪ Lihat penelitian sebelumnya
• Memiliki reliabilitas dan validitas yang baik
▪ Menggunakan beberapa prosedur dalam mengukur variabel yang sama