Metopen SELESAI

INSTRUMENTASI, VALIDATAS, RELIABILITAS, DAN VALIDITAS
INTERNAL
Untuk memenuhi mata kuliah Metodologi Penelitian
Disusun Oleh
Heni Rodiawati 1923021015
Pixyoriza 1923021022
Diana Ali 1923021026
Dosen Pengampu
Dr. Sri Hastuti Noer, M.Pd
MAGISTER PENDIDIKAN MATEMATIKA

JURUSAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM
FAKULTAS KEGURUAN DAN PENDIDIKAN
UNIVERSITAS LAMPUNG
2019
7. INSTRUMENTASI
Apa itu Data?
Istilah data mengacu pada jenis informasi yang diperoleh peneliti pada subjek
penelitian mereka. Informasi demografis, seperti usia, jenis kelamin, etnis, agama,
dan sebagainya, adalah satu jenis data; skor dari tersedia secara komersial atau tes
yang disiapkan peneliti adalah hal lain. Tanggapan terhadap pertanyaan peneliti
dalam wawancara lisan atau balasan tertulis untuk kuesioner survei adalah jenis lain.
Esai yang ditulis oleh siswa, nilai rata-rata poin yang diperoleh dari catatan sekolah,
catatan kinerja yang disimpan oleh pelatih, catatan anekdot yang dikelola oleh guru
atau penasihatsemua merupakan berbagai jenis data yang mungkin ingin
dikumpulkan oleh peneliti sebagai bagian dari penyelidikan penelitian. Oleh karena
itu, keputusan penting yang harus diambil oleh setiap peneliti selama tahap
perencanaan penyelidikan adalah jenis data apa yang ingin ia kumpulkan. Perangkat
(seperti tes pensil dan kertas, kuesioner, atau skala penilaian) yang digunakan peneliti
untuk mengumpulkan data disebut instrumen. *
Pertanyaan Utama
Secara umum, seluruh proses persiapan untuk mengumpulkan data disebut

instrumentasi. Ini melibatkan tidak hanya pemilihan atau desain instrumen tetapi juga
prosedur dan kondisi di mana instrumen akan diberikan. Beberapa pertanyaan
muncul:
1. Di mana data akan dikumpulkan? Pertanyaan ini merujuk pada lokasi

pengumpulan data. Di mana itu? di kelas? halaman sekolah? rumah pribadi?
di jalan?
2. Kapan data akan dikumpulkan? Pertanyaan ini mengacu pada waktu
pengumpulan. Kapan itu akan terjadi? di pagi hari? sore? malam? lebih dari
akhir pekan?
3. Seberapa sering data akan dikumpulkan? Pertanyaan ini mengacu pada
frekuensi pengumpulan. Berapa kali data dikumpulkan? hanya sekali? dua
kali? lebih dari dua kali?
4. Siapa yang mengumpulkan data? Pertanyaan ini mengacu pada administrasi
instrumen. Siapa yang melakukan ini? peneliti? seseorang yang dipilih dan
dilatih oleh peneliti?
Pertanyaan-pertanyaan ini penting karena bagaimana caranya peneliti menjawabnya

dapat mempengaruhi data yang diperoleh. Adalah suatu kesalahan untuk berpikir
bahwa para peneliti hanya perlu menemukan atau mengembangkan instrumen yang
"baik". Data yang diberikan oleh instrumen apa pun dapat dipengaruhi oleh salah satu
atau semua yang sebelumnya pertimbangan. Instrumen yang paling dihormati akan
memberikan data yang tidak berguna, misalnya, jika diberikan secara tidak benar;
oleh seseorang yang tidak disukai oleh responden; dibawah berisik, kondisi tidak
ramah; atau saat subjek kelelahan.
Semua pertanyaan di atas penting bagi peneliti untuk dijawab, oleh karena itu,
sebelum mereka mulai mengumpulkan data yang mereka butuhkan. Keputusan
peneliti tentang lokasi, waktu, frekuensi, dan administrasi selalu dipengaruhi oleh
jenis instrumen yang akan digunakan. Dan untuk itu dari nilai apa pun, setiap
instrumen, apa pun jenisnya, harus memungkinkan para peneliti untuk menarik
kesimpulan yang akurat tentang kemampuan atau karakteristik lain dari orang yang
dipelajari.
Validitas, Reliabilitas, dan Tujuan
Definisi yang sering digunakan (tapi agak kuno) tentang instrumen yang valid adalah
bahwa instrumen itu mengukur apa itu seharusnya mengukur. Definisi yang lebih
akurat tentang Validitas berkisar pada defensibilitas inferensi yang dibuat peneliti
dari data yang dikumpulkan menggunkaan instrumen. Bagaimanapun, instrumen
adalah perangkat yang digunakan untuk mengumpulkan data. Para peneliti kemudian
menggunakan data ini untuk membuat kesimpulan tentang karakteristik individu-
individu tertentu. * Tetapi untuk keperluan apa pun, kesimpulan ini harus benar.
Semua peneliti, oleh karena itu, menginginkan instrumen yang memungkinkan
mereka untuk menarik kesimpulan yang valid, atau valid, tentang karakteristik
(kemampuan, prestasi, sikap, dan sebagainya) dari individu yang mereka pelajari.
Untuk mengukur prestasi matematika, misalnya, seorang peneliti perlu memiliki

kepastian bahwa instrumen yang ingin digunakan sebenarnya mengukur pencapaian
tersebut. Peneliti lain yang ingin tahu apa yang dipikirkan orang atau bagaimana
perasaan mereka tentang suatu topik tertentu perlu jaminan bahwa instrumen yang
digunakan akan biarkan dia membuat kesimpulan yang akurat. Ada berbagai cara
untuk mendapatkan jaminan tersebut, dan kami membahasnya dalam Bab 8.
Pertimbangan kedua adalah reliabilitas. Instrumen yang andal adalah instrumen yang
memberikan hasil yang konsisten. Jika sebuah Peneliti menguji pencapaian
matematika dari sekelompok individu pada dua atau lebih waktu yang berbeda,
misalnya, ia harus berharap untuk mendapatkan hasil yang sama. setiap kali.
Konsistensi ini akan memberi peneliti rasa percaya bahwa hasil sebenarnya mewakili
pencapaian individu yang terlibat. Seperti halnya validitas, sejumlah prosedur dapat
digunakan untuk menentukan keandalan suatu instrumen. Kami membahas beberapa
di antaranya dalam Bab 8. Pertimbangan terakhir adalah objektivitas. Objektivitas
mengacu pada tidak adanya penilaian subyektif. Kapanpun mungkin Namun, para
peneliti harus mencoba menghilangkan subjektivitas dari penilaian yang mereka buat
tentang prestasi,kinerja, atau karakteristik subjek. Sayangnya, objektivitas lengkap
mungkin tidak pernah tercapai.
Kami membahas masing-masing konsep ini secara lebih rinci dalam Bab 8. Dalam
bab ini, kami melihat beberapa jenis instrumen yang dapat (dan sering) digunakan
dalam penelitian dan membahas cara menemukan dan memilihnya.
Usabilitas
Sejumlah pertimbangan praktis dihadapi setiap peneliti. Salah satunya adalah betapa
mudahnya menggunakan instrumen apa pun yang ia desain atau pilih. Berapa lama
untuk mengelola? Apakah arahannya jelas? Apakah pantas untuk etnis atau kelompok
lain yang akan diadministrasikan? Seberapa mudah untuk mencetak gol? menafsirkan
hasil? Berapa harganya? Lakukan formulir yang setara ada? Apakah ada masalah
yang dilaporkan oleh orang lain yang menggunakannya? Apakah bukti keandalan dan
validitasnya ada? Mendapatkan jawaban yang memuaskan untuk pertanyaan-
pertanyaan semacam itu dapat menghemat banyak waktu dan energi bagi seorang
peneliti dan dapat mencegah banyak sakit kepala.
Sarana Klasifikasi Instrumen Pengumpulan Data
Instrumen dapat diklasifikasikan dalam beberapa cara. Berikut ini beberapa yang
paling berguna.
SIAPA YANG MENYEDIAKAN INFORMASI?
Dalam penelitian pendidikan, tiga metode umum tersedia untuk memperoleh

informasi. Peneliti bisa mendapatkannya informasi (1) diri mereka sendiri, dengan
sedikit atau tanpa keterlibatan orang lain; (2) langsung dari subyek pembelajaran;
atau (3) dari orang lain, sering disebut sebagai informan, yang memiliki pengetahuan
tentang subjek.
1. Instrumen peneliti
 Seorang peneliti yang tertarik dalam pembelajaran dan pengembangan
memori menghitung berapa kali anak-anak sekolah pembibitan berbeda untuk
belajar menavigasi jalan mereka dengan benar melalui labirin yang terletak di
taman bermain sekolah mereka. Dia mencatat temuannya pada lembar
penghitungan.
 Seorang peneliti yang tertarik pada konsep saling tertarik menjelaskan dalam
catatan lapangan yang sedang berlangsung bagaimana perilaku orang yang
bekerja sama dalam berbagai pengaturan telah diamati berbeda pada variabel
ini.
2. Instrumen mata pelajaran
 Seorang peneliti di sekolah dasar menyelenggarakan tes ejaan mingguan yang
mengharuskan siswa untuk mengeja dengan benar kata-kata baru yang
dipelajari di kelas selama seminggu.
 Atas permintaan peneliti, administrator membagikan kuesioner selama rapat
fakultas
yang meminta pendapat fakultas tentang kurikulum matematika baru yang
baru-baru ini dilembagakan di distrik.
 Seorang peneliti meminta guru-guru bahasa Inggris sekolah menengah agar
murid-murid mereka membuat catatan harian di mana mereka mencatat reaksi
mereka terhadap permainan yang mereka baca masing-masing minggu.
3. Instrumen informan
 Seorang peneliti meminta para guru untuk menggunakan skala penilaian
untuk menilai setiap siswa mereka pada bacaan phonic mereka keterampilan.
 Seorang peneliti meminta orang tua untuk menyimpan catatan anekdotal yang
menggambarkan karakter TV anak-anak prasekolah mereka secara spontan.
Seorang peneliti mewawancarai presiden dewan siswa tentang pandangan
siswa tentang kode disiplin sekolah. Tanggapannya dicatat pada jadwal
wawancara.
DARI MANAKAH INSTRUMEN BERASAL?

Pada dasarnya ada dua cara dasar bagi seorang peneliti untuk memperoleh instrumen:
(1) menemukan dan mengelola instrumen yang sudah ada atau semacamnya (2)
mengelola instrumen yang dikembangkan sendiri oleh peneliti atau telah
dikembangkan oleh orang lain. Mengembangkan instrumen memiliki masalah.
Terutama, itu tidak mudah dilakukan. Mengembangkan instrumen "baik" biasanya
membutuhkan banyak waktu dan usaha, belum lagi banyak keterampilan. Memilih
instrumen yang sudah dikembangkan saat lebih tepat, oleh karena itu, lebih disukai.
Instrumen seperti itu biasanya dikembangkan oleh para ahli yang memiliki
keterampilan essary. Memilih instrumen yang sudah dikembangkan membutuhkan
waktu jauh lebih sedikit daripada mengembangkan instrumen baru untuk mengukur
hal yang sama. Mendesain instrumen sendiri memakan waktu, dan kami tidak
merekomendasikannya untuk mereka yang tidak punya banyak waktu, energi, dan
uang untuk berinvestasi dalam usaha ini.
Untungnya, sejumlah instrumen yang sudah dikembangkan dan bermanfaat sudah
ada, dan mereka dapat ditemukan dengan mudah melalui komputer. Daftar sumber
daya pengujian paling lengkap yang saat ini tersedia dapat ditemukan dengan
mengakses database ERIC di situs Web berikut: http://eric.ed.gov (Gambar 7.1).
Gambar 7.1 Mesin Pencari ERIC
Sumber: Dari ERIC (Pusat Informasi Sumber Daya Pendidik). Dapatkan kembali
dengan izin dari Departemen Pendidikan AS, dijalankan oleh Komputer Ilmu
Pengetahuan Corporation. www.eric.ed.gov
Gambar 7.2 Dokumen Pencocokan dari ERIC Cari “Instrumen Studi Sosial”
dengan izin dari Departemen Pendidikan AS, dijalankan oleh Komputer Ilmu
Pengetahuan Corporation. www.eric.ed.gov
Gambar 7.3 Abstrak dari Database ERIC
dengan izin dari Departemen Pendidikan AS, dijalankan oleh Ilmu Komputer
Perusahaan. www.eric.ed.gov
Perhatikan bahwa mesin pencari yang kami jelaskan di Bab 5 dapat digunakan untuk
menemukan ERIC. Yang ingin Anda temukan adalah koleksi tes ERIC atas lebih dari
9.000 instrumen dari berbagai jenis, serta Buku Tahunan Pengukuran Mental.
Sekarang diproduksi oleh Institut Buros di Universitas Nebraska, * buku tahunan
diterbitkan setiap dua tahun sekali, dengan suplemen diproduksi di antara berbagai
isu. Setiap buku tahunan memberikan ulasan tentang tes standar yang telah
diterbitkan sejak edisi terakhir. The Institute's Tests in Print adalah daftar pustaka tes
komersial yang komprehensif. Sayangnya, hanya referensi ke instrumen dan ulasan
mereka yang tersedia online; instrumen itu sendiri hanya tersedia dalam bentuk
cetak.
Berikut adalah beberapa referensi lain yang dapat Anda baca yang berisi daftar
berbagai jenis instrumen:
 T. E. Backer (1977). Direktori informasi tentang tes. Laporan ERIC TM 62-1977.
Princeton, NJ: ERIC Clearinghouse on Assessment and Evaluation, Layanan
Pengujian Pendidikan.
 K. Corcoran dan J. Fischer (Eds.) (1994). Tindakan untuk praktik klinis (2
volume). New York: Pers Bebas.
 Katalog koleksi tes ETS: Volume 1, Prestasi tes (1992); Volume 2, Tes Kejuruan
(1988); Volume 3, Tes untuk populasi khusus (1989); Volume 4, tes Kognitif,
bakat, dan kecerdasan (1990); Volume 5, Tindakan sikap (1991); Volume 6,
Tindakan afektif dan tes kepribadian (1992). Phoenix, AZ: Oryx Press.
 E. Fabiano dan N. O'Brien (1987). Menguji sumber informasi untuk pendidik.
Laporan TME 94. Princeton, NJ: ERIC Clearinghouse on Assessment dan
Evaluasi, Layanan Pengujian Pendidikan. Sumber ini memperbarui Backer ke
1987, tetapi tidak komprehensif.
 A. Goldman dan D. F. Mitchell (1974-1995). Direktori tindakan mental
eksperimental yang tidak dipublikasikan (6 volume). Washington, DC: Asosiasi
Psikologis Amerika.
 M. Hersen dan A. S. Bellack (1988). Kamus teknik penilaian perilaku. New York:
Pergamon.
J. C. Impara dan B. S. Plake (1999). Buku tahunan pengukuran mental. Lincoln,
NE: Institut Buros, Universitas Nebraska.
 S. E. Krug (diterbitkan dua kali setahun). Buku sumber Psychware. Austin, TX:
Pro-Ed, Inc. Direktori alat penilaian berbasis komputer, seperti tes, penilaian, dan
sistem interpretasi.
 H. I. McCubbin dan A. I. Thompson (Eds.) (1987). Inventarisasi penilaian
keluarga untuk penelitian dan praktik. Madison, WI: Universitas Wisconsin –
Madison.
 L. L. Murphy et al. (1999). Tes dicetak. Lincoln, NE: Institut Buros, Universitas
Nebraska.
 R. C. Sweetland dan D. J. Keyser (Eds.) (1991). Tes: Referensi komprehensif
untuk penilaian di psikologi, pendidikan, dan bisnis, edisi ke-3. Kansas City, MO:
Test Corporation of America.
Dengan begitu banyak instrumen yang tersedia untuk komunitas penelitian, kami
merekomendasikan bahwa, kecuali dalam kasus yang tidak biasa, para peneliti
mencurahkan energi mereka untuk mengadaptasi (dan / atau meningkatkan) yang ada
sekarang daripada mencoba memulai dari awal untuk mengembangkan yang sama
sekali baru tindakan.
Kinerja Versus Tanggapan Tertulis
Cara lain untuk mengklasifikasikan instrumen adalah dari segi apakah mereka
memerlukan tanggapan tertulis atau nyata dari subjek atau evaluasi yang lebih umum
dari subyek ' kinerja. Instrumen tanggapan tertulis meliputi tes objektif (mis. Pilihan
ganda, benar salah, cocok, atau jawaban pendek), ujian esai pendek, pertanyaan-
naires, jadwal wawancara, skala penilaian, dan cek-daftar. Instrumen kinerja
mencakup perangkat apa pun yang dirancang untuk mengukur prosedur atau produk.
Prosedur adalah cara melakukan sesuatu, seperti mencampur solusi kimia,
mendiagnosis masalah dalam mobil, menulis surat, memecahkan teka-teki, atau
mengatur margin pada mesin tik. Produk adalah hasil akhir dari prosedur, seperti
larutan kimia yang tepat, diagnosis kerusakan otomatis yang benar, atau yang benar
huruf yang diketik. Instrumen kinerja dirancang untuk lihat apakah dan seberapa baik
prosedur dapat diikuti dan untuk menilai kualitas produk.
Instrumen tanggapan tertulis umumnya lebih disukai daripada instrumen kinerja,

karena penggunaan yang terakhir sering cukup memakan waktu dan sering
membutuhkan peralatan atau sumber daya lain yang tidak tersedia. Sejumlah besar
waktu harus dimiliki bahkan sampel siswa yang cukup kecil (bayangkan 35!)
menyelesaikan langkah-langkah yang terlibat dalam percobaan sains sekolah
menengah.
Contoh-contoh Pengumpulan Data Instrumen
Ketika datang untuk mengelola instrumen yang akan digunakan dalam penelitian,
baik para peneliti (atau asisten mereka atau informan lainnya) harus melakukannya
sendiri, atau mereka harus mintalah subyek penelitian untuk memberikan informasi
diinginkan. Oleh karena itu, kami mengelompokkan instrumen dalam diskusi berikut
sesuai dengan apakah mereka dilengkapi oleh peneliti atau subyek. Contoh instrumen
ini meliputi
Peneliti Lengkap Subjek lengkap

Skala penilaian kuesioner
jadwal wawancara daftar periksa sendiri
bentuk observasi skala sikap
lembar penghitungan persediaan personaliy (atau karakter)
diagram alur prestasi / bakat
daftar periksa kinerja tes kinerja
catatan anekdotal perangkat proyektif
log waktu-dan-gerak perangkat sosiometri
Perbedaan ini tentu saja tidak mutlak. Banyak instrumen yang kami daftarkan
mungkin, pada kesempatan tertentu, diisi oleh peneliti atau subjek dalam studi
tertentu.
Instrumen Lengkap Penelitian

Skala Penilaian. Peringkat adalah penilaian yang diukur atas sejenis. Ketika kita
menilai orang, kita membuat penilaian tentang perilaku mereka atau sesuatu yang
telah mereka hasilkan. Dengan demikian, baik perilaku (seperti seberapa baik
seseorang memberikan laporan lisan) dan produk (seperti salinan laporan tertulis) dari
individu dapat dinilai.
Skala Penilaian Perilaku. Skala penilaian perilaku muncul dalam beberapa bentuk,
tetapi yang paling umum digunakan bertanya pengamat untuk melingkari atau
menandai titik pada sebuah kontinum untuk menunjukkan peringkat. Yang paling
sederhana dari ini untuk membangun adalah skala peringkat numerik, yang
menyediakan serangkaian angka, masing-masing mewakili peringkat tertentu.
Gambar 7.4 menunjukkan skala yang dirancang untuk menilai guru. Masalah dengan
skala peringkat ini adalah bahwa pengamat yang berbeda cenderung memiliki ide
yang berbeda tentang arti istilah yang diwakili oleh angka-angka tersebut (sangat
baik, rata-rata, dll.) Dengan kata lain, poin penilaian yang berbeda pada skala tidak
dijelaskan sepenuhnya. Oleh karena itu, individu yang sama dapat dinilai sangat
berbeda oleh dua pengamat yang berbeda. Satu jalan menuju mengatasi masalah ini
adalah memberi makna tambahan pada setiap angka dengan menjelaskannya lebih
lengkap. Misalnya, pada Gambar 7.4, peringkat 5 dapat didefinisikan sebagai "di
antara 5 persen teratas dari semua guru yang Anda miliki." tidak adanya definisi
seperti itu, peneliti harus mengandalkan pelatihan responden atau memperlakukan
peringkat sebagai pendapat subjektif.
Skala peringkat grafik adalah upaya untuk meningkatkan ketidakjelasan skala

peringkat numerik. Ini menggambarkan masing-masing karakteristik yang akan
dinilai dan menempatkannya pada garis horizontal di mana pengamat harus
menempatkan tanda centang. Gambar 7.5 menyajikan contoh skala peringkat grafik.
Di sini lagi, skala ini akan ditingkatkan dengan menambahkan definisi, seperti
mendefinisikan selalu sebagai "95 hingga 100 persen dari waktu," dan sering sebagai
"70 hingga 94 persen dari waktu."
Gambar 7.4 Kutipan dari Skala Penilaian Perilaku untuk Guru
Gambar 7.5 Kutipan dari Skala Penilaian Grafik
Skala Penilaian Produk. Seperti yang kami sebutkan sebelumnya, peneliti mungkin
ingin menilai produk. Contoh produk yang sering dinilai dalam pendidikan adalah
laporan buku, peta dan bagan, diagram, gambar, buku catatan, esai, dan upaya kreatif
dari segala jenis. Sedangkan peringkat perilaku harus dilakukan pada waktu tertentu
(ketika peneliti dapat mengamati perilaku), keuntungan besar dari peringkat produk
adalah bahwa hal itu dapat dilakukan kapan saja. *
Gambar 7.6 Contoh dari Penilaian Produk Skala Sumber: Skala tulisan tangan
yang digunakan di California Achievement Tes, Formulir W (1957). CTB /
McGraw-Hill, Monterey, CA. Hak Cipta © 1957 oleh McGraw-Hill.
Gambar 7.6 menyajikan contoh skala penilaian peringkat produk “tulisan tangan” .
”Untuk menggunakan skala ini, sampel aktual tulisan tangan siswa adalah diperoleh.
Kemudian dipindahkan sepanjang skala sampai kualitas tulisan tangan dalam sampel
paling mirip dengan contoh yang ditunjukkan pada skala. Meskipun lebih dari 50
tahun, itu tetap menjadi contoh klasik dari jenis instrumen ini.
Jadwal Wawancara. Jadwal wawancara dan kuesioner pada dasarnya adalah jenis
instrumen yang sama — satu set pertanyaan yang harus dijawab oleh subjek
penelitian. Namun, ada beberapa perbedaan penting dalam cara pemberiannya.
Wawancara dilakukan secara lisan, dan jawaban atas pertanyaan dicatat oleh peneliti
(atau seseorang yang telah dilatihnya). Keuntungan dari instrumen ini adalah
pewawancara dapat mengklarifikasi pertanyaan yang tidak jelas dan juga dapat
meminta responden untuk memperluas jawaban yang sangat penting atau terbuka.
Kerugian besar, di sisi lain, adalah bahwa dibutuhkan jauh lebih lama daripada
kuesioner untuk diisi. Selain itu, kehadiran peneliti dapat menghambat responden
untuk mengatakan apa yang sebenarnya mereka pikirkan.
Gambar 7.7 menggambarkan jadwal wawancara terstruktur. Perhatikan bahwa jadwal

wawancara ini mengharuskan pewawancara melakukan banyak penulisan, kecuali
jika wawancara direkam. Beberapa frase jadwal wawancara pertanyaan sehingga
tanggapan cenderung masuk dalam kategori tertentu. Ini kadang-kadang disebut
precoding. Precoding memungkinkan pewawancara untuk memeriksa item yang
sesuai daripada menuliskan respons, sehingga mencegah responden dari harus
menunggu sementara pewawancara mencatat respons.
Apakah Anda menilai pembelajaran akademik siswa sebagai sangat baik, bagus, Gambar 7.7
adil, atau miskin?
Wawancara
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
murid Jadwal (untuk Guru)
pembelajaran akademik untuk tahun-tahun sebelumnya? Membicarakan
b. Tolong beri contoh spesifik.
untuk membicarakan
2. Apakah Anda menilai sikap murid terhadap sekolah secara umum?
luar biasa, bagus, adil, atau miskin? Pengaruh
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan Kompetensi-
murid
Kurikulum Berbasis
Sikap terhadap sekolah pada umumnya untuk tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik. di
3. Apakah Anda menilai sikap siswa terhadap pembelajaran sangat baik, Sekolah Dalam Kota
baik, adil, atau miskin?
sikap terhadap pembelajaran ke tahun-tahun sebelumnya?
4. Apakah Anda menilai sikap murid terhadap diri sendiri sangat baik, baik,
adil, atau miskin?
murid
sikap terhadap diri untuk tahun-tahun sebelumnya?
5. Apakah Anda menilai sikap siswa terhadap siswa lain?
luar biasa, bagus, adil, atau miskin?
sikap terhadap siswa lain untuk tahun-tahun sebelumnya?
6. Apakah Anda menilai sikap murid terhadap Anda sangat baik, baik,
adil, atau miskin?
murid
Sikap terhadap Anda untuk tahun-tahun sebelumnya?
7. Apakah Anda menilai kreativitas murid-ekspresi diri sebagai sangat baik,
baik, adil, atau miskin?
murid
kreativitas – ekspresi diri pada tahun-tahun sebelumnya?
Formulir Pengamatan. Bentuk observasi kertas dan pensil (kadang-kadang disebut

jadwal observasi) cukup mudah untuk dibangun. Contoh bentuk seperti itu
ditunjukkan pada Gambar 7.8. Seperti yang Anda lihat, formulir membutuhkan
pengamat tidak hanya mencatat perilaku tertentu, tetapi juga untuk mengevaluasi
beberapa ketika mereka terjadi.
Gambar
7.8 Contoh
Formulir
Pengamata
n
Petunjuk
Arah:
Awalnya, formulir observasi harus selalu digunakan dasar percobaan dalam situasi
yang mirip dengan yang akan diamati untuk mengatasi bug atau ambiguitas.
Kelemahan yang sering terjadi dalam banyak bentuk observasi adalah mereka
bertanya pengamat mencatat lebih banyak perilaku daripada yang bisa dilakukan
akurat (atau menonton terlalu banyak individu sekaligus waktu). Seperti yang sering
terjadi, semakin sederhana instrumen, semakin baik.
Lembar penghitungan. Lembar penghitungan adalah perangkat yang sering

digunakan oleh para peneliti untuk mencatat frekuensi perilaku, kegiatan, atau
komentar siswa. Berapa banyak siswa sekolah menengah yang mengikuti instruksi
saat latihan kebakaran, misalnya? Berapa banyak contoh agresi atau kegunaan yang
ditunjukkan oleh siswa sekolah dasar di taman bermain? Seberapa sering siswa di
kelas sejarah A. Jordan periode kelima AS mengajukan pertanyaan? Seberapa sering
mereka mengajukan pertanyaan inferensial? Lembar penghitungan dapat membantu
peneliti catat jawaban untuk pertanyaan-pertanyaan semacam ini secara efisien.
Diagram alir. Jenis lembar penghitungan tertentu adalah bagan alur partisipasi.
Diagram alir sangat membantu dalam menganalisis diskusi kelas. Baik jumlah dan
arah komentar siswa dapat dipetakan untuk mendapatkan beberapa gagasan tentang
kuantitas dan fokus partisipasi verbal siswa di kelas.
Salah satu cara termudah untuk melakukan ini adalah menyiapkan grafik tempat
duduk di mana sebuah kotak ditarik untuk setiap siswa di kelas yang diamati.
Penghitungan kemudian ditempatkan di dalam kotak siswa tertentu setiap kali dia
membuat komentar verbal. Untuk menunjukkan arah komentar masing-masing siswa,
panah dapat diambil dari kotak siswa yang memberikan komentar ke kotak siswa
yang kepadanya komentar diarahkan. Gambar 7.10 menggambarkan seperti apa
diagram alir itu nantinya. Bagan ini menunjukkan bahwa Robert, Felix, dan Mercedes
mendominasi diskusi, dengan kontribusi dari Al, Gail, Jack, dan Sam. Joe dan Nancy
tidak mengatakan apa-apa. Perhatikan bahwa diskusi selanjutnya, atau Namun, topik
yang berbeda mungkin mengungkapkan hal yang sangat berbeda pola.
Gambar 7.10 Partisipasi Flow chart Sumber: Diadaptasi dari Henokh I. Sawin
(1969). Evaluasi dan pekerjaan guru Belmont, CA: Wadsworth, p. 179. Izin ulang
atas Izin Sage Penerbit, Inc.
Daftar Periksa Kinerja. Salah satu instrumen pengukuran yang paling sering
digunakan adalah daftar periksa. Daftar periksa kinerja terdiri dari daftar perilaku
yang membentuk jenis kinerja tertentu (menggunakan mikroskop, mengetik huruf,
memecahkan masalah matematika, dan sebagainya). Ini digunakan untuk menentukan
apakah seseorang berperilaku dengan cara tertentu (biasanya diinginkan) ketika
diminta untuk menyelesaikan tugas tertentu. Jika perilaku tertentu hadir ketika
seseorang diamati, peneliti menempatkan tanda centang di sebelahnya pada daftar.
Catatan Pengalaman Pribadi. Cara lain untuk merekam perilaku individu adalah
catatan Pengalaman Pribadi. Itulah yang tersirat dari namanya sebuah catatan tentang
yang diamati perilaku yang ditulis dalam bentuk anekdot. Tidak ada format yang
ditetapkan; alih-alih, pengamat bebas mencatat perilaku apa pun yang menurut
mereka penting dan tidak perlu fokus pada perilaku yang sama untuk semua mata
pelajaran. Namun, untuk menghasilkan catatan yang paling berguna, pengamat harus
berusaha sespesifik dan se faktual mungkin dan untuk menghindari komentar yang
evaluatif, interpretatif, atau terlalu umum. American Council on Education
menggambarkan empat jenis anekdot, yang menyatakan bahwa tiga yang pertama
harus dihindari. Hanya tipe keempat yang diinginkan.
1. Pengalaman Pribadi. yang mengevaluasi atau menilai perilaku anak sebagai baik
atau buruk, diinginkan atau tidak diinginkan, dapat diterima atau tidak dapat
diterima. . . pernyataan evaluatif (harus dihindari).
2. Pengalaman Pribadi. yang menjelaskan atau menjelaskan perilaku anak, biasanya
berdasarkan satu fakta atau tesis. . . pernyataan interpretatif (harus dihindari).
3. Pengalaman Pribadi. yang menggambarkan perilaku tertentu secara umum
istilah, seperti yang sering terjadi, atau sebagai ciri anak. . . pernyataan umum
(harus dihindari).
4. Pengalaman Pribadi. yang menceritakan dengan tepat apa yang dilakukan atau
dikatakan anak itu, yang menggambarkan secara konkret situasi di mana tindakan
atau komentar itu terjadi, dan yang memberi tahu dengan jelas apa yang juga
dilakukan atau dikatakan orang lain. . . spesifik atau pernyataan deskriptif konkret
(tipe yang diinginkan).
Berikut adalah contoh masing-masing dari keempat jenis.
Evaluatif: Julius berbicara keras dan banyak selama puisi; ingin melakukan dan
mengatakan apa yang dia inginkan dan tidak mempertimbangkan hak untuk
menyelesaikan sesuatu. Harus memintanya duduk di sampingku. Menunjukkan sikap
buruk tentang hal itu.
Penafsiran: Selama seminggu terakhir Sammy telah menjadi ekor yang sempurna.
Dia tumbuh sangat cepat sehingga dia tidak bisa tenang. . . . Tentu saja perubahan
batin
yang terjadi menyebabkan kegelisahan.
Umum: Sammy sangat gelisah akhir-akhir ini. Dia berbisik sebagian besar waktu dia
tidak sibuk. Di dalam lingkaran, selama berbagai diskusi, meskipun dia tertarik,
lengannya bergerak atau dia meninju orang yang duduk di sebelahnya. Dia tersenyum
ketika aku berbicara dengannya.
Spesifik (jenis yang diinginkan): Cuaca sangat dingin sehingga kami tidak bermain di
taman bermain hari ini. Anak-anak bermain di dalam kamar selama periode istirahat
reguler. Andrew dan Larry memilih sisi untuk permainan yang dikenal sebagai
mencuri daging. Saya sedang berbicara dengan sekelompok anak-anak di depan
ruangan sementara pemilihan sedang dalam proses dan suatu saat saya mendengar
pertengkaran keras. Larry mengatakan semua yang diinginkan anak-anak untuk
berada di pihak Andrew daripada di pihaknya. Andrew berkomentar, “Saya tidak
dapat membantu jika mereka semua ingin berada di pihak saya.” 2
Log Waktu-dan-Gerak. Ada saat-saat ketika para peneliti ingin melakukan

pengamatan yang sangat rinci terhadap individu atau kelompok. Ini sering terjadi,
misalnya, ketika mencoba mengidentifikasi alasan yang mendasari masalah atau
kesulitan tertentu yang dialami individu atau kelas (bekerja sangat lambat, gagal
menyelesaikan tugas yang ditugaskan, kurang perhatian, dan sebagainya).
Studi waktu-dan-gerak adalah pengamatan dan rekaman terperinci selama periode
waktu tertentu dari aktivitas satu atau lebih individu (misalnya, selama demonstrasi
laboratorium 15 menit). Pengamat mencoba untuk merekam segala sesuatu yang
dilakukan seseorang seobjektif mungkin dan secara berkala, interval teratur (seperti
setiap 3 menit, dengan istirahat 1 menit diselingi antara interval).
Almarhum Hilda Taba, seorang pelopor dalam evaluasi pendidikan, pernah mengutip
contoh seorang guru kelas empat yang percaya bahwa kelambanan kelasnya
disebabkan oleh fakta bahwa mereka sangat teliti dalam pekerjaan mereka. Untuk
memeriksanya, ia memutuskan untuk melakukan studi waktu-dan-gerak yang
terperinci dari seorang siswa. Hasil studinya menunjukkan bahwa siswa ini, bukannya
terlalu teliti, sebenarnya tidak bisa memusatkan perhatiannya pada tugas tertentu
untuk apa pun periode waktu bersama. Gambar 7.12 menggambarkan apa dia
mengamati.
Gambar 7.12 Log Waktu-dan-Gerak

Sumber: Hilda Taba (1957). Masalah pembicaraan. Dalam ASCD 1957 Buku
Tahunan: Penelitian untuk Peningkatan Kurikulum, hlm. 60–61. © 1957 ASCD.
Instrumen Perlengkapan
Kuisioner. Jadwal wawancara yang dapat digunakan sebagai kuesioner. Dalam

kuesioner, subjek merespons pertanyaan dengan menulis atau, lebih umum, dengan
menandai lembar jawaban. Keuntungan dari kuesioner adalah bahwa mereka dapat
dikirimkan atau diberikan kepada sejumlah besar orang pada saat yang sama.
Kerugiannya adalah bahwa pertanyaan yang tidak jelas atau yang tampaknya ambigu
tidak dapat diklarifikasi, dan responden tidak memiliki kesempatan untuk
memperluas atau bereaksi secara verbal terhadap pertanyaan tentang minat atau
kepentingan tertentu.
Daftar Periksa Sendiri. Daftar periksa diri adalah daftar beberapa karakteristik atau
kegiatan yang disajikan kepada subjek belajar. Individu diminta untuk mempelajari
daftar dan kemudian untuk menempatkan tanda yang berlawanan memiliki atau
kegiatan di mana mereka telah bertunangan jangka waktu tertentu. Daftar periksa diri
sering digunakan ketika peneliti ingin siswa untuk mendiagnosis atau menilai kinerja
mereka sendiri.
Skala Sikap. Asumsi dasar yang mendasari semua skala sikap adalah bahwa adalah
mungkin untuk menemukan sikap dengan meminta individu untuk merespons
serangkaian pernyataan preferensi. Jadi, jika individu setuju dengan pernyataan,
"Kursus dalam filsafat harus diminta dari semua kandidat untuk mandat mengajar,"
peneliti menyimpulkan bahwa siswa ini memiliki sikap positif terhadap kursus seperti
itu (dengan asumsi siswa di bawah karakteristik mereka berdiri makna pernyataan itu
dan tulus dalam tanggapan mereka). Skala sikap, oleh karena itu, terdiri dari
seperangkat pernyataan yang ditanggapi individu. Itu pola tanggapan kemudian
dipandang sebagai bukti adanya satu atau lebih banyak sikap yang mendasarinya.
Skala sikap sering serupa dengan skala penilaian di formulir, dengan kata-kata dan
angka ditempatkan pada sebuah kontinum. Subjek melingkari kata atau angka yang
paling mewakili bagaimana perasaan mereka tentang topik yang termasuk dalam
pertanyaan atau pernyataan dalam skala. Skala sikap yang umum digunakan dalam
penelitian pendidikan adalah skala Likert, dinamai sesuai dengan orang yang
mendesainnya.
Semacam skala sikap unik yang sangat berguna untuk penelitian kelas adalah
perbedaan semantik Ini memungkinkan peneliti untuk mengukur sikap subjek
terhadap konsep tertentu. Subjek disajikan dengan rangkaian beberapa kata sifat
(baik-buruk, dingin-panas, tidak ternilai harganya, dan sebagainya) dan diminta untuk
menempatkan tanda centang di antara setiap pasangan untuk menunjukkan sikap
mereka. Gambar 7.15 menyajikan contoh.
Gambar 7.15 Contoh Perbedaan Semantik
Skala yang memiliki nilai tertentu untuk menentukan sikap anak-anak muda
menggunakan wajah yang hanya digambarkan. Ketika subjek penelitian sikap adalah
anak-anak sekolah dasar atau lebih muda, mereka dapat diminta untuk menempatkan
X di bawah wajah, seperti yang ditunjukkan pada Gambar 7.16, untuk menunjukkan
bagaimana perasaan mereka tentang suatu topik.
Gambar 7.16 Skala Sikap Bergambar untuk Digunakan bersama Anak Kecil
Subjek skala sikap dibahas agak luas dalam literatur tentang evaluasi dan
pengembangan tes, dan siswa yang tertarik dalam perawatan yang lebih luas harus
berkonsultasi dengan buku teks standar tentang ini subyek.
Persediaan Kepribadian (atau Karakter). Inventaris kepribadian dirancang untuk
mengukur sifat-sifat individu tertentu atau untuk menilai perasaan mereka tentang diri
mereka sendiri. Contoh-contoh dari inventaris tersebut termasuk Inventori
Kepribadian Multiphasic Minnesota, Skala Kecemasan IPATA, Skala Konsep Diri
Anak-Anak Piers-Harris (Bagaimana Saya Merasa Tentang Saya), dan Catatan
Preferensi Kuder. Gambar 7.17 mencantumkan beberapa item khas dari jenis tes ini.
Item spesifik, tentu saja, mencerminkan variabel alamat inventaris.
Gambar 7.17 Item Sampel dari Inventaris Kepribadian
Tes Prestasi. Prestasi, atau kemampuan, tes mengukur pengetahuan atau

keterampilan seseorang dalam suatu diberikan area atau subjek. Mereka sebagian
besar digunakan di sekolah untuk mengukur pembelajaran atau efektivitas
pengajaran. California Achievement Test, misalnya, mengukur pencapaian dalam
membaca, bahasa, dan berhitung. Tes Prestasi Stanford mengukur berbagai bidang,
seperti penggunaan bahasa, makna kata, ejaan, perhitungan aritmatika, studi sosial,
dan sains. Tes prestasi yang biasa digunakan lainnya termasuk Tes Komprehensif
Keterampilan Dasar, Tes Iowa Keterampilan Dasar, Tes Prestasi Metropolitan, dan
Tes Urutan Kemajuan Pendidikan (LANGKAH). Dalam penelitian yang melibatkan
membandingkan metode pembelajaran, prestasi seringkali merupakan variabel
dependen.
Tes pencapaian dapat diklasifikasikan dalam beberapa cara. Tes pencapaian umum
biasanya merupakan baterai tes (seperti tes STEP) yang mengukur hal-hal seperti
kosa kata, kemampuan membaca, penggunaan bahasa, matematika, dan penelitian
sosial. Salah satu tes prestasi umum yang paling umum adalah Ujian Catatan
Pascasarjana, yang harus dilalui siswa sebelum mereka bisa diterima di sebagian
besar program pascasarjana. Tes prestasi khusus, di sisi lain, adalah tes yang
mengukur kemampuan individu dalam subjek tertentu, seperti bahasa Inggris, sejarah
dunia, atau biologi
Tes bakat. Jenis lain dari tes kemampuan yang terkenal adalah apa yang disebut tes
bakat umum, atau kecerdasan, yang menilai kemampuan intelektual yang, dalam
banyak kasus, tidak diajarkan secara khusus di sekolah. Beberapa ukuran kemampuan
umum sering digunakan sebagai variabel independen atau dependen dalam penelitian.
Dalam mencoba menilai efek program pengajaran yang berbeda, misalnya, seringkali
perlu (dan sangat penting) untuk mengontrol variabel ini sehingga kelompok terkena
berbagai program tidak berbeda nyata dalam kemampuan umum
Tes bakat dimaksudkan untuk mengukur potensi seseorang untuk mencapai; dalam
kenyataannya, mereka mengukur keterampilan atau kemampuan saat ini. Mereka
berbeda dari tes prestasi dalam tujuan mereka dan sering dalam konten, biasanya
termasuk beragam keterampilan atau pengetahuan. Tes yang sama bisa berupa bakat
atau prestasi
Tes, tergantung pada tujuan penggunaannya. Tes prestasi matematika, misalnya,

mungkin juga mengukur bakat untuk matematika tambahan. Walaupun tes semacam
itu digunakan terutama oleh konselor untuk membantu individu mengidentifikasi area
di mana mereka mungkin memiliki potensi, mereka juga dapat digunakan dalam
penelitian. Dalam hal ini, mereka sangat berguna untuk tujuan kontrol. Misalnya,
untuk mengukur efektivitas program pengajaran yang dirancang untuk meningkatkan
kemampuan pemecahan masalah dalam matematika, seorang peneliti mungkin
memutuskan untuk menggunakan tes bakat untuk menyesuaikan perbedaan
kemampuan awal. Gambar 7.19 menyajikan contoh satu jenis barang yang ditemukan
pada tes bakat.
Gambar 7.19 Item Sampel dari Tes Aptitude

Tes bakat dapat diberikan kepada individu atau kelompok. Setiap metode memiliki
kelebihan dan kekurangan. Keuntungan besar dari tes kelompok adalah mereka lebih
mudah digunakan dan karenanya menghemat waktu. Salah satu kelemahannya adalah
bahwa mereka membutuhkan banyak membaca, dan siswa yang kemampuan
membacanya rendah jadi kurang beruntung. Selanjutnya, sulit bagi mereka yang
mengikuti tes untuk mendapatkan instruksi tes yang diklarifikasi atau untuk
berinteraksi dengan penguji (yang terkadang dapat meningkatkan skor). Terakhir,
kisaran tugas yang memungkinkan di mana siswa dapat diperiksa jauh lebih sedikit
dengan tes yang dikelola kelompok daripada dengan tes yang dikelola secara
individual.
Tes Kematangan Mental California (CTMM) dan Otis-Lennon adalah contoh-contoh

tes kelompok. Yang paling terkenal dari tes bakat individu adalah Stanford-Binet
Intelligence Scale, meskipun skala Wechsler digunakan lebih luas. Sedangkan
Stanford-Binet hanya memberikan satu skor IQ, skala Wechsler juga menghasilkan
sejumlah subskala. Dua skala Wechsler adalah Skala Kecerdasan Wechsler untuk
Anak-anak (WISC-III) untuk usia 5 hingga 15 dan Skala Kecerdasan Dewasa
Wechsler (WAIS-III) untuk remaja yang lebih tua dan orang dewasa.
Banyak tes kecerdasan memberikan bukti yang andal dan valid ketika digunakan
dengan jenis individu tertentu dan untuk tujuan tertentu (misalnya, memprediksi nilai
perguruan tinggi dari Kaukasia kelas menengah). Di sisi lain, mereka semakin
diserang bila digunakan dengan orang lain atau untuk tujuan lain (seperti
mengidentifikasi anggota kelompok minoritas tertentu yang meningkatkan pengakuan
yang gagal dilakukan sebagian besar tes intelijen mengukur banyak kemampuan
penting, termasuk kemampuan untuk mengidentifikasi atau membuat konsep
hubungan yang tidak biasa. Akibatnya, peneliti harus sangat berhati-hati dalam
mengevaluasi tes semacam itu sebelum menggunakannya dan harus menentukan
apakah tes tersebut sesuai untuk tes tersebut tujuan penelitian. (Kami membahas
beberapa cara untuk melakukan ini ketika kita mempertimbangkan validitas pada Bab
8.)
Gambar 7.20 menyajikan contoh-contoh jenis barang pada tes kecerdasan.
Gambar 7.20 Item Sampel dari Tes Kecerdasan
Tes Kinerja. Seperti yang telah kami sebutkan, tes kinerja mengukur kinerja individu
pada tugas tertentu. Contohnya adalah tes pengetikan, di mana skor individu
ditentukan oleh seberapa akurat dan seberapa cepat orang mengetik.
Seperti yang disarankan Sawin, tidak selalu mudah untuk menentukan apakah
instrumen tertentu harus disebut tes kinerja, daftar periksa kinerja, atau skala
peringkat kinerja. 6 Tes kinerja adalah yang paling objektif dari ketiganya. Ketika
sejumlah pertimbangan diperlukan untuk menentukan apakah berbagai aspek kinerja
dilakukan dengan benar, perangkat kemungkinan akan diklasifikasikan sebagai daftar
periksa atau skala peringkat. Gambar 7.21 menggambarkan tes kinerja dikembangkan
lebih dari 60 tahun yang lalu untuk mengukur menjahit kemampuan. Dalam tes ini,
individu diminta untuk menjahit garis di bagian A dari tes, dan di antara garis pada
bagian B dari tes.
Gambar 7.21 Contoh dari the Blum Sewing Uji Mesin
Sumber: ML Blum. Pilihan dari operator mesin jahit. Jurnal Psikologi Terapan, 27
(1): 36. Hak cipta 1943 oleh Psikologi Amerika Asosiasi. Diproduksi ulang dengan
Izin.
Perangkat Proyektif. Perangkat proyektif adalah segala jenis instrumen dengan

rangsangan samar yang memungkinkan individu untuk memproyeksikan minat,
preferensi, kecemasan, prasangka, kebutuhan, dan sebagainya melalui tanggapan
mereka terhadapnya. Perangkat semacam ini tidak memiliki jawaban "benar" (atau
jawaban jelas apa pun), dan formatnya memungkinkan seseorang untuk
mengekspresikan sesuatu dari kepribadiannya sendiri. Ada ruang untuk beragam
respons.
Perangkat Sosiometrik. Perangkat sosiometrik meminta individu untuk menilai rekan
mereka dalam beberapa cara. Dua contoh termasuk sosiogram dan "permainan
kelompok." Sosiogram adalah representasi visual, biasanya melalui panah, dari
pilihan yang dibuat orang tentang individu lain dengan siapa mereka berinteraksi. Ini
sering digunakan untuk menilai iklim dan struktur hubungan interpersonal di dalam
kelas, tetapi tidak berarti terbatas pada lingkungan seperti itu. Setiap siswa biasanya
diwakili oleh lingkaran (Jika perempuan) atau segitiga (jika laki-laki), dan panah
kemudian ditarik untuk menunjukkan pilihan siswa yang berbeda berkaitan dengan
pertanyaan tertentu. Siswa dapat diminta, misalnya, untuk membuat daftar tiga siswa
yang mereka anggap sebagai pemimpin kelas; paling dikagumi; menemukan sangat
membantu; ingin memiliki teman; ingin memiliki sebagai mitra dalam proyek
penelitian; Dan seterusnya. Respons yang diberikan siswa kemudian digunakan untuk
menyusun sosiogram. Gambar 7.23 menggambarkan sosiogram.
Gambar 7.23 Contoh Sosiogram
Versi lain dari perangkat sosiometrik adalah permainan kelompok. Siswa diminta
untuk memainkan anggota yang berbeda dari kelompok mereka dalam berbagai peran
dalam permainan untuk menggambarkan hubungan interpersonal mereka. Peran-
peran itu terdaftar di selembar kertas, dan kemudian anggota kelompok diminta untuk
menulis atas nama siswa yang menurut mereka setiap peran paling baik dijelaskan.
Hampir semua jenis peran dapat disarankan. Pilihan-pilihan casting yang dibuat
individu sering kali memberi titik terang pada bagaimana beberapa individu dilihat
oleh orang lain. Gambar 7.24 menyajikan contoh perangkat ini.
Gambar 7.24 Contoh Permainan Kelompok
Format Item. Meskipun jenis item atau pertanyaan yang digunakan dalam instrumen
yang berbeda dapat mengambil banyak bentuk, setiap item dapat diklasifikasikan
sebagai item pilihan atau item persediaan. Item pilihan menyajikan serangkaian
tanggapan yang memungkinkan dari mana responden memilih jawaban yang paling
tepat. Item persediaan, di sisi lain, meminta responden untuk merumuskan dan
kemudian memberikan jawaban mereka sendiri. Berikut ini beberapa contoh masing-
masing jenis.
Item Pilihan. Benar-salah item: Benar-salah item menyajikan pernyataan benar atau
salah, dan responden harus menandai benar (T) atau salah (F). Variasi yang sering
digunakan dari kata-kata benar dan salah adalah ya-tidak atau benar-salah, yang
sering lebih berguna ketika mencoba untuk mempertanyakan atau mewawancarai
anak-anak kecil. Ini adalah contoh item benar-salah.
T F Saya menjadi sangat gugup setiap kali harus berbicara di depan umum.
Item pilihan ganda: Item pilihan ganda terdiri dari dua bagian: batang, yang berisi
pertanyaan, dan beberapa (biasanya empat) pilihan yang memungkinkan. Berikut ini
sebuah contoh:
Manakah dari berikut ini yang menyatakan pendapat Anda tentang aborsi?
a. Sebuah. Itu tidak bermoral dan harus dilarang.
b. Itu harus dicegah tetapi diizinkan dalam keadaan yang tidak biasa.
c. Ini harus tersedia dalam berbagai kondisi.
d. Ini sepenuhnya masalah pilihan individu.
Item yang cocok: Item yang cocok adalah variasi dari format pilihan ganda. Mereka
terdiri dari dua kelompok tercantum dalam kolom — kolom sebelah kiri yang berisi
pertanyaan atau item untuk dipikirkan dan kolom sebelah kanan berisi kemungkinan
tanggapan terhadap pertanyaan- pertanyaan tersebut. Responden memasangkan
pilihan dari kolom kanan dengan pertanyaan atau item yang sesuai di kolom sebelah
kiri. Berikut ini sebuah contoh:
Petunjuk: Untuk setiap item di kolom sebelah kiri, pilih
item di kolom kanan yang mewakili reaksi pertama Anda. Tempatkan huruf
yang sesuai di tempat kosong. Setiap item berhuruf dapat digunakan lebih dari
sekali atau tidak sama sekali.
Kolom A Kolom B
Kelas khusus untuk: a. Sebuah. harus ditingkatkan

___ 1. terbelakang parah b. harus dipindahkan
___ 2. terbelakang ringan c. harus kontras
___ 3. sulit mendengar d. harus dihilangkan
___4. tunanetra
___ 5. belajar cacat
___ 6. secara emosional terganggu
Latihan interpretatif: Satu kesulitan dengan menggunakan item yang benar-salah,
pilihan ganda, dan cocok untuk diukur prestasi adalah bahwa item-item ini sering
tidak mengukur hasil belajar yang kompleks. Salah satu cara untuk mencapai hasil
pembelajaran yang lebih kompleks adalah dengan menggunakan apa yang disebut
latihan interpretatif. Latihan interpretatif terdiri dari pemilihan bahan pengantar (ini
bisa berupa paragraf, peta, diagram, gambar, grafik) diikuti oleh satu atau lebih item
pilihan yang meminta responden untuk menafsirkan materi ini.
Dua contoh latihan interpretatif mengikuti.
Contoh 1.
Petunjuk: Baca komentar berikut yang dibuat oleh seorang guru tentang
pengujian. Kemudian jawab pertanyaan yang mengikuti komentar dengan
melingkari surat jawaban terbaik. “Siswa pergi ke sekolah untuk belajar, bukan
untuk mengambil tes. Selain itu, tes tidak dapat digunakan untuk menunjukkan
mutlak siswa tingkat pembelajaran. Semua tes dapat dilakukan adalah membuat
peringkat siswa pencapaian, dan peringkat relatif ini dipengaruhi oleh menebak,
menggertak, dan opini subjektif dari guru melakukan penilaian. Proses belajar-
mengajar akan mendapat manfaat jika kita tidak mengikuti tes dan bergantung
pada evaluasi diri siswa. "
1. Yang mana dari asumsi tidak tertulis berikut ini pembuatan guru ini?
a. Siswa pergi ke sekolah untuk belajar.
b. Guru menggunakan tes esai terutama.
c. Tes tidak memberikan kontribusi untuk pembelajaran.
d. Tes tidak menunjukkan tingkat pembelajaran absolut siswa.
Paragraf A
Kira-kira satu minggu sebelum ujian diberikan, Tn. Smith dengan hati-hati
membaca buku pelajaran dan membuat item pilihan ganda berdasarkan materi
dalam buku tersebut. Dia selalu menggunakan kata-kata yang tepat dari buku
teks untuk jawaban yang benar sehingga akan ada tidak ada pertanyaan
tentang kebenarannya. Dia berhati-hati untuk memasukkan beberapa item tes
dari setiap bab. Setelah tes diberikan, dia daftar skor dari tinggi ke rendah di
papan tulis dan memberitahu setiap siswa skornya. Dia tidak mengembalikan
kertas tes kepada siswa, tetapi ia menawarkan untuk menjawab pertanyaan
apa pun yang mungkin mereka miliki tentang tes. Dia menempatkan barang-
barang dari setiap tes ke dalam file tes, yang dia bangun untuk digunakan di
masa depan.
Pernyataan tentang Paragraf A
(T) 1. Tes Mr. Smith mengukur berbagai hasil pembelajaran yang terbatas.
(F) 2. Beberapa item tes Mr. Smith diukur pada tingkat pemahaman.
(N)3.Tes Tn. Smith mengukur sampel materi pelajaran yang seimbang.
(N) 4.Tn. Smith menggunakan jenis item tes yang terbaik untuk tujuannya.
(T) 5. Siswa dapat menentukan di mana peringkat mereka dalam distribusi
skor pada tes Mr. Smith.
(F) 6. Praktik pengujian Mr. Smith kemungkinan akan memotivasi siswa
untuk mengatasi kelemahan mereka.
Barang Persediaan. Item jawaban singkat: Item jawaban pendek
mengharuskan responden untuk memberikan kata, frasa, angka, atau simbol
yang diperlukan untuk melengkapi pernyataan atau menjawab pertanyaan.
Berikut ini sebuah contoh:
Petunjuk Arah: Di tempat yang disediakan, tulis kata yang paling melengkapi
kalimat.
Ketika jumlah item dalam tes meningkat,…….. skor pada tes cenderung
meningkat.
(Jawab: keandalan.)
Item jawaban pendek memiliki satu kelemahan utama: Biasanya sulit untuk menulis
item jawaban pendek sehingga hanya satu kata yang menyelesaikannya dengan benar.
Dalam pertanyaan di atas, misalnya, banyak siswa mungkin berpendapat bahwa
kisaran kata juga akan benar.
Pertanyaan esai: Pertanyaan esai adalah salah satu yang diminta responden untuk
ditulis panjang lebar. Seperti halnya pertanyaan jawaban pendek, subjek harus
menghasilkan jawaban mereka sendiri. Namun, secara umum, mereka bebas
menentukan bagaimana menjawab pertanyaan, fakta apa yang akan disajikan, yang
mana untuk ditekankan, interpretasi apa yang harus dibuat, dan sejenisnya. Untuk
alasan ini, pertanyaan esai adalah perangkat yang sangat berguna untuk menilai
individu kemampuan untuk mengatur, mengintegrasikan, menganalisis, dan
mensintesis informasi. Ini sangat berguna dalam mengukur hasil pembelajaran tingkat
tinggi yang disebut, seperti analisis, sintesis, dan evaluasi. Berikut adalah dua contoh
pertanyaan esai:
Contoh 1
Tuan Rogers, seorang guru sains kelas sembilan, ingin mengukur "kemampuan siswa
untuk menafsirkan data ilmiah" dengan siswa tes kertas dan pensil.
1. Jelaskan langkah-langkah yang harus diikuti oleh Tuan Rogers.

2. Berikan alasan untuk membenarkan setiap langkah.
Contoh 2
Untuk kursus yang Anda ajarkan atau harapkan untuk diajarkan, menyiapkan rencana
lengkap untuk mengevaluasi prestasi siswa. Pastikan untuk memasukkan prosedur
yang akan Anda ikuti, instrumen yang akan Anda gunakan, dan alasannya untuk
pilihan Anda.
Tindakan-Tindakan Yang Tidak Menarik
Banyak instrumen membutuhkan kerja sama responden dalam satu atau lain cara dan
melibatkan beberapa jenis intrusi ke dalam kegiatan yang sedang berlangsung.
Kadang-kadang, responden akan tidak suka atau bahkan tidak suka diuji, diamati,
atau diwawancarai. Selanjutnya, reaksi responden terhadap proses instrumentasi —
yaitu, untuk diuji, diamati, atau diwawancarai — sering, pada tingkat tertentu, akan
memengaruhi sifat informasi yang diperoleh peneliti. Dalam kebanyakan kasus, tidak
ada instrumen yang diperlukan, hanya beberapa bentuk pencatatan. Berikut adalah
beberapa contoh prosedur tersebut:
 Tingkat ketakutan yang disebabkan oleh sesi bercerita hantu dapat diukur
dengan mencatat diameter yang menyusut dari lingkaran anak-anak yang
duduk.
 Penarikan perpustakaan dapat digunakan untuk menunjukkan efek dari
pengenalan unit baru pada sejarah Cina dalam kurikulum studi sosial.
 Minat anak-anak pada hari Natal atau hari libur lainnya mungkin ditunjukkan
oleh jumlah distorsi dalam ukuran gambar mereka Santa Claus atau tokoh
liburan lainnya.
 Sikap rasial di dua sekolah dasar mungkin dibandingkan dengan mencatat
tingkat pengelompokan anggota berbagai kelompok etnis di ruang makan
siang dan di taman bermain.
 Nilai-nilai yang dipegang oleh orang-orang dari berbagai negara dapat
dibandingkan dengan menganalisis berbagai jenis bahan yang diterbitkan,
seperti buku teks, drama, buku pegangan untuk organisasi pemuda, iklan
majalah. tisements, dan berita utama surat kabar.
 Beberapa gagasan tentang perhatian yang dibayarkan kepada pasien di rumah
sakit mungkin ditentukan dengan mengamati frekuensi catatan, baik yang
informal maupun yang diperlukan, yang dibuat dengan menghadiri perawat di
catatan tempat tidur pasien.
 Tingkat stres yang dirasakan oleh mahasiswa mungkin dinilai dengan
memperhatikan sifat dan frekuensi kunjungan sakit ke pusat kesehatan
kampus. Sikap siswa terhadap, dan minat pada, berbagai topik dapat dicatat
dengan mengamati jumlah grafiti tentang topik-topik yang ditulis di dinding
sekolah.
Banyak variabel yang menarik dapat dinilai, setidaknya sampai taraf tertentu,
melalui penggunaan langkah-langkah yang tidak mencolok. Keandalan dan validitas
kesimpulan berdasarkan seperti itu tindakan akan bervariasi tergantung pada prosedur
yang digunakan. Namun demikian, langkah-langkah yang tidak mencolok menambah
penting dan dimensi yang berguna untuk berbagai sumber data yang mungkin
tersedia untuk peneliti. Mereka sangat berharga sebagai pelengkap wawancara dan
kuesioner, seringkali menyediakan cara yang berguna untuk menguatkan (atau
bertentangan) apa yang diungkapkan oleh sumber data yang lebih tradisional ini.
Jenis Skor
Data kuantitatif biasanya dilaporkan dalam bentuk skor. Skor dapat dilaporkan dalam
banyak cara, tetapi perbedaan penting untuk dipahami adalah perbedaan antara skor
mentah dan skor turunan.
Skor Baku
Hampir semua pengukuran dimulai dengan apa yang disebut skor mentah, yang
merupakan skor awal yang diperoleh. Ini mungkin jumlah total item yang seseorang
peroleh dengan benar atau menjawab dengan cara tertentu pada suatu tes, berapa kali
perilaku tertentu dihitung, peringkat yang diberikan oleh seorang guru, dan
sebagainya. Contohnya termasuk jumlah pertanyaan yang dijawab dengan benar pada
tes sains, jumlah pertanyaan yang dijawab "positif" pada skala sikap, berapa kali
perilaku "agresif" diamati, peringkat guru pada ukuran "harga diri", atau jumlah
pilihan yang diterima pada sosiogram.
Diambil dengan sendirinya, skor mentah individu sulit untuk ditafsirkan, karena
memiliki sedikit makna. Apa, misalnya, artinya mengatakan bahwa seorang siswa
menerima skor 62 pada menguji apakah itu semua informasi yang Anda miliki?
Bahkan jika Anda tahu bahwa ada 100 pertanyaan dalam tes, Anda tidak tahu apakah
62 adalah skor yang sangat tinggi (atau sangat rendah), karena tesnya mungkin
mudah atau sulit.
Kami sering ingin tahu bagaimana skor mentah satu orang dibandingkan dengan skor
orang lain yang mengikuti tes yang sama, dan (mungkin) bagaimana ia mencetak skor
pada tes serupa yang dilakukan pada waktu lain. Ini benar setiap kali kita ingin
menafsirkan skor individu. Karena skor mentah sendiri sulit untuk ditafsirkan,
mereka sering dikonversi menjadi apa yang disebutskor turunan.
Skor Yang Diperoleh
Skor yang diperoleh dengan mengambil skor mentah dan mengubahnya menjadi skor
yang lebih bermanfaat pada beberapa jenis dasar standar. Mereka menunjukkan
tempat tertentu skor mentah individu jatuh dalam kaitannya dengan semua skor
mentah lainnya dalam distribusi yang sama. Mereka memungkinkan seorang peneliti
untuk mengatakan seberapa baik kinerja individu dibandingkan dengan semua orang
lain yang mengambil tes yang sama. Contoh skor turunan adalah ekuivalen tingkat
usia dan tingkat kelas, peringkat persentil, dan skor standar.
Setara dengan Tingkat Usia dan Tingkat Level. Skor usia-setara dan skor setara-kelas
memberi tahu kita berapa usia atau nilai skor individu adalah khas. Misalkan,
misalnya, bahwa skor rata-rata pada tes aritmatika awal-tahun untuk semua siswa
kelas delapan di negara bagian tertentu adalah 62 dari 100 yang mungkin. Siswa yang
mendapat skor 62 akan memiliki nilai yang setara dengan 8,0 pada tingkat uji terlepas
dari penempatan kelas mereka yang sebenarnya — baik di kelas enam, tujuh, delapan,
sembilan, atau sepuluh, kinerja siswa adalah tipikal dari mulai kelas
delapan.Sebenarnya, seorang siswa yang berusia 10 tahun dan 6 bulan dapat memiliki
skor setara usia 12-2, yang berarti bahwa kinerja tesnya adalah khas siswa yang
berusia 12 tahun dan 2 bulan. Peringkat Persentil. Peringkat persentil mengacu pada
persentase individu yang mencetak pada atau di bawah skor mentah yang diberikan.
Peringkat persentil kadang-kadang disebut sebagai persentil, meskipun istilah ini
tidak sepenuhnya benar sebagai sinonim.*
Peringkat persentil mudah dihitung. Rumus sederhana untuk mengonversi skor
mentah ke peringkat persentil (Pr) adalah sebagai berikut:
skor siswa+banyak siswa
Pr = 𝑥 100
total siswa
Misalkan total 100 siswa mengikuti ujian, dan 18 dari mereka menerima skor mentah
di atas 85, sementara dua siswa menerima skor 85. Delapan siswa, kemudian, skor di
suatu tempat di bawah 85. Berapa peringkat persentasi dari dua siswa yang menerima
skor 85? Menggunakan rumus:
80+2
Pr = 𝑥 100 = 82
100
peringkat persentil dari dua siswa ini adalah 82.

Seringkali peringkat persentil dihitung untuk masing – masing skor dalam grup.
Tabel 7.1 menyajikan sekelompok skor dengan peringkat persentil dari setiap skor
ditunjukkan. Skor Standar. Skor standar memberikan cara lain untuk menunjukkan
bagaimana seseorang membandingkan dengan individu lain dalam suatu kelompok.
.Tabel 7.1
Skor Mentah Frekuensi Frekuensi Pangkat

Komulatif Persentil
95 1 25 100
93 1 24 96
88 2 23 92
85 3 21 84
79 1 18 72
75 4 17 68
70 6 13 52
65 2 7 28
62 1 5 20
58 1 4 16
54 2 3 12
50 1 1 4
N = 25
Skor standar. Skor standar memberikan cara lain untuk menunjukkan bagaimana
seseorang membandingkan dengan individu lain dalam suatu kelompok. Skor standar
menunjukkan seberapa jauh skor mentah yang diberikan adalah dari titik referensi.
Mereka sangat membantu dalam membandingkan pencapaian relatif seseorang pada
berbagai jenis instrumen (seperti membandingkan kinerja seseorang pada tes
pencapaian kimia dengan penilaian instruktur atas pekerjaannya di laboratorium).
Ada banyak sistem skor standar yang berbeda, tetapi dua yang paling umum
digunakan dan dilaporkan dalam penelitian pendidikan adalah skor z dan skor T.
Memahami mereka memerlukan beberapa pengetahuan tentang statistik deskriptif,
dan karenanya kami akan menunda diskusi mereka sampai Bab 10.
Skor Yang Akan Digunakan?

Mengingat berbagai jenis skor ini, bagaimana cara peneliti memutuskan mana yang
akan digunakan? Ingatlah bahwa kegunaan skor yang diturunkan terutama dalam
membuat skor mentah individu bermakna bagi siswa, orang tua, guru, dan lainnya.
Terlepas dari nilai mereka dalam hal ini, beberapa skor berasal tidak boleh digunakan
dalam penelitian. Ini adalah kasus jika peneliti mengasumsikan skala interval, seperti
yang sering dilakukan. Skala interval dibahas pada halaman 138–139. Pangkat
persentil, misalnya, tidak boleh digunakan karena mereka, hampir pasti, bukan
merupakan skala interval. Skor usia dan setara kelas juga memiliki skor yang serius
keterbatasan karena cara mereka diperoleh. Biasanya skor terbaik untuk digunakan
adalah skor standar, yang kadang-kadang diberikan dalam manual instrumen dan, jika
tidak, dapat dengan mudah dihitung. (Kami membahas dan menunjukkan cara
menghitung skor standar di Bab 10.) Jika skor standar tidak digunakan, jauh lebih
baik menggunakan mentah skor mengonversi skor yang diturunkan, misalnya,
kembali ke skor mentah semula, jika perlu alih-alih digunakan peringkat persentil
atau setara usia / kelas.
Referensi Normal vs. Referensi-Standar Instrumen
Instrumen Refensi Normal

Semua skor yang diturunkan memberi makna pada skor individu dengan
membandingkannya dengan skor kelompok. Ini berarti bahwa sifat kelompok sangat
penting.
Setiap kali skor tersebut digunakan, peneliti harus yakin bahwa kelompok referensi
masuk akal. Membandingkan skor anak laki-laki pada tes tata bahasa dengan
kelompok nilai anak perempuan pada tes itu, misalnya, mungkin cukup menyesatkan
karena anak perempuan biasanya mendapat skor tata bahasa yang lebih tinggi.
Kelompok yang digunakan untuk menentukan skor turunan disebut kelompok norma,
dan instrumen yang menyediakan skor tersebut disebut sebagai instrumen yang
direferensikan dengan norma.
Instrumen Referensi-Standar
Alternatif untuk penggunaan pencapaian adat atau instrumen kinerja, yang sebagian
besar direferensikan dengan norma, adalah dengan menggunakan instrumen yang
direferensikan kriteria — biasanya tes.
Maksud tes semacam itu agak berbeda dari itu tes yang direferensikan norma; fokus
tes yang direferensikan kriteria lebih langsung pada instruksi. Daripada mengevaluasi
kemajuan pelajar melalui perolehan skor (misalnya, dari 40 hingga 70 pada tes
prestasi), tes yang direferensikan dengan kriteria didasarkan pada tujuan tertentu, atau
target (disebut kriteria), untuk dicapai oleh setiap pelajar. Kriteria ini untuk
penguasaan, atau "lulus," biasanya dinyatakan sebagai persentase yang cukup tinggi
dari pertanyaan yang dijawab dengan benar (seperti 80 atau 90 persen). Contoh
kriteria-referensi dan norma- pernyataan evaluasi yang direferensikan adalah sebagai
berikut:
Referensi-kriteria: Seorang siswa. . .
 Diucapkan setiap kata dalam daftar ejaan mingguan dengan benar.

 memecahkan setidaknya 75 persen dari masalah yang ditugaskan.
 mencapai skor minimal 80 dari 100 pada ujian akhir.
 melakukan setidaknya 25 push-up dalam periode lima menit.
baca minimal satu buku nonfiksi seminggu.
Referensi normal: Seorang siswa. . .
 mencetak gol pada persentil ke-50 di grupnya.

 skor di atas 90 persen dari semua siswa di kelas.
 menerima nilai poin rata-rata yang lebih tinggi dalam sastra Inggris daripada
siswa lain di sekolah.
 berlari lebih cepat daripada semua kecuali satu siswa lain dalam tim.
 dan satu lainnya di kelas adalah satu-satunya yang menerima As pada jangka
menengah.
Keuntungan dari instrumen yang direferensikan kriteria adalah memberikan
instrumen yang jelas bagi guru dan siswa bekerja menuju. Akibatnya, ia memiliki
daya tarik yang cukup besar sebagai sarana untuk meningkatkan pengajaran. Namun
dalam praktiknya, beberapa masalah muncul. Pertama, guru jarang menetapkan atau
mencapai cita-cita tujuan siswa secara individual. Alih-alih, tujuan kelas lebih
merupakan aturan, idenya adalah bahwa semua siswa akan mencapai kriteria —
meskipun, tentu saja, beberapa tidak dan banyak yang akan melampauinya. Masalah
kedua adalah itu sulit untuk menetapkan kriteria kelas yang bermakna. Apa, tepatnya,
yang harus dilakukan kelas kelas lima dalam matematika? Memecahkan masalah
cerita, banyak akan berkata. Kami akan setuju, tetapi kompleksitas apa? dan
mensyaratkan subskill matematika mana? Dengan tidak adanya kriteria independen,
kita punya banyak pilihan selain mundur pada harapan yang ada, dan ini biasanya
(meskipun tidak harus) dilakukan dengan memeriksa teks dan tes yang ada.
Akibatnya, item spesifik dalam tes yang direferensikan dengan kriteria sering berubah
menjadi tidak dapat dibedakan dari yang ada dalam tes yang direferensikan dengan
norma, dengan satu perbedaan penting: Tes yang direferensikan dengan kriteria pada
tingkat kelas apa pun hampir pasti akan lebih mudah daripada uji referensi-normal.
Pasti lebih mudah jika sebagian besar siswa mendapatkan 80 atau 90 persen dari item
yang benar. Dalam mempersiapkan tes semacam itu, peneliti harus mencoba menulis
item yang akan dijawab dengan benar 80 persen siswa — lagipula, mereka tidak mau
50 persen siswa mereka gagal. Kesulitan yang diinginkan tingkat untuk item yang
direferensikan norma, bagaimanapun, adalah pada atau sekitar 50 persen, untuk
memberikan kesempatan maksimum untuk skor untuk membedakan kemampuan satu
siswa dari yang lain.
Sementara tes yang direferensikan dengan kriteria mungkin lebih bermanfaat pada
waktu dan dalam keadaan tertentu daripada yang lebih uji referensi-norma adat
(masalah ini masih diperdebatkan), seringkali lebih rendah untuk tujuan penelitian.
Mengapa? Karena, secara umum, tes yang direferensikan kriteria akan memberikan
variabilitas skor yang jauh lebih sedikit, karena itu lebih mudah. Sedangkan tes
referensi-norma yang biasa akan memberikan kisaran skor yang agak kurang dari
kisaran yang mungkin (yaitu, dari nol hingga jumlah total item dalam tes), tes yang
direferensikan kriteria, jika ya Sesuai dengan alasannya, akan memiliki sebagian
besar siswa (pasti setidaknya setengah) mendapatkan skor tinggi. Karena, dalam
penelitian, kami biasanya menginginkan variabilitas maksimum dalam Untuk
memiliki harapan menemukan hubungan dengan variabel lain, penggunaan tes
referensi-kriteria adalah sering mengalahkan diri sendiri.
Timbangan Pengukuran
Anda akan ingat dari Bab 3 bahwa ada dua tipe dasar variabel — kuantitatif dan
kategorikal. Masing-masing menggunakan jenis analisis dan pengukuran yang
berbeda, membutuhkan penggunaan skala pengukuran yang berbeda. Ada empat jenis
skala pengukuran: nominal, ordinal, interval, dan rasio. (Gambar 7.25).
Gambar 7.25 Empat Jenis Skala Pengukuran

SKALA NOMINAL
Gambar 7.26 Skala Pengukuran Nominal
Skala nominal adalah bentuk pengukuran paling sederhana yang dapat digunakan
oleh peneliti. Ketika menggunakan skala nominal, peneliti hanya menetapkan angka
untuk kategori yang berbeda untuk menunjukkan perbedaan (Gambar 7.26). Sebagai
contoh, Peneliti yang peduli dengan variabel gender dapat mengelompokkan data
menjadi dua kategori, pria dan wanita, dan sebagai tanda nomor 1 untuk wanita dan
nomor 2 untuk pria. Peneliti lain, yang tertarik mempelajari metode pengajaran
membaca, dapat menetapkan nomor 1 untuk metode seluruh kata, nomor 2 untuk
metode fonik, dan nomor 3 untuk metode "campuran". Dalam kebanyakan kasus,
keuntungan untuk menetapkan angka ke kategori adalah untuk memfasilitasi analisis
komputer. Tidak ada implikasi bahwa Metode fonik (nomor 2) adalah “lebih” dari
apa pun selain metode seluruh kata (nomor 1).
Skala Ordinal
Skala ordinal adalah skala di mana data dapat dipesan dengan berbagai cara — tinggi
ke rendah atau paling sedikit untuk sebagian besar. Sebagai contoh, seorang peneliti
mungkin menyusun urutan skor siswa pada suatu biologi uji dari tinggi ke rendah.
Perhatikan, bagaimanapun, bahwa perbedaan dalam skor atau kemampuan aktual
antara siswa peringkat pertama dan kedua dan antara siswa kelas lima dan enam tidak
harus sama. Skala ordinal menunjukkan kedudukan relatif di antara individu, seperti
yang diperlihatkan Gambar 7.27.
Gambar 7.27 Skala Ordinal: Hasil dari Perlombaan Kuda
Skala Interval
Skala interval memiliki semua karakteristik skala ordinal dengan satu fitur tambahan:
Jarak
antara titik pada skala sama. Sebagai contoh, jarak antara skor pada tes prestasi
matematika yang tersedia secara komersial biasanya dianggap sama. Dengan
demikian, jarak antara skor 70 dan 80 dianggap sama dengan jarak antara skor 80 dan
90. Namun, perhatikan bahwa titik nol pada skala interval tidak menunjukkan tidak
adanya total dari apa yang sedang diukur. Jadi, 0 ° (nol derajat) pada skala
Fahrenheit, yang mengukur suhu, tidak menunjukkan tidak ada suhu.
Untuk menggambarkan lebih lanjut, pertimbangkan skor IQ yang biasa digunakan.

Apakah perbedaan antara IQ 90 dan satu dari 100 (10 poin) sama dengan perbedaan
antara IQ 40 dan satu dari 50 (juga 10 poin)? atau antara IQ 120 dan satu dari 130?
Jika kita percaya bahwa skor merupakan skala interval, kita harus mengasumsikan
bahwa 10 poin memiliki arti yang sama pada titik yang berbeda pada skala. Apakah
kita tahu apakah ini benar? Tidak, kami tidak, seperti yang akan kami jelaskan
sekarang.
Dalam praktik yang sebenarnya, sebagian besar peneliti lebih suka “bertindak sebagai
jika ”mereka memiliki skala interval, karena mengizinkan penggunaan prosedur
analisis data yang lebih sensitif dan karena, selama bertahun-tahun, hasil
melakukannya masuk akal. Namun demikian, bertindak seolah-olah kita memiliki
skala interval memerlukan asumsi bahwa (setidaknya sampai saat ini) tidak dapat
dibuktikan.
Skala Rasio
Skala interval yang memang memiliki aktual, atau benar, titik nol disebut skala rasio.
Misalnya, skala dirancang untuk mengukur ketinggian akan menjadi skala rasio,
karena titik nol pada skala mewakili tidak adanya tinggi (yaitu, tidak ada tinggi).
Demikian pula, nol pada skala berat kamar mandi mewakili nol, atau tidak, berat.
Skala rasio hampir tidak pernah ditemukan dalam penelitian pendidikan, karena
jarang para peneliti melakukan pengukuran yang melibatkan titik nol sejati (bahkan
pada mereka kesempatan langka ketika seorang siswa menerima nol pada tes
semacam ini, ini tidak berarti bahwa apa pun yang diukur sama sekali tidak ada pada
siswa). Beberapa variabel lain yang memiliki skala rasio adalah pendapatan, waktu
tugas, dan usia.
Skala Pengukuran Yang Dipertimbangkan
Pada titik ini, Anda mungkin berkata, Yah, oke, tapi terus kenapa? Mengapa
perbedaan ini penting? Ada dua alasan mengapa Anda harus memiliki setidaknya
pemahaman yang belum sempurna tentang perbedaan di antara keempat jenis
timbangan. Pertama, mereka menyampaikan jumlah yang berbeda informasi.
Timbangan rasio memberikan lebih banyak informasi daripada lakukan skala interval;
interval, lebih dari ordinal; dan ordinal, lebih dari nominal. Oleh karena itu, jika
memungkinkan, peneliti harus menggunakan jenis pengukuran yang akan memberi
mereka jumlah informasi maksimum yang diperlukan untuk menjawab pertanyaan
penelitian mereka. Kedua, beberapa jenis prosedur statistik tidak sesuai untuk
perbedaan sisik. Cara di mana data dalam studi penelitian diatur menentukan
penggunaan beberapa jenis analisis statistik, tetapi tidak yang lain (kita akan
membahas hal ini dalam lebih detail dalam Bab 11). Tabel 7.2 menyajikan ringkasan
dari empat jenis skala pengukuran.
Seringkali peneliti memiliki pilihan untuk dibuat. Mereka harus memutuskan apakah
akan mempertimbangkan data sebagai data ordinal atau interval. Sebagai contoh,
anggaplah seorang peneliti menggunakan laporan diri kuesioner untuk mengukur
harga diri. Question-naire diberi skor untuk jumlah item yang dijawab (ya atau tidak)
ke arah yang menunjukkan harga diri tinggi. Untuk sampel 60, peneliti menemukan
bahwa skor berkisar antara 30 hingga 75.
Peneliti sekarang dapat memutuskan untuk memperlakukan skor sebagai data

interval, dalam hal ini ia mengasumsikan bahwa jarak yang sama (misalnya, 30-34,
35-39, 40-44) dalam skor mewakili perbedaan harga diri yang sama. * Jika peneliti
tidak nyaman dengan asumsi ini, ia dapat menggunakan skor untuk memberi
peringkat individu dalam sampelnya dari yang tertinggi ( peringkat 1) hingga
terendah (peringkat 60). Jika dia kemudian hanya menggunakan peringkat ini dalam
analisis selanjutnya, dia sekarang akan mengasumsikan bahwa instrumennya hanya
menyediakan data ordinal.
Untungnya, peneliti dapat menghindari pilihan ini. Mereka memiliki pilihan lain —
untuk memperlakukan data secara terpisah sesuai dengan kedua asumsi (yaitu, untuk
memperlakukan skor sebagai data ordinal, dan sekali lagi sebagai data interval). Hal
penting untuk disadari adalah bahwa seorang peneliti harus siap untuk
mempertahankan asumsi yang mendasari pilihannya pada skala pengukuran yang
digunakan dalam pengumpulan dan pengorganisasian data.
Mempersiapkan Data untuk Analisis
Setelah instrumen yang digunakan dalam penelitian telah diberikan, peneliti harus
menilai data yang dimiliki telah dikumpulkan dan kemudian mengaturnya untuk
memudahkan analisis.
Penilaian Data
Data yang dikumpulkan harus diberi skor secara akurat dan konsisten. Jika tidak,
kesimpulan apa pun yang diambil peneliti dari data mungkin keliru atau
menyesatkan. Setiap tes individu (kuesioner, esai, dll.) Harus diberi skor
menggunakan prosedur dan kriteria yang persis sama. Ketika instrumen yang dibeli
secara komersial digunakan, prosedur penilaian dibuat lebih mudah. Biasanya
pengembang instrumen akan memberikan manual penilaian yang mencantumkan
langkah-langkah yang harus diikuti dalam penilaian instrumen, bersama dengan kunci
penilaian. Sebaiknya periksa ulang skor seseorang untuk memastikan tidak ada
kesalahan yang terjadi.
Penilaian tes yang dikembangkan sendiri dapat menghasilkan kesulitan, dan

karenanya peneliti harus berhati-hati untuk memastikan bahwa penilaian itu akurat
dan konsisten. Pemeriksaan esai, khususnya, seringkali sangat sulit untuk dinilai
secara konsisten. Untuk alasan ini, biasanya disarankan memiliki orang kedua yang
juga menilai hasilnya. Para peneliti harus hati-hati menyiapkan rencana penilaian
mereka, secara tertulis, sebelumnya dan kemudian mencoba instrumen mereka
dengan mengelola dan membuat skor dengan sekelompok individu yang mirip
dengan populasi yang ingin mereka sampel dalam penelitian mereka. Masalah dengan
administrasi dan penilaian dengan demikian dapat diidentifikasi lebih awal dan
diperbaiki sebelum terlambat.
Memberitahu Dan Memododasi Data
Ketika data telah diberi skor, peneliti harus menghitung atau mentabulasi mereka
dalam beberapa cara. Biasanya ini dilakukan oleh mentransfer data ke semacam
ringkasan lembar data atau kartu. Yang penting adalah mencatat data seseorang
secara akurat dan sistematis. Jika data kategorikal sedang direkam, jumlah individu
yang mencetak dalam setiap kategori dihitung. Jika data kuantitatif direkam, data
biasanya terdaftar dalam satu atau beberapa kolom, tergantung pada jumlah kelompok
yang terlibat dalam penelitian ini. Sebagai contoh, jika analisis data terdiri hanya dari
perbandingan skor dua kelompok pada posttest, the data kemungkinan besar akan
ditempatkan dalam dua kolom, satu untuk masing-masing kelompok, dalam urutan
menurun. Tabel 7.3, misalnya,menyajikan beberapa hasil hipotesis dari penelitian
yang melibatkan perbandingan dua metode konseling dengan instrumen yang
mengukur hubungan.
Jika skor sebelum dan sesudah dibandingkan akan dibandingkan, kolom tambahan
dapat ditambahkan. Skor sub-kelompok juga dapat ditunjukkan. Ketika berbagai jenis
data dikumpulkan (yaitu, skor pada beberapa instrumen yang berbeda) di samping
informasi biografis (jenis kelamin, usia, etnis, dll.), Mereka biasanya direkam dalam
komputer atau kartu data, satu kartu untuk setiap individu dari data siapa yang
dikumpulkan. Ini memfasilitasi perbandingan dan pengelompokan (dan
pengelompokan ulang) data yang mudah untuk keperluan analisis. Selain itu, datanya
diberi kode. Dengan kata lain, beberapa jenis kode digunakan untuk itu melindungi
privasi individu dalam penelitian. Demikian, nama-nama pria dan wanita mungkin
diberi kode 1 dan 2. Pengodean data sangat penting ketika data dianalisis oleh
komputer, karena data apa pun yang tidak dalam bentuk angka harus dikodekan
dengan cara yang sistematis sebelum dapat dimasukkan ke dalam komputer. Dengan
demikian, data kategorikal, untuk dianalisis pada komputer, sering kali diberi kode
numerik (mis. Skor pretest 1, dan skor posttest 2).
Langkah pertama dalam pengkodean data sering kali menetapkan nomor ID untuk
setiap individu yang darinya data telah dikumpulkan. Jika ada 100 individu dalam
sebuah penelitian, misalnya, peneliti akan menghitungnya dari tahun 001 hingga 100.
Jika nilai tertinggi untuk setiap variabel yang dianalisis melibatkan tiga digit
(misalnya, 100), maka setiap nomor kode individu harus memiliki tiga digit ( mis.
individu pertama yang diberi nomor haruslah 001, bukan 1).
Langkah selanjutnya adalah memutuskan bagaimana data kategorikal apa pun yang
dianalisis akan dikodekan. Misalkan seorang peneliti ingin menganalisis informasi
demografis tertentu yang diperoleh dari 100 subjek yang menjawab kuesioner. Jika
studinya menyertakan junior dan senior di sekolah menengah, ia mungkin memberi
kode pada junior sebagai 11 dan senior sebagai 12. Atau, jika responden diminta
untuk menunjukkan mana dari empat pilihan yang mereka sukai (seperti dalam
tertentu pertanyaan pilihan ganda), peneliti dapat mengkode setiap pilihan [mis., (a),
(b), (c), (d) masing-masing sebagai 1, 2, 3, atau 4]. Yang penting untuk diingat adalah
bahwa pengkodean harus konsisten — yaitu, begitu keputusan dibuat tentang cara
mengkode seseorang, semua yang lain harus dikodekan dengan cara yang sama, dan
aturan pengkodean ini (dan yang lainnya) harus dikomunikasikan kepada semua
orang terlibat dalam pengkodean data.
8. VALIDATAS DAN RELIABILITAS
Pentingnya Instrumen Valid
Kualitas instrumen yang digunakan dalam penelitian sangat penting, karena

kesimpulan yang ditarik peneliti berdasarkan pada informasi yang mereka peroleh
dengan menggunakan instrumen ini. Dengan demikian, para peneliti menggunakan
sejumlah prosedur untuk memastikan bahwa kesimpulan yang mereka gambar,
berdasarkan data yang mereka kumpulkan, valid dan dapat diandalkan.
Validitas mengacu pada kesesuaian, kebermaknaan, kebenaran, dan kegunaan

kesimpulan yang dibuat oleh peneliti. Keandalan mengacu pada konsistensi skor atau
jawaban dari satu administrasi instrumen ke yang lain, dan dari satu set item ke yang
lain. Kedua konsep itu penting untuk dipertimbangkan kapan datang ke pemilihan
atau desain instrumen peneliti bermaksud untuk menggunakan. Oleh karena itu,
dalam bab ini, kita akan membahas validitas dan reliabilitas secara terperinci
Validitas
Validitas adalah ide paling penting untuk dipertimbangkan saat menyiapkan atau
memilih instrumen untuk digunakan. Lebih dari segalanya, para peneliti
menginginkan informasi yang mereka peroleh melalui penggunaan instrumen untuk
memenuhi tujuan mereka. Misalnya, untuk mengetahui pendapat para guru di distrik
sekolah tertentu tentang kebijakan terbaru yang disahkan oleh dewan sekolah, peneliti
memerlukan instrumen untuk mencatat data dan semacam jaminan bahwa informasi
yang diperoleh memungkinkan mereka untuk menggambar dengan benar. kesimpulan
tentang pendapat guru. Gambar kesimpulan yang benar berdasarkan data yang
diperoleh dari penilaian adalah tentang validitas. Meskipun tidak penting,
pemahaman dan penggunaan informasi sangat disederhanakan jika beberapa jenis
skor yang merangkum informasi untuk setiap orang diperoleh. Sementara ide-ide
yang mengikuti tidak terbatas pada penggunaan skor, kami mendiskusikannya dalam
konteks ini karena ide-ide lebih mudah untuk memahami, dan sebagian besar
instrumen memberikan skor seperti itu.
Dalam beberapa tahun terakhir, validitas telah didefinisikan sebagai merujuk pada
kesesuaian, kebenaran, kebermaknaan, dan kegunaan dari kesimpulan khusus yang
dibuat peneliti berdasarkan pada data yang mereka kumpulkan. Validasi adalah
proses mengumpulkan dan menganalisis bukti untuk mendukung kesimpulan
tersebut. Ada banyak cara untuk mengumpulkan bukti, dan kami akan segera
mendiskusikan beberapa di antaranya. Poin penting di sini adalah untuk menyadari
bahwa validitas mengacu pada sejauh mana bukti mendukung kesimpulan yang
dibuat oleh peneliti berdasarkan data yang ia kumpulkan menggunakan instrumen
tertentu. Ini adalah kesimpulan tentang penggunaan spesifik suatu instrumen yang
divalidasi, bukan instrumen itu sendiri. *Kesimpulan ini harus sesuai, bermakna,
benar, dan bermanfaat.
Salah satu interpretasi konseptualisasi validitas ini adalah bahwa penerbit uji tidak
lagi memiliki tanggung jawab untuk memberikan bukti validitas. Kami tidak setuju;
penerbit memiliki kewajiban untuk menyatakan apa yang dimaksudkan untuk diukur
oleh instrumen dan untuk memberikan bukti bahwa instrumen itu berfungsi.
Meskipun demikian, para peneliti harus tetap memperhatikan cara di mana mereka
bermaksud untuk menafsirkan informasi tersebut.
Kesimpulan yang tepat akan menjadi salah satu yang relevan yaitu, terkait dengan
tujuan penelitian. Jika tujuan dari penelitian adalah untuk menentukan apa yang siswa
ketahui tentang budaya Afrika, misalnya, tidak masuk akal untuk membuat
kesimpulan tentang ini dari skor mereka pada tes tentang geografi fisik Afrika.
Inferensi yang berarti adalah kesimpulan yang mengatakan sesuatu tentang arti
informasi (seperti skor tes) yang diperoleh melalui penggunaan instrumen. Apa
sebenarnya arti skor tinggi pada tes tertentu? Apa yang memungkinkan skor kita
katakan tentang individu yang menerimanya? Dengan cara apa seorang individu yang
menerima a skor tinggi berbeda dari orang yang menerima skor rendah? Dan
seterusnya. Adalah satu hal untuk mengumpulkan informasi orang-orang. Kami
melakukan ini semua nama-waktu, alamat, tanggal lahir, ukuran sepatu, nomor lisensi
mobil, dan sebagainya. Tetapi kecuali kita dapat membuat kesimpulan yang berarti
sesuatu dari informasi yang kita peroleh, itu tidak banyak berguna. Tujuan penelitian
bukan hanya untuk mengumpulkan data, tetapi untuk menggunakannya
data untuk menarik kesimpulan yang dijamin tentang orang-orang (dan orang lain
seperti mereka) kepada siapa data dikumpulkan.
Kesimpulan yang berguna adalah kesimpulan yang membantu para peneliti membuat
keputusan terkait dengan apa yang ingin mereka ketahui. Peneliti tertarik pada efek
bahan ajar yang berhubungan dengan penyelidikan pada prestasi siswa, misalnya,
membutuhkan informasi yang akan memungkinkan mereka untuk menyimpulkan
apakah prestasi dipengaruhi oleh bahan-bahan tersebut dan, jika demikian,
bagaimana.
Oleh karena itu, validitas tergantung pada jumlah dan jenis bukti yang ada untuk
mendukung interpretasi yang ingin dilakukan oleh peneliti mengenai data yang telah
mereka kumpulkan. Pertanyaan krusial adalah: Apakah hasil penilaian memberikan
informasi yang berguna tentang topik tersebut atau variabel yang diukur?
Jenis bukti apa yang mungkin dikumpulkan peneliti? Pada dasarnya, ada tiga tipe
utama.
Bukti validitas terkait konten mengacu pada konten dan format instrumen.
Seberapa tepat kontennya? seberapa komprehensif? Apakah secara logis
mendapatkan variabel yang dimaksud? Bagaimana secukupnya apakah sampel
barang atau pertanyaan mewakili konten yang akan dinilai? Apakah
formatnya sesuai? Konten dan formatnya harus konsisten dengan definisi
variabel dan sampel subjek yang akan diukur.
Bukti validitas terkait kriteria mengacu pada hubungan antara skor yang
diperoleh dengan menggunakan instrumen dan skor yang diperoleh dengan
menggunakan satu atau lebih instrumen atau ukuran lain (sering disebut
kriteria). Seberapa kuat hubungan ini? Seberapa baik skor tersebut
memperkirakan saat ini atau memprediksi kinerja jenis tertentu di masa
mendatang?
Bukti validitas yang berhubungan dengan konstruk mengacu pada sifat
konstruk psikologis atau karakteristik yang diukur oleh instrumen. Seberapa
baik ukuran konstruksi menjelaskan perbedaan dalam perilaku individu atau
kinerja mereka pada tugas-tugas tertentu
Bukti Yang Berkaitan Dengan Konten
Misalkan seorang peneliti tertarik pada efek program matematika baru pada
kemampuan matematika siswa kelas lima. Peneliti berharap bahwa siswa yang
menyelesaikan program akan dapat memecahkan sejumlah jenis masalah kata dengan
benar. Untuk menilai kemampuan matematika mereka, peneliti berencana untuk
memberi mereka tes matematika yang berisi sekitar 15 masalah seperti itu. Kinerja
siswa pada tes ini hanya penting sampai tingkat yang memberikan bukti kemampuan
mereka untuk memecahkan masalah semacam ini. Karenanya, kinerja pada instrumen
dalam hal ini (tes matematika) akan memberikan bukti yang valid dari kemampuan
matematika para siswa ini jika instrumen memberikan sampel yang memadai dari
jenis masalah kata yang tercakup dalam program ini. Jika hanya masalah mudah
dimasukkan dalam tes, atau hanya yang sangat sulit atau panjang, atau hanya masalah
melibatkan pengurangan, tes ini tidak representatif dan karenanya tidak memberikan
informasi yang valid kesimpulan dapat dibuat.
Salah satu elemen kunci dalam konten terkait bukti validitas, kemudian, menyangkut
kecukupan pengambilan sampel. Sebagian besar instrumen (dan terutama tes prestasi)
berikan hanya contoh jenis masalah yang mungkin diselesaikan atau pertanyaan yang
mungkin ditanyakan. Validasi konten, oleh karena itu, sebagian adalah masalah
menentukan apakah konten yang mengandung instrumen adalah sampel yang
memadai dari domain konten yang seharusnya diwakilinya.
Aspek lain dari validasi konten berkaitan dengan format instrumen. Ini termasuk hal-
hal seperti kejelasan pencetakan, ukuran jenis, kecukupan ruang kerja (jika perlu),
kesesuaian bahasa, kejelasan arah, dan sebagainya. Terlepas dari kecukupan
pertanyaan dalam instrumen, jika mereka disajikan dalam format yang tidak sesuai
(seperti memberikan tes yang ditulis dalam bahasa Inggris kepada anak-anak yang
bahasa Inggrisnya minimal), hasil yang valid tidak dapat diperoleh. Untuk alasan ini,
penting agar karakteristik sampel yang dimaksudkan diingat.
Bagaimana cara mendapatkan bukti validitas terkait konten? Cara yang umum untuk
melakukan ini adalah meminta seseorang melihat konten dan format instrumen dan
menilai apakah pantas atau tidak. “Seseorang,” tentu saja, tidak boleh sembarang
orang, tetapi lebih sebagai individu yang dapat diharapkan untuk memberikan
penilaian yang cerdas tentang kecukupan instrumen dengan kata lain, seseorang yang
cukup tahu tentang apa itu diukur menjadi hakim yang kompeten.
Prosedur yang biasa adalah sebagai berikut. Peneliti menuliskan definisi apa yang
ingin diukur dan kemudian memberikan definisi ini, bersama dengan instrumen dan
deskripsi sampel yang dimaksudkan, kepada satu atau lebih hakim. Juri melihat
definisi, membaca item atau pertanyaan dalam instrumen, dan menempatkan tanda
centang di depan setiap pertanyaan atau item yang mereka rasa tidak mengukur satu
atau lebih banyak aspek dari definisi (tujuan, misalnya) atau kriteria lainnya. Mereka
juga menempatkan tanda centang di depan setiap aspek yang tidak dinilai oleh salah
satu item. Selain itu, para hakim mengevaluasi kesesuaian format instrumen. Peneliti
kemudian menulis ulang setiap item atau pertanyaan yang sudah diperiksa dan
menyerahkannya kembali kepada hakim, dan / atau menulis item baru untuk kriteria
yang tidak tercakup secara memadai. Ini berlanjut sampai hakim menyetujui semua
item atau pertanyaan dalam instrumen dan juga menunjukkan bahwa mereka merasa
jumlah total item adalah representasi yang memadai dari instrumen total domain
konten yang dicakup oleh variabel yang diukur.
Untuk mengilustrasikan bagaimana seorang peneliti dapat mencoba membangun

validitas terkait konten, mari kita perhatikan dua contoh.
Contoh 1. Misalkan seorang peneliti ingin mengukur kemampuan siswa untuk

menggunakan informasi yang sebelumnya mereka peroleh. Ketika ditanya apa yang
dia maksud dengan kalimat ini, dia menawarkan definisi berikut.
Sebagai bukti bahwa siswa dapat menggunakan informasi yang diperoleh

sebelumnya, mereka harus dapat:
1. Buat kesimpulan yang benar (secara lisan atau tertulis) yang didasarkan pada
informasi yang diberikan.
2. Identifikasi satu atau lebih implikasi logis yang mengikuti dari sudut pandang
tertentu.
3. Nyatakan (secara lisan atau tertulis) apakah dua ide itu identik, serupa, tidak
terkait, atau kontradiktif.
Bagaimana mungkin peneliti mendapatkan bukti seperti itu? Dia memutuskan untuk
mempersiapkan ujian tertulis yang akan berisi berbagai pertanyaan. Jawaban siswa
akan menjadi bukti yang ia cari. Berikut adalah tiga contoh jenis pertanyaan yang ada
dalam benaknya, dirancang untuk menghasilkan masing-masing dari ketiga jenis
bukti yang tercantum di atas.
1. Jika A lebih besar dari B, dan B lebih besar dari C, maka:

a. A harus lebih besar dari C.
b. C harus lebih kecil dari A.
c. B harus lebih kecil dari A.
d. Semua hal di atas benar.
2. Mereka yang percaya bahwa meningkatkan pengeluaran konsumen akan menjadi
cara terbaik untuk merangsang ekonomi akan mengadvokasi
a. peningkatan suku bunga.
b. peningkatan tunjangan deplesi.
c. pengurangan pajak dalam kurung berpenghasilan rendah.
d. pengurangan pengeluaran pemerintah.
3. Bandingkan jumlah dolar yang dihabiskan oleh pemerintah AS selama 10 tahun
terakhir untuk (a) pembayaran utang, (b) pertahanan, dan (c) layanan sosial.
Sekarang, lihat masing-masing pertanyaan dan tujuan yang sesuai yang seharusnya
mereka ukur. Melakukan Anda pikir setiap pertanyaan mengukur tujuan itu dirancang
untuk? Jika tidak, mengapa tidak? *
Contoh 2. Inilah yang dirancang oleh peneliti lain sebagai upaya untuk mengukur
(setidaknya sebagian) kemampuan siswa untuk menjelaskan mengapa peristiwa
terjadi.
Baca petunjuk yang mengikuti, dan kemudian jawab pertanyaan itu.
Petunjuk: Berikut adalah beberapa fakta.

Fakta W: Seorang kemping menyalakan api untuk memasak makanan di hari yang
berangin di hutan.
Fakta X: Api dimulai di beberapa rumput kering dekat api unggun di sebuah
hutan.
Berikut adalah fakta lain yang terjadi kemudian di hari yang sama di hutan yang
sama.
Fakta Y: Sebuah rumah di hutan terbakar habis.
Anda harus menjelaskan apa yang menyebabkan rumah itu bakar (Fakta Y).
Apakah Fakta W dan X berguna sebagai bagian dari penjelasan Anda?
a. Ya, baik W dan X dan kemungkinan hubungan sebab dan akibat di antara
mereka akan bermanfaat.
b. Ya, kedua W dan X akan berguna, meskipun tidak ada kemungkinan
penyebab yang lain.
c. Tidak, karena hanya satu dari Fakta W dan X yang kemungkinan menjadi
penyebab Y.
d. Tidak, karena W atau X kemungkinan penyebab Y.1
Sekali lagi, perhatikan pertanyaan dan tujuan yang dirancang untuk diukur. Apakah
ini mengukur tujuan ini? Jika tidak, mengapa tidak? *
Upaya-upaya seperti ini untuk mendapatkan bukti dari beberapa jenis (dalam contoh
di atas, dukungan hakim independen bahwa item mengukur apa yang seharusnya
mereka ukur) melambangkan proses mendapatkan bukti validitas terkait konten.
Namun, seperti yang kami sebutkan sebelumnya, kualifikasi para hakim selalu
menjadi pertimbangan penting, dan para hakim harus mengingat karakteristik sampel
yang dimaksud.
Bukti Yang Berkaitan Dengan Kriteria

Untuk mendapatkan bukti validitas terkait kriteria, peneliti biasanya membandingkan
kinerja pada satu instrumen (instrumen yang divalidasi) dengan kinerja pada beberapa
kriteria independen lain. Kriteria adalah tes kedua atau prosedur penilaian lainnya
yang dianggap untuk mengukur variabel yang sama. Sebagai contoh, jika suatu
instrumen telah dirancang untuk mengukur kemampuan akademik, skor siswa pada
instrumen tersebut dapat dibandingkan dengan nilai rata-rata kelas mereka (kriteria
eksternal). Jika instrumen memang mengukur kemampuan akademik, maka siswa
yang mendapat nilai tinggi pada ujian juga akan diharapkan
untuk memiliki nilai rata-rata bermutu tinggi. Bisakah kamu melihat mengapa?
Ada dua bentuk validitas terkait kriteria prediktif dan bersamaan. Untuk mendapatkan
bukti validitas prediktif, peneliti mengizinkan interval waktu untuk berlalu antara
pemberian instrumen dan memperoleh skor kriteria. Sebagai contoh, seorang peneliti
dapat melakukan tes bakat sains untuk sekelompok sekolah menengah siswa dan
kemudian membandingkan nilai mereka pada tes dengan nilai akhir semester mereka
dalam kursus sains.
Di sisi lain, ketika data instrumen dan data kriteria dikumpulkan pada waktu yang
hampir bersamaan, dan hasilnya dibandingkan, ini merupakan upaya para peneliti
untuk mendapatkan bukti validitas bersamaan. Contohnya adalah ketika seorang
peneliti mengelola inventaris harga diri untuk sekelompok siswa kelas delapan dan
membandingkan skor mereka dengan penilaian guru tentang harga diri siswa
diperoleh pada waktu yang hampir bersamaan.
Indeks utama dalam kedua bentuk validitas terkait kriteria adalah koefisien korelasi.
Koefisien korelasi, dilambangkan dengan huruf r, menunjukkan tingkat hubungan
yang ada antara skor yang diperoleh individu pada dua instrumen. Hubungan positif
ditunjukkan ketika skor tinggi pada salah satu instrumen adalah disertai dengan skor
tinggi di sisi lain atau ketika skor rendah di satu disertai dengan skor rendah di sisi
lain. Hubungan negatif ditunjukkan ketika skor tinggi pada satu instrumen disertai
dengan skor rendah pada instrumen lainnya, dan sebaliknya. Semua koefisien korelasi
berada di antara 1,00 dan 1,00. R dari 0,00 menunjukkan bahwa tidak ada hubungan.
Ketika koefisien korelasi digunakan untuk menggambarkan hubungan antara

serangkaian skor yang diperoleh oleh kelompok individu yang sama pada instrumen
tertentu
dan skor mereka pada beberapa ukuran kriteria, disebut koefisien validitas. Misalnya,
koefisien validitas 1,00 yang diperoleh dengan mengkorelasikan satu set skor pada tes
bakat matematika (prediktor) dan satu set skor lainnya, kali ini pada tes prestasi
matematika (kriteria), untuk individu yang sama akan menunjukkan bahwa setiap
individu dalam kelompok memiliki persis sama berdiri relatif pada kedua langkah.
Korelasi seperti itu, jika diperoleh, akan memungkinkan peneliti untuk memprediksi
pencapaian matematika sempurna berdasarkan nilai tes bakat.
Meskipun koefisien korelasi ini sangat tidak mungkin, ini menggambarkan apa yang
dimaksud dengan koefisien tersebut. Semakin tinggi koefisien validitas yang
diperoleh, prediksi seorang peneliti akan semakin akurat.
Gronlund menyarankan penggunaan tabel harapan sebagai cara lain untuk

menggambarkan bukti terkait kriteria.2 Tabel harapan tidak lebih dari grafik dua arah,
dengan kategori prediktor tercantum di sebelah kiri grafik dan kategori kriteria
terdaftar secara horizontal di bagian atas grafik. Untuk setiap kategori skor pada
prediktor, peneliti kemudian menunjukkan persentase individu yang termasuk dalam
masing-masing kategori berdasarkan kriteria.
Tabel 8.1 menyajikan contoh. Seperti yang dapat Anda lihat dari tabel, 51 persen
siswa yang digolongkan luar biasa oleh para hakim ini menerima nilai A dalam
orkestra, 35 persen menerima B, dan 14 persen menerima C. Meskipun tabel ini
hanya merujuk pada kelompok khusus ini. , dapat digunakan untuk memprediksi skor
siswa musik calon lainnya yang dievaluasi oleh ini hakim yang sama. Jika seorang
siswa memperoleh evaluasi "out- berdiri, ”kita dapat memperkirakan (kurang-lebih)
bahwa dia akan memiliki peluang 51 persen untuk menerima nilai A, kesempatan 35
persen untuk menerima B, dan 14 persen kesempatan menerima C.
Tabel harapan adalah perangkat yang sangat berguna untuk
peneliti untuk digunakan dengan data yang dikumpulkan di sekolah. Mereka mudah
dibangun, mudah dipahami, dan dengan jelas menunjukkan hubungan antara dua
ukuran.
Penting untuk menyadari bahwa sifat kriteria adalah faktor terpenting dalam
mengumpulkan kriteria terkait bukti. Korelasi positif yang tinggi tidak berarti banyak
jika ukuran kriteria tidak masuk akal secara logis. Sebagai contoh, korelasi yang
tinggi antara skor pada instrumen yang dirancang untuk mengukur bakat untuk sains
dan skor pada tes kebugaran fisik tidak akan menjadi bukti terkait kriteria yang
relevan untuk kedua instrumen. Pikirkan kembali contoh yang kami sajikan
sebelumnya dari pertanyaan yang dirancang untuk mengukur kemampuan siswa
untuk menjelaskan alasannya peristiwa terjadi. Kriteria apa yang dapat digunakan
untuk menetapkan validitas yang direferensikan kriteria untuk item-item itu?
Bukti Konstruksi-Terkait
Bukti validitas yang terkait dengan konstruk adalah yang paling luas dari tiga
kategori bukti validitas yang kami pertimbangkan. Tidak ada bukti tunggal yang
memenuhi validitas terkait konstruk. Sebaliknya, para peneliti berusaha untuk
mengumpulkan berbagai jenis bukti yang berbeda (semakin banyak dan semakin
bervariasi semakin baik) yang akan memungkinkan mereka untuk membuat
kesimpulan yang terjamin — untuk menegaskan, misalnya, bahwa skor yang
diperoleh dari mengelola izin inventaris harga diri akurat Ferences tentang tingkat
harga diri yang dimiliki orang-orang yang menerima skor tersebut.
Biasanya, ada tiga langkah yang terlibat dalam memperoleh bukti validitas yang
terkait dengan konstruk: (1) variabel yang diukur didefinisikan dengan jelas; (2)
hipotesis, berdasarkan teori yang mendasari variabel, dibentuk tentang bagaimana
orang-orang yang memiliki banyak versus sedikit variabel akan berperilaku dalam
situasi tertentu; dan (3) hipotesis diuji secara logis dan empiris.
Beberapa bukti yang dapat dipertimbangkan untuk mendukung klaim validitas

konstruk sehubungan dengan tes yang dirancang untuk mengukur
kemampuan penalaran matematis mungkin sebagai berikut:
 Semua juri independen mengindikasikan bahwa semua item dalam tes

membutuhkan penalaran matematis.
 Semua juri independen menunjukkan bahwa fitur tes itu sendiri (seperti
format tes, arah, penilaian, dan tingkat membaca) tidak akan menghalangi
siswa untuk terlibat dalam matematika pemikiran.
 Semua juri independen menunjukkan bahwa sampel tugas yang termasuk
dalam tes adalah relevan dan mewakili tugas penalaran matematis.
 Ada korelasi yang tinggi antara skor pada tes dan nilai dalam matematika.
 Skor tinggi telah dibuat pada tes oleh siswa yang telah menjalani pelatihan
khusus dalam penalaran matematika.
 Siswa benar-benar terlibat dalam penalaran matematika ketika mereka
diminta untuk "berpikir keras" ketika mereka mencoba menyelesaikan
masalah dalam ujian.
 Ada korelasi yang tinggi antara skor pada tes dan penilaian kompetensi
guru dalam penalaran matematika.
 Skor yang lebih tinggi diperoleh pada ujian jurusan matematika daripada
jurusan sains umum.
Jenis bukti lain mungkin didaftar untuk tugas di atas (mungkin Anda bisa memikirkan
beberapa), tetapi kami berharap ini cukup untuk menjelaskan bahwa itu bukan hanya
satu jenis, tetapi banyak jenis, bukti yang peneliti ingin dapatkan. Menentukan
apakah skor diperoleh melalui penggunaan instrumen ukuran tertentu variabel
tertentu melibatkan studi tentang bagaimana tes dikembangkan, teori yang mendasari
tes, bagaimana tes berfungsi dengan berbagai orang dan dalam berbagai situasi, dan
bagaimana skor pada tes berhubungan dengan skor pada instrumen lain yang sesuai.
Membangun validasi melibatkan,kemudian, berbagai macam prosedur dan banyak
yang berbeda jenis bukti, termasuk yang terkait dengan konten dan
bukti terkait kriteria. Semakin banyak bukti yang dimiliki para peneliti dari berbagai
sumber, semakin yakin mereka tentang menafsirkan skor yang diperoleh dari
instrumen tertentu.
Reliabilitas
Reliabilitas mengacu pada konsistensi skor diperoleh — seberapa konsisten mereka
untuk setiap individu dari satu administrasi instrumen ke yang lain dan dari satu set
item ke yang lain. Pertimbangkan, misalnya, tes yang dirancang untuk mengukur
kemampuan mengetik. Jika tes ini dapat diandalkan, kami akan mengharapkan siswa
yang menerima nilai tinggi skor saat pertama kali mengikuti tes untuk menerima skor
tinggi saat berikutnya dia mengikuti tes. Skor mungkin tidak identik, tetapi harus
dekat.
Skor yang diperoleh dari suatu instrumen bisa sangat andal tetapi tidak valid.
Misalkan seorang peneliti memberikan kepada sekelompok siswa kelas delapan dua
bentuk tes yang dirancang untuk mengukur pengetahuan mereka tentang Konstitusi
Amerika Serikat dan menemukan skor mereka konsisten: mereka yang mendapat skor
tinggi pada form A juga mendapat skor tinggi pada form B; mereka yang mendapat
nilai rendah di A mendapat skor rendah di B; dan seterusnya. Kami akan mengatakan
bahwa skornya dapat diandalkan. Tetapi jika peneliti kemudian menggunakan nilai
tes yang sama ini untuk memprediksi keberhasilan siswa ini di kelas pendidikan
jasmani mereka, dia mungkin akan melihat dengan takjub. Setiap kesimpulan tentang
kesuksesan fisik pendidikan berdasarkan nilai pada tes Konstitusi tidak akan memiliki
validitas. Sekarang, bagaimana dengan kebalikannya? Bisakah instrumen yang
menghasilkan skor tidak andal mengizinkan kesimpulan yang valid? Tidak! Jika skor
sama sekali tidak konsisten untuk orang, mereka tidak memberikan informasi yang
berguna. Kita tidak punya cara mengetahui skor mana yang digunakan untuk
menyimpulkan kemampuan, sikap, atau karakteristik individu seseorang.
Perbedaan antara keandalan dan validitas ditunjukkan pada Gambar 8.2. Keandalan
dan validitas selalu bergantung pada konteks di mana instrumen digunakan.
Tergantung pada konteksnya, suatu instrumen mungkin atau mungkin tidak
menghasilkan skor yang dapat diandalkan (konsisten). Jika datanya tidak dapat
diandalkan, mereka tidak dapat mengarah pada kesimpulan yang sah (sah) —seperti
yang diperlihatkan dalam target (a). Ketika keandalan meningkat, validitas dapat
meningkat, seperti yang ditunjukkan pada target (b), atau mungkin tidak, seperti yang
ditunjukkan pada target (c). Suatu instrumen mungkin memiliki keandalan yang baik
tetapi validitas rendah, seperti yang ditunjukkan dalam target
(d). Apa yang diinginkan, tentu saja, adalah keandalan tinggi dan validitas tinggi,
seperti yang ditunjukkan oleh target (e). Pertunjukan.
Gambar 8.2 Reliabilitas dan Validitas

Kesalahan Pengukuran
Setiap kali orang mengikuti tes yang sama dua kali, mereka jarang melakukan hal
yang sama yaitu, skor atau jawaban mereka biasanya tidak akan sama. Ini mungkin
disebabkan oleh berbagai faktor (perbedaan motivasi, kecemasan energi, situasi
pengujian yang berbeda, dan sebagainya), dan itu tidak bisa dihindari. Faktor-faktor
tersebut menyebabkan kesalahan pengukuran (Gambar 8.3).
Gambar 8.3 Pengaturan Pengukuran
Karena kesalahan pengukuran selalu ada sampai taraf tertentu, peneliti mengharapkan
beberapa variasi dalam nilai tes (dalam jawaban atau penilaian, misalnya) ketika
instrumen diberikan kepada kelompok yang sama lebih dari sekali, ketika dua bentuk
instrumen yang berbeda digunakan, atau bahkan dari satu bagian instrumen ke bagian
lainnya. Perkiraan reliabilitas memberi peneliti gagasan berapa banyak variasi yang
diharapkan. Estimasi seperti itu biasanya dinyatakan sebagai aplikasi lain dari
korelasi Koefisien dikenal sebagai koefisien reliabilitas.
Seperti yang kami sebutkan sebelumnya, koefisien validitas menyatakan hubungan

antara skor individu yang sama pada dua instrumen yang berbeda. Koefisien
reliabilitas juga menyatakan hubungan, tetapi kali ini berada di antara skor individu
yang sama pada instrumen yang sama pada dua waktu yang berbeda, atau pada dua
bagian instrumen yang sama. Tiga cara paling terkenal untuk mendapatkan koefisien
reliabilitas adalah metode uji-retest, yaitu metode bentuk-setara; dan metode
konsistensi internal. Tidak seperti penggunaan koefisien korelasi yang lain, koefisien
reliabilitas harus berkisar dari 0,00 hingga 1,00 artinya, tidak memiliki nilai negatif.
Metode Uji-Ulang
Metode uji-ulang melibatkan pemberian tes yang sama dua kali ke grup yang sama
setelah interval waktu tertentu berlalu. Koefisien reliabilitas kemudian dihitung untuk
menunjukkan hubungan antara keduanya set skor yang diperoleh.
Koefisien reliabilitas akan dipengaruhi oleh lamanya waktu yang berlalu antara dua
administrasi tes. Semakin lama interval waktu, semakin rendah koefisien reliabilitas
yang mungkin terjadi, karena ada kemungkinan lebih besar dari perubahan pada
individu yang mengikuti tes. Dalam memeriksa bukti keandalan pengujian ulang,
interval waktu yang tepat harus dipilih. Interval ini seharusnya di mana individu akan
diasumsikan untuk mempertahankan posisi relatif dalam kelompok yang bermakna.
Tidak ada gunanya mempelajari, atau bahkan membuat konsep, variabel yang
berfluktuasi liar pada individu yang diukur. Ketika para peneliti menilai seseorang
sebagai berbakat akademis, misalnya, atau terampil dalam mengetik atau memiliki
konsep diri yang buruk, mereka menganggap bahwa karakteristik ini akan terus
membedakan individu untuk beberapa periode waktu. Tidak mungkin untuk
mempelajari variabel yang tidak memiliki stabilitas pada individu.
Para peneliti tidak mengharapkan semua variabel sama-sama stabil. Pengalaman

menunjukkan bahwa beberapa kemampuan (seperti menulis) lebih mudah berubah
daripada yang lain (seperti penalaran abstrak). Beberapa karakteristik pribadi (seperti
harga diri) dianggap lebih stabil daripada yang lain (seperti minat kejuruan remaja).
Mood adalah variabel yang, menurut definisi, dianggap stabil untuk periode waktu
yang singkat — hitungan menit atau jam. Tetapi bahkan di sini, kecuali instrumentasi
yang digunakan adalah hubungan yang andal dan bermakna dengan variabel lain
(mungkin kausal) tidak akan ditemukan. Untuk sebagian besar penelitian pendidikan,
kestabilan skor selama periode dua hingga tiga bulan biasanya dipandang sebagai
bukti yang cukup dari reliabilitas tes-tes ulang. Oleh karena itu, dalam melaporkan
koefisien reliabilitas uji-ulang, interval waktu antara kedua pengujian harus selalu
dilaporkan.
Metode Bentuk Ekuivalen
Ketika metode bentuk ekuivalen digunakan, dua bentuk instrumen yang berbeda
tetapi setara (juga disebut alternatif atau paralel) diberikan pada kelompok individu
yang sama selama periode waktu yang sama. Meskipun pertanyaannya berbeda,
mereka harus mencicipi konten yang sama dan harus dibuat secara terpisah satu sama
lain. Koefisien reliabilitas kemudian dihitung antara dua set skor yang diperoleh.
Koefisien yang tinggi akan menunjukkan bukti kuat keandalan bahwa kedua bentuk
mengukur hal yang sama.
Metode Konsistensi Internal
Metode yang disebutkan sejauh ini semua membutuhkan dua sesi administrasi atau
pengujian. Ada beberapa metode konsistensi internal untuk memperkirakan
reliabilitas, yang hanya memerlukan satu administrasi instrumen saja.
Prosedur split-setengah. Prosedur split-half melibatkan penilaian dua bagian
(biasanya item aneh versus item genap) dari tes secara terpisah untuk setiap orang dan
kemudian menghitung koefisien korelasi untuk dua set skor. Koefisien menunjukkan
sejauh mana kedua bagian dari tes memberikan hasil yang sama dan karenanya
menggambarkan konsistensi internal tes.
Koefisien reliabilitas dihitung menggunakan apa yang ada dikenal sebagai formula
ramalan Spearman-Brown. Versi sederhana dari rumus ini adalah sebagai berikut:
1
2 𝑥 reliabilitas untuk 𝑡𝑒𝑠
2
Skor untuk tes total Reliabilitas = 1
1+ reliabilitas untuk 𝑡𝑒𝑠
2
Dengan demikian, jika kita memperoleh koefisien korelasi 0,56

dengan membandingkan satu setengah item tes dengan setengah lainnya, keandalan
skor untuk tes total adalah:
2 𝑥 .56 1.12
Skor untuk tes total Reliabilitas = = = .72
1+ .56 1.56
Ini menggambarkan karakteristik keandalan yang penting. Keandalan tes (atau

instrumen apa pun) secara umum dapat ditingkatkan dengan penambahan lebih
banyak item, asalkan mirip dengan yang asli.
Pendekatan Kuder-Richardson. Mungkin metode yang paling sering digunakan untuk

menentukan konsistensi internal adalah pendekatan Kuder-Richardson, khususnya
formula KR20 dan KR21. Formula terakhir hanya membutuhkan tiga potong
informasi — jumlah item pada tes, rata-rata, dan standar deviasi. Namun, perhatikan
bahwa rumus KR21 hanya dapat digunakan jika dapat diasumsikan bahwa item-item
tersebut memiliki tingkat kesulitan yang sama. * Versi rumus KR21 yang sering
digunakan adalah sebagai berikut:
𝐾 𝐾 (𝐾−𝐾)
KR21 Reliabilitas koefisien = 𝐾−1 [ 1 − ]
𝐾(SD2 )
di mana K jumlah item pada tes, M rata-rata dari set skor tes, dan standar deviasi SD
dari set skor tes. †
Meskipun formula ini mungkin terlihat agak menakutkan, penggunaannya sebenarnya

cukup sederhana. Misalnya, jika K 50, M 40, dan SD 4, koefisien reliabilitas akan
dihitung seperti yang ditunjukkan di bawah ini:
50 40(50−40)
Reliabilitas = [1− ]
49 50(42 )
40 (10)
= 1.02 [ 1 − ]
50(16)
400
= 1.02 [ 1 − 800]
= 1.02 ( 1- .50)
= (1.02) (.50)
= 0.51
Dengan demikian, estimasi reliabilitas untuk skor pada tes ini adalah 0,51.
Apakah estimasi keandalan 0,51 baik atau buruk? tinggi atau rendah? Seperti yang
sering terjadi, ada beberapa tolok ukur yang dapat kita gunakan untuk mengevaluasi
koefisien reliabilitas. Pertama, kita dapat membandingkan koefisien yang diberikan
dengan ekstrem yang dimungkinkan. Seperti yang Anda ingat, koefisien 0,00
menunjukkan tidak adanya hubungan, sehingga tidak ada keandalan sama sekali,
sedangkan 1,00 adalah koefisien maksimum yang mungkin dapat diperoleh. Kedua,
kita dapat membandingkan koefisien reliabilitas yang diberikan dengan jenisnya dari
koefisien yang biasanya diperoleh untuk ukuran dari jenis yang sama. Koefisien
reliabilitas yang dilaporkan untuk banyak tes prestasi yang tersedia secara komersial,
untuk Misalnya, biasanya 0,90 atau lebih tinggi ketika rumus Kuder-Richardson
digunakan. Banyak tes kelas melaporkan koefisien reliabilitas 0,70 dan lebih tinggi.
Dibandingkan dengan angka-angka ini, koefisien yang kami peroleh harus dinilai
agak rendah. Untuk tujuan penelitian, aturan praktis yang berguna adalah keandalan
harus paling tidak .70 dan lebih disukai lebih tinggi.
Koefisien alfa. Pemeriksaan lain pada internal konsistensi suatu instrumen adalah
hitungan alpha Koefisien (Sering disebut Cronbach alpha Penghasilan kena pajak
pria yang mengembangkannya). Koefisien ini (α) adalah umum bentuk rumus KR20
untuk digunakan dalam penghitungan Menerima barang yang tidak disetujui versus
benar salah, seperti dalam beberapa tes esai di mana lebih dari satu pertanyaan
mungkin.
Kesalahan Standar Pengukuran (SEMeas)
Kesalahan pengukuran standar (SEMeas) adalah indeks yang menunjukkan sejauh

mana suatu pengukuran akan bervariasi dalam keadaan yang berubah (mis., jumlah
kesalahan pengukuran). Karena ada banyak cara di mana keadaan dapat bervariasi,
ada banyak kemungkinan kesalahan standar untuk skor yang diberikan. Misalnya,
kesalahan standar akan lebih kecil jika hanya mencakup kesalahan karena konten
yang berbeda (konsistensi internal atau keandalan bentuk-setara) daripada jika juga
mencakup kesalahan karena berlalunya waktu (keandalan pengujian-pengujian
ulang). Dengan asumsi bahwa kesalahan pengukuran adalah terdistribusi normal
(lihat hlm. 191–192 dalam Bab 10), rentang skor dapat ditentukan yang menunjukkan
jumlah kesalahan yang diharapkan.
Untuk banyak tes IQ, kesalahan pengukuran standar selama periode satu tahun dan
dengan konten spesifik berbeda sekitar lima poin. Selama periode 10 tahun, itu adalah
sekitar delapan poin. Ini berarti bahwa skor berfluktuasi jauh lebih lama di antara
pengukuran. Dengan demikian, seseorang yang mencetak 110 dapat berharap
memiliki skor antara 100 dan 120 satu tahun kemudian; lima tahun kemudian, skor
bisa diperkirakan antara 94 dan 126 (lihat Gambar 8.4). Perhatikan bahwa kami
menggandakan kesalahan standar pengukuran dalam menghitung rentang di mana
skor kedua diperkirakan akan turun. Ini dilakukan sehingga kami dapat memastikan
95 persen bahwa perkiraan kami benar.
Gambar 8.4 Kesalahan Pengukuran Standar
Rumus untuk kesalahan pengukuran standar adalah SD 21 r11 di mana SD

standar deviasi skor dan koefisien reliabilitas sesuai dengan kondisi yang bervariasi.
Dalam contoh di atas, kesalahan standar (SEMeas) dari 5 pada contoh pertama adalah
diperoleh sebagai berikut:
SD = 16, r11 = .90
SEM = 16 √1 − .90 = 16 √. 10 = 16 (. 32) = 5.1
Perjanjian Skor
Sebagian besar tes dan banyak instrumen lainnya diberikan dengan arahan khusus dan
diberi skor secara objektif, yaitu, dengan kunci yang tidak memerlukan penilaian dari
pihak pencetak gol. Meskipun perbedaan dalam skor yang dihasilkan dengan
administrator atau pencetak skor yang berbeda masih dimungkinkan, umumnya
dianggap sangat tidak mungkin terjadi. Ini bukan kasus dengan instrumen yang rentan
terhadap perbedaan dalam administrasi, penilaian, atau keduanya, seperti evaluasi
esai. Secara khusus, instrumen yang menggunakan pengamatan langsung sangat
rentan terhadap perbedaan pengamat. Peneliti yang menggunakan instrumen tersebut
berkewajiban untuk menyelidiki dan melaporkan tingkat perjanjian penilaian.
Kesepakatan semacam itu ditingkatkan dengan melatih para pengamat dan dengan
menambah jumlah periode pengamatan.
Instrumen berbeda dalam jumlah pelatihan yang diperlukan untuk penggunaannya.

Secara umum, teknik observasi membutuhkan pelatihan yang cukup untuk
penggunaan yang optimal. Pelatihan semacam itu biasanya terdiri dari menjelaskan
dan membahas prosedur yang terlibat, diikuti oleh peserta pelatihan yang
menggunakan instrumen saat mereka menonton rekaman video atau situasi langsung.
Semua peserta pelatihan mengamati perilaku yang sama dan kemudian
mendiskusikan perbedaan dalam penilaian. Proses ini, atau beberapa variasi di
atasnya, diulangi sampai pengamat independen mencapai tingkat kesepakatan yang
dapat diterima. Apa yang diinginkan adalah korelasi setidaknya 0,90 di antara
pencetak skor atau persetujuan minimal 80 persen. Biasanya, bahkan setelah
pelatihan seperti itu, 8 hingga 12 periode pengamatan diperlukan untuk mendapatkan
bukti keandalan yang memadai dari waktu ke waktu.
Untuk mengilustrasikan konsep reliabilitas lebih lanjut, mari kita lakukan tes yang
sebenarnya dan menghitung konsistensi internal dari item-itemnya.
Sekarang lihat kunci jawaban di catatan kaki di bagian bawah halaman 161. Beri diri
Anda satu poin untuk setiap jawaban yang benar. Asumsikan, untuk saat ini, bahwa
skor pada tes ini memberikan indikasi kecerdasan. Jika demikian, setiap item aktif tes
harus menjadi ukuran parsial kecerdasan. Kita Oleh karena itu, bisa membagi tes 10-
item menjadi dua tes 5-item. Salah satu dari lima tes ini dapat terdiri dari semua item
bernomor ganjil, dan tes lima item lainnya dapat terdiri dari semua item bernomor
genap. Sekarang, catat skor Anda pada item bernomor ganjil dan juga pada item
bernomor genap. Kami sekarang ingin melihat apakah item bernomor ganjil
memberikan ukuran kecerdasan yang sama dengan yang diberikan oleh item
bernomor genap. Jika ya, skor Anda pada item bernomor ganjil dan item genap harus
cukup dekat. Jika tidak, maka dua tes lima item tidak memberikan hasil yang
konsisten. Jika ini masalahnya, maka tes total (10 item) mungkin juga tidak
memberikan hasil yang konsisten, dalam hal ini skor tidak dapat dianggap sebagai
ukuran yang dapat diandalkan.
Minta lima orang lain untuk mengikuti tes. Catat skor mereka pada set item ganjil dan
genap, menggunakan lembar kerja yang ditunjukkan pada Gambar 8.6.
Gambar 8.6 Lembar Kerja Reliabilitas
Lihatlah skor pada masing-masing set lima item untuk masing-masing dari lima
individu, dan membandingkannya dengan Anda sendiri. Apa yang akan Anda
simpulkan tentang keandalan skor? Apa yang akan Anda katakan tentang kesimpulan
tentang kecerdasan yang mungkin dibuat peneliti berdasarkan skor pada tes ini?
Mungkinkah itu valid? *
Perhatikan bahwa kami hanya memeriksa satu aspek keandalan (konsistensi internal)
untuk hasil pengujian ini. Kami masih melakukannya tidak tahu berapa banyak skor
seseorang dapat berubah jika kami memberikan tes pada dua waktu yang berbeda
(reliabilitas tes ulang).
Kita bisa mendapatkan indikasi keandalan yang berbeda jika kita memberikan satu
dari lima tes pada satu waktu dan lima lainnya tes item di lain waktu untuk orang
yang sama (bentuk setara / uji ulang reliabilitas). Coba lakukan ini dengan beberapa
individu, menggunakan lembar kerja seperti yang ditunjukkan pada Gambar 8.6.
Para peneliti biasanya menggunakan prosedur yang baru saja dijelaskan untuk
membangun keandalan. Namun, biasanya, mereka menguji lebih banyak orang
(setidaknya 100). Anda juga harus menyadari bahwa sebagian besar tes memiliki
lebih dari 10 item, karena tes yang lebih lama biasanya lebih dapat diandalkan
daripada yang pendek, mungkin karena mereka memberikan sampel yang lebih besar
dari perilaku seseorang.
Singkatnya, kami berharap jelas bahwa aspek utama dari desain penelitian adalah
memperoleh informasi yang andal dan valid. Karena reliabilitas dan validitas
bergantung pada cara instrumen digunakan dan pada kesimpulan yang ingin dibuat
oleh para peneliti, para peneliti tidak pernah dapat dengan mudah berasumsi bahwa
instrumentasi mereka akan memberikan informasi yang memuaskan. Mereka dapat
memiliki kepercayaan diri yang lebih besar jika mereka menggunakan instrumen
yang ada bukti reliabilitas dan validitas sebelumnya, disediakan
mereka menggunakan instrumen dengan cara yang sama — yaitu, di bawah kondisi
yang sama seperti yang ada sebelumnya. Meski begitu, para peneliti tidak dapat
memastikan; bahkan ketika semua yang lain tetap ada sama, berlalunya waktu
mungkin telah merusak instrumen dalam beberapa cara.
Artinya, tidak ada pengganti untuk memeriksa reliabilitas dan validitas sebagai
bagian dari prosedur penelitian. Jarang ada alasan untuk gagal memeriksa konsistensi
internal, karena informasi yang diperlukan ada di tangan dan tidak ada pengumpulan
data tambahan yang diperlukan. Reliabilitas dari waktu ke waktu memang, dalam
banyak kasus, memerlukan administrasi tambahan dari suatu instrumen, tetapi ini
sering dapat dilakukan. Dalam mempertimbangkan opsi ini, perlu dicatat bahwa tidak
semua anggota sampel perlu diuji ulang, meskipun demikian diinginkan. Lebih baik
untuk menguji ulang subsampel yang dipilih secara acak, atau bahkan subsampel
kenyamanan, daripada tidak memiliki bukti keandalan pengujian ulang sama sekali.
Pilihan lain adalah menguji dan menguji ulang sampel yang berbeda, meskipun
sangat mirip.
Validitas Dan Reliabilitas Dalam Penelitian Kualitatif
Sementara banyak peneliti kualitatif menggunakan banyak prosedur yang telah kami
jelaskan, beberapa mengambil posisi validitas dan reliabilitas itu, seperti yang telah
kita bahas, tidak relevan atau tidak cocok dengan upaya penelitian mereka karena
mereka berusaha menggambarkan situasi atau peristiwa tertentu seperti yang dilihat
oleh individu tertentu. Mereka lebih menekankan kejujuran, kepercayaan, keahlian,
dan integritas peneliti. Kami berpendapat bahwa semua peneliti harus memastikan
bahwa setiap kesimpulan yang mereka buat yang didasarkan pada data yang diperoleh
melalui penggunaan instrumen adalah tepat, kredibel, dan didukung oleh bukti dari
jenis yang telah kami jelaskan dalam bab ini.
9. VALIDITAS INTERNAL
Apa itu Validitas Internal?
Mungkin sayangnya, istilah validitas digunakan dalam tiga cara berbeda oleh para
peneliti. Selain validitas internal, yang kami bahas dalam bab ini, Anda akan melihat
referensi ke validitas instrumen (atau pengukuran) dibahas dalam Bab 8, dan
eksternal (atau generalisasi) validitas, sebagaimana dibahas dalam Bab 6.
Ketika sebuah penelitian memiliki validitas internal, itu berarti ada

hubungan yang diamati antara dua atau lebih variabel harus tidak ambigu mengenai
apa artinya daripada karena "sesuatu yang lain." "Sesuatu yang lain" dapat, seperti
yang kami sarankan di atas, dapat berupa salah satu (atau lebih) dari sejumlah faktor,
seperti usia atau kemampuan subjek, kondisi di mana penelitian dilakukan, atau jenis
bahan yang digunakan. Jika faktor-faktor ini tidak dengan cara tertentu dikendalikan
atau dipertanggungjawabkan, peneliti tidak pernah dapat memastikan bahwa mereka
bukan alasan untuk setiap hasil yang diamati. Dengan kata lain, validitas internal
berarti perbedaan yang diamati pada variabel dependen berhubungan langsung
dengan variabel independen, dan bukan karena beberapa variabel yang tidak
diinginkan lainnya.
Pertimbangkan contoh ini. Misalkan seorang peneliti menemukan sebuah korelasi

0,80 antara tinggi dan tes matematika skor untuk sekelompok siswa sekolah dasar
(kelas 1–5) yaitu, siswa yang lebih tinggi memiliki matematika yang lebih tinggi
skor. Hasil seperti itu cukup menyesatkan. Mengapa? Karena jelas merupakan produk
sampingan dari usia. Siswa kelas lima lebih tinggi dan lebih baik dalam matematika
daripada anak kelas satu hanya karena mereka lebih tua dan lebih maju. Untuk
mengeksplorasi hubungan ini lebih lanjut tidak ada gunanya; membiarkannya
mempengaruhi praktik sekolah adalah tidak masuk akal.
Atau pertimbangkan sebuah studi di mana peneliti berhipotesis bahwa, di kelas untuk
siswa cacat pendidikan, harapan guru tentang kegagalan siswa terkait dengan jumlah
perilaku yang mengganggu. Misalkan peneliti menemukan korelasi yang tinggi antara
kedua variabel ini. Haruskah dia menyimpulkan bahwa ini adalah hubungan yang
bermakna? Mungkin. Tetapi korelasi tersebut mungkin juga dijelaskan oleh variabel
lain, seperti tingkat kemampuan kelas (kelas dengan kemampuan rendah mungkin
diharapkan memiliki perilaku yang lebih mengganggu dan harapan guru yang lebih
tinggi akan kegagalan). *
Dalam pengalaman kami, pertimbangan sistematis tentang kemungkinan ancaman

terhadap validitas internal menerima perhatian paling sedikit dari semua aspek
perencanaan penelitian. Seringkali, kemungkinan ancaman semacam itu tidak dibahas
sama sekali. Mungkin ini karena pertimbangan mereka tidak dilihat sebagai langkah
penting dalam melakukan penelitian. Para peneliti tidak dapat menghindari
memutuskan variabel apa yang akan dipelajari, atau bagaimana sampel akan
diperoleh, atau bagaimana data akan dikumpulkan dan dianalisis. Namun, mereka
dapat mengabaikan atau sama sekali tidak memikirkan penjelasan alternatif yang
mungkin untuk hasil suatu penelitian sampai setelah penelitian selesai — pada saat
itu hampir selalu terlambat untuk melakukan apa pun tentang mereka. Identifikasi
kemungkinan ancaman selama tahap perencanaan penelitian, di sisi lain, sering dapat
mengarahkan peneliti untuk merancang cara menghilangkan atau setidaknya
meminimalkan ancaman ini.
Ancaman terhadap Validitas Internal
Karakteristik Subyek
Pemilihan orang untuk studi dapat menyebabkan individu (atau kelompok) berbeda
satu sama lain dalam cara yang tidak disengaja yang terkait dengan variabel yang
akan dipelajari. Ini kadang-kadang disebut sebagai bias seleksi, atau ancaman
karakteristik subjek. Dalam contoh kita tentang harapan guru dan perilaku yang
mengganggu kelas, kemampuan tingkat kelas sesuai dengan kategori ini. Dalam studi
yang membandingkan kelompok, subjek dalam kelompok dapat berbeda variabel
seperti usia, jenis kelamin, kemampuan, latar belakang sosial ekonomi, dan
sejenisnya. Jika tidak dikendalikan, variabel-variabel ini dapat menjelaskan
perbedaan apa pun di antara kelompok yang ditemukan. Daftar karakteristik subjek
seperti itu sebenarnya tidak terbatas, tetapi beberapa contoh yang mungkin
memengaruhi hasil penelitian meliputi:
 Usia  Kosa kata

 Kekuatan  Sikap
 Kematangan  Kemampuan membaca
 Jenis kelamin  Kelancaran
 Etnisitas  Ketangkasan manual
 Koordinasi  Status social ekonomi
 Kecepatan  Keyakinan agama
 Itelegensi  Keyakinan politik
Dalam studi tertentu, peneliti harus memutuskan, berdasarkan penelitian atau

pengalaman sebelumnya, variabel mana yang paling mungkin menimbulkan masalah,
dan melakukan yang terbaik untuk mencegah atau meminimalkan efeknya. Dalam
studi membandingkan kelompok, ada beberapa metode menyamakan kelompok, yang
kita bahas dalam Bab 13 dan 16. Dalam studi korelasional, ada teknik statistik
tertentu yang dapat digunakan untuk mengontrol variabel tersebut, asalkan informasi
pada setiap variabel diperoleh. Kami membahas teknik-teknik ini di Bab 15.
Kehilangan Subyek (Mortalitas)
Tidak peduli seberapa hati-hati subjek penelitian dipilih, adalah umum untuk
“kehilangan” beberapa saat penelitian berlanjut (Gambar 9.1). Ini dikenal sebagai
ancaman kematian. Karena satu dan lain hal (misalnya, sakit, relokasi keluarga, atau
persyaratan kegiatan lainnya), beberapa orang mungkin keluar dari penelitian. Ini
terutama benar dalam kebanyakan studi intervensi, karena mereka terjadi seiring
waktu.
Gambar 9.1 Ancaman Kematian terhadap Validitas Internal
Subjek mungkin tidak hadir selama pengumpulan data atau gagal menyelesaikan tes,
kuesioner, atau instrumen lainnya. Kegagalan untuk melengkapi instrumen khususnya
merupakan masalah dalam studi kuesioner. Dalam studi semacam itu, tidak jarang
ditemukan bahwa 20 persen atau lebih subjek yang terlibat tidak mengembalikan
formulir mereka. Ingat, sampel aktual dalam penelitian ini bukan total dari yang
dipilih tetapi hanya mereka yang datanya diperoleh.
Kehilangan subjek, tentu saja, tidak hanya membatasi kemampuan generalisasi tetapi
juga dapat menimbulkan bias - jika subjek yang hilang akan merespons secara
berbeda dari yang dari siapa data diperoleh. Sering kali ini sangat mungkin, karena
mereka yang tidak menanggapi atau yang tidak hadir mungkin bertindak seperti ini
karena suatu alasan. Dalam contoh kita disajikan sebelumnya di mana peneliti sedang
belajar kemungkinan hubungan antara jumlah yang mengganggu perilaku oleh siswa
di kelas dan harapan guru tentang kegagalan siswa, ada kemungkinan bahwa guru-
guru yang gagal menggambarkan harapan mereka kepada peneliti (dan yang
karenanya akan "hilang" untuk tujuan penelitian) akan berbeda dari mereka yang
memang menyediakan informasi ini dengan cara yang mempengaruhi perilaku yang
mengganggu.
Dalam studi yang membandingkan kelompok, kehilangan subjek mungkin tidak akan
menjadi masalah jika kehilangan hampir sama di semua kelompok. Tetapi jika ada
perbedaan yang cukup besar antara kelompok dalam hal jumlah yang putus, ini tentu
saja merupakan penjelasan alternatif yang mungkin untuk temuan apa pun yang
muncul. Dalam membandingkan siswa yang diajarkan dengan metode yang berbeda
(ceramah versus diskusi, misalnya), orang mungkin berharap siswa yang lebih miskin
di setiap kelompok lebih cenderung putus sekolah. Jika lebih banyak siswa miskin
keluar dari kelompok mana pun, metode lain mungkin tampak lebih efektif daripada
yang sebenarnya.
Dari semua ancaman terhadap validitas internal, mortalitas mungkin yang paling sulit
dikendalikan. Kesalahpahaman yang umum adalah bahwa ancaman dihilangkan
hanya dengan mengganti yang hilang mata pelajaran. Tidak peduli bagaimana hal ini
dilakukan bahkan jika mereka digantikan oleh mata pelajaran baru yang dipilih secara
acak para peneliti tidak pernah bisa yakin bahwa mata pelajaran pengganti akan
merespons seperti yang dimiliki oleh orang yang putus sekolah. Lebih mungkin, pada
kenyataannya, mereka tidak akan melakukannya. Bisakah Anda melihat alasannya? *
Kadang-kadang mungkin bagi seorang peneliti untuk berpendapat bahwa hilangnya

mata pelajaran dalam suatu penelitian tidak menjadi masalah. Ini dilakukan dengan
mengeksplorasi alasan-alasan kerugian tersebut dan kemudian menawarkan argumen
mengapa alasan-alasan ini tidak relevan dengan studi tertentu yang ada.
Ketidakhadiran di kelas pada hari pengujian, misalnya, mungkin dalam banyak kasus
tidak akan menguntungkan kelompok tertentu, karena itu akan bersifat insidental dan
bukan disengaja kecuali hari dan waktu pengujian diumumkan sebelumnya.
Upaya lain untuk menghilangkan masalah kematian adalah untuk memberikan bukti
bahwa subjek yang hilang mirip dengan yang tersisa pada karakteristik terkait seperti
usia, jenis kelamin, etnis, skor pretest, atau variabel lain yang mungkin terkait dengan
hasil penelitian. Meskipun diinginkan, bukti seperti itu bisa tidak pernah
menunjukkan secara meyakinkan bahwa subyek yang hilang tidak akan merespons
secara berbeda dari mereka yang tetap. Ketika semua dikatakan dan dilakukan, solusi
terbaik untuk masalah kematian adalah melakukan yang terbaik untuk mencegah atau
meminimalkan hilangnya subjek.
Beberapa contoh ancaman kematian meliputi:
 Seorang guru sekolah menengah memutuskan untuk mengajar dua kelas

bahasa Inggrisnya secara berbeda. Satu jam kelasnya menghabiskan
banyak waktu menulis analisis drama, sedangkan kelas dua jamnya
menghabiskan banyak waktu untuk berakting dan mendiskusikan bagian-
bagian dari drama yang sama. Di pertengahan semester, beberapa siswa di
kelas jam dua dimaafkan untuk berpartisipasi dalam permainan sekolah
tahunan — dengan demikian mereka “hilang” dari penelitian. Jika mereka,
sebagai kelompok, adalah siswa yang lebih baik daripada anggota kelas
lainnya, kehilangan mereka akan menurunkan kinerja kelas jam dua.
LOKASI
Lokasi tertentu di mana data dikumpulkan, atau di intervensi mana yang dilakukan,
dapat membuat penjelasan alternatif untuk hasil. Ini disebut ancaman lokasi. Sebagai
contoh, ruang kelas di mana siswa diajar oleh, katakanlah, metode inkuiri mungkin
memiliki lebih banyak sumber daya (teks dan perlengkapan lain, peralatan, dukungan
orang tua, dan sebagainya) tersedia bagi mereka daripada ruang kelas di mana siswa
diajar dengan metode ceramah. Ruang kelas itu sendiri mungkin lebih besar, memiliki
pencahayaan yang lebih baik, atau mengandung workstation yang lebih lengkap.
Variabel-variabel semacam itu dapat menjelaskan kinerja yang lebih tinggi oleh
siswa. Dalam contoh perilaku mengganggu kami versus ekspektasi guru, ketersediaan
dukungan (sumber daya, pembantu, dan bantuan orang tua) mungkin menjelaskan
korelasi antara variabel utama yang menarik. Kelas dengan sumber daya yang lebih
sedikit mungkin diharapkan memiliki perilaku yang lebih mengganggu dan harapan
kegagalan guru yang lebih tinggi.
Lokasi di mana tes, wawancara, atau instrumen lain diberikan dapat memengaruhi
respons. Penilaian orangtua terhadap anak-anak mereka di rumah mungkin berbeda
dengan penilaian anak-anak mereka di sekolah. Kinerja siswa pada tes mungkin lebih
rendah jika tes diberikan di kamar yang bising atau kurang cahaya. Pengamatan
interaksi siswa dapat dipengaruhi oleh pengaturan fisik ruang kelas tertentu.
Perbedaan tersebut dapat memberikan penjelasan alternatif yang dapat dipertahankan
untuk hasil dalam studi tertentu.
Metode kontrol terbaik untuk ancaman lokasi adalah dengan menjaga lokasi tetap
konstan artinya, tetap sama untuk semua peserta. Ketika ini tidak layak, peneliti harus
mencoba memastikan bahwa lokasi yang berbeda tidak secara sistematis mendukung
atau membahayakan hipotesis. Ini mungkin memerlukan koleksi deskripsi tambahan
berbagai lokasi.
Berikut adalah beberapa contoh ancaman lokasi:
 Seorang peneliti merancang sebuah studi untuk membandingkan efek

pengajaran tim versus individu dari sejarah A.S. terhadap sikap siswa
terhadap sejarah. Ruang kelas di mana siswa diajar oleh satu guru
memiliki lebih sedikit buku dan bahan dibandingkan dengan di mana
siswa diajar oleh tim yang terdiri dari tiga guru.
 Seorang peneliti memutuskan untuk mewawancarai konseling dan
jurusan pendidikan khusus untuk membandingkan sikap mereka menuju
program gelar master masing-masing. Selama periode tiga minggu, ia
berhasil mewawancarai semua siswa mendaftar di dua program. Meskipun
ia mampu mewawancarai sebagian besar siswa di salah satu ruang kelas
universitas, konflik penjadwalan mencegah ruang kelas ini tersedia
baginya untuk mewawancarai sisanya. Sebagai hasilnya, ia mewawancarai
20 siswa konseling di kedai kopi persatuan pelajar.
Instrumentasi
Cara penggunaan instrumen juga dapat menjadi ancaman bagi validitas internal suatu
penelitian. Seperti dibahas dalam Bab 7, skor dari instrumen yang digunakan dalam
penelitian dapat kurang bukti validitas. Kurangnya validitas semacam ini tidak selalu
menghadirkan ancaman bagi validitas internal — tetapi mungkin saja. *
Peluruhan instrumen. Instrumentasi dapat menimbulkan masalah jika sifat

instrumen (termasuk prosedur penilaian) diubah dalam beberapa cara. Ini biasanya
disebut peluruhan instrumen. Ini sering terjadi ketika instrumen memungkinkan
interpretasi hasil yang berbeda (seperti dalam tes esai) atau sangat panjang atau sulit
untuk dinilai, sehingga mengakibatkan kelelahan pencetak gol.
Kelelahan sering terjadi ketika seorang peneliti menilai sejumlah tes satu demi satu;
dia menjadi lelah dan menilai tes secara berbeda (misalnya, lebih keras pada awalnya,
lebih murah hati kemudian). Cara utama untuk mengendalikan peluruhan instrumen
adalah dengan menjadwalkan pengumpulan data dan / atau penilaian untuk
meminimalkan perubahan pada instrumen atau prosedur penilaian mana pun.
Berikut adalah beberapa contoh peluruhan instrumen:
 Seorang profesor menilai 100 ujian akhir tipe esai selama periode lima jam
tanpa istirahat. Setiap esai mencakup antara 10 dan 12 halaman. Dia menilai
kertas dari masing-masing kelas secara bergantian dan kemudian
membandingkan hasilnya.
 Administrasi distrik sekolah besar mengubah metode pelaporan absen. Hanya
siswa yang dianggap bolos (absen tidak dieksklusi) yang dilaporkan absen;
siswa yang memiliki alasan tertulis (dari orang tua atau pejabat sekolah) tidak
dilaporkan. Kabupaten melaporkan penurunan absen 55 persen sejak sistem
pelaporan baru telah dilembagakan.
Karakteristik Pengumpul Data. Karakteristik pengumpul data. Bagian tak

terhindarkan dari sebagian besar instrumentasi juga dapat memengaruhi hasil. Jenis
kelamin, usia, etnis, pola bahasa, atau karakteristik lain dari individu yang
mengumpulkan data dalam penelitian dapat memengaruhi sifat data yang mereka
peroleh. Jika karakteristik ini terkait dengan variabel yang diselidiki, mereka dapat
menawarkan penjelasan alternatif untuk temuan apa pun yang muncul. Misalkan
pengumpul data pria dan wanita digunakan dalam contoh sebelumnya dari seorang
peneliti yang ingin mempelajari hubungan antara perilaku yang mengganggu dan
harapan guru. Mungkin saja pengumpul data wanita akan mendapatkan lebih banyak
pengakuan tentang harapan kegagalan siswa di pihak guru dan menghasilkan lebih
banyak insiden perilaku mengganggu di pihak siswa selama pengamatan di kelas
daripada yang dilakukan pria. Jika demikian, ada korelasi antara harapan guru
tentang kegagalan dan jumlah perilaku mengganggu oleh siswa dapat dijelaskan
(setidaknya sebagian) sebagai artefak dari siapa yang mengumpulkan data.
Cara utama untuk mengendalikan ancaman ini termasuk menggunakan pengumpul

data yang sama di seluruh, menganalisis data secara terpisah untuk masing-masing
pengumpul, dan (dalam studi kelompok pembanding) memastikan bahwa masing-
masing pengumpul digunakan sama dengan semua kelompok.
Bias Kolektor Data. Ada juga kemungkinan bahwa pengumpul atau pengumpul data
dapat secara tidak sengaja mengubah data sedemikian rupa sehingga membuat hasil
tertentu (seperti dukungan untuk hipotesis) lebih mungkin. Contohnya termasuk
beberapa kelas yang diizinkan lebih banyak waktu pada tes daripada kelas lain;
pewawancara yang mengajukan pertanyaan “terkemuka” dari beberapa orang yang
diwawancarai; pengetahuan pengamat dari harapan guru yang mempengaruhi
kuantitas dan jenis perilaku yang diamati dari suatu kelas; dan juri esai siswa lebih
menyukai (tanpa sadar) satu metode pengajaran daripada yang lain.
Dua teknik utama untuk menangani bias pengumpul data adalah dengan membakukan
semua prosedur, yang biasanya membutuhkan semacam pelatihan bagi pengumpul
data, dan untuk memastikan bahwa pengumpul data tidak memiliki informasi yang
mereka perlukan untuk mendistorsi hasil - juga dikenal sebagai ketidaktahuan yang
direncanakan. Pengumpul data juga harus tidak mengetahui hipotesis atau tidak dapat
mengidentifikasi karakteristik tertentu dari individu atau kelompok siapa data sedang
dikumpulkan. Pengumpul data lakukan tidak perlu diberi tahu kelompok metode
mana yang sedang mereka amati atau uji atau bagaimana individu yang mereka uji
dilakukan pada tes lain.
Beberapa contoh bias pengumpul data adalah sebagai berikut:
 Pewawancara tanpa sadar tersenyum pada jawaban tertentu untuk

pertanyaan tertentu selama wawancara.
 Seorang pengamat dengan preferensi untuk metode inkuiri mengamati
lebih banyak "perilaku menghadiri" di kelas yang diidentifikasikan
daripada yang diidentifikasi.
 Seorang peneliti sadar, ketika mencetak ujian akhir studi, siswa mana
yang terkena pengobatan dalam studi intervensi.
Pengujian
Dalam studi intervensi, di mana data dikumpulkan selama periode waktu tertentu,
adalah umum untuk menguji subyek pada awal intervensi. Dengan pengujian, kami
bermaksud menggunakan segala bentuk instrumentasi, bukan hanya "tes". Jika
peningkatan substansial ditemukan dalam skor posttest (dibandingkan dengan
pretest), peneliti dapat menyimpulkan bahwa peningkatan ini adalah karena
intervensi. Penjelasan alternatif, bagaimanapun, mungkin bahwa perbaikan adalah
karena penggunaan pretest.
Pertimbangkan contoh lain. Misalkan seorang konselor di sebuah sekolah menengah
besar tertarik untuk mengetahui apakah sikap siswa terhadap kesehatan mental
dipengaruhi oleh unit khusus pada subjek. Dia memutuskan untuk memberikan
angket sikap kepada siswa sebelum unit diperkenalkan dan kemudian mengelola lagi
setelah unit selesai. Setiap perubahan dalam skor sikap mungkin karena siswa
memikirkan dan mendiskusikan pendapat mereka sebagai hasil dari pretest daripada
sebagai hasil dari intervensi.
Beberapa contoh ancaman pengujian adalah sebagai berikut:
 Seorang peneliti menggunakan set masalah yang persis sama untuk

mengukur perubahan seiring waktu dalam kemampuan siswa untuk
menyelesaikannya masalah kata matematika. Administrasi tes pertama
diberikan pada awal unit pengajaran; administrasi kedua diberikan
pada akhir unit pengajaran, tiga minggu kemudian. Jika peningkatan
skor terjadi, itu mungkin karena kepekaan terhadap masalah yang
dihasilkan oleh tes pertama dan efek praktik daripada peningkatan
kemampuan pemecahan masalah.
 Seorang peneliti menggunakan tingkat kecemasan sebelum dan
sesudah tes untuk membandingkan siswa yang diberikan pelatihan
relaksasi dengan siswa dalam kelompok kontrol. Skor yang lebih
rendah untuk kelompok relaksasi pada posttest mungkin karena
pelatihan, tetapi mereka juga mungkin karena sensitivitas (diciptakan
oleh pretest) terhadap pelatihan.
SEJARAH
Kadang-kadang, satu atau lebih yang tidak terduga, dan tidak direncanakan
karena, peristiwa dapat terjadi selama studi yang dapat mempengaruhi respon subyek
Peristiwa semacam itu disebut dalam penelitian pendidikan sebagai ancaman sejarah.
Dalam penelitian ini kami menyarankan siswa yang diajar dengan metode
penyelidikan versus metode ceramah, misalnya, seorang pengunjung yang
membosankan yang datang dan berbicara di kelas ceramah sesaat sebelum ujian yang
akan datang akan menjadi contoh. Jika komentar pengunjung dengan cara tertentu
membuat siswa berkecil hati atau tidak aktif di kelas ceramah, mereka mungkin
kurang berhasil dalam ujian dibandingkan jika pengunjung tidak muncul. Contoh lain
melibatkan pengalaman pribadi salah satu penulis teks ini. Dia ingat dengan jelas hari
ketika Presiden John F. Kennedy meninggal, karena dia telah menjadwalkan
pemeriksaan untuk hari itu juga. Mahasiswa penulis pada waktu itu, terkejut karena
pengumuman kematian presiden, tidak dapat mengikuti ujian. Apa saja perbandingan
hasil ujian yang diambil pada hari ini dengan hasil ujian dari kelas lain yang diambil
pada hari-hari lain akan menjadi tidak berarti.
Para peneliti tidak pernah bisa yakin bahwa satu kelompok memiliki
tidak memiliki pengalaman yang berbeda dari yang dimiliki kelompok lain.
Akibatnya, mereka harus terus-menerus waspada terhadap pengaruh apa pun yang
mungkin terjadi (di sekolah, misalnya) selama masa studi. Seperti yang akan Anda
lihat di Bab 13, beberapa desain penelitian menangani ancaman ini lebih baik
daripada orang lain.
Dua contoh ancaman sejarah mengikuti.
 Seorang peneliti merancang penelitian untuk menyelidiki efek permainan

simulasi pada etnosentrisme. Dia berencana untuk pilih dua sekolah
menengah untuk berpartisipasi dalam percobaan. Siswa di kedua sekolah
akan diberikan pretest yang dirancang untuk mengukur sikap mereka
terhadap kelompok minoritas. Sekolah A kemudian akan diberikan
simulasi permainan selama kelas studi sosial mereka lebih dari tiga
periode hari, dan sekolah B akan menonton film perjalanan. Kedua
sekolah kemudian akan diberikan tes yang sama untuk melihat apakah
sikap mereka terhadap kelompok minoritas telah berubah. Peneliti
melakukan penelitian seperti yang direncanakan, tetapi sebuah film
dokumenter khusus tentang prasangka ras ditampilkan di sekolah A antara
pretest dan posttest.
KEDEWASAAN
Seringkali, perubahan selama intervensi mungkin disebabkan oleh faktor yang terkait
dengan berlalunya waktu daripada karena intervensi itu sendiri. Ini dikenal sebagai
ancaman kedewasaan. Selama satu semester, misalnya, siswa yang sangat muda,
khususnya,akan berubah dalam banyak hal hanya karena penuaan dan pengalaman.
Misalkan, bahwa seorang peneliti tertarik mempelajari efek latihan menggenggam
khusus pada kemampuan anak berusia 2 tahun untuk memanipulasi berbagai objek.
Dia menemukan bahwa latihan-latihan semacam itu dikaitkan dengan peningkatan
yang nyata dalam kemampuan manipulatif anak-anak selama periode enam bulan.
Namun, anak berusia dua tahun tumbuh dengan sangat cepat, dan peningkatan
kemampuan manipulatif mereka mungkin disebabkan oleh fakta ini dan bukan karena
latihan menggenggam. Kedewasaan adalah ancaman serius hanya dalam studi yang
menggunakan data pra-posting untuk kelompok intervensi, atau dalam studi yang
berlangsung beberapa tahun. Jalan terbaik untuk mengendalikan pematangan adalah
dengan memasukkan kelompok pembanding yang dipilih dengan baik dalam
penelitian ini.
Contoh ancaman pematangan adalah sebagai berikut:
 Seorang peneliti melaporkan bahwa siswa di perguruan tinggi seni liberal

menjadi kurang menerima otoritas antara mahasiswa baru dan tahun senior
mereka dan menghubungkan ini dengan banyak pengalaman
"membebaskan" yang mereka alami. telah menjalani kuliah. Ini mungkin
alasannya, tetapi mungkin juga karena mereka telah bertambah tua.
 Seorang peneliti menguji sekelompok siswa yang terdaftar di kelas khusus
untuk "siswa dengan potensi artistik" setiap tahun selama enam tahun,
dimulai ketika mereka berusia 5. Dia menemukan bahwa kemampuan
menggambar mereka meningkat pesat selama bertahun-tahun.
Sikap Subyek
Bagaimana subjek melihat studi dan berpartisipasi di dalamnya juga dapat

mengancam validitas internal. Salah satu contoh adalah efek Hawthorne yang
terkenal, yang pertama kali diamati di pabrik Haw thorne di Western Electric
Company beberapa tahun yang lalu. Secara tidak sengaja ditemukan bahwa
produktivitas meningkat tidak hanya ketika perbaikan dilakukan dalam kondisi kerja
fisik (seperti peningkatan jumlah rehat kopi dan pencahayaan yang lebih baik) tetapi
juga ketika kondisi seperti itu secara tidak sengaja menjadi lebih buruk(misalnya,
jumlah rehat kopi berkurang dan pencahayaan redup). Penjelasan biasa untuk ini
adalah perhatian dan pengakuan yang diterima oleh para pekerja bertanggung jawab;
mereka merasakan seseorang peduli tentang mereka dan berusaha membantu mereka.
Efek positif ini, yang dihasilkan dari peningkatan perhatian dan pengenalan subjek,
selanjutnya disebut sebagai efek Hawthorne.
Juga telah disarankan bahwa penerima pengobatan eksperimental dapat melakukan

lebih baik karena kebaruan pengobatan daripada sifat spesifik pengobatan. Maka,
mungkin diharapkan bahwa subjek yang tahu mereka bagian dari penelitian dapat
menunjukkan peningkatan sebagai hasil dari perasaan bahwa mereka menerima
semacam perlakuan khusus tidak peduli apa pun perlakuan ini.
Efek sebaliknya dapat terjadi kapan saja, dalam studi intervensi, anggota kelompok
kontrol tidak menerima pengobatan sama sekali. Akibatnya, mereka mungkin
menjadi demoralisasi atau kesal dan karenanya berkinerja lebih buruk daripada
kelompok perlakuan. Dengan demikian dapat terlihat bahwa kelompok eksperimen
berkinerja lebih baik sebagai hasil dari perawatan, ketika ini tidak terjadi.
Salah satu obat untuk ancaman ini adalah memberikan kelompok kontrol atau
pembanding dengan perlakuan khusus atau baru yang sebanding dengan yang
diterima oleh kelompok eksperimen. Meskipun secara teori sederhana, ini tidak
mudah dilakukan di sebagian besar lingkungan pendidikan. Kemungkinan lain, dalam
beberapa kasus, adalah untuk memudahkan siswa untuk percaya bahwapengobatan
hanyalah bagian dari instruksi yaitu, bukan bagian dari eksperimen. Misalnya,
kadang-kadang tidak perlu untuk mengumumkan bahwa percobaan sedang dilakukan.
Berikut adalah contoh ancaman sikap subjek:
 Seorang peneliti memutuskan untuk menyelidiki kemungkinan

pengurangan tes kegelisahan dengan memainkan musik klasik selama
ujian. Dia secara acak memilih 10 kelas aljabar mahasiswa baru dari lima
sekolah menengah di distrik sekolah kota besar. Di lima kelas ini, dia
memainkan musik klasik dengan lembut di latar belakang selama ujian. Di
lima lainnya (kelompok kontrol), dia tidak memainkan musik. Para siswa
dalam kelompok kontrol, bagaimanapun, belajar bahwa musik sedang
diputar di kelas-kelas lain dan mengungkapkan beberapa kebencian ketika
guru mereka memberi tahu mereka bahwa musik tidak dapat diputar di
kelas mereka. Dendam ini mungkin sebenarnya menyebabkan mereka
menjadi lebih cemas selama ujian atau sengaja untuk meningkatkan skor
kecemasan mereka.
Regresi
Ancaman regresi dapat hadir setiap kali perubahan dipelajari dalam kelompok yang
sangat rendah atau tinggi kinerja preintervensi. Studi dalam pendidikan khusus sangat
rentan terhadap ancaman ini, karena siswa dalam studi tersebut sering dipilih
berdasarkan kinerja rendah sebelumnya. Regresi Fenomena dapat dijelaskan secara
statistik, tetapi untuk tujuan kita, itu hanya menggambarkan fakta bahwa suatu
kelompok dipilih karena kinerja yang luar biasa rendah (atau tinggi) akan, rata-rata,
skor lebih dekat dengan rata-rata pada pengujian berikutnya, terlepas dari apa yang
terjadi pada saat itu. Demikian, kelas siswa yang kemampuannya sangat rendah
mungkin diharapkan mendapat skor lebih tinggi pada posttest terlepas dari
pengaruhnya dari setiap intervensi yang mereka hadapi. Seperti pematangan,
penggunaan kelompok kontrol atau pembanding yang setara menangani ancaman ini
— dan ini tampaknya dipahami sebagaimana tercermin dalam penelitian yang
dipublikasikan.
Beberapa contoh kemungkinan ancaman regresi adalah sebagai berikut:
 Pelatih lintasan Olimpiade memilih anggota timnya dari mereka yang

memiliki waktu tercepat selama uji coba terakhir untuk berbagai acara. Dia
menemukan bahwa waktu rata-rata mereka meningkat pada saat mereka
berlari berikutnya, yang mungkin keliru dikaitkan dengan kondisi lintasan
yang lebih buruk.
 Para siswa yang mendapat nilai 20 persen terendah pada ujian matematika
diberi bantuan khusus. Enam bulan kemudian skor rata-rata mereka pada tes
yang melibatkan masalah serupa telah meningkat, tetapi belum tentu karena
bantuan khusus.
PELAKSANAAN
Perlakuan atau metode dalam studi eksperimental apa pun harus diberikan oleh
seseorang peneliti, guru yang terlibat dalam penelitian, konselor, atau orang lain.
Fakta ini memunculkan kemungkinan bahwa kelompok eksperimen dapat
diperlakukan dengan cara-cara yang tidak disengaja dan tidak harus menjadi bagian
dari metode, namun yang memberi mereka keuntungan dari satu atau lain jenis. Ini
dikenal sebagai ancaman implementasi. Itu bisa terjadi dalam dua cara.
Pertama, ancaman implementasi dapat terjadi ketika individu yang berbeda

ditugaskan untuk menerapkan metode yang berbeda, dan individu-individu ini
berbeda dalam cara yang terkait dengan hasil. Pertimbangkan contoh kami
sebelumnya di mana dua kelompok siswa diajar dengan metode inkuiri atau ceramah.
Guru inkuiri mungkin saja guru yang lebih baik daripada guru kuliah.
Ada sejumlah cara untuk mengendalikan kemungkinan ini. Peneliti dapat mencoba
untuk mengevaluasi individu yang menerapkan setiap metode pada karakteristik yang
bersangkutan (seperti kemampuan mengajar) dan kemudian mencoba untuk
menyamakan kelompok perlakuan pada dimensi-dimensi ini (misalnya, dengan
menugaskan guru dengan kemampuan setara untuk setiap kelompok). Jelas, ini
adalah tugas yang sulit dan memakan waktu. Kontrol lain adalah mengharuskan
setiap metode diajarkan oleh semua guru dalam penelitian ini. Dimana
layak, ini adalah solusi yang lebih disukai, meskipun juga rentan terhadap
kemungkinan bahwa beberapa guru mungkin memiliki kemampuan yang berbeda
untuk menerapkan metode yang berbeda. Masih kontrol lain adalah dengan
menggunakan beberapa individu yang berbeda untuk menerapkan setiap metode,
sehingga mengurangi kemungkinan keuntungan untuk kedua metode tersebut.
Kedua, ancaman implementasi dapat terjadi ketika beberapa individu memiliki bias
pribadi yang mendukung satu metode daripada yang lain. Preferensi mereka untuk
metode, daripada metode itu sendiri, dapat menjelaskan kinerja unggul siswa yang
diajarkan oleh metode itu. Ini adalah alasan yang bagus mengapa seorang peneliti
harus, jika mungkin, tidak menjadi salah satu dari individu yang
mengimplementasikan ametode dalam studi intervensi. Terkadang itu mungkin untuk
membuat individu yang pelakunya tidak tahu sifat studi, tetapi umumnya sangat sulit
sebagian karena guru atau orang lain yang terlibat dalam studi akan biasanya perlu
diberi alasan untuk partisipasi mereka. Salah satu solusi untuk ini adalah
memungkinkan individu untuk memilih metode yang ingin mereka terapkan, tetapi
ini menciptakan kemungkinan perbedaan karakteristik yang dibahas di atas.
Alternatifnya adalah memiliki semua metode yang digunakan oleh semua pelaksana,
tetapi dengan preferensi mereka diketahui sebelumnya. Perhatikan bahwa preferensi
untuk suatu metode sebagai hasil penggunaannya bukan merupakan ancaman,
melainkan hanya merupakan salah satu produk sampingan dari metode itu sendiri. Ini
juga berlaku untuk produk sampingan lainnya. Jika keterampilan guru atau
keterlibatan orang tua, misalnya, meningkat sebagai akibat dari metode, itu tidak akan
menjadi ancaman. Akhirnya, peneliti dapat mengamati dalam upaya untuk melihat
bahwa metode diberikan sebagaimana dimaksud.
Contoh ancaman implementasi adalah sebagai berikut:
 Seorang peneliti tertarik untuk mempelajari efek dari diet baru pada
kelincahan fisik anak-anak. Setelah mendapatkan izin dari orang tua anak-
anak untuk terlibat, yang semuanya adalah siswa kelas satu, ia secara acak
menugaskan anak-anak ke kelompok eksperimen dan kelompok kontrol.
Kelompok eksperimen adalah mencoba diet baru selama tiga bulan, dan
kelompok kontrol adalah tetap dengan diet regulernya.
Faktor-Faktor Yang Mengurangi Likelihood Menemukan Hubungan
Dalam banyak penelitian, berbagai faktor yang telah kita diskusikan juga dapat
berfungsi untuk mengurangi, atau bahkan mencegah, peluang dari suatu hubungan
yang ditemukan. Sebagai contoh, jika metode (perlakuan) dalam suatu penelitian
tidak diimplementasikan secara memadai yaitu, dicoba secara memadai efek dari
perbedaan aktual di antara mereka pada hasil mungkin dikaburkan. Demikian pula,
jika anggota kelompok kontrol atau pembanding menjadi "sadar" terhadap
eksperimen pengobatan, mereka dapat meningkatkan upaya mereka karena mereka
merasa "tersisih," sehingga mengurangi perbedaan nyata dalam pencapaian antara
kelompok perlakuan yang sebaliknya akan terlihat. Kadang-kadang, guru dari
kelompok kontrol mungkin tanpa sadar memberikan semacam "kompensasi" kepada
memotivasi anggota kelompok mereka, sehingga berkurang dampak dari perawatan
eksperimental. Akhirnya, penggunaan instrumen yang menghasilkan skor tidak dapat
diandalkan dan / atau penggunaan sampel kecil dapat mengurangi kemungkinan
hubungan atau hubungan yang diamati.
Bagaimana Seorang Peneliti Minimalkan Ancaman Ini untuk Validitas

Internal?
Sepanjang bab ini, kami telah menyarankan sejumlah teknik atau prosedur yang dapat
digunakan peneliti untuk mengendalikan atau meminimalkan kemungkinan dampak
ancaman terhadap validitas internal. Pada dasarnya, mereka sampai pada empat
alternatif. Aresearcher dapat mencoba melakukan salah satu atau semua hal berikut
ini.
1. Menstandarkan kondisi di mana penelitian itu terjadi - seperti cara di mana

perawatan dilaksanakan (dalam studi intervensi), cara di mana data
dikumpulkan, dan sebagainya. Ini membantu mengendalikan lokasi,
instrumentasi, sikap subjek, dan ancaman implementasi.
2. Dapatkan lebih banyak informasi tentang subjek penelitian, yaitu tentang
karakteristik subjek yang relevan dan gunakan informasi tersebut dalam
menganalisis dan menafsirkan hasil. Ini membantu mengendalikan ancaman
karakteristik subjek dan (mungkin) ancaman kematian, serta ancaman
pematangan dan regresi
3. Dapatkan informasi lebih lanjut tentang perincian penelitian ini, di mana dan
kapan itu terjadi, peristiwa-peristiwa asing yang terjadi, dan sebagainya. Ini
membantu mengendalikan untuk lokasi, instrumentasi, sejarah, sikap subjek,
dan ancaman implementasi
4. Pilih desain yang sesuai. Desain yang tepat dapat melakukan banyak hal untuk
mengendalikan ancaman ini hingga validitas internal.

Metopen SELESAI

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Metopen SELESAI

Diunggah oleh

Hak Cipta:

Format Tersedia

INSTRUMENTASI, VALIDATAS, RELIABILITAS, DAN VALIDITAS

Untuk memenuhi mata kuliah Metodologi Penelitian

Heni Rodiawati 1923021015

Diana Ali 1923021026

MAGISTER PENDIDIKAN MATEMATIKA

Secara umum, seluruh proses persiapan untuk mengumpulkan data disebut

1. Di mana data akan dikumpulkan? Pertanyaan ini merujuk pada lokasi

Pertanyaan-pertanyaan ini penting karena bagaimana caranya peneliti menjawabnya

Validitas, Reliabilitas, dan Tujuan

Untuk mengukur prestasi matematika, misalnya, seorang peneliti perlu memiliki

Sarana Klasifikasi Instrumen Pengumpulan Data

SIAPA YANG MENYEDIAKAN INFORMASI?

Dalam penelitian pendidikan, tiga metode umum tersedia untuk memperoleh

DARI MANAKAH INSTRUMEN BERASAL?

Kinerja Versus Tanggapan Tertulis

Instrumen tanggapan tertulis umumnya lebih disukai daripada instrumen kinerja,

Contoh-contoh Pengumpulan Data Instrumen

Peneliti Lengkap Subjek lengkap

Instrumen Lengkap Penelitian

Skala peringkat grafik adalah upaya untuk meningkatkan ketidakjelasan skala

Gambar 7.5 Kutipan dari Skala Penilaian Grafik

Gambar 7.7 menggambarkan jadwal wawancara terstruktur. Perhatikan bahwa jadwal

Formulir Pengamatan. Bentuk observasi kertas dan pensil (kadang-kadang disebut

Lembar penghitungan. Lembar penghitungan adalah perangkat yang sering

Log Waktu-dan-Gerak. Ada saat-saat ketika para peneliti ingin melakukan

Gambar 7.12 Log Waktu-dan-Gerak

Kuisioner. Jadwal wawancara yang dapat digunakan sebagai kuesioner. Dalam

Gambar 7.15 Contoh Perbedaan Semantik

Tes Prestasi. Prestasi, atau kemampuan, tes mengukur pengetahuan atau

Tes, tergantung pada tujuan penggunaannya. Tes prestasi matematika, misalnya,

Gambar 7.19 Item Sampel dari Tes Aptitude

Tes Kematangan Mental California (CTMM) dan Otis-Lennon adalah contoh-contoh

Gambar 7.20 menyajikan contoh-contoh jenis barang pada tes kecerdasan.

Gambar 7.20 Item Sampel dari Tes Kecerdasan

Perangkat Proyektif. Perangkat proyektif adalah segala jenis instrumen dengan

Gambar 7.23 Contoh Sosiogram

Gambar 7.24 Contoh Permainan Kelompok

Kelas khusus untuk: a. Sebuah. harus ditingkatkan

1. Jelaskan langkah-langkah yang harus diikuti oleh Tuan Rogers.

Skor Yang Diperoleh

peringkat persentil dari dua siswa ini adalah 82.

Skor Mentah Frekuensi Frekuensi Pangkat

Skor Yang Akan Digunakan?

Referensi Normal vs. Referensi-Standar Instrumen

Instrumen Refensi Normal

Referensi-kriteria: Seorang siswa. . .

 Diucapkan setiap kata dalam daftar ejaan mingguan dengan benar.

Referensi normal: Seorang siswa. . .

 mencetak gol pada persentil ke-50 di grupnya.

Gambar 7.25 Empat Jenis Skala Pengukuran

Gambar 7.26 Skala Pengukuran Nominal

Gambar 7.27 Skala Ordinal: Hasil dari Perlombaan Kuda

Untuk menggambarkan lebih lanjut, pertimbangkan skor IQ yang biasa digunakan.

Skala Pengukuran Yang Dipertimbangkan

Peneliti sekarang dapat memutuskan untuk memperlakukan skor sebagai data

Mempersiapkan Data untuk Analisis

Penilaian tes yang dikembangkan sendiri dapat menghasilkan kesulitan, dan

Memberitahu Dan Memododasi Data

Pentingnya Instrumen Valid

Kualitas instrumen yang digunakan dalam penelitian sangat penting, karena

Validitas mengacu pada kesesuaian, kebermaknaan, kebenaran, dan kegunaan

Bukti Yang Berkaitan Dengan Konten

Untuk mengilustrasikan bagaimana seorang peneliti dapat mencoba membangun