INTERNAL
Disusun Oleh
Pixyoriza 1923021022
Dosen Pengampu
Dr. Sri Hastuti Noer, M.Pd
Istilah data mengacu pada jenis informasi yang diperoleh peneliti pada subjek
penelitian mereka. Informasi demografis, seperti usia, jenis kelamin, etnis, agama,
dan sebagainya, adalah satu jenis data; skor dari tersedia secara komersial atau tes
yang disiapkan peneliti adalah hal lain. Tanggapan terhadap pertanyaan peneliti
dalam wawancara lisan atau balasan tertulis untuk kuesioner survei adalah jenis lain.
Esai yang ditulis oleh siswa, nilai rata-rata poin yang diperoleh dari catatan sekolah,
catatan kinerja yang disimpan oleh pelatih, catatan anekdot yang dikelola oleh guru
atau penasihatsemua merupakan berbagai jenis data yang mungkin ingin
dikumpulkan oleh peneliti sebagai bagian dari penyelidikan penelitian. Oleh karena
itu, keputusan penting yang harus diambil oleh setiap peneliti selama tahap
perencanaan penyelidikan adalah jenis data apa yang ingin ia kumpulkan. Perangkat
(seperti tes pensil dan kertas, kuesioner, atau skala penilaian) yang digunakan peneliti
untuk mengumpulkan data disebut instrumen. *
Pertanyaan Utama
Semua pertanyaan di atas penting bagi peneliti untuk dijawab, oleh karena itu,
sebelum mereka mulai mengumpulkan data yang mereka butuhkan. Keputusan
peneliti tentang lokasi, waktu, frekuensi, dan administrasi selalu dipengaruhi oleh
jenis instrumen yang akan digunakan. Dan untuk itu dari nilai apa pun, setiap
instrumen, apa pun jenisnya, harus memungkinkan para peneliti untuk menarik
kesimpulan yang akurat tentang kemampuan atau karakteristik lain dari orang yang
dipelajari.
Definisi yang sering digunakan (tapi agak kuno) tentang instrumen yang valid adalah
bahwa instrumen itu mengukur apa itu seharusnya mengukur. Definisi yang lebih
akurat tentang Validitas berkisar pada defensibilitas inferensi yang dibuat peneliti
dari data yang dikumpulkan menggunkaan instrumen. Bagaimanapun, instrumen
adalah perangkat yang digunakan untuk mengumpulkan data. Para peneliti kemudian
menggunakan data ini untuk membuat kesimpulan tentang karakteristik individu-
individu tertentu. * Tetapi untuk keperluan apa pun, kesimpulan ini harus benar.
Semua peneliti, oleh karena itu, menginginkan instrumen yang memungkinkan
mereka untuk menarik kesimpulan yang valid, atau valid, tentang karakteristik
(kemampuan, prestasi, sikap, dan sebagainya) dari individu yang mereka pelajari.
Pertimbangan kedua adalah reliabilitas. Instrumen yang andal adalah instrumen yang
memberikan hasil yang konsisten. Jika sebuah Peneliti menguji pencapaian
matematika dari sekelompok individu pada dua atau lebih waktu yang berbeda,
misalnya, ia harus berharap untuk mendapatkan hasil yang sama. setiap kali.
Konsistensi ini akan memberi peneliti rasa percaya bahwa hasil sebenarnya mewakili
pencapaian individu yang terlibat. Seperti halnya validitas, sejumlah prosedur dapat
digunakan untuk menentukan keandalan suatu instrumen. Kami membahas beberapa
di antaranya dalam Bab 8. Pertimbangan terakhir adalah objektivitas. Objektivitas
mengacu pada tidak adanya penilaian subyektif. Kapanpun mungkin Namun, para
peneliti harus mencoba menghilangkan subjektivitas dari penilaian yang mereka buat
tentang prestasi,kinerja, atau karakteristik subjek. Sayangnya, objektivitas lengkap
mungkin tidak pernah tercapai.
Kami membahas masing-masing konsep ini secara lebih rinci dalam Bab 8. Dalam
bab ini, kami melihat beberapa jenis instrumen yang dapat (dan sering) digunakan
dalam penelitian dan membahas cara menemukan dan memilihnya.
Usabilitas
Sejumlah pertimbangan praktis dihadapi setiap peneliti. Salah satunya adalah betapa
mudahnya menggunakan instrumen apa pun yang ia desain atau pilih. Berapa lama
untuk mengelola? Apakah arahannya jelas? Apakah pantas untuk etnis atau kelompok
lain yang akan diadministrasikan? Seberapa mudah untuk mencetak gol? menafsirkan
hasil? Berapa harganya? Lakukan formulir yang setara ada? Apakah ada masalah
yang dilaporkan oleh orang lain yang menggunakannya? Apakah bukti keandalan dan
validitasnya ada? Mendapatkan jawaban yang memuaskan untuk pertanyaan-
pertanyaan semacam itu dapat menghemat banyak waktu dan energi bagi seorang
peneliti dan dapat mencegah banyak sakit kepala.
Instrumen dapat diklasifikasikan dalam beberapa cara. Berikut ini beberapa yang
paling berguna.
1. Instrumen peneliti
Seorang peneliti yang tertarik dalam pembelajaran dan pengembangan
memori menghitung berapa kali anak-anak sekolah pembibitan berbeda untuk
belajar menavigasi jalan mereka dengan benar melalui labirin yang terletak di
taman bermain sekolah mereka. Dia mencatat temuannya pada lembar
penghitungan.
Seorang peneliti yang tertarik pada konsep saling tertarik menjelaskan dalam
catatan lapangan yang sedang berlangsung bagaimana perilaku orang yang
bekerja sama dalam berbagai pengaturan telah diamati berbeda pada variabel
ini.
2. Instrumen mata pelajaran
Seorang peneliti di sekolah dasar menyelenggarakan tes ejaan mingguan yang
mengharuskan siswa untuk mengeja dengan benar kata-kata baru yang
dipelajari di kelas selama seminggu.
Atas permintaan peneliti, administrator membagikan kuesioner selama rapat
fakultas
yang meminta pendapat fakultas tentang kurikulum matematika baru yang
baru-baru ini dilembagakan di distrik.
Seorang peneliti meminta guru-guru bahasa Inggris sekolah menengah agar
murid-murid mereka membuat catatan harian di mana mereka mencatat reaksi
mereka terhadap permainan yang mereka baca masing-masing minggu.
3. Instrumen informan
Seorang peneliti meminta para guru untuk menggunakan skala penilaian
untuk menilai setiap siswa mereka pada bacaan phonic mereka keterampilan.
Seorang peneliti meminta orang tua untuk menyimpan catatan anekdotal yang
menggambarkan karakter TV anak-anak prasekolah mereka secara spontan.
Seorang peneliti mewawancarai presiden dewan siswa tentang pandangan
siswa tentang kode disiplin sekolah. Tanggapannya dicatat pada jadwal
wawancara.
Gambar 7.2 Dokumen Pencocokan dari ERIC Cari “Instrumen Studi Sosial”
Sumber: Dari ERIC (Pusat Informasi Sumber Daya Pendidik). Dapatkan kembali
dengan izin dari Departemen Pendidikan AS, dijalankan oleh Komputer Ilmu
Pengetahuan Corporation. www.eric.ed.gov
Gambar 7.3 Abstrak dari Database ERIC
Sumber: Dari ERIC (Pusat Informasi Sumber Daya Pendidik). Dapatkan kembali
dengan izin dari Departemen Pendidikan AS, dijalankan oleh Ilmu Komputer
Perusahaan. www.eric.ed.gov
Perhatikan bahwa mesin pencari yang kami jelaskan di Bab 5 dapat digunakan untuk
menemukan ERIC. Yang ingin Anda temukan adalah koleksi tes ERIC atas lebih dari
9.000 instrumen dari berbagai jenis, serta Buku Tahunan Pengukuran Mental.
Sekarang diproduksi oleh Institut Buros di Universitas Nebraska, * buku tahunan
diterbitkan setiap dua tahun sekali, dengan suplemen diproduksi di antara berbagai
isu. Setiap buku tahunan memberikan ulasan tentang tes standar yang telah
diterbitkan sejak edisi terakhir. The Institute's Tests in Print adalah daftar pustaka tes
komersial yang komprehensif. Sayangnya, hanya referensi ke instrumen dan ulasan
mereka yang tersedia online; instrumen itu sendiri hanya tersedia dalam bentuk
cetak.
Berikut adalah beberapa referensi lain yang dapat Anda baca yang berisi daftar
berbagai jenis instrumen:
T. E. Backer (1977). Direktori informasi tentang tes. Laporan ERIC TM 62-1977.
Princeton, NJ: ERIC Clearinghouse on Assessment and Evaluation, Layanan
Pengujian Pendidikan.
K. Corcoran dan J. Fischer (Eds.) (1994). Tindakan untuk praktik klinis (2
volume). New York: Pers Bebas.
Katalog koleksi tes ETS: Volume 1, Prestasi tes (1992); Volume 2, Tes Kejuruan
(1988); Volume 3, Tes untuk populasi khusus (1989); Volume 4, tes Kognitif,
bakat, dan kecerdasan (1990); Volume 5, Tindakan sikap (1991); Volume 6,
Tindakan afektif dan tes kepribadian (1992). Phoenix, AZ: Oryx Press.
E. Fabiano dan N. O'Brien (1987). Menguji sumber informasi untuk pendidik.
Laporan TME 94. Princeton, NJ: ERIC Clearinghouse on Assessment dan
Evaluasi, Layanan Pengujian Pendidikan. Sumber ini memperbarui Backer ke
1987, tetapi tidak komprehensif.
A. Goldman dan D. F. Mitchell (1974-1995). Direktori tindakan mental
eksperimental yang tidak dipublikasikan (6 volume). Washington, DC: Asosiasi
Psikologis Amerika.
M. Hersen dan A. S. Bellack (1988). Kamus teknik penilaian perilaku. New York:
Pergamon.
J. C. Impara dan B. S. Plake (1999). Buku tahunan pengukuran mental. Lincoln,
NE: Institut Buros, Universitas Nebraska.
S. E. Krug (diterbitkan dua kali setahun). Buku sumber Psychware. Austin, TX:
Pro-Ed, Inc. Direktori alat penilaian berbasis komputer, seperti tes, penilaian, dan
sistem interpretasi.
H. I. McCubbin dan A. I. Thompson (Eds.) (1987). Inventarisasi penilaian
keluarga untuk penelitian dan praktik. Madison, WI: Universitas Wisconsin –
Madison.
L. L. Murphy et al. (1999). Tes dicetak. Lincoln, NE: Institut Buros, Universitas
Nebraska.
R. C. Sweetland dan D. J. Keyser (Eds.) (1991). Tes: Referensi komprehensif
untuk penilaian di psikologi, pendidikan, dan bisnis, edisi ke-3. Kansas City, MO:
Test Corporation of America.
Dengan begitu banyak instrumen yang tersedia untuk komunitas penelitian, kami
merekomendasikan bahwa, kecuali dalam kasus yang tidak biasa, para peneliti
mencurahkan energi mereka untuk mengadaptasi (dan / atau meningkatkan) yang ada
sekarang daripada mencoba memulai dari awal untuk mengembangkan yang sama
sekali baru tindakan.
Cara lain untuk mengklasifikasikan instrumen adalah dari segi apakah mereka
memerlukan tanggapan tertulis atau nyata dari subjek atau evaluasi yang lebih umum
dari subyek ' kinerja. Instrumen tanggapan tertulis meliputi tes objektif (mis. Pilihan
ganda, benar salah, cocok, atau jawaban pendek), ujian esai pendek, pertanyaan-
naires, jadwal wawancara, skala penilaian, dan cek-daftar. Instrumen kinerja
mencakup perangkat apa pun yang dirancang untuk mengukur prosedur atau produk.
Prosedur adalah cara melakukan sesuatu, seperti mencampur solusi kimia,
mendiagnosis masalah dalam mobil, menulis surat, memecahkan teka-teki, atau
mengatur margin pada mesin tik. Produk adalah hasil akhir dari prosedur, seperti
larutan kimia yang tepat, diagnosis kerusakan otomatis yang benar, atau yang benar
huruf yang diketik. Instrumen kinerja dirancang untuk lihat apakah dan seberapa baik
prosedur dapat diikuti dan untuk menilai kualitas produk.
Ketika datang untuk mengelola instrumen yang akan digunakan dalam penelitian,
baik para peneliti (atau asisten mereka atau informan lainnya) harus melakukannya
sendiri, atau mereka harus mintalah subyek penelitian untuk memberikan informasi
diinginkan. Oleh karena itu, kami mengelompokkan instrumen dalam diskusi berikut
sesuai dengan apakah mereka dilengkapi oleh peneliti atau subyek. Contoh instrumen
ini meliputi
Perbedaan ini tentu saja tidak mutlak. Banyak instrumen yang kami daftarkan
mungkin, pada kesempatan tertentu, diisi oleh peneliti atau subjek dalam studi
tertentu.
Gambar 7.4 menunjukkan skala yang dirancang untuk menilai guru. Masalah dengan
skala peringkat ini adalah bahwa pengamat yang berbeda cenderung memiliki ide
yang berbeda tentang arti istilah yang diwakili oleh angka-angka tersebut (sangat
baik, rata-rata, dll.) Dengan kata lain, poin penilaian yang berbeda pada skala tidak
dijelaskan sepenuhnya. Oleh karena itu, individu yang sama dapat dinilai sangat
berbeda oleh dua pengamat yang berbeda. Satu jalan menuju mengatasi masalah ini
adalah memberi makna tambahan pada setiap angka dengan menjelaskannya lebih
lengkap. Misalnya, pada Gambar 7.4, peringkat 5 dapat didefinisikan sebagai "di
antara 5 persen teratas dari semua guru yang Anda miliki." tidak adanya definisi
seperti itu, peneliti harus mengandalkan pelatihan responden atau memperlakukan
peringkat sebagai pendapat subjektif.
Skala Penilaian Produk. Seperti yang kami sebutkan sebelumnya, peneliti mungkin
ingin menilai produk. Contoh produk yang sering dinilai dalam pendidikan adalah
laporan buku, peta dan bagan, diagram, gambar, buku catatan, esai, dan upaya kreatif
dari segala jenis. Sedangkan peringkat perilaku harus dilakukan pada waktu tertentu
(ketika peneliti dapat mengamati perilaku), keuntungan besar dari peringkat produk
adalah bahwa hal itu dapat dilakukan kapan saja. *
Gambar 7.6 Contoh dari Penilaian Produk Skala Sumber: Skala tulisan tangan
yang digunakan di California Achievement Tes, Formulir W (1957). CTB /
McGraw-Hill, Monterey, CA. Hak Cipta © 1957 oleh McGraw-Hill.
Gambar 7.6 menyajikan contoh skala penilaian peringkat produk “tulisan tangan” .
”Untuk menggunakan skala ini, sampel aktual tulisan tangan siswa adalah diperoleh.
Kemudian dipindahkan sepanjang skala sampai kualitas tulisan tangan dalam sampel
paling mirip dengan contoh yang ditunjukkan pada skala. Meskipun lebih dari 50
tahun, itu tetap menjadi contoh klasik dari jenis instrumen ini.
Jadwal Wawancara. Jadwal wawancara dan kuesioner pada dasarnya adalah jenis
instrumen yang sama — satu set pertanyaan yang harus dijawab oleh subjek
penelitian. Namun, ada beberapa perbedaan penting dalam cara pemberiannya.
Wawancara dilakukan secara lisan, dan jawaban atas pertanyaan dicatat oleh peneliti
(atau seseorang yang telah dilatihnya). Keuntungan dari instrumen ini adalah
pewawancara dapat mengklarifikasi pertanyaan yang tidak jelas dan juga dapat
meminta responden untuk memperluas jawaban yang sangat penting atau terbuka.
Kerugian besar, di sisi lain, adalah bahwa dibutuhkan jauh lebih lama daripada
kuesioner untuk diisi. Selain itu, kehadiran peneliti dapat menghambat responden
untuk mengatakan apa yang sebenarnya mereka pikirkan.
Apakah Anda menilai pembelajaran akademik siswa sebagai sangat baik, bagus, Gambar 7.7
adil, atau miskin?
Wawancara
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
murid Jadwal (untuk Guru)
pembelajaran akademik untuk tahun-tahun sebelumnya? Membicarakan
b. Tolong beri contoh spesifik.
untuk membicarakan
2. Apakah Anda menilai sikap murid terhadap sekolah secara umum?
luar biasa, bagus, adil, atau miskin? Pengaruh
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan Kompetensi-
murid
Kurikulum Berbasis
Sikap terhadap sekolah pada umumnya untuk tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik. di
3. Apakah Anda menilai sikap siswa terhadap pembelajaran sangat baik, Sekolah Dalam Kota
baik, adil, atau miskin?
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
sikap terhadap pembelajaran ke tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik.
4. Apakah Anda menilai sikap murid terhadap diri sendiri sangat baik, baik,
adil, atau miskin?
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
murid
sikap terhadap diri untuk tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik.
5. Apakah Anda menilai sikap siswa terhadap siswa lain?
luar biasa, bagus, adil, atau miskin?
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
sikap terhadap siswa lain untuk tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik.
6. Apakah Anda menilai sikap murid terhadap Anda sangat baik, baik,
adil, atau miskin?
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
murid
Sikap terhadap Anda untuk tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik.
7. Apakah Anda menilai kreativitas murid-ekspresi diri sebagai sangat baik,
baik, adil, atau miskin?
Sebuah. Jika Anda berada di sini tahun lalu, bagaimana Anda membandingkan
murid
kreativitas – ekspresi diri pada tahun-tahun sebelumnya?
b. Tolong beri contoh spesifik.
Awalnya, formulir observasi harus selalu digunakan dasar percobaan dalam situasi
yang mirip dengan yang akan diamati untuk mengatasi bug atau ambiguitas.
Kelemahan yang sering terjadi dalam banyak bentuk observasi adalah mereka
bertanya pengamat mencatat lebih banyak perilaku daripada yang bisa dilakukan
akurat (atau menonton terlalu banyak individu sekaligus waktu). Seperti yang sering
terjadi, semakin sederhana instrumen, semakin baik.
Diagram alir. Jenis lembar penghitungan tertentu adalah bagan alur partisipasi.
Diagram alir sangat membantu dalam menganalisis diskusi kelas. Baik jumlah dan
arah komentar siswa dapat dipetakan untuk mendapatkan beberapa gagasan tentang
kuantitas dan fokus partisipasi verbal siswa di kelas.
Salah satu cara termudah untuk melakukan ini adalah menyiapkan grafik tempat
duduk di mana sebuah kotak ditarik untuk setiap siswa di kelas yang diamati.
Penghitungan kemudian ditempatkan di dalam kotak siswa tertentu setiap kali dia
membuat komentar verbal. Untuk menunjukkan arah komentar masing-masing siswa,
panah dapat diambil dari kotak siswa yang memberikan komentar ke kotak siswa
yang kepadanya komentar diarahkan. Gambar 7.10 menggambarkan seperti apa
diagram alir itu nantinya. Bagan ini menunjukkan bahwa Robert, Felix, dan Mercedes
mendominasi diskusi, dengan kontribusi dari Al, Gail, Jack, dan Sam. Joe dan Nancy
tidak mengatakan apa-apa. Perhatikan bahwa diskusi selanjutnya, atau Namun, topik
yang berbeda mungkin mengungkapkan hal yang sangat berbeda pola.
Gambar 7.10 Partisipasi Flow chart Sumber: Diadaptasi dari Henokh I. Sawin
(1969). Evaluasi dan pekerjaan guru Belmont, CA: Wadsworth, p. 179. Izin ulang
atas Izin Sage Penerbit, Inc.
Daftar Periksa Kinerja. Salah satu instrumen pengukuran yang paling sering
digunakan adalah daftar periksa. Daftar periksa kinerja terdiri dari daftar perilaku
yang membentuk jenis kinerja tertentu (menggunakan mikroskop, mengetik huruf,
memecahkan masalah matematika, dan sebagainya). Ini digunakan untuk menentukan
apakah seseorang berperilaku dengan cara tertentu (biasanya diinginkan) ketika
diminta untuk menyelesaikan tugas tertentu. Jika perilaku tertentu hadir ketika
seseorang diamati, peneliti menempatkan tanda centang di sebelahnya pada daftar.
Catatan Pengalaman Pribadi. Cara lain untuk merekam perilaku individu adalah
catatan Pengalaman Pribadi. Itulah yang tersirat dari namanya sebuah catatan tentang
yang diamati perilaku yang ditulis dalam bentuk anekdot. Tidak ada format yang
ditetapkan; alih-alih, pengamat bebas mencatat perilaku apa pun yang menurut
mereka penting dan tidak perlu fokus pada perilaku yang sama untuk semua mata
pelajaran. Namun, untuk menghasilkan catatan yang paling berguna, pengamat harus
berusaha sespesifik dan se faktual mungkin dan untuk menghindari komentar yang
evaluatif, interpretatif, atau terlalu umum. American Council on Education
menggambarkan empat jenis anekdot, yang menyatakan bahwa tiga yang pertama
harus dihindari. Hanya tipe keempat yang diinginkan.
1. Pengalaman Pribadi. yang mengevaluasi atau menilai perilaku anak sebagai baik
atau buruk, diinginkan atau tidak diinginkan, dapat diterima atau tidak dapat
diterima. . . pernyataan evaluatif (harus dihindari).
2. Pengalaman Pribadi. yang menjelaskan atau menjelaskan perilaku anak, biasanya
berdasarkan satu fakta atau tesis. . . pernyataan interpretatif (harus dihindari).
3. Pengalaman Pribadi. yang menggambarkan perilaku tertentu secara umum
istilah, seperti yang sering terjadi, atau sebagai ciri anak. . . pernyataan umum
(harus dihindari).
4. Pengalaman Pribadi. yang menceritakan dengan tepat apa yang dilakukan atau
dikatakan anak itu, yang menggambarkan secara konkret situasi di mana tindakan
atau komentar itu terjadi, dan yang memberi tahu dengan jelas apa yang juga
dilakukan atau dikatakan orang lain. . . spesifik atau pernyataan deskriptif konkret
(tipe yang diinginkan).
Berikut adalah contoh masing-masing dari keempat jenis.
Evaluatif: Julius berbicara keras dan banyak selama puisi; ingin melakukan dan
mengatakan apa yang dia inginkan dan tidak mempertimbangkan hak untuk
menyelesaikan sesuatu. Harus memintanya duduk di sampingku. Menunjukkan sikap
buruk tentang hal itu.
Penafsiran: Selama seminggu terakhir Sammy telah menjadi ekor yang sempurna.
Dia tumbuh sangat cepat sehingga dia tidak bisa tenang. . . . Tentu saja perubahan
batin
yang terjadi menyebabkan kegelisahan.
Umum: Sammy sangat gelisah akhir-akhir ini. Dia berbisik sebagian besar waktu dia
tidak sibuk. Di dalam lingkaran, selama berbagai diskusi, meskipun dia tertarik,
lengannya bergerak atau dia meninju orang yang duduk di sebelahnya. Dia tersenyum
ketika aku berbicara dengannya.
Spesifik (jenis yang diinginkan): Cuaca sangat dingin sehingga kami tidak bermain di
taman bermain hari ini. Anak-anak bermain di dalam kamar selama periode istirahat
reguler. Andrew dan Larry memilih sisi untuk permainan yang dikenal sebagai
mencuri daging. Saya sedang berbicara dengan sekelompok anak-anak di depan
ruangan sementara pemilihan sedang dalam proses dan suatu saat saya mendengar
pertengkaran keras. Larry mengatakan semua yang diinginkan anak-anak untuk
berada di pihak Andrew daripada di pihaknya. Andrew berkomentar, “Saya tidak
dapat membantu jika mereka semua ingin berada di pihak saya.” 2
Almarhum Hilda Taba, seorang pelopor dalam evaluasi pendidikan, pernah mengutip
contoh seorang guru kelas empat yang percaya bahwa kelambanan kelasnya
disebabkan oleh fakta bahwa mereka sangat teliti dalam pekerjaan mereka. Untuk
memeriksanya, ia memutuskan untuk melakukan studi waktu-dan-gerak yang
terperinci dari seorang siswa. Hasil studinya menunjukkan bahwa siswa ini, bukannya
terlalu teliti, sebenarnya tidak bisa memusatkan perhatiannya pada tugas tertentu
untuk apa pun periode waktu bersama. Gambar 7.12 menggambarkan apa dia
mengamati.
Instrumen Perlengkapan
Daftar Periksa Sendiri. Daftar periksa diri adalah daftar beberapa karakteristik atau
kegiatan yang disajikan kepada subjek belajar. Individu diminta untuk mempelajari
daftar dan kemudian untuk menempatkan tanda yang berlawanan memiliki atau
kegiatan di mana mereka telah bertunangan jangka waktu tertentu. Daftar periksa diri
sering digunakan ketika peneliti ingin siswa untuk mendiagnosis atau menilai kinerja
mereka sendiri.
Skala Sikap. Asumsi dasar yang mendasari semua skala sikap adalah bahwa adalah
mungkin untuk menemukan sikap dengan meminta individu untuk merespons
serangkaian pernyataan preferensi. Jadi, jika individu setuju dengan pernyataan,
"Kursus dalam filsafat harus diminta dari semua kandidat untuk mandat mengajar,"
peneliti menyimpulkan bahwa siswa ini memiliki sikap positif terhadap kursus seperti
itu (dengan asumsi siswa di bawah karakteristik mereka berdiri makna pernyataan itu
dan tulus dalam tanggapan mereka). Skala sikap, oleh karena itu, terdiri dari
seperangkat pernyataan yang ditanggapi individu. Itu pola tanggapan kemudian
dipandang sebagai bukti adanya satu atau lebih banyak sikap yang mendasarinya.
Skala sikap sering serupa dengan skala penilaian di formulir, dengan kata-kata dan
angka ditempatkan pada sebuah kontinum. Subjek melingkari kata atau angka yang
paling mewakili bagaimana perasaan mereka tentang topik yang termasuk dalam
pertanyaan atau pernyataan dalam skala. Skala sikap yang umum digunakan dalam
penelitian pendidikan adalah skala Likert, dinamai sesuai dengan orang yang
mendesainnya.
Semacam skala sikap unik yang sangat berguna untuk penelitian kelas adalah
perbedaan semantik Ini memungkinkan peneliti untuk mengukur sikap subjek
terhadap konsep tertentu. Subjek disajikan dengan rangkaian beberapa kata sifat
(baik-buruk, dingin-panas, tidak ternilai harganya, dan sebagainya) dan diminta untuk
menempatkan tanda centang di antara setiap pasangan untuk menunjukkan sikap
mereka. Gambar 7.15 menyajikan contoh.
Skala yang memiliki nilai tertentu untuk menentukan sikap anak-anak muda
menggunakan wajah yang hanya digambarkan. Ketika subjek penelitian sikap adalah
anak-anak sekolah dasar atau lebih muda, mereka dapat diminta untuk menempatkan
X di bawah wajah, seperti yang ditunjukkan pada Gambar 7.16, untuk menunjukkan
bagaimana perasaan mereka tentang suatu topik.
Gambar 7.16 Skala Sikap Bergambar untuk Digunakan bersama Anak Kecil
Subjek skala sikap dibahas agak luas dalam literatur tentang evaluasi dan
pengembangan tes, dan siswa yang tertarik dalam perawatan yang lebih luas harus
berkonsultasi dengan buku teks standar tentang ini subyek.
Persediaan Kepribadian (atau Karakter). Inventaris kepribadian dirancang untuk
mengukur sifat-sifat individu tertentu atau untuk menilai perasaan mereka tentang diri
mereka sendiri. Contoh-contoh dari inventaris tersebut termasuk Inventori
Kepribadian Multiphasic Minnesota, Skala Kecemasan IPATA, Skala Konsep Diri
Anak-Anak Piers-Harris (Bagaimana Saya Merasa Tentang Saya), dan Catatan
Preferensi Kuder. Gambar 7.17 mencantumkan beberapa item khas dari jenis tes ini.
Item spesifik, tentu saja, mencerminkan variabel alamat inventaris.
Gambar 7.17 Item Sampel dari Inventaris Kepribadian
Tes bakat dimaksudkan untuk mengukur potensi seseorang untuk mencapai; dalam
kenyataannya, mereka mengukur keterampilan atau kemampuan saat ini. Mereka
berbeda dari tes prestasi dalam tujuan mereka dan sering dalam konten, biasanya
termasuk beragam keterampilan atau pengetahuan. Tes yang sama bisa berupa bakat
atau prestasi
Banyak tes kecerdasan memberikan bukti yang andal dan valid ketika digunakan
dengan jenis individu tertentu dan untuk tujuan tertentu (misalnya, memprediksi nilai
perguruan tinggi dari Kaukasia kelas menengah). Di sisi lain, mereka semakin
diserang bila digunakan dengan orang lain atau untuk tujuan lain (seperti
mengidentifikasi anggota kelompok minoritas tertentu yang meningkatkan pengakuan
yang gagal dilakukan sebagian besar tes intelijen mengukur banyak kemampuan
penting, termasuk kemampuan untuk mengidentifikasi atau membuat konsep
hubungan yang tidak biasa. Akibatnya, peneliti harus sangat berhati-hati dalam
mengevaluasi tes semacam itu sebelum menggunakannya dan harus menentukan
apakah tes tersebut sesuai untuk tes tersebut tujuan penelitian. (Kami membahas
beberapa cara untuk melakukan ini ketika kita mempertimbangkan validitas pada Bab
8.)
Tes Kinerja. Seperti yang telah kami sebutkan, tes kinerja mengukur kinerja individu
pada tugas tertentu. Contohnya adalah tes pengetikan, di mana skor individu
ditentukan oleh seberapa akurat dan seberapa cepat orang mengetik.
Seperti yang disarankan Sawin, tidak selalu mudah untuk menentukan apakah
instrumen tertentu harus disebut tes kinerja, daftar periksa kinerja, atau skala
peringkat kinerja. 6 Tes kinerja adalah yang paling objektif dari ketiganya. Ketika
sejumlah pertimbangan diperlukan untuk menentukan apakah berbagai aspek kinerja
dilakukan dengan benar, perangkat kemungkinan akan diklasifikasikan sebagai daftar
periksa atau skala peringkat. Gambar 7.21 menggambarkan tes kinerja dikembangkan
lebih dari 60 tahun yang lalu untuk mengukur menjahit kemampuan. Dalam tes ini,
individu diminta untuk menjahit garis di bagian A dari tes, dan di antara garis pada
bagian B dari tes.
Gambar 7.21 Contoh dari the Blum Sewing Uji Mesin
Sumber: ML Blum. Pilihan dari operator mesin jahit. Jurnal Psikologi Terapan, 27
(1): 36. Hak cipta 1943 oleh Psikologi Amerika Asosiasi. Diproduksi ulang dengan
Izin.
Versi lain dari perangkat sosiometrik adalah permainan kelompok. Siswa diminta
untuk memainkan anggota yang berbeda dari kelompok mereka dalam berbagai peran
dalam permainan untuk menggambarkan hubungan interpersonal mereka. Peran-
peran itu terdaftar di selembar kertas, dan kemudian anggota kelompok diminta untuk
menulis atas nama siswa yang menurut mereka setiap peran paling baik dijelaskan.
Hampir semua jenis peran dapat disarankan. Pilihan-pilihan casting yang dibuat
individu sering kali memberi titik terang pada bagaimana beberapa individu dilihat
oleh orang lain. Gambar 7.24 menyajikan contoh perangkat ini.
Format Item. Meskipun jenis item atau pertanyaan yang digunakan dalam instrumen
yang berbeda dapat mengambil banyak bentuk, setiap item dapat diklasifikasikan
sebagai item pilihan atau item persediaan. Item pilihan menyajikan serangkaian
tanggapan yang memungkinkan dari mana responden memilih jawaban yang paling
tepat. Item persediaan, di sisi lain, meminta responden untuk merumuskan dan
kemudian memberikan jawaban mereka sendiri. Berikut ini beberapa contoh masing-
masing jenis.
Item Pilihan. Benar-salah item: Benar-salah item menyajikan pernyataan benar atau
salah, dan responden harus menandai benar (T) atau salah (F). Variasi yang sering
digunakan dari kata-kata benar dan salah adalah ya-tidak atau benar-salah, yang
sering lebih berguna ketika mencoba untuk mempertanyakan atau mewawancarai
anak-anak kecil. Ini adalah contoh item benar-salah.
T F Saya menjadi sangat gugup setiap kali harus berbicara di depan umum.
Item pilihan ganda: Item pilihan ganda terdiri dari dua bagian: batang, yang berisi
pertanyaan, dan beberapa (biasanya empat) pilihan yang memungkinkan. Berikut ini
sebuah contoh:
Manakah dari berikut ini yang menyatakan pendapat Anda tentang aborsi?
a. Sebuah. Itu tidak bermoral dan harus dilarang.
b. Itu harus dicegah tetapi diizinkan dalam keadaan yang tidak biasa.
c. Ini harus tersedia dalam berbagai kondisi.
d. Ini sepenuhnya masalah pilihan individu.
Item yang cocok: Item yang cocok adalah variasi dari format pilihan ganda. Mereka
terdiri dari dua kelompok tercantum dalam kolom — kolom sebelah kiri yang berisi
pertanyaan atau item untuk dipikirkan dan kolom sebelah kanan berisi kemungkinan
tanggapan terhadap pertanyaan- pertanyaan tersebut. Responden memasangkan
pilihan dari kolom kanan dengan pertanyaan atau item yang sesuai di kolom sebelah
kiri. Berikut ini sebuah contoh:
Petunjuk: Untuk setiap item di kolom sebelah kiri, pilih
item di kolom kanan yang mewakili reaksi pertama Anda. Tempatkan huruf
yang sesuai di tempat kosong. Setiap item berhuruf dapat digunakan lebih dari
sekali atau tidak sama sekali.
Kolom A Kolom B
Contoh 1.
Petunjuk: Baca komentar berikut yang dibuat oleh seorang guru tentang
pengujian. Kemudian jawab pertanyaan yang mengikuti komentar dengan
melingkari surat jawaban terbaik. “Siswa pergi ke sekolah untuk belajar, bukan
untuk mengambil tes. Selain itu, tes tidak dapat digunakan untuk menunjukkan
mutlak siswa tingkat pembelajaran. Semua tes dapat dilakukan adalah membuat
peringkat siswa pencapaian, dan peringkat relatif ini dipengaruhi oleh menebak,
menggertak, dan opini subjektif dari guru melakukan penilaian. Proses belajar-
mengajar akan mendapat manfaat jika kita tidak mengikuti tes dan bergantung
pada evaluasi diri siswa. "
1. Yang mana dari asumsi tidak tertulis berikut ini pembuatan guru ini?
a. Siswa pergi ke sekolah untuk belajar.
b. Guru menggunakan tes esai terutama.
c. Tes tidak memberikan kontribusi untuk pembelajaran.
d. Tes tidak menunjukkan tingkat pembelajaran absolut siswa.
Paragraf A
Kira-kira satu minggu sebelum ujian diberikan, Tn. Smith dengan hati-hati
membaca buku pelajaran dan membuat item pilihan ganda berdasarkan materi
dalam buku tersebut. Dia selalu menggunakan kata-kata yang tepat dari buku
teks untuk jawaban yang benar sehingga akan ada tidak ada pertanyaan
tentang kebenarannya. Dia berhati-hati untuk memasukkan beberapa item tes
dari setiap bab. Setelah tes diberikan, dia daftar skor dari tinggi ke rendah di
papan tulis dan memberitahu setiap siswa skornya. Dia tidak mengembalikan
kertas tes kepada siswa, tetapi ia menawarkan untuk menjawab pertanyaan
apa pun yang mungkin mereka miliki tentang tes. Dia menempatkan barang-
barang dari setiap tes ke dalam file tes, yang dia bangun untuk digunakan di
masa depan.
Pernyataan tentang Paragraf A
(T) 1. Tes Mr. Smith mengukur berbagai hasil pembelajaran yang terbatas.
(F) 2. Beberapa item tes Mr. Smith diukur pada tingkat pemahaman.
(N)3.Tes Tn. Smith mengukur sampel materi pelajaran yang seimbang.
(N) 4.Tn. Smith menggunakan jenis item tes yang terbaik untuk tujuannya.
(T) 5. Siswa dapat menentukan di mana peringkat mereka dalam distribusi
skor pada tes Mr. Smith.
(F) 6. Praktik pengujian Mr. Smith kemungkinan akan memotivasi siswa
untuk mengatasi kelemahan mereka.
Barang Persediaan. Item jawaban singkat: Item jawaban pendek
mengharuskan responden untuk memberikan kata, frasa, angka, atau simbol
yang diperlukan untuk melengkapi pernyataan atau menjawab pertanyaan.
Berikut ini sebuah contoh:
Petunjuk Arah: Di tempat yang disediakan, tulis kata yang paling melengkapi
kalimat.
Ketika jumlah item dalam tes meningkat,…….. skor pada tes cenderung
meningkat.
(Jawab: keandalan.)
Item jawaban pendek memiliki satu kelemahan utama: Biasanya sulit untuk menulis
item jawaban pendek sehingga hanya satu kata yang menyelesaikannya dengan benar.
Dalam pertanyaan di atas, misalnya, banyak siswa mungkin berpendapat bahwa
kisaran kata juga akan benar.
Pertanyaan esai: Pertanyaan esai adalah salah satu yang diminta responden untuk
ditulis panjang lebar. Seperti halnya pertanyaan jawaban pendek, subjek harus
menghasilkan jawaban mereka sendiri. Namun, secara umum, mereka bebas
menentukan bagaimana menjawab pertanyaan, fakta apa yang akan disajikan, yang
mana untuk ditekankan, interpretasi apa yang harus dibuat, dan sejenisnya. Untuk
alasan ini, pertanyaan esai adalah perangkat yang sangat berguna untuk menilai
individu kemampuan untuk mengatur, mengintegrasikan, menganalisis, dan
mensintesis informasi. Ini sangat berguna dalam mengukur hasil pembelajaran tingkat
tinggi yang disebut, seperti analisis, sintesis, dan evaluasi. Berikut adalah dua contoh
pertanyaan esai:
Contoh 1
Tuan Rogers, seorang guru sains kelas sembilan, ingin mengukur "kemampuan siswa
untuk menafsirkan data ilmiah" dengan siswa tes kertas dan pensil.
Contoh 2
Untuk kursus yang Anda ajarkan atau harapkan untuk diajarkan, menyiapkan rencana
lengkap untuk mengevaluasi prestasi siswa. Pastikan untuk memasukkan prosedur
yang akan Anda ikuti, instrumen yang akan Anda gunakan, dan alasannya untuk
pilihan Anda.
Tindakan-Tindakan Yang Tidak Menarik
Banyak instrumen membutuhkan kerja sama responden dalam satu atau lain cara dan
melibatkan beberapa jenis intrusi ke dalam kegiatan yang sedang berlangsung.
Kadang-kadang, responden akan tidak suka atau bahkan tidak suka diuji, diamati,
atau diwawancarai. Selanjutnya, reaksi responden terhadap proses instrumentasi —
yaitu, untuk diuji, diamati, atau diwawancarai — sering, pada tingkat tertentu, akan
memengaruhi sifat informasi yang diperoleh peneliti. Dalam kebanyakan kasus, tidak
ada instrumen yang diperlukan, hanya beberapa bentuk pencatatan. Berikut adalah
beberapa contoh prosedur tersebut:
Tingkat ketakutan yang disebabkan oleh sesi bercerita hantu dapat diukur
dengan mencatat diameter yang menyusut dari lingkaran anak-anak yang
duduk.
Penarikan perpustakaan dapat digunakan untuk menunjukkan efek dari
pengenalan unit baru pada sejarah Cina dalam kurikulum studi sosial.
Minat anak-anak pada hari Natal atau hari libur lainnya mungkin ditunjukkan
oleh jumlah distorsi dalam ukuran gambar mereka Santa Claus atau tokoh
liburan lainnya.
Sikap rasial di dua sekolah dasar mungkin dibandingkan dengan mencatat
tingkat pengelompokan anggota berbagai kelompok etnis di ruang makan
siang dan di taman bermain.
Nilai-nilai yang dipegang oleh orang-orang dari berbagai negara dapat
dibandingkan dengan menganalisis berbagai jenis bahan yang diterbitkan,
seperti buku teks, drama, buku pegangan untuk organisasi pemuda, iklan
majalah. tisements, dan berita utama surat kabar.
Beberapa gagasan tentang perhatian yang dibayarkan kepada pasien di rumah
sakit mungkin ditentukan dengan mengamati frekuensi catatan, baik yang
informal maupun yang diperlukan, yang dibuat dengan menghadiri perawat di
catatan tempat tidur pasien.
Tingkat stres yang dirasakan oleh mahasiswa mungkin dinilai dengan
memperhatikan sifat dan frekuensi kunjungan sakit ke pusat kesehatan
kampus. Sikap siswa terhadap, dan minat pada, berbagai topik dapat dicatat
dengan mengamati jumlah grafiti tentang topik-topik yang ditulis di dinding
sekolah.
Banyak variabel yang menarik dapat dinilai, setidaknya sampai taraf tertentu,
melalui penggunaan langkah-langkah yang tidak mencolok. Keandalan dan validitas
kesimpulan berdasarkan seperti itu tindakan akan bervariasi tergantung pada prosedur
yang digunakan. Namun demikian, langkah-langkah yang tidak mencolok menambah
penting dan dimensi yang berguna untuk berbagai sumber data yang mungkin
tersedia untuk peneliti. Mereka sangat berharga sebagai pelengkap wawancara dan
kuesioner, seringkali menyediakan cara yang berguna untuk menguatkan (atau
bertentangan) apa yang diungkapkan oleh sumber data yang lebih tradisional ini.
Jenis Skor
Data kuantitatif biasanya dilaporkan dalam bentuk skor. Skor dapat dilaporkan dalam
banyak cara, tetapi perbedaan penting untuk dipahami adalah perbedaan antara skor
mentah dan skor turunan.
Skor Baku
Hampir semua pengukuran dimulai dengan apa yang disebut skor mentah, yang
merupakan skor awal yang diperoleh. Ini mungkin jumlah total item yang seseorang
peroleh dengan benar atau menjawab dengan cara tertentu pada suatu tes, berapa kali
perilaku tertentu dihitung, peringkat yang diberikan oleh seorang guru, dan
sebagainya. Contohnya termasuk jumlah pertanyaan yang dijawab dengan benar pada
tes sains, jumlah pertanyaan yang dijawab "positif" pada skala sikap, berapa kali
perilaku "agresif" diamati, peringkat guru pada ukuran "harga diri", atau jumlah
pilihan yang diterima pada sosiogram.
Diambil dengan sendirinya, skor mentah individu sulit untuk ditafsirkan, karena
memiliki sedikit makna. Apa, misalnya, artinya mengatakan bahwa seorang siswa
menerima skor 62 pada menguji apakah itu semua informasi yang Anda miliki?
Bahkan jika Anda tahu bahwa ada 100 pertanyaan dalam tes, Anda tidak tahu apakah
62 adalah skor yang sangat tinggi (atau sangat rendah), karena tesnya mungkin
mudah atau sulit.
Kami sering ingin tahu bagaimana skor mentah satu orang dibandingkan dengan skor
orang lain yang mengikuti tes yang sama, dan (mungkin) bagaimana ia mencetak skor
pada tes serupa yang dilakukan pada waktu lain. Ini benar setiap kali kita ingin
menafsirkan skor individu. Karena skor mentah sendiri sulit untuk ditafsirkan,
mereka sering dikonversi menjadi apa yang disebutskor turunan.
Skor yang diperoleh dengan mengambil skor mentah dan mengubahnya menjadi skor
yang lebih bermanfaat pada beberapa jenis dasar standar. Mereka menunjukkan
tempat tertentu skor mentah individu jatuh dalam kaitannya dengan semua skor
mentah lainnya dalam distribusi yang sama. Mereka memungkinkan seorang peneliti
untuk mengatakan seberapa baik kinerja individu dibandingkan dengan semua orang
lain yang mengambil tes yang sama. Contoh skor turunan adalah ekuivalen tingkat
usia dan tingkat kelas, peringkat persentil, dan skor standar.
Setara dengan Tingkat Usia dan Tingkat Level. Skor usia-setara dan skor setara-kelas
memberi tahu kita berapa usia atau nilai skor individu adalah khas. Misalkan,
misalnya, bahwa skor rata-rata pada tes aritmatika awal-tahun untuk semua siswa
kelas delapan di negara bagian tertentu adalah 62 dari 100 yang mungkin. Siswa yang
mendapat skor 62 akan memiliki nilai yang setara dengan 8,0 pada tingkat uji terlepas
dari penempatan kelas mereka yang sebenarnya — baik di kelas enam, tujuh, delapan,
sembilan, atau sepuluh, kinerja siswa adalah tipikal dari mulai kelas
delapan.Sebenarnya, seorang siswa yang berusia 10 tahun dan 6 bulan dapat memiliki
skor setara usia 12-2, yang berarti bahwa kinerja tesnya adalah khas siswa yang
berusia 12 tahun dan 2 bulan. Peringkat Persentil. Peringkat persentil mengacu pada
persentase individu yang mencetak pada atau di bawah skor mentah yang diberikan.
Peringkat persentil kadang-kadang disebut sebagai persentil, meskipun istilah ini
tidak sepenuhnya benar sebagai sinonim.*
Peringkat persentil mudah dihitung. Rumus sederhana untuk mengonversi skor
mentah ke peringkat persentil (Pr) adalah sebagai berikut:
skor siswa+banyak siswa
Pr = 𝑥 100
total siswa
Misalkan total 100 siswa mengikuti ujian, dan 18 dari mereka menerima skor mentah
di atas 85, sementara dua siswa menerima skor 85. Delapan siswa, kemudian, skor di
suatu tempat di bawah 85. Berapa peringkat persentasi dari dua siswa yang menerima
skor 85? Menggunakan rumus:
80+2
Pr = 𝑥 100 = 82
100
Skor standar. Skor standar memberikan cara lain untuk menunjukkan bagaimana
seseorang membandingkan dengan individu lain dalam suatu kelompok. Skor standar
menunjukkan seberapa jauh skor mentah yang diberikan adalah dari titik referensi.
Mereka sangat membantu dalam membandingkan pencapaian relatif seseorang pada
berbagai jenis instrumen (seperti membandingkan kinerja seseorang pada tes
pencapaian kimia dengan penilaian instruktur atas pekerjaannya di laboratorium).
Ada banyak sistem skor standar yang berbeda, tetapi dua yang paling umum
digunakan dan dilaporkan dalam penelitian pendidikan adalah skor z dan skor T.
Memahami mereka memerlukan beberapa pengetahuan tentang statistik deskriptif,
dan karenanya kami akan menunda diskusi mereka sampai Bab 10.
Instrumen Referensi-Standar
Alternatif untuk penggunaan pencapaian adat atau instrumen kinerja, yang sebagian
besar direferensikan dengan norma, adalah dengan menggunakan instrumen yang
direferensikan kriteria — biasanya tes.
Maksud tes semacam itu agak berbeda dari itu tes yang direferensikan norma; fokus
tes yang direferensikan kriteria lebih langsung pada instruksi. Daripada mengevaluasi
kemajuan pelajar melalui perolehan skor (misalnya, dari 40 hingga 70 pada tes
prestasi), tes yang direferensikan dengan kriteria didasarkan pada tujuan tertentu, atau
target (disebut kriteria), untuk dicapai oleh setiap pelajar. Kriteria ini untuk
penguasaan, atau "lulus," biasanya dinyatakan sebagai persentase yang cukup tinggi
dari pertanyaan yang dijawab dengan benar (seperti 80 atau 90 persen). Contoh
kriteria-referensi dan norma- pernyataan evaluasi yang direferensikan adalah sebagai
berikut:
Sementara tes yang direferensikan dengan kriteria mungkin lebih bermanfaat pada
waktu dan dalam keadaan tertentu daripada yang lebih uji referensi-norma adat
(masalah ini masih diperdebatkan), seringkali lebih rendah untuk tujuan penelitian.
Mengapa? Karena, secara umum, tes yang direferensikan kriteria akan memberikan
variabilitas skor yang jauh lebih sedikit, karena itu lebih mudah. Sedangkan tes
referensi-norma yang biasa akan memberikan kisaran skor yang agak kurang dari
kisaran yang mungkin (yaitu, dari nol hingga jumlah total item dalam tes), tes yang
direferensikan kriteria, jika ya Sesuai dengan alasannya, akan memiliki sebagian
besar siswa (pasti setidaknya setengah) mendapatkan skor tinggi. Karena, dalam
penelitian, kami biasanya menginginkan variabilitas maksimum dalam Untuk
memiliki harapan menemukan hubungan dengan variabel lain, penggunaan tes
referensi-kriteria adalah sering mengalahkan diri sendiri.
Timbangan Pengukuran
Anda akan ingat dari Bab 3 bahwa ada dua tipe dasar variabel — kuantitatif dan
kategorikal. Masing-masing menggunakan jenis analisis dan pengukuran yang
berbeda, membutuhkan penggunaan skala pengukuran yang berbeda. Ada empat jenis
skala pengukuran: nominal, ordinal, interval, dan rasio. (Gambar 7.25).
Skala nominal adalah bentuk pengukuran paling sederhana yang dapat digunakan
oleh peneliti. Ketika menggunakan skala nominal, peneliti hanya menetapkan angka
untuk kategori yang berbeda untuk menunjukkan perbedaan (Gambar 7.26). Sebagai
contoh, Peneliti yang peduli dengan variabel gender dapat mengelompokkan data
menjadi dua kategori, pria dan wanita, dan sebagai tanda nomor 1 untuk wanita dan
nomor 2 untuk pria. Peneliti lain, yang tertarik mempelajari metode pengajaran
membaca, dapat menetapkan nomor 1 untuk metode seluruh kata, nomor 2 untuk
metode fonik, dan nomor 3 untuk metode "campuran". Dalam kebanyakan kasus,
keuntungan untuk menetapkan angka ke kategori adalah untuk memfasilitasi analisis
komputer. Tidak ada implikasi bahwa Metode fonik (nomor 2) adalah “lebih” dari
apa pun selain metode seluruh kata (nomor 1).
Skala Ordinal
Skala ordinal adalah skala di mana data dapat dipesan dengan berbagai cara — tinggi
ke rendah atau paling sedikit untuk sebagian besar. Sebagai contoh, seorang peneliti
mungkin menyusun urutan skor siswa pada suatu biologi uji dari tinggi ke rendah.
Perhatikan, bagaimanapun, bahwa perbedaan dalam skor atau kemampuan aktual
antara siswa peringkat pertama dan kedua dan antara siswa kelas lima dan enam tidak
harus sama. Skala ordinal menunjukkan kedudukan relatif di antara individu, seperti
yang diperlihatkan Gambar 7.27.
Skala Interval
Skala interval memiliki semua karakteristik skala ordinal dengan satu fitur tambahan:
Jarak
antara titik pada skala sama. Sebagai contoh, jarak antara skor pada tes prestasi
matematika yang tersedia secara komersial biasanya dianggap sama. Dengan
demikian, jarak antara skor 70 dan 80 dianggap sama dengan jarak antara skor 80 dan
90. Namun, perhatikan bahwa titik nol pada skala interval tidak menunjukkan tidak
adanya total dari apa yang sedang diukur. Jadi, 0 ° (nol derajat) pada skala
Fahrenheit, yang mengukur suhu, tidak menunjukkan tidak ada suhu.
Skala Rasio
Skala interval yang memang memiliki aktual, atau benar, titik nol disebut skala rasio.
Misalnya, skala dirancang untuk mengukur ketinggian akan menjadi skala rasio,
karena titik nol pada skala mewakili tidak adanya tinggi (yaitu, tidak ada tinggi).
Demikian pula, nol pada skala berat kamar mandi mewakili nol, atau tidak, berat.
Skala rasio hampir tidak pernah ditemukan dalam penelitian pendidikan, karena
jarang para peneliti melakukan pengukuran yang melibatkan titik nol sejati (bahkan
pada mereka kesempatan langka ketika seorang siswa menerima nol pada tes
semacam ini, ini tidak berarti bahwa apa pun yang diukur sama sekali tidak ada pada
siswa). Beberapa variabel lain yang memiliki skala rasio adalah pendapatan, waktu
tugas, dan usia.
Pada titik ini, Anda mungkin berkata, Yah, oke, tapi terus kenapa? Mengapa
perbedaan ini penting? Ada dua alasan mengapa Anda harus memiliki setidaknya
pemahaman yang belum sempurna tentang perbedaan di antara keempat jenis
timbangan. Pertama, mereka menyampaikan jumlah yang berbeda informasi.
Timbangan rasio memberikan lebih banyak informasi daripada lakukan skala interval;
interval, lebih dari ordinal; dan ordinal, lebih dari nominal. Oleh karena itu, jika
memungkinkan, peneliti harus menggunakan jenis pengukuran yang akan memberi
mereka jumlah informasi maksimum yang diperlukan untuk menjawab pertanyaan
penelitian mereka. Kedua, beberapa jenis prosedur statistik tidak sesuai untuk
perbedaan sisik. Cara di mana data dalam studi penelitian diatur menentukan
penggunaan beberapa jenis analisis statistik, tetapi tidak yang lain (kita akan
membahas hal ini dalam lebih detail dalam Bab 11). Tabel 7.2 menyajikan ringkasan
dari empat jenis skala pengukuran.
Seringkali peneliti memiliki pilihan untuk dibuat. Mereka harus memutuskan apakah
akan mempertimbangkan data sebagai data ordinal atau interval. Sebagai contoh,
anggaplah seorang peneliti menggunakan laporan diri kuesioner untuk mengukur
harga diri. Question-naire diberi skor untuk jumlah item yang dijawab (ya atau tidak)
ke arah yang menunjukkan harga diri tinggi. Untuk sampel 60, peneliti menemukan
bahwa skor berkisar antara 30 hingga 75.
Untungnya, peneliti dapat menghindari pilihan ini. Mereka memiliki pilihan lain —
untuk memperlakukan data secara terpisah sesuai dengan kedua asumsi (yaitu, untuk
memperlakukan skor sebagai data ordinal, dan sekali lagi sebagai data interval). Hal
penting untuk disadari adalah bahwa seorang peneliti harus siap untuk
mempertahankan asumsi yang mendasari pilihannya pada skala pengukuran yang
digunakan dalam pengumpulan dan pengorganisasian data.
Setelah instrumen yang digunakan dalam penelitian telah diberikan, peneliti harus
menilai data yang dimiliki telah dikumpulkan dan kemudian mengaturnya untuk
memudahkan analisis.
Penilaian Data
Data yang dikumpulkan harus diberi skor secara akurat dan konsisten. Jika tidak,
kesimpulan apa pun yang diambil peneliti dari data mungkin keliru atau
menyesatkan. Setiap tes individu (kuesioner, esai, dll.) Harus diberi skor
menggunakan prosedur dan kriteria yang persis sama. Ketika instrumen yang dibeli
secara komersial digunakan, prosedur penilaian dibuat lebih mudah. Biasanya
pengembang instrumen akan memberikan manual penilaian yang mencantumkan
langkah-langkah yang harus diikuti dalam penilaian instrumen, bersama dengan kunci
penilaian. Sebaiknya periksa ulang skor seseorang untuk memastikan tidak ada
kesalahan yang terjadi.
Ketika data telah diberi skor, peneliti harus menghitung atau mentabulasi mereka
dalam beberapa cara. Biasanya ini dilakukan oleh mentransfer data ke semacam
ringkasan lembar data atau kartu. Yang penting adalah mencatat data seseorang
secara akurat dan sistematis. Jika data kategorikal sedang direkam, jumlah individu
yang mencetak dalam setiap kategori dihitung. Jika data kuantitatif direkam, data
biasanya terdaftar dalam satu atau beberapa kolom, tergantung pada jumlah kelompok
yang terlibat dalam penelitian ini. Sebagai contoh, jika analisis data terdiri hanya dari
perbandingan skor dua kelompok pada posttest, the data kemungkinan besar akan
ditempatkan dalam dua kolom, satu untuk masing-masing kelompok, dalam urutan
menurun. Tabel 7.3, misalnya,menyajikan beberapa hasil hipotesis dari penelitian
yang melibatkan perbandingan dua metode konseling dengan instrumen yang
mengukur hubungan.
Jika skor sebelum dan sesudah dibandingkan akan dibandingkan, kolom tambahan
dapat ditambahkan. Skor sub-kelompok juga dapat ditunjukkan. Ketika berbagai jenis
data dikumpulkan (yaitu, skor pada beberapa instrumen yang berbeda) di samping
informasi biografis (jenis kelamin, usia, etnis, dll.), Mereka biasanya direkam dalam
komputer atau kartu data, satu kartu untuk setiap individu dari data siapa yang
dikumpulkan. Ini memfasilitasi perbandingan dan pengelompokan (dan
pengelompokan ulang) data yang mudah untuk keperluan analisis. Selain itu, datanya
diberi kode. Dengan kata lain, beberapa jenis kode digunakan untuk itu melindungi
privasi individu dalam penelitian. Demikian, nama-nama pria dan wanita mungkin
diberi kode 1 dan 2. Pengodean data sangat penting ketika data dianalisis oleh
komputer, karena data apa pun yang tidak dalam bentuk angka harus dikodekan
dengan cara yang sistematis sebelum dapat dimasukkan ke dalam komputer. Dengan
demikian, data kategorikal, untuk dianalisis pada komputer, sering kali diberi kode
numerik (mis. Skor pretest 1, dan skor posttest 2).
Langkah pertama dalam pengkodean data sering kali menetapkan nomor ID untuk
setiap individu yang darinya data telah dikumpulkan. Jika ada 100 individu dalam
sebuah penelitian, misalnya, peneliti akan menghitungnya dari tahun 001 hingga 100.
Jika nilai tertinggi untuk setiap variabel yang dianalisis melibatkan tiga digit
(misalnya, 100), maka setiap nomor kode individu harus memiliki tiga digit ( mis.
individu pertama yang diberi nomor haruslah 001, bukan 1).
Langkah selanjutnya adalah memutuskan bagaimana data kategorikal apa pun yang
dianalisis akan dikodekan. Misalkan seorang peneliti ingin menganalisis informasi
demografis tertentu yang diperoleh dari 100 subjek yang menjawab kuesioner. Jika
studinya menyertakan junior dan senior di sekolah menengah, ia mungkin memberi
kode pada junior sebagai 11 dan senior sebagai 12. Atau, jika responden diminta
untuk menunjukkan mana dari empat pilihan yang mereka sukai (seperti dalam
tertentu pertanyaan pilihan ganda), peneliti dapat mengkode setiap pilihan [mis., (a),
(b), (c), (d) masing-masing sebagai 1, 2, 3, atau 4]. Yang penting untuk diingat adalah
bahwa pengkodean harus konsisten — yaitu, begitu keputusan dibuat tentang cara
mengkode seseorang, semua yang lain harus dikodekan dengan cara yang sama, dan
aturan pengkodean ini (dan yang lainnya) harus dikomunikasikan kepada semua
orang terlibat dalam pengkodean data.
8. VALIDATAS DAN RELIABILITAS
Validitas
Validitas adalah ide paling penting untuk dipertimbangkan saat menyiapkan atau
memilih instrumen untuk digunakan. Lebih dari segalanya, para peneliti
menginginkan informasi yang mereka peroleh melalui penggunaan instrumen untuk
memenuhi tujuan mereka. Misalnya, untuk mengetahui pendapat para guru di distrik
sekolah tertentu tentang kebijakan terbaru yang disahkan oleh dewan sekolah, peneliti
memerlukan instrumen untuk mencatat data dan semacam jaminan bahwa informasi
yang diperoleh memungkinkan mereka untuk menggambar dengan benar. kesimpulan
tentang pendapat guru. Gambar kesimpulan yang benar berdasarkan data yang
diperoleh dari penilaian adalah tentang validitas. Meskipun tidak penting,
pemahaman dan penggunaan informasi sangat disederhanakan jika beberapa jenis
skor yang merangkum informasi untuk setiap orang diperoleh. Sementara ide-ide
yang mengikuti tidak terbatas pada penggunaan skor, kami mendiskusikannya dalam
konteks ini karena ide-ide lebih mudah untuk memahami, dan sebagian besar
instrumen memberikan skor seperti itu.
Dalam beberapa tahun terakhir, validitas telah didefinisikan sebagai merujuk pada
kesesuaian, kebenaran, kebermaknaan, dan kegunaan dari kesimpulan khusus yang
dibuat peneliti berdasarkan pada data yang mereka kumpulkan. Validasi adalah
proses mengumpulkan dan menganalisis bukti untuk mendukung kesimpulan
tersebut. Ada banyak cara untuk mengumpulkan bukti, dan kami akan segera
mendiskusikan beberapa di antaranya. Poin penting di sini adalah untuk menyadari
bahwa validitas mengacu pada sejauh mana bukti mendukung kesimpulan yang
dibuat oleh peneliti berdasarkan data yang ia kumpulkan menggunakan instrumen
tertentu. Ini adalah kesimpulan tentang penggunaan spesifik suatu instrumen yang
divalidasi, bukan instrumen itu sendiri. *Kesimpulan ini harus sesuai, bermakna,
benar, dan bermanfaat.
Salah satu interpretasi konseptualisasi validitas ini adalah bahwa penerbit uji tidak
lagi memiliki tanggung jawab untuk memberikan bukti validitas. Kami tidak setuju;
penerbit memiliki kewajiban untuk menyatakan apa yang dimaksudkan untuk diukur
oleh instrumen dan untuk memberikan bukti bahwa instrumen itu berfungsi.
Meskipun demikian, para peneliti harus tetap memperhatikan cara di mana mereka
bermaksud untuk menafsirkan informasi tersebut.
Kesimpulan yang tepat akan menjadi salah satu yang relevan yaitu, terkait dengan
tujuan penelitian. Jika tujuan dari penelitian adalah untuk menentukan apa yang siswa
ketahui tentang budaya Afrika, misalnya, tidak masuk akal untuk membuat
kesimpulan tentang ini dari skor mereka pada tes tentang geografi fisik Afrika.
Inferensi yang berarti adalah kesimpulan yang mengatakan sesuatu tentang arti
informasi (seperti skor tes) yang diperoleh melalui penggunaan instrumen. Apa
sebenarnya arti skor tinggi pada tes tertentu? Apa yang memungkinkan skor kita
katakan tentang individu yang menerimanya? Dengan cara apa seorang individu yang
menerima a skor tinggi berbeda dari orang yang menerima skor rendah? Dan
seterusnya. Adalah satu hal untuk mengumpulkan informasi orang-orang. Kami
melakukan ini semua nama-waktu, alamat, tanggal lahir, ukuran sepatu, nomor lisensi
mobil, dan sebagainya. Tetapi kecuali kita dapat membuat kesimpulan yang berarti
sesuatu dari informasi yang kita peroleh, itu tidak banyak berguna. Tujuan penelitian
bukan hanya untuk mengumpulkan data, tetapi untuk menggunakannya
data untuk menarik kesimpulan yang dijamin tentang orang-orang (dan orang lain
seperti mereka) kepada siapa data dikumpulkan.
Kesimpulan yang berguna adalah kesimpulan yang membantu para peneliti membuat
keputusan terkait dengan apa yang ingin mereka ketahui. Peneliti tertarik pada efek
bahan ajar yang berhubungan dengan penyelidikan pada prestasi siswa, misalnya,
membutuhkan informasi yang akan memungkinkan mereka untuk menyimpulkan
apakah prestasi dipengaruhi oleh bahan-bahan tersebut dan, jika demikian,
bagaimana.
Oleh karena itu, validitas tergantung pada jumlah dan jenis bukti yang ada untuk
mendukung interpretasi yang ingin dilakukan oleh peneliti mengenai data yang telah
mereka kumpulkan. Pertanyaan krusial adalah: Apakah hasil penilaian memberikan
informasi yang berguna tentang topik tersebut atau variabel yang diukur?
Jenis bukti apa yang mungkin dikumpulkan peneliti? Pada dasarnya, ada tiga tipe
utama.
Bukti validitas terkait konten mengacu pada konten dan format instrumen.
Seberapa tepat kontennya? seberapa komprehensif? Apakah secara logis
mendapatkan variabel yang dimaksud? Bagaimana secukupnya apakah sampel
barang atau pertanyaan mewakili konten yang akan dinilai? Apakah
formatnya sesuai? Konten dan formatnya harus konsisten dengan definisi
variabel dan sampel subjek yang akan diukur.
Bukti validitas terkait kriteria mengacu pada hubungan antara skor yang
diperoleh dengan menggunakan instrumen dan skor yang diperoleh dengan
menggunakan satu atau lebih instrumen atau ukuran lain (sering disebut
kriteria). Seberapa kuat hubungan ini? Seberapa baik skor tersebut
memperkirakan saat ini atau memprediksi kinerja jenis tertentu di masa
mendatang?
Bukti validitas yang berhubungan dengan konstruk mengacu pada sifat
konstruk psikologis atau karakteristik yang diukur oleh instrumen. Seberapa
baik ukuran konstruksi menjelaskan perbedaan dalam perilaku individu atau
kinerja mereka pada tugas-tugas tertentu
Misalkan seorang peneliti tertarik pada efek program matematika baru pada
kemampuan matematika siswa kelas lima. Peneliti berharap bahwa siswa yang
menyelesaikan program akan dapat memecahkan sejumlah jenis masalah kata dengan
benar. Untuk menilai kemampuan matematika mereka, peneliti berencana untuk
memberi mereka tes matematika yang berisi sekitar 15 masalah seperti itu. Kinerja
siswa pada tes ini hanya penting sampai tingkat yang memberikan bukti kemampuan
mereka untuk memecahkan masalah semacam ini. Karenanya, kinerja pada instrumen
dalam hal ini (tes matematika) akan memberikan bukti yang valid dari kemampuan
matematika para siswa ini jika instrumen memberikan sampel yang memadai dari
jenis masalah kata yang tercakup dalam program ini. Jika hanya masalah mudah
dimasukkan dalam tes, atau hanya yang sangat sulit atau panjang, atau hanya masalah
melibatkan pengurangan, tes ini tidak representatif dan karenanya tidak memberikan
informasi yang valid kesimpulan dapat dibuat.
Salah satu elemen kunci dalam konten terkait bukti validitas, kemudian, menyangkut
kecukupan pengambilan sampel. Sebagian besar instrumen (dan terutama tes prestasi)
berikan hanya contoh jenis masalah yang mungkin diselesaikan atau pertanyaan yang
mungkin ditanyakan. Validasi konten, oleh karena itu, sebagian adalah masalah
menentukan apakah konten yang mengandung instrumen adalah sampel yang
memadai dari domain konten yang seharusnya diwakilinya.
Aspek lain dari validasi konten berkaitan dengan format instrumen. Ini termasuk hal-
hal seperti kejelasan pencetakan, ukuran jenis, kecukupan ruang kerja (jika perlu),
kesesuaian bahasa, kejelasan arah, dan sebagainya. Terlepas dari kecukupan
pertanyaan dalam instrumen, jika mereka disajikan dalam format yang tidak sesuai
(seperti memberikan tes yang ditulis dalam bahasa Inggris kepada anak-anak yang
bahasa Inggrisnya minimal), hasil yang valid tidak dapat diperoleh. Untuk alasan ini,
penting agar karakteristik sampel yang dimaksudkan diingat.
Bagaimana cara mendapatkan bukti validitas terkait konten? Cara yang umum untuk
melakukan ini adalah meminta seseorang melihat konten dan format instrumen dan
menilai apakah pantas atau tidak. “Seseorang,” tentu saja, tidak boleh sembarang
orang, tetapi lebih sebagai individu yang dapat diharapkan untuk memberikan
penilaian yang cerdas tentang kecukupan instrumen dengan kata lain, seseorang yang
cukup tahu tentang apa itu diukur menjadi hakim yang kompeten.
Prosedur yang biasa adalah sebagai berikut. Peneliti menuliskan definisi apa yang
ingin diukur dan kemudian memberikan definisi ini, bersama dengan instrumen dan
deskripsi sampel yang dimaksudkan, kepada satu atau lebih hakim. Juri melihat
definisi, membaca item atau pertanyaan dalam instrumen, dan menempatkan tanda
centang di depan setiap pertanyaan atau item yang mereka rasa tidak mengukur satu
atau lebih banyak aspek dari definisi (tujuan, misalnya) atau kriteria lainnya. Mereka
juga menempatkan tanda centang di depan setiap aspek yang tidak dinilai oleh salah
satu item. Selain itu, para hakim mengevaluasi kesesuaian format instrumen. Peneliti
kemudian menulis ulang setiap item atau pertanyaan yang sudah diperiksa dan
menyerahkannya kembali kepada hakim, dan / atau menulis item baru untuk kriteria
yang tidak tercakup secara memadai. Ini berlanjut sampai hakim menyetujui semua
item atau pertanyaan dalam instrumen dan juga menunjukkan bahwa mereka merasa
jumlah total item adalah representasi yang memadai dari instrumen total domain
konten yang dicakup oleh variabel yang diukur.
1. Buat kesimpulan yang benar (secara lisan atau tertulis) yang didasarkan pada
informasi yang diberikan.
2. Identifikasi satu atau lebih implikasi logis yang mengikuti dari sudut pandang
tertentu.
3. Nyatakan (secara lisan atau tertulis) apakah dua ide itu identik, serupa, tidak
terkait, atau kontradiktif.
Bagaimana mungkin peneliti mendapatkan bukti seperti itu? Dia memutuskan untuk
mempersiapkan ujian tertulis yang akan berisi berbagai pertanyaan. Jawaban siswa
akan menjadi bukti yang ia cari. Berikut adalah tiga contoh jenis pertanyaan yang ada
dalam benaknya, dirancang untuk menghasilkan masing-masing dari ketiga jenis
bukti yang tercantum di atas.
Sekarang, lihat masing-masing pertanyaan dan tujuan yang sesuai yang seharusnya
mereka ukur. Melakukan Anda pikir setiap pertanyaan mengukur tujuan itu dirancang
untuk? Jika tidak, mengapa tidak? *
Contoh 2. Inilah yang dirancang oleh peneliti lain sebagai upaya untuk mengukur
(setidaknya sebagian) kemampuan siswa untuk menjelaskan mengapa peristiwa
terjadi.
Baca petunjuk yang mengikuti, dan kemudian jawab pertanyaan itu.
Berikut adalah fakta lain yang terjadi kemudian di hari yang sama di hutan yang
sama.
Anda harus menjelaskan apa yang menyebabkan rumah itu bakar (Fakta Y).
Apakah Fakta W dan X berguna sebagai bagian dari penjelasan Anda?
a. Ya, baik W dan X dan kemungkinan hubungan sebab dan akibat di antara
mereka akan bermanfaat.
b. Ya, kedua W dan X akan berguna, meskipun tidak ada kemungkinan
penyebab yang lain.
c. Tidak, karena hanya satu dari Fakta W dan X yang kemungkinan menjadi
penyebab Y.
d. Tidak, karena W atau X kemungkinan penyebab Y.1
Sekali lagi, perhatikan pertanyaan dan tujuan yang dirancang untuk diukur. Apakah
ini mengukur tujuan ini? Jika tidak, mengapa tidak? *
Upaya-upaya seperti ini untuk mendapatkan bukti dari beberapa jenis (dalam contoh
di atas, dukungan hakim independen bahwa item mengukur apa yang seharusnya
mereka ukur) melambangkan proses mendapatkan bukti validitas terkait konten.
Namun, seperti yang kami sebutkan sebelumnya, kualifikasi para hakim selalu
menjadi pertimbangan penting, dan para hakim harus mengingat karakteristik sampel
yang dimaksud.
Ada dua bentuk validitas terkait kriteria prediktif dan bersamaan. Untuk mendapatkan
bukti validitas prediktif, peneliti mengizinkan interval waktu untuk berlalu antara
pemberian instrumen dan memperoleh skor kriteria. Sebagai contoh, seorang peneliti
dapat melakukan tes bakat sains untuk sekelompok sekolah menengah siswa dan
kemudian membandingkan nilai mereka pada tes dengan nilai akhir semester mereka
dalam kursus sains.
Di sisi lain, ketika data instrumen dan data kriteria dikumpulkan pada waktu yang
hampir bersamaan, dan hasilnya dibandingkan, ini merupakan upaya para peneliti
untuk mendapatkan bukti validitas bersamaan. Contohnya adalah ketika seorang
peneliti mengelola inventaris harga diri untuk sekelompok siswa kelas delapan dan
membandingkan skor mereka dengan penilaian guru tentang harga diri siswa
diperoleh pada waktu yang hampir bersamaan.
Indeks utama dalam kedua bentuk validitas terkait kriteria adalah koefisien korelasi.
Koefisien korelasi, dilambangkan dengan huruf r, menunjukkan tingkat hubungan
yang ada antara skor yang diperoleh individu pada dua instrumen. Hubungan positif
ditunjukkan ketika skor tinggi pada salah satu instrumen adalah disertai dengan skor
tinggi di sisi lain atau ketika skor rendah di satu disertai dengan skor rendah di sisi
lain. Hubungan negatif ditunjukkan ketika skor tinggi pada satu instrumen disertai
dengan skor rendah pada instrumen lainnya, dan sebaliknya. Semua koefisien korelasi
berada di antara 1,00 dan 1,00. R dari 0,00 menunjukkan bahwa tidak ada hubungan.
Tabel 8.1 menyajikan contoh. Seperti yang dapat Anda lihat dari tabel, 51 persen
siswa yang digolongkan luar biasa oleh para hakim ini menerima nilai A dalam
orkestra, 35 persen menerima B, dan 14 persen menerima C. Meskipun tabel ini
hanya merujuk pada kelompok khusus ini. , dapat digunakan untuk memprediksi skor
siswa musik calon lainnya yang dievaluasi oleh ini hakim yang sama. Jika seorang
siswa memperoleh evaluasi "out- berdiri, ”kita dapat memperkirakan (kurang-lebih)
bahwa dia akan memiliki peluang 51 persen untuk menerima nilai A, kesempatan 35
persen untuk menerima B, dan 14 persen kesempatan menerima C.
Tabel harapan adalah perangkat yang sangat berguna untuk
peneliti untuk digunakan dengan data yang dikumpulkan di sekolah. Mereka mudah
dibangun, mudah dipahami, dan dengan jelas menunjukkan hubungan antara dua
ukuran.
Penting untuk menyadari bahwa sifat kriteria adalah faktor terpenting dalam
mengumpulkan kriteria terkait bukti. Korelasi positif yang tinggi tidak berarti banyak
jika ukuran kriteria tidak masuk akal secara logis. Sebagai contoh, korelasi yang
tinggi antara skor pada instrumen yang dirancang untuk mengukur bakat untuk sains
dan skor pada tes kebugaran fisik tidak akan menjadi bukti terkait kriteria yang
relevan untuk kedua instrumen. Pikirkan kembali contoh yang kami sajikan
sebelumnya dari pertanyaan yang dirancang untuk mengukur kemampuan siswa
untuk menjelaskan alasannya peristiwa terjadi. Kriteria apa yang dapat digunakan
untuk menetapkan validitas yang direferensikan kriteria untuk item-item itu?
Bukti Konstruksi-Terkait
Bukti validitas yang terkait dengan konstruk adalah yang paling luas dari tiga
kategori bukti validitas yang kami pertimbangkan. Tidak ada bukti tunggal yang
memenuhi validitas terkait konstruk. Sebaliknya, para peneliti berusaha untuk
mengumpulkan berbagai jenis bukti yang berbeda (semakin banyak dan semakin
bervariasi semakin baik) yang akan memungkinkan mereka untuk membuat
kesimpulan yang terjamin — untuk menegaskan, misalnya, bahwa skor yang
diperoleh dari mengelola izin inventaris harga diri akurat Ferences tentang tingkat
harga diri yang dimiliki orang-orang yang menerima skor tersebut.
Biasanya, ada tiga langkah yang terlibat dalam memperoleh bukti validitas yang
terkait dengan konstruk: (1) variabel yang diukur didefinisikan dengan jelas; (2)
hipotesis, berdasarkan teori yang mendasari variabel, dibentuk tentang bagaimana
orang-orang yang memiliki banyak versus sedikit variabel akan berperilaku dalam
situasi tertentu; dan (3) hipotesis diuji secara logis dan empiris.
Jenis bukti lain mungkin didaftar untuk tugas di atas (mungkin Anda bisa memikirkan
beberapa), tetapi kami berharap ini cukup untuk menjelaskan bahwa itu bukan hanya
satu jenis, tetapi banyak jenis, bukti yang peneliti ingin dapatkan. Menentukan
apakah skor diperoleh melalui penggunaan instrumen ukuran tertentu variabel
tertentu melibatkan studi tentang bagaimana tes dikembangkan, teori yang mendasari
tes, bagaimana tes berfungsi dengan berbagai orang dan dalam berbagai situasi, dan
bagaimana skor pada tes berhubungan dengan skor pada instrumen lain yang sesuai.
Membangun validasi melibatkan,kemudian, berbagai macam prosedur dan banyak
yang berbeda jenis bukti, termasuk yang terkait dengan konten dan
bukti terkait kriteria. Semakin banyak bukti yang dimiliki para peneliti dari berbagai
sumber, semakin yakin mereka tentang menafsirkan skor yang diperoleh dari
instrumen tertentu.
Reliabilitas
Reliabilitas mengacu pada konsistensi skor diperoleh — seberapa konsisten mereka
untuk setiap individu dari satu administrasi instrumen ke yang lain dan dari satu set
item ke yang lain. Pertimbangkan, misalnya, tes yang dirancang untuk mengukur
kemampuan mengetik. Jika tes ini dapat diandalkan, kami akan mengharapkan siswa
yang menerima nilai tinggi skor saat pertama kali mengikuti tes untuk menerima skor
tinggi saat berikutnya dia mengikuti tes. Skor mungkin tidak identik, tetapi harus
dekat.
Skor yang diperoleh dari suatu instrumen bisa sangat andal tetapi tidak valid.
Misalkan seorang peneliti memberikan kepada sekelompok siswa kelas delapan dua
bentuk tes yang dirancang untuk mengukur pengetahuan mereka tentang Konstitusi
Amerika Serikat dan menemukan skor mereka konsisten: mereka yang mendapat skor
tinggi pada form A juga mendapat skor tinggi pada form B; mereka yang mendapat
nilai rendah di A mendapat skor rendah di B; dan seterusnya. Kami akan mengatakan
bahwa skornya dapat diandalkan. Tetapi jika peneliti kemudian menggunakan nilai
tes yang sama ini untuk memprediksi keberhasilan siswa ini di kelas pendidikan
jasmani mereka, dia mungkin akan melihat dengan takjub. Setiap kesimpulan tentang
kesuksesan fisik pendidikan berdasarkan nilai pada tes Konstitusi tidak akan memiliki
validitas. Sekarang, bagaimana dengan kebalikannya? Bisakah instrumen yang
menghasilkan skor tidak andal mengizinkan kesimpulan yang valid? Tidak! Jika skor
sama sekali tidak konsisten untuk orang, mereka tidak memberikan informasi yang
berguna. Kita tidak punya cara mengetahui skor mana yang digunakan untuk
menyimpulkan kemampuan, sikap, atau karakteristik individu seseorang.
Perbedaan antara keandalan dan validitas ditunjukkan pada Gambar 8.2. Keandalan
dan validitas selalu bergantung pada konteks di mana instrumen digunakan.
Tergantung pada konteksnya, suatu instrumen mungkin atau mungkin tidak
menghasilkan skor yang dapat diandalkan (konsisten). Jika datanya tidak dapat
diandalkan, mereka tidak dapat mengarah pada kesimpulan yang sah (sah) —seperti
yang diperlihatkan dalam target (a). Ketika keandalan meningkat, validitas dapat
meningkat, seperti yang ditunjukkan pada target (b), atau mungkin tidak, seperti yang
ditunjukkan pada target (c). Suatu instrumen mungkin memiliki keandalan yang baik
tetapi validitas rendah, seperti yang ditunjukkan dalam target
(d). Apa yang diinginkan, tentu saja, adalah keandalan tinggi dan validitas tinggi,
seperti yang ditunjukkan oleh target (e). Pertunjukan.
Setiap kali orang mengikuti tes yang sama dua kali, mereka jarang melakukan hal
yang sama yaitu, skor atau jawaban mereka biasanya tidak akan sama. Ini mungkin
disebabkan oleh berbagai faktor (perbedaan motivasi, kecemasan energi, situasi
pengujian yang berbeda, dan sebagainya), dan itu tidak bisa dihindari. Faktor-faktor
tersebut menyebabkan kesalahan pengukuran (Gambar 8.3).
Karena kesalahan pengukuran selalu ada sampai taraf tertentu, peneliti mengharapkan
beberapa variasi dalam nilai tes (dalam jawaban atau penilaian, misalnya) ketika
instrumen diberikan kepada kelompok yang sama lebih dari sekali, ketika dua bentuk
instrumen yang berbeda digunakan, atau bahkan dari satu bagian instrumen ke bagian
lainnya. Perkiraan reliabilitas memberi peneliti gagasan berapa banyak variasi yang
diharapkan. Estimasi seperti itu biasanya dinyatakan sebagai aplikasi lain dari
korelasi Koefisien dikenal sebagai koefisien reliabilitas.
Metode Uji-Ulang
Metode uji-ulang melibatkan pemberian tes yang sama dua kali ke grup yang sama
setelah interval waktu tertentu berlalu. Koefisien reliabilitas kemudian dihitung untuk
menunjukkan hubungan antara keduanya set skor yang diperoleh.
Koefisien reliabilitas akan dipengaruhi oleh lamanya waktu yang berlalu antara dua
administrasi tes. Semakin lama interval waktu, semakin rendah koefisien reliabilitas
yang mungkin terjadi, karena ada kemungkinan lebih besar dari perubahan pada
individu yang mengikuti tes. Dalam memeriksa bukti keandalan pengujian ulang,
interval waktu yang tepat harus dipilih. Interval ini seharusnya di mana individu akan
diasumsikan untuk mempertahankan posisi relatif dalam kelompok yang bermakna.
Tidak ada gunanya mempelajari, atau bahkan membuat konsep, variabel yang
berfluktuasi liar pada individu yang diukur. Ketika para peneliti menilai seseorang
sebagai berbakat akademis, misalnya, atau terampil dalam mengetik atau memiliki
konsep diri yang buruk, mereka menganggap bahwa karakteristik ini akan terus
membedakan individu untuk beberapa periode waktu. Tidak mungkin untuk
mempelajari variabel yang tidak memiliki stabilitas pada individu.
Ketika metode bentuk ekuivalen digunakan, dua bentuk instrumen yang berbeda
tetapi setara (juga disebut alternatif atau paralel) diberikan pada kelompok individu
yang sama selama periode waktu yang sama. Meskipun pertanyaannya berbeda,
mereka harus mencicipi konten yang sama dan harus dibuat secara terpisah satu sama
lain. Koefisien reliabilitas kemudian dihitung antara dua set skor yang diperoleh.
Koefisien yang tinggi akan menunjukkan bukti kuat keandalan bahwa kedua bentuk
mengukur hal yang sama.
Metode yang disebutkan sejauh ini semua membutuhkan dua sesi administrasi atau
pengujian. Ada beberapa metode konsistensi internal untuk memperkirakan
reliabilitas, yang hanya memerlukan satu administrasi instrumen saja.
Prosedur split-setengah. Prosedur split-half melibatkan penilaian dua bagian
(biasanya item aneh versus item genap) dari tes secara terpisah untuk setiap orang dan
kemudian menghitung koefisien korelasi untuk dua set skor. Koefisien menunjukkan
sejauh mana kedua bagian dari tes memberikan hasil yang sama dan karenanya
menggambarkan konsistensi internal tes.
Koefisien reliabilitas dihitung menggunakan apa yang ada dikenal sebagai formula
ramalan Spearman-Brown. Versi sederhana dari rumus ini adalah sebagai berikut:
1
2 𝑥 reliabilitas untuk 𝑡𝑒𝑠
2
Skor untuk tes total Reliabilitas = 1
1+ reliabilitas untuk 𝑡𝑒𝑠
2
2 𝑥 .56 1.12
Skor untuk tes total Reliabilitas = = = .72
1+ .56 1.56
𝐾 𝐾 (𝐾−𝐾)
KR21 Reliabilitas koefisien = 𝐾−1 [ 1 − ]
𝐾(SD2 )
di mana K jumlah item pada tes, M rata-rata dari set skor tes, dan standar deviasi SD
dari set skor tes. †
40 (10)
= 1.02 [ 1 − ]
50(16)
400
= 1.02 [ 1 − 800]
= 1.02 ( 1- .50)
= (1.02) (.50)
= 0.51
Dengan demikian, estimasi reliabilitas untuk skor pada tes ini adalah 0,51.
Apakah estimasi keandalan 0,51 baik atau buruk? tinggi atau rendah? Seperti yang
sering terjadi, ada beberapa tolok ukur yang dapat kita gunakan untuk mengevaluasi
koefisien reliabilitas. Pertama, kita dapat membandingkan koefisien yang diberikan
dengan ekstrem yang dimungkinkan. Seperti yang Anda ingat, koefisien 0,00
menunjukkan tidak adanya hubungan, sehingga tidak ada keandalan sama sekali,
sedangkan 1,00 adalah koefisien maksimum yang mungkin dapat diperoleh. Kedua,
kita dapat membandingkan koefisien reliabilitas yang diberikan dengan jenisnya dari
koefisien yang biasanya diperoleh untuk ukuran dari jenis yang sama. Koefisien
reliabilitas yang dilaporkan untuk banyak tes prestasi yang tersedia secara komersial,
untuk Misalnya, biasanya 0,90 atau lebih tinggi ketika rumus Kuder-Richardson
digunakan. Banyak tes kelas melaporkan koefisien reliabilitas 0,70 dan lebih tinggi.
Dibandingkan dengan angka-angka ini, koefisien yang kami peroleh harus dinilai
agak rendah. Untuk tujuan penelitian, aturan praktis yang berguna adalah keandalan
harus paling tidak .70 dan lebih disukai lebih tinggi.
Koefisien alfa. Pemeriksaan lain pada internal konsistensi suatu instrumen adalah
hitungan alpha Koefisien (Sering disebut Cronbach alpha Penghasilan kena pajak
pria yang mengembangkannya). Koefisien ini (α) adalah umum bentuk rumus KR20
untuk digunakan dalam penghitungan Menerima barang yang tidak disetujui versus
benar salah, seperti dalam beberapa tes esai di mana lebih dari satu pertanyaan
mungkin.
Kesalahan Standar Pengukuran (SEMeas)
Untuk banyak tes IQ, kesalahan pengukuran standar selama periode satu tahun dan
dengan konten spesifik berbeda sekitar lima poin. Selama periode 10 tahun, itu adalah
sekitar delapan poin. Ini berarti bahwa skor berfluktuasi jauh lebih lama di antara
pengukuran. Dengan demikian, seseorang yang mencetak 110 dapat berharap
memiliki skor antara 100 dan 120 satu tahun kemudian; lima tahun kemudian, skor
bisa diperkirakan antara 94 dan 126 (lihat Gambar 8.4). Perhatikan bahwa kami
menggandakan kesalahan standar pengukuran dalam menghitung rentang di mana
skor kedua diperkirakan akan turun. Ini dilakukan sehingga kami dapat memastikan
95 persen bahwa perkiraan kami benar.
Gambar 8.4 Kesalahan Pengukuran Standar
Perjanjian Skor
Sebagian besar tes dan banyak instrumen lainnya diberikan dengan arahan khusus dan
diberi skor secara objektif, yaitu, dengan kunci yang tidak memerlukan penilaian dari
pihak pencetak gol. Meskipun perbedaan dalam skor yang dihasilkan dengan
administrator atau pencetak skor yang berbeda masih dimungkinkan, umumnya
dianggap sangat tidak mungkin terjadi. Ini bukan kasus dengan instrumen yang rentan
terhadap perbedaan dalam administrasi, penilaian, atau keduanya, seperti evaluasi
esai. Secara khusus, instrumen yang menggunakan pengamatan langsung sangat
rentan terhadap perbedaan pengamat. Peneliti yang menggunakan instrumen tersebut
berkewajiban untuk menyelidiki dan melaporkan tingkat perjanjian penilaian.
Kesepakatan semacam itu ditingkatkan dengan melatih para pengamat dan dengan
menambah jumlah periode pengamatan.
Untuk mengilustrasikan konsep reliabilitas lebih lanjut, mari kita lakukan tes yang
sebenarnya dan menghitung konsistensi internal dari item-itemnya.
Sekarang lihat kunci jawaban di catatan kaki di bagian bawah halaman 161. Beri diri
Anda satu poin untuk setiap jawaban yang benar. Asumsikan, untuk saat ini, bahwa
skor pada tes ini memberikan indikasi kecerdasan. Jika demikian, setiap item aktif tes
harus menjadi ukuran parsial kecerdasan. Kita Oleh karena itu, bisa membagi tes 10-
item menjadi dua tes 5-item. Salah satu dari lima tes ini dapat terdiri dari semua item
bernomor ganjil, dan tes lima item lainnya dapat terdiri dari semua item bernomor
genap. Sekarang, catat skor Anda pada item bernomor ganjil dan juga pada item
bernomor genap. Kami sekarang ingin melihat apakah item bernomor ganjil
memberikan ukuran kecerdasan yang sama dengan yang diberikan oleh item
bernomor genap. Jika ya, skor Anda pada item bernomor ganjil dan item genap harus
cukup dekat. Jika tidak, maka dua tes lima item tidak memberikan hasil yang
konsisten. Jika ini masalahnya, maka tes total (10 item) mungkin juga tidak
memberikan hasil yang konsisten, dalam hal ini skor tidak dapat dianggap sebagai
ukuran yang dapat diandalkan.
Minta lima orang lain untuk mengikuti tes. Catat skor mereka pada set item ganjil dan
genap, menggunakan lembar kerja yang ditunjukkan pada Gambar 8.6.
Lihatlah skor pada masing-masing set lima item untuk masing-masing dari lima
individu, dan membandingkannya dengan Anda sendiri. Apa yang akan Anda
simpulkan tentang keandalan skor? Apa yang akan Anda katakan tentang kesimpulan
tentang kecerdasan yang mungkin dibuat peneliti berdasarkan skor pada tes ini?
Mungkinkah itu valid? *
Perhatikan bahwa kami hanya memeriksa satu aspek keandalan (konsistensi internal)
untuk hasil pengujian ini. Kami masih melakukannya tidak tahu berapa banyak skor
seseorang dapat berubah jika kami memberikan tes pada dua waktu yang berbeda
(reliabilitas tes ulang).
Kita bisa mendapatkan indikasi keandalan yang berbeda jika kita memberikan satu
dari lima tes pada satu waktu dan lima lainnya tes item di lain waktu untuk orang
yang sama (bentuk setara / uji ulang reliabilitas). Coba lakukan ini dengan beberapa
individu, menggunakan lembar kerja seperti yang ditunjukkan pada Gambar 8.6.
Para peneliti biasanya menggunakan prosedur yang baru saja dijelaskan untuk
membangun keandalan. Namun, biasanya, mereka menguji lebih banyak orang
(setidaknya 100). Anda juga harus menyadari bahwa sebagian besar tes memiliki
lebih dari 10 item, karena tes yang lebih lama biasanya lebih dapat diandalkan
daripada yang pendek, mungkin karena mereka memberikan sampel yang lebih besar
dari perilaku seseorang.
Singkatnya, kami berharap jelas bahwa aspek utama dari desain penelitian adalah
memperoleh informasi yang andal dan valid. Karena reliabilitas dan validitas
bergantung pada cara instrumen digunakan dan pada kesimpulan yang ingin dibuat
oleh para peneliti, para peneliti tidak pernah dapat dengan mudah berasumsi bahwa
instrumentasi mereka akan memberikan informasi yang memuaskan. Mereka dapat
memiliki kepercayaan diri yang lebih besar jika mereka menggunakan instrumen
yang ada bukti reliabilitas dan validitas sebelumnya, disediakan
mereka menggunakan instrumen dengan cara yang sama — yaitu, di bawah kondisi
yang sama seperti yang ada sebelumnya. Meski begitu, para peneliti tidak dapat
memastikan; bahkan ketika semua yang lain tetap ada sama, berlalunya waktu
mungkin telah merusak instrumen dalam beberapa cara.
Artinya, tidak ada pengganti untuk memeriksa reliabilitas dan validitas sebagai
bagian dari prosedur penelitian. Jarang ada alasan untuk gagal memeriksa konsistensi
internal, karena informasi yang diperlukan ada di tangan dan tidak ada pengumpulan
data tambahan yang diperlukan. Reliabilitas dari waktu ke waktu memang, dalam
banyak kasus, memerlukan administrasi tambahan dari suatu instrumen, tetapi ini
sering dapat dilakukan. Dalam mempertimbangkan opsi ini, perlu dicatat bahwa tidak
semua anggota sampel perlu diuji ulang, meskipun demikian diinginkan. Lebih baik
untuk menguji ulang subsampel yang dipilih secara acak, atau bahkan subsampel
kenyamanan, daripada tidak memiliki bukti keandalan pengujian ulang sama sekali.
Pilihan lain adalah menguji dan menguji ulang sampel yang berbeda, meskipun
sangat mirip.
Sementara banyak peneliti kualitatif menggunakan banyak prosedur yang telah kami
jelaskan, beberapa mengambil posisi validitas dan reliabilitas itu, seperti yang telah
kita bahas, tidak relevan atau tidak cocok dengan upaya penelitian mereka karena
mereka berusaha menggambarkan situasi atau peristiwa tertentu seperti yang dilihat
oleh individu tertentu. Mereka lebih menekankan kejujuran, kepercayaan, keahlian,
dan integritas peneliti. Kami berpendapat bahwa semua peneliti harus memastikan
bahwa setiap kesimpulan yang mereka buat yang didasarkan pada data yang diperoleh
melalui penggunaan instrumen adalah tepat, kredibel, dan didukung oleh bukti dari
jenis yang telah kami jelaskan dalam bab ini.
9. VALIDITAS INTERNAL
Mungkin sayangnya, istilah validitas digunakan dalam tiga cara berbeda oleh para
peneliti. Selain validitas internal, yang kami bahas dalam bab ini, Anda akan melihat
referensi ke validitas instrumen (atau pengukuran) dibahas dalam Bab 8, dan
eksternal (atau generalisasi) validitas, sebagaimana dibahas dalam Bab 6.
Atau pertimbangkan sebuah studi di mana peneliti berhipotesis bahwa, di kelas untuk
siswa cacat pendidikan, harapan guru tentang kegagalan siswa terkait dengan jumlah
perilaku yang mengganggu. Misalkan peneliti menemukan korelasi yang tinggi antara
kedua variabel ini. Haruskah dia menyimpulkan bahwa ini adalah hubungan yang
bermakna? Mungkin. Tetapi korelasi tersebut mungkin juga dijelaskan oleh variabel
lain, seperti tingkat kemampuan kelas (kelas dengan kemampuan rendah mungkin
diharapkan memiliki perilaku yang lebih mengganggu dan harapan guru yang lebih
tinggi akan kegagalan). *
Karakteristik Subyek
Pemilihan orang untuk studi dapat menyebabkan individu (atau kelompok) berbeda
satu sama lain dalam cara yang tidak disengaja yang terkait dengan variabel yang
akan dipelajari. Ini kadang-kadang disebut sebagai bias seleksi, atau ancaman
karakteristik subjek. Dalam contoh kita tentang harapan guru dan perilaku yang
mengganggu kelas, kemampuan tingkat kelas sesuai dengan kategori ini. Dalam studi
yang membandingkan kelompok, subjek dalam kelompok dapat berbeda variabel
seperti usia, jenis kelamin, kemampuan, latar belakang sosial ekonomi, dan
sejenisnya. Jika tidak dikendalikan, variabel-variabel ini dapat menjelaskan
perbedaan apa pun di antara kelompok yang ditemukan. Daftar karakteristik subjek
seperti itu sebenarnya tidak terbatas, tetapi beberapa contoh yang mungkin
memengaruhi hasil penelitian meliputi:
Tidak peduli seberapa hati-hati subjek penelitian dipilih, adalah umum untuk
“kehilangan” beberapa saat penelitian berlanjut (Gambar 9.1). Ini dikenal sebagai
ancaman kematian. Karena satu dan lain hal (misalnya, sakit, relokasi keluarga, atau
persyaratan kegiatan lainnya), beberapa orang mungkin keluar dari penelitian. Ini
terutama benar dalam kebanyakan studi intervensi, karena mereka terjadi seiring
waktu.
Gambar 9.1 Ancaman Kematian terhadap Validitas Internal
Subjek mungkin tidak hadir selama pengumpulan data atau gagal menyelesaikan tes,
kuesioner, atau instrumen lainnya. Kegagalan untuk melengkapi instrumen khususnya
merupakan masalah dalam studi kuesioner. Dalam studi semacam itu, tidak jarang
ditemukan bahwa 20 persen atau lebih subjek yang terlibat tidak mengembalikan
formulir mereka. Ingat, sampel aktual dalam penelitian ini bukan total dari yang
dipilih tetapi hanya mereka yang datanya diperoleh.
Kehilangan subjek, tentu saja, tidak hanya membatasi kemampuan generalisasi tetapi
juga dapat menimbulkan bias - jika subjek yang hilang akan merespons secara
berbeda dari yang dari siapa data diperoleh. Sering kali ini sangat mungkin, karena
mereka yang tidak menanggapi atau yang tidak hadir mungkin bertindak seperti ini
karena suatu alasan. Dalam contoh kita disajikan sebelumnya di mana peneliti sedang
belajar kemungkinan hubungan antara jumlah yang mengganggu perilaku oleh siswa
di kelas dan harapan guru tentang kegagalan siswa, ada kemungkinan bahwa guru-
guru yang gagal menggambarkan harapan mereka kepada peneliti (dan yang
karenanya akan "hilang" untuk tujuan penelitian) akan berbeda dari mereka yang
memang menyediakan informasi ini dengan cara yang mempengaruhi perilaku yang
mengganggu.
Dalam studi yang membandingkan kelompok, kehilangan subjek mungkin tidak akan
menjadi masalah jika kehilangan hampir sama di semua kelompok. Tetapi jika ada
perbedaan yang cukup besar antara kelompok dalam hal jumlah yang putus, ini tentu
saja merupakan penjelasan alternatif yang mungkin untuk temuan apa pun yang
muncul. Dalam membandingkan siswa yang diajarkan dengan metode yang berbeda
(ceramah versus diskusi, misalnya), orang mungkin berharap siswa yang lebih miskin
di setiap kelompok lebih cenderung putus sekolah. Jika lebih banyak siswa miskin
keluar dari kelompok mana pun, metode lain mungkin tampak lebih efektif daripada
yang sebenarnya.
Dari semua ancaman terhadap validitas internal, mortalitas mungkin yang paling sulit
dikendalikan. Kesalahpahaman yang umum adalah bahwa ancaman dihilangkan
hanya dengan mengganti yang hilang mata pelajaran. Tidak peduli bagaimana hal ini
dilakukan bahkan jika mereka digantikan oleh mata pelajaran baru yang dipilih secara
acak para peneliti tidak pernah bisa yakin bahwa mata pelajaran pengganti akan
merespons seperti yang dimiliki oleh orang yang putus sekolah. Lebih mungkin, pada
kenyataannya, mereka tidak akan melakukannya. Bisakah Anda melihat alasannya? *
Upaya lain untuk menghilangkan masalah kematian adalah untuk memberikan bukti
bahwa subjek yang hilang mirip dengan yang tersisa pada karakteristik terkait seperti
usia, jenis kelamin, etnis, skor pretest, atau variabel lain yang mungkin terkait dengan
hasil penelitian. Meskipun diinginkan, bukti seperti itu bisa tidak pernah
menunjukkan secara meyakinkan bahwa subyek yang hilang tidak akan merespons
secara berbeda dari mereka yang tetap. Ketika semua dikatakan dan dilakukan, solusi
terbaik untuk masalah kematian adalah melakukan yang terbaik untuk mencegah atau
meminimalkan hilangnya subjek.
LOKASI
Lokasi tertentu di mana data dikumpulkan, atau di intervensi mana yang dilakukan,
dapat membuat penjelasan alternatif untuk hasil. Ini disebut ancaman lokasi. Sebagai
contoh, ruang kelas di mana siswa diajar oleh, katakanlah, metode inkuiri mungkin
memiliki lebih banyak sumber daya (teks dan perlengkapan lain, peralatan, dukungan
orang tua, dan sebagainya) tersedia bagi mereka daripada ruang kelas di mana siswa
diajar dengan metode ceramah. Ruang kelas itu sendiri mungkin lebih besar, memiliki
pencahayaan yang lebih baik, atau mengandung workstation yang lebih lengkap.
Variabel-variabel semacam itu dapat menjelaskan kinerja yang lebih tinggi oleh
siswa. Dalam contoh perilaku mengganggu kami versus ekspektasi guru, ketersediaan
dukungan (sumber daya, pembantu, dan bantuan orang tua) mungkin menjelaskan
korelasi antara variabel utama yang menarik. Kelas dengan sumber daya yang lebih
sedikit mungkin diharapkan memiliki perilaku yang lebih mengganggu dan harapan
kegagalan guru yang lebih tinggi.
Lokasi di mana tes, wawancara, atau instrumen lain diberikan dapat memengaruhi
respons. Penilaian orangtua terhadap anak-anak mereka di rumah mungkin berbeda
dengan penilaian anak-anak mereka di sekolah. Kinerja siswa pada tes mungkin lebih
rendah jika tes diberikan di kamar yang bising atau kurang cahaya. Pengamatan
interaksi siswa dapat dipengaruhi oleh pengaturan fisik ruang kelas tertentu.
Perbedaan tersebut dapat memberikan penjelasan alternatif yang dapat dipertahankan
untuk hasil dalam studi tertentu.
Metode kontrol terbaik untuk ancaman lokasi adalah dengan menjaga lokasi tetap
konstan artinya, tetap sama untuk semua peserta. Ketika ini tidak layak, peneliti harus
mencoba memastikan bahwa lokasi yang berbeda tidak secara sistematis mendukung
atau membahayakan hipotesis. Ini mungkin memerlukan koleksi deskripsi tambahan
berbagai lokasi.
Instrumentasi
Cara penggunaan instrumen juga dapat menjadi ancaman bagi validitas internal suatu
penelitian. Seperti dibahas dalam Bab 7, skor dari instrumen yang digunakan dalam
penelitian dapat kurang bukti validitas. Kurangnya validitas semacam ini tidak selalu
menghadirkan ancaman bagi validitas internal — tetapi mungkin saja. *
Kelelahan sering terjadi ketika seorang peneliti menilai sejumlah tes satu demi satu;
dia menjadi lelah dan menilai tes secara berbeda (misalnya, lebih keras pada awalnya,
lebih murah hati kemudian). Cara utama untuk mengendalikan peluruhan instrumen
adalah dengan menjadwalkan pengumpulan data dan / atau penilaian untuk
meminimalkan perubahan pada instrumen atau prosedur penilaian mana pun.
Seorang profesor menilai 100 ujian akhir tipe esai selama periode lima jam
tanpa istirahat. Setiap esai mencakup antara 10 dan 12 halaman. Dia menilai
kertas dari masing-masing kelas secara bergantian dan kemudian
membandingkan hasilnya.
Administrasi distrik sekolah besar mengubah metode pelaporan absen. Hanya
siswa yang dianggap bolos (absen tidak dieksklusi) yang dilaporkan absen;
siswa yang memiliki alasan tertulis (dari orang tua atau pejabat sekolah) tidak
dilaporkan. Kabupaten melaporkan penurunan absen 55 persen sejak sistem
pelaporan baru telah dilembagakan.
Bias Kolektor Data. Ada juga kemungkinan bahwa pengumpul atau pengumpul data
dapat secara tidak sengaja mengubah data sedemikian rupa sehingga membuat hasil
tertentu (seperti dukungan untuk hipotesis) lebih mungkin. Contohnya termasuk
beberapa kelas yang diizinkan lebih banyak waktu pada tes daripada kelas lain;
pewawancara yang mengajukan pertanyaan “terkemuka” dari beberapa orang yang
diwawancarai; pengetahuan pengamat dari harapan guru yang mempengaruhi
kuantitas dan jenis perilaku yang diamati dari suatu kelas; dan juri esai siswa lebih
menyukai (tanpa sadar) satu metode pengajaran daripada yang lain.
Dua teknik utama untuk menangani bias pengumpul data adalah dengan membakukan
semua prosedur, yang biasanya membutuhkan semacam pelatihan bagi pengumpul
data, dan untuk memastikan bahwa pengumpul data tidak memiliki informasi yang
mereka perlukan untuk mendistorsi hasil - juga dikenal sebagai ketidaktahuan yang
direncanakan. Pengumpul data juga harus tidak mengetahui hipotesis atau tidak dapat
mengidentifikasi karakteristik tertentu dari individu atau kelompok siapa data sedang
dikumpulkan. Pengumpul data lakukan tidak perlu diberi tahu kelompok metode
mana yang sedang mereka amati atau uji atau bagaimana individu yang mereka uji
dilakukan pada tes lain.
Pengujian
Dalam studi intervensi, di mana data dikumpulkan selama periode waktu tertentu,
adalah umum untuk menguji subyek pada awal intervensi. Dengan pengujian, kami
bermaksud menggunakan segala bentuk instrumentasi, bukan hanya "tes". Jika
peningkatan substansial ditemukan dalam skor posttest (dibandingkan dengan
pretest), peneliti dapat menyimpulkan bahwa peningkatan ini adalah karena
intervensi. Penjelasan alternatif, bagaimanapun, mungkin bahwa perbaikan adalah
karena penggunaan pretest.
Pertimbangkan contoh lain. Misalkan seorang konselor di sebuah sekolah menengah
besar tertarik untuk mengetahui apakah sikap siswa terhadap kesehatan mental
dipengaruhi oleh unit khusus pada subjek. Dia memutuskan untuk memberikan
angket sikap kepada siswa sebelum unit diperkenalkan dan kemudian mengelola lagi
setelah unit selesai. Setiap perubahan dalam skor sikap mungkin karena siswa
memikirkan dan mendiskusikan pendapat mereka sebagai hasil dari pretest daripada
sebagai hasil dari intervensi.
SEJARAH
Kadang-kadang, satu atau lebih yang tidak terduga, dan tidak direncanakan
karena, peristiwa dapat terjadi selama studi yang dapat mempengaruhi respon subyek
Peristiwa semacam itu disebut dalam penelitian pendidikan sebagai ancaman sejarah.
Dalam penelitian ini kami menyarankan siswa yang diajar dengan metode
penyelidikan versus metode ceramah, misalnya, seorang pengunjung yang
membosankan yang datang dan berbicara di kelas ceramah sesaat sebelum ujian yang
akan datang akan menjadi contoh. Jika komentar pengunjung dengan cara tertentu
membuat siswa berkecil hati atau tidak aktif di kelas ceramah, mereka mungkin
kurang berhasil dalam ujian dibandingkan jika pengunjung tidak muncul. Contoh lain
melibatkan pengalaman pribadi salah satu penulis teks ini. Dia ingat dengan jelas hari
ketika Presiden John F. Kennedy meninggal, karena dia telah menjadwalkan
pemeriksaan untuk hari itu juga. Mahasiswa penulis pada waktu itu, terkejut karena
pengumuman kematian presiden, tidak dapat mengikuti ujian. Apa saja perbandingan
hasil ujian yang diambil pada hari ini dengan hasil ujian dari kelas lain yang diambil
pada hari-hari lain akan menjadi tidak berarti.
Para peneliti tidak pernah bisa yakin bahwa satu kelompok memiliki
tidak memiliki pengalaman yang berbeda dari yang dimiliki kelompok lain.
Akibatnya, mereka harus terus-menerus waspada terhadap pengaruh apa pun yang
mungkin terjadi (di sekolah, misalnya) selama masa studi. Seperti yang akan Anda
lihat di Bab 13, beberapa desain penelitian menangani ancaman ini lebih baik
daripada orang lain.
KEDEWASAAN
Seringkali, perubahan selama intervensi mungkin disebabkan oleh faktor yang terkait
dengan berlalunya waktu daripada karena intervensi itu sendiri. Ini dikenal sebagai
ancaman kedewasaan. Selama satu semester, misalnya, siswa yang sangat muda,
khususnya,akan berubah dalam banyak hal hanya karena penuaan dan pengalaman.
Misalkan, bahwa seorang peneliti tertarik mempelajari efek latihan menggenggam
khusus pada kemampuan anak berusia 2 tahun untuk memanipulasi berbagai objek.
Dia menemukan bahwa latihan-latihan semacam itu dikaitkan dengan peningkatan
yang nyata dalam kemampuan manipulatif anak-anak selama periode enam bulan.
Namun, anak berusia dua tahun tumbuh dengan sangat cepat, dan peningkatan
kemampuan manipulatif mereka mungkin disebabkan oleh fakta ini dan bukan karena
latihan menggenggam. Kedewasaan adalah ancaman serius hanya dalam studi yang
menggunakan data pra-posting untuk kelompok intervensi, atau dalam studi yang
berlangsung beberapa tahun. Jalan terbaik untuk mengendalikan pematangan adalah
dengan memasukkan kelompok pembanding yang dipilih dengan baik dalam
penelitian ini.
Sikap Subyek
Efek sebaliknya dapat terjadi kapan saja, dalam studi intervensi, anggota kelompok
kontrol tidak menerima pengobatan sama sekali. Akibatnya, mereka mungkin
menjadi demoralisasi atau kesal dan karenanya berkinerja lebih buruk daripada
kelompok perlakuan. Dengan demikian dapat terlihat bahwa kelompok eksperimen
berkinerja lebih baik sebagai hasil dari perawatan, ketika ini tidak terjadi.
Salah satu obat untuk ancaman ini adalah memberikan kelompok kontrol atau
pembanding dengan perlakuan khusus atau baru yang sebanding dengan yang
diterima oleh kelompok eksperimen. Meskipun secara teori sederhana, ini tidak
mudah dilakukan di sebagian besar lingkungan pendidikan. Kemungkinan lain, dalam
beberapa kasus, adalah untuk memudahkan siswa untuk percaya bahwapengobatan
hanyalah bagian dari instruksi yaitu, bukan bagian dari eksperimen. Misalnya,
kadang-kadang tidak perlu untuk mengumumkan bahwa percobaan sedang dilakukan.
Regresi
Ancaman regresi dapat hadir setiap kali perubahan dipelajari dalam kelompok yang
sangat rendah atau tinggi kinerja preintervensi. Studi dalam pendidikan khusus sangat
rentan terhadap ancaman ini, karena siswa dalam studi tersebut sering dipilih
berdasarkan kinerja rendah sebelumnya. Regresi Fenomena dapat dijelaskan secara
statistik, tetapi untuk tujuan kita, itu hanya menggambarkan fakta bahwa suatu
kelompok dipilih karena kinerja yang luar biasa rendah (atau tinggi) akan, rata-rata,
skor lebih dekat dengan rata-rata pada pengujian berikutnya, terlepas dari apa yang
terjadi pada saat itu. Demikian, kelas siswa yang kemampuannya sangat rendah
mungkin diharapkan mendapat skor lebih tinggi pada posttest terlepas dari
pengaruhnya dari setiap intervensi yang mereka hadapi. Seperti pematangan,
penggunaan kelompok kontrol atau pembanding yang setara menangani ancaman ini
— dan ini tampaknya dipahami sebagaimana tercermin dalam penelitian yang
dipublikasikan.
PELAKSANAAN
Perlakuan atau metode dalam studi eksperimental apa pun harus diberikan oleh
seseorang peneliti, guru yang terlibat dalam penelitian, konselor, atau orang lain.
Fakta ini memunculkan kemungkinan bahwa kelompok eksperimen dapat
diperlakukan dengan cara-cara yang tidak disengaja dan tidak harus menjadi bagian
dari metode, namun yang memberi mereka keuntungan dari satu atau lain jenis. Ini
dikenal sebagai ancaman implementasi. Itu bisa terjadi dalam dua cara.
Ada sejumlah cara untuk mengendalikan kemungkinan ini. Peneliti dapat mencoba
untuk mengevaluasi individu yang menerapkan setiap metode pada karakteristik yang
bersangkutan (seperti kemampuan mengajar) dan kemudian mencoba untuk
menyamakan kelompok perlakuan pada dimensi-dimensi ini (misalnya, dengan
menugaskan guru dengan kemampuan setara untuk setiap kelompok). Jelas, ini
adalah tugas yang sulit dan memakan waktu. Kontrol lain adalah mengharuskan
setiap metode diajarkan oleh semua guru dalam penelitian ini. Dimana
layak, ini adalah solusi yang lebih disukai, meskipun juga rentan terhadap
kemungkinan bahwa beberapa guru mungkin memiliki kemampuan yang berbeda
untuk menerapkan metode yang berbeda. Masih kontrol lain adalah dengan
menggunakan beberapa individu yang berbeda untuk menerapkan setiap metode,
sehingga mengurangi kemungkinan keuntungan untuk kedua metode tersebut.
Kedua, ancaman implementasi dapat terjadi ketika beberapa individu memiliki bias
pribadi yang mendukung satu metode daripada yang lain. Preferensi mereka untuk
metode, daripada metode itu sendiri, dapat menjelaskan kinerja unggul siswa yang
diajarkan oleh metode itu. Ini adalah alasan yang bagus mengapa seorang peneliti
harus, jika mungkin, tidak menjadi salah satu dari individu yang
mengimplementasikan ametode dalam studi intervensi. Terkadang itu mungkin untuk
membuat individu yang pelakunya tidak tahu sifat studi, tetapi umumnya sangat sulit
sebagian karena guru atau orang lain yang terlibat dalam studi akan biasanya perlu
diberi alasan untuk partisipasi mereka. Salah satu solusi untuk ini adalah
memungkinkan individu untuk memilih metode yang ingin mereka terapkan, tetapi
ini menciptakan kemungkinan perbedaan karakteristik yang dibahas di atas.
Alternatifnya adalah memiliki semua metode yang digunakan oleh semua pelaksana,
tetapi dengan preferensi mereka diketahui sebelumnya. Perhatikan bahwa preferensi
untuk suatu metode sebagai hasil penggunaannya bukan merupakan ancaman,
melainkan hanya merupakan salah satu produk sampingan dari metode itu sendiri. Ini
juga berlaku untuk produk sampingan lainnya. Jika keterampilan guru atau
keterlibatan orang tua, misalnya, meningkat sebagai akibat dari metode, itu tidak akan
menjadi ancaman. Akhirnya, peneliti dapat mengamati dalam upaya untuk melihat
bahwa metode diberikan sebagaimana dimaksud.
Seorang peneliti tertarik untuk mempelajari efek dari diet baru pada
kelincahan fisik anak-anak. Setelah mendapatkan izin dari orang tua anak-
anak untuk terlibat, yang semuanya adalah siswa kelas satu, ia secara acak
menugaskan anak-anak ke kelompok eksperimen dan kelompok kontrol.
Kelompok eksperimen adalah mencoba diet baru selama tiga bulan, dan
kelompok kontrol adalah tetap dengan diet regulernya.
Dalam banyak penelitian, berbagai faktor yang telah kita diskusikan juga dapat
berfungsi untuk mengurangi, atau bahkan mencegah, peluang dari suatu hubungan
yang ditemukan. Sebagai contoh, jika metode (perlakuan) dalam suatu penelitian
tidak diimplementasikan secara memadai yaitu, dicoba secara memadai efek dari
perbedaan aktual di antara mereka pada hasil mungkin dikaburkan. Demikian pula,
jika anggota kelompok kontrol atau pembanding menjadi "sadar" terhadap
eksperimen pengobatan, mereka dapat meningkatkan upaya mereka karena mereka
merasa "tersisih," sehingga mengurangi perbedaan nyata dalam pencapaian antara
kelompok perlakuan yang sebaliknya akan terlihat. Kadang-kadang, guru dari
kelompok kontrol mungkin tanpa sadar memberikan semacam "kompensasi" kepada
memotivasi anggota kelompok mereka, sehingga berkurang dampak dari perawatan
eksperimental. Akhirnya, penggunaan instrumen yang menghasilkan skor tidak dapat
diandalkan dan / atau penggunaan sampel kecil dapat mengurangi kemungkinan
hubungan atau hubungan yang diamati.