Anda di halaman 1dari 19

Mencari bagian yang hilang dalam penilaian konsep ilmu: Re-evaluasi Listrik dan Magnet Ringkas

Penilaian melalui analisis Rasch

Lin Ding *
Departemen Pengajaran dan Pembelajaran, The Ohio State University, Columbus, Ohio 43210, USA
(Diterima 27 Agustus 2013; diterbitkan 14 Februari 2014)

Penilaian konsep ilmu berbasis disiplin adalah alat yang kuat untuk mengukur gagasan inti disiplin
peserta didik. Di antara banyak penilaian seperti, Brief Listrik dan Magnet Assessment (Bema) telah
secara luas digunakan untuk mengukur konsepsi siswa listrik kunci dan magnet (E & M) topik di tingkat
perguruan tinggi kursus pengantar fisika. Berbeda dengan persediaan konsep khas yang fokus hanya
pada satu topik dari pelajaran, Bema mencakup berbagai topik dalam domain elektromagnetisme.
Terlepas dari fakta ini, penelitian sebelumnya secara eksklusif digunakan skor agregat tunggal untuk
mewakili pemahaman keseluruhan siswa individu dari E & M tanpa memberi penjelasan konstruk
penilaian ini. Selain itu, Bema telah digunakan untuk membandingkan kursus fisika tradisional dengan
kursus direformasi berjudul Materi dan Interaksi (M & I). Sementara temuan sebelumnya yang
mendukung M & I, tidak ada bukti empiris yang berusaha untuk menyingkirkan kemungkinan fungsi
diferensial dari Bema yang mungkin tidak sengaja diuntungkan M & I siswa. Dalam studi ini, kami
menggunakan analisis Rasch untuk mencari dua bagian yang hilang mengenai konstruk dan diferensial
fungsi Bema. Hasil penelitian menunjukkan bahwa meskipun item Bema umumnya dapat berfungsi
bersama-sama untuk mengukur konstruk yang sama dari aplikasi dan analisis dari E & M konsep,
beberapa item mungkin perlu revisi lebih lanjut. Selain itu, barang-barang yang menunjukkan diferensial
berfungsi untuk dua program yang terdeteksi. Isu-isu seperti barang fitur kontekstual dan keakraban
siswa dengan pengaturan pertanyaan mungkin mendasari temuan ini. Penelitian ini menyoroti sering
diabaikan ancaman dalam penilaian konsep ilmu pengetahuan dan memberikan contoh untuk
menggunakan penalaran berbasis bukti untuk membuat kesimpulan yang valid dan argumen.

DOI: 10,1103 / PhysRevSTPER.10.010105 PACS nomor: 01.40.Fk, 01.40.gf

I. PENDAHULUAN

Penilaian merupakan komponen integral dari ilmu pendidikan tion. Ketika dirancang dan dilaksanakan
dengan baik, sistim penilai- an dapat secara efektif digunakan untuk membantu pembelajaran,
memantau kemajuan siswa, dan mengevaluasi program-program pendidikan. Mengingat semakin tinggi
perhatian dibayar untuk hasil dari penilaian dan mungkin konsekuensi mereka untuk pengambilan
keputusan, pendidik dan peneliti didesak untuk menguji kembali kualitas penilaian pendidikan dan
khususnya kesesuaian kesimpulan dan tindakan yang dibuat berdasarkan hasil penilaian [1- 3].
Sebagaimana ditekankan oleh Dewan Riset Nasional, inti dari penilaian pendidikan adalah "penalaran
berbasis bukti" proses [1]. Hal ini tidak hanya harus melibatkan instrumen penilaian hati-hati yang
didasarkan pada teori belajar dan mampu memunculkan pengetahuan dan keterampilan siswa, tetapi
juga membutuhkan model analisis cukup akurat dan mekanisme interpretasi untuk memungkinkan
argumen yang valid dan dapat diandalkan tentang pengajaran dan pembelajaran [4 -7]. Untuk tujuan ini,
hati-hati
*Penulis yang sesuai. ding.65@osu.edu

Diterbitkan oleh American Physical Society di bawah persyaratan Creative Commons Attribution 3.0.
Distribusi lebih lanjut dari pekerjaan ini harus mempertahankan atribusi penulis (s) dan judul artikel yang
diterbitkan ini, kutipan jurnal, dan DOI.

investigasi secara luas digunakan penilaian pendidikan untuk menginformasikan dan membentuk
kurikulum ilmu masa depan dijamin.
Dalam dua dekade terakhir, sejumlah besar ilmu
penilaian telah dikembangkan untuk mengukur berbagai konstruk kognitif siswa. Di antara mereka,
discipline- persediaan konsep berdasarkan telah menjadi fokus penting, karena mereka langsung
menargetkan gagasan inti disiplin. Dalam pendidikan fisika, yang pertama dari jenisnya-nya yang
Inventarisasi Angkatan Concept (FCI) [8] -telah berperan dalam mengungkap siswa alternatif ide
Newtonian dan telah menjabat sebagai katalis bagi banyak fisika reformasi kurikuler. Terinspirasi oleh
ini, peneliti menginvestasikan banyak waktu dan usaha untuk mengembangkan penilaian konsep serupa
untuk digunakan dalam domain subjek lain seperti listrik dan magnet (E & M) serta disiplin ilmu lainnya
[9,10]. Sementara instrumen ini sering digunakan untuk mengukur belajar siswa dari gagasan inti disiplin
dan membandingkan efektivitas kurikulum ilmu, mereka sering digunakan dengan kredibilitas prima
facie tanpa dikenakan validitas dan reliabilitas penyelidikan tambahan. Misalnya, dalam banyak kasus
pemahaman siswa dari topik ilmiah diwakili dengan skor tunggal pada PENILAIAN jumlah dari
pertanyaan siswa telah menjawab dengan benar. Pendekatan ini untuk mewakili mahasiswa konseptual
pemahaman sebagian besar didasarkan pada asumsi diduga; yaitu, skor tunggal adalah indikator yang
cukup dan bermakna yang dapat menyebabkan kesimpulan yang valid tentang pemahaman siswa

1554-9178 = 14 = 10 (1) = 010.105 (15) 010105-1 Diterbitkan oleh American Physical Society

topik diuji [13/11]. Namun, asumsi ini tidak selalu memegang, terutama dalam situasi di mana penilaian
dirancang untuk menguji beragam topik [14]. Dalam kasus tersebut, skor agregat tunggal dapat menjadi
masalah atau bahkan menyesatkan (sebagai seperangkat nilai yang terpisah mungkin diperlukan untuk
mewakili terbaik setiap set topik terkait erat). Akibatnya, analisis dan interpretasi berasal dari skor
agregat tersebut cenderung menghasilkan kesimpulan yang tidak akurat atau bahkan salah.
Demikian pula, bila menggunakan penilaian konsep untuk membandingkan
efektivitas kurikulum yang berbeda yang mencakup konten yang sama, masalah namun sering diabaikan
kritis adalah penilaian Bias [15,16]. Idealnya, penilaian yang dipilih sesuai dan berfungsi sebagai ukuran
berisi untuk semua siswa dalam kurikulum yang berbeda, jika kesempatan belajar sebanding memang
disediakan untuk siswa dalam kurikulum ini. Namun, tidak jarang bahwa kesalahan pengukuran nol
konsisten, juga dikenal sebagai bias, dapat terjadi di beberapa bagian dari penilaian [15]. Misalnya,
pertanyaan tentang penilaian mungkin terletak dalam konteks yang lebih akrab bagi siswa dalam satu
kelas daripada mereka yang lain. Hal ini dapat mengakibatkan siswa di bekas kelas memiliki tingkat
keberhasilan yang lebih tinggi secara tidak sengaja pada pertanyaan, meskipun kedua kelas mungkin
memang berbagi penguasaan serupa topik diuji. Isu tersebut kemungkinan akan tidak terdeteksi jika
mereka tidak secara empiris diperiksa dan dipantau, dan sebagai hasilnya, kesimpulan dan kesimpulan
yang diambil dari hasil penilaian dapat condong kenyataan. Pada terburuk mereka, ini kesimpulan miring
mungkin baik mengembang atau meremehkan efektivitas kurikulum ilmu, misinforming pengambilan
keputusan di masa depan pengembangan kurikulum dan reformasi.
Dalam makalah ini kami menguji kembali salah satu luas digunakan penilaian konsep, Brief Listrik dan
Magnet Assessment (Bema) [10], untuk menyoroti isu-isu penting yang telah diabaikan dalam pekerjaan
sebelumnya. Secara khusus, menggambar pada "alasan-dari-bukti" kerangka, kami berusaha untuk
mengungkap dua bagian yang hilang dalam praktek umum menggunakan penilaian ilmu untuk
membandingkan efektivitas kurikulum. Satu berkaitan dengan alasan mewakili mahasiswa konseptual
pemahaman berdiri dengan skor agregat. Masalah ini merupakan dasar karena tubuh studi
mengandalkan pendekatan ini untuk menafsirkan hasil Bema dan menarik kesimpulan [17,18]. Jika tidak
ada bukti yang ditemukan untuk mendukung pendekatan ini, sebagian besar hasil sebelum akan menjadi
dipertanyakan. Masalah lain yang kita cari ke alamat adalah apakah penilaian ini berpotensi bias
mendukung satu kelompok siswa dari yang lain. Sebagai contoh, Bema telah diadopsi untuk mengukur
pemahaman siswa kunci listrik dan magnet konsep dalam kurikulum fisika yang berbeda di mana siswa
terkena konten yang sama [18]. Perbandingan sering dilakukan tanpa memeriksa kemungkinan bias dan
karenanya tidak memberikan bukti untuk adanya potensi ancaman ini.

II. LATAR BELAKANG TEORI

Setelah kerangka penalaran berbasis bukti, kami berusaha untuk menyelidiki potongan-potongan yang
hilang dalam konteks Bema untuk menggambarkan signifikansi konsekuensial mereka dalam penilaian
pendidikan sains. Pada bagian ini, kita (1) meninjau konten dan membangun dari Bema, (2) menjelaskan
ancaman mungkin dalam menggunakan skor agregat untuk mewakili pemahaman konseptual siswa, dan
(3) mengatasi perspektif teoritis potensi Bias pengukuran dalam menggunakan konsep penilaian untuk
studi banding. Dari ketiga aspek tersebut, dua terakhir langsung berhubungan dengan dua bagian yang
hilang kita mencoba untuk mencari di Bema.

A. Isi dan membangun dari Bema


Bema adalah penilaian pilihan ganda 30-item yang dirancang untuk mengukur pemahaman konseptual
siswa topik kunci dalam listrik dan magnet [10]. Karena dimaksudkan untuk menjadi penilaian common-
denominator cocok untuk digunakan di berbagai perguruan tinggi tingkat pengantar E & M kursus,
hanya mereka yang dianggap konsep inti oleh instruktur dari kedua program tradisional dan direformasi
termasuk dalam penilaian [10]. Untuk sebagian besar, saham Bema banyak kesamaan dengan
persediaan konsep segi desain, format, dan penggunaan. Dengan kata lain, seperti dengan persediaan
konsep, Bema dirancang untuk menyelidiki siswa con- pemahaman konseptual ide inti disiplin, diformat
dalam modus pilihan ganda, dan dapat digunakan untuk kedua pengukuran sebelum dan
postinstructional untuk melacak siswa pembelajaran ing keuntungan . Namun, juga berbeda terasa dari
persediaan konsep biasa dalam hal luasnya konten tercakup dalam penilaian. Biasanya, persediaan
konsep penilaian yang dirancang untuk menyelidiki pemahaman siswa dari satu topik [19-21]. FCI adalah
seperti contoh yang berfokus hanya pada konsep Newtonian kekuatan-salah satu dari banyak topik yang
dibahas dalam mekanika [8]. Atau, Bema mencakup berbagai konsep kunci dalam domain listrik dan
magnet. Topik di dalamnya berkisar dari biaya listrik dan bidang yang biasanya diajarkan pada awal
kursus E & M untuk elektromagnetik induksi netic, seperti hukum Ampere dan hukum Faraday, yang
dibahas di dekat akhir kursus [10] (juga lihat Tambahan Bahan [22]). Untuk membedakan penilaian
dengan cakupan yang luas konten (seperti Bema) dari orang-orang dengan fokus menyempit (seperti
FCI), peneliti mengacu pada mantan survei konsep dan yang terakhir sebagai persediaan konsep [9].
Cakupan isi luas dalam Bema menimbulkan serius
Pertanyaan: Apakah menggunakan nilai tunggal dengan menjumlahkan jawaban yang benar dengan cara
yang berarti untuk mewakili pemahaman keseluruhan siswa dari domain subjek yang luas ini? Dengan
kata lain, kita dapat membuat klaim tentang pemahaman konseptual siswa berdasarkan survei konsep
yang luas ini? Atau, dari perspektif pengukuran, dapat dengan pertanyaan-pertanyaan individu pada
Bema yang ditujukan pada berbagai topik

berubah menjadi kohesif membangun-sifat atau kompetensi yang menarik? Tidak seperti persediaan
konsep yang lebih mudah untuk membuat sebuah argumen tentang membangun terfokus karena
homogenitas konten dan karenanya tentang alasan menggunakan skor agregat tunggal untuk mewakili
konstruk, itu menantang untuk membuat kasus yang meyakinkan untuk survei konsep [14] .
Dari teori pengukuran sudut pandang, konstruk jelas menggambarkan batasan eated sangat penting
untuk interpretasi data yang valid dan kesimpulan. Namun, ketika isi penilaian
diuji oleh pertanyaan yang berbeda menjadi semakin heterogen
geneous, pertanyaan-pertanyaan ini menjalankan risiko yang berpotensi wakili ing berbeda konstruksi
yang mendasari atau dimensi yang berbeda, sehingga mengurangi koherensi dan interpretability apa
penilaian adalah pengujian [14,23,24]. Bahkan, untuk penilaian dengan bandwidth konten luas, bahkan
ketika teori tes klasik melaporkan keandalan yang tinggi, sebuah konstruksi tunggal atau ality
unidimension- masih tidak dapat dijamin [23]. Dalam hal ini, menggunakan nilai tunggal untuk mewakili
beberapa konstruksi atau dimensi yang berbeda meningkatkan ketidakpastian pengukuran dan
mengaburkan sifat konstruk dimaksudkan. Secara khusus, dua sumber ambiguitas kemungkinan akan
diperkenalkan ke hasil tes. Salah satunya adalah ketidakjelasan kontribusi masing-masing dimensi
dengan skor komposit. Yang lain adalah ketidakpastian dalam perbandingan nilai, karena "nilai komposit
yang sama kemungkinan akan mencerminkan kombinasi yang berbeda dari konstruksi untuk anggota
yang berbeda dari sampel" [14]. Mengingat landasan teori ini, sangat penting bahwa konstruk Bema
secara empiris diselidiki untuk menawarkan argumen yang meyakinkan untuk validitas menggunakan
nilai tunggal untuk mewakili belajar siswa dari berbagai E & M topik. Sayangnya, masalah ini belum
dibahas dalam penelitian sebelumnya.
Dari sudut pandang teoritis yang berbeda dari fisik scien- ces, listrik dan magnet konsep oleh alam harus
membentuk keseluruhan kohesif, karena topik di daerah ini, tidak peduli bagaimana kompleks atau
tampaknya beragam mereka, selalu dapat ditelusuri kembali tidak lebih dari beberapa mendasar
prinsip mengenai biaya, bidang, dan interaksi mereka
[25]. Mungkin ini sebabnya isi pengantar tingkat E & M kursus telah lebih atau kurang tetap konstan
untuk abad terakhir. Namun demikian, landasan ilmiah ini tidak memiliki verifikasi empiris, terutama
ketika datang ke belajar dan mengajar topik ini. Sebagai contoh, penelitian sebelumnya dari FCI telah
menunjukkan bahwa konstruk kekuatan konsepsi Newtonian dilihat dari perspektif ilmiah sering sejajar
dengan hasil empiris dari belajar siswa dari topik ini [26,27]. Untuk tujuan ini, perlu bahwa kita
mengungkap bukti membangun terkait untuk Bema untuk membuat kesimpulan tentang sejauh mana
berdiri siswa memahami listrik dan magnet dapat direpresentasikan dengan skor tunggal.

B. Pengukuran bias dan barang diferensial fungsi


Bias pengukuran isu kritis lain dalam praktek berbasis bukti penilaian pendidikan sains

[15,16]. Dalam banyak studi banding, peneliti sering memilih penilaian konsep umum untuk digunakan
dengan beberapa kelompok siswa untuk mencari yang berarti perbedaan antara kelompok. Agaknya,
setiap pertanyaan pada penilaian adalah berisi; atau lebih khusus, perbedaan prestasi siswa pada setiap
item harus semata-mata ditentukan oleh perbedaan nyata dalam membangun yang diukur. Pada
prinsipnya, siswa pada tingkat yang sama kompetensi yang diukur dengan penilaian harus menunjukkan
yang sama (atau serupa) kinerja pada setiap pertanyaan terlepas dari keanggotaan kelompok mereka.
Jika perbedaan yang signifikan dalam kinerja siswa pada item antara mereka dengan tingkat yang sama
kompetensi di masing-masing kelompok, item dianggap berfungsi secara berbeda untuk kelompok yang
berbeda. Atau hanya menempatkan, ia memiliki barang diferensial berfungsi (DIF), mengendalikan
tingkat kemampuan siswa. Perlu dicatat bahwa tidak setiap perbedaan antara kelompok harus
dipertimbangkan sebagai DIF. Hanya mereka untuk dicocokkan siswa-orang dengan tingkat yang sama
kompetensi bahwa penilaian ini dimaksudkan untuk menguji-dianggap sebagai DIF [15,16]. Praktis,
sebuah DIF bisa menjadi tanda item Bias namun tidak menjamin itu. Dengan kata lain, DIF adalah perlu
tetapi bukan kondisi yang cukup untuk item Bias [28]. Apakah atau tidak pertanyaan dengan DIF benar-
benar kebutuhan bias untuk diperiksa melalui analisis isi dan konteks dalam kaitannya dengan target
membangun yang diukur.
Secara teoritis, DIF merupakan pengukuran potensial
bias dalam pertanyaan yang dapat disebabkan oleh dua efek utama: konten dan konteks [29]. Efek
konten terletak pada kesempatan belajar diferensial bahwa kelompok-kelompok yang berbeda dari
siswa mungkin memiliki [15]. Misalnya, jika pertanyaan tes pengetahuan siswa tentang alat musik,
mereka yang telah terkena orkestra simfoni mungkin memiliki kesempatan yang lebih baik untuk
berhasil pada pertanyaan ini daripada mereka yang tidak. Sebuah DIF karena seperti efek konten tidak
berarti pertanyaannya adalah bias atau bermasalah dan karena itu mungkin tidak menjadi perhatian
utama para peneliti '. Di sisi lain, efek konteks terjadi ketika perubahan dalam pengaturan pertanyaan
mempengaruhi kinerja siswa [29]. Misalnya, jika kelompok tertentu dari siswa terjadi lebih akrab dengan
skenario pertanyaan (tidak dengan apa pertanyaannya adalah dimaksudkan untuk menguji) dan
karenanya memiliki kesempatan lebih tinggi untuk menjawab dengan benar, peningkatan kinerja ini
undesir- mampu dan perlu dikontrol.
Penelitian sebelumnya menggunakan Bema untuk mempelajari effective relatif
tiveness kurikulum fisika telah diabaikan isu penting dari potensi bias dalam penilaian. Dalam studi skala
besar, Kohlmyer dkk. [18] digunakan Bema untuk mengukur pemahaman konseptual siswa listrik dan
netism Magma dalam dua kurikulum fisika. Salah satunya adalah kursus fisika berbasis kalkulus tingkat
perguruan tinggi tradisional, dan yang lainnya adalah kursus direformasi disebut Materi dan Interaksi (M
& I) [30]. Dalam kedua kursus, siswa diminta untuk menghadiri kelas untuk jumlah waktu yang sama,
terkena isi kursus yang sama dalam jangka akademik yang sama, dan diajarkan

oleh instruktur berpengalaman sama [18]. Perbedaan utama antara dua program, bagaimanapun,
adalah bahwa urutan topik di M & I kursus ulang untuk menyoroti struktur hirarkis pengetahuan fisika
berpusat pada prinsip-prinsip dasar beberapa. Kohlmyer dkk. dibandingkan skor total siswa antara
kedua kurikulum dan menemukan bahwa siswa di M & I mengungguli rekan-rekan mereka dalam kursus
fisika tradisional. Setelah memperhitungkan banyak faktor pembaur, Kohlmyer dkk. mencapai
kesimpulan bahwa M & I saja lebih efektif dalam mempromosikan pemahaman konseptual siswa dari
inti E & M ide dari kursus tradisional. Namun, dalam pandangan kerangka penalaran berbasis bukti,
sepotong mendukung penting yang hilang; yaitu, ancaman potensial bias yang belum dikesampingkan.
Memang benar bahwa Bema dirancang untuk cocok untuk kedua tradisional dan kurikulum M & I, dan
penelitian sebelumnya telah menetapkan bukti terkait konten yang cukup. Meskipun demikian, tidak
ada data empiris telah dibentuk untuk memverifikasi bahwa pertanyaan Bema memang tidak sengaja
berpihak pada siswa M & I. Tanpa bukti yang mendukung ini, argumen tentang peningkatan efektivitas
M & I kurikulum dapat meragukan.
Perlu dicatat bahwa dalam kasus ini tidak ada bukti yang menunjukkan peluang yang berbeda bagi siswa
untuk belajar
topik diuji antara dua program. Menurut Kurz dan Elliott [31], kesempatan belajar yang dikonsep sebagai
terdiri dari tiga aspek kunci: waktu instruksi, konten, dan
kualitas. Seperti disebutkan sebelumnya, kedua kursus berlangsung di
jangka akademik yang sama dan terlibat waktu instruksi yang sama. Selain itu, siswa di kedua kursus
terkena isi yang serupa, meskipun siswa M & saya belajar topik yang diperlukan dengan mengikuti
urutan yang berbeda yang menggarisbawahi struktur hirarkis dari perusahaan fisika. Selain itu,
instruktur yang mengajar kursus ini sama-sama pengalaman- enced dan tidak memberikan alasan untuk
mengasumsikan perbedaan yang signifikan dalam kualitas pengajaran mereka. Mungkin lebih penting
lagi, para pengembang Bema menekankan bahwa penilaian ini dimaksudkan untuk menjadi ujian
common-denominator. Oleh karena itu, topik item pengujian yang tidak dibahas atau hanya
diperlakukan sebagai penting perifer di salah satu dari dua kursus tidak termasuk dalam Bema [10,18].
Untuk tujuan ini, apa yang Bema dimaksudkan untuk menguji diduga mereka kunci E & M topik yang
baik M & I siswa tradisional dan akan memiliki kesempatan- kesempatan sebanding dengan mengakses
dalam kursus masing-masing. Ini memang perlu diverifikasi secara empiris, karena perbandingan antara
M & I dan kursus tradisional didasarkan pada dalil bahwa Bema tidak mendukung satu saja dari yang lain
[18].

Tujuan C. Penelitian
Dalam studi ini, kami menyelidiki tersebut dua bagian yang hilang. Secara khusus, kita mencoba untuk
menjawab pertanyaan-pertanyaan berikut. (1) Apakah pertanyaan individu pada Bema membentuk
konstruk kohesif untuk memungkinkan interpretasi bermakna dengan menggunakan skor agregat
tunggal? (2) Jika jawaban untuk pertanyaan sebelumnya adalah afirmatif, maka apa

sebenarnya konstruk yang Bema dimaksudkan untuk mengukur? Sebaliknya, jika jawaban pertanyaan
sebelumnya adalah negatif, maka bagaimana seharusnya kita lebih mewakili kinerja siswa untuk
memungkinkan kesimpulan yang valid? (3) Bukti apa yang bisa berbicara dengan isu potensi DIF di Bema
ketika membandingkan dua program, tradisional dibandingkan M & I?

AKU AKU AKU. METODE


A. sampel Mahasiswa dan pengaturan
Dalam rangka memberikan jawaban empiris ke pertanyaan-pertanyaan di atas, kita diberikan Bema
untuk siswa dalam sains dan teknik jurusan di universitas riset besar AS. Siswa-siswa ini terdaftar di dua
berbasis kalkulus intro ductory E & M kursus paralel dalam jangka akademik yang sama. Kedua kursus
yang urutan kedua masing dua kurikulum semester fisika dan diajarkan oleh anggota staf pengajar
senior sama berpengalaman yang dihargai dan com- mitted untuk pengajaran yang efektif. Salah
satunya adalah kursus tradisional, di mana siswa dihadiri tiga kuliah 50 menit dan satu
2 jam lab setiap minggu. Topik yang dibahas dalam kursus ini diikuti urutan konvensional (lihat
Tambahan Bahan [22]). Yang lainnya adalah kursus Materi dan Interaksi E & M [30,32,33]. Siswa dalam
kursus ini juga dihadiri tiga
50 menit kuliah dan laboratorium 2 jam setiap minggu. Meskipun topik yang dibahas di M & I pada
dasarnya sama dengan yang dibahas dalam kursus tradisional, urutan itu reor- negoisasi dengan
mengikuti struktur hirarki, berprinsip (lihat Tambahan Bahan [22]) untuk membantu siswa meningkatkan
con konseptual koherensi [33] . Rincian lebih lanjut tentang kurikulum M & I dapat ditemukan di Ref.
[30,33]. Seperti halnya dalam studi yang dilakukan oleh Kohlymer et al., Siswa di kedua program yang
memberikan kesempatan yang sama untuk mempelajari topik diuji pada Bema, karena mereka terkena
waktu sebanding instruksi, isi kursus, dan kualitas guru.
Kami diberikan Bema baik sebagai pretest dan posttest untuk siswa di tradisional dan M & I kursus.
Pretest
dilakukan pada minggu pertama saja sebagai bagian dari kegiatan kelas; total 190 siswa menghadiri
kelas di
hari yang Bema diberikan mengambil tes (102
dari kelas tradisional dan 88 dari M & I). Untuk mengamankan tes untuk digunakan postinstructional,
tidak ada umpan balik yang diberikan kepada siswa, dan siswa tidak diberitahu mereka akan diuji ulang
pada akhir masa akademik. Posttest diberikan pada minggu terakhir tentu saja; 165 siswa menghadiri
kelas pada hari acara selesai tes (82 dari kelas tradisional dan 83 dari M & I). Perhatikan bahwa ada
penurunan kehadiran yang signifikan di kelas nasional tradisi dekat akhir semester, alasan yang masih
belum diketahui.

Analisis B. Rasch item Bema dan model fit


Dalam rangka untuk mencocokkan tujuan penelitian, kami memilih model Rasch dikotomis untuk
memeriksa data yang dikumpulkan. Keputusan ini dibuat berdasarkan berikut

pertimbangan. Pertama, Rasch analisis dapat memungkinkan kita untuk memeriksa apakah masing-
masing item jatuh di bawah satu dimensi tunggal untuk menyesuaikan model, dan karenanya dapat
memberikan bukti untuk argumen-konstruk yang terkait tentang Bema [11-13,34,35]. Kedua, analisis
Rasch dapat mengkonversi data mentah tingkat ordinal- untuk satu set perkiraan interval tingkat [36-
39]. Sebenarnya, total nilai yang umum digunakan adalah tidak kontinyu (meskipun mereka memiliki
perintah) dan tidak bisa langsung dikenakan berbagai analisis statistik yang hanya data interval dapat
sesuai. Analisis Rasch dapat mengatasi masalah ini dengan membuat skala interval pengukuran untuk
kedua item dan responden [13/11]. Keuntungan intrinsik lain dari analisis Rasch adalah bahwa model
estimasi barang kesulitan dan kemampuan orang yang independent sample, yang juga dikenal sebagai
invarian pengukuran [40]. Ini berarti bahwa pasangan item kesulitan estimasi yang diperoleh dari
analisis Rasch tetap lebih atau kurang konstan terlepas dari sampel siswa mengambil tes (mengingat
bahwa model fit memuaskan untuk sampel). Demikian pula, perkiraan kemampuan seseorang bersifat
tetap terlepas dari tingkat kesulitan dari item yang dikumpulkan menjadi tes. Karena sifat invarian, kita
dapat menggunakan hasil Rasch dihasilkan untuk mendeteksi DIF di pertanyaan Bema untuk memeriksa
apakah atau tidak bias potensial ada. Dalam studi ini, kami menggunakan software Winsteps [41] untuk
melaksanakan Rasch dan DIF analisis.

C. Analisis Bema konstruk

1. Analisis Rasch dari unidimensionality dan kemandirian lokal item Bema


Untuk mencari bukti-konstruk yang terkait untuk Bema, kami-contoh INED fit dari data dengan model
Rasch. Untuk setiap item, analisis Rasch melaporkan seperangkat statistik fit: infit dan pakaian berarti
residual persegi dan Z skor standar mereka (lihat di bawah untuk rincian). Statistik ini mencerminkan
seberapa baik kumpulan data sesuai dengan model [41]. Karena model Rasch mengasumsikan semuanya
jatuh di bawah satu dimensi tunggal (unidimensionality), statistik fit melaporkan dapat membantu
mengidentifikasi item, jika ada, tidak memenuhi persyaratan ini [13,41].

Selain memeriksa statistik fit, asumsi ality unidimension- perlu verifikasi lebih lanjut [20]. Total tes Bejar
versus pendekatan subtes adalah salah satu cara untuk mengevaluasi asumsi ini [20,42,43]. Ide utama
adalah untuk memperkirakan parameter butir kesulitan dua kali, pertama dengan menggunakan total
tes dan kemudian dengan hanya menggunakan subset dari tes. Jika item penilaian membentuk konstruk
tunggal kohesif, plot pencar dari dua set perkiraan harus menunjukkan titik dekat sejajar dengan garis
lurus dengan kemiringan 1 dan intercept dari 0 Di sisi lain, jika poin diplot secara signifikan berangkat
dari garis , asumsi mensionality unidi- dilanggar. Dalam studi ini, kami menggunakan pendekatan ini
untuk menguji unidimensionality item Bema.
Terkait dengan unidimensionality adalah asumsi penting dari model Rasch: kemerdekaan lokal.
Ini berarti bahwa korelasi antara tanggapan siswa untuk setiap item harus dijelaskan seluruhnya oleh
dua faktor: Item kesulitan dan orang kemampuan [13,44,45]. Metode Q3 yen menyediakan cara praktis
untuk menguji yang bebas yang pendence asumsi lokal [45]. Metode ini melihat ke dalam
korelasi dari Rasch residual setelah menghapus bagian
varians yang telah dijelaskan oleh item dan orang perkiraan. Seperti yang direkomendasikan oleh Yen
dan Fitzpatrick [45], korelasi residual dengan magnitude kurang dari 0,2 dapat diterima. Kami mengikuti
pendekatan ini untuk memperoleh bukti lebih lanjut mengenai apakah item Bema hanya terkait dengan
konstruk mereka dimaksudkan untuk mengukur.

2. Analisis kualitatif Bema konstruk


Mengartikulasikan apa yang sebenarnya Bema bermaksud untuk mengukur, kami menganalisis masing-
masing item dengan menggunakan direvisi dua dimensi Bloom taksonomi [46-49]. Kedua dimensi dalam
taksonomi Bloom yang konten dan kognisi. Isi dimensi, diwakili oleh satu set kata benda,
mengungkapkan "apa" jenis pengetahuan diuji oleh setiap item. Ada, dari yang terendah ke tingkat
tertinggi, empat jenis: fakta, konsep atau prinsip-prinsip, prosedur, dan pengetahuan metakognitif (lihat
Gambar 1.). Dimensi kognisi, yang ditandai dengan kata kerja, menunjukkan "bagaimana" proses mental
yang dilakukan. Dengan perintah meningkatnya kompleksitas, tingkat kognisi ini termasuk mengingat
atau mengenali,

Gambar. 1. Dua-dimensi taksonomi Bloom. Dimensi vertikal mengandung jenis pengetahuan (diwakili
oleh kata benda); dimensi horisontal mengandung proses kognisi (diwakili oleh verba).

memahami, menerapkan, menganalisis atau mensintesis, mengevaluasi, dan menciptakan. Kami


diklasifikasikan item Bema ke dua dimensi-ini-dimensi untuk menjelaskan di mana konten dan tingkat
kognisi penilaian ini ditujukan. Analisis ini melayani dua tujuan penting. Salah satunya adalah untuk
memberikan deskripsi diartikulasikan dari konstruk Bema, yang pengembang hanya samar-samar
dilaporkan sebagai "pemahaman dasar listrik dan konsep isme magnet-." Sejak taksonomi Bloom adalah
kerangka operasional umum untuk memberi penjelasan tujuan-pendidikan-tujuan, dapat membantu
menangkap rincian kualitatif Bema membangun sambil tetap mempertahankan tingkat yang tepat dari
umum. Tujuan lainnya adalah untuk memeriksa, bersama-sama dengan langkah-langkah Rasch, apakah
atau tidak item diklasifikasikan pada tingkat yang lebih tinggi dari taksonomi Bloom memang lebih sulit
dibandingkan di tingkat yang lebih rendah. Hasil tersebut dapat melemparkan cahaya berguna pada
rincian Bema konstruksi.

Analisis D. Rasch berbasis DIF di Bema


Untuk menguji potensi DIF di Bema untuk dua kelompok siswa (tradisional vs M & I), kita secara terpisah
menganalisis data dari dua program. Seperti metode Bejar sebelumnya, kami menganalisis Bema barang
kesulitan dua kali, pertama dengan menggunakan data yang dikumpulkan dari lapangan tradisional dan
kemudian dengan menggunakan data dari M & I saja. Menurut properti invarian pengukuran Rasch, dua
set perkiraan kesulitan item, yang keduanya dibatasi untuk memiliki rata-rata nol secara default, harus
kira-kira sama atau berbeda hanya konstan [13]. Tentunya, tidak ada pengukuran yang sempurna, dan
pada kenyataannya kesalahan selalu terlibat. Dengan demikian, perbedaan antara dua set perkiraan
dalam kisaran kesalahan tertentu (misalnya, 1% atau 5%) diterima. Kami menggunakan langkah-langkah
Rasch untuk mendeteksi potensi DIF untuk setiap item pada Bema.

IV. HASIL

Analisis A. Rasch dari Bema: Barang berkualitas dan model fit


Berdasarkan poin data yang dikumpulkan, orang dan barang keandalan Bema ditemukan untuk menjadi
0,78 dan 0,96, masing-masing, menunjukkan ukuran yang memadai untuk memungkinkan bermakna
analisis Rasch berikutnya. Perhatikan bahwa orang kehandalan dalam analisis Rasch setara dengan
nasional indeks KR-20 konvensi atau alpha Cronbach. Ini pada dasarnya menunjukkan sejauh mana
penempatan orang dapat direplikasi jika tes serupa diberikan kepada peserta yang sama. Keandalan
item, di sisi lain, tidak memiliki setara konvensional. Ini merupakan tanggung replikasi penempatan
barang di sepanjang hirarki kesulitan jika tes ini diberikan pada kelompok yang sama dari siswa. Dalam
membuat keputusan tentang penerimaan kehandalan, satu dapat menggunakan kriteria tradisional
sebagai referensi; yaitu, nilai sama dengan atau di atas 0,7 biasanya dianggap memuaskan [10,50,51].

Pada inti dari analisis Rasch adalah pengumpulan bukti-konstruk yang terkait untuk Bema. Salah satu
cara untuk melakukan ini adalah untuk menguji kualitas barang dan model fit. Seperti disebutkan
sebelumnya, analisis Rasch menghasilkan satu set interval tingkat estimasi pasangan untuk item
kesulitan dan kemampuan orang. Karena mereka pada skala interval yang sama, kita bisa plot mereka
berdampingan untuk memeriksa barang dan orang distribusi. Plot seperti itu disebut peta Wright
[12,13,35]. Untuk perkiraan model yang akurat, cocok dekat antara distribusi barang dan orang yang
diinginkan [13]. Gambar 2 menampilkan peta Wright untuk Bema. Dalam gambar ini, skala vertikal
(dengan meningkatkan nilai dari bawah ke atas) memisahkan distribusi kemampuan orang di sebelah kiri
dan item distribusi kesulitan di sebelah kanan. Di sini, dua kolom distribusi orang yang ditampilkan; satu
untuk pretest dan yang lainnya untuk posttest. Seperti yang terlihat, kinerja pretest siswa terasa lebih
rendah dari tingkat kesulitan yang paling item Bema. Di sisi lain, distribusi posttest tampaknya cocok
item distribusi cukup baik. Namun, dua kesenjangan dalam distribusi barang yang terlihat. Salah satunya
adalah di ujung bawah dari skala antara angka 1 dan angka 8, yang lain adalah pada akhir lebih tinggi
dari skala antara angka 12 dan angka 28. Hal ini menunjukkan bahwa item dengan tingkat kesulitan
dalam dua rentang ini diperlukan untuk lebih memperkirakan kemampuan siswa.
Analisis Rasch juga menghasilkan satu set cocok statistik untuk memungkinkan
untuk pemeriksaan model fit. Untuk setiap item, dua set fit statistik dilaporkan: berarti residual persegi
(MNSQ) dan Z statistik standar (ZSTD). Kedua mencerminkan perbedaan antara data yang diamati dan
nilai-nilai model yang diharapkan. The MNSQs adalah rata-rata residual kuadrat, sedangkan ZSTDs
adalah Z skor dinormalisasi dari residual [12,13]. Tergantung pada bagaimana MNSQs dan ZSTDs
dihitung, masing-masing lebih lanjut dapat menghasilkan dua statistik: infit dan pakaian. Infit yang
memberikan bobot lebih untuk orang-orang dengan dekat pertandingan orang-item, sedangkan pakaian
menempatkan bobot yang sama pada semua titik data dan karenanya lebih sensitif terhadap outlier.
Biasanya, MNSQs dalam kisaran [0,7, 1,3] dan ZSTDs dalam [2, 2] dianggap sebagai fit wajar [13]. Untuk
item dengan MNSQs lebih besar dari 1,3 dan ZSTDs lebih besar dari Th2, ada lebih varians dalam data
yang diamati dari yang diperkirakan oleh model-juga dikenal sebagai underfit. Sebaliknya, MNSQs
kurang dari 0,7 dan ZSTDs kurang dari 2 menandakan bahwa ada kurang varians dalam data daripada
yang diperkirakan-yang juga dikenal sebagai overfit. Overfit menunjukkan bahwa data yang terlalu
mudah ditebak dan kekurangan keacakan, sehingga tidak menurunkan model fit [13,41].
Tabel I menunjukkan Bema barang fit statistik. Sebagian besar dari
item tampaknya memiliki fit yang masuk akal untuk model dalam kisaran yang dapat diterima. Empat
item (item 5, angka 6, angka 15, dan angka 16) jatuh di bawah ujung bawah jangkauan dan mewakili
overfit. Mengingat bahwa barang-barang tersebut menghasilkan data yang terlalu mudah ditebak tetapi
tidak menurunkan pengukuran, mereka kurang perhatian. Di sisi lain, dua item (item 9 dan angka 17)
melebihi batas atas kisaran dan karena itu mewakili underfit. Kedua item menjamin pemeriksaan lebih
lanjut dan perlu direvisi dalam penelitian selanjutnya.

Secara khusus, angka 9 meminta siswa untuk menentukan arus dalam air garam dengan menggunakan
kecepatan gerak dan jumlah biaya ion di dalamnya. Meskipun pertanyaan ini menargetkan topik konten
yang relevan dari polarisasi dalam larutan ion, memerlukan siswa untuk merumuskan jawaban dalam
simbol-simbol matematika. Mungkin komponen matematika ini membuat menyimpang pertanyaan dari
apa yang awalnya ditujukan untuk. Pertanyaan lain yang menunjukkan underfit adalah barang 17.
Sebuah sekilas pertanyaan ini tidak bendera masalah bermasalah: itu tes konsep kunci dalam
elektromagnetisme domain-listrik potensial dalam rangkaian terbuka-dan tidak memerlukan
pengetahuan nonphysics terkait . Sebuah melihat lebih dekat pada Tabel I menunjukkan bahwa statistik
infit berada di kisaran yang dapat diterima, tetapi statistik pakaian tidak memenuhi persyaratan. Hal ini
menunjukkan bahwa siswa mungkin telah membuat kesalahan ceroboh atau tebakan beruntung dalam
menjawab pertanyaan [41]. Memang, hampir 50% dari siswa dalam kuintil atas (menurut perkiraan
kemampuan Rasch dihasilkan) keliru memilih nol sebagai jawaban. Dengan kata lain, para siswa ini
diabaikan baterai di sirkuit dan hanya berfokus pada bagian terbuka dari

sirkuit. Sebaliknya, siswa di bawah dua kuintil memiliki tingkat yang benar 12%, dekat dengan tingkat
keberhasilan rata 19% secara keseluruhan. Siswa-siswa ini mungkin telah menebak dengan benar pada
pertanyaan ini atau sebelumnya mengalami pertanyaan serupa dan dengan demikian hafal jawabannya.

Unidimensionality dan kemandirian lokal

dapat terus bersama-sama sebagai pengukuran bermakna satu konstruk, asumsi unidimensionality
analisis Rasch perlu diverifikasi lebih lanjut. Kami menggunakan pendekatan Bejar untuk
membandingkan dua set parameter kesulitan item berdasarkan seluruh Bema dan subset dari item
Bema, masing-masing. Untuk evaluasi yang ketat, kami mengikuti Bejar ini rekomendasi [20,43] untuk
membagi item menjadi dua bidang konten yang paling berbeda: listrik dan magnet. Tentu saja,
seseorang dapat memilih untuk membagi item dalam berbagai cara lainnya. Namun, semakin berbeda
item antara dua himpunan bagian, semakin banyak informasi yang berguna dapat terungkap. Pada
Bema, pertama 19 item (item 1-item 19) konsep sasaran listrik dan barang-barang yang tersisa (item
20-item 30) Target magnet atau konsep induksi elektromagnetik. Kami memperkirakan parameter
kesulitan barang secara terpisah untuk kedua himpunan bagian dari pertanyaan dan kemudian
membandingkannya dengan yang didasarkan pada seluruh Bema. Gambar 3 (a) menunjukkan plot
pencar dari-Total-test berdasarkan dibandingkan perkiraan berbasis subtes untuk item listrik, dan
Gambar. 3 (b) menunjukkan plot yang sama untuk item magnet.

Gambar. 3 (a) kebohongan dekat garis identitas (garis padat dengan sudut kemiringan 45 °). Sebuah
regresi linier dari titik-titik ini, yaitu, sumbu regresi, menghasilkan garis dengan kemiringan 1,01 (sudut
kemiringan 45,3 °) dan intercept dari 0,22, hampir sejajar dengan garis identitas. Demikian pula, titik-
titik untuk 11 pertanyaan magnet pada Gambar. 3 (b) juga menemukan dekat garis identitas,
membentuk sumbu regresi dengan kemiringan 1,12 (sudut kemiringan 48,2 °) dan intercept dari -0,41.
Menurut Bejar, unidimensionality harus menghasilkan paralelisme erat antara sumbu prinsip dan garis
identitas. Berdasarkan Gambar. 3, ada tampaknya tidak ada bukti untuk mendukung hipotesis bahwa
asumsi unidimensionality dilanggar.
Kami juga mengevaluasi asumsi kemerdekaan lokal dengan
menggunakan metode Yen. Korelasi dari Rasch residual antara setiap item dihitung. Yen dan Fitzpatrick
[45] dianggap korelasi JRJ sisa <0.2 sebagai indikasi kemerdekaan lokal. Dalam penelitian ini, sembilan
korelasi (dari total 435 item-pasangan tions korelasi) ditemukan berada di luar kisaran ini: tiga dari
mereka yang lebih besar dari 0,2 dan enam kurang dari -0,2 (lihat Tabel II). Sementara keseluruhan
asumsi kemerdekaan lokal tampaknya berlaku untuk item Bema, sembilan tions sisa korelasi menjamin
penyelidikan lebih lanjut (lihat Sec. VA).

Gambar. 3. plot Menyebarkan untuk full-tes berbasis vs Bema perkiraan barang berbasis subtes. (a) Plot
Tebar untuk produk listrik (item-item 1
19). (b) Tebar plot untuk item magnet (item-item 20 30).

Analisis kualitatif C. dari Bema konstruk: konten dan kognisi tingkat Bloom
Berdasarkan atas Rasch analisis, ada tampaknya tidak ada bukti kuat yang menunjukkan bahwa item
Bema tidak bisa berfungsi bersama-sama untuk mengukur konstruk yang sama. Tapi pertanyaan tersisa
adalah, apa membangun ini? Seperti yang disebutkan oleh para desainer Bema, penilaian ini
dimaksudkan untuk menguji pemahaman siswa kunci listrik dan magnet topik [10]. Meskipun mungkin
benar, penjelasan ini tidak jelas dari Bema menawarkan sedikit informasi untuk apa sebenarnya
dimaksudkan untuk mengukur. Sebuah account yang lebih rinci dari konstruk Bema diperlukan untuk
interpretasi yang lebih baik dari hasil penilaian. Kami menggunakan direvisi sional taksonomi Bloom dua
dimensi untuk mengklasifikasikan Bema item [46,47].
Kami dikategorikan setiap item dua kali sepanjang konten dan
dimensi kognisi, masing-masing (lihat Gambar. 1). Sebuah panel dua peneliti pendidikan fisika dan satu
fisikawan independen diklasifikasikan semua item menggunakan taksonomi [47]. Selama klasifikasi awal,
ditemukan bahwa kedua
kategori pengetahuan konseptual dan prosedural dapat menangkap isi item Bema. Menurut Krathwohl
[47], pengetahuan konseptual didefinisikan sebagai "hubungan timbal balik antara unsur-unsur dasar
dalam struktur yang lebih besar yang memungkinkan mereka untuk berfungsi bersama-sama," misalnya,
"pengetahuan tentang prinsip-prinsip dan generalisasi" atau "pengetahuan tentang teori, model, dan
struktur. "Krathwohl juga didefinisikan pengetahuan prosedural sebagai" metode penyelidikan dan
kriteria untuk menggunakan keterampilan, algoritma, teknik-teknik dan metode, "misalnya,"
pengetahuan keterampilan subject- khusus dan algoritma "atau" pengetahuan tentang kriteria untuk
menentukan kapan harus menggunakan prosedur yang tepat. "Panel mengakui bahwa item Bema
mengharuskan mahasiswa tidak hanya mengetahui arti dari hukum fisika dan prinsip-prinsip tetapi juga
untuk mengetahui kapan dan bagaimana menggunakannya dengan cara yang logis untuk menjawab
pertanyaan-pertanyaan. Oleh karena itu, kategori konseptual dan prosedural harus berjalan beriringan
dalam analisis item Bema. Oleh karena itu kami menggabungkan dua kategori konten untuk digunakan
dalam penelitian ini.
Tiga anggota panel independen dikategorikan semuanya, dan kemudian catatan klasifikasi dibandingkan
untuk memeriksa keandalan interrater. Kesepakatan awal antara semua anggota panel sebelum diskusi
adalah 90% untuk kategorisasi konten dan 87% untuk kategorisasi kognisi. Untuk kasus yang tersisa,
selalu ada kesepakatan
antara dua dari tiga anggota panel dan yang ketiga
tidak setuju dengan hanya satu tingkat. Divergensi kemudian dibahas antara panel dan akhirnya
diselesaikan. Akibatnya, 23 item (item 1-item 23) dikategorikan sebagai membutuhkan siswa untuk
menerapkan E & M prinsip dengan melaksanakan prosedur aplikasi dalam konteks tertentu
(menerapkan konsep atau prosedur). Tujuh item lainnya (item

24-item 30) diklasifikasikan sebagai membutuhkan siswa untuk mensintesis kedua konsep listrik dan
magnet untuk analisis dalam sistem yang kompleks (menganalisis konsep atau prosedur-prosedur). (Juga
lihat Tambahan Bahan [22].) Menggunakan langkah-langkah item yang Rasch dihasilkan, kita lanjut
dibandingkan sulitnya kedua kategori item. Secara keseluruhan, berarti kesulitan memperkirakan untuk
item yang membutuhkan "kation appli- konsep atau prosedur" dan "analisis konsep atau prosedur" yang
-0,19 [standar errorðSEÞ ¼ 0,19] dan
0.61 (SE ¼ 0,29), masing-masing, dengan mantan menjadi statistik yang lebih rendah daripada yang
terakhir di tingkat kesalahan 4% (p <0,04, ukuran efek d ¼ 0,92).

D. Evaluasi DIF di Bema


Sementara bukti yang muncul memungkinkan kita untuk membuat perbedaan-infer- tentang konstruk
Bema, masih belum jelas apakah atau tidak kita dapat menggunakan penilaian ini untuk
membandingkan berbagai E & M kursus dan menarik kesimpulan yang valid. Kami menggunakan data
dari tradisional dan M & I kursus untuk mencari bukti untuk DIF (potensial bias) di Bema. Untuk
membangun informasi dasar, kami membandingkan Rasch dihasilkan perkiraan kemampuan orang
antara kedua program (lihat Tabel III). Untuk pretest, tidak ada antara kelompok perbedaan yang
signifikan terdeteksi, namun untuk posttest ada perbedaan yang signifikan. Ini berarti siswa di kedua
program dimulai pada tingkat kinerja yang sama, tetapi siswa M & I selesai dengan tingkat yang lebih
tinggi daripada di tradisional kursus-hasil yang konsisten dengan apa yang dilaporkan dalam literatur
[18]. Dalam hal ini, validitas perbedaan posttest menjadi perhatian utama kami, karena itu bisa saja
karena bias potensial di Bema yang mendukung kurikulum M & I.
Kami reestimated Bema parameter item dengan menggunakan
Data dari tradisional dan M & I program secara terpisah. Karena perbedaan dalam posttest adalah
perhatian utama kami dan data pretest tidak memiliki cukup pertandingan orang-item (Gbr. 2), kami
menggunakan data pos untuk analisis DIF. Dua set parameter butir kesulitan (diestimasi berdasarkan
tradisional dan M & I kursus, masing-masing) disajikan dalam plot pencar seperti ditunjukkan pada
Gambar. 4. Dengan kesalahan pengukuran dalam pikiran, kita diplot band 95% confidence (kurva putus-
putus) dan band kepercayaan 99% (kurva padat) di plot (lihat juga Ref. [13]). Titik-titik dalam band ini
mewakili item

Gambar. 4. Sebuah plot pencar dari Bema perkiraan barang kesulitan berdasarkan masing-masing, data
dari tradisional dan M & I kursus. Kurva putus-putus adalah 95% band kepercayaan, kurva padat 99 band
kepercayaan%.
serupa berfungsi untuk siswa dalam program yang berbeda. Mereka yang berangkat dari band item
dengan DIF dan perlu diperiksa. Dalam plot ini, sebagian besar titik-titik berada di dalam atau di sekitar
langsung dari band kepercayaan 95% (khusus dalam 99% band), menunjukkan tidak ada DIF signifikan
dalam item ini. Lima titik jatuh dari band kepercayaan 99%, menandakan DIF signifikan dalam item ini. Di
antara mereka, dua (item 5 dan butir 7) berada di bawah lower band-batas dan oleh karena itu
mendukung siswa M & I, tiga lainnya (item 17, barang 22, dan barang 25) berada di atas band atas-batas
, maka, dalam mendukung siswa dalam kursus tradisional. Selain itu, kami meneliti efek ukuran dari DIF,
yaitu, DIF kontras, dengan mengambil perbedaan dalam perkiraan barang antara kedua kelompok [41].
Ditemukan bahwa DIF kontras untuk item jatuh dari 99% band setidaknya 1,12 dalam ukuran (jDIFjitem
5 ¼ 1,17, jDIFjitem 7 ¼ 1,12, jDIFjitem 17 ¼ 1,57,
jDIFjitem 22 ¼ 1,24, dan jDIFjitem 25 ¼ 1,36). Untuk
item yang tersisa, kontras DIF semua segera
dekat atau di bawah 1, dengan tujuh di antaranya menampilkan ukuran moderat dengan jDIFj ≥ 0,64
(lihat Ref. [41]).
Untuk lebih menjelaskan DIF dalam item ini, kami membagi
siswa dari setiap kursus menjadi lima kuintil menurut perkiraan kemampuan Rasch mereka. Untuk setiap
item, proporsi jawaban yang benar dalam setiap kuintil diplot sebagai fungsi dari kemampuan orang
(lihat Gambar. 5). Selama dua item

mendukung siswa M & I (item 5 dan butir 7), kurva


dari M & I saja terletak lebih tinggi dari yang tradisional
Tentu saja. Sebaliknya, untuk tiga item yang mendukung
Tentu saja tradisional (item 17, barang 22, dan barang 25), yang
pola terbalik. Plot ini mengungkapkan tingkat kemampuan di mana setiap fungsi item yang berbeda-
beda untuk dua kelompok

Gambar. 5. Barang kurva karakteristik (menunjukkan proporsi jawaban yang benar sebagai fungsi dari
kemampuan orang) untuk produk-Bema dengan DIF. Garis padat adalah hasil empiris berdasarkan data
dari tradisional dan M & I kursus hasil masing-masing, garis putus-putus dimodelkan.

siswa. Misalnya, barang 22 menampilkan DIF konsisten antara dua kelompok siswa terlepas dari tingkat
kemampuan. Atau, DIF di item7 berasal sebagian besar dari perbedaan di wilayah kemampuan tinggi.
Selain mencari bukti empiris untuk diferensial
berfungsi pada tingkat item, kami juga dievaluasi kemungkinan diferensial berfungsi pada tingkat
penilaian. Satu

pendekatan adalah untuk merencanakan skor total siswa sebagai fungsi tingkat kemampuan mereka
diperkirakan secara terpisah untuk dua mata kuliah dan kemudian memeriksa deviasi antara dua plot
[52]. Jika dua plot tumpang tindih, tidak ada diferensial berfungsi pada tingkat penilaian. Jika tidak,
penilaian sebagai fungsi keseluruhan berbeda-beda untuk berbagai kelompok mahasiswa. Gambar 6
menunjukkan dua plot untuk tradisional

skor total sebagai fungsi dari perkiraan kemampuan orang) berdasarkan data dari tradisional dan M & I
kursus, masing-masing.

dan M & I kursus, masing-masing. Di sini, dua kurva hampir jatuh ke kurva S berbentuk sama.

V. PEMBAHASAN

A. Membangun dari Bema


Hasil di atas berasal dari analisis Rasch menunjukkan bahwa item Bema, meskipun pengujian berbagai
topik, dapat, secara umum, terus bersama-sama untuk bersama mengukur konstruk yang sama. Yang
mengatakan, dua item gagal untuk masuk ke dalam membangun ini. Satu item (item 9) menuntut siswa
untuk merumuskan jawaban di notasi-matematis faktor berdirinya con- mungkin dalam survei konsep
fisika. Oleh karena itu, revisi yang ditujukan untuk menghapus faktor ini direkomendasikan. Yang lain
item (butir 17) merupakan situasi di mana siswa mungkin telah membuat kesalahan ceroboh karena
beberapa alasan yang tidak diketahui. Sebuah pemantauan ketat dari produk ini dalam studi masa
depan akan berguna. Selain memeriksa statistik fit, yang unidimensionality dari Bema selanjutnya
dievaluasi dengan menggunakan pendekatan Bejar ini. Tidak ada bukti menunjukkan bahwa asumsi ini
dilanggar. Selain itu, evaluasi korelasi residual Rasch menunjukkan bahwa lokal kemerdekaan asumsi
oleh dan besar didukung. Dengan demikian, model kami menggunakan memuaskan dapat menjelaskan
hubungan antara item; atau hanya menempatkan, asumsi bahwa item Bema terkait dengan
membangun bersama memegang [45].
Namun demikian, sembilan pasang item menunjukkan hubungan yang lebih kuat di residual mereka dari
yang diharapkan (Tabel II). Di antara mereka, tiga memiliki hubungan positif yang kuat (r> 0,2) dan enam
memiliki hubungan negatif yang kuat
(r <-0,2). Tiga korelasi positif menunjukkan bahwa
mungkin ada di antara masing-masing pasangan item beberapa faktor umum asing untuk konstruk
bersama penilaian. Sebuah melihat lebih dekat pada barang-barang tersebut mengungkapkan bahwa ini
semua pertanyaan berturut-turut yang berbagi pertanyaan yang sama batang dan diagram. Ada
kemungkinan bahwa kesamaan ini mungkin telah menyebabkan korelasi residual positif. Penelitian
selanjutnya adalah

dianjurkan untuk memisahkan barang-barang ini baik menggunakan pertanyaan yang berbeda batang
dan diagram atau menempatkan mereka di lokasi yang berbeda dari penilaian. Dengan demikian, ence
profesional yang independen lokal dapat lebih akurat diuji untuk memeriksa kehadiran (atau ketiadaan)
faktor yang tidak diinginkan di antara mereka. Sebaliknya, enam korelasi negatif menunjukkan bahwa
mungkin ada beberapa perbedaan yang melekat antara item dalam setiap pasangan. Bahkan, untuk
semua enam pasang, masing-masing berisi satu pertanyaan magnet dan satu pertanyaan listrik (atau
sintesis listrik dan magnet seperti yang terlihat pada butir
26). Oleh karena itu, perbedaan isi antara item dipasangkan dapat menjelaskan korelasi residual negatif.
Hasil ini tampaknya menunjukkan bahwa magnet dan listrik item mungkin tidak cocok sama dengan
baik. Dalam terang kemungkinan ini, totalitas bukti yang diperoleh diperiksa untuk menarik kesimpulan
yang kredibel. Ingat bahwa, dalam pengujian asumsi sionality unidimen-, kami membagi Bema menjadi
dua himpunan bagian dari listrik dan magnet item, dan hasilnya mendukung satu konstruk. Dalam hal
asumsi kemerdekaan lokal, sementara enam dari total 435 pasangan menunjukkan hubungan negatif
yang kuat, mayoritas berada di kisaran yang diinginkan. Selain itu, Rasch cocok statistik menghasilkan
tidak ada bukti untuk sejumlah besar underfits. Menggabungkan semua ini pertimbangan-
pertimbangan, tidak mungkin bahwa memisahkan item listrik dari item magnet dibenarkan. Mengingat
bukti yang muncul di atas, karena itu masuk akal untuk menyimpulkan bahwa skor agregat tunggal pada
Bema dapat digunakan untuk mewakili pemahaman siswa dari E & M topik.
Dalam penelitian ini, konstruk Bema, yang samar-samar dijelaskan oleh desainer sebagai "pemahaman
konsep listrik dan magnet dasar," adalah kualitatif
explicated melalui taksonomi Bloom. Secara khusus,
Bema ditujukan untuk menguji kemampuan siswa dalam menerapkan prinsip-prinsip atau menganalisis
E & M melalui prosedur logis untuk memprediksi berbagai fenomena elektromagnetik. Seperti yang
dituturkan oleh rata ukuran butir kesulitan mereka, pertanyaan yang menuntut siswa untuk melakukan
analisis atau sintesis, secara umum, lebih menantang daripada yang hanya membutuhkan aplikasi, dan
perbedaan dalam tindakan kesulitan mereka adalah ukuran yang besar (d ¼ 0,92). Hasil ini konsisten
dengan sifat hirarkis dari taksonomi Bloom (lihat Gambar. 1).

B. Potensi bias dalam item Bema


Berdasarkan langkah-langkah Rasch, tidak ada DIF signifikan terdeteksi untuk sebagian besar item Bema.
Ini berarti bahwa sebagian besar item berfungsi sama bagi siswa yang memiliki tingkat kemampuan yang
sama terlepas dari tentu saja mereka menghadiri. Namun, analisis kami juga mengungkapkan
kemungkinan bukti DIF selama lima item. Di antara mereka, keduanya mendukung M & I kursus dan tiga
lainnya adalah mendukung program tradisional.
Biasanya, DIF dapat dikaitkan dengan dua penyebab utama. Salah satunya adalah karena kesempatan
yang berbeda bahwa siswa memiliki dari yang terkena isi diuji, dan kebohongan lainnya di
konteks di mana pertanyaan terletak. Pada saat ini

studi, ada bukti kuat yang menunjukkan bahwa dua program memberikan peluang yang sebanding bagi
siswa untuk belajar topik diuji dalam hal waktu instruksi, isi kursus, dan guru berkualitas konseptualisasi
tiga cabang dari kesempatan belajar [31]. Lebih penting lagi, Bema sengaja dirancang untuk menjadi
penilaian common-denominator untuk menguji kunci E & M topik bahwa siswa di kedua tradisional dan
M & I kelas akan memiliki kesempatan sebanding dengan mengakses di program masing-masing [10,18].
Oleh karena itu, kemungkinan penyebab yang terdeteksi DIF dalam penelitian ini mungkin beristirahat
dengan konteks di mana barang-barang tersebut terletak. Untuk batas tertentu, DIF juga dapat dianggap
sebagai indikasi kemungkinan faktor-faktor luar di pertanyaan yang mungkin telah menyebabkan hasil
diferensial bagi siswa dengan tingkat kemampuan yang sebanding; atau hanya menempatkan, mungkin
ada beberapa kehalusan dalam desain item yang mengganggu fungsi dari item [16].
Ambil dua item yang mendukung M & I, misalnya, angka 5
dan barang 7. Butir 5 menuntut siswa untuk menerapkan prinsip sition suppo- untuk menentukan
medan listrik dan disajikan dalam kasus dipol listrik. Item Q7 menuntut siswa untuk menentukan
polarisasi dalam isolator yang dihasilkan oleh medan listrik eksternal. Kedua item yang diajukan dalam
konteks yang sangat akrab bagi siswa M & I. Secara khusus, dipol listrik sering digunakan sebagai
skenario dalam masalah praktek di M & I saja, sedangkan pengaturan yang sama dalam kursus
tradisional terutama dipanggil sebagai contoh khusus dari superposisi medan listrik. Karena tujuan dari
angka 5 adalah untuk menguji aplikasi mahasiswa prinsip superposisi, mungkin konteks selain dipol
listrik bisa dicoba untuk mengurangi kemungkinan DIF. Demikian pula, konteks butir 7 (khususnya
diagram disajikan di dalamnya) sangat menyerupai konteks Scotch contoh rekaman polarisasi yang
sering digunakan dalam M & I saja [30]. Dapat dibayangkan, saat menjawab pertanyaan-pertanyaan ini,
M & I siswa mungkin memiliki keuntungan lebih dari orang-orang dalam perjalanan tradisional.
Namun, DIF potensi tiga item yang mendukung
Tentu saja tradisional sulit dimengerti. Sebuah bangsa exami- lebih lanjut dari bahan kurikulum untuk
kedua program tidak memberikan akun diinterpretasi (baik dari segi isi kursus atau keakraban siswa
dengan konteks item). Satu dalil, bagaimanapun, adalah bahwa siswa dalam kursus tradisional mungkin
dihadapi pertanyaan serupa tidak lama sebelum mengambil Bema, dan karena itu mungkin berhasil
pada item ini. Item 22, mungkin, adalah seperti contoh, karena siswa di semua tingkatan dalam
perjalanan tradisional mengungguli rekan-rekan mereka M & I dari kemampuan orang yang sama
(Gambar. 5). Penjelasan lain alternatif adalah bahwa siswa M & saya membuat kesalahan ceroboh atau
menebak beruntung dalam menanggapi item ini. Misalnya, saat menjawab barang 17, hampir 60% dari
siswa M & I (sebagai lawan 40% dari mereka dalam perjalanan tradisional) memilih "0 volt."
Sebagaimana dibahas sebelumnya (lihat Sec. IV A, paragraf terakhir), mahasiswa ini mungkin diabaikan
baterai dan hanya berfokus pada "open" bagian dari rangkaian. Mengingat

data yang kita miliki, itu adalah tetap tidak jelas mengapa M & I siswa akan membuat kesalahan seperti
itu.
Selain itu, diferensial yang berfungsi pada Assessment yang
tingkat pemerintah dievaluasi. Plot dari total skor terhadap kemampuan seseorang dibandingkan antara
M & I dan kursus nasional tradisi. Fakta bahwa kedua kurva jatuh pada kurva S berbentuk sama
menunjukkan bahwa, meskipun DIF terdeteksi dalam beberapa item Bema, fungsi penilaian seluruh
sama untuk kedua kelompok mahasiswa. Berdasarkan bukti ini dan kesimpulan tersebut tentang Bema
membangun, adalah wajar untuk menyimpulkan bahwa kinerja posttest lebih tinggi dari siswa M & I di
Bema ini mungkin disebabkan oleh bias dalam penilaian. Karena kedua kelompok siswa mulai dengan
ukuran kemampuan preinstructional yang sama, kita sekarang dapat lebih percaya diri atribut ukuran
posttest statistik yang lebih baik dari siswa M & I untuk instruksi yang mereka terima dalam kursus.
Jelas, M & I saja kemampuan keseluruhan peningkatan siswa menerapkan dan menganalisis berbagai
fenomena elektromagnetik (konstruk Bema), tidak hanya meningkatkan kinerja mereka pada topik
tertentu karena potensi bias (karena kalau tidak akan diwujudkan oleh DIF di sejumlah besar item ).
Seperti disebutkan sebelumnya dan ditunjukkan dalam analisis di atas, deteksi DIF sering membutuhkan
kuantitatif dan
pemeriksaan kualitatif dari item yang menarik. Sebuah DIF signifikan secara statistik dapat menjadi
tanda dari barang Bias tetapi tentu tidak menjamin itu. Dalam rangka untuk benar menyimpulkan
barang Bias, sebuah
analisis yang cermat dari isi barang dan konteks yang dibutuhkan. Di
penelitian kami, keunikan kesamaan konten antara dua program berfungsi sebagai jangkar untuk analisis
selanjutnya kami mengenai isu-isu kontekstual berkaitan dengan barang Bias. Telah kita memilih untuk
penyelidikan beberapa kursus fisika lain yang berbeda dalam pedagogi atau belajar gol, hasil DIF
mungkin akan berbeda. Ini bukan untuk mengatakan bahwa kita buru-buru harus mengubah penilaian
setiap kali kita mengidentifikasi DIF. Sebaliknya, sebagai penelitian kami telah digambarkan, ences infer-
dan keputusan yang berasal dari penalaran berbasis bukti dan didukung oleh analisis kuantitatif dan
kualitatif sering bisa lebih bermanfaat dalam jangka panjang.

C. Signifikansi dan implikasi


Meskipun studi ini berfokus terutama pada teknis dari Bema dan menyediakan lama-hilang tapi
tifications jus- sangat dibutuhkan untuk digunakan sebagai alat pengukuran, signifikansi melampaui
penilaian ditargetkan. Seperti dibahas sebelumnya, penilaian konsep ilmu dapat dirancang menjadi
berbagai jenis. Tergantung pada luasnya cakupan isinya, penilaian dapat menguji baik topik yang sempit
(dalam kasus persediaan konsep) atau berbagai topik (dalam kasus survei konsep) [9]. Ketika datang ke
yang terakhir, ekstra hati-hati harus diambil untuk secara empiris memverifikasi keberadaan satu
konstruk [14]. Jika tidak, aksi menggunakan skor agregat untuk mewakili kinerja siswa pada penilaian
tersebut tidak dibenarkan. Bahkan ketika bukti pemasangan dikumpulkan untuk mendukung tunggal
keseluruhan

membangun di tingkat penilaian, mungkin masih ada tingkat item- atau bahkan masalah yang lebih
halus tingkat yang di kejanggalan dengan membangun keseluruhan, seperti lokasi item, variasi konten,
dan fitur kontekstual. Isu-isu ini kemungkinan akan terungkap melalui serangkaian evaluasi seperti yang
kami lakukan dengan Bema. Untuk tujuan ini, penting untuk mempertimbangkan baik totalitas dan
individualitas bukti untuk menarik kesimpulan yang seimbang. Hal ini berguna untuk diingat bahwa tidak
ada penilaian yang sempurna. Semakin erat satu memeriksa penilaian, semakin isu satu akan
menemukan. Namun, isu-isu ini, setidaknya, dapat memberikan bimbingan kunci untuk revisi efektif
item penilaian.
Juga digambarkan dalam penelitian ini adalah pentingnya menggunakan bukti yang tersedia dari
penilaian untuk membuat perbedaan-infer- valid tentang belajar dan mengajar. Sebagai contoh, kita
tidak mencari potensi bias di Bema, kita akan memiliki terlalu tampak diferensial berfungsi dalam
beberapa item. Meskipun tidak ada indikasi untuk membatalkan keseluruhan kinerja yang lebih baik dari
siswa M & I, mencari dan mendokumentasikan bukti empiris ini sangat penting untuk membuat
argumen yang kredibel. Dalam studi ini, bukti yang dilaporkan memungkinkan tinggi keyakinan kita
dalam efektivitas M & I kurikulum dalam mempromosikan pengetahuan inti konten siswa. Tentu saja,
ada faktor-faktor lainnya yang mungkin perlu penyelidikan tambahan atau masalah teknis

yang dapat lebih ditingkatkan. Misalnya, ukuran sampel dalam penelitian ini relatif kecil, yang mungkin
telah membatasi kekuatan analisis mendeteksi DIF dengan ukuran sedang. Namun demikian, praktik
evaluasi seperti yang disajikan dalam makalah ini tidak diragukan lagi dapat membantu kita
mengumpulkan bukti untuk interpretasi yang tepat dan penggunaan penilaian pendidikan. Dengan
meningkatnya bukti di tangan, keyakinan mengenai kami di sejauh mana kesimpulan dan kesimpulan
yang berlaku juga akan meningkat. Setelah semua, penilaian pendidikan adalah "penalaran berbasis
bukti" proses, dan itu memang, seperti yang tepat dinyatakan oleh Messick [53], adalah "sebuah
penilaian evaluatif terintegrasi dari sejauh mana bukti empiris dan alasan-alasan teoritis mendukung
kecukupan dan kesesuaian kesimpulan dan tindakan berdasarkan pada hasil tes atau modus lain dari
penilaian. "

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada William Boone, Irene Neumann, dan Knut Neumann untuk
diskusi yang bermanfaat. Kami juga berterima kasih kepada tiga pengulas untuk komentar wawasan
mereka yang telah menyebabkan peningkatan yang signifikan dari naskah. Penelitian ini sebagian
didukung oleh National Science Foundation (NSF Grant No. DRL 1.252.399).

Anda mungkin juga menyukai