Anda di halaman 1dari 16

Mencari bagian yang hilang dalam penilaian konsep ilmu: Re-evaluasi Listrik dan Magnet Ringkas

Penilaian melalui analisis Rasch

Lin Ding *
Departemen Pengajaran dan Pembelajaran, The Ohio State University, Columbus, Ohio 43210, USA
(Diterima 27 Agustus 2013; diterbitkan 14 Februari 2014)

Penilaian konsep ilmu berbasis disiplin adalah alat yang kuat untuk mengukur gagasan inti disiplin
peserta didik. Di antara banyak penilaian seperti, Brief Listrik dan Magnet Assessment (Bema) telah
secara luas digunakan untuk mengukur konsepsi siswa listrik kunci dan magnet (E & M) topik di tingkat
perguruan tinggi kursus pengantar fisika. Berbeda dengan persediaan konsep khas yang fokus hanya
pada satu topik dari pelajaran, Bema mencakup berbagai topik dalam domain elektromagnetisme.
Terlepas dari fakta ini, penelitian sebelumnya secara eksklusif digunakan skor agregat tunggal untuk
mewakili pemahaman keseluruhan siswa individu dari E & M tanpa memberi penjelasan konstruk
penilaian ini. Selain itu, Bema telah digunakan untuk membandingkan kursus fisika tradisional dengan
kursus direformasi berjudul Materi dan Interaksi (M & I). Sementara temuan sebelumnya yang
mendukung M & I, tidak ada bukti empiris yang berusaha untuk menyingkirkan kemungkinan fungsi
diferensial dari Bema yang mungkin tidak sengaja diuntungkan M & I siswa. Dalam studi ini, kami
menggunakan analisis Rasch untuk mencari dua bagian yang hilang mengenai konstruk dan diferensial
fungsi Bema. Hasil penelitian menunjukkan bahwa meskipun item Bema umumnya dapat berfungsi
bersama-sama untuk mengukur konstruk yang sama dari aplikasi dan analisis dari E & M konsep,
beberapa item mungkin perlu revisi lebih lanjut. Selain itu, barang-barang yang menunjukkan diferensial
berfungsi untuk dua program yang terdeteksi. Isu-isu seperti barang fitur kontekstual dan keakraban
siswa dengan pengaturan pertanyaan mungkin mendasari temuan ini. Penelitian ini menyoroti sering
diabaikan ancaman dalam penilaian konsep ilmu pengetahuan dan memberikan contoh untuk
menggunakan penalaran berbasis bukti untuk membuat kesimpulan yang valid dan argumen.

DOI: 10,1103 / PhysRevSTPER.10.010105 PACS nomor: 01.40.Fk, 01.40.gf

I. PENDAHULUAN

Penilaian merupakan komponen integral dari ilmu pendidikan tion. Ketika dirancang dan dilaksanakan
dengan baik, sistim penilai- an dapat secara efektif digunakan untuk membantu pembelajaran,
memantau kemajuan siswa, dan mengevaluasi program-program pendidikan. Mengingat semakin tinggi
perhatian dibayar untuk hasil dari penilaian dan mungkin konsekuensi mereka untuk pengambilan
keputusan, pendidik dan peneliti didesak untuk menguji kembali kualitas penilaian pendidikan dan
khususnya kesesuaian kesimpulan dan tindakan yang dibuat berdasarkan hasil penilaian [1- 3].
Sebagaimana ditekankan oleh Dewan Riset Nasional, inti dari penilaian pendidikan adalah "penalaran
berbasis bukti" proses [1]. Hal ini tidak hanya harus melibatkan instrumen penilaian hati-hati yang
didasarkan pada teori belajar dan mampu memunculkan pengetahuan dan keterampilan siswa, tetapi
juga membutuhkan model analisis cukup akurat dan mekanisme interpretasi untuk memungkinkan
argumen yang valid dan dapat diandalkan tentang pengajaran dan pembelajaran [4 -7]. Untuk tujuan ini,
hati-hati
*Penulis yang sesuai. ding.65@osu.edu

Diterbitkan oleh American Physical Society di bawah persyaratan Creative Commons Attribution 3.0.
Distribusi lebih lanjut dari pekerjaan ini harus mempertahankan atribusi penulis (s) dan judul artikel yang
diterbitkan ini, kutipan jurnal, dan DOI.

investigasi secara luas digunakan penilaian pendidikan untuk menginformasikan dan membentuk
kurikulum ilmu masa depan dijamin.
Dalam dua dekade terakhir, sejumlah besar ilmu
penilaian telah dikembangkan untuk mengukur berbagai konstruk kognitif siswa. Di antara mereka,
discipline- persediaan konsep berdasarkan telah menjadi fokus penting, karena mereka langsung
menargetkan gagasan inti disiplin. Dalam pendidikan fisika, yang pertama dari jenisnya-nya yang
Inventarisasi Angkatan Concept (FCI) [8] -telah berperan dalam mengungkap siswa alternatif ide
Newtonian dan telah menjabat sebagai katalis bagi banyak fisika reformasi kurikuler. Terinspirasi oleh
ini, peneliti menginvestasikan banyak waktu dan usaha untuk mengembangkan penilaian konsep serupa
untuk digunakan dalam domain subjek lain seperti listrik dan magnet (E & M) serta disiplin ilmu lainnya
[9,10]. Sementara instrumen ini sering digunakan untuk mengukur belajar siswa dari gagasan inti disiplin
dan membandingkan efektivitas kurikulum ilmu, mereka sering digunakan dengan kredibilitas prima
facie tanpa dikenakan validitas dan reliabilitas penyelidikan tambahan. Misalnya, dalam banyak kasus
pemahaman siswa dari topik ilmiah diwakili dengan skor tunggal pada PENILAIAN jumlah dari
pertanyaan siswa telah menjawab dengan benar. Pendekatan ini untuk mewakili mahasiswa konseptual
pemahaman sebagian besar didasarkan pada asumsi diduga; yaitu, skor tunggal adalah indikator yang
cukup dan bermakna yang dapat menyebabkan kesimpulan yang valid tentang pemahaman siswa

1554-9178 = 14 = 10 (1) = 010.105 (15) 010105-1 Diterbitkan oleh American Physical Society

topik diuji [13/11]. Namun, asumsi ini tidak selalu memegang, terutama dalam situasi di mana penilaian
dirancang untuk menguji beragam topik [14]. Dalam kasus tersebut, skor agregat tunggal dapat menjadi
masalah atau bahkan menyesatkan (sebagai seperangkat nilai yang terpisah mungkin diperlukan untuk
mewakili terbaik setiap set topik terkait erat). Akibatnya, analisis dan interpretasi berasal dari skor
agregat tersebut cenderung menghasilkan kesimpulan yang tidak akurat atau bahkan salah.
Demikian pula, bila menggunakan penilaian konsep untuk membandingkan
efektivitas kurikulum yang berbeda yang mencakup konten yang sama, masalah namun sering diabaikan
kritis adalah penilaian Bias [15,16]. Idealnya, penilaian yang dipilih sesuai dan berfungsi sebagai ukuran
berisi untuk semua siswa dalam kurikulum yang berbeda, jika kesempatan belajar sebanding memang
disediakan untuk siswa dalam kurikulum ini. Namun, tidak jarang bahwa kesalahan pengukuran nol
konsisten, juga dikenal sebagai bias, dapat terjadi di beberapa bagian dari penilaian [15]. Misalnya,
pertanyaan tentang penilaian mungkin terletak dalam konteks yang lebih akrab bagi siswa dalam satu
kelas daripada mereka yang lain. Hal ini dapat mengakibatkan siswa di bekas kelas memiliki tingkat
keberhasilan yang lebih tinggi secara tidak sengaja pada pertanyaan, meskipun kedua kelas mungkin
memang berbagi penguasaan serupa topik diuji. Isu tersebut kemungkinan akan tidak terdeteksi jika
mereka tidak secara empiris diperiksa dan dipantau, dan sebagai hasilnya, kesimpulan dan kesimpulan
yang diambil dari hasil penilaian dapat condong kenyataan. Pada terburuk mereka, ini kesimpulan miring
mungkin baik mengembang atau meremehkan efektivitas kurikulum ilmu, misinforming pengambilan
keputusan di masa depan pengembangan kurikulum dan reformasi.
Dalam makalah ini kami menguji kembali salah satu luas digunakan
penilaian konsep, Brief Listrik dan Magnet Assessment (Bema) [10], untuk menyoroti isu-isu penting
yang telah diabaikan dalam pekerjaan sebelumnya. Secara khusus, menggambar pada "alasan-dari-
bukti" kerangka, kami berusaha untuk mengungkap dua bagian yang hilang dalam praktek umum
menggunakan penilaian ilmu untuk membandingkan efektivitas kurikulum. Satu berkaitan dengan alasan
mewakili mahasiswa konseptual pemahaman berdiri dengan skor agregat. Masalah ini merupakan dasar
karena tubuh studi mengandalkan pendekatan ini untuk menafsirkan hasil Bema dan menarik
kesimpulan [17,18]. Jika tidak ada bukti yang ditemukan untuk mendukung pendekatan ini, sebagian
besar hasil sebelum akan menjadi dipertanyakan. Masalah lain yang kita cari ke alamat adalah apakah
penilaian ini berpotensi bias mendukung satu kelompok siswa dari yang lain. Sebagai contoh, Bema
telah diadopsi untuk mengukur pemahaman siswa kunci listrik dan magnet konsep dalam kurikulum
fisika yang berbeda di mana siswa terkena konten yang sama [18]. Perbandingan sering dilakukan tanpa
memeriksa kemungkinan bias dan karenanya tidak memberikan bukti untuk adanya potensi ancaman
ini.

II. LATAR BELAKANG TEORI

Setelah kerangka penalaran berbasis bukti, kami berusaha untuk menyelidiki potongan-potongan yang
hilang dalam konteks Bema untuk menggambarkan signifikansi konsekuensial mereka dalam penilaian
pendidikan sains. Pada bagian ini, kita (1) meninjau konten dan membangun dari Bema, (2) menjelaskan
ancaman mungkin dalam menggunakan skor agregat untuk mewakili pemahaman konseptual siswa, dan
(3) mengatasi perspektif teoritis potensi Bias pengukuran dalam menggunakan konsep penilaian untuk
studi banding. Dari ketiga aspek tersebut, dua terakhir langsung berhubungan dengan dua bagian yang
hilang kita mencoba untuk mencari di Bema.

A. Isi dan membangun dari Bema


Bema adalah penilaian pilihan ganda 30-item yang dirancang untuk mengukur pemahaman konseptual
siswa topik kunci dalam listrik dan magnet [10]. Karena dimaksudkan untuk menjadi penilaian common-
denominator cocok untuk digunakan di berbagai perguruan tinggi tingkat pengantar E & M kursus,
hanya mereka yang dianggap konsep inti oleh instruktur dari kedua program tradisional dan direformasi
termasuk dalam penilaian [10]. Untuk sebagian besar, saham Bema banyak kesamaan dengan
persediaan konsep segi desain, format, dan penggunaan. Dengan kata lain, seperti dengan persediaan
konsep, Bema dirancang untuk menyelidiki siswa con- pemahaman konseptual ide inti disiplin, diformat
dalam modus pilihan ganda, dan dapat digunakan untuk kedua pengukuran sebelum dan
postinstructional untuk melacak siswa pembelajaran ing keuntungan . Namun, juga berbeda terasa dari
persediaan konsep biasa dalam hal luasnya konten tercakup dalam penilaian. Biasanya, persediaan
konsep penilaian yang dirancang untuk menyelidiki pemahaman siswa dari satu topik [19-21]. FCI adalah
seperti contoh yang berfokus hanya pada konsep Newtonian kekuatan-salah satu dari banyak topik yang
dibahas dalam mekanika [8]. Atau, Bema mencakup berbagai konsep kunci dalam domain listrik dan
magnet. Topik di dalamnya berkisar dari biaya listrik dan bidang yang biasanya diajarkan pada awal
kursus E & M untuk elektromagnetik induksi netic, seperti hukum Ampere dan hukum Faraday, yang
dibahas di dekat akhir kursus [10] (juga lihat Tambahan Bahan [22]). Untuk membedakan penilaian
dengan cakupan yang luas konten (seperti Bema) dari orang-orang dengan fokus menyempit (seperti
FCI), peneliti mengacu pada mantan survei konsep dan yang terakhir sebagai persediaan konsep [9].
Cakupan isi luas dalam Bema menimbulkan serius
Pertanyaan: Apakah menggunakan nilai tunggal dengan menjumlahkan jawaban yang benar dengan cara
yang berarti untuk mewakili pemahaman keseluruhan siswa dari domain subjek yang luas ini? Dengan
kata lain, kita dapat membuat klaim tentang pemahaman konseptual siswa berdasarkan survei konsep
yang luas ini? Atau, dari perspektif pengukuran, dapat dengan pertanyaan-pertanyaan individu pada
Bema yang ditujukan pada berbagai topik

berubah menjadi kohesif membangun-sifat atau kompetensi yang menarik? Tidak seperti persediaan
konsep yang lebih mudah untuk membuat sebuah argumen tentang membangun terfokus karena
homogenitas konten dan karenanya tentang alasan menggunakan skor agregat tunggal untuk mewakili
konstruk, itu menantang untuk membuat kasus yang meyakinkan untuk survei konsep [14] .
Dari teori pengukuran sudut pandang, konstruk jelas menggambarkan batasan eated sangat penting
untuk interpretasi data yang valid dan kesimpulan. Namun, ketika isi penilaian
diuji oleh pertanyaan yang berbeda menjadi semakin heterogen
geneous, pertanyaan-pertanyaan ini menjalankan risiko yang berpotensi wakili ing berbeda konstruksi
yang mendasari atau dimensi yang berbeda, sehingga mengurangi koherensi dan interpretability apa
penilaian adalah pengujian [14,23,24]. Bahkan, untuk penilaian dengan bandwidth konten luas, bahkan
ketika teori tes klasik melaporkan keandalan yang tinggi, sebuah konstruksi tunggal atau ality
unidimension- masih tidak dapat dijamin [23]. Dalam hal ini, menggunakan nilai tunggal untuk mewakili
beberapa konstruksi atau dimensi yang berbeda meningkatkan ketidakpastian pengukuran dan
mengaburkan sifat konstruk dimaksudkan. Secara khusus, dua sumber ambiguitas kemungkinan akan
diperkenalkan ke hasil tes. Salah satunya adalah ketidakjelasan kontribusi masing-masing dimensi
dengan skor komposit. Yang lain adalah ketidakpastian dalam perbandingan nilai, karena "nilai komposit
yang sama kemungkinan akan mencerminkan kombinasi yang berbeda dari konstruksi untuk anggota
yang berbeda dari sampel" [14]. Mengingat landasan teori ini, sangat penting bahwa konstruk Bema
secara empiris diselidiki untuk menawarkan argumen yang meyakinkan untuk validitas menggunakan
nilai tunggal untuk mewakili belajar siswa dari berbagai E & M topik. Sayangnya, masalah ini belum
dibahas dalam penelitian sebelumnya.
Dari sudut pandang teoritis yang berbeda dari fisik scien- ces, listrik dan magnet konsep oleh alam harus
membentuk keseluruhan kohesif, karena topik di daerah ini, tidak peduli bagaimana kompleks atau
tampaknya beragam mereka, selalu dapat ditelusuri kembali tidak lebih dari beberapa mendasar
prinsip mengenai biaya, bidang, dan interaksi mereka
[25]. Mungkin ini sebabnya isi pengantar tingkat E & M kursus telah lebih atau kurang tetap konstan
untuk abad terakhir. Namun demikian, landasan ilmiah ini tidak memiliki verifikasi empiris, terutama
ketika datang ke belajar dan mengajar topik ini. Sebagai contoh, penelitian sebelumnya dari FCI telah
menunjukkan bahwa konstruk kekuatan konsepsi Newtonian dilihat dari perspektif ilmiah sering sejajar
dengan hasil empiris dari belajar siswa dari topik ini [26,27]. Untuk tujuan ini, perlu bahwa kita
mengungkap bukti membangun terkait untuk Bema untuk membuat kesimpulan tentang sejauh mana
berdiri siswa memahami listrik dan magnet dapat direpresentasikan dengan skor tunggal.

B. Pengukuran bias dan barang diferensial fungsi


Bias pengukuran isu kritis lain dalam praktek berbasis bukti penilaian pendidikan sains

[15,16]. Dalam banyak studi banding, peneliti sering memilih penilaian konsep umum untuk digunakan
dengan beberapa kelompok siswa untuk mencari yang berarti perbedaan antara kelompok. Agaknya,
setiap pertanyaan pada penilaian adalah berisi; atau lebih khusus, perbedaan prestasi siswa pada setiap
item harus semata-mata ditentukan oleh perbedaan nyata dalam membangun yang diukur. Pada
prinsipnya, siswa pada tingkat yang sama kompetensi yang diukur dengan penilaian harus menunjukkan
yang sama (atau serupa) kinerja pada setiap pertanyaan terlepas dari keanggotaan kelompok mereka.
Jika perbedaan yang signifikan dalam kinerja siswa pada item antara mereka dengan tingkat yang sama
kompetensi di masing-masing kelompok, item dianggap berfungsi secara berbeda untuk kelompok yang
berbeda. Atau hanya menempatkan, ia memiliki barang diferensial berfungsi (DIF), mengendalikan
tingkat kemampuan siswa. Perlu dicatat bahwa tidak setiap perbedaan antara kelompok harus
dipertimbangkan sebagai DIF. Hanya mereka untuk dicocokkan siswa-orang dengan tingkat yang sama
kompetensi bahwa penilaian ini dimaksudkan untuk menguji-dianggap sebagai DIF [15,16]. Praktis,
sebuah DIF bisa menjadi tanda item Bias namun tidak menjamin itu. Dengan kata lain, DIF adalah perlu
tetapi bukan kondisi yang cukup untuk item Bias [28]. Apakah atau tidak pertanyaan dengan DIF benar-
benar kebutuhan bias untuk diperiksa melalui analisis isi dan konteks dalam kaitannya dengan target
membangun yang diukur.
Secara teoritis, DIF merupakan pengukuran potensial
bias dalam pertanyaan yang dapat disebabkan oleh dua efek utama: konten dan konteks [29]. Efek
konten terletak pada kesempatan belajar diferensial bahwa kelompok-kelompok yang berbeda dari
siswa mungkin memiliki [15]. Misalnya, jika pertanyaan tes pengetahuan siswa tentang alat musik,
mereka yang telah terkena orkestra simfoni mungkin memiliki kesempatan yang lebih baik untuk
berhasil pada pertanyaan ini daripada mereka yang tidak. Sebuah DIF karena seperti efek konten tidak
berarti pertanyaannya adalah bias atau bermasalah dan karena itu mungkin tidak menjadi perhatian
utama para peneliti '. Di sisi lain, efek konteks terjadi ketika perubahan dalam pengaturan pertanyaan
mempengaruhi kinerja siswa [29]. Misalnya, jika kelompok tertentu dari siswa terjadi lebih akrab dengan
skenario pertanyaan (tidak dengan apa pertanyaannya adalah dimaksudkan untuk menguji) dan
karenanya memiliki kesempatan lebih tinggi untuk menjawab dengan benar, peningkatan kinerja ini
undesir- mampu dan perlu dikontrol.
Penelitian sebelumnya menggunakan Bema untuk mempelajari effective relatif
tiveness kurikulum fisika telah diabaikan isu penting dari potensi bias dalam penilaian. Dalam studi skala
besar, Kohlmyer dkk. [18] digunakan Bema untuk mengukur pemahaman konseptual siswa listrik dan
netism Magma dalam dua kurikulum fisika. Salah satunya adalah kursus fisika berbasis kalkulus tingkat
perguruan tinggi tradisional, dan yang lainnya adalah kursus direformasi disebut Materi dan Interaksi (M
& I) [30]. Dalam kedua kursus, siswa diminta untuk menghadiri kelas untuk jumlah waktu yang sama,
terkena isi kursus yang sama dalam jangka akademik yang sama, dan diajarkan
oleh instruktur berpengalaman sama [18]. Perbedaan utama antara dua program, bagaimanapun,
adalah bahwa urutan topik di M & I kursus ulang untuk menyoroti struktur hirarkis pengetahuan fisika
berpusat pada prinsip-prinsip dasar beberapa. Kohlmyer dkk. dibandingkan skor total siswa antara
kedua kurikulum dan menemukan bahwa siswa di M & I mengungguli rekan-rekan mereka dalam kursus
fisika tradisional. Setelah memperhitungkan banyak faktor pembaur, Kohlmyer dkk. mencapai
kesimpulan bahwa M & I saja lebih efektif dalam mempromosikan pemahaman konseptual siswa dari
inti E & M ide dari kursus tradisional. Namun, dalam pandangan kerangka penalaran berbasis bukti,
sepotong mendukung penting yang hilang; yaitu, ancaman potensial bias yang belum dikesampingkan.
Memang benar bahwa Bema dirancang untuk cocok untuk kedua tradisional dan kurikulum M & I, dan
penelitian sebelumnya telah menetapkan bukti terkait konten yang cukup. Meskipun demikian, tidak
ada data empiris telah dibentuk untuk memverifikasi bahwa pertanyaan Bema memang tidak sengaja
berpihak pada siswa M & I. Tanpa bukti yang mendukung ini, argumen tentang peningkatan efektivitas
M & I kurikulum dapat meragukan.
Perlu dicatat bahwa dalam kasus ini tidak ada bukti yang menunjukkan peluang yang berbeda bagi siswa
untuk belajar
topik diuji antara dua program. Menurut Kurz dan Elliott [31], kesempatan belajar yang dikonsep sebagai
terdiri dari tiga aspek kunci: waktu instruksi, konten, dan
kualitas. Seperti disebutkan sebelumnya, kedua kursus berlangsung di
jangka akademik yang sama dan terlibat waktu instruksi yang sama. Selain itu, siswa di kedua kursus
terkena isi yang serupa, meskipun siswa M & saya belajar topik yang diperlukan dengan mengikuti
urutan yang berbeda yang menggarisbawahi struktur hirarkis dari perusahaan fisika. Selain itu,
instruktur yang mengajar kursus ini sama-sama pengalaman- enced dan tidak memberikan alasan untuk
mengasumsikan perbedaan yang signifikan dalam kualitas pengajaran mereka. Mungkin lebih penting
lagi, para pengembang Bema menekankan bahwa penilaian ini dimaksudkan untuk menjadi ujian
common-denominator. Oleh karena itu, topik item pengujian yang tidak dibahas atau hanya
diperlakukan sebagai penting perifer di salah satu dari dua kursus tidak termasuk dalam Bema [10,18].
Untuk tujuan ini, apa yang Bema dimaksudkan untuk menguji diduga mereka kunci E & M topik yang
baik M & I siswa tradisional dan akan memiliki kesempatan- kesempatan sebanding dengan mengakses
dalam kursus masing-masing. Ini memang perlu diverifikasi secara empiris, karena perbandingan antara
M & I dan kursus tradisional didasarkan pada dalil bahwa Bema tidak mendukung satu saja dari yang lain
[18].

Tujuan C. Penelitian
Dalam studi ini, kami menyelidiki tersebut dua bagian yang hilang. Secara khusus, kita mencoba untuk
menjawab pertanyaan-pertanyaan berikut. (1) Apakah pertanyaan individu pada Bema membentuk
konstruk kohesif untuk memungkinkan interpretasi bermakna dengan menggunakan skor agregat
tunggal? (2) Jika jawaban untuk pertanyaan sebelumnya adalah afirmatif, maka apa

sebenarnya konstruk yang Bema dimaksudkan untuk mengukur? Sebaliknya, jika jawaban pertanyaan
sebelumnya adalah negatif, maka bagaimana seharusnya kita lebih mewakili kinerja siswa untuk
memungkinkan kesimpulan yang valid? (3) Bukti apa yang bisa berbicara dengan isu potensi DIF di Bema
ketika membandingkan dua program, tradisional dibandingkan M & I?

AKU AKU AKU. METODE


A. sampel Mahasiswa dan pengaturan
Dalam rangka memberikan jawaban empiris ke pertanyaan-pertanyaan di atas, kita diberikan Bema
untuk siswa dalam sains dan teknik jurusan di universitas riset besar AS. Siswa-siswa ini terdaftar di dua
berbasis kalkulus intro ductory E & M kursus paralel dalam jangka akademik yang sama. Kedua kursus
yang urutan kedua masing dua kurikulum semester fisika dan diajarkan oleh anggota staf pengajar
senior sama berpengalaman yang dihargai dan com- mitted untuk pengajaran yang efektif. Salah
satunya adalah kursus tradisional, di mana siswa dihadiri tiga kuliah 50 menit dan satu
2 jam lab setiap minggu. Topik yang dibahas dalam kursus ini diikuti urutan konvensional (lihat
Tambahan Bahan [22]). Yang lainnya adalah kursus Materi dan Interaksi E & M [30,32,33]. Siswa dalam
kursus ini juga dihadiri tiga
50 menit kuliah dan laboratorium 2 jam setiap minggu. Meskipun topik yang dibahas di M & I pada
dasarnya sama dengan yang dibahas dalam kursus tradisional, urutan itu reor- negoisasi dengan
mengikuti struktur hirarki, berprinsip (lihat Tambahan Bahan [22]) untuk membantu siswa meningkatkan
con konseptual koherensi [33] . Rincian lebih lanjut tentang kurikulum M & I dapat ditemukan di Ref.
[30,33]. Seperti halnya dalam studi yang dilakukan oleh Kohlymer et al., Siswa di kedua program yang
memberikan kesempatan yang sama untuk mempelajari topik diuji pada Bema, karena mereka terkena
waktu sebanding instruksi, isi kursus, dan kualitas guru.
Kami diberikan Bema baik sebagai pretest dan posttest untuk siswa di tradisional dan M & I kursus.
Pretest
dilakukan pada minggu pertama saja sebagai bagian dari kegiatan kelas; total 190 siswa menghadiri
kelas di
hari yang Bema diberikan mengambil tes (102
dari kelas tradisional dan 88 dari M & I). Untuk mengamankan tes untuk digunakan postinstructional,
tidak ada umpan balik yang diberikan kepada siswa, dan siswa tidak diberitahu mereka akan diuji ulang
pada akhir masa akademik. Posttest diberikan pada minggu terakhir tentu saja; 165 siswa menghadiri
kelas pada hari acara selesai tes (82 dari kelas tradisional dan 83 dari M & I). Perhatikan bahwa ada
penurunan kehadiran yang signifikan di kelas nasional tradisi dekat akhir semester, alasan yang masih
belum diketahui.

Analisis B. Rasch item Bema dan model fit


Dalam rangka untuk mencocokkan tujuan penelitian, kami memilih model Rasch dikotomis untuk
memeriksa data yang dikumpulkan. Keputusan ini dibuat berdasarkan berikut

pertimbangan. Pertama, Rasch analisis dapat memungkinkan kita untuk memeriksa apakah masing-
masing item jatuh di bawah satu dimensi tunggal untuk menyesuaikan model, dan karenanya dapat
memberikan bukti untuk argumen-konstruk yang terkait tentang Bema [11-13,34,35]. Kedua, analisis
Rasch dapat mengkonversi data mentah tingkat ordinal- untuk satu set perkiraan interval tingkat [36-
39]. Sebenarnya, total nilai yang umum digunakan adalah tidak kontinyu (meskipun mereka memiliki
perintah) dan tidak bisa langsung dikenakan berbagai analisis statistik yang hanya data interval dapat
sesuai. Analisis Rasch dapat mengatasi masalah ini dengan membuat skala interval pengukuran untuk
kedua item dan responden [13/11]. Keuntungan intrinsik lain dari analisis Rasch adalah bahwa model
estimasi barang kesulitan dan kemampuan orang yang independent sample, yang juga dikenal sebagai
invarian pengukuran [40]. Ini berarti bahwa pasangan item kesulitan estimasi yang diperoleh dari
analisis Rasch tetap lebih atau kurang konstan terlepas dari sampel siswa mengambil tes (mengingat
bahwa model fit memuaskan untuk sampel). Demikian pula, perkiraan kemampuan seseorang bersifat
tetap terlepas dari tingkat kesulitan dari item yang dikumpulkan menjadi tes. Karena sifat invarian, kita
dapat menggunakan hasil Rasch dihasilkan untuk mendeteksi DIF di pertanyaan Bema untuk memeriksa
apakah atau tidak bias potensial ada. Dalam studi ini, kami menggunakan software Winsteps [41] untuk
melaksanakan Rasch dan DIF analisis.

C. Analisis Bema konstruk

1. Analisis Rasch dari unidimensionality dan kemandirian lokal item Bema


Untuk mencari bukti-konstruk yang terkait untuk Bema, kami-contoh INED fit dari data dengan model
Rasch. Untuk setiap item, analisis Rasch melaporkan seperangkat statistik fit: infit dan pakaian berarti
residual persegi dan Z skor standar mereka (lihat di bawah untuk rincian). Statistik ini mencerminkan
seberapa baik kumpulan data sesuai dengan model [41]. Karena model Rasch mengasumsikan semuanya
jatuh di bawah satu dimensi tunggal (unidimensionality), statistik fit melaporkan dapat membantu
mengidentifikasi item, jika ada, tidak memenuhi persyaratan ini [13,41].

Selain memeriksa statistik fit, asumsi ality unidimension- perlu verifikasi lebih lanjut [20]. Total tes Bejar
versus pendekatan subtes adalah salah satu cara untuk mengevaluasi asumsi ini [20,42,43]. Ide utama
adalah untuk memperkirakan parameter butir kesulitan dua kali, pertama dengan menggunakan total
tes dan kemudian dengan hanya menggunakan subset dari tes. Jika item penilaian membentuk konstruk
tunggal kohesif, plot pencar dari dua set perkiraan harus menunjukkan titik dekat sejajar dengan garis
lurus dengan kemiringan 1 dan intercept dari 0 Di sisi lain, jika poin diplot secara signifikan berangkat
dari garis , asumsi mensionality unidi- dilanggar. Dalam studi ini, kami menggunakan pendekatan ini
untuk menguji unidimensionality item Bema.
Terkait dengan unidimensionality adalah asumsi penting dari model Rasch: kemerdekaan lokal.
Ini berarti bahwa korelasi antara tanggapan siswa untuk setiap item harus dijelaskan seluruhnya oleh
dua faktor: Item kesulitan dan orang kemampuan [13,44,45]. Metode Q3 yen menyediakan cara praktis
untuk menguji yang bebas yang pendence asumsi lokal [45]. Metode ini melihat ke dalam
korelasi dari Rasch residual setelah menghapus bagian
varians yang telah dijelaskan oleh item dan orang perkiraan. Seperti yang direkomendasikan oleh Yen
dan Fitzpatrick [45], korelasi residual dengan magnitude kurang dari 0,2 dapat diterima. Kami mengikuti
pendekatan ini untuk memperoleh bukti lebih lanjut mengenai apakah item Bema hanya terkait dengan
konstruk mereka dimaksudkan untuk mengukur.

2. Analisis kualitatif Bema konstruk


Mengartikulasikan apa yang sebenarnya Bema bermaksud untuk mengukur, kami menganalisis masing-
masing item dengan menggunakan direvisi dua dimensi Bloom taksonomi [46-49]. Kedua dimensi dalam
taksonomi Bloom yang konten dan kognisi. Isi dimensi, diwakili oleh satu set kata benda,
mengungkapkan "apa" jenis pengetahuan diuji oleh setiap item. Ada, dari yang terendah ke tingkat
tertinggi, empat jenis: fakta, konsep atau prinsip-prinsip, prosedur, dan pengetahuan metakognitif (lihat
Gambar 1.). Dimensi kognisi, yang ditandai dengan kata kerja, menunjukkan "bagaimana" proses mental
yang dilakukan. Dengan perintah meningkatnya kompleksitas, tingkat kognisi ini termasuk mengingat
atau mengenali,

Gambar. 1. Dua-dimensi taksonomi Bloom. Dimensi vertikal mengandung jenis pengetahuan (diwakili
oleh kata benda); dimensi horisontal mengandung proses kognisi (diwakili oleh verba).

memahami, menerapkan, menganalisis atau mensintesis, mengevaluasi, dan menciptakan. Kami


diklasifikasikan item Bema ke dua dimensi-ini-dimensi untuk menjelaskan di mana konten dan tingkat
kognisi penilaian ini ditujukan. Analisis ini melayani dua tujuan penting. Salah satunya adalah untuk
memberikan deskripsi diartikulasikan dari konstruk Bema, yang pengembang hanya samar-samar
dilaporkan sebagai "pemahaman dasar listrik dan konsep isme magnet-." Sejak taksonomi Bloom adalah
kerangka operasional umum untuk memberi penjelasan tujuan-pendidikan-tujuan, dapat membantu
menangkap rincian kualitatif Bema membangun sambil tetap mempertahankan tingkat yang tepat dari
umum. Tujuan lainnya adalah untuk memeriksa, bersama-sama dengan langkah-langkah Rasch, apakah
atau tidak item diklasifikasikan pada tingkat yang lebih tinggi dari taksonomi Bloom memang lebih sulit
dibandingkan di tingkat yang lebih rendah. Hasil tersebut dapat melemparkan cahaya berguna pada
rincian Bema konstruksi.

Analisis D. Rasch berbasis DIF di Bema


Untuk menguji potensi DIF di Bema untuk dua kelompok siswa (tradisional vs M & I), kita secara terpisah
menganalisis data dari dua program. Seperti metode Bejar sebelumnya, kami menganalisis Bema barang
kesulitan dua kali, pertama dengan menggunakan data yang dikumpulkan dari lapangan tradisional dan
kemudian dengan menggunakan data dari M & I saja. Menurut properti invarian pengukuran Rasch, dua
set perkiraan kesulitan item, yang keduanya dibatasi untuk memiliki rata-rata nol secara default, harus
kira-kira sama atau berbeda hanya konstan [13]. Tentunya, tidak ada pengukuran yang sempurna, dan
pada kenyataannya kesalahan selalu terlibat. Dengan demikian, perbedaan antara dua set perkiraan
dalam kisaran kesalahan tertentu (misalnya, 1% atau 5%) diterima. Kami menggunakan langkah-langkah
Rasch untuk mendeteksi potensi DIF untuk setiap item pada Bema.

IV. HASIL

Analisis A. Rasch dari Bema: Barang berkualitas dan model fit


Berdasarkan poin data yang dikumpulkan, orang dan barang keandalan Bema ditemukan untuk menjadi
0,78 dan 0,96, masing-masing, menunjukkan ukuran yang memadai untuk memungkinkan bermakna
analisis Rasch berikutnya. Perhatikan bahwa orang kehandalan dalam analisis Rasch setara dengan
nasional indeks KR-20 konvensi atau alpha Cronbach. Ini pada dasarnya menunjukkan sejauh mana
penempatan orang dapat direplikasi jika tes serupa diberikan kepada peserta yang sama. Keandalan
item, di sisi lain, tidak memiliki setara konvensional. Ini merupakan tanggung replikasi penempatan
barang di sepanjang hirarki kesulitan jika tes ini diberikan pada kelompok yang sama dari siswa. Dalam
membuat keputusan tentang penerimaan kehandalan, satu dapat menggunakan kriteria tradisional
sebagai referensi; yaitu, nilai sama dengan atau di atas 0,7 biasanya dianggap memuaskan [10,50,51].

Pada inti dari analisis Rasch adalah pengumpulan bukti-konstruk yang terkait untuk Bema. Salah satu
cara untuk melakukan ini adalah untuk menguji kualitas barang dan model fit. Seperti disebutkan
sebelumnya, analisis Rasch menghasilkan satu set interval tingkat estimasi pasangan untuk item
kesulitan dan kemampuan orang. Karena mereka pada skala interval yang sama, kita bisa plot mereka
berdampingan untuk memeriksa barang dan orang distribusi. Plot seperti itu disebut peta Wright
[12,13,35].
Secara khusus, angka 9 meminta siswa untuk menentukan arus dalam air garam dengan menggunakan
kecepatan gerak dan jumlah biaya ion di dalamnya. Meskipun pertanyaan ini menargetkan topik konten
yang relevan dari polarisasi dalam larutan ion, memerlukan siswa untuk merumuskan jawaban dalam
simbol-simbol matematika. Mungkin komponen matematika ini membuat menyimpang pertanyaan dari
apa yang awalnya ditujukan untuk. Pertanyaan lain yang menunjukkan underfit adalah barang 17.
Sebuah sekilas pertanyaan ini tidak bendera masalah bermasalah: itu tes konsep kunci dalam
elektromagnetisme domain-listrik potensial dalam rangkaian terbuka-dan tidak memerlukan
pengetahuan nonphysics terkait . Sebuah melihat lebih dekat pada Tabel I menunjukkan bahwa statistik
infit berada di kisaran yang dapat diterima, tetapi statistik pakaian tidak memenuhi persyaratan. Hal ini
menunjukkan bahwa siswa mungkin telah membuat kesalahan ceroboh atau tebakan beruntung dalam
menjawab pertanyaan [41]. Memang, hampir 50% dari siswa dalam kuintil atas (menurut perkiraan
kemampuan Rasch dihasilkan) keliru memilih nol sebagai jawaban. Dengan kata lain, para siswa ini
diabaikan baterai di sirkuit dan hanya berfokus pada bagian terbuka dari

sirkuit. Sebaliknya, siswa di bawah dua kuintil memiliki tingkat yang benar 12%, dekat dengan tingkat
keberhasilan rata 19% secara keseluruhan. Siswa-siswa ini mungkin telah menebak dengan benar pada
pertanyaan ini atau sebelumnya mengalami pertanyaan serupa dan dengan demikian hafal jawabannya.

Unidimensionality dan kemandirian lokal

Analisis kualitatif C. dari Bema konstruk: konten dan kognisi tingkat Bloom
Berdasarkan atas Rasch analisis, ada tampaknya tidak ada bukti kuat yang menunjukkan bahwa item
Bema tidak bisa berfungsi bersama-sama untuk mengukur konstruk yang sama. Tapi pertanyaan tersisa
adalah, apa membangun ini? Seperti yang disebutkan oleh para desainer Bema, penilaian ini
dimaksudkan untuk menguji pemahaman siswa kunci listrik dan magnet topik [10]. Meskipun mungkin
benar, penjelasan ini tidak jelas dari Bema menawarkan sedikit informasi untuk apa sebenarnya
dimaksudkan untuk mengukur. Sebuah account yang lebih rinci dari konstruk Bema diperlukan untuk
interpretasi yang lebih baik dari hasil penilaian. Kami menggunakan direvisi sional taksonomi Bloom dua
dimensi untuk mengklasifikasikan Bema item [46,47].
Kami dikategorikan setiap item dua kali sepanjang konten dan
dimensi kognisi, masing-masing (lihat Gambar. 1). Sebuah panel dua peneliti pendidikan fisika dan satu
fisikawan independen diklasifikasikan semua item menggunakan taksonomi [47]. Selama klasifikasi awal,
ditemukan bahwa kedua serupa berfungsi untuk siswa dalam program yang berbeda.
Mereka yang berangkat dari band item dengan DIF dan
perlu diperiksa. Dalam plot ini, sebagian besar
titik berada di dalam atau di sekitar langsung dari 95%
band kepercayaan (khususnya dalam 99% band),
menunjukkan tidak ada DIF signifikan dalam item ini. Lima titik
jatuh dari band kepercayaan 99%, menandakan signifikan
DIF dalam item ini. Di antara mereka, dua (item 5 dan butir 7)
terletak di bawah lower band-batas dan oleh karena itu di
mendukung siswa M & I, tiga lainnya (item 17, barang 22,
dan barang 25) berada di atas band atas-batas, maka, di
mendukung siswa dalam kursus tradisional. Selain itu,
kami meneliti efek ukuran dari DIF, yaitu, DIF kontras,
dengan mengambil perbedaan dalam angka memperkirakan antara
dua kelompok [41]. Ditemukan bahwa DIF kontras untuk
item jatuh dari 99% band setidaknya 1,12 dalam ukuran
(jDIFj
Item 5
¼ 1,17, jDIFj
Item 7
¼ 1,12, jDIFj
¼ 1,57,
jDIFj
Item 22
¼ 1,24, dan jDIFj
Item 25
Item 17
¼ 1,36). Untuk
item yang tersisa, kontras DIF semua segera
dekat atau di bawah 1, dengan tujuh di antaranya menampilkan moderat
ukuran dengan jDIFj ≥ 0,64 (lihat Ref. [41]).
Untuk lebih menjelaskan DIF dalam item ini, kami membagi
siswa dari setiap kursus menjadi lima kuintil menurut
kemampuan Rasch mereka memperkirakan. Untuk setiap item, proporsi
tanggapan yang benar dalam setiap kuintil diplot sebagai
fungsi dari kemampuan orang (lihat Gambar. 5). Selama dua item
mendukung siswa M & I (item 5 dan butir 7), kurva
dari M & I saja terletak lebih tinggi dari yang tradisional
Tentu saja. Sebaliknya, untuk tiga item yang mendukung
Tentu saja tradisional (item 17, barang 22, dan barang 25), yang
pola terbalik. Plot ini mengungkapkan tingkat kemampuan di
yang masing-masing fungsi item yang berbeda-beda untuk dua kelompok siswa. Misalnya, barang 22
menampilkan DIF konsisten antara dua kelompok siswa terlepas dari tingkat kemampuan. Atau,
DIF di item7 berasal sebagian besar dari perbedaan di wilayah kemampuan tinggi.
Selain mencari bukti empiris untuk diferensial
berfungsi pada tingkat item, kami juga dievaluasi kemungkinan diferensial berfungsi pada
tingkat penilaian. satu

pendekatan adalah untuk merencanakan skor total siswa sebagai fungsi tingkat kemampuan
mereka diperkirakan secara terpisah untuk dua mata kuliah dan kemudian memeriksa deviasi
antara dua plot [52]. Jika dua plot tumpang tindih, tidak ada diferensial berfungsi pada tingkat
penilaian. Jika tidak, penilaian sebagai fungsi keseluruhan berbeda-beda untuk berbagai
kelompok mahasiswa. Gambar 6 menunjukkan dua plot untuk tradisional
dan M & I kursus, masing-masing. Di sini, dua kurva hampir jatuh ke kurva S berbentuk sama.

V. PEMBAHASAN

A. Membangun dari Bema


Hasil di atas berasal dari analisis Rasch menunjukkan bahwa item Bema, meskipun pengujian berbagai
topik, dapat, secara umum, terus bersama-sama untuk bersama mengukur konstruk yang sama. Yang
mengatakan, dua item gagal untuk masuk ke dalam membangun ini. Satu item (item 9) menuntut siswa
untuk merumuskan jawaban di notasi-matematis faktor berdirinya con- mungkin dalam survei konsep
fisika. Oleh karena itu, revisi yang ditujukan untuk menghapus faktor ini direkomendasikan. Yang lain
item (butir 17) merupakan situasi di mana siswa mungkin telah membuat kesalahan ceroboh karena
beberapa alasan yang tidak diketahui. Sebuah pemantauan ketat dari produk ini dalam studi masa
depan akan berguna. Selain memeriksa statistik fit, yang unidimensionality dari Bema selanjutnya
dievaluasi dengan menggunakan pendekatan Bejar ini. Tidak ada bukti menunjukkan bahwa asumsi ini
dilanggar. Selain itu, evaluasi korelasi residual Rasch menunjukkan bahwa lokal kemerdekaan asumsi
oleh dan besar didukung. Dengan demikian, model kami menggunakan memuaskan dapat menjelaskan
hubungan antara item; atau hanya menempatkan, asumsi bahwa item Bema terkait dengan
membangun bersama memegang [45].
Namun demikian, sembilan pasang item menunjukkan hubungan yang lebih kuat di residual mereka dari
yang diharapkan (Tabel II). Di antara mereka, tiga memiliki hubungan positif yang kuat (r> 0,2) dan enam
memiliki hubungan negatif yang kuat
(r <-0,2). Tiga korelasi positif menunjukkan bahwa
mungkin ada di antara masing-masing pasangan item beberapa faktor umum asing untuk konstruk
bersama penilaian. Sebuah melihat lebih dekat pada barang-barang tersebut mengungkapkan bahwa ini
semua pertanyaan berturut-turut yang berbagi pertanyaan yang sama batang dan diagram. Ada
kemungkinan bahwa kesamaan ini mungkin telah menyebabkan korelasi residual positif. Penelitian
selanjutnya adalah

dianjurkan untuk memisahkan barang-barang ini baik menggunakan pertanyaan yang berbeda batang
dan diagram atau menempatkan mereka di lokasi yang berbeda dari penilaian. Dengan demikian, ence
profesional yang independen lokal dapat lebih akurat diuji untuk memeriksa kehadiran (atau ketiadaan)
faktor yang tidak diinginkan di antara mereka. Sebaliknya, enam korelasi negatif menunjukkan bahwa
mungkin ada beberapa perbedaan yang melekat antara item dalam setiap pasangan. Bahkan, untuk
semua enam pasang, masing-masing berisi satu pertanyaan magnet dan satu pertanyaan listrik (atau
sintesis listrik dan magnet seperti yang terlihat pada butir
26). Oleh karena itu, perbedaan isi antara item dipasangkan dapat menjelaskan korelasi residual negatif.
Hasil ini tampaknya menunjukkan bahwa magnet dan listrik item mungkin tidak cocok sama dengan
baik. Dalam terang kemungkinan ini, totalitas bukti yang diperoleh diperiksa untuk menarik kesimpulan
yang kredibel. Ingat bahwa, dalam pengujian asumsi sionality unidimen-, kami membagi Bema menjadi
dua himpunan bagian dari listrik dan magnet item, dan hasilnya mendukung satu konstruk. Dalam hal
asumsi kemerdekaan lokal, sementara enam dari total 435 pasangan menunjukkan hubungan negatif
yang kuat, mayoritas berada di kisaran yang diinginkan. Selain itu, Rasch cocok statistik menghasilkan
tidak ada bukti untuk sejumlah besar underfits. Menggabungkan semua ini pertimbangan-
pertimbangan, tidak mungkin bahwa memisahkan item listrik dari item magnet dibenarkan. Mengingat
bukti yang muncul di atas, karena itu masuk akal untuk menyimpulkan bahwa skor agregat tunggal pada
Bema dapat digunakan untuk mewakili pemahaman siswa dari E & M topik.
Dalam penelitian ini, konstruk Bema, yang samar-samar dijelaskan oleh desainer sebagai "pemahaman
konsep listrik dan magnet dasar," adalah kualitatif
explicated melalui taksonomi Bloom. Secara khusus,
Bema ditujukan untuk menguji kemampuan siswa dalam menerapkan prinsip-prinsip atau menganalisis
E & M melalui prosedur logis untuk memprediksi berbagai fenomena elektromagnetik. Seperti yang
dituturkan oleh rata ukuran butir kesulitan mereka, pertanyaan yang menuntut siswa untuk melakukan
analisis atau sintesis, secara umum, lebih menantang daripada yang hanya membutuhkan aplikasi, dan
perbedaan dalam tindakan kesulitan mereka adalah ukuran yang besar (d ¼ 0,92). Hasil ini konsisten
dengan sifat hirarkis dari taksonomi Bloom (lihat Gambar. 1).

B. Potensi bias dalam item Bema


Berdasarkan langkah-langkah Rasch, tidak ada DIF signifikan terdeteksi untuk sebagian besar item Bema.
Ini berarti bahwa sebagian besar item berfungsi sama bagi siswa yang memiliki tingkat kemampuan yang
sama terlepas dari tentu saja mereka menghadiri. Namun, analisis kami juga mengungkapkan
kemungkinan bukti DIF selama lima item. Di antara mereka, keduanya mendukung M & I kursus dan tiga
lainnya adalah mendukung program tradisional.
Biasanya, DIF dapat dikaitkan dengan dua penyebab utama. Salah satunya adalah karena kesempatan
yang berbeda bahwa siswa memiliki dari yang terkena isi diuji, dan kebohongan lainnya di
konteks di mana pertanyaan terletak. Pada saat ini

studi, ada bukti kuat yang menunjukkan bahwa dua program memberikan peluang yang sebanding bagi
siswa untuk belajar topik diuji dalam hal waktu instruksi, isi kursus, dan guru berkualitas konseptualisasi
tiga cabang dari kesempatan belajar [31]. Lebih penting lagi, Bema sengaja dirancang untuk menjadi
penilaian common-denominator untuk menguji kunci E & M topik bahwa siswa di kedua tradisional dan
M & I kelas akan memiliki kesempatan sebanding dengan mengakses di program masing-masing [10,18].
Oleh karena itu, kemungkinan penyebab yang terdeteksi DIF dalam penelitian ini mungkin beristirahat
dengan konteks di mana barang-barang tersebut terletak. Untuk batas tertentu, DIF juga dapat dianggap
sebagai indikasi kemungkinan faktor-faktor luar di pertanyaan yang mungkin telah menyebabkan hasil
diferensial bagi siswa dengan tingkat kemampuan yang sebanding; atau hanya menempatkan, mungkin
ada beberapa kehalusan dalam desain item yang mengganggu fungsi dari item [16].
Ambil dua item yang mendukung M & I, misalnya, angka 5
dan barang 7. Butir 5 menuntut siswa untuk menerapkan prinsip sition suppo- untuk menentukan
medan listrik dan disajikan dalam kasus dipol listrik. Item Q7 menuntut siswa untuk menentukan
polarisasi dalam isolator yang dihasilkan oleh medan listrik eksternal. Kedua item yang diajukan dalam
konteks yang sangat akrab bagi siswa M & I. Secara khusus, dipol listrik sering digunakan sebagai
skenario dalam masalah praktek di M & I saja, sedangkan pengaturan yang sama dalam kursus
tradisional terutama dipanggil sebagai contoh khusus dari superposisi medan listrik. Karena tujuan dari
angka 5 adalah untuk menguji aplikasi mahasiswa prinsip superposisi, mungkin konteks selain dipol
listrik bisa dicoba untuk mengurangi kemungkinan DIF. Demikian pula, konteks butir 7 (khususnya
diagram disajikan di dalamnya) sangat menyerupai konteks Scotch contoh rekaman polarisasi yang
sering digunakan dalam M & I saja [30]. Dapat dibayangkan, saat menjawab pertanyaan-pertanyaan ini,
M & I siswa mungkin memiliki keuntungan lebih dari orang-orang dalam perjalanan tradisional.
Namun, DIF potensi tiga item yang mendukung
Tentu saja tradisional sulit dimengerti. Sebuah bangsa exami- lebih lanjut dari bahan kurikulum untuk
kedua program tidak memberikan akun diinterpretasi (baik dari segi isi kursus atau keakraban siswa
dengan konteks item). Satu dalil, bagaimanapun, adalah bahwa siswa dalam kursus tradisional mungkin
dihadapi pertanyaan serupa tidak lama sebelum mengambil Bema, dan karena itu mungkin berhasil
pada item ini. Item 22, mungkin, adalah seperti contoh, karena siswa di semua tingkatan dalam
perjalanan tradisional mengungguli rekan-rekan mereka M & I dari kemampuan orang yang sama
(Gambar. 5). Penjelasan lain alternatif adalah bahwa siswa M & saya membuat kesalahan ceroboh atau
menebak beruntung dalam menanggapi item ini. Misalnya, saat menjawab barang 17, hampir 60% dari
siswa M & I (sebagai lawan 40% dari mereka dalam perjalanan tradisional) memilih "0 volt."
Sebagaimana dibahas sebelumnya (lihat Sec. IV A, paragraf terakhir), mahasiswa ini mungkin diabaikan
baterai dan hanya berfokus pada "open" bagian dari rangkaian. Mengingat

data yang kita miliki, itu adalah tetap tidak jelas mengapa M & I siswa akan membuat kesalahan seperti
itu.
Selain itu, diferensial yang berfungsi pada Assessment yang
tingkat pemerintah dievaluasi. Plot dari total skor terhadap kemampuan seseorang dibandingkan antara
M & I dan kursus nasional tradisi. Fakta bahwa kedua kurva jatuh pada kurva S berbentuk sama
menunjukkan bahwa, meskipun DIF terdeteksi dalam beberapa item Bema, fungsi penilaian seluruh
sama untuk kedua kelompok mahasiswa. Berdasarkan bukti ini dan kesimpulan tersebut tentang Bema
membangun, adalah wajar untuk menyimpulkan bahwa kinerja posttest lebih tinggi dari siswa M & I di
Bema ini mungkin disebabkan oleh bias dalam penilaian. Karena kedua kelompok siswa mulai dengan
ukuran kemampuan preinstructional yang sama, kita sekarang dapat lebih percaya diri atribut ukuran
posttest statistik yang lebih baik dari siswa M & I untuk instruksi yang mereka terima dalam kursus.
Jelas, M & I saja kemampuan keseluruhan peningkatan siswa menerapkan dan menganalisis berbagai
fenomena elektromagnetik (konstruk Bema), tidak hanya meningkatkan kinerja mereka pada topik
tertentu karena potensi bias (karena kalau tidak akan diwujudkan oleh DIF di sejumlah besar item ).
Seperti disebutkan sebelumnya dan ditunjukkan dalam analisis di atas, deteksi DIF sering membutuhkan
kuantitatif dan
pemeriksaan kualitatif dari item yang menarik. Sebuah DIF signifikan secara statistik dapat menjadi
tanda dari barang Bias tetapi tentu tidak menjamin itu. Dalam rangka untuk benar menyimpulkan
barang Bias, sebuah
analisis yang cermat dari isi barang dan konteks yang dibutuhkan. Di
penelitian kami, keunikan kesamaan konten antara dua program berfungsi sebagai jangkar untuk analisis
selanjutnya kami mengenai isu-isu kontekstual berkaitan dengan barang Bias. Telah kita memilih untuk
penyelidikan beberapa kursus fisika lain yang berbeda dalam pedagogi atau belajar gol, hasil DIF
mungkin akan berbeda. Ini bukan untuk mengatakan bahwa kita buru-buru harus mengubah penilaian
setiap kali kita mengidentifikasi DIF. Sebaliknya, sebagai penelitian kami telah digambarkan, ences infer-
dan keputusan yang berasal dari penalaran berbasis bukti dan didukung oleh analisis kuantitatif dan
kualitatif sering bisa lebih bermanfaat dalam jangka panjang.

C. Signifikansi dan implikasi


Meskipun studi ini berfokus terutama pada teknis dari Bema dan menyediakan lama-hilang tapi
tifications jus- sangat dibutuhkan untuk digunakan sebagai alat pengukuran, signifikansi melampaui
penilaian ditargetkan. Seperti dibahas sebelumnya, penilaian konsep ilmu dapat dirancang menjadi
berbagai jenis. Tergantung pada luasnya cakupan isinya, penilaian dapat menguji baik topik yang sempit
(dalam kasus persediaan konsep) atau berbagai topik (dalam kasus survei konsep) [9]. Ketika datang ke
yang terakhir, ekstra hati-hati harus diambil untuk secara empiris memverifikasi keberadaan satu
konstruk [14]. Jika tidak, aksi menggunakan skor agregat untuk mewakili kinerja siswa pada penilaian
tersebut tidak dibenarkan. Bahkan ketika bukti pemasangan dikumpulkan untuk mendukung tunggal
keseluruhan

membangun di tingkat penilaian, mungkin masih ada tingkat item- atau bahkan masalah yang lebih
halus tingkat yang di kejanggalan dengan membangun keseluruhan, seperti lokasi item, variasi konten,
dan fitur kontekstual. Isu-isu ini kemungkinan akan terungkap melalui serangkaian evaluasi seperti yang
kami lakukan dengan Bema. Untuk tujuan ini, penting untuk mempertimbangkan baik totalitas dan
individualitas bukti untuk menarik kesimpulan yang seimbang. Hal ini berguna untuk diingat bahwa tidak
ada penilaian yang sempurna. Semakin erat satu memeriksa penilaian, semakin isu satu akan
menemukan. Namun, isu-isu ini, setidaknya, dapat memberikan bimbingan kunci untuk revisi efektif
item penilaian.
Juga digambarkan dalam penelitian ini adalah pentingnya menggunakan bukti yang tersedia dari
penilaian untuk membuat perbedaan-infer- valid tentang belajar dan mengajar. Sebagai contoh, kita
tidak mencari potensi bias di Bema, kita akan memiliki terlalu tampak diferensial berfungsi dalam
beberapa item. Meskipun tidak ada indikasi untuk membatalkan keseluruhan kinerja yang lebih baik dari
siswa M & I, mencari dan mendokumentasikan bukti empiris ini sangat penting untuk membuat
argumen yang kredibel. Dalam studi ini, bukti yang dilaporkan memungkinkan tinggi keyakinan kita
dalam efektivitas M & I kurikulum dalam mempromosikan pengetahuan inti konten siswa. Tentu saja,
ada faktor-faktor lainnya yang mungkin perlu penyelidikan tambahan atau masalah teknis

yang dapat lebih ditingkatkan. Misalnya, ukuran sampel dalam penelitian ini relatif kecil, yang mungkin
telah membatasi kekuatan analisis mendeteksi DIF dengan ukuran sedang. Namun demikian, praktik
evaluasi seperti yang disajikan dalam makalah ini tidak diragukan lagi dapat membantu kita
mengumpulkan bukti untuk interpretasi yang tepat dan penggunaan penilaian pendidikan. Dengan
meningkatnya bukti di tangan, keyakinan mengenai kami di sejauh mana kesimpulan dan kesimpulan
yang berlaku juga akan meningkat. Setelah semua, penilaian pendidikan adalah "penalaran berbasis
bukti" proses, dan itu memang, seperti yang tepat dinyatakan oleh Messick [53], adalah "sebuah
penilaian evaluatif terintegrasi dari sejauh mana bukti empiris dan alasan-alasan teoritis mendukung
kecukupan dan kesesuaian kesimpulan dan tindakan berdasarkan pada hasil tes atau modus lain dari
penilaian. "

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada William Boone, Irene Neumann, dan Knut Neumann untuk
diskusi yang bermanfaat. Kami juga berterima kasih kepada tiga pengulas untuk komentar wawasan
mereka yang telah menyebabkan peningkatan yang signifikan dari naskah. Penelitian ini sebagian
didukung oleh National Science Foundation (NSF Grant No. DRL 1.252.399).

Anda mungkin juga menyukai