Anda di halaman 1dari 20

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Jurnal Internasional Penelitian & Metode Pendidikan

ISSN: (Cetak) (Online) Beranda jurnal:https://www.tandfonline.com/loi/cwse20

Mengukur bias kognitif pada peneliti


pendidikan

Andrea Bierema, Anne-Marie Hoskinson, Rosa Moscarella, Alex Lyford, Kevin


Haudek, John Merrill & Mark Urban-Lurain

Mengutip artikel ini:Andrea Bierema, Anne-Marie Hoskinson, Rosa Moscarella, Alex Lyford,
Kevin Haudek, John Merrill & Mark Urban-Lurain (2020): Mengukur bias kognitif pada peneliti
pendidikan, International Journal of Research & Method in Education, DOI:
10.1080/1743727X.2020.1804541

Untuk menautkan ke artikel ini:https://doi.org/10.1080/1743727X.2020.1804541

Diterbitkan online: 21 Agustus 2020.

Kirimkan artikel Anda ke jurnal ini

Tampilan artikel: 48

Lihat artikel terkait

Lihat data Tanda Silang

Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di


https://www.tandfonline.com/action/journalInformation?journalCode=cwse20
JURNAL INTERNASIONAL PENELITIAN & METODE PENDIDIKAN https://
doi.org/10.1080/1743727X.2020.1804541

Mengukur bias kognitif pada peneliti pendidikan


Andrea Bierema D,
Kevin Haudek A, Anne-Marie HoskinsonB, Rosa MoscarellaC, Alex Lyford
G
e, John MerrillFdan Mark Urban-Lurain
APusat Studi Integratif dalam Ilmu Pengetahuan Umum dan Departemen Biologi Integratif, Michigan State University,
East Lansing, AS;BDepartemen Biologi dan Mikrobiologi, South Dakota State University, Brookings, AS;
CDepartemen Biologi, Universitas Massachusetts, Amherst, AS;DDepartemen Matematika, Middlebury College,
Middlebury, AS;eDepartemen Biokimia dan Biologi Molekuler, Michigan State University, East Lansing, AS;F
Departemen Mikrobiologi dan Genetika Molekuler, Michigan State University, East Lansing, AS;
GBUAT untuk STEM, Michigan State University, East Lansing, AS

ABSTRAK SEJARAH PASAL


Saat kita memanfaatkan teknologi baru yang memungkinkan kita menyederhanakan proses pengkodean Diterima 22 Desember 2018
kumpulan data kualitatif yang besar, kita harus mempertimbangkan apakah bias kognitif manusia dapat Diterima 15 Juni 2020
menimbulkan bias statistik dalam proses tersebut. Kelompok riset kami menganalisis sejumlah besar
respons siswa dengan mengembangkan model komputer yang dilatih menggunakan respons yang
KATA KUNCI
diberi kode manusia dan serangkaian teknik pembelajaran mesin. Setelah model dilatih pada awalnya,
model tersebut mungkin kurang akurat. Meningkatkan jumlah respons yang diberi kode manusia Pengkodean; model komputer
biasanya akan meningkatkan model ini ke tingkat akurasi yang dapat diterima. Sebagai alternatif, kalibrasi; bias kognitif;
dibandingkan respons yang dikodekan oleh manusia, kita dapat dengan cepat meningkatkan jumlah bias konfirmasi;
respons yang dikodekan dengan memverifikasi kode yang diprediksi komputer untuk setiap respons. bias pelaku eksperimen; regresi
Namun, memiliki akses terhadap informasi ini mungkin membuat pembuat kode manusia menjadi bias.
logistik; pembelajaran mesin
Kami merancang penelitian ini untuk menguji perbedaan tingkat kesesuaian dengan kode yang
diprediksi komputer dalam hal besaran dan arah selama kalibrasi model komputer jika informasi tentang
kode yang diprediksi oleh komputer tersedia. Hasil kami menunjukkan bias pengkodean manusia
meskipun para ahli disiplin ilmu menyadari kemungkinan bias kognitif menciptakan bias statistik dan
besaran serta arah bias tersebut bervariasi antar ahli.

Perkenalan
Penelitian pendidikan menyelidiki berbagai topik, seperti pedagogi, kurikulum, dan pembelajaran. Teknik
metodologis dapat mencakup survei, wawancara, studi kasus, etnografi, dan eksperimen. Untuk memahami data
yang dikumpulkan dan menginformasikan pertanyaan penelitian, beberapa bentuk pengkodean dapat
digunakan. Pengkodean, baik berupa teks, audio, video, atau representasi visual lainnya, melibatkan penerapan
kode berbasis teori pada unit analisis, dan mengidentifikasi kode utama yang menangkap makna unit analisis,
atau kombinasi keduanya (Kawulich2017). Dalam kelompok penelitian Automated Analysis of Constructed
Response (AACR), yang merupakan upaya kolaboratif multi-institusi, kami membuat model pengkodean otomatis
komputer yang memprediksi bagaimana para ahli akan mengkode respons siswa terhadap penilaian respons
yang dibangun (Urban-Lurain et al.2015). Kami melakukan ini dengan menerapkan teknik pembelajaran mesin
yang kami latih pada kumpulan respons siswa yang diberi kode manusia. Oleh karena itu, keandalan kode
manusia sangat penting untuk keakuratan model. Untuk mencapai tujuan ini, kami mencari cara untuk
meningkatkan kecepatan dan keandalan pengkodean manusia. Karena model komputer bergantung pada
keakuratan data yang dikodekan oleh manusia untuk masukan dan kalibrasi awal, setiap bias kognitif pada
pembuat kode manusia dapat mengurangi validitas dan keandalan model yang dihasilkan.

KONTAKAndrea Bierema abierema@msu.edu


© 2020 Informa UK Limited, diperdagangkan sebagai Taylor & Francis Group
2 A.BIEREMA

Bias kognitif adalah kecenderungan kognitif universal manusia yang muncul sejak awal kehidupan dan
bertahan sepanjang hidup kita (Kahneman dan Frederick2005; Samuels dan McDonald2002). Bias kognitif dapat
membantu kita menyaring dan memproses banyak informasi dengan cepat, menggunakan heuristik atau aturan
praktis. Mereka juga dapat membantu kita mengatasi keterbatasan pemrosesan informasi dan 'gangguan'
kognitif yang tak terelakkan yang terjadi selama penyimpanan, pengambilan, dan penggunaan informasi.
Umumnya, bias kognitif dan heuristik ini beroperasi di bawah kesadaran pengguna dan oleh karena itu sangat
sulit untuk diatasi. Meskipun bias kognitif membantu kita memilah, memilih, dan memproses informasi dengan
cepat, efisiensi ini dapat menyebabkan keterbatasan sistematis dalam berpikir dan pengambilan keputusan
(Cheikes, Brown, dan Lehner2004; Nickerson1998; Tversky dan Kahneman1974; lihat Kahneman dan Frederick
2005untuk ringkasan komprehensif).
Salah satu bias kognitif yang paling terkenal dan banyak dipelajari adalah bias konfirmasi (Jonas et al. 2001;
Koriat, Lichtenstein, dan Fischhoff1980; Oswald dan Grosjean2004). Orang menunjukkan bias konfirmasi ketika
mereka mencari, baik secara sengaja atau tidak sengaja, informasi dan bukti yang memvalidasi keyakinan atau
ekspektasi mereka, sambil mengabaikan atau mengabaikan bukti yang melanggar ekspektasi mereka. Bias
konfirmasi kemungkinan besar muncul ketika bukti tidak jelas atau tidak ada. Ketika hal ini terjadi, masyarakat
akan memperhatikan data atau informasi yang memvalidasi apa yang telah mereka ketahui atau yakini
kebenarannya. Dalam lingkungan pendidikan, bias konfirmasi telah diamati dalam pemberian skor dan penilaian
penilaian siswa (Archer dan McCarthy1988; Babad1985; Jonas dkk. 2001; Malouff, Emmerton, dan Schutte2013;
ROM2011).
Bias peneliti dapat memengaruhi pekerjaan di bidang kecerdasan buatan (AI) dan pembelajaran mesin
(ML). Sampai saat ini, kekhawatiran tentang bias dalam pembelajaran mesin telah melibatkan masalah
teknis tentang kemampuan berbagai algoritme untuk menghasilkan jawaban yang dapat
digeneralisasikan dan keunggulan algoritme tertentu untuk mengatasi kelompok masalah tertentu
(Dietterich dan Kong1995). Baru-baru ini, muncul kekhawatiran mengenai sistem keputusan berbasis AI
yang digunakan untuk membuat keputusan penting yang memberikan hasil yang bias pada karakteristik
seperti gender (Buolamwini dan Gebru 2018), ras (Angwin dkk.2015) dan atribut lain yang tidak relevan
dengan tugas yang ada. Inti dari kekhawatiran ini adalah kenyataan bahwa sistem AI 'belajar' dengan
dilatih menggunakan sampel data berukuran besar yang telah dikarakterisasi oleh manusia, dan jika
penilaian manusia bersifat bias, prediksi terkomputerisasi yang dihasilkan mungkin akan meniru bias
tersebut. Hal ini menjadi area penelitian aktif dalam komunitas AI dan ML.
Kliegr, Bahník, dan Fürnkranz (2018) meninjau literatur penelitian tentang 20 bias kognitif yang mereka yakini dapat
memengaruhi penilaian manusia dan interpretasi aturan yang ditemukan oleh sistem ML. Mereka mengusulkan bagaimana setiap
bias dapat terwujud dalam konteks ML dan menyarankan strategi yang mungkin diadopsi oleh perancang sistem yang dapat
membangun teknik debiasing yang diidentifikasi dalam literatur ilmu kognitif. Baru-baru ini, para peneliti di IBM telah
menciptakan AI Fairness 360, sebuah perangkat lunak yang akan dimasukkan ke dalam sistem pengambilan keputusan otomatis
dengan risiko tinggi. Tujuannya adalah untuk membantu menghasilkan perangkat lunak pengambilan keputusan yang
mengurangi 'bias yang tidak diinginkan yang menempatkan kelompok yang memiliki hak istimewa pada keuntungan sistematis
dan kelompok yang tidak memiliki hak istimewa pada kerugian sistematis' (Bellamy et al.2018, 2).
Jika bias kognitif ada di mana-mana dan tidak disadari oleh manusia, adakah cara untuk mencegah bias atau
mengurangi dampaknya? Ini adalah bidang penelitian yang aktif, dan hasilnya sejauh ini masih samar-samar.
Membutakan suatu item untuk diberi kode atau dievaluasi merupakan salah satu strategi yang banyak digunakan dalam
sains dalam bentuk blind peer review. Jurnal fisika partikel dan kosmologi terkadang menggunakan strategi yang disebut
analisis buta (MacCoun dan Perlmutter2015), jika label data dihapus, maka pakar lain diundang untuk menganalisis
kumpulan data yang sama tanpa akses ke hasil yang diharapkan. Kretz, Simpson, dan Graham (2012) menggunakan
pendekatan berbasis permainan – yang pada dasarnya merupakan latihan analitik berbasis aturan – agar masyarakat
dapat mengidentifikasi dan memitigasi bias mereka saat mereka mengerjakan skenario hipotetis. Ketidaklancaran
kognitif, dimana isyarat dengan sengaja mengganggu proses yang biasanya efisien namun bias, juga dapat mendorong
pemikiran yang hati-hati sehingga menarik perhatian seseorang pada bukti (Alter2013; Diemand-Yauman, Oppenheimer,
dan Vaughan2011; Hernandez dan Preston2013). Demikian pula, melatih pembuat kode untuk mempertimbangkan
alternatif data yang disajikan dapat membantu mengatasi bias (Hirt dan Markman1995).
JURNAL INTERNASIONAL PENELITIAN & METODE 3
Penelitian pendidikan kelompok penelitian AACR

Seruan baru-baru ini untuk reformasi dalam pendidikan sains, teknologi, teknik, dan matematika (STEM) menekankan
ide-ide inti dan praktik sains dan teknik (AAAS2011; NGSS2013; NRC2013). Penilaian sangat penting dalam upaya
reformasi ini karena memungkinkan instruktur dan peneliti membuat kesimpulan tentang pembelajaran siswa dalam
kursus STEM. Karena banyak universitas menawarkan kursus pengantar STEM dalam jumlah besar yang terdiri dari
puluhan atau ratusan mahasiswa (NRC2012), penilaian pilihan paksa tradisional biasanya digunakan untuk menilai
efisiensi. Pertanyaan-pertanyaan pilihan paksa memungkinkan penilaian yang cepat dan akurat, namun pertanyaan-
pertanyaan tersebut sebagian besar tidak memadai untuk mengungkapkan kompleksitas pengetahuan siswa tentang
ide-ide mendasar (Smith dan Tanner2010). Sebaliknya, pertanyaan respons terkonstruksi (CR) meminta siswa untuk
merespons dengan menulis atau menggambar penjelasan atau prediksi. Oleh karena itu, mereka dapat menjadi sarana
yang lebih otentik untuk menemukan apa yang siswa pikirkan dan pahami (Bennett dan Ward1993; Birenbaum dan
Tatsouka1987). Namun, menganalisis tanggapan siswa terhadap pertanyaan-pertanyaan CR bisa sangat memakan waktu
di ruang kelas dengan jumlah siswa yang besar, kecuali jika model prediktif dapat dikembangkan yang dapat dengan
cepat dan akurat mengkode tanggapan baru terhadap pertanyaan-pertanyaan tersebut dan memungkinkan analisis
tanggapan yang tidak memihak.
Kelompok penelitian AACR kami berada di persimpangan tantangan-tantangan ini. Kami merancang
pertanyaan CR terbuka berdasarkan ide inti dalam disiplin STEM. Kami kemudian menggunakan kumpulan besar
tanggapan siswa yang diberi kode oleh pakar manusia untuk membangun model komputer prediktif. Model
komputer ini – setelah dilatih sepenuhnya – dengan cepat dan akurat memprediksi kode respon siswa baru
terhadap pertanyaan CR tersebut (Urban-Lurain et al.2015). Melatih model komputer adalah langkah yang paling
memakan waktu: melakukan iterasi antara pengkodean manusia yang ahli dan melatih algoritma komputer
untuk mengembangkan dan mengkalibrasi model komputer prediktif untuk pertanyaan CR (Ha et al.2011;
Haudek dkk. 2012; Kaplan dkk.2014; Nehm, Ha, dan Mayfield2012; Prevost, Smith, dan Knight2016; Weston dkk.
2015). Silakan lihat bagian 'Pengembangan Pertanyaan CR dan Model Prediktifnya' untuk rincian lebih lanjut
tentang proses ini.
Penciptaan model komputer prediktif pertanyaan yang akurat bergantung pada rubrik yang dikalibrasi untuk
pertanyaan tersebut (seperti skema nilai) dan sejumlah besar respons siswa, yang biasanya diberi kode oleh dua atau
lebih pakar disipliner (Haudek et al.2015). Para ahli membuat rubrik pengkodean awal, kemudian beberapa pembuat
kode manusia menggunakannya untuk mengkodekan beberapa ratus tanggapan siswa. Pengkodean awal mungkin
memerlukan beberapa kali pengulangan hingga pembuat kode setuju dengan spesifikasi rubrik dan dengan pembuat
kode lainnya. Setelah pakar manusia mengkode dan menyepakati beberapa ratus tanggapan siswa, tanggapan yang
diberi kode tersebut kemudian digunakan sebagai data masukan untuk melatih serangkaian algoritma komputer yang
dapat digunakan untuk dengan cepat mengkodekan tanggapan siswa di masa depan (Weston, Parker, dan Urban-Lurain
2013). Idealnya, pelatihan dan kalibrasi model menghasilkan model prediktif yang akurat. Namun dalam beberapa kasus,
model prediksi mungkin kurang akurat. Hal ini dapat disebabkan oleh tidak memadainya jumlah jenis tanggapan siswa
tertentu.
Ketika keakuratan model tidak mencukupi untuk kekuatan prediksi, salah satu solusinya adalah dengan memberikan
kode pada respons tambahan. Namun, jika frekuensi jenis respons siswa tertentu yang diperlukan untuk pelatihan
algoritme dan kalibrasi model pada awalnya rendah, pakar manusia mungkin perlu mengkodekan banyak respons
tambahan guna meningkatkan akurasi prediksi model untuk kode-kode yang jarang muncul. Oleh karena itu, kami
bertanya-tanya apakah kami dapat menggunakan prototipe awal model komputer prediktif untuk mengidentifikasi
tanggapan yang berpotensi dikodekan menjadi kode dengan sedikit tanggapan. Metode seperti ini dapat menghemat
waktu, terutama bila sebagian kecil jawaban sesuai dengan kode yang diprediksi buruk. Proses ini seperti pembuat kode
manusia yang memverifikasi kode yang diidentifikasi oleh pembuat kode manusia lain, yang kadang-kadang dilakukan
untuk memvalidasi rubrik pengkodean. Namun, proses mana pun akan berasumsi bahwa manusia adalah pembuat kode
yang akurat dan tidak memihak. Akankah pengetahuan bahwa model komputer telah memberikan respons tertentu ke
dalam suatu kode akan menimbulkan bias pada manusia yang membuat kode? Jika ya, dapatkah kita mengukur dan
memperkirakan besarnya bias dan memitigasi dampaknya? Meskipun ini merupakan asumsi dalam proses kami
menciptakan model komputer prediktif yang akurat, potensi peran bias kognitif manusia, sepengetahuan kami, belum
diuji dalam proses pengembangan rubrik pengkodean.
4 A.BIEREMA

Pengembangan pertanyaan CR dan model prediktifnya

Ada beberapa langkah dalam membuat model komputer prediktif, diawali dengan perancangan
pertanyaan CR dan pembuatan rubrik pengkodean.

Merancang pertanyaan CR
Saat kami merancang pertanyaan CR yang menargetkan ide-ide disiplin ilmu utama, kami sering mendasarkan
pertanyaan CR pada inventaris konsep. Inventarisasi konsep diterbitkan, instrumen diperiksa yang telah
mengidentifikasi konsepsi non-normatif yang diketahui mengganggu penguasaan konsep dasar siswa, seperti
fotosintesis atau respirasi seluler (misalnya Wilson et al.2006). Salah satu konsep dasar dalam biologi berpusat
pada bagaimana informasi genetik disimpan, dipertukarkan, dan digunakan (AAAS2011). Untuk menyelidiki apa
yang siswa pahami tentang aliran informasi genetik, Prevost, Smith, dan Knight (2016) memodifikasi dua item
dari Penilaian Konsep Genetika (Smith, Wood, dan Knight2008) menjadi pertanyaan CR tiga batang. Siswa
menjawab pertanyaan CR ini dengan kata-kata mereka sendiri, biasanya dengan mengetik tanggapan di
perangkat lunak manajemen kursus, seperti Blackboard (Blackboard, Inc., Washington, DC, USA), D2L (D2L
Corp., Kitchener, ON, Kanada), atau Kanvas (Instruktur, Inc., Salt Lake City, UT, AS). Setiap siswa merespons
masing- masing dari tiga pertanyaan dengan jelas, namun tidak secara terpisah- yaitu, siswa dapat melihat
dan mengubah semua respons mereka hingga mengirimkan semuanya sekaligus. Pertanyaan CR lengkapnya
adalah:

Urutan DNA berikut terjadi di dekat bagian tengah wilayah pengkodean suatu gen.

DNA5'AATGAATGG* GAGCCTGAAGGA 3'

Terdapat perubahan basis G ke A pada posisi yang diberi tanda asterisk. Akibatnya, kodon yang biasanya
mengkode asam amino menjadi kodon stop.

(1) Bagaimana perubahan ini mempengaruhi replikasi DNA?

(2) Bagaimana perubahan ini mempengaruhi transkripsi?

(3) Bagaimana perubahan ini mempengaruhi penerjemahan?

Huruf A, C, T, dan G mengacu pada salah satu dari empat nukleotida DNA atau bahan penyusun DNA. Urutan
nukleotida inilah yang menentukan kode genetik. Labelnya 5'(dikatakan sebagai 'lima bilangan prima') dan 3'('
threeprime') memberi tahu siswa ke arah mana kode DNA 'dibaca'- dalam hal ini, dari kiri ke kanan. Siswa sering
belajar bagaimana menafsirkan elemen representasi ini dalam mata kuliah pengantar biologi sarjana. Kodon
stop hanya mempengaruhi (yaitu menghentikan) translasi, proses akhir produksi protein sesuai dengan batang
akhir dalam pertanyaan ini. Kodon stop tidak mempengaruhi replikasi DNA (batang pertama) atau transkripsi,
proses pembuatan messenger RNA (batang kedua). Namun, bahkan setelah pembelajaran, siswa terkadang
salah percaya bahwa kodon stop menghentikan salah satu atau kedua replikasi dan transkripsi (Moscarella et al.
2016; Pelletreau dkk.2016; Prevost, Smith, dan Knight2016; Smith, Kayu, dan Ksatria2008).

Membangun rubrik pengkodean


Tujuan utama pembuatan rubrik pengkodean evaluatif adalah untuk mengurangi jumlah respons unik
menjadi beberapa jenis respons yang bermakna (Berg2009). Rubrik kami diinformasikan oleh konsep
yang ditargetkan, konsepsi non-normatif yang diketahui atau dihipotesiskan, dan isi serta sifat tanggapan
siswa itu sendiri. Prevost, Smith, dan Knight (2016) membuat rubrik kategoris untuk masing-masing
ketiga batang pertanyaan ini dengan mengkarakterisasi setiap jawaban sebagai benar/normatif (kode 1),
tidak lengkap atau tidak relevan (kode 2), atau salah/tidak normatif (kode 3). Oleh karena itu, setiap
tanggapan siswa dapat diberi kode dalam satu dan hanya satu kode. Prevost, Smith, dan Knight (2016)
mencapai keandalan intercoder pada 211 respons (korelasi intrakelas > 0,80) sebelum mengkodekan
respons yang tersisa satu per satu.
JURNAL INTERNASIONAL PENELITIAN & METODE 5
Membuat model prediktif
Selanjutnya, Prevost, Smith, dan Knight (2016) menggunakan serangkaian respons yang diberi kode manusia untuk
mengembangkan model komputer prediktif awal. Mereka kemudian menyempurnakan model mereka dengan
menggunakan serangkaian algoritma pembelajaran mesin (Jurka et al.2012). Untuk setiap respons siswa, rangkaian
algoritme menghitung probabilitas prediksi respons yang dimiliki masing-masing dari tiga kode yang mungkin (yaitu 1 =
benar, 2 = tidak lengkap/tidak relevan, atau 3 = salah). Kumpulan algoritme kemudian mengkodekan setiap respons
sesuai dengan kode dengan probabilitas prediksi tertinggi. Kode yang diprediksi oleh komputer kemudian dibandingkan
dengan kode yang dibuat oleh pembuat kode manusia. Model prediktif dianggap terkalibrasi ketika pembuat kode dan
model komputer memiliki kesepakatan substansial untuk setiap kode rubrik: setidaknya 70% kesepakatan (Cohen's κ≥
0,61; Landis dan Kok1977) tetapi sebaiknya minimal 80% setuju (Nehm, Ha, dan Mayfield2012).

Setelah pengujian awal, model tidak dikalibrasi dengan baik. Kode dengan akurasi prediksi terendah adalah kode 2
(tidak lengkap/tidak relevan), dan juga merupakan kode yang paling langka, terdiri dari sekitar 15-20% respons siswa
yang diberi kode oleh para ahli. Tanggapan siswa terhadap kode ini juga sangat bervariasi, karena banyak hal yang tidak
lengkap atau tidak relevan. Untuk meningkatkan model ini, kami perlu mengkodekan respons siswa tambahan.
Meskipun model tersebut tidak dikalibrasi dengan baik untuk kode 2, namun akurat untuk kode 1 dan 3. Oleh karena itu,
kami menduga bahwa kami dapat menggunakan model tersebut untuk mengidentifikasi beberapa ratus respons
sementara kode 2. Kemudian, pembuat kode manusia dapat memeriksa respons yang telah diprediksi sebagai kode 2
dan secara manual mengonfirmasi respons mana yang sesuai dengan kode ini. Meskipun menggunakan model
komputer untuk memilih respons pengkodean dapat menghemat waktu, hal ini juga menyediakan sumber informasi
potensial yang berpotensi menimbulkan bias di antara manusia yang membuat kode. Jika terdapat bias pengkodean
sistematis, hal ini akan memengaruhi keakuratan dan ketahanan model prediktif. Oleh karena itu, dalam penelitian ini,
kami menguji apakah memiliki akses terhadap kode yang diprediksi oleh komputer dan nilai kepercayaan yang terkait
akan membuat pembuat kode ahli menjadi bias.

Pertanyaan penelitian

Kami merancang penelitian ini untuk menguji perbedaan tingkat kesesuaian dengan kode yang diprediksi
komputer dalam hal besaran dan arah selama kalibrasi model komputer jika informasi tentang kode yang
diprediksi oleh komputer tersedia. Dalam penyelidikan saat ini, fokus kami adalah pada potensi variasi dalam
kesepakatan yang terjadi selama pengkodean manusia terhadap pertanyaan CR biologi tertentu. Investigasi ini
berpusat pada dua pertanyaan penelitian berikut.

(1) Apakah para ahli memiliki tingkat persetujuan yang berbeda-beda terhadap pengkodean yang diprediksi oleh komputer ketika akses
mereka terhadap prediksi komputer bervariasi dari tidak ada hingga mengetahui kode yang diprediksi dan probabilitas yang terkait?

(2) Jika para ahli menunjukkan perbedaan dalam kesesuaian dengan kode-kode yang diprediksi oleh komputer, seberapa besar
dan arah kecenderungan mereka untuk setuju atau tidak setuju dengan kode-kode tersebut?

Jika tingkat kesepakatan para ahli tidak berbeda-beda atau jika variasi tersebut dapat dikurangi dengan cara tertentu, maka
kita dapat menggunakan prediksi kode komputer mengenai respons siswa yang jarang terjadi sebagai masukan pada algoritme
pengambilan keputusan, sehingga meningkatkan keakuratan dan mempercepat model prediksi. proses kalibrasi. Hasil ini juga
dapat menginformasikan apakah verifikasi merupakan pengganti yang cocok untuk keandalan intercoder. Hipotesis kami adalah:

HHAI: Tingkat kesesuaian dengan kode yang diprediksi oleh komputer tidak akan berubah dengan adanya kode yang diprediksi oleh
komputer dan/atau probabilitas yang terkait (keyakinan).

HA: Tingkat kesesuaian dengan kode yang diprediksi oleh komputer akan bervariasi ketika pembuat kode manusia memiliki akses terhadap kode yang
diprediksi oleh komputer dan/atau kepercayaan diri.

Data untuk penyelidikan ini terdiri dari serangkaian tanggapan terhadap pertanyaan CR tiga
batang tentang pengaruh mutasi pada proses replikasi, transkripsi, dan translasi DNA. Siswa
6 A.BIEREMA

tanggapan tertulis untuk setiap batang CR dianalisis menggunakan algoritma komputer yang memprediksi
pengkodean ahli manusia dengan menugaskan setiap tanggapan ke suatu kode (Prevost, Smith, dan Knight2016
). Silakan lihat Urban-Lurain dkk. (2015) untuk ringkasan seluruh proses pembuatan pertanyaan CR dan
pengembangan, validasi, dan penerapan model komputer prediktif. Di bawah ini, kami menjelaskan
pengembangan pertanyaan CR yang digunakan dalam penelitian ini dan model prediktifnya. Kami kemudian
merinci metode dan hasil pendekatan dua fase kami untuk menyelidiki potensi peran bias manusia dalam
pengembangan model komputer prediktif.

Metode
Kami menggunakan pertanyaan CR tiga batang yang dijelaskan pada bagian sebelumnya dalam penelitian ini. Di
bawah ini kami jelaskan metode investigasinya.

Pengumpulan data

Untuk penelitian ini, kami mengumpulkan tanggapan terhadap masing-masing dari tiga pertanyaan (dijelaskan
di atas) dari siswa yang terdaftar dalam kursus biologi divisi rendah di lima universitas besar AS. Data ini tidak
digunakan oleh Prevost, Smith, dan Knight (2016) dalam pengembangan model. Untuk penelitian ini, data terdiri
dari 2000 tanggapan siswa terhadap masing-masing tiga batang pertanyaan, atau total 6000 tanggapan. Kami
mengumpulkan tanggapan ini setelah kami mengembangkan dan mengkalibrasi rubrik pengkodean untuk
batang pertanyaan.

Desain studi
Dalam penyelidikan kami, ada dua kemungkinan sumber bias manusia: pengetahuan tentang kode yang diprediksi oleh
komputer dan pengetahuan tentang urutan tanggapan yang disajikan kepada pembuat kode berdasarkan keyakinan
model komputer prediktif terhadap kode tersebut (yaitu benar, tidak lengkap/tidak relevan, salah). Setiap sumber bias
potensial berhubungan dengan aperlakuan,dan setiap sumber yang mungkin memiliki dua kemungkinan presentasi.
Kode dapat disembunyikan atau terlihat oleh pembuat kode, dan rangkaian respons dapat diurutkan secara acak atau
dalam urutan menaik sesuai dengan kode (yaitu benar, lalu tidak lengkap/tidak relevan, lalu salah) dan, untuk setiap
kode, dalam urutan menurun sesuai dengan probabilitas terkaitnya. Kombinasi ada tidaknya masing-masing perlakuan
sesuai dengan akondisi.Karena kedua perlakuan tersebut independen, kami mengujinya secara berpasangan, dalam
empat kondisi. Di sini, 'kode komputer' mengacu pada kode prediksi komputer dan probabilitas yang diberikan
komputer pada kode prediksinya:

(1) Kode komputer terlihat, dan responsnya sesuai urutan kode komputer.
(2) Kode komputer tidak terlihat, dan responsnya sesuai urutan kode komputer.
(3) Kode komputer terlihat, dan tanggapan diurutkan secara acak.
(4) Kode komputer tidak terlihat, dan tanggapan diurutkan secara acak (Gambar 1).

Kondisi 4 berfungsi sebagai kontrol karena rangkaian kondisinya sesuaide novopengkodean manusia. Kumpulan
tanggapan siswa yang berjumlah 2000 terhadap masing-masing dari tiga batang pertanyaan didistribusikan secara
merata dan acak di antara empat kondisi dan untuk setiap pembuat kode.
Kami melaksanakan penelitian ini dalam dua tahap, Tahap I dan Tahap II, yang dijelaskan di bawah ini. Pembuat kode X
memberi kode selama Tahap I dan II, dan pembuat kode Y dan Z memberi kode hanya pada Tahap II. Setiap pembuat kode
memiliki gelar doktor dalam disiplin biologi dan pengalaman bertahun-tahun dalam analisis data kualitatif. Kami hanya
menggunakan tiga pembuat kode karena keterbatasan staf dan meskipun memiliki lebih dari dua pembuat kode untuk satu
penelitian adalah hal yang tidak biasa, namun pembatasan ini membatasi kemampuan generalisasi. Pembuat kode mengkodekan
tanggapan siswa terhadap setiap batang pertanyaan sesuai dengan kondisi yang ditentukan di bawah ini, dan dalam urutan yang
sama seperti siswa melihat batang tersebut: replikasi, transkripsi, dan kemudian terjemahan.
JURNAL INTERNASIONAL PENELITIAN & METODE 7

Gambar 1.Contoh lembar pengkodean seperti yang disajikan kepada pembuat kode di kedua fase penelitian ini; tanggapan siswa terhadap batang
replikasi (fikolom pertama setiap kondisi) ditampilkan untuk kondisi 1, 2, 3, dan 4. Kondisi 1 dan 3 mencakup skor komputer dan probabilitas terkait;
responnya berdasarkan urutan kode dan probabilitas untuk kondisi 1. Kondisi 2 dan 4 tidak memiliki skor komputer dan nilai probabilitas tetapi kondisi 2
memiliki respon berdasarkan urutan kode dan probabilitas.

Fase I
Fase I awalnya dirancang sebagai tes humanbias yang berdiri sendiri. Kami awalnya tertarik pada apakah pembuat kode yang
memiliki pengetahuan bias masih menampilkannya. Oleh karena itu, hanya satu pembuat kode yang berpartisipasi dalam Tahap I.

Pengkodean dan analisis data

Kami memulai Tahap I dengan menggunakan kondisi 1 (kode komputer terlihat dan terurut) dan 4 (kontrol: kode
tidak terlihat dan diurutkan secara acak). Setelah mengumpulkan dan menganalisis data, tim kami memperluas
pertanyaan penelitian untuk mencakup kondisi lain: kondisi 2 (kode komputer tidak terlihat dan terurut) dan
kondisi 3 (kode komputer terlihat dan terurut secara acak). Jadi, ada dua kemungkinan penanganan: visibilitas
kode dan pengurutan kode. Empat kemungkinan kombinasi dari kedua perlakuan ini membentuk empat kondisi
di mana pembuat kode mengkodekan respons.
Sebelum memulai Tahap I, pembuat kode X dan Y menetapkan keandalan intercoder pada 200 tanggapan untuk
setiap batang pertanyaan. Kami mengukur keandalan melalui kappa Cohen, κ (replikasi κ = 0,80; transkripsi κ = 0,70;
terjemahan κ = 0,64). Menurut Landis dan Kock (1977) skala pengamat, κ antara 0,61 dan 0,80 dianggap sesuai secara
substansial; oleh karena itu, kami mencapai keandalan intercoder. Kemudian, untuk setiap batang pertanyaan dan setiap
kondisi, pembuat kode X mengkodekan 500 respons (total 6.000 respons). Coder Y membuat spreadsheet pengkodean
dengan memanipulasi urutan respons siswa dan menghilangkan atau menyimpan kode komputer sehingga setiap
lembar mengikuti salah satu dari empat kondisi untuk setiap batang pertanyaan (Gambar 1). Pembuat kode X secara
acak memilih urutan pengkodean untuk setiap kondisi (yaitu kondisi 1 atau 4 terlebih dahulu dan kemudian 2 atau 3
terlebih dahulu) dalam setiap batang pertanyaan. Selama fase ini, pembuat kode X menyadari kemungkinan bias dan
melakukan upaya sadar untuk mengkodekan respons dengan hati-hati dan memperhatikan proses pengkodean.

Kami memulai analisis untuk Tahap I dengan membangun model regresi logistik. Variabel respons yang
menjadi perhatian model ini adalah apakah pembuat kode tertentu cocok dengan kode komputer untuk masing-
masing dari 6.000 respons. Model lengkap kami, diagramnya dapat dilihat diGambar 2, termasuk tiga
8 A.BIEREMA

Gambar 2.Diagram alur untuk model regresi logistik kami, dengan warna abu-abu menunjukkan variabel prediktor dan teks bergaris bawah/tebal
menunjukkan tingkat dasar untuk setiap variabel prediktor.

variabel prediktor kategoris, yang disorot dalam warna abu-abu. Variabel prediktor kategoris pertama kami,
'batang pertanyaan', memiliki tiga tingkatan: replikasi, transkripsi, dan terjemahan. Kami memperlakukan
'replikasi' batang pertanyaan sebagai batang pertanyaan dasar untuk model ini, artinya semua perbandingan
bersifat relatif terhadap respons siswa terhadap batang replikasi. Dua variabel prediktor terakhir mewakili dua
kemungkinan perlakuan. Variabel-variabel prediktor ini, yang satu menunjukkan apakah respons berada dalam
urutan kode dan probabilitas terkait, dan yang lainnya menunjukkan apakah kode dan probabilitas terkait
terlihat, masing-masing memiliki dua tingkat – satu mewakili adanya perlakuan untuk respons tertentu, dan satu
lagi menunjukkan ketidakhadirannya. Garis dasar untuk kedua variabel prediktor adalah 'tidak ada' (yaitu kondisi
kontrol dimana kode tidak terlihat dan tidak berurutan). Kami awalnya menyesuaikan model dengan semua
kemungkinan interaksi, meskipun ketentuan interaksi antara masing-masing perlakuan dan batang pertanyaan
tidak signifikan dan oleh karena itu, kami menghapusnya. Istilah interaksi antara kedua perlakuan tersebut
signifikan untuk satu pembuat kode selama Tahap II, dan oleh karena itu kami menyimpannya dalam model
akhir.
Salah satu tujuan penyelidikan kami (dijelaskan dalamTahap II)adalah membandingkan hasil antara tiga pembuat kode, pada
tiga batang pertanyaan, dan dalam empat kondisi. Untuk melakukan hal ini, kami perlu memperhitungkan perubahan tingkat
kesepakatan di antara para pembuat kode ketika kesepakatan awal dengan kode komputer bervariasi. Oleh karena itu kami
menormalisasi perubahan perjanjian untuk Tahap I dan II dengan menggunakan rasio keuntungan (atau kerugian) aktual dalam
perjanjian terhadap keuntungan (atau kerugian) dalam kondisi kendali pembuat kode yang sama (Persamaan 1; Semacam ikan
1998). Misalnya, kita bertujuan untuk membandingkan perubahan antara pembuat kode X dan pembuat kode Y dalam kondisi 1
(kode komputer terlihat dan diurutkan berdasarkan kode). Misalkan juga pembuat kode X
JURNAL INTERNASIONAL PENELITIAN & METODE 9
kesesuaian dengan pengkodean komputer adalah 90% untuk kondisi 1 dan 85% untuk kondisi kontrol; sedangkan
kesesuaian pembuat kode Y dengan kode komputer pada kondisi 1 adalah 95%, dan 90% untuk kondisi kendali. Masing-
masing pembuat kode menunjukkan keuntungan bersih sebesar 5% sesuai kondisi 1. Namun, karena persetujuan
kondisi kontrol pembuat kode Y sebesar 90% dengan pengkodean komputer mendekati maksimum 100% dibandingkan
dengan pembuat kode X yang sebesar 85%, maka keuntungan yang dinormalisasi pembuat kode Y adalah sebenarnya
lebih besar dari pembuat kode X:

Pembuat Kode X:5%/(100% − 85%) = 33% Pembuat Kode Y:5%/(100% − 90%) = 50%

Ekspresi umum adalah


(%Akondisi− %Akontrol)/(100 − %Akontrol) (1)

Hasil
Analisis regresi logistik kami mengungkapkan banyak perbedaan signifikan secara statistik antara
pembuat kode X dan kode yang diprediksi oleh komputer. Variabel dalam model kami mencakup
perlakuan, interaksinya, dan variabel untuk mengontrol perbedaan di setiap batang pertanyaan.Tabel 1
menunjukkan tanda dan signifikansi masing-masing koefisien dalam model logistik kita, sedangkan
Lampiran memberikan keluaran model logistik lengkap, termasuk besaran koefisien. Berdasarkan hasil
ini, pembuat kode X jauh lebih sering menyetujui kode yang diprediksi komputer ketika kode tersebut
terlihat (kondisi 3) atau ketika kode tersebut berurutan (kondisi 2). Dia juga lebih mungkin setuju dengan
kode yang diprediksi oleh komputer ketika kode tersebut terlihat dan berurutan (kondisi 1) dibandingkan
dengan kontrol (kondisi 4).
Gambar 3menunjukkan rata-rata perbedaan normalisasi kesesuaian antara pembuat kode X dan kode
komputer untuk setiap kombinasi kondisi dan batang pertanyaan. Ada peningkatan besar dalam
kesesuaian antara pembuat kode X dan kode prediksi komputer pada setiap kondisi dan pada masing-
masing dari tiga batang pertanyaan. Artinya, ketika kode terlihat dan berurutan (kondisi 1), pembuat kode
X 34% lebih mungkin setuju dengan prediksi komputer dibandingkan ketika dia tidak memiliki
informasi tersebut (kondisi 4) atau ketika kodenya berurutan dan tidak terlihat. (kondisi 2). Ketika kode
terlihat dan dalam urutan acak (kondisi 3), rata-rata perbedaan yang dinormalisasi dalam perjanjian
pembuat kode komputer meningkat menjadi 52%.
Meskipun pembuat kode X secara signifikan lebih mungkin setuju dengan prediksi komputer ketika kodenya
terlihat, kemungkinan kesepakatannya sedikit berbeda di antara ketiga pertanyaan tersebut. Untuk tanggapan
dari replikasi dan terjemahan, kami mengamati hanya peningkatan persetujuan masing-masing sebesar 26%
dan 31%. Namun, ketika kodenya berurutan, kami mengamati peningkatan persetujuan yang dinormalisasi
sebesar 46% untuk tanggapan dari batang transkripsi. Ketika kode terlihat dan teratur, kami mengamati
peningkatan persetujuan sebesar 41% untuk tanggapan dari batang replikasi. Untuk transkripsi dan terjemahan,
kami mengamati peningkatan yang lebih kecil masing-masing sebesar 33% dan 29%. Secara keseluruhan, kami
mengamati peningkatan terbesar dalam kesesuaian antara pembuat kode X dan kode yang diprediksi oleh
komputer ketika kode tersebut terlihat.

Tabel 1.Kondisi dan dasar di mana pembuat kode X selama Fase I lebih (+) atau kurang (−) cenderung
setuju dengan kode komputer (Pseudo McFaddenR2= 0,315).
Variabel + /− Perkiraan
Replikasi, Kontrol (Intersepsi) +***

Transkripsi +*
Terjemahan +
Kode Terlihat +***

Dalam Urutan Kode +***

Kode Terlihat & Kode Berurutan -


* hal <0,05, **hal <0,01, ***hal <0,001 menurut hasil regresi logistik
(lihatLampiran).
1 A.BIEREMA

Gambar 3.Peningkatan persetujuan yang dinormalisasi dari kontrol ke kondisi 1–3 untuk pembuat kode X di Fase I. Pembuat kode X 25-50% lebih
mungkin setuju dengan kode komputer, bergantung pada batang pertanyaan dan kondisi.

Tahap II

Pada Fase I, pembuat kode X menunjukkan kecenderungan yang kuat untuk menyetujui kode yang diprediksi komputer
pada kedua perlakuan jika dibandingkan dengan kontrol. Terdapat bukti statistik yang kuat bahwa perbedaan
kesepakatan ini bukan terjadi secara kebetulan. Oleh karena itu, kami memutuskan untuk memperluas penelitian ke dua
pembuat kode tambahan untuk menyelidiki apakah pembuat kode ahli lainnya menunjukkan pola kesepakatan yang
serupa. Perpanjangan penelitian ini merupakan Tahap II, di mana pembuat kode X, Y, dan Z berpartisipasi. Kami baru
memulai Tahap II beberapa minggu setelah menyelesaikan pengkodean untuk Tahap I. Pada saat ini, semua pembuat
kode menyadari hasil Tahap I yang menunjukkan bahwa pembuat kode X lebih cenderung setuju dengan kode yang
diprediksi oleh komputer ketika kode tersebut dibuat. terlihat atau berurutan. Dengan memiliki pembuat kode X di
kedua fase, kami menguji efek mengetahui bias diri sendiri, bukan hanya mengetahui potensi bias.

Pengkodean dan analisis data

Pembuat kode X dan Y dilatih mengenai rubrik dan menetapkan keandalan antar pembuat kode sebelum Tahap I
(dijelaskan dalamFase I).Pembuat kode X dan Y selanjutnya melatih pembuat kode Z pada rubrik tersebut. Dengan
menggunakan tanggapan siswa yang sama yang digunakan oleh pembuat kode X dan Y untuk menguji reliabilitas
sebelum Tahap I, kami membandingkan kode pembuat kode Z dengan kode konsensus dari pembuat kode X dan Y. Kami
menemukan kesepakatan substansial antara kode pembuat kode Z dan kode konsensus sebelumnya. mapan (kappa
Cohen: replikasi =0,75; transkripsi κ = 0,73; terjemahan κ = 0,81).
Untuk menguji tingkat kesepakatan, kami menggunakan 2.000 tanggapan yang sama seperti yang kami gunakan pada Tahap
I untuk setiap batang pertanyaan, namun memodifikasi rancangan percobaan menjadi rancangan petak terpisah (Gambar 4),
awalnya dikembangkan untuk studi pertanian (Yates1935). Desain petak terpisah mengelompokkan unit-unit untuk dianalisis ke
dalam 'plot', dan kemudian membagi (atau membagi) setiap plot menjadi beberapa ulangan percobaan (Jones dan Nachtsheim
2009). Desain petak terpisah memungkinkan kami menetapkan respons secara acak terhadap ulangan dan kondisi, sambil tetap
menguji efek urutan (yang merupakan salah satu perlakuan). Untuk penelitian kami, masing-masing kondisi 1–4 (Gambar 4) berisi
empat ulangan, masing-masing terdiri dari 125 tanggapan unik. 'Replikasi' dalam setiap kondisi mengikuti prosedur yang sama.
Coder X menggunakan generator angka acak untuk mendistribusikan 2.000 respons untuk setiap batang di antara empat ulangan
dalam masing-masing dari empat kondisi.
JURNAL INTERNASIONAL PENELITIAN & METODE 1

Gambar 4.Kami menetapkan 2.000 tanggapan untuk masing-masing dari tiga pertanyaan yang berasal dari salah satu dari empat kondisi. Setiap kondisi mencakup
empat ulangan dari 125 tanggapan siswa. Pada gambar, kotak bergaris padat mewakili setiap kondisi dan kotak bergaris putus-putus mewakili setiap ulangan. Kami
secara acak memesan 16 ulangan untuk setiap batang pertanyaan sebelum membuat kode.

Pembuat kode X secara acak memberikan tanggapan di antara 16 ulangan untuk setiap batang pertanyaan dan setiap pembuat
kode.
Setelah semua pembuat kode menyelesaikan pengkodean, kami menggabungkan ulang replikanya dalam kondisi
masing-masing untuk analisis data. Kami menganalisis data Tahap II menggunakan metode yang sama seperti Tahap I.
Karena kami mengacak 6.000 tanggapan secara berbeda untuk setiap pembuat kode, kami mengembangkan dan
memasang model regresi logistik unik untuk setiap pembuat kode di Tahap II. Selain itu, karena tanggapan
didistribusikan secara acak di antara ulangan dan kondisi untuk setiap pembuat kode, beberapa pembuat kode
menerima lebih banyak item yang diprediksi oleh komputer akan dikodekan sebagai kode 3 (salah). Dalam perbandingan
komputer dengan masing-masing pembuat kode, kode tersebut memiliki κ≅0,5-0,6, tergantung pembuat kodenya.
Untuk memperhitungkan perbedaan ini, kami secara acak memilih subset data yang sesuai dengan proporsi
keseluruhan jawaban di setiap kode rubrik, sesuai dengan kode yang diprediksi oleh komputer: 60% kode 1 (benar),
15,5% kode 2 (tidak lengkap/tidak relevan ), dan 24,5% kode 3 (salah). Hal ini memastikan bahwa dalam analisis kami,
setiap pembuat kode menerima proporsi respons yang diprediksi komputer untuk setiap kode.

Hasil
Analisis regresi logistik kami menemukan beberapa perbedaan signifikan secara statistik dengan besaran yang berbeda-
beda dalam tingkat kesepakatan antara masing-masing pembuat kode dan model komputer.Meja 2menunjukkan
1 A.BIEREMA

Meja 2.Kondisi dan batang di mana pembuat kode lebih (+) atau kurang (−) cenderung setuju dengan kode komputer (Pseudo
McFaddenR2= 0,171).
+ /− Perkiraan
Variabel Pembuat Kode X Pembuat Kode Y Pembuat Kode Z

Replikasi, Kontrol (Intersepsi) +*** +*** +***


Transkripsi +*** +*** +**
Terjemahan +** +** +*
Kode Terlihat + +* +*
Dalam Urutan Kode + - +*
Kode Terlihat X Dalam Urutan Kode –* + -
* hal <0,05, **hal <0,01, ***hal <0,001 menurut hasil regresi logistik (lihatLampiran).

tanda dan signifikansi masing-masing koefisien pada ketiga model regresi logistik, sedangkan Lampiran
memberikan keluaran lengkap untuk ketiga model logistik, termasuk besaran koefisien.
Meskipun kesadaran akan kecenderungan pembuat kode X yang meningkat untuk setuju dengan kode yang diprediksi oleh
komputer pada kedua perlakuan di Tahap I, setiap pembuat kode menunjukkan kecenderungan untuk lebih sering setuju atau
tidak setuju selama perlakuan dibandingkan kontrol di Tahap II. Dengan demikian, akses terhadap berbagai informasi secara
berbeda mempengaruhi setiap pembuat kode (Gambar 5;Meja 2). Berbeda dengan bukti kuat adanya perbedaan yang terlihat
pada Tahap I, hasil Tahap II hanya menunjukkan beberapa bukti perbedaan pengkodean berdasarkan perlakuan.

Di bawah ini, kami menjelaskan besaran dan arah kecenderungan masing-masing pembuat kode untuk setuju atau
tidak setuju dengan kode yang diprediksi komputer selama perlakuan jika dibandingkan dengan kontrol. ItuP-nilai-nilai
yang dijelaskan di bawah ini merujuk pada signifikansi koefisien regresi logistik, yang keluarannya terdapat pada
Lampiran.

Pembuat Kode X

Kami tidak menemukan bukti bahwa pembuat kode X secara signifikan lebih atau kurang setuju dengan kode komputer
apakah kode tersebut terlihat (hal =0,305) atau berurutan (hal =0,386) bila dibandingkan dengan tanggapan yang
dibutakan atau dipilih secara acak. Namun, pembuat kode X lebih sering tidak setuju dengan kode yang diprediksi oleh
komputer ketika kode tersebut terlihat dan berurutan (hal =0,039) dibandingkan yang diperkirakan dengan
menjumlahkan dampak dari setiap kondisi yang disajikan secara independen. Dengan kata lain, efek pembuat kode X
tidak bersifat aditif. Perbedaan ini cukup signifikan secara statistik.
Secara keseluruhan, pembuat kode X secara signifikan lebih mungkin setuju dengan kode komputer untuk
transkripsi dan terjemahan dibandingkan dengan kode replikasi. Ketika kode diberikan secara berurutan, kami
mengamati peningkatan persetujuan sebesar 27% yang dinormalisasi untuk respons yang berkaitan dengan batang
transkripsi (Gambar 5). Ketika kodenya terlihat, kemungkinannya 28% lebih kecil untuk cocok dengan kode komputer
untuk batang replikasi. Ketika kodenya terlihat dan teratur, ia 20% lebih mungkin mencocokkan kode komputer yang
berkaitan dengan batang replikasi, namun 27% lebih kecil kemungkinannya untuk mencocokkan kode komputer dengan
batang transkripsi.

Pembuat Kode Y

Pembuat kode Y merespons kondisi 2 dan 3 secara berbeda dari pembuat kode X. Setelah melakukan normalisasi pada
ketiga batang, kami menemukan bahwa pembuat kode Y 11% lebih mungkin setuju dengan kode komputer ketika kode
tersebut terlihat (hal =0,019). Hasilnya signifikan secara statistik. Di sisi lain, kami tidak menemukan bukti adanya
perbedaan signifikan dalam persentase persetujuan ketika tanggapan diurutkan berdasarkan kode (hal =0,510).

Pembuat kode Y secara signifikan lebih mungkin setuju dengan kode yang diprediksi komputer untuk masing-masing
dari tiga batang pertanyaan (semuanyahal <0,001). Ketika kode disajikan secara berurutan, kami mengamati
peningkatan kesepakatan yang dinormalisasi sebesar 16% antara pembuat kode Y dan kode yang diprediksi komputer
untuk respons dari batang terjemahan. Sebaliknya, untuk tanggapan dari transkripsi dan replikasi, kami mengamati
penurunan persetujuan yang dinormalisasi masing-masing sebesar 23% dan 11% (Gambar 5).
JURNAL INTERNASIONAL PENELITIAN & METODE 1

Gambar 5.Perubahan perjanjian yang dinormalisasi dari kontrol ke kondisi 1–3 untuk Fase II untuk pembuat kode X, Y, dan Z.
1 A.BIEREMA

Pembuat Kode Z

Pembuat kode Z lebih cenderung setuju dengan kode yang diprediksi komputer untuk masing-masing dari tiga
kondisi dibandingkan dengan kondisi kontrol. Dia secara signifikan lebih setuju dengan kode komputer ketika
kode tersebut terlihat (hal =0,026) dan secara signifikan lebih mungkin untuk setuju dengan kode komputer
ketika kodenya berurutan (hal =0,026). Kedua hasil tersebut signifikan secara statistik.
Batang pertanyaan yang berbeda memiliki pengaruh yang kecil namun signifikan terhadap kemungkinan pembuat
kode Z mencocokkan kode yang diprediksi oleh komputer. Dia lebih cenderung mencocokkan kode komputer untuk
respons pada batang transkripsi dibandingkan dengan batang replikasi (hal <0,0001). Dia juga lebih cenderung
mencocokkan kode komputer untuk respons pada batang terjemahan dibandingkan dengan batang replikasi (hal =
0,036). Untuk pembuat kode Z, kami menemukan efek serupa untuk masing-masing dari empat kondisi di ketiga batang
pertanyaan: setiap kombinasi batang perlakuan menghasilkan peningkatan kesepakatan yang dinormalisasi antara 5%
dan 20% (Gambar 5).

Diskusi
Saat kita memanfaatkan alat baru yang memungkinkan kita menyederhanakan proses pengkodean kumpulan data
besar, kita harus mempertimbangkan potensi dampak bias kognitif manusia yang dapat menimbulkan bias statistik
dalam proses tersebut. Terlepas dari kebutuhan mendasar ini, kami menemukan kurangnya literatur penelitian yang
mengeksplorasi apakah dan bagaimana pengkodean manusia itu bias. Meskipun mungkin ada keyakinan bahwa pakar
disiplin ilmu tidak memihak, atau setidaknya kurang bias dibandingkan non-ahli, asumsi sehari-hari ini tidak sering diuji
dan, sepengetahuan kami, jarang diukur. Penelitian ini berkontribusi pada pemahaman kita tentang fenomena ini
dengan memberikan bukti terukur tentang bias peneliti pendidikan yang menghasilkan bias statistik pada kumpulan
data yang besar, dan dengan mengukur signifikansi dan arah bias tersebut. Ini adalah pertanyaan penting karena data
yang dikodekan manusia digunakan untuk mengkalibrasi model komputer prediktif untuk pertanyaan respons yang
dibangun (CR). Jika data yang dikodekan oleh manusia bias, maka model prediktifnya juga cenderung bias (Angwin et al.
2015; Bellamy dkk.2018; Buolamwini dan Gebru2018).
Untuk penelitian ini, kami menyelidiki apakah kami dapat mengidentifikasi dan mengukur bias pengkodean pada tiga
peneliti pendidikan yang juga merupakan pakar disiplin ilmu dengan pengalaman beberapa tahun dalam penelitian
pendidikan. Metode kami mendeteksi adanya bias di semua pembuat kode, pada semua kondisi, dan ketiga batang
pertanyaan. Bukti statistik mengenai bias muncul meskipun ketiga ahli tersebut menyadarinyasecara aprioribias yang
terdeteksi dalam hasil Tahap I pembuat kode X sebelum memulai Tahap II penelitian ini. Ini termasuk pembuat kode X
sendiri, yang biasnya berubah baik besaran maupun arahnya. Pada Fase I, secara statistik dia lebih mungkin mengalami
hal tersebutsetujudengan kode komputer sambil tetap memperlihatkan kodenya, dan pada Fase II, ada sedikit bukti
bahwa dia lebih mungkin melakukannyatidak setujudengan kode komputer ketika keduanya terlihat dan berurutan.
Temuan kami secara keseluruhan mendukung hipotesis alternatif kami: bahwa pakar manusia menunjukkan bias ketika
mereka memiliki akses terhadap kode dan probabilitas yang diprediksi oleh komputer, dan bahwa bias ini terwujud
bahkan ketika pembuat kode manusia menyadari kemungkinan mereka sendiri untuk menampilkan bias. Penelitian
mengenai debiasing melalui pendidikan masih bersifat samar-samar: Beberapa peneliti telah menemukan bahwa
pengetahuan dasar tentang bias konfirmasi adalah efektif (Evans et al.1994), yang mungkin tidak menimbulkan bias
sama sekali melainkan meningkatkan pengambilan keputusan (Soll, Milkman, dan Payne2014). Sementara itu, peneliti
lain hanya menemukan dampak pendidikan dan pelatihan yang lemah dan tidak signifikan terhadap debiasing (Lehmann
dan Casella 1998; Nisbet dkk.1987) untuk mendorong masyarakat mengolah informasi dengan lebih teliti. Karena,
sebagian, karena perubahan besarnya bias pembuat kode X, hasil kami menunjukkan perlunya penyelidikan lebih lanjut
terhadap sumber bias, baik dari orang atau tugas (Fischhoff1982), dan mengarahkan strategi yang tepat untuk
menghilangkan bias (misalnya Soll, Milkman, dan Payne2014; Thaler dan Sunstein2009).

Efek pengobatan
Coder X menyelesaikan kedua tahap penyelidikan. Membuat kode-kode tersebut terlihat dan/atau memiliki respons sesuai urutan
kode-kode tersebut membuat pembuat kode X menjadi bias selama Fase I. Selama Fase II, pembuat kode X melakukannya
JURNAL INTERNASIONAL PENELITIAN & METODE 1
tidak menunjukkan bias ketika disajikan dengan perlakuan tunggal saja (kode atau probabilitas; kondisi 2 dan 3),
tetapi pembuat kode Y dan Z keduanya bias ketika kode komputer terlihat, dan pembuat kode Z juga bias ketika
tanggapan diurutkan. Menariknya, Coder X menunjukkan bias ketika kode dan probabilitas ada (kondisi 1),
namun ternyata biaslebih sedikitcenderung setuju dengan kode komputer. Selain itu, pembuat kode Y dan Z
tidak menunjukkan bias yang signifikan ketika kode dan urutan tersedia (kondisi 1). Kurangnya bukti bias pada
kondisi 1 dapat menunjukkan bahwa menyajikan informasi lengkap kepada manusia pembuat kode merupakan
teknik menghilangkan bias yang berhasil (Stanovich dan West2000), mungkin karena para pembuat kode ini
lebih skeptis terhadap data yang 'lengkap'. Peneliti lain telah mendokumentasikan keberhasilan debiasing ketika
subjek diinstruksikan untuk mengadopsi strategi 'mempertimbangkan alternatif' dalam berpikir (Hirt dan
Markman1995). Hal ini dapat menunjukkan bahwa salah satu metode yang berpotensi efektif untuk mengatasi
bias dalam keadaan terbatas seperti ini adalah dengan menyajikan semua informasi yang diketahui tentang
prediksi komputer mengenai respons siswa.
Secara keseluruhan, hasil ini menunjukkan bahwa memiliki akses terhadap kode yang diprediksi oleh komputer merupakan
sumber bias bagi pembuat kode, namun besaran dan arah bias bervariasi di antara ketiga pembuat kode dan berubah untuk
salah satu pembuat kode setelah menemukan biasnya sendiri.

Efek batang pertanyaan

Pembuat kode merespons secara berbeda terhadap masing-masing dari tiga batang pertanyaan – replikasi, transkripsi, dan
terjemahan. Semua pembuat kode jauh lebih kecil kemungkinannya untuk mencocokkan kode yang diprediksi oleh komputer
dengan batang replikasi dibandingkan dengan batang transkripsi dan terjemahan (Gambar 5). Meskipun kami mengamati
peningkatan kemungkinan kesepakatan antara pembuat kode dan komputer untuk transkripsi dan penerjemahan, dibandingkan
dengan replikasi, besarnya efek ini berbeda antara pembuat kode dan perlakuan. Beberapa pengamatan serupa terjadi pada
masing-masing pengkode, menunjukkan bahwa setiap pengkode mengkode respons untuk setiap batang dengan cara yang
berbeda. Dengan penelitian ini, tidak mungkin untuk menentukan bias kognitif spesifik yang disebabkan oleh masing-masing
batang ini, atau memprediksi bagaimana pertanyaan-pertanyaan ini dan pertanyaan-pertanyaan CR lainnya akan mempotensiasi
bias pada manusia pembuat kode. Meskipun ada perbedaan-perbedaan ini, semua pembuat kode menunjukkan bias.

Implikasi dan penelitian masa depan

Kami telah menyajikan bukti bahwa pakar manusia menunjukkan bias saat mengkode tanggapan siswa terhadap pertanyaan
konseptual genetika. Bias setiap pembuat kode manusia memiliki besaran dan arah yang unik, dan bias setiap pembuat kode
berbeda dari yang lain dalam menanggapi pertanyaan. Namun, bias pengkodean manusia terdapat di kedua fase penelitian –
meskipun semua pembuat kode adalah pakar disiplin ilmu yang menyadari kemungkinan bias kognitif menciptakan bias statistik
dalam pengkodean mereka sendiri. Namun, bias kognitif manusia tidak mungkin menghasilkan bias statistik yang homogen
dalam pengkodean. Oleh karena itu, kami merekomendasikan agar beberapa pembuat kode manusia mengkodekan kumpulan
data yang sama yang digunakan untuk mengkalibrasi model komputer, dan para pembuat kode merekonsiliasi perbedaan
pengkodean mereka sebelum menggunakan kumpulan data yang dikodekan. Meskipun hal ini meningkatkan investasi waktu
yang diperlukan untuk mengkalibrasi model komputer, ini adalah strategi terbaik yang ada untuk mengakui dan meminimalkan
kemungkinan konsekuensi bias kognitif terhadap bias pengkodean manusia.

Investigasi ini harus dianggap sebagai langkah pertama dalam pendekatan sistematis terhadap peran bias manusia
dalam bias pemodelan statistik. Bahwa pakar manusia menunjukkan pengambilan keputusan yang bias telah dibuktikan
oleh peneliti lain (misalnya Bruine de Bruin2005; Cabanac dan Preuss2013), namun hubungan yang spesifik dan
persisten antara bias kognitif dan statistik perlu dieksplorasi lebih lanjut. Dalam penelitian ini, kami memeriksa tiga
pembuat kode untuk satu pertanyaan CR. Penggunaan tiga pengkode untuk satu studi merupakan representasi, atau
bahkan terlalu mewakili, jumlah pengkode yang sering digunakan untuk mengkodekan data kualitatif dan juga mewakili
bagaimana pengkodean sering dilakukan. Namun, karena data kami dihasilkan hanya oleh tiga pembuat kode dan hanya
untuk satu pertanyaan CR, pola potensial yang dimasukkan oleh bias kognitif manusia ke dalam bias statistik masih
belum dieksplorasi. Pakar manusia mungkin berpotensi memasukkan beberapa bias sistematis
1 A.BIEREMA

menunjukkan beberapa hubungan mekanistik antara bias kognitif dan statistik; atau mungkin bias kognitif
diekspresikan secara heterogen. Dalam kasus terakhir, sangatlah penting untuk menggunakan strategi
debiasing yang efektif dan efisien untuk meminimalkan dampak bias kognitif terhadap bias statistik.
Penelitian mengenai teknik debiasing yang potensial masih relatif kurang, dan hasil yang ada masih samar-samar.
Hasil kami menunjukkan bahwa mengetahui kemungkinan bias kognitif manusia saja tidak cukup untuk meniadakan
bias statistik, konsisten dengan penelitian lain mengenai debiasing. Namun, penelitian ini tidak bertujuan untuk
mengurangi bias kognitif. Ada kemungkinan bahwa strategi debiasing lainnya, seperti pembutakan data secara
menyeluruh (MacCoun dan Perlmutter2015) secara efektif akan mengganggu hubungan antara bias kognitif dan
statistik. Data kami juga menunjukkan bahwa akses ke semua data mengganggu tautan ini di dua pembuat kode. Salah
satu teknik debiasing yang berpotensi efektif adalah ketidaklancaran kognitif, atau beberapa ciri bagaimana informasi
disusun atau disajikan yang meningkatkan persepsi kesulitan dalam menangani informasi tersebut. Strategi ini mungkin
mendorong pemrosesan informasi yang lebih dalam, dibandingkan pemrosesan cepat berbasis heuristik yang menyertai
bias kognitif. Dalam kumpulan data seperti milik kami, kami dapat menimbulkan atau mempertahankan ketidakfasihan
dengan mengurutkan respons secara acak atau menggunakan pengambilan sampel acak bertingkat dari kode prediksi
komputer untuk meningkatkan proporsi beberapa kode. Meskipun tampaknya urutan acak tidak cukup untuk mencegah
bias statistik dalam kumpulan data kami, masih menjadi pertanyaan terbuka apakah ketidakfasihan dapat disebabkan
dalam kumpulan data seperti ini dengan cara yang akan mengganggu hubungan antara bias kognitif dan statistik.

Ucapan Terima Kasih


Materi ini didasarkan pada pekerjaan yang didukung oleh National Science Foundation (Nomor hibah DUE 1347740 dan DUE
1323162 ). Segala pendapat, temuan dan kesimpulan atau rekomendasi yang diungkapkan dalam materi ini adalah milik penulis
dan tidak mencerminkan pandangan lembaga pendukung. Kami ingin mengucapkan terima kasih kepada Matthew Steele yang
telah mengembangkan rangkaian algoritme pembelajaran mesin untuk model komputer dan Jennifer Kaplan atas saran
metodologisnya. Kami juga ingin mengucapkan terima kasih kepada Matthew Steele, Rachel Yoho, Hye Sun You, Kamali Sripathi,
Robert Drost, Laboratorium Penelitian Geokognisi di Michigan State University, dan pengulas anonim atas masukan mereka
terhadap versi sebelumnya dari naskah ini.

Pernyataan pengungkapan

Tidak ada potensi konflik kepentingan yang dilaporkan oleh penulis.

Pendanaan

Materi ini didasarkan pada pekerjaan yang didukung oleh National Science Foundation, Divisi Pendidikan Sarjana [nomor
hibah DUE 1347740 dan DUE 1323162].

ORCID
Andrea Bierema
http://orcid.org/0000-0001-7164-4346

Alex Lyford http://orcid.org/0000-0001-6742-0198


Kevin Haudek http://orcid.org/0000-0003-1422-6038
Tandai Urban-Lurain http://orcid.org/0000-0002-2243-8252

Referensi
AAAS (Asosiasi Amerika untuk Kemajuan Ilmu Pengetahuan).2011.Visi dan Perubahan Sarjana Biologi
Pendidikan: Seruan untuk Bertindak,diedit oleh Carol A. Brewer dan Diane Smith. Washington, DC: Asosiasi Amerika untuk
Kemajuan Ilmu Pengetahuan.
Ubah, AL2013. “Manfaat Ketidaklancaran Kognitif.”Arah Saat Ini dalam Ilmu Psikologi22 (6): 437–442.doi:10.
1177/0963721413498894.
JURNAL INTERNASIONAL PENELITIAN & METODE 1
Angwin, J., J. Larson, S. Mattu, dan L. Kirchner.2015. Bias Mesin: Ada Perangkat Lunak yang Digunakan di Seluruh Negeri untuk Memprediksi
Penjahat Masa Depan. Dan itu Bias Terhadap Orang Kulit Hitam.”https://www.propublica.org/article/machine-bias-risk-assessmentsin-
criminal-sentencing.
Pemanah, J., dan B. McCarthy.1988. “Bias Pribadi dalam Penilaian Siswa.”Penelitian Pendidikan30 (2): 142–145. Babad, EY
1985. “Beberapa Korelasi dengan Bias Harapan Guru.”Jurnal Penelitian Pendidikan Amerika22 (2): 175–183. Bellamy, RKE,
K. Dey, M. Hind, SC Hoffman, S. Houde, K. Kannan, dan L. Pranay.2018. “AI Fairness 360: Dapat Diperluas
Perangkat untuk Mendeteksi, Memahami, dan Mengurangi Bias Algoritma yang Tidak Diinginkan.”https://arxiv.org/abs/
1810.01943. Bennett, RE, dan WC Ward, eds.1993.Konstruksi versus Pilihan dalam Pengukuran Kognitif: Masalah dalam Konstruksi
Respon, Pengujian Kinerja, dan Penilaian Portofolio.Hillsdale: Rekan L. Erlbaum. Berg, BL2009.
Metode Penelitian Kualitatif untuk Ilmu-Ilmu Sosial.edisi ke-7. Boston: Allyn & Bacon.
Birenbaum, M., dan KK Tatsouka.1987. “Format Respons Terbuka Versus Pilihan Ganda - Memang Membuat a
Perbedaan untuk Tujuan Diagnostik.”Pengukuran Psikologis Terapan11 (4): 385–395.
Bruine de Bruin, W.2005. “Simpan Tarian Terakhir untuk Saya: Efek Posisi Serial yang Tidak Diinginkan dalam Evaluasi Juri.”tindakan
Psikologi118 (3): 245–260.doi:10.1016/j.actpsy.2004.08.005.
Buolamwini, J., dan T. Gebru.2018. “Nuansa Gender: Disparitas Akurasi Titik-Titik dalam Klasifikasi Gender
Komersial.” Dalam Prosiding Konferensi Pertama tentang Keadilan, Akuntabilitas dan Transparansi, Prosiding penelitian
pembelajaran mesin, diedit oleh SA Friedler dan C. Wilson, 1-15.
Cabanac, G., dan T. Preuss.2013. “Memanfaatkan Efek Pesanan dalam Upaya Mengamankan Konferensi yang Ditinjau Sejawat
Ulasan oleh Wasit Ahli.”Jurnal Masyarakat Amerika untuk Sains dan Teknologi Informasi64 (2): 405–415.
doi:10.1002/asi.22747.
Cheikes, BA, MJ Brown, dan PE Lehner.2004.Bias Konfirmasi dalam Analisis Kompleks.Bedford: Pusat MITER untuk
Sistem Intelijen Terintegrasi.
Diemand-Yauman, C., DM Oppenheimer, dan EB Vaughan.2011. “Keberuntungan Berpihak pada Yang Berani (dan Yang Dicetak Miring): Efek
Ketidaklancaran Hasil Pendidikan.”Pengartian118: 111–115.doi:10.1016/j.cognition.2010.09.012. Dietterich, T., dan EB
Kong.1995. “Bias Pembelajaran Mesin, Bias Statistik, dan Varian Statistik Pohon Keputusan
Algoritma.”KutipanSeerX.http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.38.2702.
Evans, J.St.BT, SE Newstead, JL Allen, dan P. Pollard.1994. “Debiasing dengan Instruksi: Kasus Bias Keyakinan.”
Jurnal Psikologi Kognitif Eropa6 (3): 263–285.
Fischhoff, B.1982. “Memihak.” Di dalamPenghakiman dalam Ketidakpastian: Heuristik dan Bias,diedit oleh Daniel Kahneman, Paul
Slovic, dan Amos Tversky, 422–444. Pers Universitas Cambridge.doi:10.1017/CBO9780511809477.032.
Ha, MS, RH Nehm, M. Urban-Lurain, dan JE Merrill.2011. “Menerapkan Model Penilaian Tertulis yang Terkomputerisasi
Penjelasan Biologis di Seluruh Kursus dan Perguruan Tinggi: Prospek dan Keterbatasan.”CBE-Pendidikan Ilmu Hayati10 (4):
379–393.doi:10.1187/cbe.11-08-0081.
Hake, RR1998. “Keterlibatan Interaktif Versus Metode Tradisional: Survei Tes Mekanik Enam Ribu Siswa
Data untuk Mata Kuliah Pengantar Fisika.”Jurnal Fisika Amerika66 (1): 64–74.doi:10.1119/1.18809.
Haudek, KC, RA Moscarella, M. Weston, J. Merrill, dan M. Urban-Lurain.2015. “Konstruksi Rubrik untuk Evaluasi
Isi Eksplanasi Ilmiah Siswa Menggunakan Analisis Teks Terkomputerisasi.”Makalah dipresentasikan pada Konferensi Tahunan
NARST (Organisasi Sedunia untuk Meningkatkan Pengajaran dan Pembelajaran melalui Penelitian), Chicago, 11-14 April.

Haudek, KC, LB Prevost, RA Moscarella, J. Merrill, dan M. Urban-Lurain.2012. “Apa yang Mereka Pikirkan? Otomatis
Analisis Tulisan Siswa Tentang Kimia Asam Basa pada Pengantar Biologi.”CBE-Pendidikan Ilmu Hayati11 (3): 283–293.
doi:10.1187/cbe.11-08-0084.
Hernandez, I., dan JL Preston.2013. “Ketidakfasihan Mengganggu Bias Konfirmasi.”Jurnal Sosial Eksperimental
Psikologi49 (1): 178–182.
Hirt, ER, dan KD Markman.1995. “Penjelasan Berganda: Strategi Pertimbangan-Alternatif untuk Meringankan Penilaian.”
Jurnal Psikologi Kepribadian dan Sosial69 (6): 1069–1086.
Jonas, E., S. Schulz-Hardt, D. Frey, dan N. Thelen.2001. “Bias Konfirmasi dalam Pencarian Informasi Berurutan setelahnya
Keputusan Awal: Perluasan Penelitian Teoritis Disonansi tentang Paparan Selektif terhadap Informasi.” Jurnal
Psikologi Kepribadian dan Sosial80: 557–571.doi:10.103700022-3514.80.4.557.
Jones, B., dan CJ Nachtsheim.2009. “Desain Plot Terpisah: Apa, Mengapa, dan Bagaimana.”Jurnal Teknologi Berkualitas41 (4):
340–361.
Jurka, TP, L. Collingwood, AE Boydstun, E. Grossman, dan W. van Atteveldt.2012. “RTextTools: Teks Otomatis
Klasifikasi melalui Pembelajaran yang Diawasi. Versi Paket R.” 1.3.9.http://CRAN.R-project.org/package=RTextTools.
Kahneman, D., dan S. Frederick.2005. “Model Penilaian Heuristik.” Di dalamBuku Pegangan Berpikir Cambridge dan
Pemikiran,diedit oleh Keith J. Holyoak, dan Robert G. Morrison, 267–292. Cambridge: Pers Universitas Cambridge. Kaplan, JJ, KC
Haudek, M.Ha, N. Rogness, dan Ditjen Fisher.2014. “Menggunakan Software Analisis Leksikal untuk Menilai Siswa
Menulis dalam Statistik.”Inovasi Teknologi dalam Pendidikan Statistika8 (1),https://escholarship.org/uc/item/57r90703.
Kawulich, BB2017. “Pengkodean dan Analisis Data Kualitatif.” Bab. 38 inciBuku Panduan Pendidikan BERA/SAGE
Penelitian: Dua Volume Set,diedit oleh D. Wyse, N. Selwyn, E. Smith, dan LE Suter, 769–790. London: Publikasi Sage.
Kliegr, T.,SBahník, dan J. Fürnkranz.2018. “Tinjauan Kemungkinan Dampak Bias Kognitif pada Interpretasi Aturan-
Model Pembelajaran Mesin berbasis.”https://arxiv.org/abs/1804.02969v3.
1 A.BIEREMA

Koriat, A., S. Lichtenstein, dan B. Fischhoff.1980. “Alasan untuk Percaya Diri.”Jurnal Psikologi Eksperimental: Manusia
Pembelajaran dan Memori6: 107–118.
Kretz, DR, BJ Simpson, dan CJ Graham.2012. “Protokol Eksperimental Berbasis Game untuk Mengidentifikasi dan Mengatasi
Bias Penilaian dalam Analisis Keputusan Forensik.”Konferensi IEEE tentang Teknologi untuk Keamanan Dalam Negeri,439–444.
doi:10.1109/THS.2012.6459889.
Landis, JR, dan GG Kock.1977. “Pengukuran Perjanjian Pengamat untuk Data Kategorikal.”Biometrik33:
159–174.
Lehmann, EL, dan G. Casella.1998.Teori Estimasi Titik.edisi ke-2. New York: Peloncat.
MacCoun, R., dan S. Perlmutter.2015. “Analisis Buta: Sembunyikan Hasil untuk Mencari Kebenaran.”Alam526: 187–189.doi:10.1038/
526187a.
Malouff, JM, AJ Emmerton, dan NS Schutte.2013. “Risiko Halo Bias sebagai Alasan untuk Menjaga Siswa Tetap Anonim
Selama Penilaian.”Pengajaran Psikologi40 (3): 233–237.
Moscarella, RA, KC Haudek, JK Knight, A. Mazur, KN Pelletreau, LB Prevost, MK Smith, M. Steele, M. Urban-Lurain,
dan JE Merrill.2016. “Analisis Otomatis Memberikan Wawasan tentang Tantangan Siswa dalam Memahami Proses yang
Mendasari Aliran Informasi Genetik.”Makalah dipresentasikan pada Konferensi Internasional Tahunan NARST (A Worldwide
Organization forimprovement Teaching and Learning Through Research), Baltimore, 14-17 April.
Nehm, RH, MS Ha, dan E. Mayfield.2012. “Mengubah Penilaian Biologi dengan Pembelajaran Mesin: Otomatis
Penilaian Penjelasan Evolusioner Tertulis.”Jurnal Pendidikan Sains dan Teknologi21 (1): 183–196.doi:10. 1007/
s10956-011-9300-9.
Negara Bagian Utama NGSS.2013.Standar Sains Generasi Berikutnya: Untuk Negara Bagian, menurut Negara Bagian. Achieve, Inc. atas Nama Dua Puluh Enam
Negara Bagian dan Mitra yang Berkolaborasi dalam NGSS.Washington, DC: Pers Akademi Nasional.
Nickerson, RS1998. “Bias Konfirmasi: Fenomena yang Ada di Mana-Mana dalam Berbagai Kedok.”Review Psikologi Umum2 (2):
175–220.
Nisbett, RE, GT Fong, DR Lehman, dan PW Cheng.1987. “Mengajar Penalaran.”Sains238: 625–631.
NRC (Dewan Riset Nasional).2012.Kerangka Pendidikan Sains K-12: Praktik, Konsep Lintas Sektor, dan Inti
Ide ide.Washington, DC: Pers Akademi Nasional.https://doi.org/10.17226/13165.
NRC (Dewan Riset Nasional).2013.Beradaptasi dengan Dunia yang Berubah: Tantangan dan Peluang di Sarjana
Pendidikan Fisika.Washington, DC: Pers Akademi Nasional.https://doi.org/10.17226/18312.
Oswald, ME, dan S. Grosjean.2004. “Bias Konfirmasi.” Di dalamIlusi Kognitif: Buku Pegangan tentang Kekeliruan dan Bias di
Berpikir, Menilai, dan Mengingat,diedit oleh Rudiger F. Pohl, 79–97. New York: Pers Psikologi.
Pelletreau, KN, TC Andrews, N. Armstrong, MA Bedell, F. Dastoor, N. Dean, S. Erster, dkk.2016. “Kasus berbasis Clicker
Kajian yang Menguraikan Pemikiran Siswa tentang Proses dalam Dogma Sentral.”Sumber Kursus3: 1–10.doi:10.
24918/cs.2016.15.
Prevost, LB, MK Smith, dan JK Knight.2016. “Menggunakan Tulisan Siswa dan Analisis Leksikal untuk Mengungkap Pemikiran Siswa
Peran Stop Codon dalam Dogma Pusat.”CBE-Pendidikan Ilmu Hayati15 (4), ar65.doi:10.1187/cbe.15-12-0267.
Rom, MC2011. “Menilai Lebih Akurat.”Jurnal Pendidikan Ilmu Politik7: 208–223.
Samuels, MC, dan J.McDonald.2002. “Kemampuan Anak Usia Sekolah Dasar Memilih Diagnostik Positif dan
Tes Diagnostik Negatif.”Perkembangan anak73: 857–866.
Smith, JI, dan K. Tanner.2010. “Masalah Mengungkap Cara Berpikir Siswa: Inventarisasi Konsep dan Selebihnya.”CBE-
Pendidikan Ilmu Hayati9 (1): 1–5.doi:10.1187/cbe.09-12-0094.
Smith, MK, WB Wood, dan J. Knight.2008. “Penilaian Konsep Genetika: Inventarisasi Konsep Baru untuk Pengukuran
Pemahaman Mahasiswa tentang Genetika.”CBE: Pendidikan Ilmu Hayati7: 422–430.doi:10.1187/cbe.08-08-0045.
Soll, JB, KL Milkman, dan JW Payne.2014. “Panduan Pengguna untuk Debiasing.” Di dalamBuku Pegangan Penghakiman Wiley-Blackwell dan
Pengambilan Keputusan,diedit oleh Gideon Keren, dan George Wu, 924–951. Sussex Barat: John Wiley & Sons. Stanovich,
KE, dan RF Barat.2000. “Perbedaan Individu dalam Penalaran: Implikasinya terhadap Debat Rasionalitas?”
Ilmu Perilaku dan Otak23 (5): 645–665.
Thaler, RH, dan CR Sunstein.2009.Nudge: Meningkatkan Keputusan tentang Kesehatan, Kekayaan, dan Kebahagiaan.New York:
Pinguin. Tversky, A., dan D. Kahneman.1974. “Penilaian dalam Ketidakpastian: Heuristik dan Bias.”Sains185: 1124–1131. Urban-
Lurain, M., MM Cooper, KC Haudek, JJ Kaplan, JK Knight, PP Lemons, CT Lira, dkk.2015. “Memperluas a
Jaringan Nasional untuk Analisis Otomatis Penilaian Respons Terkonstruksi untuk Mengungkap Pemikiran Siswa dalam STEM.”
Komputer dalam Jurnal Pendidikan6: 65–81.
Weston, M., KC Haudek, L. Prevost, M. Urban-Lurain, dan J. Merrill.2015. “Meneliti Dampak Permukaan Pertanyaan
Fitur Jawaban Siswa terhadap Pertanyaan Respons Terkonstruksi tentang Fotosintesis.”CBE - Pendidikan Ilmu
Hayati 14 (2): 1–12.doi:10.1187/cbe.14-07-0110.
Weston, M., J. Parker, dan M. Urban-Lurain.2013. “Membandingkan Laporan Umpan Balik Formatif: Teks Manusia dan Otomatis
Analisis Pertanyaan Respon Terkonstruksi dalam Biologi.”Makalah dipresentasikan pada Konferensi Internasional Tahunan
NARST (Organisasi Sedunia untuk Peningkatan Pengajaran dan Pembelajaran Melalui Penelitian), Rio Grande, 5–9 April. Wilson,
CD, CW Anderson, M. Heidemann, JE Merrill, BW Merritt, G. Richmond, DF Sibley, dan JM Parker.2006.
“Menilai Kemampuan Siswa Melacak Materi dalam Sistem Dinamis dalam Biologi Sel.”Pendidikan Ilmu Hayati CBE5 (4): 323–
331. doi:10.1187/cbe.06-02-0142.
Yates, F.1935. “Eksperimen Kompleks.”Tambahan untuk Jurnal Royal Statistical Society2 (2): 181–247.
JURNAL INTERNASIONAL PENELITIAN & METODE 1
Lampiran. Hasil analisis logistik

Fase 1 Fase 2
Pembuat Kode X Pembuat Kode X Pembuat Kode Y Pembuat Kode Z

Replikasi, Kondisi 4 0,5216 (0,0797) 0,8721 (0,0745) 0,8292 (0,0743) 0,8803 (0,0754)
(Mencegat) <0,0001*** <0,0001*** <0,0001*** <0,0001***
Transkripsi 0,1908 (0,0836) 0,3868 (0,0797) 0,2880 (0,0756) 0,2691 (0,0780)
0,0225* <0,0001*** 0,0001*** 0,0006**
Terjemahan 0,1680 (0,0861) 0,2422 (0,0747) 0,2702 (0,0758) 0,1621 (0,0773)
0,0510 0,0011** 0,0004** 0,0359*
Kode Terlihat 0,6078 (0,0914) 0,0946 (0,0922) 0,2081 (0,0885) 0,1953 (0,0886)
<0,0001*** 0,3048 0,0186* 0,0275*
Dalam Urutan Kode 0,6019 (0,0907) 0,0768 (0,0886) – 0,0568 (0,0862) 0,1985 (0,0890)
<0,0001*** 0,3864 0,5096 0,0257*
Kode Terlihat – 0,2402 (0,1489) – 0,2317 (0,1273) 0,0544 (0,1248) – 0,1886 (0,1273)
X 0,1066 0,0386* 0,6626 0,1383
Dalam Urutan Kode

Catatan: Empat kolom mewakili empat model regresi logistik terpisah. Koefisien model disertai dengan korelasinya.
menanggapi kesalahan standar (dalam tanda kurung) danP-nilai dicetak tebal di bawah. Pseudo R McFadden2untuk Tahap 1 sebesar 0,315 dan untuk
Tahap 2 sebesar 0,171. *hal < .05, **hal < .01, ***hal < .001.

Anda mungkin juga menyukai