(2011)
Hak cipta © 2011 oleh Herle M. McGowan semua hak dilindungi undang-undang. Teks ini dapat
dibagikan secara bebas di antara individu-individu, tetapi mungkin tidak diterbitkan ulang dalam
media apa pun tanpa persetujuan tertulis dari penulis dan pemberitahuan terlebih dahulu dari editor.
Abstrak
Eksperimen yang dirancang dengan baik adalah metode terbaik untuk membangun kemanjuran dari
setiap intervensi, baik itu medis, perilaku, atau pendidikan di alam. Makalah ini mengulas langkah-
langkah yang diperlukan dalam melakukan percobaan komparatif dalam lingkungan pendidikan,
dan menggambarkan bagaimana langkah-langkah ini dapat dipenuhi dalam konteks percobaan acak
skala besar yang dilakukan dalam kursus statistik pengantar. Tujuan utama dari makalah ini adalah
untuk membantu para peneliti mengidentifikasi masalah-masalah penting untuk dipertimbangkan
dan potensi jebakan yang harus dihindari ketika merancang eksperimen komparatif dalam
lingkungan pendidikan.
1. Pendahuluan
Peneliti pendidikan dalam berbagai disiplin ilmu dihadapkan pada tugas mengeksplorasi bagaimana
siswa belajar dan secara bersamaan menangani masalah tentang bagaimana cara terbaik membantu
siswa melakukannya. Seringkali, peneliti pendidikan tertarik untuk menentukan efektivitas
beberapa teknologi atau teknik pedagogis untuk digunakan di kelas. Kemampuan mereka untuk
melakukannya tergantung pada kualitas metodologi penelitian yang digunakan untuk menyelidiki
reattreatments ini. ‖
Sudah diketahui secara umum bahwa eksperimen acak yang dirancang dengan baik adalah metode
terbaik untuk membangun kemanjuran setiap intervensi, baik itu medis, perilaku, atau bersifat
pendidikan. Sementara penggunaan percobaan acak dan komparatif dalam pengaturan pendidikan
bukan tanpa kritik (misalnya Howe 2004; Cook 2002), itu memang memainkan peran dalam setiap
fase program penelitian pendidikan, dari studi kemanjuran awal hingga uji coba yang lebih besar
yang mengkonfirmasi atau mengoptimalkan efek intervensi pendidikan (SMER 2007). Namun,
tinjauan studi perbandingan dilakukan di bidang pendidikan statistik menunjukkan bahwa
metodologi yang saat ini digunakan dapat ditingkatkan (McGowan 2009).
Makalah ini mengulas langkah-langkah yang diperlukan dalam melakukan percobaan perbandingan.
Makalah ini menggambarkan bagaimana langkah-langkah ini dapat dipenuhi dalam konteks
percobaan acak skala besar yang dilakukan dalam kursus statistik pengantar. Tujuan utama dari
makalah ini adalah untuk membantu para peneliti mengidentifikasi masalah-masalah penting untuk
dipertimbangkan dan potensi jebakan yang harus dihindari ketika merancang eksperimen
komparatif dalam lingkungan pendidikan.
2. Proses Eksperimental
Sebagian besar buku teks yang membahas merancang eksperimen — untuk penelitian kelas atau
dalam konteks lain — membahas langkah-langkah dasar yang sama (lihat, misalnya, Slavin 1984;
Light, Singer dan Willett 1990; Wu & Hamada 2000). Langkah pertama melibatkan spesifikasi
masalah, termasuk mendefinisikan pertanyaan penelitian atau hipotesis yang akan diuji, dan juga
mengidentifikasi variabel respon dan pengobatan atau prediktor minat lainnya. Setelah ini
ditentukan, perencanaan yang luas dari desain dan prosedur eksperimental diperlukan, termasuk
pemilihan tindakan, peserta, dan rencana untuk pengacakan. Perencanaan diikuti oleh implementasi,
analisis, dan akhirnya, menarik kesimpulan dari data. Pada bagian ini, beberapa pilihan yang
tersedia untuk seorang peneliti untuk setiap langkah ini ditinjau. Dalam Bagian 3, pilihan-pilihan ini
dan konsekuensinya yang terkait diilustrasikan dalam konteks contoh — percobaan yang
mengeksplorasi penggunaan sistem respons pribadi dalam pengajaran statistik.
Langkah pertama dalam setiap penelitian penelitian adalah untuk menentukan pertanyaan atau
hipotesis yang menarik. Motivasi dapat datang dari minat pada perlakuan tertentu, seperti ingin
mengeksplorasi efek dari teknologi baru, atau dalam hasil tertentu, seperti mencari cara untuk
meningkatkan pemahaman konsep yang dengannya siswa biasanya berjuang. Apa pun motivasinya,
setiap masalah penelitian harus didasarkan pada pemahaman saat ini tentang bagaimana siswa
belajar.
Ruang lingkup setiap pertanyaan penelitian harus sesuai mengingat kondisi pengetahuan saat ini
dalam bidang tertentu. Misalnya, jika suatu pengobatan belum dipelajari secara luas, pertanyaan
yang mengeksplorasi kemanjuran dasar adalah titik awal yang diperlukan. Namun, ketika
pengetahuan mulai tumbuh, nuansa pertanyaan penelitian juga harus tumbuh. Misalnya, pertanyaan
tentang kemanjuran dapat diikuti oleh pertanyaan yang mengeksplorasi aspek atau variasi tertentu
dari perawatan, untuk mempelajari bagaimana atau mengapa itu berhasil, atau dalam kondisi apa
itu optimal.
Akhirnya, untuk memiliki masalah penelitian yang layak, ide-ide perlu difokuskan ke pertanyaan
sempit dan spesifik yang dapat dijawab dengan jelas. Garfield (2006, hal. 8) memberikan contoh ini
untuk menunjukkan perbedaan antara pertanyaan penelitian yang luas dan spesifik:
technologyApakah teknologi meningkatkan pembelajaran siswa? ‖ Dapat difokuskan ke dalam ―
Bagaimana penggunaan alat teknologi tertentu dapat membantu siswa memahami arti interval
kepercayaan?
2
JournalJurnal Pendidikan Statistik, Volume 19,
Nomor 2 (2011)
Proses menentukan pertanyaan penelitian dan hipotesis akan membantu menggambarkan apa hasil
yang relevan dan variabel pengobatan (sebenarnya, langkah-langkah ini sering terjalin). Seperti
halnya spesifikasi pertanyaan penelitian, mendefinisikan variabel dan hasil pengobatan harus
didukung oleh tinjauan literatur yang menyeluruh untuk menentukan pemahaman terkini tentang
praktik terbaik. Ini dapat membantu dengan pemilihan perawatan terbaik untuk dijelajahi, serta
dengan menentukan cara yang paling tepat untuk mengukur hasil. Pendekatan lain adalah
mempertimbangkan empat tingkat evaluasi program yang dijelaskan dalam Kirkpatrick dan
Kirkpatrick (2006). Pertimbangan dari tiga level pertama dapat membantu dengan spesifikasi
variabel hasil dengan mengidentifikasi 1) hasil perawatan yang diinginkan 2) perilaku yang
diperlukan untuk mencapai hasil ini, dan 3) sikap, pengetahuan atau keterampilan yang dapat
menghasilkan yang diinginkan perilaku. Tingkat keempat berkaitan dengan rincian implementasi —
bagaimana menyajikan intervensi kepada para peserta sehingga mereka bereaksi dengan baik
terhadapnya. Rincian implementasi dibahas dalam Bagian 2.3.
Pertimbangan utama dalam merancang eksperimen apa pun dalam lingkungan pendidikan adalah
untuk memastikan bahwa prosedur eksperimental tidak terlalu mengganggu atau mengganggu
prosedur kelas normal. Ini penting karena beberapa alasan. Sebagai pendidik, tanggung jawab
utama kami adalah kepada siswa kami, dan kami tidak ingin eksperimen yang merugikan
pengalaman belajar mereka atau membuat mereka merasa seperti uineguinea pigs.‖ Sebagai peneliti,
kami berada di bawah tata kelola Institutional Review Boards (IRBs) , yang memastikan bahwa
hak-hak siswa dilindungi. Selain itu, merencanakan prosedur eksperimental sebagai bagian normal
dari kursus, sejauh memungkinkan, membuat pelaksanaan eksperimen lebih mudah karena
perlakuan khusus tidak diperlukan untuk siswa yang tidak ingin berpartisipasi. Beberapa
pertimbangan dalam merencanakan eksperimen yang tidak menonjol dibahas sepanjang bagian ini.
Pemilihan instrumen penilaian berkualitas tinggi penting untuk mendapatkan data yang baik dalam
studi apa pun. Instrumen harus menghasilkan data yang valid (yaitu mengukur apa yang ingin
diukur) dan andal (yaitu mengukur secara konsisten) (Nunnally 1978). Ada seluruh bidang
akademik yang didedikasikan untuk ilmu mengembangkan instrumen yang valid dan dapat
diandalkan, sebuah proses yang membutuhkan waktu dan perbaikan. Seringkali penilaian yang
digunakan dalam proses normal suatu kursus, seperti ujian atau survei yang dikembangkan oleh
instruktur, tidak akan mencapai sifat-sifat ini. Penggunaan penilaian terstandar lebih disukai, karena
ini telah melalui pengujian dan penyempurnaan. Selain itu, penggunaan instrumen yang tersedia
secara nasional membantu membingkai hasil penelitian ini (mis. Apakah skor yang lebih tinggi
menunjukkan pemahaman konseptual yang lebih baik atau kemampuan prosedural yang lebih
baik?), Memungkinkan perbandingan hasil yang lebih mudah di seluruh studi menggunakan ukuran
yang sama, dan memungkinkan reproduksi lebih mudah kondisi eksperimental dalam studi masa
depan. Ini, pada gilirannya, memfasilitasi pembangunan pengetahuan tentang pengobatan tertentu
atau hasil tertentu. Untuk memastikan bahwa siswa tidak terbebani oleh penilaian, instrumen
standar dapat dimasukkan ke dalam penilaian kursus khas; misalnya, menggantikan semua atau
sebagian dari instruktur ujian yang dikembangkan.
3
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
Pengembangan definisi operasional dari variabel pengobatan — sesuatu yang benar-benar dapat
dilakukan dalam suatu penelitian — akan sangat dipengaruhi oleh keterangan dari perawatan
sedang diselidiki. Sebagai contoh:
• Teknologi apa yang akan tersedia untuk instruktur dan / atau siswa yang dapat digunakan
untuk melaksanakan perawatan (jika perlu)?
• Berapa banyak waktu yang tersedia untuk perawatan? Ini bisa berkisar dari beberapa menit
untuk satu aktivitas hingga satu semester penuh.
• Berapa banyak pengobatan (dosis) yang sesuai, atau mungkin untuk menerapkan kendala yang
diberikan (misalnya waktu, sumber daya, beban kerja)?
• Berapa tingkat perawatan yang dibutuhkan? Misalnya, jika pertanyaan penelitian adalah dalam
bentuk treatmentApakah pengobatan lebih baik daripada tidak ada pengobatan? ‖ Maka
diperlukan dua tingkat (mis. Omebeberapa 'vs ̳tidak ada'). Jika pertanyaannya berupa ― Berapa
banyak perawatan yang terbaik? ‖ Maka lebih dari dua level (misalnya eghigh 'vs odermoderate'
vs ̳low ') mungkin diperlukan.
Jumlah level di mana perawatan diukur akan memiliki dampak langsung pada desain percobaan.
Perawatan yang paling sederhana dalam studi perbandingan memiliki dua tingkat (misalnya
"beberapa" vs "tidak"; "lebih" vs "tanpa" dan diselidiki dengan desain 2-kelompok. Perawatan yang
lebih kompleks membutuhkan desain yang lebih kompleks. Sebagai contoh, desain faktorial, yang
umum dalam percobaan industri dan sangat cocok untuk menyelidiki interaksi, dapat digunakan
untuk mengeksplorasi beberapa variabel perlakuan (Wu & Hamada 2000) pada dua atau lebih level
masing-masing. Desain faktorial dapat berguna dalam penelitian pendidikan untuk mengeksplorasi
optimalisasi pengobatan tertentu setelah kemanjuran awal pengobatan telah ditetapkan.
Identifikasi peserta yang tepat dan kelompok pembanding akan ditentukan oleh masalah penelitian
dan perlakuan yang menarik. Seringkali, kumpulan peserta yang memenuhi syarat akan semua
siswa terdaftar untuk kelas tertentu. Penelitian yang dilakukan di universitas yang melibatkan
subyek manusia kemungkinan akan memerlukan persetujuan dari IRB, dan peneliti harus meminta
persetujuan siswa untuk berpartisipasi dalam penelitian ini. Bergantung pada sifat perawatan, para
siswa yang tidak ingin berpartisipasi mungkin perlu dipisahkan dari mereka yang melakukannya.
Namun, ini dapat dihindari jika prosedur eksperimental dirancang untuk menjadi bagian integral
dari kegiatan kursus, sehingga semua siswa berpartisipasi dalam kegiatan selama kelas atau sebagai
bagian dari pekerjaan di luar kelas yang diperlukan. Dalam hal ini, persetujuan harus dicari untuk
menganalisis dan mempublikasikan hasil berdasarkan data siswa (lihat Lampiran A untuk contoh
formulir persetujuan).
Penggunaan pengacakan akan ditentukan oleh masalah praktis dan etis. Tentu saja, pengacakan
setiap siswa adalah prosedur terbaik untuk memastikan kesetaraan dasar dari kelompok
pembanding; Namun, ini tidak selalu mungkin. Mungkin lebih mudah untuk mengacak siswa secara
perorangan ketika perawatan adalah sesuatu yang terjadi pada tingkat individu atau sesuatu yang
mewakili sebagian kecil dari kursus, seperti eksplorasi individu dari konsep tertentu menggunakan
applet komputer. Sebaliknya, pengobatan dapat dikirim ke seluruh bagian kelas
4
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
selama satu semester penuh. Dalam kasus-kasus seperti ini, mungkin sulit untuk secara acak
menugaskan masing-masing siswa karena kendala penjadwalan, terutama jika bagian ditawarkan
pada beberapa hari dan waktu, seperti yang umum dalam kursus perguruan tinggi besar. Mencari
sukarelawan untuk diacak di antara bagian-bagian tertentu atau slot waktu akan sangat mengurangi
jumlah peserta. Alternatif lain adalah mengacak seluruh kelas dengan kondisi perawatan. Dalam hal
ini, yang terbaik adalah mengacak beberapa bagian untuk setiap kelompok pembanding sehingga
efek dari variabel perlakuan tidak dikacaukan dengan faktor kelompok. Ini akan memiliki implikasi
untuk bagaimana data yang dihasilkan dianalisis, seperti dibahas dalam Bagian 2.4.
Selain pengacakan yang berpotensi lebih mudah, ada manfaat lain untuk memiliki perawatan yang
kecil dan terfokus yang bertentangan dengan yang mencakup seluruh program atau semester.
Misalnya, jenis perawatan ini lebih konsisten dengan rekomendasi untuk mengajukan pertanyaan
penelitian yang sempit dan terfokus yang dibuat pada Bagian 2.1. Jenis perawatan ini juga
membutuhkan lebih sedikit waktu, uang, dan upaya untuk mengimplementasikan, sedangkan
implementasi dari perawatan yang lebih kompleks bisa sulit. Tentu saja, ada risiko bahwa
perawatan kecil dapat dikaitkan dengan efek kecil, yang pada gilirannya akan sulit dideteksi.
Hubungan yang kuat dengan teori saat ini pada titik yang menentukan masalah penelitian dapat
membantu memaksimalkan efek potensial dari pengobatan; juga pemilihan dan penempatan
penilaian yang cermat dapat memaksimalkan kemampuan untuk mendeteksi efek.
Proses perencanaan implementasi percobaan kemungkinan akan melewati beberapa tahap. Ada
banyak hal yang perlu dipertimbangkan, termasuk implementasi ideal yang akan diperlukan untuk
menjawab pertanyaan penelitian yang menarik (misalnya, mengacak siswa secara individu untuk
membuat klaim kausal tentang keberhasilan pengobatan), serta implementasi yang sebenarnya
mungkin dilakukan secara lebih baik. diberikan kendala karena waktu, uang, pengawasan
administrasi dan sejenisnya. Banyak IRB akan membutuhkan rencana rinci untuk implementasi
sebelum mereka menyetujui proyek.
Selain memiliki rencana implementasi, penting untuk memiliki cara yang jelas untuk
mengkomunikasikan rencana ini kepada instruktur tambahan yang mungkin mengimplementasikan
intervensi. Misalnya, rapat atau memo mingguan dengan arahan dapat digunakan untuk memastikan
konsistensi dalam prosedur eksperimental antara beberapa ruang kelas. Namun, penyimpangan dari
rencana pasti akan terjadi selama percobaan apa pun. Oleh karena itu, ide yang baik untuk
menyimpan catatan implementasi aktual selain implementasi yang direncanakan. Memiliki catatan
seperti itu tidak hanya mengungkapkan perselingkuhan, tetapi juga memberikan beberapa gagasan
tentang seberapa sering masalah tersebut terjadi. Informasi ini dapat berguna untuk mengevaluasi
hasil percobaan dan menjelaskan mengapa mereka mungkin atau mungkin tidak seperti yang
diharapkan. Meninjau catatan implementasi secara rutin selama periode eksperimental memberikan
kesempatan kepada penyelidik utama untuk memperbaiki masalah selama eksperimen saat ini, atau
untuk memperbaiki perawatan atau rencana implementasi untuk replikasi di masa mendatang.
Dengan studi apa pun, fitur desain akan berdampak pada analisis apa yang sesuai. Dalam penelitian
pendidikan, dua fitur desain umum yang akan mempengaruhi analisis adalah kurangnya pengacakan
setiap siswa untuk kondisi perawatan dan pengiriman pengobatan ke
5
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
seluruh kelas siswa. Fakta bahwa siswa berada di kelas yang sama, atau bahwa beberapa kelas dapat
diajarkan oleh instruktur yang sama, melanggar kondisi independensi yang diperlukan oleh model
statistik standar (SMER 2007). Model hierarkis, atau multi-level, dengan efek acak bersarang harus
digunakan untuk mengatasi masalah ini, dan kemajuan terbaru dalam perangkat lunak telah
membuat jenis analisis ini jauh lebih ramah pengguna (lihat, misalnya, Pinheiro dan Bates 2009;
Raudenbush dan Byrk 2002).
3. Contoh Ilustrasi
Proses eksperimental yang dijelaskan pada bagian sebelumnya sekarang akan diilustrasikan melalui
contoh — percobaan yang dilakukan di universitas riset besar, barat tengah. Eksperimen khusus ini
cukup kompleks, yang menunjukkan bahwa implementasi eksperimen kaya dimungkinkan dalam
pengaturan pendidikan, dan kadang-kadang bahkan diperlukan untuk memajukan pengetahuan.
Untuk kesederhanaan, informasi yang disajikan di sini hanya mewakili sebagian dari percobaan
penuh; namun apa yang disajikan masih cukup rinci, untuk menunjukkan tingkat pemikiran yang
dapat masuk ke dalam proses perencanaan. Meskipun tidak setiap studi banding perlu
mempertimbangkan setiap masalah pada tingkat yang disajikan di sini, diharapkan penyajian
perincian seperti itu akan membantu peneliti pendidikan baru mempertimbangkan masalah yang
mungkin tidak mereka miliki (memang, tidak setiap masalah terbukti bagi penulis selama
perencanaan percobaan ini; beberapa hanya menjadi begitu di belakang). Akhirnya, diskusi tentang
apa yang bisa dilakukan secara berbeda disajikan di seluruh bagian ini, untuk mengilustrasikan
refleksi pada desain dan implementasi percobaan yang harus dilakukan setelah selesai.
Tujuan umum dari percobaan ilustratif adalah untuk mengeksplorasi efektivitas sistem respons
pribadi, atau ickpelanggan, ‖ sebagai alat pedagogis dalam statistik. Clickers adalah remote
genggam yang memungkinkan siswa untuk menjawab pertanyaan, biasanya pilihan ganda, yang
diajukan oleh instruktur selama kelas. Perangkat lunak kemudian mengumpulkan dan menghitung
tanggapan ini hampir secara instan. Grafik batang frekuensi setiap pilihan jawaban dapat
ditampilkan kepada siswa, yang memungkinkan mereka untuk melihat apakah jawaban mereka
benar atau tidak. Banyak makalah membahas penggunaan dan potensi manfaat clickers di
6
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
kelas; pembaca yang tertarik mempelajari lebih lanjut tentang teknologi ini dirujuk ke ringkasan
literatur ini (misalnya Duncan 2005; Caldwell 2007; Zhu 2007) dan untuk panduan menulis
pertanyaan clicker yang baik (misalnya Beatty 2004; Beatty, Gerace, Leonard dan Dufresne 2006).
Eksperimen clicker dilaksanakan dalam kursus statistik pengantar multi-bagian untuk mahasiswa
sarjana. Kursus ini termasuk 80 menit praktikum di samping tiga jam kuliah per minggu. Tujuan
dari perkuliahan adalah untuk memperkenalkan sebagian besar materi pelajaran, dengan siswa
kemudian dapat menerapkan pengetahuan mereka selama praktikum. Bagian kuliah sangat
bervariasi dalam hal ukuran mereka, jumlah sesi per minggu, dan panjang setiap sesi. Lab, di sisi
lain, cukup seragam sehubungan dengan aspek-aspek ini: ada sekitar 25 siswa di setiap bagian lab,
yang bertemu seminggu sekali selama 80 menit. Ada juga lebih banyak bagian lab daripada bagian
kuliah (lima puluh dibandingkan dengan enam). Untuk alasan ini percobaan diimplementasikan di
bagian lab kursus. Rincian lebih lanjut tentang desain dan implementasi percobaan akan diberikan
di seluruh bagian ini; namun analisis terperinci dan hasil penelitian telah dipublikasikan di tempat
lain (McGowan dan Gunderson 2010).
penelitian Masalah penelitian untuk eksperimen clicker muncul dari proses alami untuk
meningkatkan kursus. Instruktur utama merasa bahwa akan ada manfaat bagi teknologi clicker dan
karenanya mulai menggunakannya. Dalam istilah informal, masalah penelitian untuk percobaan ini
adalah untuk menyelidiki apakah beberapa penggunaan clickers lebih baik daripada yang lain.
Proses memformalkan pertanyaan penelitian ini dijelaskan dalam subbab berikutnya.
Hasil untuk eksperimen clicker adalah "manajemen" dan "pembelajaran"; mengidentifikasi ini
diikuti secara alami dari keputusan untuk mempelajari clickers, karena keterlibatan dan
pembelajaran secara luas diyakini sebagai manfaat dari setiap teknologi pendidikan. Tinjauan
literatur yang relevan kemudian digunakan untuk membantu mendefinisikan dan
mengoperasionalkan hasil ini (lihat Bagian 3.2.1).
"Beberapa penggunaan clicker" diformalkan dengan memilih tiga aspek tertentu dari penggunaan
clicker yang diyakini mempengaruhi keterlibatan dan pembelajaran. Dalam literatur tentang
clickers, pengguna cenderung memperjuangkan kekuatan mereka untuk memberikan umpan balik
langsung kepada siswa dan instruktur, tanpa secara sistematis mempertimbangkan jumlah atau
waktu umpan balik ini. Namun, pengalaman penulis dalam mengajar dengan pembaca tampaknya
menunjukkan bahwa mungkin ada batasan praktis tentang bagaimana memberikan umpan balik ini.
Clickers pertama kali diperkenalkan dalam kursus selama hari-hari ujian ujian di laboratorium.
Siswa diberi kesempatan untuk mengerjakan masalah ulasan dalam kelompok dan kemudian
mengklik jawaban untuk beberapa masalah berturut-turut. Selama sesi ini, siswa sering menjadi
terganggu dan mulai berbicara atau mencari online sambil menunggu orang lain memasukkan
jawaban mereka untuk pertanyaan. Ini bisa menjadi indikasi interaksi negatif antara jumlah
pertanyaan clicker yang diajukan dan bagaimana pertanyaan-pertanyaan itu dimasukkan ke dalam
sesi kelas. Kemungkinan 'overdosis', boleh dikatakan, penggunaan clicker belum dipertimbangkan
secara luas, sehingga
7
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
percobaan dirancang sebagian untuk mengatasi kesenjangan ini dalam literatur. Sejauh itu, dua
variabel perlakuan yang dipertimbangkan dalam percobaan adalah jumlah pertanyaan yang diajukan
dengan clickers selama sesi lab (disebut Frekuensi) dan penempatan pertanyaan-pertanyaan itu di
seluruh materi (khususnya, jika pertanyaan diajukan dalam kelompok atau lebih tersebar, disebut
Aglomerasi). Pengukuran masing-masing variabel perlakuan ini dijelaskan dalam Bagian 3.2.2.
Ruang lingkup pertanyaan penelitian ini sesuai mengingat pengetahuan pengguna saat itu. Beberapa
studi telah mengeksplorasi kemanjuran teknologi ini dan menemukan bukti bahwa itu bermanfaat
bagi siswa. Pertanyaan penelitian dalam percobaan saat ini dipilih untuk menambah pengetahuan
tentang clickers dengan mengeksplorasi faktor-faktor yang belum dipelajari secara luas dan yang
mungkin berkontribusi pada penggunaan clickers yang optimal di kelas.
Eksperimen clicker sangat mengandalkan penilaian standar untuk mengukur keterlibatan dan
pembelajaran. Misalnya, Survei Sikap Menuju Statistik (SATS; Schau, Stevens, Dauphinee dan Del
Vecchio 1995) digunakan sebagian untuk mengukur keterlibatan, dan beberapa instrumen dari Alat
Sumber Penilaian untuk Meningkatkan Proyek Pemikiran Statistik (ARTIST; https: // app.
gen.umn.edu/artist/) digunakan untuk mengukur pembelajaran, termasuk Penilaian Komprehensif
atas Hasil dalam kursus Statistik pertama (CAOS; delMas, Garfield, Peluang dan Ooms 2006) dan
empat skala topik spesifik (Distribusi Normal, Distribusi Pengambilan Sampel, Interval Keyakinan,
dan Pengujian Hipotesis). CAOS berfungsi sebagai penilaian komprehensif pemahaman statistik
baik pada awal dan akhir percobaan. Skala topik berfungsi sebagai ukuran pemahaman yang lebih
proksimal tentang topik-topik tertentu. Skala topik diberikan dengan kenaikan yang sama selama
satu semester, setelah presentasi materi yang sesuai dalam kuliah. Ini menghindari pengujian
berlebihan yang mungkin terjadi jika banyak penilaian diberikan dalam waktu singkat.
Untuk memastikan bahwa proses penilaian tidak terlalu memberatkan bagi siswa, penilaian
diberikan selama waktu kelas; ini juga memastikan tingkat penyelesaian yang lebih tinggi.
Biasanya, penilaian diselesaikan pada awal kelas dengan harapan mengurangi dorongan untuk
bergegas hanya untuk menyelesaikannya dan keluar dari pintu. Karena penilaian adalah bagian dari
waktu kelas, siswa diberikan poin partisipasi untuk menyelesaikannya. Selain itu, instrumen dipilih
untuk memberikan lebih dari skor untuk keperluan percobaan saja. Diharapkan bahwa instrumen-
instrumen ini akan membantu meningkatkan pemahaman konseptual siswa yang luas dan juga
memberikan umpan balik formatif mengenai tingkat pemahaman mereka — sebelum kehilangan
poin pada tugas atau ujian pekerjaan rumah.
8
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
Sementara ada beberapa aspek yang baik untuk pengukuran hasil dalam percobaan clicker,
pembatasan penggunaannya diperhatikan. Secara khusus, umpan balik dari siswa mengungkapkan
bahwa mereka tidak menganggap pertanyaan pada CAOS atau skala topik sejalan dengan
pertanyaan tentang pekerjaan rumah dan ujian, tetapi sebaliknya melihat penilaian ini sebagai
terpisah dari sisa kursus. Sementara instrumen dipilih secara khusus untuk fokus mereka pada isu-
isu konseptual — sesuatu yang sering diperjuangkan siswa — banyak pekerjaan rumah dan
pertanyaan ujian yang memecahkan masalah atau berdasarkan prosedur. Persepsi bahwa penilaian
ini tidak sesuai dengan sisa kursus, ditambah dengan fakta bahwa dampaknya pada nilai kursus
siswa adalah melalui penyelesaian daripada kebenaran, mungkin menyebabkan siswa tidak
berusaha sangat keras dalam penilaian ini. Ini pada gilirannya bisa berarti bahwa skor yang
dihasilkan bukan cerminan yang baik dari pemahaman siswa. Dalam percobaan di masa depan, ini
bisa dihindari dengan memasukkan penilaian ke dalam kursus, misalnya sebagai bagian dari ujian
kursus.
pertama, yang disebut Frekuensi, mempertimbangkan jumlah pertanyaan clicker yang diajukan
selama kelas. Variabel ini diukur pada dua tingkatan: Tinggi (setidaknya enam pertanyaan klik
diajukan) dan Rendah (3-4 pertanyaan klik diajukan). Variabel perlakuan kedua, yang disebut
Aglomerasi, mempertimbangkan penempatan pertanyaan di seluruh materi. Variabel ini juga diukur
pada dua level: Aktif (pertanyaan clicker ditanyakan dalam aglomerat atau grup) dan Tidak Aktif
(pertanyaan clicker tersebar sepanjang sesi). Pemilihan level ini dipengaruhi oleh masalah praktis,
seperti memastikan kombinasi level yang dihasilkan masuk akal. Sebagai contoh, diputuskan bahwa
mengajukan dua pertanyaan clicker berturut-turut tidak berlebihan, dan mungkin sebenarnya sangat
berguna untuk memperkuat konsep dengan mengajukan pertanyaan tindak lanjut. Oleh karena itu,
tiga pertanyaan dianggap sebagai jumlah minimum untuk mendefinisikan ―aglomerasi‖
pertanyaan. Tiga pertanyaan juga ditetapkan sebagai batas bawah untuk Rendah Tingkat Frekuensi
karena, jika tidak, kombinasi mengajukan kurang dari tiga pertanyaan klik dalam aglomerasi tidak
akan mungkin terjadi. Batas bawah untuk Tinggi Tingkatbisa saja ditetapkan pada lima pertanyaan
clicker, tetapi memiliki celah yang berbeda — meskipun kecil — di antara tingkat membuatnya
lebih mudah untuk mendeteksi perbedaan yang mungkin ada di antara mereka.
9
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)
Pertanyaan clicker sendiri diambil langsung dari pertanyaan yang ada di buku kerja praktikum
siswa, sehingga tidak ada bahan tambahan yang ditambahkan ke periode lab yang sudah penuh.
Dengan menggunakan pertanyaan yang seharusnya ditanyakan, memastikan bahwa penggunaan
clicker diintegrasikan dengan mulus ke dalam lab, meningkatkan nilai intrinsik dari pertanyaan dan
clickers itu sendiri (artinya penggunaan clicker adalah komponen dari kursus, bukan sesuatu yang
ditambahkan semata-mata untuk tujuan percobaan yang tidak perlu dilakukan oleh siswa dengan
serius). Akhirnya, ini memudahkan pertanyaan yang sama, dengan pilihan jawaban yang sama, bila
perlu, ditanyakan di setiap bagian lab. Bagian-bagian berbeda sehubungan dengan jumlah
pertanyaan yang diajukan menggunakan clickers dan penempatan pertanyaan clicker dalam
pelajaran (apakah pertanyaan-pertanyaan itu dikelompokkan bersama atau tidak). This avoided
confusion between the treatment of interest—roughly, ―clicker use‖—and the simple pedagogical
change of asking more interactive questions in class. This is a distinction that many studies on
clickers have failed to make, so that results reported by these studies cannot be attributed to clickers
themselves; it is possible that they are simply due to the practice of breaking up traditional lectures
with questions (Carnaghan and Webb 2006).
It is worth noting here that, in a simpler version of this experiment, either of the treatment variables
could have been investigated in isolation. This would have resulted in a two-group comparison that
would be possible to implement in a smaller course. Similarly, only one of the outcomes could have
been measured, which would have reduced the time and resources needed for data collection.
All students who were at least 18 years of age and were registered in the course after the
university's add/drop deadline were eligible to participate in this experiment. Waiting until after this
deadline avoided having to deal with turnover in student enrollment early in the semester (which
may be common in large service courses). Since experimental procedures were designed to be an
integral part of course activities—meaning that all students completed the activities as part of their
course grade—we did not need to seek student consent to be a part of these activities or separate
those who wished to participate from those who did not. Instead, students provided permission for
their data to be analyzed (see Appendix A).
In the clicker experiment, the unit of randomization was the lab instructor, not the lab section or the
individual students themselves. Students, who had no prior knowledge of the experiment, were
allowed to register for any section of the course. Each lab instructor—who taught 2-3 sections—
was then randomized to a treatment condition, so that all of their sections and students would be
under the same condition. This was done to make things simpler for the lab instructor, also
hopefully limiting ̳contamination' between treatment groups that could result from a lab instructor
confusing sections. However, this did have implications for how the resulting data were analyzed,
as discussed in Section 3.4.
10
Journal of Statistics Education, Volume 19, Number
2 (2011)
Actual implementation in the clicker experiment was tracked using a half-page survey, which lab
instructors were asked to fill out after each lab (see Appendix C). This survey asked them to report
the levels of each treatment variable that had been received by the class and the number of students
in attendance (used to assess the proportion of students using clickers). The survey also asked
general questions about the existence of technical or other difficulties during lab and reminded lab
instructors to upload the clicker response files to a central database for the principle investigator.
This survey was used to identify and correct problems with implementation.
This survey was also used to evaluate the subsequent results of the experiment. For example, there
were inconsistencies in the specific placement of individual clicker questions within a class period.
Lab instructors had been provided with some guidance as to how to incorporate clicker questions
into lab (eg to ask all questions at the end of an activity or to incorporate the questions into the
activity). However, specific instructions, which might restrict the lab instructors' teaching, were
kept to a minimum to avoid conflicts in the team or with the experimental procedure. In hindsight,
the general guidance provided as to the placement of clicker questions was not enough. Lab
instructors varied in their interpretation of this guidance and their ultimate placement of the
questions. It was not always clear to lab instructors, especially those who were supposed to
integrate questions throughout the lab material, when a question was to be asked before the
corresponding material as opposed to after. This could affect the cognitive level of the question—a
question which would have required deep thought before presentation of corresponding material
may simply require recall ability when asked after. It is believed that this in turn affected the ability
to detect any treatment effects of Frequency and Agglomeration. It would have been better for the
integrity of this experiment to provide plans for each treatment group detailing exactly which
questions were to be asked when, and offering some scripted material for setting-up and debriefing
questions. However, this would have been procedurally prohibitive, both in terms of time to
develop such plans for four treatment groups (one for each possible combination of the levels of
Frequency and Agglomeration) over nine weeks, and in terms of excessive reduction of the lab
instructors' freedom in teaching. In
11
Journal of Statistics Education, Volume 19, Number
2 (2011)
conversations with lab instructors after the conclusion of the experiment, it was suggested that an
alternative experimental procedure would be to manipulate clicker use during only a few weeks
during the term, making the treatment smaller and more focused, which in turn might make more
extensive scripting and lab instructor training feasible.
In the clicker experiment, group randomization was used to assign instructors to treatment
conditions. As such, hierarchical, or multi-level, models were used for each analysis conducted.
These models included random effects for students nested within lab, which were in turn nested
within lab instructor. Also, to account for covariate imbalances between treatment groups, each
model adjusted for important confounding variables.
Again, it should be noted that the specific results from the clicker experiment are published
elsewhere (McGowan and Gunderson 2010). Considering the results—what factors were and were
not significant—and the implementation of the experiment lead to some important findings about
what could have been improved if this were to be repeated. For example, the decision to implement
the treatment in labs rather than lectures had unintended consequences on the results of the
experiment. As has been mentioned before, lab sections were more plentiful in number and more
uniform in terms of size than the lecture sections. The consistent schedule of lab once a week for 80
minutes—with the exact same activities covered in each section—was much more conducive to the
implementation of the experimental design. However, the very purpose of the labs was to reinforce
concepts presented during lecture. As a result, the clicker questions tended to be of lower cognitive
value—focusing on recall or basic application, for example—thus reducing the need for deep
thought on the part of the student to answer the question. Ultimately, this likely reduced the
engagement and learning benefits of the clicker questions.
Considering the limitations of this experiment also led to ideas for future research on clickers. For
example, an aspect of clicker use that was not studied explicitly in this experiment, but in hindsight
appeared to be extremely important, was that of question purpose. Many questions in this
experiment involved factual recall, which could be useful for ensuring that everyone in the class
understands required material. Fewer questions involved applying or extending concepts in the low-
stakes, instant feedback environment afforded by the clicker technology. Future experiments could
explore this distinction to determine which purpose is more beneficial for students, or under which
circumstances each is most appropriately used. Related to this could be the factor of what
instructors do with the instant feedback provided by the clickers. Do they simply tell the correct
answer and move on? Lecture on why each response is or is not correct? Allow for class discussion
or activities to explore the concept further? Clearly, there is still much to be learned about clickers
as an educational technology; honest reflection on each study about clickers can help connect and
ultimately expand this knowledge.
4. Summary
This paper reviewed the necessary steps in conducting a comparative experiment and discussed
some of the decisions that need to be made by an educational researcher at each step. The guidance
provided throughout the paper included:
12
Journal of Statistics Education, Volume 19, Number
2 (2011)
• Begin every experiment with a literature search to explore what is known about the research
problem, treatment variables, and outcomes of interest. Use this literature to guide the decisions
made in planning the design and implementation of the experiment.
• Questions of initial treatment efficacy should be followed-up with questions that allow for
identification of the ―active‖ ingredient(s) in the success of a treatment, so that ingredient could
possibly be replicated in future experiments. Multifactor designs, such as factorial designs,
could be used to explore and refine a complex treatment.
• Pretreatment differences, which could arise due to group assignment or group delivery of
treatment, need to be accounted for. This can be done through design (eg by randomizing
multiple sections to each treatment condition) and analysis (eg through covariate adjustment).
• Use valid and reliable assessment instruments when measuring outcomes, particularly learning
outcomes. Standardized assessments of learning in statistics, such as the CAOS test, already
exist and could easily be incorporated as part or all of a course exam.
• Use hierarchical modeling to analyze nested data. Given that nearly every educational
intervention is implemented on groups of students nested within a classroom that is nested
within a school, nearly every analysis in education should be hierarchical.
• Have a detailed plan for implementation, and keep records of deviations from this plan. Be as
detailed as possible (given space constraints) when describing the design and implementation of
an experiment, as this will facilitate building a body of knowledge about a treatment or an
outcome.
Planning an experiment in any setting requires a great deal of thought and careful consideration—
this is especially true when planning an experiment in an educational setting. The nature and
structure of education provides additional complexities in the experimental process, as have been
discussed throughout this paper. However, it is possible to conduct a well- designed experiment in a
classroom. If done with care and a strong connection to previous research, we can make great gains
in our understanding of how students learn and how to best facilitate that process.
13
Journal of Statistics Education, Volume 19, Number
2 (2011)
Appendix A Informed Consent Document
You are invited to be part of a research study on the effectiveness of clickers in helping to engage
students in the Statistics classroom and learn the subject. You were selected as a possible participant
because you are enrolled in [Insert course name]. We ask that you read this form and ask any
questions you may have before deciding to participate in the study.
This study is being conducted by: [Insert primary investigator name and affiliation]
Background: The purpose of this study is to assess the effectiveness of clickers in helping to engage
students in statistics classrooms and learn the subject. Some people believe that using clickers helps
to engage the students and hence improves the learning experience in the class. One of our main
goals is to test this hypothesis. If using the clickers leads to an improvement, we want to learn about
the best ways to use clickers, including how frequently they should be used and when.
Procedures: Agreeing to participate does not require you to complete any work beyond normal
course requirements. Participation in this study means that you provide permission to use the data
we collect from surveys, clicker responses, in-lab reviews and other assessments in the research
project. Your responses will be combined with those of other participants and reported in aggregate
form. Information about individual students will not be used in any published reports.
Risks and Benefits of being in the Study: There is no risk in participating in this project. Although
you may not receive direct benefit from your participation, others may ultimately benefit from the
knowledge obtained in this study.
Compensation: You will receive compensation for the work you complete, in the form of class
participation points. Even if you choose not to participate in this study – meaning that you do not
want your data to be used in this research project – you will receive the same compensation. Refusal
to participate in this project will not affect your grade.
Confidentiality: The records of this study will be kept confidential to the extent provided by federal,
state, and local law. However, the Institutional Review Board or university and government
officials responsible for monitoring this study may inspect these records. In any reports on this
study, we will not include any information that will make it possible to identify an individual
student.
Voluntary Nature of the Study: Your participation in this project is voluntary. Even if you sign the
informed consent document, you may decide to leave the study at any time without penalty or loss
of benefits to which you
14
Journal of Statistics Education, Volume 19, Number
2 (2011)
may otherwise be entitled. You may skip or refuse to answer any survey question without affecting
your study compensation or academic standing/record.
Contacts and Questions: The researcher conducting this study is [Insert primary investigator name].
If you have questions about this study, you may contact [him/her] at [Insert contact information, eg
address, phone number, email]. Should you have questions regarding your rights as a research
participant, please contact the Institutional Review Board, [Insert IRB contact information]. A copy
of this document will be kept together with the research records of this study. The information
contained in this document is available on the course website for your reference.
Age Verification: [ ] I am 18 years of age or older [ ] I am less than 18 years of age Consent: I have
read and understood the above information. [ ] I agree to participate in the study. [ ] I do NOT want
to participate in the study
(Note that underlined text was inserted via mail merge and was personalized for each
implementer.)
Week 4: In-Lab Review of Normal Distrib., Sampling Distrib. and CLT Ideas
References
Beatty, ID, Gerace, WJ, Leonard, WJ, & Dufresne, RJ (2006), ―Designing Effective Questions for
Classroom Response System Technology,‖ American Journal of Physics, 74, 31– 39.
Caldwell, JE (2007), ―Clickers in the Large Classroom: Current Research and Best–Practice Tips,‖
CBE Life Sciences Education, 6, 9–20.
Carnaghan, C. & Webb, A. (2006), ―Investigating the Effects of Group Response Systems On
Student Satisfaction, Learning And Engagement In Accounting Education,‖ Social Science
Research Network [online]. Available at http://ssrn.com/abstract=959370.
17
Journal of Statistics Education, Volume 19, Number
2 (2011)
Duncan, D. (2005), Clickers in the Classroom: How to Enhance Science Teaching Using Classroom
Response Systems, San Francisco, CA: Pearson.
Kirkpatrick, DL & Kirkpatrick, JD (2006), Evaluating Training Programs: The Four Levels, San
Francisco, CA: Berrett-Koehler.
Light, RJ, Singer, JD, & Willett, JB (1990), By Design: Planning Research on Higher Education,
Cambridge, MA: Harvard.
Pinheiro, JC & Bates, DM (2000), Mixed-Effects Models in S and S-PLUS, New York, NY:
Springer-Verlag, Statistics and Computing Series.
Raudenbush, SW & Bryk, AS (2002), Hierarchical Linear Models: Applications and Data Analysis
Methods 2nd edition, Newbury Park, CA: Sage.
Schau, C., Stevens, J., Dauphinee, TL, & Del Vecchio, A. (1995), ―The development and
validation of the Survey of Attitudes Toward Statistics,‖ Educational and Psychological
Measurement, 55, 868–875.
Slavin, RE (1984), Research Methods in Education: A Practical Guide, Englewood Cliffs, NJ:
Prentice-Hall.
Wu, CFJ & Hamada, M. (2000), Experiments: Planning, Analysis, and Parameter Design
Optimization, New York: John Wiley and Sons.
18
Journal of Statistics Education, Volume 19, Number
2 (2011)
Zhu, E. (2007), ―Teaching with clickers,‖ CRLT Occasional Paper Number 22 [online]. Available
at http://www.crlt.umich.edu/publinks/CRLT_no22.pdf.
Herle M. McGowan North Carolina State University 2311 Stinson Drive Campus Box 8203
Raleigh, NC 27695-8203 mailto:hmmcgowa@ncsu.edu Phone: 919-515-0634
Volume 19 (2011) | Archive | Index | Data Archive | Resources | Editorial Board | Guidelines for
Authors | Guidelines for Data Contributors | Guidelines for Readers/Data Users | Home Page |
Contact JSE | ASA Publications
19