Anda di halaman 1dari 24

Jurnal Pendidikan Statistik, Volume 19, Nomor 2

(2011)

Merencanakan Percobaan Komparatif dalam Pengaturan Pendidikan

Herle M. McGowan, North Carolina State University

Jurnal Pendidikan Statistik Volume 19, Nomor 2 (2011), www.amstat.org/publications/jse


/v19n2/mcgowan.pdf

Hak cipta © 2011 oleh Herle M. McGowan semua hak dilindungi undang-undang. Teks ini dapat
dibagikan secara bebas di antara individu-individu, tetapi mungkin tidak diterbitkan ulang dalam
media apa pun tanpa persetujuan tertulis dari penulis dan pemberitahuan terlebih dahulu dari editor.

Kata Kunci: Penelitian kuantitatif; Kemanjuran; Evaluasi; Pendidikan statistik; Clickers.

Abstrak

Eksperimen yang dirancang dengan baik adalah metode terbaik untuk membangun kemanjuran dari
setiap intervensi, baik itu medis, perilaku, atau pendidikan di alam. Makalah ini mengulas langkah-
langkah yang diperlukan dalam melakukan percobaan komparatif dalam lingkungan pendidikan,
dan menggambarkan bagaimana langkah-langkah ini dapat dipenuhi dalam konteks percobaan acak
skala besar yang dilakukan dalam kursus statistik pengantar. Tujuan utama dari makalah ini adalah
untuk membantu para peneliti mengidentifikasi masalah-masalah penting untuk dipertimbangkan
dan potensi jebakan yang harus dihindari ketika merancang eksperimen komparatif dalam
lingkungan pendidikan.

1. Pendahuluan

Peneliti pendidikan dalam berbagai disiplin ilmu dihadapkan pada tugas mengeksplorasi bagaimana
siswa belajar dan secara bersamaan menangani masalah tentang bagaimana cara terbaik membantu
siswa melakukannya. Seringkali, peneliti pendidikan tertarik untuk menentukan efektivitas
beberapa teknologi atau teknik pedagogis untuk digunakan di kelas. Kemampuan mereka untuk
melakukannya tergantung pada kualitas metodologi penelitian yang digunakan untuk menyelidiki
reattreatments ini. ‖

Sudah diketahui secara umum bahwa eksperimen acak yang dirancang dengan baik adalah metode
terbaik untuk membangun kemanjuran setiap intervensi, baik itu medis, perilaku, atau bersifat
pendidikan. Sementara penggunaan percobaan acak dan komparatif dalam pengaturan pendidikan
bukan tanpa kritik (misalnya Howe 2004; Cook 2002), itu memang memainkan peran dalam setiap
fase program penelitian pendidikan, dari studi kemanjuran awal hingga uji coba yang lebih besar
yang mengkonfirmasi atau mengoptimalkan efek intervensi pendidikan (SMER 2007). Namun,
tinjauan studi perbandingan dilakukan di bidang pendidikan statistik menunjukkan bahwa
metodologi yang saat ini digunakan dapat ditingkatkan (McGowan 2009).

Makalah ini mengulas langkah-langkah yang diperlukan dalam melakukan percobaan perbandingan.
Makalah ini menggambarkan bagaimana langkah-langkah ini dapat dipenuhi dalam konteks
percobaan acak skala besar yang dilakukan dalam kursus statistik pengantar. Tujuan utama dari
makalah ini adalah untuk membantu para peneliti mengidentifikasi masalah-masalah penting untuk
dipertimbangkan dan potensi jebakan yang harus dihindari ketika merancang eksperimen
komparatif dalam lingkungan pendidikan.

2. Proses Eksperimental

Sebagian besar buku teks yang membahas merancang eksperimen — untuk penelitian kelas atau
dalam konteks lain — membahas langkah-langkah dasar yang sama (lihat, misalnya, Slavin 1984;
Light, Singer dan Willett 1990; Wu & Hamada 2000). Langkah pertama melibatkan spesifikasi
masalah, termasuk mendefinisikan pertanyaan penelitian atau hipotesis yang akan diuji, dan juga
mengidentifikasi variabel respon dan pengobatan atau prediktor minat lainnya. Setelah ini
ditentukan, perencanaan yang luas dari desain dan prosedur eksperimental diperlukan, termasuk
pemilihan tindakan, peserta, dan rencana untuk pengacakan. Perencanaan diikuti oleh implementasi,
analisis, dan akhirnya, menarik kesimpulan dari data. Pada bagian ini, beberapa pilihan yang
tersedia untuk seorang peneliti untuk setiap langkah ini ditinjau. Dalam Bagian 3, pilihan-pilihan ini
dan konsekuensinya yang terkait diilustrasikan dalam konteks contoh — percobaan yang
mengeksplorasi penggunaan sistem respons pribadi dalam pengajaran statistik.

2.1 Spesifikasi masalah penelitian

2.1.1 Mendefinisikan pertanyaan penelitian atau hipotesis

Langkah pertama dalam setiap penelitian penelitian adalah untuk menentukan pertanyaan atau
hipotesis yang menarik. Motivasi dapat datang dari minat pada perlakuan tertentu, seperti ingin
mengeksplorasi efek dari teknologi baru, atau dalam hasil tertentu, seperti mencari cara untuk
meningkatkan pemahaman konsep yang dengannya siswa biasanya berjuang. Apa pun motivasinya,
setiap masalah penelitian harus didasarkan pada pemahaman saat ini tentang bagaimana siswa
belajar.

Ruang lingkup setiap pertanyaan penelitian harus sesuai mengingat kondisi pengetahuan saat ini
dalam bidang tertentu. Misalnya, jika suatu pengobatan belum dipelajari secara luas, pertanyaan
yang mengeksplorasi kemanjuran dasar adalah titik awal yang diperlukan. Namun, ketika
pengetahuan mulai tumbuh, nuansa pertanyaan penelitian juga harus tumbuh. Misalnya, pertanyaan
tentang kemanjuran dapat diikuti oleh pertanyaan yang mengeksplorasi aspek atau variasi tertentu
dari perawatan, untuk mempelajari bagaimana atau mengapa itu berhasil, atau dalam kondisi apa
itu optimal.

Akhirnya, untuk memiliki masalah penelitian yang layak, ide-ide perlu difokuskan ke pertanyaan
sempit dan spesifik yang dapat dijawab dengan jelas. Garfield (2006, hal. 8) memberikan contoh ini
untuk menunjukkan perbedaan antara pertanyaan penelitian yang luas dan spesifik:
technologyApakah teknologi meningkatkan pembelajaran siswa? ‖ Dapat difokuskan ke dalam ―
Bagaimana penggunaan alat teknologi tertentu dapat membantu siswa memahami arti interval
kepercayaan?

2
JournalJurnal Pendidikan Statistik, Volume 19,
Nomor 2 (2011)

2.1.2 Mengidentifikasi variabel hasil dan pengobatan

Proses menentukan pertanyaan penelitian dan hipotesis akan membantu menggambarkan apa hasil
yang relevan dan variabel pengobatan (sebenarnya, langkah-langkah ini sering terjalin). Seperti
halnya spesifikasi pertanyaan penelitian, mendefinisikan variabel dan hasil pengobatan harus
didukung oleh tinjauan literatur yang menyeluruh untuk menentukan pemahaman terkini tentang
praktik terbaik. Ini dapat membantu dengan pemilihan perawatan terbaik untuk dijelajahi, serta
dengan menentukan cara yang paling tepat untuk mengukur hasil. Pendekatan lain adalah
mempertimbangkan empat tingkat evaluasi program yang dijelaskan dalam Kirkpatrick dan
Kirkpatrick (2006). Pertimbangan dari tiga level pertama dapat membantu dengan spesifikasi
variabel hasil dengan mengidentifikasi 1) hasil perawatan yang diinginkan 2) perilaku yang
diperlukan untuk mencapai hasil ini, dan 3) sikap, pengetahuan atau keterampilan yang dapat
menghasilkan yang diinginkan perilaku. Tingkat keempat berkaitan dengan rincian implementasi —
bagaimana menyajikan intervensi kepada para peserta sehingga mereka bereaksi dengan baik
terhadapnya. Rincian implementasi dibahas dalam Bagian 2.3.

2.2 Merencanakan desain dan prosedur eksperimental

Pertimbangan utama dalam merancang eksperimen apa pun dalam lingkungan pendidikan adalah
untuk memastikan bahwa prosedur eksperimental tidak terlalu mengganggu atau mengganggu
prosedur kelas normal. Ini penting karena beberapa alasan. Sebagai pendidik, tanggung jawab
utama kami adalah kepada siswa kami, dan kami tidak ingin eksperimen yang merugikan
pengalaman belajar mereka atau membuat mereka merasa seperti uineguinea pigs.‖ Sebagai peneliti,
kami berada di bawah tata kelola Institutional Review Boards (IRBs) , yang memastikan bahwa
hak-hak siswa dilindungi. Selain itu, merencanakan prosedur eksperimental sebagai bagian normal
dari kursus, sejauh memungkinkan, membuat pelaksanaan eksperimen lebih mudah karena
perlakuan khusus tidak diperlukan untuk siswa yang tidak ingin berpartisipasi. Beberapa
pertimbangan dalam merencanakan eksperimen yang tidak menonjol dibahas sepanjang bagian ini.

2.2.1 Mengukur hasil

Pemilihan instrumen penilaian berkualitas tinggi penting untuk mendapatkan data yang baik dalam
studi apa pun. Instrumen harus menghasilkan data yang valid (yaitu mengukur apa yang ingin
diukur) dan andal (yaitu mengukur secara konsisten) (Nunnally 1978). Ada seluruh bidang
akademik yang didedikasikan untuk ilmu mengembangkan instrumen yang valid dan dapat
diandalkan, sebuah proses yang membutuhkan waktu dan perbaikan. Seringkali penilaian yang
digunakan dalam proses normal suatu kursus, seperti ujian atau survei yang dikembangkan oleh
instruktur, tidak akan mencapai sifat-sifat ini. Penggunaan penilaian terstandar lebih disukai, karena
ini telah melalui pengujian dan penyempurnaan. Selain itu, penggunaan instrumen yang tersedia
secara nasional membantu membingkai hasil penelitian ini (mis. Apakah skor yang lebih tinggi
menunjukkan pemahaman konseptual yang lebih baik atau kemampuan prosedural yang lebih
baik?), Memungkinkan perbandingan hasil yang lebih mudah di seluruh studi menggunakan ukuran
yang sama, dan memungkinkan reproduksi lebih mudah kondisi eksperimental dalam studi masa
depan. Ini, pada gilirannya, memfasilitasi pembangunan pengetahuan tentang pengobatan tertentu
atau hasil tertentu. Untuk memastikan bahwa siswa tidak terbebani oleh penilaian, instrumen
standar dapat dimasukkan ke dalam penilaian kursus khas; misalnya, menggantikan semua atau
sebagian dari instruktur ujian yang dikembangkan.

3
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

2.2.2 Mengukur variabel perawatan

Pengembangan definisi operasional dari variabel pengobatan — sesuatu yang benar-benar dapat
dilakukan dalam suatu penelitian — akan sangat dipengaruhi oleh keterangan dari perawatan
sedang diselidiki. Sebagai contoh:
• Teknologi apa yang akan tersedia untuk instruktur dan / atau siswa yang dapat digunakan
untuk melaksanakan perawatan (jika perlu)?
• Berapa banyak waktu yang tersedia untuk perawatan? Ini bisa berkisar dari beberapa menit
untuk satu aktivitas hingga satu semester penuh.
• Berapa banyak pengobatan (dosis) yang sesuai, atau mungkin untuk menerapkan kendala yang
diberikan (misalnya waktu, sumber daya, beban kerja)?
• Berapa tingkat perawatan yang dibutuhkan? Misalnya, jika pertanyaan penelitian adalah dalam
bentuk treatmentApakah pengobatan lebih baik daripada tidak ada pengobatan? ‖ Maka
diperlukan dua tingkat (mis. Omebeberapa 'vs ̳tidak ada'). Jika pertanyaannya berupa ― Berapa
banyak perawatan yang terbaik? ‖ Maka lebih dari dua level (misalnya eghigh 'vs odermoderate'
vs ̳low ') mungkin diperlukan.

Jumlah level di mana perawatan diukur akan memiliki dampak langsung pada desain percobaan.
Perawatan yang paling sederhana dalam studi perbandingan memiliki dua tingkat (misalnya
"beberapa" vs "tidak"; "lebih" vs "tanpa" dan diselidiki dengan desain 2-kelompok. Perawatan yang
lebih kompleks membutuhkan desain yang lebih kompleks. Sebagai contoh, desain faktorial, yang
umum dalam percobaan industri dan sangat cocok untuk menyelidiki interaksi, dapat digunakan
untuk mengeksplorasi beberapa variabel perlakuan (Wu & Hamada 2000) pada dua atau lebih level
masing-masing. Desain faktorial dapat berguna dalam penelitian pendidikan untuk mengeksplorasi
optimalisasi pengobatan tertentu setelah kemanjuran awal pengobatan telah ditetapkan.

2.2.3 Pemilihan peserta

Identifikasi peserta yang tepat dan kelompok pembanding akan ditentukan oleh masalah penelitian
dan perlakuan yang menarik. Seringkali, kumpulan peserta yang memenuhi syarat akan semua
siswa terdaftar untuk kelas tertentu. Penelitian yang dilakukan di universitas yang melibatkan
subyek manusia kemungkinan akan memerlukan persetujuan dari IRB, dan peneliti harus meminta
persetujuan siswa untuk berpartisipasi dalam penelitian ini. Bergantung pada sifat perawatan, para
siswa yang tidak ingin berpartisipasi mungkin perlu dipisahkan dari mereka yang melakukannya.
Namun, ini dapat dihindari jika prosedur eksperimental dirancang untuk menjadi bagian integral
dari kegiatan kursus, sehingga semua siswa berpartisipasi dalam kegiatan selama kelas atau sebagai
bagian dari pekerjaan di luar kelas yang diperlukan. Dalam hal ini, persetujuan harus dicari untuk
menganalisis dan mempublikasikan hasil berdasarkan data siswa (lihat Lampiran A untuk contoh
formulir persetujuan).

2.2.4 Penggunaan pengacakan

Penggunaan pengacakan akan ditentukan oleh masalah praktis dan etis. Tentu saja, pengacakan
setiap siswa adalah prosedur terbaik untuk memastikan kesetaraan dasar dari kelompok
pembanding; Namun, ini tidak selalu mungkin. Mungkin lebih mudah untuk mengacak siswa secara
perorangan ketika perawatan adalah sesuatu yang terjadi pada tingkat individu atau sesuatu yang
mewakili sebagian kecil dari kursus, seperti eksplorasi individu dari konsep tertentu menggunakan
applet komputer. Sebaliknya, pengobatan dapat dikirim ke seluruh bagian kelas

4
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

selama satu semester penuh. Dalam kasus-kasus seperti ini, mungkin sulit untuk secara acak
menugaskan masing-masing siswa karena kendala penjadwalan, terutama jika bagian ditawarkan
pada beberapa hari dan waktu, seperti yang umum dalam kursus perguruan tinggi besar. Mencari
sukarelawan untuk diacak di antara bagian-bagian tertentu atau slot waktu akan sangat mengurangi
jumlah peserta. Alternatif lain adalah mengacak seluruh kelas dengan kondisi perawatan. Dalam hal
ini, yang terbaik adalah mengacak beberapa bagian untuk setiap kelompok pembanding sehingga
efek dari variabel perlakuan tidak dikacaukan dengan faktor kelompok. Ini akan memiliki implikasi
untuk bagaimana data yang dihasilkan dianalisis, seperti dibahas dalam Bagian 2.4.

Selain pengacakan yang berpotensi lebih mudah, ada manfaat lain untuk memiliki perawatan yang
kecil dan terfokus yang bertentangan dengan yang mencakup seluruh program atau semester.
Misalnya, jenis perawatan ini lebih konsisten dengan rekomendasi untuk mengajukan pertanyaan
penelitian yang sempit dan terfokus yang dibuat pada Bagian 2.1. Jenis perawatan ini juga
membutuhkan lebih sedikit waktu, uang, dan upaya untuk mengimplementasikan, sedangkan
implementasi dari perawatan yang lebih kompleks bisa sulit. Tentu saja, ada risiko bahwa
perawatan kecil dapat dikaitkan dengan efek kecil, yang pada gilirannya akan sulit dideteksi.
Hubungan yang kuat dengan teori saat ini pada titik yang menentukan masalah penelitian dapat
membantu memaksimalkan efek potensial dari pengobatan; juga pemilihan dan penempatan
penilaian yang cermat dapat memaksimalkan kemampuan untuk mendeteksi efek.

2.3 Implementasi percobaan

Proses perencanaan implementasi percobaan kemungkinan akan melewati beberapa tahap. Ada
banyak hal yang perlu dipertimbangkan, termasuk implementasi ideal yang akan diperlukan untuk
menjawab pertanyaan penelitian yang menarik (misalnya, mengacak siswa secara individu untuk
membuat klaim kausal tentang keberhasilan pengobatan), serta implementasi yang sebenarnya
mungkin dilakukan secara lebih baik. diberikan kendala karena waktu, uang, pengawasan
administrasi dan sejenisnya. Banyak IRB akan membutuhkan rencana rinci untuk implementasi
sebelum mereka menyetujui proyek.

Selain memiliki rencana implementasi, penting untuk memiliki cara yang jelas untuk
mengkomunikasikan rencana ini kepada instruktur tambahan yang mungkin mengimplementasikan
intervensi. Misalnya, rapat atau memo mingguan dengan arahan dapat digunakan untuk memastikan
konsistensi dalam prosedur eksperimental antara beberapa ruang kelas. Namun, penyimpangan dari
rencana pasti akan terjadi selama percobaan apa pun. Oleh karena itu, ide yang baik untuk
menyimpan catatan implementasi aktual selain implementasi yang direncanakan. Memiliki catatan
seperti itu tidak hanya mengungkapkan perselingkuhan, tetapi juga memberikan beberapa gagasan
tentang seberapa sering masalah tersebut terjadi. Informasi ini dapat berguna untuk mengevaluasi
hasil percobaan dan menjelaskan mengapa mereka mungkin atau mungkin tidak seperti yang
diharapkan. Meninjau catatan implementasi secara rutin selama periode eksperimental memberikan
kesempatan kepada penyelidik utama untuk memperbaiki masalah selama eksperimen saat ini, atau
untuk memperbaiki perawatan atau rencana implementasi untuk replikasi di masa mendatang.

2.4 Analisis dan kesimpulan percobaan

Dengan studi apa pun, fitur desain akan berdampak pada analisis apa yang sesuai. Dalam penelitian
pendidikan, dua fitur desain umum yang akan mempengaruhi analisis adalah kurangnya pengacakan
setiap siswa untuk kondisi perawatan dan pengiriman pengobatan ke

5
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

seluruh kelas siswa. Fakta bahwa siswa berada di kelas yang sama, atau bahwa beberapa kelas dapat
diajarkan oleh instruktur yang sama, melanggar kondisi independensi yang diperlukan oleh model
statistik standar (SMER 2007). Model hierarkis, atau multi-level, dengan efek acak bersarang harus
digunakan untuk mengatasi masalah ini, dan kemajuan terbaru dalam perangkat lunak telah
membuat jenis analisis ini jauh lebih ramah pengguna (lihat, misalnya, Pinheiro dan Bates 2009;
Raudenbush dan Byrk 2002).

Penggunaan pengacakan kelompok juga dapat menyebabkan ketidakseimbangan kovariat sebelum


dimulainya pengobatan yang perlu diperhitungkan dalam proses pemodelan. Pada tahap
perencanaan percobaan, kovariat yang berpotensi penting harus diidentifikasi dan selanjutnya
diukur. Identifikasi kovariat semacam itu dapat terjadi melalui tinjauan penelitian sebelumnya atau
melalui diskusi dengan sesama peneliti atau instruktur.

Langkah terakhir dari proses eksperimental adalah untuk mempertimbangkan keterbatasan


kesimpulan penelitian, yang lagi-lagi sering berhubungan kembali dengan pilihan yang dibuat
dalam desain dan perencanaan percobaan. Presentasi yang jujur dan diskusi tentang keterbatasan
dapat berguna untuk merencanakan replikasi atau eksperimen serupa, yang pada gilirannya
membantu membangun tubuh pengetahuan dalam suatu bidang.
Ketika sampai pada penerbitan tentang percobaan, laporkan sebanyak detail tentang desain,
implementasi (rencana dan penyimpangan dari rencana itu), dan hasilnya (termasuk statistik
deskriptif, statistik uji dan nilai p, serta interval kepercayaan atau ukuran efek) seperti yang
mungkin diberikan kendala ruang. Laporan SMER (2007) memberikan daftar lengkap tentang apa
yang harus dilaporkan, dengan tujuan memungkinkan replikasi percobaan di masa depan.

3. Contoh Ilustrasi

Proses eksperimental yang dijelaskan pada bagian sebelumnya sekarang akan diilustrasikan melalui
contoh — percobaan yang dilakukan di universitas riset besar, barat tengah. Eksperimen khusus ini
cukup kompleks, yang menunjukkan bahwa implementasi eksperimen kaya dimungkinkan dalam
pengaturan pendidikan, dan kadang-kadang bahkan diperlukan untuk memajukan pengetahuan.
Untuk kesederhanaan, informasi yang disajikan di sini hanya mewakili sebagian dari percobaan
penuh; namun apa yang disajikan masih cukup rinci, untuk menunjukkan tingkat pemikiran yang
dapat masuk ke dalam proses perencanaan. Meskipun tidak setiap studi banding perlu
mempertimbangkan setiap masalah pada tingkat yang disajikan di sini, diharapkan penyajian
perincian seperti itu akan membantu peneliti pendidikan baru mempertimbangkan masalah yang
mungkin tidak mereka miliki (memang, tidak setiap masalah terbukti bagi penulis selama
perencanaan percobaan ini; beberapa hanya menjadi begitu di belakang). Akhirnya, diskusi tentang
apa yang bisa dilakukan secara berbeda disajikan di seluruh bagian ini, untuk mengilustrasikan
refleksi pada desain dan implementasi percobaan yang harus dilakukan setelah selesai.

Tujuan umum dari percobaan ilustratif adalah untuk mengeksplorasi efektivitas sistem respons
pribadi, atau ickpelanggan, ‖ sebagai alat pedagogis dalam statistik. Clickers adalah remote
genggam yang memungkinkan siswa untuk menjawab pertanyaan, biasanya pilihan ganda, yang
diajukan oleh instruktur selama kelas. Perangkat lunak kemudian mengumpulkan dan menghitung
tanggapan ini hampir secara instan. Grafik batang frekuensi setiap pilihan jawaban dapat
ditampilkan kepada siswa, yang memungkinkan mereka untuk melihat apakah jawaban mereka
benar atau tidak. Banyak makalah membahas penggunaan dan potensi manfaat clickers di

6
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

kelas; pembaca yang tertarik mempelajari lebih lanjut tentang teknologi ini dirujuk ke ringkasan
literatur ini (misalnya Duncan 2005; Caldwell 2007; Zhu 2007) dan untuk panduan menulis
pertanyaan clicker yang baik (misalnya Beatty 2004; Beatty, Gerace, Leonard dan Dufresne 2006).

Eksperimen clicker dilaksanakan dalam kursus statistik pengantar multi-bagian untuk mahasiswa
sarjana. Kursus ini termasuk 80 menit praktikum di samping tiga jam kuliah per minggu. Tujuan
dari perkuliahan adalah untuk memperkenalkan sebagian besar materi pelajaran, dengan siswa
kemudian dapat menerapkan pengetahuan mereka selama praktikum. Bagian kuliah sangat
bervariasi dalam hal ukuran mereka, jumlah sesi per minggu, dan panjang setiap sesi. Lab, di sisi
lain, cukup seragam sehubungan dengan aspek-aspek ini: ada sekitar 25 siswa di setiap bagian lab,
yang bertemu seminggu sekali selama 80 menit. Ada juga lebih banyak bagian lab daripada bagian
kuliah (lima puluh dibandingkan dengan enam). Untuk alasan ini percobaan diimplementasikan di
bagian lab kursus. Rincian lebih lanjut tentang desain dan implementasi percobaan akan diberikan
di seluruh bagian ini; namun analisis terperinci dan hasil penelitian telah dipublikasikan di tempat
lain (McGowan dan Gunderson 2010).

3.1 Spesifikasi masalah penelitian

3.1.1 Menentukan pertanyaan atau hipotesis

penelitian Masalah penelitian untuk eksperimen clicker muncul dari proses alami untuk
meningkatkan kursus. Instruktur utama merasa bahwa akan ada manfaat bagi teknologi clicker dan
karenanya mulai menggunakannya. Dalam istilah informal, masalah penelitian untuk percobaan ini
adalah untuk menyelidiki apakah beberapa penggunaan clickers lebih baik daripada yang lain.
Proses memformalkan pertanyaan penelitian ini dijelaskan dalam subbab berikutnya.

3.1.2 Mengidentifikasi variabel hasil dan pengobatan

Hasil untuk eksperimen clicker adalah "manajemen" dan "pembelajaran"; mengidentifikasi ini
diikuti secara alami dari keputusan untuk mempelajari clickers, karena keterlibatan dan
pembelajaran secara luas diyakini sebagai manfaat dari setiap teknologi pendidikan. Tinjauan
literatur yang relevan kemudian digunakan untuk membantu mendefinisikan dan
mengoperasionalkan hasil ini (lihat Bagian 3.2.1).

"Beberapa penggunaan clicker" diformalkan dengan memilih tiga aspek tertentu dari penggunaan
clicker yang diyakini mempengaruhi keterlibatan dan pembelajaran. Dalam literatur tentang
clickers, pengguna cenderung memperjuangkan kekuatan mereka untuk memberikan umpan balik
langsung kepada siswa dan instruktur, tanpa secara sistematis mempertimbangkan jumlah atau
waktu umpan balik ini. Namun, pengalaman penulis dalam mengajar dengan pembaca tampaknya
menunjukkan bahwa mungkin ada batasan praktis tentang bagaimana memberikan umpan balik ini.
Clickers pertama kali diperkenalkan dalam kursus selama hari-hari ujian ujian di laboratorium.
Siswa diberi kesempatan untuk mengerjakan masalah ulasan dalam kelompok dan kemudian
mengklik jawaban untuk beberapa masalah berturut-turut. Selama sesi ini, siswa sering menjadi
terganggu dan mulai berbicara atau mencari online sambil menunggu orang lain memasukkan
jawaban mereka untuk pertanyaan. Ini bisa menjadi indikasi interaksi negatif antara jumlah
pertanyaan clicker yang diajukan dan bagaimana pertanyaan-pertanyaan itu dimasukkan ke dalam
sesi kelas. Kemungkinan 'overdosis', boleh dikatakan, penggunaan clicker belum dipertimbangkan
secara luas, sehingga

7
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

percobaan dirancang sebagian untuk mengatasi kesenjangan ini dalam literatur. Sejauh itu, dua
variabel perlakuan yang dipertimbangkan dalam percobaan adalah jumlah pertanyaan yang diajukan
dengan clickers selama sesi lab (disebut Frekuensi) dan penempatan pertanyaan-pertanyaan itu di
seluruh materi (khususnya, jika pertanyaan diajukan dalam kelompok atau lebih tersebar, disebut
Aglomerasi). Pengukuran masing-masing variabel perlakuan ini dijelaskan dalam Bagian 3.2.2.

Pertanyaan penelitian khusus untuk eksperimen clicker kemudian diformalkan sebagai:


1. Apa efek utama dari Frekuensi? 2. Apa efek utama Aglomerasi? 3. Apakah ada interaksi
negatif antara Frekuensi dan Aglomerasi?

Ruang lingkup pertanyaan penelitian ini sesuai mengingat pengetahuan pengguna saat itu. Beberapa
studi telah mengeksplorasi kemanjuran teknologi ini dan menemukan bukti bahwa itu bermanfaat
bagi siswa. Pertanyaan penelitian dalam percobaan saat ini dipilih untuk menambah pengetahuan
tentang clickers dengan mengeksplorasi faktor-faktor yang belum dipelajari secara luas dan yang
mungkin berkontribusi pada penggunaan clickers yang optimal di kelas.

3.2 Merencanakan desain dan prosedur eksperimental

3.2.1 Mengukur hasil

Eksperimen clicker sangat mengandalkan penilaian standar untuk mengukur keterlibatan dan
pembelajaran. Misalnya, Survei Sikap Menuju Statistik (SATS; Schau, Stevens, Dauphinee dan Del
Vecchio 1995) digunakan sebagian untuk mengukur keterlibatan, dan beberapa instrumen dari Alat
Sumber Penilaian untuk Meningkatkan Proyek Pemikiran Statistik (ARTIST; https: // app.
gen.umn.edu/artist/) digunakan untuk mengukur pembelajaran, termasuk Penilaian Komprehensif
atas Hasil dalam kursus Statistik pertama (CAOS; delMas, Garfield, Peluang dan Ooms 2006) dan
empat skala topik spesifik (Distribusi Normal, Distribusi Pengambilan Sampel, Interval Keyakinan,
dan Pengujian Hipotesis). CAOS berfungsi sebagai penilaian komprehensif pemahaman statistik
baik pada awal dan akhir percobaan. Skala topik berfungsi sebagai ukuran pemahaman yang lebih
proksimal tentang topik-topik tertentu. Skala topik diberikan dengan kenaikan yang sama selama
satu semester, setelah presentasi materi yang sesuai dalam kuliah. Ini menghindari pengujian
berlebihan yang mungkin terjadi jika banyak penilaian diberikan dalam waktu singkat.

Untuk memastikan bahwa proses penilaian tidak terlalu memberatkan bagi siswa, penilaian
diberikan selama waktu kelas; ini juga memastikan tingkat penyelesaian yang lebih tinggi.
Biasanya, penilaian diselesaikan pada awal kelas dengan harapan mengurangi dorongan untuk
bergegas hanya untuk menyelesaikannya dan keluar dari pintu. Karena penilaian adalah bagian dari
waktu kelas, siswa diberikan poin partisipasi untuk menyelesaikannya. Selain itu, instrumen dipilih
untuk memberikan lebih dari skor untuk keperluan percobaan saja. Diharapkan bahwa instrumen-
instrumen ini akan membantu meningkatkan pemahaman konseptual siswa yang luas dan juga
memberikan umpan balik formatif mengenai tingkat pemahaman mereka — sebelum kehilangan
poin pada tugas atau ujian pekerjaan rumah.

8
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

Untuk kemudahan implementasi, masing-masing ukuran hasil diberikan secara online,


menggunakan perangkat lunak yang dikelola oleh universitas. Perangkat lunak ini memungkinkan
data untuk setiap siswa di kelas dikumpulkan dan diberi skor, jika berlaku, dalam satu basis data
pusat — tanpa entri data apa pun dari pihak peneliti. Itu juga memungkinkan urutan pertanyaan dan
pilihan jawaban mereka untuk diacak untuk masing-masing siswa. Basis data dilindungi kata sandi,
sehingga hanya siswa yang terdaftar dalam kursus yang memiliki akses. Selain itu, akses dapat
ditetapkan untuk hari dan waktu tertentu bagi siswa untuk menyelesaikan penilaian atau, jika
instruktur menginginkan, untuk melihat pertanyaan atau jawaban yang benar setelah diserahkan.
Data dicadangkan dengan aman di server universitas. Data dapat dikeluarkan dalam beberapa
format untuk eksplorasi dan analisis. Sementara perangkat lunak tertentu yang digunakan khusus
untuk universitas, layanan serupa mungkin tersedia di universitas lain. Selain itu, sistem manajemen
pembelajaran komersial, seperti Moodle atau Blackboard, dapat digunakan. Tentu saja penggunaan
pengumpulan data online bukanlah hal baru, tetapi perlu dicatat bahwa implementasi percobaan
dengan ukuran dan kompleksitas ini tidak akan mungkin dilakukan tanpa itu.

Sementara ada beberapa aspek yang baik untuk pengukuran hasil dalam percobaan clicker,
pembatasan penggunaannya diperhatikan. Secara khusus, umpan balik dari siswa mengungkapkan
bahwa mereka tidak menganggap pertanyaan pada CAOS atau skala topik sejalan dengan
pertanyaan tentang pekerjaan rumah dan ujian, tetapi sebaliknya melihat penilaian ini sebagai
terpisah dari sisa kursus. Sementara instrumen dipilih secara khusus untuk fokus mereka pada isu-
isu konseptual — sesuatu yang sering diperjuangkan siswa — banyak pekerjaan rumah dan
pertanyaan ujian yang memecahkan masalah atau berdasarkan prosedur. Persepsi bahwa penilaian
ini tidak sesuai dengan sisa kursus, ditambah dengan fakta bahwa dampaknya pada nilai kursus
siswa adalah melalui penyelesaian daripada kebenaran, mungkin menyebabkan siswa tidak
berusaha sangat keras dalam penilaian ini. Ini pada gilirannya bisa berarti bahwa skor yang
dihasilkan bukan cerminan yang baik dari pemahaman siswa. Dalam percobaan di masa depan, ini
bisa dihindari dengan memasukkan penilaian ke dalam kursus, misalnya sebagai bagian dari ujian
kursus.

3.2.2 Mengukur variabel perawatan Variabel perawatan

pertama, yang disebut Frekuensi, mempertimbangkan jumlah pertanyaan clicker yang diajukan
selama kelas. Variabel ini diukur pada dua tingkatan: Tinggi (setidaknya enam pertanyaan klik
diajukan) dan Rendah (3-4 pertanyaan klik diajukan). Variabel perlakuan kedua, yang disebut
Aglomerasi, mempertimbangkan penempatan pertanyaan di seluruh materi. Variabel ini juga diukur
pada dua level: Aktif (pertanyaan clicker ditanyakan dalam aglomerat atau grup) dan Tidak Aktif
(pertanyaan clicker tersebar sepanjang sesi). Pemilihan level ini dipengaruhi oleh masalah praktis,
seperti memastikan kombinasi level yang dihasilkan masuk akal. Sebagai contoh, diputuskan bahwa
mengajukan dua pertanyaan clicker berturut-turut tidak berlebihan, dan mungkin sebenarnya sangat
berguna untuk memperkuat konsep dengan mengajukan pertanyaan tindak lanjut. Oleh karena itu,
tiga pertanyaan dianggap sebagai jumlah minimum untuk mendefinisikan ―aglomerasi‖
pertanyaan. Tiga pertanyaan juga ditetapkan sebagai batas bawah untuk Rendah Tingkat Frekuensi
karena, jika tidak, kombinasi mengajukan kurang dari tiga pertanyaan klik dalam aglomerasi tidak
akan mungkin terjadi. Batas bawah untuk Tinggi Tingkatbisa saja ditetapkan pada lima pertanyaan
clicker, tetapi memiliki celah yang berbeda — meskipun kecil — di antara tingkat membuatnya
lebih mudah untuk mendeteksi perbedaan yang mungkin ada di antara mereka.

9
Jurnal Pendidikan Statistik, Volume 19, Nomor 2
(2011)

Pertanyaan clicker sendiri diambil langsung dari pertanyaan yang ada di buku kerja praktikum
siswa, sehingga tidak ada bahan tambahan yang ditambahkan ke periode lab yang sudah penuh.
Dengan menggunakan pertanyaan yang seharusnya ditanyakan, memastikan bahwa penggunaan
clicker diintegrasikan dengan mulus ke dalam lab, meningkatkan nilai intrinsik dari pertanyaan dan
clickers itu sendiri (artinya penggunaan clicker adalah komponen dari kursus, bukan sesuatu yang
ditambahkan semata-mata untuk tujuan percobaan yang tidak perlu dilakukan oleh siswa dengan
serius). Akhirnya, ini memudahkan pertanyaan yang sama, dengan pilihan jawaban yang sama, bila
perlu, ditanyakan di setiap bagian lab. Bagian-bagian berbeda sehubungan dengan jumlah
pertanyaan yang diajukan menggunakan clickers dan penempatan pertanyaan clicker dalam
pelajaran (apakah pertanyaan-pertanyaan itu dikelompokkan bersama atau tidak). This avoided
confusion between the treatment of interest—roughly, ―clicker use‖—and the simple pedagogical
change of asking more interactive questions in class. This is a distinction that many studies on
clickers have failed to make, so that results reported by these studies cannot be attributed to clickers
themselves; it is possible that they are simply due to the practice of breaking up traditional lectures
with questions (Carnaghan and Webb 2006).

It is worth noting here that, in a simpler version of this experiment, either of the treatment variables
could have been investigated in isolation. This would have resulted in a two-group comparison that
would be possible to implement in a smaller course. Similarly, only one of the outcomes could have
been measured, which would have reduced the time and resources needed for data collection.

3.2.3 Selection of participants

All students who were at least 18 years of age and were registered in the course after the
university's add/drop deadline were eligible to participate in this experiment. Waiting until after this
deadline avoided having to deal with turnover in student enrollment early in the semester (which
may be common in large service courses). Since experimental procedures were designed to be an
integral part of course activities—meaning that all students completed the activities as part of their
course grade—we did not need to seek student consent to be a part of these activities or separate
those who wished to participate from those who did not. Instead, students provided permission for
their data to be analyzed (see Appendix A).

3.2.4 The use of randomization

In the clicker experiment, the unit of randomization was the lab instructor, not the lab section or the
individual students themselves. Students, who had no prior knowledge of the experiment, were
allowed to register for any section of the course. Each lab instructor—who taught 2-3 sections—
was then randomized to a treatment condition, so that all of their sections and students would be
under the same condition. This was done to make things simpler for the lab instructor, also
hopefully limiting ̳contamination' between treatment groups that could result from a lab instructor
confusing sections. However, this did have implications for how the resulting data were analyzed,
as discussed in Section 3.4.

10
Journal of Statistics Education, Volume 19, Number
2 (2011)

3.3 Implementation of the experiment

Planned implementation procedures were communicated to instructors through weekly meetings


and memos, which were already used in the course to help ensure consistency in teaching and
grading among the fifty lab sections. During these meetings, the lab instructors and the lead
instructor discussed what did or did not go well in the previous lesson, addressed questions about
grading the homework, and went over the lesson plan for the coming week. During the
experimental semester, the principle investigator also discussed implementation of the experimental
conditions for the coming week. The weekly memo included the meeting agenda as well as a
schedule of specific activities to cover in the following lab. During the experimental semester, the
memos for the weekly meetings were personalized for each lab instructor. Memos were color coded
based on the lab instructor's assigned treatment group (eg the treatment condition with Frequency at
the Low level and Agglomeration set to Off was referred to as the ―Blue Team,‖ and all lab
instructors assigned to this group knew to look for their memo on blue paper). Additional
information, such as the lab instructor's name and other personalized instructions, were included at
the top of the page using a simple mail merge feature in a word processing software. Appendix B
shows an example of one of these weekly memos for an anonymized instructor.

Actual implementation in the clicker experiment was tracked using a half-page survey, which lab
instructors were asked to fill out after each lab (see Appendix C). This survey asked them to report
the levels of each treatment variable that had been received by the class and the number of students
in attendance (used to assess the proportion of students using clickers). The survey also asked
general questions about the existence of technical or other difficulties during lab and reminded lab
instructors to upload the clicker response files to a central database for the principle investigator.
This survey was used to identify and correct problems with implementation.

This survey was also used to evaluate the subsequent results of the experiment. For example, there
were inconsistencies in the specific placement of individual clicker questions within a class period.
Lab instructors had been provided with some guidance as to how to incorporate clicker questions
into lab (eg to ask all questions at the end of an activity or to incorporate the questions into the
activity). However, specific instructions, which might restrict the lab instructors' teaching, were
kept to a minimum to avoid conflicts in the team or with the experimental procedure. In hindsight,
the general guidance provided as to the placement of clicker questions was not enough. Lab
instructors varied in their interpretation of this guidance and their ultimate placement of the
questions. It was not always clear to lab instructors, especially those who were supposed to
integrate questions throughout the lab material, when a question was to be asked before the
corresponding material as opposed to after. This could affect the cognitive level of the question—a
question which would have required deep thought before presentation of corresponding material
may simply require recall ability when asked after. It is believed that this in turn affected the ability
to detect any treatment effects of Frequency and Agglomeration. It would have been better for the
integrity of this experiment to provide plans for each treatment group detailing exactly which
questions were to be asked when, and offering some scripted material for setting-up and debriefing
questions. However, this would have been procedurally prohibitive, both in terms of time to
develop such plans for four treatment groups (one for each possible combination of the levels of
Frequency and Agglomeration) over nine weeks, and in terms of excessive reduction of the lab
instructors' freedom in teaching. In

11
Journal of Statistics Education, Volume 19, Number
2 (2011)

conversations with lab instructors after the conclusion of the experiment, it was suggested that an
alternative experimental procedure would be to manipulate clicker use during only a few weeks
during the term, making the treatment smaller and more focused, which in turn might make more
extensive scripting and lab instructor training feasible.

3.4 Analysis and conclusions of the experiment

In the clicker experiment, group randomization was used to assign instructors to treatment
conditions. As such, hierarchical, or multi-level, models were used for each analysis conducted.
These models included random effects for students nested within lab, which were in turn nested
within lab instructor. Also, to account for covariate imbalances between treatment groups, each
model adjusted for important confounding variables.

Again, it should be noted that the specific results from the clicker experiment are published
elsewhere (McGowan and Gunderson 2010). Considering the results—what factors were and were
not significant—and the implementation of the experiment lead to some important findings about
what could have been improved if this were to be repeated. For example, the decision to implement
the treatment in labs rather than lectures had unintended consequences on the results of the
experiment. As has been mentioned before, lab sections were more plentiful in number and more
uniform in terms of size than the lecture sections. The consistent schedule of lab once a week for 80
minutes—with the exact same activities covered in each section—was much more conducive to the
implementation of the experimental design. However, the very purpose of the labs was to reinforce
concepts presented during lecture. As a result, the clicker questions tended to be of lower cognitive
value—focusing on recall or basic application, for example—thus reducing the need for deep
thought on the part of the student to answer the question. Ultimately, this likely reduced the
engagement and learning benefits of the clicker questions.

Considering the limitations of this experiment also led to ideas for future research on clickers. For
example, an aspect of clicker use that was not studied explicitly in this experiment, but in hindsight
appeared to be extremely important, was that of question purpose. Many questions in this
experiment involved factual recall, which could be useful for ensuring that everyone in the class
understands required material. Fewer questions involved applying or extending concepts in the low-
stakes, instant feedback environment afforded by the clicker technology. Future experiments could
explore this distinction to determine which purpose is more beneficial for students, or under which
circumstances each is most appropriately used. Related to this could be the factor of what
instructors do with the instant feedback provided by the clickers. Do they simply tell the correct
answer and move on? Lecture on why each response is or is not correct? Allow for class discussion
or activities to explore the concept further? Clearly, there is still much to be learned about clickers
as an educational technology; honest reflection on each study about clickers can help connect and
ultimately expand this knowledge.

4. Summary

This paper reviewed the necessary steps in conducting a comparative experiment and discussed
some of the decisions that need to be made by an educational researcher at each step. The guidance
provided throughout the paper included:

12
Journal of Statistics Education, Volume 19, Number
2 (2011)

• Begin every experiment with a literature search to explore what is known about the research
problem, treatment variables, and outcomes of interest. Use this literature to guide the decisions
made in planning the design and implementation of the experiment.
• Questions of initial treatment efficacy should be followed-up with questions that allow for
identification of the ―active‖ ingredient(s) in the success of a treatment, so that ingredient could
possibly be replicated in future experiments. Multifactor designs, such as factorial designs,
could be used to explore and refine a complex treatment.
• Pretreatment differences, which could arise due to group assignment or group delivery of
treatment, need to be accounted for. This can be done through design (eg by randomizing
multiple sections to each treatment condition) and analysis (eg through covariate adjustment).
• Use valid and reliable assessment instruments when measuring outcomes, particularly learning
outcomes. Standardized assessments of learning in statistics, such as the CAOS test, already
exist and could easily be incorporated as part or all of a course exam.
• Use hierarchical modeling to analyze nested data. Given that nearly every educational
intervention is implemented on groups of students nested within a classroom that is nested
within a school, nearly every analysis in education should be hierarchical.
• Have a detailed plan for implementation, and keep records of deviations from this plan. Be as
detailed as possible (given space constraints) when describing the design and implementation of
an experiment, as this will facilitate building a body of knowledge about a treatment or an
outcome.

Finally, a few points of pragmatic advice:


• Not all experiments need to be as complex as the clicker experiment presented here. Starting
with something small is better than doing nothing at all, and could provide a foundation for
future research.
• Seek help or advice when planning any experiment, whether it is large or small. If there are
not colleagues within your own department that could help, you could look in other departments
or at other institutions. Additionally, the research arm of the Consortium for the Advancement
of Undergraduate Statistics Education (causeweb.org) offers resources which may be of use
when planning a research study.
• Make use of resources that are available to you. For example, learning management software
that may already be used for a course could also be used for data collection. Your institution
may have funds available for research on teaching and learning or for course development that
could be used to start a project, possibly even funding a student to help with logistics or data
management.
• Finally, automate whatever you can, such as data collection, assessment scoring, or
communication with any other implementers.

Planning an experiment in any setting requires a great deal of thought and careful consideration—
this is especially true when planning an experiment in an educational setting. The nature and
structure of education provides additional complexities in the experimental process, as have been
discussed throughout this paper. However, it is possible to conduct a well- designed experiment in a
classroom. If done with care and a strong connection to previous research, we can make great gains
in our understanding of how students learn and how to best facilitate that process.

13
Journal of Statistics Education, Volume 19, Number
2 (2011)
Appendix A Informed Consent Document

A Study on the Effectiveness of Clickers in the Statistics Classroom

You are invited to be part of a research study on the effectiveness of clickers in helping to engage
students in the Statistics classroom and learn the subject. You were selected as a possible participant
because you are enrolled in [Insert course name]. We ask that you read this form and ask any
questions you may have before deciding to participate in the study.

This study is being conducted by: [Insert primary investigator name and affiliation]

Background: The purpose of this study is to assess the effectiveness of clickers in helping to engage
students in statistics classrooms and learn the subject. Some people believe that using clickers helps
to engage the students and hence improves the learning experience in the class. One of our main
goals is to test this hypothesis. If using the clickers leads to an improvement, we want to learn about
the best ways to use clickers, including how frequently they should be used and when.

Procedures: Agreeing to participate does not require you to complete any work beyond normal
course requirements. Participation in this study means that you provide permission to use the data
we collect from surveys, clicker responses, in-lab reviews and other assessments in the research
project. Your responses will be combined with those of other participants and reported in aggregate
form. Information about individual students will not be used in any published reports.

Risks and Benefits of being in the Study: There is no risk in participating in this project. Although
you may not receive direct benefit from your participation, others may ultimately benefit from the
knowledge obtained in this study.

Compensation: You will receive compensation for the work you complete, in the form of class
participation points. Even if you choose not to participate in this study – meaning that you do not
want your data to be used in this research project – you will receive the same compensation. Refusal
to participate in this project will not affect your grade.

Confidentiality: The records of this study will be kept confidential to the extent provided by federal,
state, and local law. However, the Institutional Review Board or university and government
officials responsible for monitoring this study may inspect these records. In any reports on this
study, we will not include any information that will make it possible to identify an individual
student.

Voluntary Nature of the Study: Your participation in this project is voluntary. Even if you sign the
informed consent document, you may decide to leave the study at any time without penalty or loss
of benefits to which you

14
Journal of Statistics Education, Volume 19, Number
2 (2011)

may otherwise be entitled. You may skip or refuse to answer any survey question without affecting
your study compensation or academic standing/record.

Contacts and Questions: The researcher conducting this study is [Insert primary investigator name].
If you have questions about this study, you may contact [him/her] at [Insert contact information, eg
address, phone number, email]. Should you have questions regarding your rights as a research
participant, please contact the Institutional Review Board, [Insert IRB contact information]. A copy
of this document will be kept together with the research records of this study. The information
contained in this document is available on the course website for your reference.

Statement of Consent (check the appropriate boxes here):

Age Verification: [ ] I am 18 years of age or older [ ] I am less than 18 years of age Consent: I have
read and understood the above information. [ ] I agree to participate in the study. [ ] I do NOT want
to participate in the study

__________________________________ ___________________________________ Printed


Name Signature
15
Journal of Statistics Education, Volume 19, Number
2 (2011)

Appendix B Sample Memo with Implementation Instructions

(Note that underlined text was inserted via mail merge and was personalized for each
implementer.)

Name: Doe, Jane Frequency: Low Agglomeration: Off

Week 4: In-Lab Review of Normal Distrib., Sampling Distrib. and CLT Ideas

Before lab: Download the presentation Feb2-4_Blue.ppt During lab:


~ For students that missed last week:
o Have them complete the Informed Consent before leaving class o Have them complete the
Attitudes Survey and CAOS before midnight Friday (links on
course website) ~ For students that joined the class after the first week of labs:
o Have them complete the Background Info survey before Friday midnight (link on course
website) 1. In-Lab Review on Normal Distributions (link is on course website). Time = 12-15
minutes 2. Do Module 4: Sampling Distributions and the CLT. Time = about 30 minutes
a. Start with a brief overview of sampling distributions. In particular you want to
emphasize the fact that statistics calculated from random samples are also random variables,
so they have their own distributions. It is important for students to understand the fact that we
are studying the distribution of statistics. b. Work through the first three tasks according to
your assigned experiment level.
saya. Give students a minute to work on part (a) of a problem and then ask the relevant clicker
question; then give them a minute to work on part (b) before asking the relevant clicker question;
continue in this fashion for all questions. c. Make sure you emphasize Step 4. This is the ―take
away‖ from the simulation. After lab...
~ Fill out your Lab Log. Put this in the PI's mailbox or bring to the next GSI meeting. ~ Upload
your results files to your drop box on the website.
16
Journal of Statistics Education, Volume 19, Number
2 (2011)

Appendix C Log for Recording Actual Implementation

Lab Log for (name) ___________________________ Team _________________ Week ____ 1.


Section number _______ 2. Levels for Frequency/Agglomeration: Low/Off Low/On High/Off
High/On 3. How many clicker questions did you ask? _______ 4. Number of enrolled students who
attended _______ 5. Number of students making up this lab from other sections _______ 6. Did you
have enough time to complete required material? Yes No
a. If not, what material was not covered? 7. Did you have technical difficulty with the
clickers? Yes No
a. If so, what happened? 8. Any other comments about lab? Anything unusual happen? 9.
Don't forget to upload your saved results file (use naming format: ss-mm-dd.csv)!

References

Beatty, ID (2004), ―Transforming Student Learning With Classroom Communication Systems,‖


Educause Center For Applied Research Research Bulletin [online]. Available at
http://net.educause.edu/ir/library/pdf/ERB0403.pdf.

Beatty, ID, Gerace, WJ, Leonard, WJ, & Dufresne, RJ (2006), ―Designing Effective Questions for
Classroom Response System Technology,‖ American Journal of Physics, 74, 31– 39.

Caldwell, JE (2007), ―Clickers in the Large Classroom: Current Research and Best–Practice Tips,‖
CBE Life Sciences Education, 6, 9–20.

Carnaghan, C. & Webb, A. (2006), ―Investigating the Effects of Group Response Systems On
Student Satisfaction, Learning And Engagement In Accounting Education,‖ Social Science
Research Network [online]. Available at http://ssrn.com/abstract=959370.

Cook, TD (2002), ―Randomized Experiments in Educational Policy Research: A Critical


Examination of the Reasons the Educational Evaluation Community Has Offered for Not Doing
Them,‖ Educational Evaluation and Policy Analysis 24, 3 175–199.
delMas, R., Garfield, J., Chance, B., & Ooms, A. (2006), ―Assessing Students' Conceptual
Understanding After a First Course in Statistics,‖ paper presented at the Annual Meeting of the
American Educational Research Association, San Francisco, California.

17
Journal of Statistics Education, Volume 19, Number
2 (2011)

Duncan, D. (2005), Clickers in the Classroom: How to Enhance Science Teaching Using Classroom
Response Systems, San Francisco, CA: Pearson.

Garfield, J. (2006), ―Collaboration in Statistics Education Research: Stories, Reflections, and


Lessons Learned,‖ in International Statistical Institute Proceedings of the Seventh International
Conference on Teaching Statistics [online]. Available at
http://www.stat.auckland.ac.nz/~iase/publications/17/PL2_GARF.pdf.

Howe, KR (2004), ―A Critique of Experimentalism,‖ Qualitative Inquiry 10 1, 42–61.

Kirkpatrick, DL & Kirkpatrick, JD (2006), Evaluating Training Programs: The Four Levels, San
Francisco, CA: Berrett-Koehler.

Light, RJ, Singer, JD, & Willett, JB (1990), By Design: Planning Research on Higher Education,
Cambridge, MA: Harvard.

McGowan, HM (2009), Experimentation Methodologies for Educational Research with an


Emphasis on the Teaching of Statistics, unpublished doctoral dissertation.

McGowan, HM & Gunderson, BK (2010), ―A Randomized Experiment Exploring How Certain


Features of Clicker Use Effect Undergraduate Students' Engagement and Learning in Statistics,
Technology Innovations in Statistics Education,‖ 4 [online], Available at
http://escholarship.org/uc/item/2503w2np.

Nunnally, JC (1978), Psychometric Theory, New York: McGraw-Hill.

Pinheiro, JC & Bates, DM (2000), Mixed-Effects Models in S and S-PLUS, New York, NY:
Springer-Verlag, Statistics and Computing Series.
Raudenbush, SW & Bryk, AS (2002), Hierarchical Linear Models: Applications and Data Analysis
Methods 2nd edition, Newbury Park, CA: Sage.

Schau, C., Stevens, J., Dauphinee, TL, & Del Vecchio, A. (1995), ―The development and
validation of the Survey of Attitudes Toward Statistics,‖ Educational and Psychological
Measurement, 55, 868–875.

Slavin, RE (1984), Research Methods in Education: A Practical Guide, Englewood Cliffs, NJ:
Prentice-Hall.

SMER. (2007), ―Using Statistics Effectively in Mathematics Education Research (SMER): A


Report from a Series of Workshops Organized by the American Statistical Association.‖ [online]
Available at
http://www.amstat.org/education/pdfs/UsingStatisticsEffectivelyinMathEdResearch.pdf.

Wu, CFJ & Hamada, M. (2000), Experiments: Planning, Analysis, and Parameter Design
Optimization, New York: John Wiley and Sons.

18
Journal of Statistics Education, Volume 19, Number
2 (2011)

Zhu, E. (2007), ―Teaching with clickers,‖ CRLT Occasional Paper Number 22 [online]. Available
at http://www.crlt.umich.edu/publinks/CRLT_no22.pdf.

Herle M. McGowan North Carolina State University 2311 Stinson Drive Campus Box 8203
Raleigh, NC 27695-8203 mailto:hmmcgowa@ncsu.edu Phone: 919-515-0634

Volume 19 (2011) | Archive | Index | Data Archive | Resources | Editorial Board | Guidelines for
Authors | Guidelines for Data Contributors | Guidelines for Readers/Data Users | Home Page |
Contact JSE | ASA Publications
19

Anda mungkin juga menyukai