penyeimbangan mengacu pada teknik apa pun yang digunakan untuk memvariasikan urutan
kondisi dalam eksperimen secara sistematis untuk
mendistribusikan efek waktu pengujian (seperti latihan dan kelelahan), sehingga
tidak dikacaukan dengan kondisi. Ketika dua kondisi diuji dalam blok yang terdiri
dari empat percobaan, terdapat enam kemungkinan urutan dimana kondisi tersebut
dapat terjadi dalam percobaan. Dalam kasus ini, jika S berarti hadiah kecil (satu
pelet) dan L untuk hadiah besar (delapan pelet), maka enam pesanannya adalah SSLL,
SLSL, SLLS, LLSS, LSLS, LSSL. Bower memecahkan masalah penyeimbangan dengan
menggunakan masing- masing perintah ini secara sama seringnya. Pada hari pengujian
tertentu, ia akan memilih pesanan uji coba untuk separuh tikus (misalnya, LSSL) dan
kemudian menguji separuh lainnya menggunakan pesanan sebaliknya (SLLS). Keesokan
harinya dia akan mengambil pesanan lain untuk separuh tikus, sementara yang lain
menerima pesanan sebaliknya, dan seterusnya. Hal ini menyebabkan tidak adanya
perancu antara urutan dan ketentuan, dan semua urutan digunakan dengan frekuensi
yang sama, sehingga eksperimen tidak bergantung pada satu urutan saja. Kita akan
kembali ke titik ini sebentar lagi
Di mana:
• rt+1 adalah imbalan lingkungan: +1 untuk jawaban yang benar, ÿ0,5 ketika sistem
tidak memberikan jawaban apa pun setelah tiga kali penimbangan, dan ÿ1 untuk
jawaban yang salah;
• dt+1 adalah hadiah berbasis jarak (DBR), bervariasi antara 0 dan 1;
• c(at) adalah penalti biaya kognitif untuk memilih suatu tindakan; • μ, ÿ
dan ÿ masing-masing mengontrol kontribusi imbalan lingkungan, imbalan berbasis
jarak, dan penalti biaya kognitif; • ÿ adalah kecepatan pemelajaran (diatur ke
0,1); • ÿ adalah faktor diskon (diatur ke 1.0).9