Anda di halaman 1dari 4

Firna

Rangkuman Buku hal 241-244

Dalam mempelajari respon instrumental, besarnya imbalan sangat mempengaruhi


kinerja. Biasanya, kinerja meningkat seiring dengan meningkatnya besaran imbalan.
Namun, besarnya imbalan yang digunakan tidak mempunyai pengaruh yang tidak berubah-
ubah terhadap kinerja namun bergantung pada pengalaman yang dimiliki organisme
dengan kondisi penguatan lainnya. Salah satu contoh efek ini diberikan oleh
eksperimen yang dilakukan oleh Bower (1961) tentang kontras simultan, di mana
beberapa subjek mengalami dua besaran imbalan yang kontras.
Eksperimen Bower terdiri dari tiga kelompok yang terdiri dari 10 tikus, yang
masing-masing menerima empat percobaan sehari di labirin jalan lurus selama 32
hari, dengan total 128 percobaan. Variabel independennya adalah besarnya imbalan
yang digunakan. Satu kelompok tikus menerima delapan pelet makanan di kotak gawang
pada empat percobaan mereka. Karena mereka menerima delapan pelet secara konstan
pada setiap percobaan, kondisi ini disebut sebagai Konstanta 8. Kelompok lainnya
hanya menerima satu pelet setelah setiap percobaan (Konstanta 1). Kedua kelompok
ini dapat dianggap sebagai kontrol untuk kelompok ketiga (Kontras). Subjek pada
kelompok ini mendapat dua kali uji coba setiap harinya, pada dua gang lurus yang
berbeda. Kedua gang itu cukup bisa didiskriminasi, yang satu berwarna hitam dan
yang lainnya berwarna putih. Di satu gang, tikus selalu mendapat hadiah satu pelet;
di gang lain mereka selalu mendapat delapan pelet. Bower ingin melihat bagaimana
paparan kedua tingkat penguatan akan mempengaruhi kecepatan lari, dibandingkan
dengan paparan hanya satu tingkat sepanjang waktu.

penyeimbangan mengacu pada teknik apa pun yang digunakan untuk memvariasikan urutan
kondisi dalam eksperimen secara sistematis untuk
mendistribusikan efek waktu pengujian (seperti latihan dan kelelahan), sehingga
tidak dikacaukan dengan kondisi. Ketika dua kondisi diuji dalam blok yang terdiri
dari empat percobaan, terdapat enam kemungkinan urutan dimana kondisi tersebut
dapat terjadi dalam percobaan. Dalam kasus ini, jika S berarti hadiah kecil (satu
pelet) dan L untuk hadiah besar (delapan pelet), maka enam pesanannya adalah SSLL,
SLSL, SLLS, LLSS, LSLS, LSSL. Bower memecahkan masalah penyeimbangan dengan
menggunakan masing- masing perintah ini secara sama seringnya. Pada hari pengujian
tertentu, ia akan memilih pesanan uji coba untuk separuh tikus (misalnya, LSSL) dan
kemudian menguji separuh lainnya menggunakan pesanan sebaliknya (SLLS). Keesokan
harinya dia akan mengambil pesanan lain untuk separuh tikus, sementara yang lain
menerima pesanan sebaliknya, dan seterusnya. Hal ini menyebabkan tidak adanya
perancu antara urutan dan ketentuan, dan semua urutan digunakan dengan frekuensi
yang sama, sehingga eksperimen tidak bergantung pada satu urutan saja. Kita akan
kembali ke titik ini sebentar lagi

Hasil percobaan Bower seharusnya mengingatkan Anda pada pelajaran di bagian


sebelumnya yang membedakan desain antara dan dalam mata pelajaran. Seperti dalam
eksperimen Grice dan Hunter mengenai efek intensitas stimulus, Bower menemukan
bahwa efek imbalan dengan besaran tertentu bergantung pada jenis desain yang
digunakan. Dalam desain dalam subjek, di mana hewan memiliki pengalaman dengan
kedua besaran imbalan, efek pada perilaku lebih besar dibandingkan perbandingan
antar subjek, di mana kelompok hewan yang berbeda menerima imbalan yang konstan
selama serangkaian uji coba. Sekali lagi, sifat desain dapat mempengaruhi
kesimpulan pelaku eksperimen tentang seberapa kuat pengaruh yang dihasilkan oleh
variabel independen.

Pertimbangan Lebih Lanjut dalam Penyeimbangan


Berbagai macam skema penyeimbang dapat digunakan dalam berbagai situasi. Beberapa
di antaranya menjadi sangat kompleks. Di sini, kami hanya membahas beberapa desain
penyeimbang yang lebih sederhana untuk memberi Anda beberapa trik perdagangan.
Kasus yang diwakili oleh kelompok kontras Bower (1961) dalam banyak hal merupakan
tipikal masalah penyeimbang yang biasanya muncul. Dua kondisi harus diuji dalam
mata pelajaran; oleh karena itu, hal-hal tersebut harus diimbangi agar tidak
dibingungkan dengan tahapan praktik. Salah satu solusi untuk masalah ini, dan yang
akan dipilih sebagian besar psikolog, adalah dengan menggunakan desain ABBA , di
mana A berarti satu kondisi dan B berarti kondisi lainnya. Hal ini akan
menghilangkan perancu antara kondisi tertentu dengan waktu pengujian, karena setiap
kondisi akan diuji pada waktu rata-rata yang sama (1 4 5 untuk A, dan 2 3 5 untuk
B, dimana angka- angkanya mengacu pada urutan pengujian). Namun mungkin urutan
pengujian yang spesifik juga penting. Sebagai contoh, mari kita asumsikan bahwa
terdapat pengaruh latihan yang sangat besar terhadap variabel terikat namun hal ini
terjadi sangat awal dalam pelatihan, pada percobaan pertama. Kemudian hal tersebut
akan berkontribusi pada kondisi A tetapi tidak pada kondisi B , sehingga desain
ABBA tidak akan menghilangkan perancu antara kondisi dan praktik.
Dua solusi untuk masalah dampak besar latihan di awal pelatihan ini dapat
disarankan. Salah satunya adalah dengan memberikan sejumlah uji coba praktik dalam
situasi eksperimen sebelum eksperimen sebenarnya dimulai. Dengan demikian, subjek
diberikan latihan, dan kinerja pada variabel dependen dibiarkan stabil sebelum
kondisi eksperimen yang diinginkan diperkenalkan. Solusi lain adalah dengan
menerapkan lebih dari satu skema penyeimbang. Misalnya, separuh subjek mungkin
mendapatkan kebalikan dari skema yang diterima separuh lainnya. Jadi separuh subjek
mendapat ABBA dan separuh lagi mendapat BAAB. Solusi Bower terhadap masalah
penyeimbang adalah perpanjangan ideal dari logika ini, karena ia sering menggunakan
setiap skema penyeimbang yang mungkin. Namun jika ada lebih dari dua kondisi yang
terlibat, hal ini menjadi sulit untuk dilakukan. Dalam kebanyakan situasi, solusi
yang memadai terhadap masalah efek latihan di awal sesi pengujian adalah dengan
memberikan latihan pada subjek dan kemudian menggunakan dua skema penyeimbang, yang
salah satunya merupakan kebalikan dari yang lain. Grice dan Hunter (1964), dalam
eksperimen intensitas stimulus yang dijelaskan sebelumnya, melakukan hal ini.

Rangkuman Jurnal Hal 46-47

2.5. Ekstensi SARSA


Kami memperluas persamaan standar SARSA (Persamaan (3)) dengan menambahkan dua
istilah baru: (1) kontribusi imbalan berbasis jarak (DBR) pada langkah waktu t +
1(dt+1), dan (2) kontribusi penalti biaya kognitif (c(at)). Selain imbalan
lingkungan standar, ketentuan baru ini juga dimasukkan ke dalam nilai Q keseluruhan
sebagai berikut:

Q (st, at) ÿÿ Q (st, at) + ÿ(μrt+1 + ÿdt+1 + ÿc(at)


+ ÿ Q (st+1, pada+1) ÿ Q (st, pada)) (4)

Di mana:
• rt+1 adalah imbalan lingkungan: +1 untuk jawaban yang benar, ÿ0,5 ketika sistem
tidak memberikan jawaban apa pun setelah tiga kali penimbangan, dan ÿ1 untuk
jawaban yang salah;
• dt+1 adalah hadiah berbasis jarak (DBR), bervariasi antara 0 dan 1;
• c(at) adalah penalti biaya kognitif untuk memilih suatu tindakan; • μ, ÿ
dan ÿ masing-masing mengontrol kontribusi imbalan lingkungan, imbalan berbasis
jarak, dan penalti biaya kognitif; • ÿ adalah kecepatan pemelajaran (diatur ke
0,1); • ÿ adalah faktor diskon (diatur ke 1.0).9

2.6. Pemilihan tindakan


Saat belajar menyelesaikan tugas, agen harus memutuskan tindakan seleksi apa yang
akan dilakukan. Kami menggunakan pendekatan Softmax, seperti yang dilakukan
sebelumnya (Dandurand & Shultz, 2009). Di bawah Softmax, semakin tinggi imbalan
yang diharapkan Q(st, at) untuk tindakan di negara bagian st , semakin besar
kemungkinan memilih tindakan di; lihat Persamaan. (5).
e Q(st ,aj,t ) =1ÿj
Dengan kata lain, tindakan-tindakan yang menjanjikan lebih sering dilakukan,
namun setiap tindakan mempunyai kemungkinan tertentu untuk dipilih. Demikian
pula, manusia tidak selalu memilih tindakan yang mereka harapkan menjadi yang
terbaik.

2.7. Perkiraan fungsi koneksionis


Untuk menghitung perkiraan imbalan yang diharapkan, model ini menggunakan
pendekatan fungsi jaringan saraf korelasi kaskade (cascor). Perkiraan fungsi tidak
menyimpan nilai Q untuk setiap keadaan dan tindakan yang ditemui. Sebaliknya, nilai
Q didekati atau dikonstruksikan sebagai fungsi keadaan dan tindakan (Q(st, at) =
f(st, at)). Fungsi transfer f diimplementasikan sebagai jaringan saraf di sini.
Berbeda dengan tabel pencarian di mana imbalan yang diharapkan disimpan secara
eksplisit dan mendalam, jaringan saraf menunjukkan sifat generalisasi yang menarik.
Korelasi kaskade (Fahlman & Lebiere, 1990) adalah algoritma jaringan saraf
konstruktif untuk pembelajaran yang diawasi. Dalam cascor, unit komputasi direkrut
seperlunya untuk menyelesaikan beberapa tugas, dan dipasang sebagai unit
tersembunyi baru.Hal ini menghindari keharusan merancang topologi jaringan secara
apriori, dan memungkinkan topologi berubah sesuai kebutuhan. Korelasi kaskade telah
berhasil digunakan untuk memodelkan beberapa tugas kognitif, yang seringkali
kinerjanya lebih baik dibandingkan propagasi mundur standar (misalnya, Shultz,
2003; Shultz, Mysore, & Quartz, 2007).

2.8. Pengkodean masukan dan keluaran


Saat mengonversi pola cache menjadi set pelatihan untuk cascor, pola pelatihan
dihasilkan untuk setiap pasangan tindakan negara yang ada di cache. Input dibuat
sebagai gabungan data status dan tindakan, sehingga menghasilkan 24 input: 6 untuk
mengkodekan status dan 18 untuk mengkodekan tindakan.
Negara bagian menunjukkan jumlah alat yang ditandai menggunakan setiap jenis label.
Kita lepas label berat atau ringan (HL) karena manusia. hampir tidak pernah
menggunakannya. 6 masukan untuk menyatakan kode proporsi gizmos setiap jenis label
secara berurutan: U, HN, LN, H, L, N. Misalnya, untuk menunjukkan keadaan berikut:
4U, 4HN, 4LN, 0H, 0L, 0N, vektor masukannya adalah 0,33, 0,33, 0,33, 0,0, 0,0, 0,0,
dimana 0,33 = 4/12.

2.9. Contoh numerik


Pada bagian ini, kami menyajikan contoh fiktif untuk mengilustrasikan pemrosesan
model untuk satu percobaan yang terdiri dari 3 penimbangan. Untuk sepenuhnya
menerapkan model, kami menetapkan parameter pembelajaran sebagai berikut: μ = 1.0,
ÿ = 1.0 dan ÿ = 1.0, artinya model belajar dari penghargaan berbasis lingkungan (μ)
dan jarak (ÿ) di bawah penalti biaya kognitif (ÿ ) ). Ukuran buffer tindakan diatur
ke 4. Untuk mengacu pada beberapa langkah waktu yang terlibat dalam uji coba,
notasi berikut digunakan: t, t + 1 dan t + 2 mengacu pada pemrosesan yang mengarah
ke penimbangan pertama, kedua, dan ketiga , masing-masing, dan t +3 mengacu pada
apa yang terjadi setelah penimbangan ketiga (yaitu, berkaitan dengan keadaan
terminal yang dicapai).

2.10. Pengujian model


Kinerja jaringan dinilai setelah setiap episode pembelajaran (yaitu, kelulusan
seluruh 24 percobaan). Model ini diuji pada semua 24 kemungkinan kasus (12 gizmos ×
2 bobot). Kami mengukur keakuratan, kompleksitas, dan asimetri solusi yang
dihasilkan.
Saat diuji, model selalu memilih tindakan yang terkait dengan imbalan tertinggi
yang diharapkan. Perilaku serupa mungkin diharapkan terjadi pada manusia: ketika
diuji, mereka akan melakukan yang terbaik (yaitu, memilih tindakan dengan imbalan
tertinggi yang diharapkan), namun mereka akan mengeksplorasi lebih banyak
alternatif ketika belajar (yaitu, menggunakan teknik analog dengan Softmax yang
dimodifikasi).
3. Hasil
Model saat ini memiliki empat parameter penting: (1) ukuran buffer tindakan, (2)
istilah SARSA baru untuk penghargaan berbasis jarak, (3) istilah SARSA baru untuk
penalti biaya kognitif untuk menegakkan bias kesederhanaan dan simetri, dan (4 )
istilah umum SARSA untuk imbalan lingkungan. Untuk menghindari ledakan
kombinatorial kombinasi parameter, kami merancang pendekatan sistematis yang
memvariasikan satu parameter pada satu waktu.

Anda mungkin juga menyukai