Anda di halaman 1dari 1

(tingkat, pembusukan kelayakan jejak, dan faktor diskon sementara belajar), beberapa bobot yang

diinisialisasi dengan nilai-nilai positif untuk mencapai (9), dan beberapa ad perubahan hoc dari algoritma
TD diperkenalkan untuk mereproduksi (7) (lihat di bawah).
Dalam percobaan Pavlov, respon air liur anjing tidak mempengaruhi pengiriman makanan. Model
TD adalah model pembelajaran Pavlov dan karena itu menghitung sinyal prediksi, sesuai dengan respon
air liur, tetapi tidak memilih tindakan yang optimal. Sebaliknya, paradigma pembelajaran instrumental,
seperti belajar untuk menekan tuas untuk pengiriman makanan, menunjukkan bahwa hewan dapat belajar
untuk melakukan tindakan yang mengoptimalkan reward. Untuk model pembelajaran sensorimotor di
paradigma tersebut, komponen model yang disebut Aktor yang diajarkan oleh prediksi reward sinyal
kesalahan dari model TD. Dalam arsitektur seperti, model TD juga disebut Pengritik. Pendekatan ini
konsisten dengan teori belajar hewan dan
berhasilditerapkan untuk studi pembelajaran mesin (lihat LEARNING PENGUATAN DI KONTROL
MOTOR). Neuron dopamin otak tengah memproyeksikan ke striatum dan korteks dan ditandai dengan
respons yang agak seragam di seluruh seluruh penduduk neuron. Studi pemodelan komputasi dengan
model Critic Actor- menunjukkan bahwa seperti pahala kesalahan prediksi dopamin seperti dapat
berfungsi sebagai sinyal mengajar yang kuat untuk belajar dengan imbalan tertunda dan untuk belajar dari
urutan bermotor (Suri dan Schultz, 1999). Model ini juga konsisten dengan peran dopamin dalam
kecanduan narkoba dan listrik stimulasi diri (lihat di bawah). Perbandingan arsitektur Aktor-Critic untuk
struktur biologis menunjukkan bahwa Critic mungkin sesuai dengan jalur dari korteks limbik melalui
striatum limbik (atau striosomes) ke neuron dopamin, sedangkan Aktor yang mungkin sesuai dengan jalur
dari neokorteks melalui sensorimotor striatum (atau matrisomes) ke basal Output ganglia inti (lihat
ganglia basal) (Gambar. 2B). Sedangkan ini model standar Aktor-Kritik meniru belajar dari asosiasi
sensorimotor atau kebiasaan, itu tidak berarti bahwa dopamin terlibat dalam anhedonia.

Anda mungkin juga menyukai