Reinforcement Learning
Reinforcement Learning
TEKNIK INFORMATIKA
REINFORCEMENT
LEARNING
Kecerdasan Komputasional
Chastine Fatichah
Semi-
Supervised Unsupervised Reinforcement
Supervised
• Cart-Pole Balancing
• Goal - Menyeimbangkan tiang diatas gerobak agar tetap berdiri
• State - Sudut tiang, kecepatan sudut, posisi gerobak, kecepatan
horisontal
• Actions - Gaya horisontal ke gerobak
• Reward – setiap step berrnilai 1 jika tiang berdiri tegak
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Contoh Reinforcement Learning
• Bin Packing
• Goal - Mengambil barang dalam kotak dan meletakkan ke kontainer
• State - Piksel-piksel pada gambar yang tertangkap kamera
• Actions – Aksi-aksi yang dilakukan robot, misalkan mengambil atau
meletakkan barang
• Reward – Bernilai positif jika berhasil menempatkan barang dan bernilai
negative jika sebaliknya
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Konsep Reinforcement Learning
OBSERVATIONS
State:
Reward:
State changes :
Action: ENVIRONMENT
AGENT
ACTIONS
• st : state pada waktu t
• at : aksi pada waktu t
• rt : reward pada waktu t
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Konsep Reinforcement Learning
OBSERVATIONS
State:
Reward:
State changes :
Action: ENVIRONMENT
AGENT
ACTIONS
+ + +…
: discount factors,
optimal policy
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Pendekatan Reinforcement Learning
• Policy-based RL
• Memilih secara langsung optimal policy
• Memilih policy yang mencapai maximum future reward
• Value-based RL
• Mengestimasi optimal value function (s,a)
• Maximum value yang tercapai oleh policy
• Model-based RL
• Membangun transition model pada sebuah environment
• Perencanaan berbasis model
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Desain Algoritma Reinforcement Learning
Fit Model
Generate
Samples Improve the
policy
(Run Policy)
Generate
Samples Improve the ∗
𝜋 ( 𝑠 )= arg max 𝑄 ( 𝑠 , 𝑎 )
policy 𝑎
(Run Policy)
𝑅𝑡 =∑ 𝛾 𝑟 (𝑠𝑡 , 𝑎𝑡 )
𝑡
Fit Model
𝑡
Generate
Samples Improve the 𝑄𝑡 + 1 ( 𝑠𝑡 , 𝑎𝑡 ) =𝑄𝑡 ( 𝑠 𝑡 , 𝑎 𝑡 ) + 𝛼 ∇ 𝑄 Ε [ 𝑅𝑡 ∨𝑠𝑡 , 𝑎𝑡 ]
policy
(Run Policy)
Q-Table
Sumber: Lex Fridman, Deep Reinforcement Learning, MIT Course 2018 : Introduction to Deep Learning