Reinforcement Learning

DEPARTEMEN
TEKNIK INFORMATIKA
REINFORCEMENT
LEARNING
Kecerdasan Komputasional
Chastine Fatichah
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Artificial Intelligence
Machine Learning
Semi-
Supervised Unsupervised Reinforcement
Supervised

Konsep Reinforcement Learning
• Konsep pembelajaran yang melibatkan interaksi Agent dengan lingkungan
(environment) untuk mencapai tujuan (goal)
• Agent: mempunyai tugas untuk mencapai tujuan (goal)
• Environment: memberikan umpan balik terhadap aksi yang dilakukan Agen
• Goal: memilih aksi yang memaksimalkan reward
• Reward (r) merupakan sebuah nilai untuk mengukur keberhasilan aksi dari
Agen
• State (s) merupakan kondisi atau situasi saat ini berdasarkan persepsi Agen
• Action (a) merupakan aksi yang akan dipilih Agen untuk mencapai tujuan

Contoh Reinforcement Learning
• Cart-Pole Balancing
• Goal - Menyeimbangkan tiang diatas gerobak agar tetap berdiri
• State - Sudut tiang, kecepatan sudut, posisi gerobak, kecepatan
horisontal
• Actions - Gaya horisontal ke gerobak
• Reward – setiap step berrnilai 1 jika tiang berdiri tegak
Contoh Reinforcement Learning
• Bin Packing
• Goal - Mengambil barang dalam kotak dan meletakkan ke kontainer
• State - Piksel-piksel pada gambar yang tertangkap kamera
• Actions – Aksi-aksi yang dilakukan robot, misalkan mengambil atau
meletakkan barang
• Reward – Bernilai positif jika berhasil menempatkan barang dan bernilai
negative jika sebaliknya
OBSERVATIONS
State:
Reward:
State changes :
Action: ENVIRONMENT
AGENT
ACTIONS
• st : state pada waktu t
• at : aksi pada waktu t
• rt : reward pada waktu t
OBSERVATIONS
State:
Reward:
State changes :
Action: ENVIRONMENT
AGENT
ACTIONS
Total Reward Discounted Total Reward

+ +…+ ++…+
: discount factors,

Definisi Q-function
Total Reward, , total semua reward dengan diskon dari waktu t
+ + +…
: discount factors,
Q-function menangkap expected total feature reward Agen pada

state s, yang melakukan aksi a tertentu
𝑄 ( 𝑠 𝑡 , 𝑎𝑡 ) = Ε [ 𝑅𝑡 ∨ 𝑠 𝑡 , 𝑎 𝑡 ]

Bagaimana cara Agen memilih aksi dari Q-function?
𝑄 ( 𝑠 𝑡 , 𝑎𝑡 ) = Ε [ 𝑅𝑡 ∨ 𝑠 𝑡 , 𝑎 𝑡 ]
Q-function Agen memerlukan suatu policy untuk memilih

aksi terbaik pada state s
Strategi: memilih aksi yang memaksimalkan future reward

∗
𝜋 ( 𝑠 )= arg max 𝑄 ( 𝑠 , 𝑎 )
𝑎
optimal policy
Pendekatan Reinforcement Learning
• Policy-based RL
• Memilih secara langsung optimal policy
• Memilih policy yang mencapai maximum future reward
• Value-based RL
• Mengestimasi optimal value function (s,a)
• Maximum value yang tercapai oleh policy
• Model-based RL
• Membangun transition model pada sebuah environment
• Perencanaan berbasis model
Desain Algoritma Reinforcement Learning
Fit Model
Generate
Samples Improve the
policy
(Run Policy)

Policy-based Reinforcement Learning
Fit Model
(Estimate or
Value)
Generate
Samples Improve the ∗
𝜋 ( 𝑠 )= arg max 𝑄 ( 𝑠 , 𝑎 )
policy 𝑎
(Run Policy)

Value-based Reinforcement Learning
𝑅𝑡 =∑ 𝛾 𝑟 (𝑠𝑡 , 𝑎𝑡 )
𝑡
Fit Model
𝑡
Generate
Samples Improve the 𝑄𝑡 + 1 ( 𝑠𝑡 , 𝑎𝑡 ) =𝑄𝑡 ( 𝑠 𝑡 , 𝑎 𝑡 ) + 𝛼 ∇ 𝑄 Ε [ 𝑅𝑡 ∨𝑠𝑡 , 𝑎𝑡 ]
policy
(Run Policy)

Model-based Reinforcement Learning
Fit Model 𝑝 [ 𝑠 𝑡 +1∨𝑠𝑡 , 𝑎𝑡 ]
a. Menggunakan model (no policy)

Generate • Monte Carlo tree search
Samples Improve the b. Backpropagate gradients policy
policy c. Menggunakan model untuk
(Run Policy)
pembelajaran value function
• Dynamic programming
Q-Learning
Menggunakan policy untuk mengestimasi Q yang memaksimalkan future
reward:
• Aproksimasi Q* (persamaan Bellman optimality)
• Update setiap pasangan (s, a)
Learning rate Discount factor
New state Old state Reward

Q-Learning: Value Iteration
Learning rate Discount factor
New state Old state Reward
Q-Table
Sumber: Lex Fridman, Deep Reinforcement Learning, MIT Course 2018 : Introduction to Deep Learning

Contoh Penerapan Q-Learning
• Cart-Pole Balancing import gym
• Goal - Menyeimbangkan tiang env = gym.make('CartPole-v0')
diatas gerobak agar tetap berdiri for i_episode in range(20):
• State - Sudut tiang, kecepatan observation = env.reset()
sudut, posisi gerobak, kecepatan for t in range(100):
horisontal
env.render()
• Actions - Gaya horisontal ke
print(observation)
gerobak
action = env.action_space.sample()
• Reward - setiap step bernilai 1 jika
tiang berdiri tegak observation, reward, done, info =
env.step(action)
if done:
print("Episode finished after {}
timesteps".format(t+1))
break
env.close()
Kelemahan Q-Learning
Value Iteration tidak praktis:
• State atau action yang terbatas
• Tidak dapat mengeneralisir state yang belum
diketahui
Contoh Breakout game
State: screen pixels
• Ukuran gambar: 𝟖𝟒×𝟖𝟒(resized) 𝟐𝟓𝟔𝟖𝟒×𝟖𝟒×𝟒 rows
• Consecutive 4 images pada Q-table!
• Grayscale with 256 gray level
Solusi pendekatan Deep Q Learning!

- TERIMA KASIH -

Reinforcement Learning

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Reinforcement Learning

Diunggah oleh

Hak Cipta:

Format Tersedia

DEPARTEMEN

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Total Reward Discounted Total Reward

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Total Reward, , total semua reward dengan diskon dari waktu t

Q-function menangkap expected total feature reward Agen pada

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Q-function Agen memerlukan suatu policy untuk memilih

Strategi: memilih aksi yang memaksimalkan future reward

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Fit Model 𝑝 [ 𝑠 𝑡 +1∨𝑠𝑡 , 𝑎𝑡 ]

a. Menggunakan model (no policy)

Learning rate Discount factor

New state Old state Reward

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

New state Old state Reward

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Solusi pendekatan Deep Q Learning!

Anda mungkin juga menyukai