Anda di halaman 1dari 20

DEPARTEMEN

TEKNIK INFORMATIKA
REINFORCEMENT
LEARNING

Kecerdasan Komputasional
Chastine Fatichah

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Artificial Intelligence
Machine Learning

Semi-
Supervised Unsupervised Reinforcement
Supervised

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Konsep Reinforcement Learning
• Konsep pembelajaran yang melibatkan interaksi Agent dengan lingkungan
(environment) untuk mencapai tujuan (goal)
• Agent: mempunyai tugas untuk mencapai tujuan (goal)
• Environment: memberikan umpan balik terhadap aksi yang dilakukan Agen
• Goal: memilih aksi yang memaksimalkan reward
• Reward (r) merupakan sebuah nilai untuk mengukur keberhasilan aksi dari
Agen
• State (s) merupakan kondisi atau situasi saat ini berdasarkan persepsi Agen
• Action (a) merupakan aksi yang akan dipilih Agen untuk mencapai tujuan

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Contoh Reinforcement Learning

• Cart-Pole Balancing
• Goal - Menyeimbangkan tiang diatas gerobak agar tetap berdiri
• State - Sudut tiang, kecepatan sudut, posisi gerobak, kecepatan
horisontal
• Actions - Gaya horisontal ke gerobak
• Reward – setiap step berrnilai 1 jika tiang berdiri tegak
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Contoh Reinforcement Learning

• Bin Packing
• Goal - Mengambil barang dalam kotak dan meletakkan ke kontainer
• State - Piksel-piksel pada gambar yang tertangkap kamera
• Actions – Aksi-aksi yang dilakukan robot, misalkan mengambil atau
meletakkan barang
• Reward – Bernilai positif jika berhasil menempatkan barang dan bernilai
negative jika sebaliknya
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Konsep Reinforcement Learning
OBSERVATIONS
State:
Reward:
State changes :

Action: ENVIRONMENT
AGENT
ACTIONS
• st : state pada waktu t
• at : aksi pada waktu t
• rt : reward pada waktu t
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Konsep Reinforcement Learning
OBSERVATIONS
State:
Reward:
State changes :

Action: ENVIRONMENT
AGENT
ACTIONS

Total Reward Discounted Total Reward


+ +…+ ++…+
: discount factors,

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Definisi Q-function

Total Reward, , total semua reward dengan diskon dari waktu t

+ + +…
: discount factors,

Q-function menangkap expected total feature reward Agen pada


state s, yang melakukan aksi a tertentu
𝑄 ( 𝑠 𝑡 , 𝑎𝑡 ) = Ε [ 𝑅𝑡 ∨ 𝑠 𝑡 , 𝑎 𝑡 ]

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Bagaimana cara Agen memilih aksi dari Q-function?
𝑄 ( 𝑠 𝑡 , 𝑎𝑡 ) = Ε [ 𝑅𝑡 ∨ 𝑠 𝑡 , 𝑎 𝑡 ]

Q-function Agen memerlukan suatu policy untuk memilih


aksi terbaik pada state s

Strategi: memilih aksi yang memaksimalkan future reward



𝜋 ( 𝑠 )= arg max 𝑄 ( 𝑠 , 𝑎 )
𝑎

optimal policy
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Pendekatan Reinforcement Learning
• Policy-based RL
• Memilih secara langsung optimal policy
• Memilih policy yang mencapai maximum future reward
• Value-based RL
• Mengestimasi optimal value function (s,a)
• Maximum value yang tercapai oleh policy
• Model-based RL
• Membangun transition model pada sebuah environment
• Perencanaan berbasis model
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Desain Algoritma Reinforcement Learning

Fit Model

Generate
Samples Improve the
policy
(Run Policy)

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Policy-based Reinforcement Learning
Fit Model
(Estimate or
Value)

Generate
Samples Improve the ∗
𝜋 ( 𝑠 )= arg max 𝑄 ( 𝑠 , 𝑎 )
policy 𝑎

(Run Policy)

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Value-based Reinforcement Learning

𝑅𝑡 =∑ 𝛾 𝑟 (𝑠𝑡 , 𝑎𝑡 )
𝑡
Fit Model
𝑡

Generate
Samples Improve the 𝑄𝑡 + 1 ( 𝑠𝑡 , 𝑎𝑡 ) =𝑄𝑡 ( 𝑠 𝑡 , 𝑎 𝑡 ) + 𝛼 ∇ 𝑄 Ε [ 𝑅𝑡 ∨𝑠𝑡 , 𝑎𝑡 ]
policy
(Run Policy)

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Model-based Reinforcement Learning

Fit Model 𝑝 [ 𝑠 𝑡 +1∨𝑠𝑡 , 𝑎𝑡 ]

a. Menggunakan model (no policy)


Generate • Monte Carlo tree search
Samples Improve the b. Backpropagate gradients policy
policy c. Menggunakan model untuk
(Run Policy)
pembelajaran value function
• Dynamic programming
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Q-Learning
Menggunakan policy untuk mengestimasi Q yang memaksimalkan future
reward:
• Aproksimasi Q* (persamaan Bellman optimality)
• Update setiap pasangan (s, a)

Learning rate Discount factor

New state Old state Reward

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Q-Learning: Value Iteration
Learning rate Discount factor

New state Old state Reward

Q-Table

Sumber: Lex Fridman, Deep Reinforcement Learning, MIT Course 2018 : Introduction to Deep Learning

www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia


Contoh Penerapan Q-Learning
• Cart-Pole Balancing import gym
• Goal - Menyeimbangkan tiang env = gym.make('CartPole-v0')
diatas gerobak agar tetap berdiri for i_episode in range(20):
• State - Sudut tiang, kecepatan observation = env.reset()
sudut, posisi gerobak, kecepatan for t in range(100):
horisontal
env.render()
• Actions - Gaya horisontal ke
print(observation)
gerobak
action = env.action_space.sample()
• Reward - setiap step bernilai 1 jika
tiang berdiri tegak observation, reward, done, info =
env.step(action)
if done:
print("Episode finished after {}
timesteps".format(t+1))
break
env.close()
www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Kelemahan Q-Learning
Value Iteration tidak praktis:
• State atau action yang terbatas
• Tidak dapat mengeneralisir state yang belum
diketahui
Contoh Breakout game
State: screen pixels
• Ukuran gambar: 𝟖𝟒×𝟖𝟒(resized) 𝟐𝟓𝟔𝟖𝟒×𝟖𝟒×𝟒 rows
• Consecutive 4 images pada Q-table!
• Grayscale with 256 gray level

Solusi pendekatan Deep Q Learning!


www.its.ac.id/informatika INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
- TERIMA KASIH -

Anda mungkin juga menyukai