Anda di halaman 1dari 16

Rangkuman Materi Reinforcement Learning

Oleh :
Adrians Galih Armansyah Gea
20102220
Reinfocement Learning

Reinforcement Learning (RL) merupakan salah satu cabang utama dalam pembelajaran mesin
yang fokus pada cara agen cerdas belajar melakukan tindakan dalam suatu lingkungan untuk
mencapai tujuan tertentu. RL memodelkan proses pembelajaran seperti interaksi antara agen
dan lingkungan yang dinamis, di mana agen memperoleh umpan balik berdasarkan tindakan
yang dilakukan dan berusaha untuk mengoptimalkan keputusan-keputusan berikutnya
berdasarkan umpan balik tersebut.

Pada dasarnya, RL mirip dengan cara manusia belajar. Sebagai contoh, ketika seseorang
mempelajari cara bermain game, mereka mengambil tindakan-tindakan tertentu dan
kemudian melihat hasil dari tindakan tersebut. Jika hasilnya positif, mereka cenderung
mengulangi tindakan tersebut di masa depan. Namun, jika hasilnya negatif, mereka
cenderung mencari tindakan alternatif yang lebih baik. Dalam RL, agen cerdas bekerja
dengan cara yang serupa, mengambil tindakan berdasarkan keadaan lingkungan, dan
menerima umpan balik positif atau negatif sebagai sinyal untuk memperbaiki keputusan-
keputusan yang diambil.
Salah satu elemen kunci dalam RL adalah konsep penguasaan keadaan-keadaan yang ada
dalam lingkungan. Agen RL harus mampu memahami keadaan-keadaan yang berbeda dan
memilih tindakan yang paling tepat dalam situasi tertentu. Penguasaan keadaan biasanya
dilakukan melalui penggunaan fungsi nilai atau keadaan yang menggambarkan estimasi nilai
seberapa baik suatu keadaan tertentu dan tindakan yang diambil di keadaan tersebut.

Selain itu, RL juga melibatkan elemen penting lainnya, yaitu kehadiran kebijakan atau
strategi. Kebijakan adalah aturan atau rencana yang digunakan oleh agen untuk memilih
tindakan berdasarkan keadaan yang ada. Tujuan utama dalam RL adalah untuk menemukan
kebijakan optimal yang menghasilkan akumulasi imbalan tertinggi dalam jangka panjang.

Proses pembelajaran RL umumnya melibatkan siklus tindakan, observasi, dan pembelajaran.


Agen memulai dengan keadaan awal, memilih tindakan berdasarkan kebijakan saat ini, dan
berinteraksi dengan lingkungan. Lingkungan memberikan umpan balik atau imbalan sebagai
respons terhadap tindakan agen. Agen menggunakan umpan balik tersebut untuk
memperbarui estimasi nilai keadaan dan belajar dari pengalaman. Dalam RL, terdapat
pendekatan seperti Q-learning, SARSA, dan metode Monte Carlo yang digunakan untuk
mengestimasi dan memperbarui nilai keadaan.

RL memiliki berbagai aplikasi yang luas, termasuk permainan komputer, robotika, kendaraan
otonom, keuangan, dan masih banyak lagi. Misalnya, dalam permainan komputer, RL
digunakan untuk melatih agen untuk bermain game secara mandiri dan meningkatkan
keterampilannya dari waktu ke waktu. Dalam konteks robotika, RL digunakan untuk
mengajarkan robot melakukan tugas-tugas tertentu seperti berjalan, mengambil objek, atau
menghindari rintangan.
Selain itu, terdapat beberapa elemen dan konsep penting dalam RL yang perlu dipahami.
Pertama, terdapat konsep tindakan (actions) dan keadaan (states). Tindakan adalah langkah-
langkah yang dapat diambil oleh agen dalam suatu lingkungan, sedangkan keadaan
mencerminkan informasi tentang lingkungan pada suatu waktu tertentu. Agen memilih
tindakan berdasarkan keadaan saat ini dan berusaha untuk memaksimalkan imbalan atau
hadiah (reward) yang diterima dari lingkungan.

Imbalan adalah sinyal umpan balik yang diberikan oleh lingkungan kepada agen setelah
melakukan tindakan tertentu. Tujuan agen adalah untuk mencapai akumulasi imbalan
tertinggi dalam jangka panjang dengan memilih tindakan yang tepat. Imbalan dapat bersifat
positif, negatif, atau netral, dan agen menggunakan imbalan ini sebagai petunjuk untuk
memperbaiki keputusan-keputusan yang diambil.
Selain itu, terdapat konsep kebijakan (policy) yang merupakan strategi atau aturan yang
digunakan oleh agen untuk memilih tindakan berdasarkan keadaan yang ada. Kebijakan dapat
bersifat deterministik, di mana tindakan ditentukan dengan pasti berdasarkan keadaan, atau
stokastik, di mana probabilitas tindakan tertentu dipilih dalam keadaan tertentu. Tujuan
utama dalam RL adalah untuk menemukan kebijakan optimal yang menghasilkan imbalan
maksimum dalam jangka panjang.

Dalam proses pembelajaran RL, agen menggunakan metode pengambilan keputusan seperti
fungsi nilai (value function) atau fungsi keuntungan (utility function) untuk mengestimasi
nilai seberapa baik suatu keadaan dan tindakan dalam mencapai tujuan. Fungsi nilai
memungkinkan agen untuk memperkirakan manfaat jangka panjang dari mengambil tindakan
tertentu dalam suatu keadaan. Metode seperti Q-learning dan SARSA digunakan untuk
mengestimasi dan memperbarui nilai-nilai ini berdasarkan pengalaman agen.

Terdapat juga konsep eksplorasi dan eksploitasi dalam RL. Eksplorasi merujuk pada tindakan
agen untuk menjelajahi keadaan-keadaan baru dan mencoba tindakan yang belum pernah
diambil sebelumnya untuk memperoleh informasi baru tentang lingkungan. Sementara itu,
eksploitasi merujuk pada penggunaan pengetahuan yang telah diketahui oleh agen untuk
memilih tindakan yang diharapkan menghasilkan imbalan maksimum. Keseimbangan yang
tepat antara eksplorasi dan eksploitasi penting untuk mencapai hasil yang optimal dalam RL.

Reinforcement Learning memiliki sejumlah pendekatan dan algoritma yang digunakan untuk
mengatasi berbagai masalah. Beberapa di antaranya termasuk Q-learning, SARSA, Deep Q-
Networks (DQN), Actor-Critic, dan Proximal Policy Optimization (PPO). Pendekatan ini
memiliki kelebihan dan kekurangan masing-masing, dan pilihan pendekatan yang tepat
tergantung pada sifat masalah yang dihadapi

Kesimpulannya, Reinforcement Learning adalah cabang penting dalam pembelajaran mesin


yang memungkinkan agen cerdas belajar melakukan tindakan dalam lingkungan untuk
mencapai tujuan. Melalui interaksi dengan lingkungan dan penggunaan strategi kebijakan,
agen RL dapat memperoleh pengetahuan dan kebijakan yang optimal. Dengan konsep
tindakan, keadaan, imbalan, kebijakan, dan metode pengambilan keputusan, RL menjadi alat
yang kuat untuk mengatasi berbagai masalah di berbagai bidang seperti permainan komputer,
robotika, kendaraan otonom, keuangan, dan masih banyak lagi.
Markov Decision Process and Dynamic Programming

Markov Decision Process (MDP) adalah sebuah kerangka kerja matematis yang digunakan
untuk memodelkan situasi di mana pengambilan keputusan berurutan harus dilakukan dalam
suatu lingkungan yang dinamis. MDP digunakan sebagai dasar dalam Reinforcement
Learning (RL) untuk mempelajari kebijakan optimal yang menghasilkan imbalan maksimum
dalam jangka panjang.

Dalam MDP, lingkungan diwakili oleh serangkaian keadaan (states) yang dapat diakses oleh
agen. Pada setiap keadaan, agen dapat memilih tindakan (actions) yang tersedia. Namun,
keadaan berikutnya yang dihasilkan dan imbalan yang diterima oleh agen tidak hanya
bergantung pada tindakan yang diambil, tetapi juga pada keadaan saat ini. Konsep penting
dalam MDP adalah sifat Markov, yang menyatakan bahwa keadaan masa depan hanya
bergantung pada keadaan saat ini dan bukan pada sejarah tindakan sebelumnya.

MDP juga melibatkan konsep imbalan (reward) yang diberikan kepada agen sebagai umpan
balik atas tindakan yang diambil dalam keadaan tertentu. Imbalan ini dapat bersifat positif,
negatif, atau netral dan digunakan oleh agen untuk memaksimalkan akumulasi imbalan dalam
jangka panjang. Tujuan utama dalam MDP adalah menemukan kebijakan (policy) optimal
yang memandu agen dalam memilih tindakan yang menghasilkan imbalan maksimum dalam
jangka panjang

Dynamic Programming (DP) adalah metode yang sering digunakan untuk memecahkan
masalah MDP dengan cara membaginya menjadi submasalah yang lebih kecil dan
memanfaatkan prinsip optimalitas. Metode ini melibatkan dua konsep utama: fungsi nilai
(value function) dan fungsi kebijakan (policy function). Fungsi nilai mengestimasi nilai
seberapa baik suatu keadaan dan tindakan dalam mencapai tujuan, sedangkan fungsi
kebijakan menentukan tindakan yang akan diambil dalam setiap keadaan.

Metode DP melibatkan dua pendekatan utama: Iteration Kebijakan (Policy Iteration) dan
Iteration Nilai (Value Iteration). Iteration Kebijakan melibatkan iterasi antara evaluasi
kebijakan dan perbaikan kebijakan. Pada setiap iterasi, fungsi nilai diperbarui berdasarkan
kebijakan saat ini, dan kemudian kebijakan diperbarui berdasarkan fungsi nilai yang telah
diperbarui. Prosedur ini diulang hingga konvergensi ke kebijakan optimal

Sementara itu, Iteration Nilai melibatkan iterasi untuk memperbarui dan mengkonvergensi
fungsi nilai langsung. Pada setiap iterasi, fungsi nilai diperbarui berdasarkan estimasi nilai
keadaan dan tindakan yang menghasilkan imbalan maksimum dalam satu langkah. Prosedur
ini diulang hingga konvergensi ke fungsi nilai optimal.

Metode DP memiliki kelebihan dalam menemukan solusi optimal untuk masalah MDP yang
memiliki struktur yang terbatas dan ukuran keadaan yang kecil. Namun, pendekatan ini
terbatas oleh kompleksitas perhitungan yang meningkat secara eksponensial dengan
peningkatan ukuran keadaan. Oleh karena itu, untuk masalah MDP yang lebih besar dan
kompleks, metode aproksimasi seperti Q-learning dan SARSA yang berbasis RL lebih sering
digunakan.

Selain itu, Dynamic Programming juga melibatkan konsep dua fungsi penting dalam
pemecahan masalah MDP, yaitu fungsi nilai (value function) dan fungsi kebijakan (policy
function). Fungsi nilai digunakan untuk mengestimasi nilai seberapa baik suatu keadaan dan
tindakan dalam mencapai tujuan, sementara fungsi kebijakan menentukan tindakan yang akan
diambil dalam setiap keadaan.

Ada dua pendekatan utama dalam Dynamic Programming, yaitu Iteration Kebijakan (Policy
Iteration) dan Iteration Nilai (Value Iteration). Pada Iteration Kebijakan, proses dimulai
dengan kebijakan awal yang dihasilkan secara acak. Iterasi dilakukan secara bergantian
antara evaluasi kebijakan, di mana fungsi nilai dievaluasi berdasarkan kebijakan saat ini, dan
perbaikan kebijakan, di mana kebijakan diperbarui berdasarkan fungsi nilai yang telah
diperbarui. Prosedur ini diulang hingga konvergensi ke kebijakan optimal

Sementara itu, pada Iteration Nilai, proses dimulai dengan fungsi nilai awal yang ditetapkan.
Pada setiap iterasi, fungsi nilai diperbarui berdasarkan estimasi nilai keadaan dan tindakan
yang menghasilkan imbalan maksimum dalam satu langkah. Proses ini dilakukan secara
berulang hingga fungsi nilai konvergen ke fungsi nilai optimal.

Dynamic Programming adalah metode yang kuat untuk memecahkan masalah MDP yang
memiliki struktur terbatas dan ukuran keadaan yang kecil. Dengan memanfaatkan prinsip
optimalitas, metode ini dapat menemukan solusi optimal untuk masalah tersebut. Namun,
Dynamic Programming memiliki keterbatasan dalam menghadapi masalah MDP yang lebih
besar dan kompleks, karena kompleksitas perhitungan yang meningkat secara eksponensial
dengan peningkatan ukuran keadaan.

Selain itu, penting untuk dicatat bahwa Dynamic Programming membutuhkan pengetahuan
penuh tentang model MDP, yaitu fungsi transisi yang menentukan probabilitas perpindahan
keadaan dari satu keadaan ke keadaan lainnya. Oleh karena itu, dalam praktiknya, ketika
pengetahuan penuh tentang model tidak tersedia, pendekatan RL yang lebih umum, seperti Q-
learning dan SARSA, sering digunakan untuk memecahkan masalah MDP. Metode-metode
tersebut memungkinkan agen untuk belajar secara iteratif melalui pengalaman dalam
lingkungan dan tidak memerlukan pengetahuan eksplisit tentang model MDP.
Monte Carlo Prediction

Monte Carlo Prediction adalah salah satu metode yang digunakan dalam Reinforcement
Learning (RL) untuk memprediksi nilai-nilai fungsi nilai (value function) dalam suatu
lingkungan yang tidak diketahui. Metode ini mengandalkan penggunaan pengalaman yang
diperoleh dari interaksi langsung dengan lingkungan, tanpa memerlukan pengetahuan
eksplisit tentang model lingkungan.

Metode Monte Carlo Prediction memanfaatkan konsep "pengambilan sampel acak" atau
"Monte Carlo sampling" untuk mengestimasi nilai fungsi nilai. Prosedur umumnya adalah
sebagai berikut: agen berinteraksi dengan lingkungan melalui serangkaian episode, di mana
setiap episode terdiri dari langkah-langkah yang diambil oleh agen dan imbalan yang diterima
sebagai akibat dari langkah-langkah tersebut. Pada setiap episode, agen mengumpulkan
urutan keadaan, tindakan, dan imbalan yang ditemui.

Setelah sejumlah episode selesai, Monte Carlo Prediction menggunakan pengalaman yang
dikumpulkan untuk mengestimasi nilai fungsi nilai dengan memperhitungkan akumulasi
imbalan yang diterima oleh agen dalam setiap keadaan. Secara khusus, metode ini
menghitung nilai rata-rata imbalan yang diterima oleh agen dalam setiap keadaan selama
episode-episode yang dijalankan.

Untuk mengestimasi nilai fungsi nilai, Monte Carlo Prediction membagi pengalaman yang
dikumpulkan menjadi grup-grup yang terkait dengan masing-masing keadaan. Kemudian,
untuk setiap keadaan, nilai fungsi nilai diestimasi dengan menghitung rata-rata imbalan yang
diterima oleh agen dalam keadaan tersebut dari semua episode yang berhubungan. Perlu
dicatat bahwa perkiraan tersebut lebih akurat dengan semakin banyak episode yang
dilakukan.

Salah satu keuntungan utama dari Monte Carlo Prediction adalah kemampuannya untuk
menangani masalah MDP dengan lingkungan yang tidak diketahui dan tidak terstruktur.
Metode ini dapat digunakan dalam RL tanpa memerlukan pengetahuan tentang model
lingkungan, seperti fungsi transisi atau distribusi probabilitas. Dalam hal ini, Monte Carlo
Prediction cocok untuk situasi di mana lingkungan yang kompleks dan rumit sulit atau mahal
untuk dipahami secara lengkap.

Namun, metode Monte Carlo Prediction juga memiliki beberapa kelemahan. Pertama,
estimasi nilai fungsi nilai menjadi lebih lambat karena metode ini memerlukan banyak
episode untuk menghasilkan perkiraan yang akurat. Kedua, metode ini memiliki kelemahan
dalam menangani keadaan yang jarang muncul atau tidak muncul sama sekali selama
pengalaman yang dikumpulkan, yang dikenal sebagai "masalah eksplorasi".

Untuk mengatasi masalah tersebut, metode Monte Carlo Prediction dapat dikombinasikan
dengan strategi eksplorasi yang efektif, seperti Epsilon-Greedy atau UCB (Upper Confidence
Bound). Dengan melakukan eksplorasi yang lebih baik, agen dapat mengumpulkan
pengalaman yang lebih lengkap dan memperbaiki estimasi nilai fungsi nilai secara lebih
efektif.
Selain itu, Monte Carlo Prediction juga memiliki beberapa variasi yang dapat diterapkan
tergantung pada sifat masalah yang dihadapi. Salah satu variasi yang umum adalah Monte
Carlo First-Visit Prediction, di mana estimasi nilai fungsi nilai hanya dilakukan berdasarkan
pengalaman pertama kali agen mengunjungi suatu keadaan dalam satu episode. Metode ini
menghindari pengulangan pengalaman dalam satu episode dan menghasilkan estimasi nilai
yang tidak terpengaruh oleh pengulangan tersebut.

Selain itu, terdapat juga Monte Carlo Every-Visit Prediction, di mana estimasi nilai fungsi
nilai dilakukan setiap kali agen mengunjungi suatu keadaan dalam satu episode. Dalam
metode ini, semua pengalaman dalam suatu episode digunakan untuk menghitung rata-rata
imbalan yang diterima oleh agen dalam keadaan tersebut. Metode ini memberikan estimasi
yang lebih akurat dalam situasi di mana agen mengunjungi suatu keadaan beberapa kali
dalam satu episode.

Selanjutnya, Monte Carlo Prediction juga dapat digunakan dalam konteks pengembalian
diskon (discounted return). Pengembalian diskon memperhitungkan imbalan yang diterima
oleh agen dalam jangka waktu yang lebih panjang dengan memberikan bobot diskon pada
imbalan masa depan. Dalam hal ini, estimasi nilai fungsi nilai dihitung berdasarkan
pengembalian diskon yang diakumulasikan selama episode. Hal ini memungkinkan agen
untuk memperhitungkan nilai masa depan dan mengoptimalkan keputusan yang diambil
dalam jangka panjang.

Penting untuk dicatat bahwa Monte Carlo Prediction adalah metode yang model-free, yang
berarti tidak memerlukan pengetahuan tentang model lingkungan. Hal ini membuatnya dapat
diterapkan pada masalah yang kompleks dan tidak terstruktur, di mana model lingkungan
sulit atau mahal untuk diperoleh. Namun, metode ini juga memerlukan banyak episode untuk
menghasilkan perkiraan yang akurat, sehingga memerlukan jumlah interaksi yang signifikan
dengan lingkungan.

Monte Carlo Prediction adalah metode yang berguna dalam RL untuk memprediksi nilai-nilai
fungsi nilai dalam lingkungan yang tidak diketahui. Dengan memanfaatkan pengalaman
langsung dan pengambilan sampel acak, metode ini memberikan estimasi yang dapat
digunakan untuk mengambil keputusan yang optimal dalam lingkungan yang kompleks.
Meskipun memiliki beberapa kelemahan, seperti kecepatan estimasi yang lambat dan
masalah eksplorasi, metode ini tetap menjadi pilihan yang kuat dalam RL dan dapat
dikombinasikan dengan strategi eksplorasi yang efektif untuk meningkatkan kinerjanya.
Temporal Difference Learning & SARSA

Temporal Difference (TD) Learning adalah salah satu metode dalam pembelajaran penguatan
yang digunakan untuk menghasilkan kebijakan dan memperkirakan nilai-nilai state dalam
lingkungan yang tidak diketahui secara lengkap. TD Learning menggabungkan metode
Monte Carlo dan metode Bellman, dengan melakukan update nilai-nilai state berdasarkan
perkiraan yang diperoleh dari perbedaan antara estimasi sebelumnya dengan estimasi baru
yang diupdate. Metode ini sangat berguna dalam konteks pembelajaran online, di mana agen
dapat belajar secara real-time saat berinteraksi dengan lingkungan.

Salah satu algoritma TD Learning yang populer adalah SARSA (State-Action-Reward-State-


Action). Algoritma ini digunakan untuk mempelajari kebijakan secara langsung dari
pengalaman yang diperoleh selama interaksi agen dengan lingkungan. Pada setiap langkah,
agen memperbarui nilai-nilai Q (yang mewakili perkiraan keuntungan yang diharapkan)
berdasarkan tindakan yang diambil, imbalan yang diterima, keadaan berikutnya, dan tindakan
berikutnya yang akan diambil berdasarkan kebijakan yang diperbarui. Dengan kata lain,
SARSA adalah metode TD Learning yang berfokus pada perbaikan nilai-nilai Q secara
bertahap.

Langkah pertama dalam algoritma SARSA adalah memilih tindakan awal berdasarkan
kebijakan yang diperbarui, seperti misalnya menggunakan metode ε-greedy untuk memilih
tindakan dengan probabilitas tertentu. Setelah itu, agen berinteraksi dengan lingkungan dan
menerima imbalan serta keadaan berikutnya. Kemudian, agen memilih tindakan berikutnya
berdasarkan kebijakan yang diperbarui, dan proses ini berlanjut hingga mencapai keadaan
terminal.

Setelah mencapai keadaan terminal, agen memperbarui nilai-nilai Q berdasarkan rumus


perbaikan SARSA. Rumus tersebut menggabungkan komponen seperti imbalan yang
diterima, nilai-nilai Q yang terkait dengan keadaan berikutnya, serta tingkat pembelajaran
yang dapat dikendalikan oleh parameter alfa. Dalam setiap pembaruan, nilai-nilai Q
diperbarui secara iteratif untuk mencerminkan pengetahuan yang diperoleh oleh agen selama
interaksi dengan lingkungan.
Keuntungan dari SARSA adalah kemampuannya untuk belajar kebijakan optimal dalam
konteks keadaan yang berkelanjutan, di mana agen dapat mengambil tindakan berulang kali
dalam satu episode. Algoritma ini juga dapat digunakan dalam kasus di mana lingkungan
tidak sepenuhnya diketahui sejak awal. Namun, SARSA mungkin cenderung lambat dalam
konvergensi dan rentan terhadap kebijakan yang bergantung pada eksplorasi secara acak.

Selain keuntungan dan kelemahan yang telah disebutkan sebelumnya, terdapat beberapa hal
penting yang perlu dipertimbangkan dalam konteks SARSA.

Pertama, SARSA merupakan salah satu contoh dari algoritma on-policy, yang berarti ia
menggunakan kebijakan saat ini untuk memperbarui nilai-nilai Q. Hal ini dapat menjadi
kelebihan jika kita ingin menghasilkan kebijakan konsisten yang mengoptimalkan nilai-nilai
Q yang sedang dipelajari. Namun, dalam beberapa kasus, kita mungkin ingin mempelajari
kebijakan off-policy yang memaksimalkan nilai-nilai Q yang diperkirakan, tanpa mengikuti
kebijakan saat ini. Dalam hal ini, algoritma off-policy seperti Q-learning mungkin lebih
sesuai.

Kedua, dalam implementasi SARSA, penting untuk memilih metode eksplorasi yang tepat.
Eksplorasi berarti melakukan tindakan acak untuk mengumpulkan informasi baru tentang
lingkungan. Dalam SARSA, salah satu pendekatan yang umum digunakan adalah metode ε-
greedy, di mana agen memilih tindakan berdasarkan kebijakan saat ini dengan probabilitas 1-
ε, sementara dengan probabilitas ε, ia memilih tindakan secara acak untuk eksplorasi.
Pemilihan nilai ε yang tepat merupakan pertimbangan penting, karena nilai ε yang terlalu
tinggi dapat menyebabkan agen melewatkan kebijakan yang lebih optimal, sementara nilai ε
yang terlalu rendah dapat menyebabkan agen terjebak dalam kebijakan yang tidak efisien.
Ketiga, dalam SARSA, penggunaan fungsi pembelajaran (learning rate) yang sesuai sangat
penting. Learning rate, yang sering kali disimbolkan dengan α (alfa), mengontrol seberapa
besar perubahan yang akan dilakukan pada estimasi nilai-nilai Q saat dilakukan pembaruan.
Nilai α yang terlalu besar dapat menyebabkan fluktuasi yang tidak stabil dalam pembelajaran,
sementara nilai α yang terlalu kecil dapat membuat pembelajaran menjadi lambat. Pemilihan
learning rate yang tepat membutuhkan eksperimen dan penyesuaian yang cermat sesuai
dengan karakteristik lingkungan dan tujuan pembelajaran yang diinginkan.

Terakhir, SARSA juga dapat dikembangkan dan diperluas untuk menangani masalah yang
lebih kompleks, seperti memperkirakan fungsi nilai (value function) yang lebih rinci atau
menggabungkannya dengan teknik pembelajaran mendalam (deep reinforcement learning).
Dalam pengembangan yang lebih lanjut, dapat pula diterapkan variasi SARSA seperti
Expected SARSA, yang mengestimasi nilai-nilai Q dengan mempertimbangkan ekspektasi
nilai tindakan berikutnya berdasarkan kebijakan saat ini.
Secara keseluruhan, SARSA adalah algoritma TD Learning yang dapat digunakan untuk
mempelajari kebijakan secara langsung dari interaksi agen dengan lingkungan. Meskipun
memiliki beberapa kelemahan dan pertimbangan implementasi yang perlu dipertimbangkan,
SARSA tetap menjadi algoritma yang berguna dalam pembelajaran penguatan dan telah
memberikan kontribusi signifikan dalam bidang ini.
Q Learning & Deep Q Learning

Q-Learning adalah salah satu algoritma pembelajaran penguatan yang digunakan untuk
mempelajari kebijakan optimal secara langsung dari pengalaman agen dengan lingkungan.
Algoritma ini menggunakan fungsi nilai Q untuk mengestimasi keuntungan yang diharapkan
dari memilih tindakan tertentu dalam suatu keadaan. Pada awalnya, nilai-nilai Q diinisialisasi
secara acak. Selama interaksi dengan lingkungan, agen memperbarui nilai-nilai Q
berdasarkan rumus perbaikan Q yang mencakup imbalan yang diterima, nilai-nilai Q keadaan
berikutnya, dan tingkat pembelajaran yang dikendalikan oleh parameter alfa. Algoritma Q-
Learning secara iteratif memperbarui nilai-nilai Q hingga konvergensi ke kebijakan optimal.

Salah satu kendala Q-Learning adalah terbatasnya penggunaannya pada masalah dengan
ruang keadaan dan tindakan yang kecil. Untuk mengatasi ini, Deep Q-Learning (DQL)
menggabungkan Q-Learning dengan jaringan saraf tiruan (neural network) dalam pendekatan
yang dikenal sebagai deep reinforcement learning. DQL memperkenalkan konsep fungsi nilai
Q yang parametrik, yang diwakili oleh arsitektur jaringan saraf. Dengan menggunakan
jaringan saraf, DQL dapat mengatasi masalah dimensi yang lebih besar dan memodelkan
hubungan kompleks antara keadaan dan nilai-nilai Q.

Dalam DQL, jaringan saraf digunakan untuk memperkirakan fungsi nilai Q. Pada awalnya,
jaringan saraf diinisialisasi secara acak. Selama interaksi agen dengan lingkungan, jaringan
saraf digunakan untuk memperkirakan nilai-nilai Q, dan agen memilih tindakan berdasarkan
kebijakan ε-greedy, di mana probabilitas ε digunakan untuk memilih tindakan secara acak
sebagai bagian dari eksplorasi. Setelah memilih tindakan, agen menerima imbalan dan
keadaan berikutnya, dan jaringan saraf diperbarui menggunakan metode pembelajaran
berbasis gradien, seperti metode penurunan gradien stokastik (stochastic gradient descent),
untuk meminimalkan perbedaan antara nilai-nilai Q aktual dan perkiraan.

Dalam DQL, ada konsep replay memory yang penting. Replay memory adalah kumpulan
pengalaman yang disimpan oleh agen dalam bentuk pasangan keadaan, tindakan, imbalan,
dan keadaan berikutnya. Saat melakukan pembelajaran, agen secara acak mengambil sampel
pengalaman dari replay memory dan menggunakan sampel tersebut untuk memperbarui
jaringan saraf. Hal ini membantu mengurangi korelasi temporal dan menghindari keadaan
yang sering dialami oleh agen dalam pembelajaran online, sehingga meningkatkan stabilitas
dan efisiensi pembelajaran.

Dalam DQL, ada juga konsep target network yang digunakan untuk mengurangi perubahan
yang cepat dan tidak stabil dalam nilai-nilai Q. Target network adalah salinan dari jaringan
saraf yang digunakan sebagai sasaran dalam perhitungan perbedaan nilai-nilai Q. Jaringan
target diperbarui secara periodik menggunakan parameter jaringan saraf yang utama. Dengan
demikian, perbedaan antara nilai-nilai Q aktual dan perkiraan dapat dihitung dengan lebih
stabil.
Salah satu kontribusi utama DQL adalah penggunaan fungsi nilai Q yang parametrik dengan
jaringan saraf, yang memungkinkan pembelajaran dari masalah yang lebih kompleks dan
ruang keadaan yang besar. DQL telah berhasil diterapkan dalam berbagai konteks, termasuk
permainan video, robotika, dan kendaraan otonom. Namun, DQL juga memiliki tantangan,
seperti ketidakstabilan pembelajaran yang mungkin terjadi, sensitivitas terhadap pengaturan
parameter, dan kerumitan dalam penyetelan arsitektur jaringan saraf yang efektif.

Q-Learning adalah salah satu algoritma pembelajaran penguatan yang termasuk dalam
kategori metode off-policy. Ini berarti agen belajar memperbarui dan memperkirakan nilai-
nilai Q terlepas dari kebijakan yang sedang diterapkan. Algoritma ini bergantung pada
konsep fungsi nilai Q, yang menggambarkan perkiraan keuntungan yang diharapkan dari
memilih tindakan tertentu dalam suatu keadaan. Dalam Q-Learning, tabel nilai Q digunakan
untuk menyimpan dan mengupdate nilai-nilai Q. Agen secara iteratif berinteraksi dengan
lingkungan, memilih tindakan berdasarkan strategi eksplorasi seperti ε-greedy, menerima
imbalan dan keadaan berikutnya, dan memperbarui nilai-nilai Q berdasarkan rumus
perbaikan Q. Proses ini berlanjut hingga konvergensi ke kebijakan optimal.

Deep Q-Learning (DQL) menggabungkan Q-Learning dengan jaringan saraf tiruan (neural
network) dalam pendekatan yang dikenal sebagai deep reinforcement learning. DQL
mengatasi keterbatasan Q-Learning dalam menghadapi masalah dengan ruang keadaan dan
tindakan yang besar atau kompleks. Dalam DQL, jaringan saraf digunakan untuk
memperkirakan fungsi nilai Q secara parametrik. Jaringan saraf yang dalam (deep neural
network) digunakan untuk memodelkan hubungan kompleks antara keadaan dan nilai-nilai Q.
Agar lebih stabil, DQL menggunakan replay memory untuk menyimpan pengalaman
sebelumnya dan meminimalkan korelasi temporal. Dengan replay memory, pengalaman
diambil secara acak untuk pelatihan jaringan saraf.

Dalam DQL, terdapat dua jaringan saraf: jaringan utama (main network) dan jaringan target
(target network). Jaringan utama digunakan untuk memperkirakan nilai-nilai Q dan
diperbarui setiap iterasi, sedangkan jaringan target adalah salinan jaringan utama yang
digunakan sebagai sasaran dalam perhitungan perbedaan nilai-nilai Q. Jaringan target
diperbarui secara periodik untuk mengurangi fluktuasi dan perubahan yang cepat dalam
perkiraan nilai-nilai Q. Dengan menggunakan dua jaringan, DQL dapat mengatasi masalah
kestabilan dan konvergensi yang sering terjadi dalam pembelajaran penguatan dengan fungsi
nilai Q parametrik.

Dalam implementasi DQL, pemilihan tindakan oleh agen sering menggunakan kebijakan ε-
greedy. Ini berarti agen memilih tindakan berdasarkan perkiraan nilai-nilai Q dengan
probabilitas 1-ε, sementara dengan probabilitas ε, agen memilih tindakan secara acak untuk
eksplorasi. Nilai ε dikurangi secara eksponensial seiring dengan peningkatan jumlah iterasi,
sehingga agen cenderung mengurangi eksplorasi seiring bertambahnya pengetahuan.

Deep Q-Learning telah menunjukkan keberhasilan yang signifikan dalam berbagai konteks,
termasuk permainan video kompleks seperti Go dan Atari. Pendekatan ini memungkinkan
pembelajaran penguatan pada masalah dengan dimensi yang lebih besar, dan memodelkan
hubungan yang lebih kompleks antara keadaan dan nilai-nilai Q. Namun, DQL juga memiliki
tantangan, seperti fluktuasi dan ketidakstabilan pembelajaran, sensitivitas terhadap pemilihan
parameter, serta kompleksitas dalam penyetelan arsitektur dan hiperparameter jaringan saraf.

Secara keseluruhan, Q-Learning dan Deep Q-Learning adalah algoritma yang penting dan
inovatif dalam pembelajaran penguatan. Q-Learning merupakan dasar untuk mempelajari
kebijakan optimal secara langsung, sementara DQL menggabungkannya dengan jaringan
saraf dalam pendekatan deep reinforcement learning. DQL telah membuka jalan untuk
aplikasi pembelajaran penguatan pada berbagai masalah dunia nyata, mengatasi kendala Q-
Learning dan memberikan kontribusi besar dalam pengembangan kecerdasan buatan.
Robotics-Based Reinforcement Learning

Robotics-Based Reinforcement Learning (RL) adalah pendekatan yang menggabungkan


pembelajaran penguatan dengan robotika untuk mempelajari kebijakan yang optimal dalam
lingkungan fisik yang kompleks. RL dalam konteks robotika bertujuan untuk mengajar robot
untuk melakukan tindakan yang tepat dalam situasi yang berbeda agar mencapai tujuan
tertentu. Pendekatan ini melibatkan interaksi antara robot dan lingkungan fisik di sekitarnya,
di mana robot menerima umpan balik langsung berupa sensorik dan melakukan tindakan
fisik.

Salah satu keuntungan utama dari Robotics-Based RL adalah kemampuan untuk mengatasi
masalah yang sulit dan kompleks dalam pengontrolan robot. Algoritma RL dapat digunakan
untuk mempelajari kebijakan yang optimal dalam lingkungan yang tidak terstruktur dan
dinamis, di mana robot harus beradaptasi dengan perubahan dan ketidakpastian. Dengan
menggunakan RL, robot dapat belajar secara mandiri dari interaksi dengan lingkungan dan
mengoptimalkan kinerja mereka seiring waktu.

Pada dasarnya, Robotics-Based RL melibatkan tiga komponen utama: agen (robot),


lingkungan (tempat robot beroperasi), dan sistem pembelajaran. Agen merupakan robot yang
bertindak dalam lingkungan untuk mencapai tujuan tertentu. Lingkungan mencakup segala
sesuatu yang ada di sekitar robot, termasuk objek, hambatan, dan elemen lainnya. Sistem
pembelajaran, seperti algoritma RL, digunakan untuk memperbarui kebijakan agen
berdasarkan pengalaman yang diperoleh dari interaksi dengan lingkungan.

Pada tahap awal, robot biasanya memiliki kebijakan acak dan berinteraksi dengan
lingkungan. Selama interaksi, robot menerima umpan balik dari sensoriknya dan memperoleh
informasi tentang keadaan lingkungan saat ini. Umpan balik ini digunakan untuk
memperbarui kebijakan robot menggunakan algoritma RL, seperti Q-Learning atau Deep Q-
Learning. Melalui iterasi yang berulang, robot belajar untuk memperbaiki tindakan yang
diambil dalam berbagai situasi lingkungan, dan dengan demikian meningkatkan kinerjanya.

Selama proses pembelajaran, robot mungkin menghadapi tantangan seperti ketidakpastian,


hambatan, dan ketidaklinearan dalam lingkungan fisik. Oleh karena itu, dalam Robotics-
Based RL, perlu dilakukan perencanaan dan kontrol yang cermat untuk mengoptimalkan
kinerja robot. Metode seperti pemodelan sistem dinamis, filtrasi sensorik, dan perencanaan
lintasan digunakan untuk membantu robot menghadapi masalah kompleks tersebut.

Selain itu, dalam Robotics-Based RL, penting untuk mempertimbangkan masalah


keselamatan dan etika. Robot yang belajar melalui RL harus diawasi secara cermat untuk
meminimalkan risiko dan mematuhi aturan dan norma yang berlaku. Penggunaan
pengendalian adaptif, pengawasan manusia, dan batasan lingkungan yang aman adalah
beberapa langkah yang dapat diambil untuk memastikan keselamatan dan etika dalam
penggunaan robotika yang didasarkan pada RL.
Robotics-Based RL telah diterapkan dalam berbagai konteks robotika, termasuk manipulasi
objek, navigasi, kendaraan otonom, dan robotika medis. Pendekatan ini telah membawa
kemajuan besar dalam pengembangan robotika, memungkinkan robot untuk belajar dan
beradaptasi dalam lingkungan yang dinamis dan kompleks. Namun, masih ada tantangan
yang perlu diatasi, seperti efisiensi komputasional, pemodelan yang akurat, dan integrasi
yang lebih baik antara pembelajaran penguatan dan kontrol yang tradisional.

Secara keseluruhan, Robotics-Based Reinforcement Learning adalah pendekatan yang kuat


untuk mengembangkan robot yang cerdas dan adaptif. Melalui kombinasi pembelajaran
penguatan dan robotika, robot dapat belajar dari pengalaman dan memperbaiki kinerjanya
dalam lingkungan fisik yang kompleks. Dengan terus berkembangnya teknologi ini,
diharapkan robotika akan menjadi lebih efisien, aman, dan berdaya guna dalam berbagai
aplikasi di dunia nyata.
Reinforcement Learning Case Study and Future Challenges

Reinforcement Learning (RL) telah menjadi subjek yang menarik dalam pengembangan
kecerdasan buatan dan telah digunakan dalam berbagai studi kasus yang beragam. Salah satu
contoh studi kasus yang menarik adalah penggunaan RL dalam pengendalian kendaraan
otonom. Dalam konteks ini, RL digunakan untuk mengajarkan kendaraan melakukan
keputusan dan tindakan yang tepat dalam menghadapi situasi jalan yang kompleks dan
beragam.

Sebagai contoh, ketika kendaraan otonom berinteraksi dengan lingkungan jalan raya, RL
memungkinkannya untuk belajar melalui pengalaman bagaimana mengambil keputusan saat
bertemu dengan kendaraan lain, pejalan kaki, dan hambatan lainnya. Melalui pengulangan
interaksi dengan lingkungan dan umpan balik yang diterima, kendaraan otonom
menggunakan algoritma RL untuk memperbarui kebijakan yang optimal. Dengan kata lain,
kendaraan otonom belajar untuk berkendara dengan lebih aman, efisien, dan mematuhi aturan
lalu lintas.

Selain itu, RL juga telah diterapkan dalam bidang keuangan. Misalnya, dalam trading saham,
RL dapat digunakan untuk mengembangkan sistem perdagangan otomatis yang dapat
mengambil keputusan jual-beli berdasarkan kondisi pasar dan tujuan keuntungan yang
ditetapkan. Dalam hal ini, RL mempelajari pola dan kecenderungan dari data historis dan
beradaptasi dengan perubahan dalam pasar untuk meningkatkan keuntungan secara konsisten.

Dalam robotika, RL telah digunakan untuk mengajarkan robot melakukan tugas-tugas yang
kompleks seperti manipulasi objek, navigasi, atau bahkan pemelajaran sosial. Sebagai contoh,
RL dapat digunakan untuk mengajarkan robot untuk mengambil objek dengan tangan dan
memindahkannya ke posisi yang ditentukan. RL memungkinkan robot belajar dari percobaan
dan kesalahan untuk memperbaiki gerakan dan mengoptimalkan pencapaian tujuan.

Namun, meskipun RL memiliki banyak aplikasi yang menjanjikan, ada beberapa tantangan
yang perlu dihadapi di masa depan. Salah satunya adalah masalah skalabilitas. Ketika ruang
keadaan dan tindakan menjadi sangat besar, RL mungkin menghadapi kendala komputasional
yang signifikan. Pengembangan algoritma dan teknik yang efisien untuk mengatasi masalah
skala besar menjadi penting.

Tantangan lain adalah menghadapi ketidakpastian dan kompleksitas lingkungan. Dalam


situasi dunia nyata, lingkungan seringkali tidak terstruktur, tidak terduga, dan penuh dengan
ketidakpastian. RL perlu mampu mengatasi ketidakpastian ini dan mempelajari kebijakan
yang adaptif dan responsif.

Selain itu, interpretabilitas keputusan yang diambil oleh sistem RL juga merupakan tantangan
yang perlu dipecahkan. Kebijakan yang dihasilkan oleh RL seringkali sulit dipahami oleh
manusia, sehingga mengurangi kepercayaan dan penerimaan teknologi ini. Pengembangan
metode untuk menjelaskan dan menginterpretasikan keputusan RL dapat membantu
meningkatkan pemahaman dan penerimaan oleh pengguna.

Selain tantangan teknis, RL juga menghadapi tantangan sosial dan etika. Dalam beberapa
kasus, kebijakan yang dihasilkan oleh RL dapat memiliki konsekuensi yang tidak diinginkan
atau bahkan bertentangan dengan nilai-nilai sosial dan etika. Diperlukan kerangka regulasi
yang tepat untuk memastikan bahwa penggunaan RL dilakukan dengan pertimbangan yang
cermat terhadap dampak sosial, keadilan, dan keamanan.

Secara keseluruhan, pengembangan dan penerapan RL dalam berbagai studi kasus telah
menunjukkan potensi besar dalam memecahkan masalah yang kompleks. Namun, tantangan
seperti skalabilitas, ketidakpastian lingkungan, interpretabilitas, dan masalah sosial dan etika
harus diatasi agar RL dapat menjadi lebih efektif, dapat dipercaya, dan dapat diterima dalam
berbagai bidang aplikasi di masa depan.

Anda mungkin juga menyukai