Prinsip, Konsep, atau Cara Kerja Reinforcement Learning (RL) atau Pembelajaran
Penguatan
Setelah kita mengetahui pengertian, fungsi, dan tujuan dari pembelajaran penguatan, selanjutnya
kita juga perlu memahami prinsip, konsep, atau bagaimana cara kerja dari Reinforcement
Learning (RL) ini.
Dengan tidak adanya pengawasan atau supervisor, pembelajar harus secara mandiri menemukan
urutan tindakan yang memaksimalkan penghargaan.
Proses penemuan ini mirip dengan pencarian coba-coba atau yang dikenal dengan istilah trial-
error.
Kualitas tindakannya diukur tidak hanya dengan imbalan langsung yang mereka kembalikan,
tetapi juga imbalan tertunda yang mungkin mereka dapatkan.
Karena dapat mempelajari tindakan yang menghasilkan kesuksesan akhirnya di lingkungan yang
tidak terlihat tanpa bantuan supervisor, pembelajaran penguatan adalah algoritma yang sangat
kuat.
Masalah Reinforcement Learning (RL) melibatkan agen (agent) menjelajahi lingkungan yang
tidak diketahui untuk mencapai tujuan.
RL didasarkan pada hipotesis bahwa semua tujuan dapat dijelaskan dengan memaksimalkan
imbalan kumulatif yang diharapkan.
Agen harus belajar untuk merasakan dan mengganggu keadaan lingkungan menggunakan
tindakannya untuk mendapatkan hadian atau imbalan maksimal.
Kerangka formal untuk RL meminjam dari masalah kontrol optimal dari proses keputusan Markov
atau Markov Decision Process (MDP).
Jenis dan Bagian Utama Reinforcement dalam Pembelajaran Penguatan
Dalam membahas terkait pembelajaran penguatan, selain membahas pengertian Reinforcement
Learning (RL), di sini Kami juga akan menjelaskan beberapa hal terkait jenis dan bagian
utamanya.
Perlu ketahui, adapun beberapa jenis elemen utama yang terdapat dalam sistem RL adalah:
Agen atau pelajar (agent atau learner).
Lingkungan yang berinteraksi dengan agen.
Policy atau kebijakan yang diikuti agen untuk mengambil tindakan.
Reward signal atau sinyal hadiah yang diamati agen saat mengambil tindakan.
Ilustrasi, atau abstraksi yang berguna dari sinyal hadiah adalah fungsi nilai, yang dengan tepat
menangkap “kebaikan” suatu keadaan.
Sementara sinyal hadiah mewakili manfaat langsung dari keadaan tertentu, fungsi nilai menangkap
hadiah kumulatif yang diharapkan akan dikumpulkan dari keadaan itu, menuju masa depan.
Fungsi dan tujuan dari algoritma RL adalah untuk menemukan kebijakan tindakan yang
memaksimalkan nilai rata-rata yang dapat diekstraksi dari setiap keadaan sistem.
Selanjutnya, di dalam Reinforcement Learning (RL) juga terdapat jenis dari penguatannya yaitu:
a. Positive Reinforcement
Penguatan positif atau positive reinforcement didefinisikan sebagai ketika suatu peristiwa, terjadi
karena perilaku tertentu, meningkatkan kekuatan dan frekuensi perilaku. Dengan kata lain, itu
memiliki efek positif pada perilaku.
Keuntungan dari pembelajaran penguatan positif adalah:
• Memaksimalkan performa
• Sustain change atau mempertahankan perubahan untuk jangka waktu yang lama.
• Terlalu banyak reinforcement dapat menyebabkan kelebihan status yang dapat mengurangi
hasil.
b. Negative Reinforcement
Penguatan negatif atau negative reinforcement didefinisikan sebagai penguatan perilaku karena
kondisi negatif dihentikan atau dihindari.
Keuntungan dari pembelajaran penguatan negatif yaitu:
• Meningkatkan behavior (perilaku).
• Memberikan defiance atau pembangkangan terhadap standar kinerja minimum.
• Menyediakan kecukupan untuk memenuhi perilaku minimum.
Selebihnya, berikut ini juga Kami siapkan tabulasi tentang perbedaan antara Reinforcement
Learning (RL) dan Supervised Learning.
Kesimpulan
Baik, di atas merupakan penjelasan detail terkait Pengertian Reinforcement Learning (RL), Apa
itu Pembelajaran Penguatan? Tujuan, Cara Kerja, Jenis, Macam Istilah, Contoh Penerapan, dan
Perbedaannya dengan Supervised.
Berdasarkan penerangan di atas, dapat kita katakan bahwa Reinforcement Learning (RL) bisa
didefinisikan sebagai metode Machine Learning (ML) yang berkaitan dengan bagaimana agen
perangkat lunak harus mengambil tindakan di lingkungan.
Pembelajaran penguatan ini merupakan bagian dari metode pembelajaran mendalam yang
membantu Anda memaksimalkan sebagian dari hadiah kumulatif.
Metode pembelajaran jaringan saraf RL ini membantu Anda mempelajari cara mencapai tujuan
yang kompleks atau memaksimalkan dimensi tertentu melalui banyak langkah.
Reinforcement learning atau RL adalah salah satu bagian dalam machine learning yang berfungsi
untuk mengoptimalkan sebuah sistem. Pada akhirnya, sistem dapat berjalan secara otomatis
sehingga meringankan kinerja perusahaan. Tak hanya diterapkan dalam hal robotik, RL juga
dipakai oleh perusahaan-perusahaan untuk meningkatkan performa mereka.
Selain itu, adapun juga beberapa karakteristik penting dari pembelajaran penguatan
atau Reinforcement Learning (RL) adalah sebagai berikut:
• Tidak ada pengawas (supervisor), hanya bilangan asli atau sinyal hadiah.
• Pengambilan keputusan berurutan (sequence).
• Waktu memainkan peran penting dalam masalah reinforcement.
• Umpan balik selalu tertunda, tidak instan.
• Tindakan agen menentukan data selanjutnya yang diterimanya.
ANGGOTA : Khusnul-2111500122
Novianti-2111500081
Nur Azizah-2111500066
Sawatun Fitri-2111500014
Sana-2111500040