Anda di halaman 1dari 11

REINFORCEMENT LEARNING

Pengertian Reinforcement Learning (RL)


Berarti pembelajaran penguatan (dalam bahasa Indonesia) istilah Reinforcement
Learning (RL) sederhananya adalah ilmu pengambilan keputusan (decision making).
Pembelajaran penguatan adalah tentang mempelajari perilaku yang optimal dalam lingkungan
untuk mendapatkan penghargaan yang maksimal.
Perilaku optimal ini dipelajari melalui interaksi dengan lingkungan dan pengamatan tentang
bagaimana ia merespon, mirip dengan anak-anak menjelajahi dunia di sekitar mereka dan
mempelajari tindakan yang membantu mereka mencapai tujuan.
Reinforcement Learning (RL) adalah jenis teknik pembelajaran mesin yang memungkinkan agen
untuk belajar dalam lingkungan interaktif dengan coba-coba menggunakan umpan balik dari
tindakan dan pengalamannya sendiri.

Apa itu Pembelajaran Penguatan?


Jadi, apa itu sebenarnya yang dimaksud dengan pembelajaran penguatan ini?
Istilah ini lebih dikenal dengan singkatan RL yang kepanjangannya adalah Reinforcement
Learning.
Pembelajaran penguatan adalah pelatihan model pembelajaran mesin untuk membuat urutan
keputusan.
Agent (agen) yang ada di dalamnya (model dalam AI) belajar untuk mencapai tujuan dalam
lingkungan yang tidak pasti dan berpotensi kompleks.
Dalam pembelajaran penguatan atau Reinforcement Learning (RL), kecerdasan buatan
menghadapi situasi seperti permainan.
Komputer menggunakan trial and error untuk menemukan solusi untuk masalah tersebut.
Untuk membuat mesin melakukan apa yang diinginkan programmer, kecerdasan buatan mendapat
hadiah atau hukuman untuk tindakan yang dilakukannya.
Fungsi utamanya adalah untuk memaksimalkan total hadiah.
Meskipun perancang menetapkan kebijakan hadiah, yaitu, yang seperti aturan permainan, dia tidak
memberikan petunjuk atau saran apapun kepada model tentang cara menyelesaikan permainan.
Terserah model untuk mengetahui bagaimana melakukan tugas untuk memaksimalkan hadiah,
mulai dari uji coba yang benar-benar acak dan diakhiri dengan taktik canggih dan keterampilan
manusia super.
Dengan memanfaatkan kekuatan pencarian dan banyak percobaan, pembelajaran penguatan saat
ini merupakan cara paling efektif untuk menunjukkan kreativitas mesin.
Berbeda dengan manusia, kecerdasan buatan dapat mengumpulkan pengalaman dari ribuan
permainan paralel jika algoritma pembelajaran penguatan dijalankan pada infrastruktur komputer
yang cukup kuat.

Macam-macam Istilah dalam Komponen Reinforcement Learning (RL)


Semakin dalam bidang yang diselami, maka akan semakin banyak juga terminologi, istilah,
akronim, atau jargon yang bermunculan, begitupun juga dalam kasus dari subbidang kecerdasan
buatan yang satu ini.
Dalam memahami konsep Reinforcement Learning (RL), adapun beberapa macam istilah yang
digunakan wajib kalian ketahui yaitu:
• Agent; Entitas yang dapat melihat/menjelajahi lingkungan dan bertindak berdasarkan itu.
• Environment; Situasi di mana agen hadir atau dikelilingi oleh. Di RL, kita akan
mengasumsikan lingkungan stokastik, yang berarti itu bersifat random atau acak.
• Action; Tindakan atau action adalah gerakan yang diambil oleh agen
dalam environment atau lingkungan.
• State; State adalah situasi yang dikembalikan oleh lingkungan setelah setiap tindakan yang
dilakukan oleh agen.
• Reward; Umpan balik yang dikembalikan ke agen dari lingkungan untuk mengevaluasi
tindakan agen.
• Policy; Policy di sini merupakan strategi yang diterapkan oleh agen untuk tindakan
selanjutnya berdasarkan keadaan saat ini.
• Value; Nilai dalam Reinforcement Learning (RL), ini lebih diharapkan imbalan jangka
panjang dengan faktor diskon dan berlawanan dengan imbalan jangka pendek.
• Q-Value: Sebagian besar mirip dengan nilai, tetapi dibutuhkan satu parameter tambahan
sebagai tindakan (action) saat ini.

Algoritma, Karakter dari Reinforcement Learning


Ada tiga pendekatan yang bisa kita gunakan untuk mengimplementasikan algoritma
Reinforcement Learning, yaitu value-based, policy-based, dan model-based. Pendekatan
berdasarkan value-based kita harus mencoba memaksimalkan value function. Dalam metode ini,
agent mengharapkan long-term return dari policy π. Dalam metode reinforcement learning policy-
based, kita mencoba menghasilkan policy sedemikian rupa sehingga tindakan yang dilakukan di
setiap state dapat membantu mendapatkan reward maksimum. Sedangkan dalam algoritma
reinforcement learning model-based, kita perlu membuat model virtual untuk setiap environment
dan agent belajar untuk bekerja di environment tersebut. Algoritma reinforcement learning
memiliki beberapa karakteristik penting, antara lain algoritma ini tidak memerlukan supervisor,
jadi hanya menggunakan bilangan real atau reward, pengambilan keputusan dengan algoritma ini
dilakukan secara beruntun. Selain itu, dalam algoritma reinforcement, waktu sangat berperan
penting dan feedback yang diterima selalu delay (tertunda).

Contoh Penerapan Reinforcement Learning


Sebagai bagian dari sebuah machine learning, reinforcement learning tentu terdapat dalam banyak
sistem di berbagai bidang, mulai dari robot hingga keuangan. Reinforcement learning merupakan
bagian dari deep learning yang dapat melatih mesin untuk melakukan tindakan otomatis.
Misalnya, sebuah robot dilatih untuk dapat memindahkan barang dari kotak satu ke kotak lainnya.
Ini tentu terlihat sepele bagi manusia. Akan tetapi, robot tentu memiliki pemrograman yang cukup
rumit untuk dapat menyamai pemahaman manusia. Dengan metode ini, robot tersebut dilatih untuk
memahami perintah dan melaksanakannya dengan baik.
Di tempat lain, reinforcement learning juga dapat dipakai dalam sistem keuangan sebuah
perusahaan. Salah satu pemanfaatannya adalah dapat memberikan rekomendasi kepada pelanggan
berdasarkan preferensinya. Selain itu, ini juga dapat digunakan untuk menawar iklan berbayar
tanpa melibatkan negosiasi berlebihan.

Contoh Pengaplikasian Reinforcement Learning di Beberapa Sektor


Contoh pertama penggunaan reinforcement learning adalah di sektor manufaktur. Beberapa
perusahaan manufaktur menggunakan robot dengan reinforcement learning untuk mengambil
barang dari satu tempat ke tempat lain. Robot ini akan dilatih untuk menghafal objek dan
melakukan pekerjaan dengan kecepatan dan presisi yang tinggi. Selain itu robot-robot ini juga bisa
digunakan untuk menyortir berjuta-juta produk di gudang supermarket atau e-commerce. Tujuan
pemanfaatan robot ini adalah untuk menghindari human error sehingga produk tersebut dapat
dikirim ke konsumen yang tepat. Pabrik tesla pun menggunakan lebih dari 160 robot yang bekerja
untuk merakit mobil sehingga dapat mengurangi resiko cacat saat proses produksi.
Algoritma reinforcement learning juga dapat diaplikasikan pada power system. Reinforcement
learning dan teknik pengoptimalan digunakan untuk menilai keamanan sistem tenaga listrik dan
meningkatkan kinerja Microgrid. Metode adaptive learning digunakan untuk mengembangkan
sistem pengontrol dan pelindung. Teknologi transmisi dengan perangkat High-Voltage Direct
Current (HVDC) dan Flexible Alternating Current Transmission System devices (FACTS)
berdasarkan reinforcement learning dapat membantu mengurangi transmisi dan emisi CO2 secara
efektif. Reinforcement learning digunakan untuk mengembangkan struktur kontrol yang
terdistribusi untuk satu set sumber pembangkit.
Selain di sektor manufaktur dan power system, reinforcement learning juga dapat digunakan di
sektor keuangan. Perusahaan Pit.AI merupakan perusahaan pertama yang memanfaatkan
reinforcement learning untuk mengevaluasi strategi perdagangan. Algoritma ini ternyata menjadi
tool yang kuat pada sistem pelatihan untuk mengoptimalkan tujuan keuangan. Algoritma
reinforcement learning ini memiliki peran yang sangat besar dalam perdagangan pasar saham
karena algoritma Q-Learning (salah satu tipe reinforcement learning) dapat mempelajari strategi
perdagangan yang optimal melalui satu instruksi sederhana dengan memaksimalkan nilai
portofolio.
Reinforcement learning adalah algoritma yang tidak terlepas dari data science. Kedua teknologi
ini saling melengkapi satu sama lain. Hal ini karena data science adalah ilmu yang dapat diterapkan
di teknologi manapun. Bahkan saat ini, hampir semua perusahaan sudah mulai menerapkan data
science untuk meningkatkan kinerjanya. Tak heran jika belakangan ini lowongan pekerjaan data
scientist semakin meningkat. Tingginya lapangan pekerjaan di bidang data science membuat
banyak orang mulai tertarik mempelajari ilmu ini secara serius. Uniknya, tidak ada syarat latar
pendidikan tertentu untuk mempelajari ilmu data science ini sehingga orang-orang dengan
background pendidikan apapun bisa belajar ilmu "mahal" ini.

Prinsip, Konsep, atau Cara Kerja Reinforcement Learning (RL) atau Pembelajaran
Penguatan
Setelah kita mengetahui pengertian, fungsi, dan tujuan dari pembelajaran penguatan, selanjutnya
kita juga perlu memahami prinsip, konsep, atau bagaimana cara kerja dari Reinforcement
Learning (RL) ini.
Dengan tidak adanya pengawasan atau supervisor, pembelajar harus secara mandiri menemukan
urutan tindakan yang memaksimalkan penghargaan.
Proses penemuan ini mirip dengan pencarian coba-coba atau yang dikenal dengan istilah trial-
error.
Kualitas tindakannya diukur tidak hanya dengan imbalan langsung yang mereka kembalikan,
tetapi juga imbalan tertunda yang mungkin mereka dapatkan.
Karena dapat mempelajari tindakan yang menghasilkan kesuksesan akhirnya di lingkungan yang
tidak terlihat tanpa bantuan supervisor, pembelajaran penguatan adalah algoritma yang sangat
kuat.
Masalah Reinforcement Learning (RL) melibatkan agen (agent) menjelajahi lingkungan yang
tidak diketahui untuk mencapai tujuan.
RL didasarkan pada hipotesis bahwa semua tujuan dapat dijelaskan dengan memaksimalkan
imbalan kumulatif yang diharapkan.
Agen harus belajar untuk merasakan dan mengganggu keadaan lingkungan menggunakan
tindakannya untuk mendapatkan hadian atau imbalan maksimal.
Kerangka formal untuk RL meminjam dari masalah kontrol optimal dari proses keputusan Markov
atau Markov Decision Process (MDP).
Jenis dan Bagian Utama Reinforcement dalam Pembelajaran Penguatan
Dalam membahas terkait pembelajaran penguatan, selain membahas pengertian Reinforcement
Learning (RL), di sini Kami juga akan menjelaskan beberapa hal terkait jenis dan bagian
utamanya.
Perlu ketahui, adapun beberapa jenis elemen utama yang terdapat dalam sistem RL adalah:
Agen atau pelajar (agent atau learner).
Lingkungan yang berinteraksi dengan agen.
Policy atau kebijakan yang diikuti agen untuk mengambil tindakan.
Reward signal atau sinyal hadiah yang diamati agen saat mengambil tindakan.
Ilustrasi, atau abstraksi yang berguna dari sinyal hadiah adalah fungsi nilai, yang dengan tepat
menangkap “kebaikan” suatu keadaan.
Sementara sinyal hadiah mewakili manfaat langsung dari keadaan tertentu, fungsi nilai menangkap
hadiah kumulatif yang diharapkan akan dikumpulkan dari keadaan itu, menuju masa depan.
Fungsi dan tujuan dari algoritma RL adalah untuk menemukan kebijakan tindakan yang
memaksimalkan nilai rata-rata yang dapat diekstraksi dari setiap keadaan sistem.
Selanjutnya, di dalam Reinforcement Learning (RL) juga terdapat jenis dari penguatannya yaitu:
a. Positive Reinforcement
Penguatan positif atau positive reinforcement didefinisikan sebagai ketika suatu peristiwa, terjadi
karena perilaku tertentu, meningkatkan kekuatan dan frekuensi perilaku. Dengan kata lain, itu
memiliki efek positif pada perilaku.
Keuntungan dari pembelajaran penguatan positif adalah:
• Memaksimalkan performa
• Sustain change atau mempertahankan perubahan untuk jangka waktu yang lama.
• Terlalu banyak reinforcement dapat menyebabkan kelebihan status yang dapat mengurangi
hasil.
b. Negative Reinforcement
Penguatan negatif atau negative reinforcement didefinisikan sebagai penguatan perilaku karena
kondisi negatif dihentikan atau dihindari.
Keuntungan dari pembelajaran penguatan negatif yaitu:
• Meningkatkan behavior (perilaku).
• Memberikan defiance atau pembangkangan terhadap standar kinerja minimum.
• Menyediakan kecukupan untuk memenuhi perilaku minimum.

Contoh Reinforcement Learning (RL) dan Penerapan Pembelajaran Penguatan


Kita sudah mengetahui apa pengertian dari pembelajaran penguatan, RL, atau Reinforcement
Learning, sekarang mari kita lihat contoh-contohnya.
Setiap masalah dunia nyata di mana agen harus berinteraksi dengan lingkungan yang tidak pasti
untuk memenuhi tujuan tertentu adalah aplikasi potensial dari RL.
Berikut adalah beberapa contoh penerapan Reinforcement Learning (RL) yang terwujudkan.
1. Robotika
Contoh dan penerapan Reinforcement Learning (RL) yang pertama yaitu robotika.
Robot dengan perilaku yang telah diprogram berguna dalam lingkungan terstruktur, seperti jalur
perakitan pabrik mobil, di mana tugasnya berulang.
Di dunia nyata, di mana respons lingkungan terhadap perilaku robot tidak pasti, tindakan akurat
pra-pemrograman hampir tidak mungkin dilakukan.
Dalam skenario seperti itu, RL menyediakan cara yang efisien untuk membuat robot serba guna.
Ini telah berhasil diterapkan pada perencanaan jalur robot, di mana robot harus menemukan jalur
yang pendek, mulus, dan dapat dilayari antara dua lokasi, bebas dari tabrakan dan kompatibel
dengan dinamika robot.
2. AlfaGo
Contoh dan penerapan Reinforcement Learning (RL) berikutnya yaitu AlfaGo.
Salah satu permainan strategis yang paling kompleks adalah permainan papan Cina berusia 3.000
tahun yang disebut Go.
Kompleksitasnya berasal dari fakta bahwa ada 10^270 kemungkinan kombinasi papan, beberapa
kali lipat lebih banyak daripada permainan catur.
Pada tahun 2016, agen Go berbasis Reinforcement Learning (RL) bernama AlphaGo mengalahkan
pemain Go manusia terhebat.
Sama seperti pemain manusia, ia belajar dari pengalaman, memainkan ribuan game dengan pemain
profesional.
Agen Go berbasis RL terbaru memiliki kemampuan untuk belajar dengan bermain melawan
dirinya sendiri, sebuah keuntungan yang tidak dimiliki pemain manusia.
3. Autonomous Driving
Contoh dan penerapan pembelajaran penguatan terakhir yang akan Kami jelaskan di postingan kali
ini yaitu autonomous driving atau sistem mengemudi otonom.
Sistem mengemudi ini harus melakukan berbagai persepsi dan tugas perencanaan dalam
lingkungan yang tidak pasti.
Beberapa tugas khusus di mana RL menemukan aplikasi termasuk perencanaan jalur kendaraan
dan prediksi gerakan.
Perencanaan jalur kendaraan memerlukan beberapa kebijakan tingkat rendah dan tinggi untuk
membuat keputusan atas berbagai skala temporal dan spasial.
Prediksi gerak atau yang dikenal dengan sebutan motion prediction adalah tugas memprediksi
pergerakan pejalan kaki dan kendaraan lain, untuk memahami bagaimana situasi dapat
berkembang berdasarkan keadaan lingkungan saat ini.

Manfaat Reinforcement Dalam Pembelajaran


Kebiasaan yang jarang sekali dilakukan oleh guru di dalam kelas adalah memberikan
reinforcement (penguatan) kepada siswa, jarang sekali kita mendengar guru mengatakan “bagus”
atau mengacungkan jempol kepada siswa yang berhasil menjawab pertanyaan yang dilontarkan.
Padahal salah satu kompetensi profesional yang harus dimiliki seorang guru adalah mampu
membangkitkan motivasi belajar siswa dan reinforcement merupakan salah satu cara yang efektif
untuk membangkitkan motivasi belajar siswa. Sumantri dan Permana (1999:274) menyebutkan
beberapa tujuan yang bisa dicapai dari pemberian reinforcement yaitu:
1. Membangkitkan motivasi belajar peserta didik,
2. Merangsang peserta didik berpikir lebih baik,
3. Menimbulkan perhatian perserta didik,
4. Menumbuhkan kemampuan berinisiatif secara pribadi,
5. Mengendalikan dan mengubah sikap negatif peserta didik dalam belajar ke arah perilaku yang
mendukung belajar.

Manfaat Reinforcement Learning dalam Data Science


Metode ini memiliki peran penting dalam sebuah perusahaan bisnis. Berikut adalah beberapa
manfaat yang bisa Anda dapatkan ketika menerapkannya.
1. Menyelesaikan permasalahan perusahaan
Manfaat pertama yang bisa Anda dapatkan ketika perusahaan menggunakan reinforcement
learning adalah permasalahan bisa terselesaikan dengan metode ini. Tak hanya bisa digunakan
untuk menjadwalkan tugas-tugas perusahaan, metode ini juga bisa memprediksi berapa lama
waktu yang ideal untuk menyelesaikan tugas tersebut.
Selain itu, metode ini juga bisa digunakan untuk mendapatkan pelanggan yang sesuai dengan
perusahaan. Anda dapat menguji strategi pemasaran dan penjualan perusahaan dengan
menggunakan metode yang serbaotomatis ini. Dengan demikian, perusahaan akan memiliki angka
penjualan tinggi dan memiliki pelanggan yang lebih loyal.
2. Menghemat waktu dan tenaga
Berikutnya, reinforcement learning dapat menghemat waktu dan tenaga Anda sebagai data
scientist dalam sebuah perusahaan. Mengapa? Metode ini memungkinkan perusahaan untuk tidak
perlu melabeli data. Pelabelan data rata-rata memakan 80% waktu data scientist perusahaan dan
hal ini bisa Anda lewati jika menggunakan reinforcement learning.
Pelabelan data bisa jadi opsi yang tidak wajib dilakukan ketika Anda sudah menggunakan metode
serbaotomatis dari reinforcement learning. Akan tetapi, mengondisikan mesin untuk dapat bekerja
otomatis juga merupakan pekerjaan yang tidak bisa dibilang mudah. Untuk itu, Anda bisa
menerapkan reinforcement learning pada skala variabel yang kecil terlebih dahulu.

Tantangan Dalam Reinforcement Learning


Aspek yang paling sulit dari reinforcement learning adalah menyiapkan lingkungan simulasi, yang
sangat bergantung pada pekerjaan yang ada. Mempersiapkan lingkungan simulasi untuk model
menjadi ahli dalam game Catur, Go, atau Atari cukup mudah. Ketika mengembangkan model yang
mampu mengemudikan kendaraan otonom, membuat simulator realistis sangat penting sebelum
mengizinkan kendaraan untuk mengemudi di jalan. Model harus mengetahui cara mengerem atau
menghindari tabrakan di lingkungan yang aman, di mana biaya mengorbankan seribu mobil dapat
diabaikan. Bagian yang menantang adalah mengeluarkan model dari lingkungan training dan
masuk ke dunia nyata.
Masalah lain adalah penskalaan dan penyesuaian jaringan saraf yang mengontrol bot. Tidak ada
metode lain untuk berkomunikasi dengan jaringan selain melalui sistem reward dan punishment.
Hal ini dapat mengakibatkan risiko kelupaan, di mana pengetahuan baru menyebabkan beberapa
pengetahuan lama hilang dari jaringan.

Tujuan Melakukan Reinforcement Learning (RL) atau Pembelajaran Penguatan


Pembelajaran penguatan merupakan area Pembelajaran Mesin.
Model yang menggunakan konsep RL mengambil tindakan yang sesuai untuk memaksimalkan
imbalan dalam situasi tertentu.
Tujuannya yaitu, mereka digunakan oleh berbagai perangkat lunak dan mesin untuk menemukan
cara, metode, perilaku, atau jalur terbaik yang harus diambil dalam situasi tertentu.
Pembelajaran penguatan berbeda dari pembelajaran terawasi (supervised) dengan cara dalam
pembelajaran terawasi, data training (pelatihan) sudah memiliki kunci jawaban sehingga model
dilatih dengan jawaban yang benar sendiri, sedangkan dalam Reinforcement Learning (RL), tidak
ada jawaban tetapi agen penguatan memutuskan apa yang harus dilakukan untuk melakukan tugas
yang diberikan.
Dengan tidak adanya dataset pelatihan, RL pasti akan belajar dari pengalamannya sendiri.

Perbedaan Reinforcement Learning (RL) dengan Supervised Learning


Apa yang membedakan Reinforcement Learning (RL) dengan supervised?
Perlu untuk diketahui, ada beberapa poin utama dalam konsep RL ini, yakni:
Masukan atau input-nya harus berupa status awal dari mana model akan dimulai.
Keluaran atau output-nya, yaitu ada banyak kemungkinan keluaran karena ada berbagai solusi
untuk masalah tertentu.
Training atau pelatihan didasarkan pada input, di mana model akan mengembalikan keadaan dan
pengguna akan memutuskan untuk memberi penghargaan atau menghukum model
berdasarkan output-nya.
Dalam konsep Reinforcement Learning (RL), model yang sudah dibangun akan terus belajar
(melakukan pelatihan dengan sendirinya).
Solusi terbaiknya, yaitu diputuskan berdasarkan hadiah maksimum.

Selebihnya, berikut ini juga Kami siapkan tabulasi tentang perbedaan antara Reinforcement
Learning (RL) dan Supervised Learning.

Reinforcement Learning (RL) Supervised Learning (Diawasi)

Dalam pembelajaran terbimbing,


Reinforcement Learning (RL) adalah tentang membuat keputusan
terawasi, atau diawasi,
secara berurutan. Dengan kata sederhana, kita dapat mengatakan
keputusannya dibuat
bahwa output RL tergantung pada state atau keadaan input saat ini
pada input awal atau input yang
dan input berikutnya tergantung pada output dari input sebelumnya.
diberikan di awal

Dalam pembelajaran terawasi


Dalam keputusan pembelajaran penguatan, mereka dapat dikatakan
keputusannya independen satu
sebagai tergantung (dependent), jadi kita perlu memberi label pada
sama lain sehingga label diberikan
urutan keputusan yang bergantung.
untuk setiap keputusan.
Reinforcement Learning (RL) Supervised Learning (Diawasi)

Contohnya yaitu seperti


Contohnya yaitu seperti permainan catur pengenalan objek (object
detection)

Kesimpulan
Baik, di atas merupakan penjelasan detail terkait Pengertian Reinforcement Learning (RL), Apa
itu Pembelajaran Penguatan? Tujuan, Cara Kerja, Jenis, Macam Istilah, Contoh Penerapan, dan
Perbedaannya dengan Supervised.
Berdasarkan penerangan di atas, dapat kita katakan bahwa Reinforcement Learning (RL) bisa
didefinisikan sebagai metode Machine Learning (ML) yang berkaitan dengan bagaimana agen
perangkat lunak harus mengambil tindakan di lingkungan.
Pembelajaran penguatan ini merupakan bagian dari metode pembelajaran mendalam yang
membantu Anda memaksimalkan sebagian dari hadiah kumulatif.
Metode pembelajaran jaringan saraf RL ini membantu Anda mempelajari cara mencapai tujuan
yang kompleks atau memaksimalkan dimensi tertentu melalui banyak langkah.
Reinforcement learning atau RL adalah salah satu bagian dalam machine learning yang berfungsi
untuk mengoptimalkan sebuah sistem. Pada akhirnya, sistem dapat berjalan secara otomatis
sehingga meringankan kinerja perusahaan. Tak hanya diterapkan dalam hal robotik, RL juga
dipakai oleh perusahaan-perusahaan untuk meningkatkan performa mereka.
Selain itu, adapun juga beberapa karakteristik penting dari pembelajaran penguatan
atau Reinforcement Learning (RL) adalah sebagai berikut:
• Tidak ada pengawas (supervisor), hanya bilangan asli atau sinyal hadiah.
• Pengambilan keputusan berurutan (sequence).
• Waktu memainkan peran penting dalam masalah reinforcement.
• Umpan balik selalu tertunda, tidak instan.
• Tindakan agen menentukan data selanjutnya yang diterimanya.

ANGGOTA : Khusnul-2111500122
Novianti-2111500081
Nur Azizah-2111500066
Sawatun Fitri-2111500014
Sana-2111500040

Anda mungkin juga menyukai