Automatic Berthing Using Supervised Learning and Reinforcement Learning

Machine Translated by Google
Energi dan AI 11 (2023) 100215
Daftar konten tersedia di ScienceDirect
Energi dan AI
beranda jurnal: www.sciencedirect.com/journal/energy-and-ai
Pembelajaran penguatan mendalam untuk operasi yang optimal dari sejumlah besar
aset energi terbarukan yang didistribusikan
Jan Martin Spect

sebuah
, Reinhard Madlener a,b,*

Institut untuk Kebutuhan dan Perilaku Konsumen Energi Masa Depan (FCN), Sekolah Bisnis dan Ekonomi / Pusat Penelitian Energi E.ON, Universitas RWTH Aachen, Mathieustraße 10,
sebuah
52074, Aachen, Jerman

b
Departemen Ekonomi Industri dan Manajemen Teknologi, Universitas Sains dan Teknologi Norwegia (NTNU), Sentralbygg 1, 7491, Gløshaugen,
Trondheim, Norwegia
HIGHLIGHT
• Pembelajaran penguatan mendalam untuk mengoptimalkan pengoperasian aset energi

terdistribusi. • AI berdasarkan Soft Actor Critique mengendalikan jutaan aset energi terdistribusi. •
Pendekatan ini memungkinkan berbagai kasus penggunaan baru dalam konteks rumah tangga
prosumer. • Penilaian kuantitatif terhadap lima kumpulan nilai teladan (misalnya pengurangan
beban jaringan). • Panduan tentang cara mentransfer prosedur pengembangan AI ke bidang penelitian lain.
INFORMASI ARTIKEL ABSTRAK
Klasifikasi JEL: Studi ini menggunakan pembelajaran mesin dan, lebih khusus lagi, pembelajaran penguatan (RL) untuk memungkinkan operasi
C45
real-time yang optimal dari sejumlah besar aset fleksibel desentralisasi pada skala rumah tangga pribadi di domain listrik.
C52
Hambatan RL potensial dan saat ini ditunjukkan dan panduan untuk praktisi yang tertarik diberikan tentang cara menangani
C61
tugas serupa tanpa keterampilan lanjutan dalam pemrograman jaringan saraf.
Q40
Untuk aplikasi dalam domain energi, ditunjukkan bahwa algoritme RL yang canggih dapat dilatih untuk mengontrol potensi
Q41
jutaan aset skala kecil di rumah tangga pribadi. Secara rinci, algoritma RL yang diterapkan mengungguli algoritma heuristik
Kata kunci:
umum dan hanya sedikit di bawah hasil yang diberikan oleh optimasi linier, tetapi kurang dari seperseribu waktu simulasi.
Pembelajaran penguatan
Pembangkit listrik virtual Dengan demikian, RL membuka jalan bagi agregator aset energi fleksibel untuk mengoptimalkan keuntungan dari berbagai
Agregasi energi kasus penggunaan dalam jaringan energi pintar dan dengan demikian juga menyediakan layanan jaringan yang berharga dan
Penumpukan nilai pengoperasian aset energi swasta yang lebih berkelanjutan.
Fleksibilitas aset energi desentralisasi
1. Perkenalan Meskipun keuntungan yang menjanjikan dalam disiplin lain, beberapa artikel
baru-baru ini menyatakan bahwa penelitian terapan menggunakan pembelajaran
Dalam beberapa tahun terakhir, pembelajaran mendalam telah berkembang mendalam di bidang analisis bisnis dan riset operasi masih relatif langka [21,24].
dari pendekatan ceruk menjadi alat yang ampuh untuk berbagai aplikasi, dengan Masalah ini juga meluas ke aplikasi praktis: sementara 85% eksekutif percaya
peningkatan drastis di bidang-bidang seperti pengenalan suara dan visual [25], kecerdasan buatan (AI) akan memberi perusahaan mereka keunggulan kompetitif,
robotika [36], manufaktur [50] dan sistem multi-agent [ 25] 16]. Keberhasilan ini hanya 5% yang benar-benar memasukkan AI secara ekstensif ke dalam proses
didorong oleh kemampuan untuk melatih algoritme pembelajaran mendalam bisnis mereka [37]. Banyak praktisi tampaknya menghindari AI karena takut bahwa
menggunakan sejumlah besar data untuk mengembangkan wawasan ke dalam topik ini memerlukan pengembangan luas dari pengetahuan ahli tentang
pengambilan keputusan yang cepat dan dioptimalkan dalam kasus di mana pemrograman jaringan saraf atau menjadi putus asa oleh rintangan yang
pemrograman dinamis konvensional dan pendekatan ekonometrik mengalami apa tampaknya tak ada habisnya yang biasanya muncul selama penerapan penyiapan
yang disebut "kutukan dimensi" [ 14,33]. yang berhasil.
* Penulis yang sesuai.

Alamat email: rmadlener@eonerc.rwth-aachen.de (R. Madlener).
https://doi.org/10.1016/j.egyai.2022.100215
Tersedia online 23 November 2022

2666-5468/© 2022 Penulis. Diterbitkan oleh Elsevier Ltd. Ini adalah artikel akses terbuka di bawah lisensi CC BY-NC-ND (http://creativecommons.org/licenses/by nc-nd/4.0/).
JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215
Salah satu bidang di mana pengenalan AI mungkin menjadi faktor pendukung kemudi aset jaringan listrik pintar di rumah tangga pribadi dengan berbagai aliran
utama adalah sistem kelistrikan, yang saat ini tunduk pada setidaknya dua perubahan pendapatan. Untuk tujuan ini, kami menyelidiki apakah pembelajaran mendalam
yang mengganggu. Pertama, kebangkitan digitalisasi memfasilitasi interkoneksi benar-benar dapat mengungguli metode pengoptimalan linier saat memaksimalkan
potensi jutaan aset energi desentralisasi untuk pembangkit listrik, penyimpanan, dan pendapatan dengan mengoptimalkan operasi listrik fleksibel pada beberapa aliran
konsumsi dalam “jaringan cerdas” [19,30]. nilai, seperti yang ditunjukkan dalam Specht dan Madlener [30].
Kedua, transisi menuju teknologi energi rendah karbon dan berkelanjutan melibatkan Kontribusi asli dari makalah ini ada dua. Pertama, prosedur umum yang diusulkan
perubahan mendasar tidak hanya di sektor kelistrikan tetapi juga di sektor mobilitas untuk mengembangkan algoritma pembelajaran penguatan untuk tugas yang diberikan
dan panas, dan memungkinkan penggabungan sektor. dapat diterapkan tanpa pengetahuan ahli di bidang pemrograman jaringan saraf. Hal
Kendaraan listrik, pompa panas, atau penyimpanan baterai rumah menimbulkan risiko ini dapat diterapkan oleh para peneliti dan praktisi di berbagai bidang penelitian,
yang signifikan terhadap stabilitas jaringan listrik, karena permintaan listriknya yang memungkinkan para ahli tersebut untuk meningkatkan kualitas atau waktu perhitungan
besar dapat membebani infrastruktur jaringan listrik yang ada [5,7]. Perubahan optimasi. Kedua, kami membuktikan bahwa algoritme deep reinforcement learning
permintaan ini dapat menyebabkan biaya peningkatan jaringan yang sangat besar, dapat menjadi kunci dalam integrasi sumber daya energi terdistribusi fleksibel untuk
terutama jika operator harus merancang jaringan untuk skenario terburuk (misalnya, mewujudkan transisi energi berkelanjutan dengan memberikan penilaian ekonomi
beberapa pelanggan menarik listrik dalam jumlah besar secara bersamaan). Namun, kuantitatif serta perbandingan dengan pendekatan konvensional berdasarkan heuristik
terlepas dari tantangan ini, sifat fleksibel dari pengoperasian aset ini juga memiliki sederhana atau bilangan bulat campuran linier pengoptimalan. Selain itu, kasus
potensi untuk memberikan banyak kasus penggunaan dengan manfaat bagi penggunaan yang diselidiki dan terutama fungsi hadiah yang dikembangkan
pelanggan, operator jaringan, dan pemasok listrik (lihat Gambar 1). Aset fleksibel tampaknya juga berharga untuk topik penelitian lain dalam domain ini.
dapat, misalnya, dioperasikan untuk (1) memperoleh keuntungan dari harga listrik
yang tidak stabil, (2) mengurangi tekanan jaringan dengan meratakan puncak beban, Sisa dari makalah ini disusun sebagai berikut. Bagian 2 mengulas perkembangan
(3) menyediakan daya cadangan untuk menstabilkan frekuensi arus listrik, (4) penting dalam pembelajaran mendalam dan menyajikan RL sebagai pendekatan
mengurangi penyimpanan baterai penuaan,1 atau (5) memaksimalkan konsumsi mutakhir. Bagian 3 memperkenalkan tantangan dalam konteks energi, mencocokkan
sendiri pembangkit listrik lokal (surya) [15,18,34,38]. tantangan ini dengan kekuatan dan kelemahan RL, dengan tujuan untuk
Namun, pelanggan energi seperti rumah tangga pribadi mungkin tidak menyukai memaksimalkan pembangkitan nilai aset energi fleksibel di rumah tangga pribadi
penyesuaian yang sering dilakukan dalam jadwal operasi perangkat mereka. Alih-alih, sekaligus mempertimbangkan hingga lima kasus penggunaan. Berdasarkan literatur
tugas mengirimkan potensi fleksibilitas aset baru-baru ini jatuh ke "agregator," yaitu dan pengalaman kami, kami menyediakan daftar periksa dengan kendala yang umum
entitas yang menyatukan aset terdistribusi secara virtual dan memasarkan potensinya ditemukan dan solusi yang disarankan bagi pembaca yang tertarik untuk menerapkan
untuk beberapa kasus penggunaan yang disebutkan di atas, memungkinkan mereka pembelajaran penguatan pada aplikasi di domain mereka. Di Bagian 4, kami memilih
menghasilkan aliran pendapatan tambahan untuk diri mereka sendiri dan aset mereka. RL-algoritma yang sesuai berdasarkan tantangan yang diidentifikasi di Bagian 3 dan
pelanggan [3,44]. menguraikan secara singkat proses pelatihan. Bagian 5 menyajikan temuan umum
Dalam studi terkait lainnya, kami mendemonstrasikan bahwa model pengoptimalan dari penerapan AI kami di sektor energi dan menyertakan hasil kuantitatif untuk
linier dapat digunakan untuk menggunakan aset fleksibel dan menghasilkan hingga aplikasi terpilih. Akhirnya, Bagian 6 merangkum dan menyimpulkan.
150 €/ a untuk rumah tangga umum di Jerman [45]. Nilai-nilai ini mewakili potensi
teoritis maksimum, yaitu dengan asumsi pandangan jauh ke depan yang sempurna.
Pada kenyataannya, nilai-nilai teoretis ini tidak dapat dicapai karena produksi dan 2. Tonggak perkembangan menuju pembelajaran penguatan
konsumsi listrik lokal tidak dapat diramalkan dengan sempurna, harga pertukaran
listrik, dan lain-lain. Selain itu, ketidaklinieran seperti pola penuaan penyimpanan
baterai menghasilkan masalah pengoptimalan yang mungkin membutuhkan waktu Berikut ini, kami pertama-tama memberikan sinopsis pembelajaran mendalam,
beberapa menit atau bahkan berhari-hari untuk diselesaikan (jika mempertimbangkan dan pembelajaran penguatan khususnya, diikuti dengan ulasan singkat tentang
ribuan langkah waktu sebelumnya). Ini hampir tidak layak untuk aplikasi dengan literatur pembelajaran mendalam dalam domain energi. Hal ini memungkinkan untuk
potensi jutaan rumah tangga yang perlu memperbarui jadwal konsumsi daya mereka mengklarifikasi apa kontribusi asli dari penelitian kami terhadap literatur yang ada.
setiap beberapa menit (misalnya jika harga pasar spot listrik atau permintaan daya
cadangan berubah, pengguna mengaktifkan perangkat intensif energi, atau campuran 2.1. Latar belakang: pembelajaran mesin
listrik perubahan menuju energi terbarukan yang lebih intermiten).
Konsep "pembelajaran mesin" dalam arti literalnya sering ditelusuri kembali ke
Pendekatan pembelajaran mendalam baru-baru ini telah diterapkan dalam perkembangan Teorema Bayes pada abad ke-16 dan mencakup beberapa
konteks ini dan telah menunjukkan kinerja yang lebih unggul daripada algoritma perkembangan, seperti penemuan jaringan syaraf tiruan pada tahun 1950-an.
keputusan konvensional [8,24,48]. Pembelajaran penguatan (RL), subtipe dari Demikian pula, konsep "pembelajaran mendalam" sudah ada sejak tahun 1940-an;
pembelajaran mesin, merupakan pendekatan yang sangat menjanjikan di bidang ini. namun, istilah tersebut baru mendapatkan popularitas sekitar tahun 2006 [13] dan
Untuk aplikasi RL, sejumlah besar data lebih menguntungkan daripada tantangan, biasanya membatasi konsep pembelajaran mesin yang luas pada konsep yang
karena data ini dapat digunakan untuk melatih instance algoritme dengan cepat, yang melibatkan jaringan saraf dari banyak lapisan yang dilatih menggunakan data dalam
disebut agen. Setelah dilatih, agen dapat bereaksi terhadap perubahan dalam jumlah besar. Sejak tahun 2006 dan seterusnya, para peneliti berfokus pada
pengamatan dunia nyata mereka dengan usaha dan waktu komputasi yang minimal. penerapan algoritme pembelajaran mendalam untuk klasifikasi audio dan gambar.
Selain itu, mereka tidak memerlukan prakiraan atau interaksi manusia untuk Algoritme ini dilatih pada kumpulan data (misalnya, angka tulisan tangan atau barang
menjelaskan atau menginterpretasikan peristiwa. Sebaliknya, algoritma RL memiliki mode), biasanya menggunakan "pembelajaran terawasi". Pendekatan ini membutuhkan
potensi untuk belajar secara mandiri menggunakan observasi mereka. Kemampuan "data berlabel" yang menginformasikan algoritma apakah prediksinya benar (lih. [26]).
ini adalah fitur yang sangat membantu, karena tidak realistis menugaskan karyawan Sekitar tahun 2011, kualitas klasifikasi gambar dari agen terbaik melampaui
manusia untuk menganalisis rutinitas dan pola jutaan pelanggan. kemampuan manusia dalam semakin banyak pengaturan pengujian.
Penelitian ini memperluas pekerjaan sebelumnya oleh Kraus et al. [24] dan
bertujuan untuk mengatasi kelangkaan literatur tentang pembelajaran mendalam di Algoritme pembelajaran mendalam selanjutnya menjadi mampu belajar
bidang riset operasi terapan serta kurangnya alat untuk mengoptimalkan memainkan game yang kompleks dan berurutan. Misalnya, algoritme "AlphaGo",
yang dikembangkan untuk permainan papan Go, mampu mengalahkan pemain
manusia terbaik setelah dilatih pada kumpulan data besar permainan manusia2 [41].
1
Keausan baterai dapat dikurangi dengan menghindari keadaan pengisian daya yang
intensif, misalnya dengan tidak mengosongkan baterai sepenuhnya setiap hari di musim
2
dingin tetapi meninggalkan beberapa beban sisa di baterai ketika pembangkit PV tidak Nyatanya, AlphaGo sebenarnya adalah sebuah transisi, juga termasuk elemen
memungkinkan penggunaan baterai sepenuhnya. pertama dari Reinforcement Learning tapi setidaknya dengan fokus belajar dari data yang ada.
2
Gbr. 1. Aset fleksibel di rumah pribadi, seperti kendaraan listrik atau penyimpanan baterai, dapat dioperasikan untuk memaksimalkan nilai bagi pemangku kepentingan yang berbeda pada
beberapa kumpulan nilai (+ … keuntungan kecil; ++ … keuntungan signifikan).
Terlepas dari keberhasilan ini, pendekatan pembelajaran yang diawasi ini menghadapi deterministic policy gradient (DDPG) adalah pendekatan pertama untuk mengatasi ruang
keterbatasan yang signifikan. Kumpulan data masif yang diperlukan untuk pelatihan pengamatan dan tindakan berkelanjutan dan dipresentasikan pada tahun 2015 oleh tim
membatasi penerapan pembelajaran mendalam ke sejumlah kecil peralatan, di mana data Google DeepMind [28]. Namun, pendekatan ini mengalami overestimasi yang mengakibatkan
pelatihan tersedia cukup, seperti dalam kasus Go. Selanjutnya, melatih algoritme dengan ketidakstabilan dan telah dimodifikasi dalam beberapa tahun terakhir dengan memperkenalkan
hanya menggunakan data yang tersedia menyiratkan bahwa algoritme tidak dapat melampaui jaringan kritis yang mengevaluasi tindakan jaringan kebijakan dengan lebih baik dan juga
kemampuan siapa pun yang menghasilkan data pelatihan. mengurangi ketidakstabilan melalui berbagai ukuran (terutama, “Pembelajaran Q ganda”,
cf .misalnya [6]). Dua pendekatan yang berbeda sangat menjanjikan dalam pengujian
komprehensif: soft actor-critic (SAC [17]) dan twin-delayed deep deterministic policy gradient
2.2. Pembelajaran penguatan (TD3 [12]). Kedua pendekatan tersebut dianggap "di luar kebijakan", yang berarti bahwa
mereka mengisi database, yang disebut "buffer", selama operasi dan kemudian memilih
Di RL, agen (atau kebijakan) belajar bertindak untuk memaksimalkan pengembalian tindakan baru berdasarkan pengalaman mereka sebelumnya. Berbeda dengan ini, algoritme
fungsi nilai. Lebih khusus lagi, agen menjalani apa yang disebut proses keputusan Mark kov, on-policy menyesuaikan kebijakan mereka, yaitu "perilaku" mereka, dalam penerbangan dan
yang mencakup perolehan kesan dari lingkungan dalam bentuk "pengamatan", melakukan kemudian membuang pengalaman sebelumnya hanya melanjutkan dengan kebijakan mereka
"tindakan", dan menerima "hadiah", misalnya, konfirmasi bahwa sebuah tujuan tercapai (lih . yang diperbarui. Dibandingkan dengan algoritma algo di luar kebijakan, ini biasanya
Gambar 2, Sutton dan Barto [46]). Perbedaan utama antara RL dan pembelajaran terawasi memungkinkan mereka untuk belajar lebih cepat, dengan stabilitas lebih dan dengan
murni adalah kemampuan yang pertama untuk berinteraksi dengan lingkungannya. Fitur penyetelan hyperparameter yang berkurang, tetapi biasanya dengan biaya efisiensi sampel.
sentral ini memungkinkan agen untuk secara aktif menjelajahi lingkungan tanpa memerlukan Salah satu algoritma on-policy yang paling mumpuni adalah optimalisasi kebijakan proksimal
kumpulan data ahli dan kemudian "mengeksploitasi" pengalamannya untuk memaksimalkan (PPO, [40]).
keuntungannya [46].
Dalam jangka panjang, hanya permainan papan terbaik bukanlah tujuan akhir dari RL
Utilitas RL paling baik dapat diilustrasikan dengan menggunakan contoh. Kurang dari melainkan berfungsi sebagai bangku ujian untuk aplikasi dunia nyata. Keterbatasan aplikasi
dua tahun setelah AlphaGO melampaui kemampuan manusia terutama sebagai hasil dari algoritma RL kemungkinan besar disebabkan oleh skeptisisme para praktisi mengenai upaya
pembelajaran yang diawasi, DeepMind merilis penggantinya, AlphaZero [42]. Program baru yang diperlukan untuk membiasakan diri dengan topik yang kompleks ini serta kekhawatiran
ini sepenuhnya mengeksploitasi RL dan dilatih dengan bermain melawan dirinya sendiri, untuk mengatasi berbagai kendala. Untuk tujuan ini, kami berkontribusi pada literatur yang
tanpa data pakar. AlphaZero dengan cepat melewati AlphaGO di game Go dan juga dapat ada dengan menghadirkan metode untuk menerapkan algoritme canggih tanpa pengetahuan
mempelajari game lain, seperti catur atau shogi. AlphaZero hanya diberikan aturan permainan, latar belakang yang luas dalam pemrograman jaringan saraf. Kami juga menyajikan contoh
dan mengungguli pemain manusia terbaik serta program komputer dalam berbagai permainan. yang jelas tentang bagaimana mempertimbangkan dan mengatasi banyak tantangan utama
Dalam permainan ini, para ahli mengamati bahwa AlphaZero menemukan kembali banyak yang ada dalam aplikasi yang kompleks.
strategi manusia yang sudah mapan, tetapi juga mengembangkan pendekatan baru yang
kuat yang sebelumnya tidak diketahui oleh profesional manusia [39].
2.3. Pembelajaran mendalam dalam domain energi
Algoritme RL awal hanya mampu menangani ruang pengamatan dan tindakan diskrit
Seperti yang dikemukakan oleh Kraus et al. [24] dan Huck [21], aplikasi pembelajaran
(misalnya, posisi dan gerakan dalam catur). Dalam
mendalam tertinggal potensinya, terutama dalam domain energi, dan mengidentifikasi
beberapa kebutuhan penelitian lebih lanjut mengenai pemilihan fitur, kebutuhan untuk
pembandingan, dan tantangan untuk menemukan strategi kontrol yang optimal untuk
memanfaatkan fleksibilitas energi dalam bangunan vektor multi-energi. Berdasarkan hal ini,
Kathirgamanathan et al. [23] memberikan tinjauan komprehensif tentang kontrol prediktif
berbasis data sebagai sarana untuk memanfaatkan potensi fleksibilitas penyediaan panas di
gedung.
Lissa dkk. [29] menyelidiki potensi Deep Reinforcement Learning (DRL) untuk
mengoptimalkan konsumsi listrik sendiri untuk produksi pemanas air panas dalam ruangan
dan domestik, memungkinkan penghematan energi 8–16% sambil meminimalkan dampak
buruk pada kenyamanan pelanggan. Untuk pekerjaan di masa mendatang, mereka
merekomendasikan pertimbangan "faktor lain, seperti harga dinamis atau pengurangan
puncak energi lingkungan" dan opsi untuk menjual listrik kembali ke jaringan dengan
algoritme. Demikian pula, Kathirgamanathan et al. [22] menerapkan algoritma Soft Actor
Gambar 2. Visualisasi satu langkah dalam proses keputusan Markov. Critic DRL
3
untuk mengurangi konsumsi listrik dengan memanfaatkan fleksibilitas untuk operator dapat mendorong rumah tangga (atau agregatornya) untuk
pemanasan di gedung perkantoran. Nakabi dan Toivanen [32] merancang micro- menghindari konsumsi daya selama puncak beban tinggi. Pasal 14a
grid termasuk pembangkit angin dan beban fleksibel untuk pemanasan dan Undang-Undang Ekonomi Energi Jerman (Energiewirtschaftsgesetz,
penyimpanan baterai dan membandingkan algoritme pembelajaran penguatan EnWG) menjelaskan upaya awal untuk mengurangi beban puncak.
yang berbeda mengenai kinerjanya tetapi mendalilkan perlunya penelitian lebih Berdasarkan peraturan ini,3 kami menerapkan mekanisme yang mengurangi
lanjut tentang algoritme yang mempertimbangkan kenyamanan pelanggan. komponen harga tetap, pTaxes dalam Persamaan. (1) secara linier hingga
Zhang dkk. [51] menerapkan pembelajaran penguatan untuk melatih algoritme 5 €-ct/kWh sambil mengurangi beban puncak maksimum yang diizinkan
untuk memperdagangkan pembangkit, penyimpanan, dan konsumsi energi di dari 22 kWpeak menjadi 5 kWpeak untuk pertukaran listrik dengan jaringan.
pasar energi lokal. Kebutuhan penelitian diidentifikasi mengenai integrasi (iii) Setiap hari, agregator dapat memilih untuk mencadangkan sebagian kecil
penyimpanan baterai ke dalam sistem. Selain itu, pasar lokal yang diselidiki dari kapasitas baterai untuk menstabilkan jaringan dengan menyimpan
hanyalah salah satu opsi antara perdagangan peer-to-peer dan pasar terpusat, kelebihan listrik atau menyediakan daya tambahan ke jaringan pada saat
dengan opsi lainnya adalah pengoperasian aset fleksibel melalui agregator virtual. kekurangan pasokan. Sementara kami berasumsi bahwa operator jaringan
akan membayar pendapatan kepada agregator, RFCR untuk penyediaan
Dengan karya ini, kami bertujuan untuk menambah literatur yang ada dengan cadangan penahanan frekuensi ini sekitar 0,15 €/ kW per hari kontrak,4
mengisi beberapa kesenjangan penelitian yang teridentifikasi. Untuk tujuan ini, kapasitas baterai yang dicadangkan ini tidak dapat digunakan untuk tujuan
kami menyertakan mobilitas baterai sebagai sumber fleksibilitas utama yang akan lain, sehingga menyebabkan biaya peluang pada di satu sisi serta
datang dalam konsumsi listrik selain penyimpanan baterai rumah sebagai sumber tambahan biaya penuaan baterai CFCR di sisi lain, karena stabilisasi terus
fleksibilitas dua sisi dalam penyediaan dan konsumsi listrik. Fleksibilitas yang menerus dari frekuensi jaringan memerlukan pengambilan atau pelepasan
diperoleh diambil untuk memaksimalkan utilitas atas lima kasus penggunaan yang listrik dalam jumlah kecil secara permanen. (iv) Baterai lithium-ion saat ini
berbeda, termasuk harga listrik grid yang tidak stabil baik untuk pembelian listrik biasanya menua lebih cepat saat diisi atau dikosongkan ke status pengisian
maupun feed-in yang memanfaatkan konsep baru agregator virtual. daya (SOC) yang sangat tinggi atau rendah, yang mengakibatkan biaya
penyusutan . Fungsi penuaan ini kira-kira berbentuk U. Penjelasan rinci
tentang fungsi yang digunakan dapat ditemukan di Specht dan Madlener
3. Menyiapkan model RL untuk aplikasi teladan [45]; untuk penyelidikan teknis terperinci, kami mengacu pada Ecker et al.
[11]. Pengoperasian yang dioptimalkan dapat menghindari kondisi ekstrem
3.1. Deskripsi aplikasi teladan ini (misalnya, dengan tidak menghabiskan penyimpanan baterai sepenuhnya
setiap hari di musim dingin, melainkan menyisakan kapasitas sisa sebagai
Motivasi yang mendasari studi RL mendalam kami adalah agregator yang penyangga). (v) Harga remunerasi untuk listrik dari produksi PV lokal yang
mengoperasikan sumber daya energi terdistribusi untuk memaksimalkan dimasukkan ke dalam jaringan adalah 10 € -ct / kWh, yang jauh di bawah biaya
keuntungan (didefinisikan sebagai pendapatan dikurangi biaya) untuk rumah unit listrik yang diambil dari jaringan (pEPEX,t + pTaxes, sekitar
tangga pribadi sebagai klien agregator, berdasarkan masalah pengoptimalan berikut.
(1)
max{ÿ tÿT PFeed,t ÿ pSale ÿ PDraw,t ÿ ( pEPEX,t + pTaxes ÿ pGrid relief ) ÿ CAging + (RFCR ÿ CFCR) } .
Potensi keuntungan tambahan berasal dari aset energi rumah tangga yang 30 €-ct/kWh di Jerman sebelum distorsi harga baru-baru ini yang
memiliki potensi untuk pengoperasian yang fleksibel (dalam kasus kami, unit disebabkan oleh perang di Ukraina). Untuk alasan ini, agen harus mencoba
penyimpanan baterai rumah dan pengisian kendaraan listrik baterai (BEV) di memaksimalkan konsumsi sendiri (ini mengurangi PFeed pada satu titik
tempat pelanggan). Dari banyak kasus penggunaan yang menjanjikan yang waktu dan dengan demikian juga mengganti PDraw,t di kemudian hari)
dibahas sebagai kandidat untuk penciptaan dan kumpulan nilai ekonomi tambahan, baik dengan menyimpan listrik dalam baterai selama waktu berlebih untuk
kami memilih lima dalam upaya untuk menggambarkan variasi aplikasi, masing- waktu tanpa daya lokal. produksi, dan dengan memprioritaskan pengisian
masing menangani komponen berbeda dari fungsi maksimalisasi keuntungan BEV pada saat kelebihan listrik PV jika memungkinkan.
dalam Persamaan. (1) (untuk memfasilitasi perbandingan dengan studi yang ada,
lingkungan ini dirancang serupa dengan yang dioptimalkan oleh optimasi linier di
3.2. Pemodelan lingkungan teladan
Specht dan Madlener [45]). Berikut ini, kami menjelaskan lima kasus penggunaan
ini secara mendetail:
Kami menciptakan lingkungan virtual yang didasarkan pada data nyata (yaitu
untuk profil konsumsi listrik, profil pembangkit listrik untuk a
(i) Harga listrik untuk rumah tangga pribadi dapat dianggap sebagai kombinasi
dari komponen harga tetap statis, pTaxes (26 €-ct/kWh, terdiri dari pajak,
biaya jaringan listrik, tetapi juga potensi diskon, seperti dijelaskan dalam
3
Di Jerman, peraturan baru-baru ini memungkinkan pengurangan biaya jaringan
(ii)) , dan komponen harga fleksibel pePEX,t yang menangkap volatilitas
listrik untuk beban yang dapat dikontrol (misalnya pompa panas dan BEV); Operator
harga dan didasarkan pada harga pertukaran listrik riil untuk Jerman.
sistem distribusi terbesar Jerman, Westnetz, misalnya, menawarkan pengurangan tarif
Sementara pelanggan saat ini biasanya membayar tarif listrik tetap,
sekitar 5 €-ct/ kWh untuk perangkat di jaringan distribusi yang dapat dimatikan jika
pemasok energi harus memenuhi permintaan pelanggannya dengan harga jaringan mencapai batas kapasitasnya.
pertukaran yang fluktuatif dan dapat memperoleh nilai dari mengalihkan 4
Sejak Juli 2019, regulasi cadangan sungkup frekuensi tunduk pada tiga reformasi
konsumsi energi fleksibel ke waktu dengan harga rendah, sehingga dan koreksi besar, termasuk pergeseran dari harga kapasitas selama seminggu [€/ MW]
meminimalkan biaya pengadaan rata-rata, PDraw,t ÿ pePEX, t. (ii) Seperti ke harga energi yang ditentukan setiap hari [€/ MWh], cf . Persetujuan [4]. Karena basis
yang diperkenalkan pada Bagian 1 di atas, teknologi transisi energi baru seperti data yang andal untuk kerangka pasar baru belum tersedia, kami memutuskan untuk
kendaraan listrik dan pompa panas dapat menyebabkan puncak beban tetap berpegang pada kontrak berdasarkan kapasitas cadangan. Namun, penurunan
yang parah, yang mengharuskan operator jaringan untuk melakukan pendapatan yang signifikan untuk layanan ini diamati dalam beberapa tahun terakhir,
oleh karena itu kami menyesuaikan kisaran pendapatan tipikal 1500-3000 menjadi
langkah-langkah peningkatan jaringan yang luas. Sebaliknya, grid ini
hanya 1000 €/ MW per minggu, atau masing-masing ~0,15 €/ kW/hari.
4
Gambar 3. Deskripsi rinci tentang lingkungan, termasuk aspek teknis yang menghasilkan neraca listrik serta biaya dan pendapatan moneter dan virtual yang,
secara keseluruhan, melengkapi remunerasi yang diberikan kepada agen.
sistem PV swasta) dan data sintetik (misalnya untuk profil penggunaan kendaraan kendala yang relevan (misalnya, tingkat pengisian maksimum dan non-negatif
listrik). Data ini dan kasus penggunaan yang diperkenalkan di Bagian 3.1 dimodelkan mengingat SOC baterai dan kendaraan) dipertimbangkan.
dalam lingkungan, yang mempertimbangkan aspek teknis dan ekonomi (lih . Gambar Agen yang terlatih memiliki empat tugas, tercermin dari ruang tindakan: (a)
3). Tujuan keseluruhan kami adalah meminimalkan biaya listrik (atau, sebagai berkomitmen pada jumlah daya maksimal yang diambil dari jaringan untuk setiap
alternatif, memaksimalkan keuntungan jika pendapatan benar-benar melebihi biaya) minggu (lih. kasus penggunaan (ii)), (b) berkomitmen pada sejumlah daya untuk
selama satu tahun (35.040 langkah dalam 15 menit). Itu disimpan sebagai daya cadangan untuk jaringan setiap hari (lih. kasus penggunaan (iii)), (c) untuk
5
Gambar 4. Deskripsi terperinci dari delapan pengamatan yang diambil agen dari lingkungan serta empat tindakan yang dikembalikan sebagai respons.
tentukan jumlah daya untuk diisi atau dibuang dari penyimpanan baterai setiap (i) Sekali sehari, agen dapat menyediakan sebagian kecil dari kapasitas
15 menit dan (d) untuk memutuskan berapa banyak yang harus diisi ke dalam baterai untuk penyediaan cadangan penahanan frekuensi.
BEV setiap 15 menit. Meskipun hal ini menghasilkan keuntungan tambahan per kWh yang
Untuk menghasilkan tindakan ini, agen diberikan pengamatan tentang dilakukan, pengoperasian baterai juga harus dibatasi6 dengan penalti
keadaan lingkungan. Ruang observasi ini meliputi delapan nilai, yaitu (1) harga uang yang diterapkan jika pembatasan yang disepakati tidak dipegang
listrik saat ini; (2) jumlah produksi listrik sendiri dikurangi konsumsi; dua nilai oleh agen. Selain itu, sambil menstabilkan frekuensi jaringan, baterai
untuk status pengisian unit penyimpanan baterai dan kendaraan listrik (3&4); dua terus-menerus mengisi atau mengeluarkan listrik dalam jumlah kecil yang
nilai dengan informasi untuk agen mengenai kasus penggunaan jangka panjang mengakibatkan biaya untuk penuaan baterai tambahan.
mana yang saat ini diterapkan (nilai 5&6); dan dua nilai (7&8) memberikan (ii) Seminggu sekali, agen dapat berkomitmen untuk membatasi pertukaran
informasi mengenai tanggal dan waktu (lih . Gambar 4 untuk detail lebih lanjut). listrik maksimum dengan jaringan listrik untuk mengurangi beban puncak.
Meskipun hal ini menghasilkan remunerasi satu kali, setiap pelampauan
Baik ruang aksi maupun observasi adalah variabel kontinu yang dinormalisasi ke dari batasan yang ditetapkan sendiri per kW dalam jangka waktu 15 menit
nilai masing-masing dalam rentang [0,1] atau [ÿ 1,1] (lihat juga subbab 3.3.8). menghasilkan penalti moneter linier.
Dalam fungsi hadiah, kami mengumpulkan kebutuhan berbeda yang harus Akhirnya, kami menerapkan biaya dan keuntungan "virtual". Pertama, itu
dipertimbangkan dalam aplikasi dunia nyata. Pertama, biaya dan pendapatan digunakan untuk menghukum upaya untuk melanggar batasan yang diberikan
moneter reguler digambarkan. Pembelian listrik dari jaringan menghasilkan biaya (misalnya, menghukum upaya untuk melepaskan baterai di bawah "kosong" atau
yang sesuai dengan jumlah yang ditarik dalam jangka waktu 15 menit dikalikan melampaui batasan yang ada serta menghukum upaya untuk melampaui batasan
dengan harga listrik yang tidak stabil,5 sedangkan pemasukan kelebihan listrik yang ditempatkan pada beban maksimum yang diambil dari jaringan). Selain itu,
PV menghasilkan remunerasi tetap. Selanjutnya, biaya penyusutan diestimasi: hukuman yang meningkat untuk SOC rendah di BEV diterapkan untuk
untuk penyimpanan baterai, fungsi biaya penuaan diimplementasikan yang mencerminkan preferensi pelanggan untuk kendaraan yang terisi penuh. Semua
menghukum kondisi muatan yang sangat rendah dan sangat tinggi, berdasarkan komponen biaya dan keuntungan ini dijumlahkan dan dikembalikan ke agen
studi oleh Ecker et al. [11]. Biaya dan pendapatan tambahan berikut dapat dicapai sebagai nilai hadiah akhir.
berdasarkan kasus penggunaan yang dipertimbangkan:
6
Menurut peraturan Jerman, penyedia cadangan penahanan frekuensi harus dapat
5
Harga listrik yang tidak stabil dirancang menggunakan komponen harga konstan yang menyediakan daya sesuai kontraknya selama 30 menit, baik dengan memasukkan daya
mencerminkan biaya jaringan, pajak, dll. di Jerman dan menambahkan harga pertukaran listrik tambahan ke jaringan jika terjadi penurunan frekuensi jaringan atau dengan menggunakan
(yang tidak stabil) di atasnya. listrik di jaringan. kasus peningkatan frekuensi.
6
Gambar 5. Ilustrasi Pseudocode dari operasi algoritma referensi heuristik mirip dengan status quo dengan sebagian besar instalasi swasta.
Akhirnya, algoritme heuristik konvensional diimplementasikan seperti yang diilustrasikan diperlukan di setiap status agar agen bereaksi terhadap pengamatan ini dan berinteraksi
dalam pseudocode pada Gambar. 5. Tidak ada kasus penggunaan lain yang tunduk pada dengan lingkungan (terutama untuk memanggil tindakan, seperti "(mengeluarkan) baterai"
heuristik ini, memungkinkan kami untuk membandingkan operasi yang dioptimalkan pada dan "mengisi daya kendaraan").
semua kasus penggunaan dengan strategi operasi petahana yang biasanya terlihat saat ini.
3.3.4. Opsi tak terbatas dalam ruang observasi dan tindakan berkelanjutan
Seperti dalam banyak aplikasi dunia nyata, sebagian besar pengamatan dan tindakan
3.3. Tantangan dan solusi umum yang dipilih berasal dari ruang tindakan yang berkelanjutan dan bukan diskrit, yang secara
teoritis menciptakan pilihan yang tidak terbatas. Dalam kasus kami, misalnya, BEV dapat
Saat merancang model kami, kami menemui sembilan kendala utama yang diisi dengan nilai berapa pun antara nol dan beban maksimum yang diizinkan (22 kW).
mencerminkan pengalaman khas dalam literatur (lih. [9,32,35]). Bagian ini menjelaskan Memaksimalkan keputusan atas solusi dalam jumlah tak terbatas dalam ruang tindakan
hambatan-hambatan ini bagi para praktisi yang tertarik dan memberikan solusi kami untuk berkelanjutan menjadi opsi hanya beberapa tahun yang lalu, ketika metode baru (aktor-
tantangan-tantangan ini. kritikus) memungkinkan fitur ini untuk algoritme RL, sehingga membatasi opsi algoritme
yang sesuai untuk aplikasi kita.
3.3.1. Perlunya model pelatihan Hambatan
pertama yang agak jelas adalah bahwa pemangku kepentingan biasanya menganggap
pelatihan agen RL di lingkungan nyata sebagai hal yang mahal, berbahaya, dan/atau tidak 3.3.5. Game panjang dengan hadiah tertunda
dapat ditolerir. Kendala ini jelas berlaku saat mengembangkan agregator fleksibilitas dalam Tantangan utama dalam pengaturan jangka panjang adalah banyaknya langkah di
domain kelistrikan, karena tindakan acak selama pelatihan dapat membuat jaringan listrik setiap putaran. Sementara permainan catur biasanya berlangsung sekitar 80 gerakan dan
mengalami tekanan yang signifikan, menimbulkan biaya besar untuk agregator dan permainan Go sekitar 150 gerakan [35], lingkungan pilihan kami membutuhkan > 35.000
ketidaknyamanan bagi pelanggan. Untuk alasan ini, kami memilih untuk menggambarkan langkah, mewakili interval 15 menit selama 1 tahun. Pengurangan bermasalah di sini, karena
masalah sebagai model virtual untuk melatih algoritme sebelum mempertimbangkan aplikasi dua target yang berlawanan harus dipenuhi. Volatilitas harga produksi dan listrik perlu
dunia nyata. digambarkan dengan resolusi yang cukup rinci, namun agen juga harus belajar
mempertimbangkan perbedaan musiman yang terjadi sepanjang tahun. Solusi yang mungkin
3.3.2. Definisi fungsi hadiah Untuk mengevaluasi adalah membatasi imbalan jangka panjang (misalnya, di akhir permainan yang sangat
tindakan mereka, algoritma RL membutuhkan umpan balik konstan dalam bentuk bagus) dan alih-alih fokus pada aliran imbalan yang stabil, dalam kasus kami setelah setiap
hadiah. Jika hadiah ini tidak dihasilkan dalam pengaturan nyata karena alasan yang telah langkah waktu 15 menit.
dibahas sebelumnya, seseorang harus merancang fungsi hadiah untuk mengevaluasi semua
kemungkinan tindakan agen. Dalam banyak aplikasi, maksimalisasi keuntungan moneter
murni mungkin sudah cukup. Namun, dalam aplikasi yang dipilih, aspek-aspek seperti 3.3.6. Kebutuhan untuk mendefinisikan batasan dan kendala
preferensi pelanggan untuk segera mengisi daya kendaraan listrik harus dimonetisasi untuk Pembelajaran penguatan biasanya melibatkan belajar dari kesalahan.
dipertimbangkan oleh agen. Pengembalian dengan demikian mencakup biaya dan manfaat Oleh karena itu, agen harus mampu melanggar batasan dan menerima umpan balik yang
“reguler” yang direalisasikan oleh tindakan algoritme yang terdiri dari, misalnya, menjual memadai sambil memastikan bahwa lingkungan virtual merespons dengan benar, mencegah
(membeli) listrik ke (dari) jaringan dan pendapatan dari penyediaan layanan untuk operasi pelanggaran batasan fisik atau peraturan apa pun. Misalnya, baterai tidak boleh diisi di
jaringan. Aspek seperti tidak tersedianya mobil yang terisi penuh harus diubah menjadi bawah 0 atau di atas batas kapasitasnya. Dalam kasus ini, kami membatasi lingkungan ke
fungsi biaya dan manfaat fiktif. ruang tindakan maksimum yang diizinkan dan mengembalikan nilai penalti kepada agen jika
mencoba melampaui batasan ini. Penalti ini membutuhkan perhitungan untuk dua aliran
hadiah: hadiah virtual, termasuk penalti yang diberikan sebagai umpan balik kepada agen,
serta keseimbangan ekonomi "nyata", yang mewakili aktual
3.3.3. Fitur lingkungan yang kompleks Secara umum,
semakin baik agen memahami situasi tertentu, semakin baik solusinya. Sayangnya,
situasi dunia nyata tidak dapat sepenuhnya dijelaskan dalam aplikasi kami, karena hal ini aliran pendapatan.
mungkin berlaku untuk sebagian besar aplikasi.
Lebih khusus lagi, lingkungan hanya dapat diamati sebagian karena tidak semua perubahan 3.3.7. Sulitnya menentukan tolok ukur
dapat dijelaskan kepada agen (karena tidak ada yang benar-benar tahu, misalnya, semua Menilai keberhasilan strategi agen bukanlah hal sepele, karena hasil yang jauh di bawah
dampak yang diakibatkan oleh harga listrik tertentu pada waktu tertentu). Selain itu, aplikasi rata-rata dapat dibenarkan oleh pengaturan yang dipilih secara acak dan sangat sulit
yang dipilih bersifat stokastik, karena keadaan selanjutnya tidak ditentukan secara eksklusif (misalnya, rumah tangga dengan konsumsi tinggi dan jarak tempuh yang tinggi pada
oleh tindakan agen (agen tidak memiliki pengaruh atas apakah pelanggan memutuskan kendaraan listriknya). Oleh karena itu, kami menggunakan algoritme heuristik yang
untuk menggunakan kendaraannya, yang akan mengakibatkan tidak tersedianya layanan sebelumnya diusulkan dalam Specht dan Madlener [45] sebagai patokan untuk
jaringan). Namun, kami menemukan bahwa delapan pengamatan di setiap keadaan (setiap membandingkan kualitas strategi agen. Tolok ukur ini mengikuti serangkaian instruksi
15 menit) cukup untuk memungkinkan algoritme terbaru mendapatkan pemahaman yang sederhana yang serupa dengan algoritme yang saat ini digunakan untuk mengontrol aset
memadai tentang sebab akibat yang mendasari di lingkungan. Apalagi hanya empat tindakan energi di rumah tangga.
7
3.3.8. Perbedaan skala nilai Pengamatan dan 4.2. Memilih algoritma yang memadai untuk tugas tertentu
tindakan agen dapat bervariasi secara signifikan dalam skala mereka. Variasi ini
menjadi masalah saat melatih agen karena sedikit variasi dalam tindakan dapat Pada langkah selanjutnya, algoritma konkret harus dipilih untuk melatih agen di
dimanfaatkan untuk mengubah variabel skala kecil secara signifikan, yang menyebabkan lingkungan teladan dari Bagian 3 untuk meminimalkan biaya operasi rumah tangga
ketidakstabilan. Seperti yang sering disarankan oleh para praktisi, kami juga yang dihasilkan secara acak. Sejumlah besar algoritma RL yang berbeda dapat
menormalkan pengamatan dan tindakan kami ke skala baik dalam kisaran [ÿ 1,1] atau ditemukan dalam literatur terbaru, dan masing-masing memiliki lebih banyak
[0,1] (lihat Subbagian 3.2). Misalnya, pengamatan SOC berkisar dari 0 hingga 1 kemungkinan modifikasi. Namun, daftar persyaratan tugas yang diberikan secara
sehingga baterai setengah penuh dinormalisasi menjadi 0,5. Pengoperasian baterai sistematis, seperti yang ditunjukkan pada Bagian 3.3, dapat membantu membatasi
dilakukan dengan tindakan mulai dari ÿ 1 ('pengosongan pada laju maksimum') hingga jumlah algoritme yang memenuhi syarat. Misalnya, pertimbangan mengenai batas fitur
1 ('pengisian pada kecepatan maksimum'). (Bagian 3.3, (iii)) memungkinkan kami membuang algoritme RL "berbasis model",
karena algoritme tersebut sangat bergantung pada kelengkapan dan keakuratan model
kebenaran dasar, yang (bahkan dalam pengaturan teknis yang terdefinisi dengan baik)
3.3.9. Kebutuhan data pelatihan sering disebut sebagai "funda mental hard" dan tidak stabil [1].
Masalah yang sering dilaporkan dalam literatur adalah kurangnya data pelatihan.
Sementara lingkungan yang disimulasikan memungkinkan untuk menjalankan Selain itu, penggunaan tindakan berkelanjutan dan ruang observasi di lingkungan
sejumlah apa pun, pengulangan pada data yang serupa menyebabkan agen kita semakin membatasi jangkauan algoritme potensial ke sejumlah kecil pendekatan
"melakukan overfitting" kebijakannya ke penyiapan tertentu, yang menyebabkan yang sangat baru, seperti yang dijelaskan dalam Subbagian 2.2.
hilangnya kinerja pada data baru. Untuk mengatasi masalah ini, kami menggabungkan Gambar 6 menunjukkan perbandingan dari tiga kandidat yang paling menjanjikan,
set data yang berbeda selama pelatihan. Lingkungan kami mencakup 85 profil beban SAC, TD3, dan PPO2, dalam versi "vanilla" mereka (yaitu, versi yang diterbitkan
yang berbeda dari rumah tangga yang berbeda (kebanyakan berdasarkan [47]), lima sebelum penyetelan atau modifikasi hyperparameter).
profil produksi PV yang dinormalisasi yang dikalikan dengan ukuran sistem yang Grafik dalam warna cerah mengilustrasikan temuan untuk setelan tertentu dan
berbeda untuk mendapatkan produksi listrik aktual, 10 pola penggunaan BEV yang diperhalus agar lebih mudah dibandingkan. Grafik titik-titik memplot perbedaan pada
dinormalisasi yang diskalakan dengan delapan jarak tempuh yang berbeda opsi algoritme heuristik pada sumbu sekunder, yang menunjukkan bahwa semua versi
(berdasarkan data dari [10]), dan 35.040 langkah waktu per profil per tahun, sehingga vanilla bekerja secara signifikan lebih buruk daripada algoritma algo heuristik.
memungkinkan miliaran kombinasi berbeda. Nyatanya, seperti yang dilaporkan dalam Perbandingan algoritme RL satu sama lain mengungkapkan bahwa SAC adalah opsi
Bagian 5 di bawah ini, kinerja agen yang disetel cenderung stabil setelah kira-kira yang paling menjanjikan. Secara rinci, Gambar. 6 menunjukkan bahwa vanilla SAC
500.000 langkah, dengan iterasi yang lebih banyak menyebabkan ketidakstabilan dan penurunan kinerja.
dan PPO2 mencapai kinerja puncaknya untuk pengaturan kami setelah sekitar dua
juta langkah waktu (setara dengan mensimulasikan 57 rumah tangga dengan resolusi
4. Pengalaman praktis: melatih agen di lingkungan yang patut dicontoh 15 menit selama satu tahun penuh) sebelum kemajuan pembelajaran menjadi rata.
tingkat konstan. Kinerja dalam hal “keuntungan yang dirasakan” per tahun,
bagaimanapun, hanya mencapai €ÿ 2000 untuk SAC. Keuntungan yang dirasakan di
4.1. Menyiapkan lingkungan model dan memilih algoritme yang memadai sini termasuk pendapatan "nyata" yang diharapkan dari kasus penggunaan dikurangi
biaya untuk memasok listrik ke rumah tangga serta hukuman "vir tual" yang diharapkan
untuk pelanggaran pembatasan yang dimaksudkan). Vanilla TD3 mencapai kinerja
Persiapan proses pelatihan memerlukan dua langkah utama: Pertama, pengaturan puncak sekitar 5000 €/ a setelah hanya 1 juta langkah tetapi mempertahankan tingkat
yang diidentifikasi dari Bahan Pelengkap harus diprogram sebagai lingkungan tempat kinerja ini ternyata sangat tidak stabil.
agen pembelajaran penguatan (RL) dapat berinteraksi. Kedua, sebuah algoritma yang PPO2, akhirnya, menghasilkan biaya tahunan keseluruhan tertinggi sekitar €6000.
bekerja di bawah batasan yang teridentifikasi harus dipilih untuk melatih agen RL.
Namun, PPO2 juga memiliki waktu komputasi tercepat, hanya membutuhkan 1,5
Kami memutuskan untuk menerapkan pengaturan kami sebagai lingkungan "gym". jam untuk menyelesaikan 5 juta langkah pelatihan, sementara SAC dan TD3 masing-
"Gym" adalah kumpulan masalah pengujian (biasanya game kecil) yang dibuat oleh masing membutuhkan 4,75 jam dan 3,75 jam, untuk menyelesaikan jumlah langkah
OpenAI yang semuanya berbagi satu antarmuka.7 Di dalam Gym, algoritme RL baru simulasi yang sama pada PC desktop (CPU: i5 –7500, RAM 12 GB).
dapat dilatih pada rangkaian tugas yang sama, yang memfasilitasi perbandingan hasil. Uji coba awal ini menunjukkan bahwa SAC adalah kandidat yang menjanjikan
Namun, ini juga berlaku sebaliknya: seseorang dapat merancang game baru (disebut untuk analisis yang lebih detail. Namun, perbandingan dengan algoritma algo heuristik
'lingkungan') dengan cara standar, sehingga beberapa algoritme RL dapat diuji dan mengungkapkan kinerja rendah yang konsisten dan signifikan dari ketiga algoritme
dibandingkan tanpa memerlukan perubahan substansial pada lingkungan. dalam versi vanilla mereka (paling banter) kerugian €200 per tahun dibandingkan
dengan algoritme lama, yang menunjukkan kebutuhan ekstensif untuk peningkatan
Menyiapkan hanya satu dari algoritma yang lebih kompleks secara manual kinerja melalui penyetelan hyperparameter.
membutuhkan waktu berminggu-minggu untuk membiasakan diri dengan metode Pada akhirnya, kami menghabiskan beberapa bulan untuk mencoba
tertentu berdasarkan literatur dan kemudian menerapkan algoritma yang dipilih menyempurnakan penyiapan model. Kami menemukan bahwa perangkat lunak khusus
berdasarkan perpustakaan khusus seperti pytorch atau keras. Untungnya, ada juga untuk penyetelan hiper-parameter ("Optuna" dalam kasus kami) memang memberikan
beberapa proyek yang menyediakan penyiapan algoritme RL pracetak dan dapat pengaturan yang cukup baik. Namun, parameter yang disarankan seringkali ternyata
disesuaikan. Kami memilih untuk menggunakan “Stable Baselines” (https://stable- sulit dipahami dan bekerja sebagian besar untuk lingkungan yang sangat spesifik.
baselines.readthedocs.io ), garpu garis dasar OpenAI. Stable Baselines menyediakan Sebagai contoh, salah satu arsitektur terbaik yang dihasilkan secara otomatis memiliki
sekitar 14 algoritme canggih dan canggih dengan banyak opsi untuk menambahkan struktur [16,8,4,1,4] neuron untuk aktor serta jaringan kritik. Sementara arsitektur ini
atau menyesuaikan fitur tertentu. bekerja dengan sangat baik pada sampel pelatihan, terutama mengingat kompleksitasnya
Dengan menggunakan kombinasi lingkungan standar dan cetak biru algoritme RL yang minimal dan jumlah neuron yang rendah, hambatan hanya satu neuron dalam
ini, seseorang dapat menyiapkan tugas pembelajaran mesin dan melatih agen proses berarti bahwa sebagian besar informasi hilang dalam proses, itulah sebabnya
menggunakan algoritme terpilih hanya dengan keterampilan pemrograman dasar pelatihan yang berkelanjutan dapat tidak lebih meningkatkan kinerja. Untuk alasan ini,
(misalnya dengan Python) tetapi tidak memiliki pemahaman mendalam tentang pada akhirnya, kami mengoptimalkan sebagian besar arsitektur secara manual dengan
pemrograman AI. Setelah tugas dan algoritme pelatihan yang memadai telah dipilih, coba-coba. Arsitektur jaringan yang relatif sederhana [128, 64, 32, 16, 4] berdasarkan
seseorang harus memilih algoritme RL tertentu. Kebijakan-LnMlp akhirnya menunjukkan kinerja yang menjanjikan serta kompleksitas
untuk mengembangkan strategi yang lebih canggih. Kami melakukan pelatihan awal
lebih dari 1.000.000 iterasi, menggunakan kecepatan pembelajaran 0,0003, gamma
7 0,999, ukuran buffer 200.000, dan 40.000–150.000 langkah acak untuk diisi
Antarmuka dalam konteks ini berarti bahwa setiap game harus menghosting set standar
fungsi tertentu, seperti "fungsi langkah" atau "fungsi istirahat".
8
Gambar. 6. Perbandingan kinerja algoritma RL yang dipilih dalam hal

keuntungan yang dirasakan (seperti yang dijelaskan pada Gambar. 3
'Dimensi ekonomi'). Garis menerus menunjukkan kinerja SAC, TD3, dan
PPO2 selama pelatihan di lingkungan yang patut dicontoh (Bagian 3)
hingga 5 juta iterasi, dengan grafik berwarna gelap yang menunjukkan
versi halus dari liontin yang lebih terang. Grafik bertitik menunjukkan
hilangnya algoritma RL yang sesuai dengan heuristik sederhana pada
sumbu sekunder. Di antara algoritma RL, vanilla SAC bekerja paling baik
dan paling stabil
satu.
buffer sebelum proses pembelajaran yang sebenarnya dimulai. Bahkan dengan pengaturan bahwa agen RL dapat mengontrol rumah tangga dalam jumlah besar hampir secara real
"terbaik" ini, sebagian besar instans berkinerja buruk, namun beberapa "mendapatkan time, sehingga memenuhi persyaratan dalam hal optimalisasi waktu.
ide" dari game tersebut dan menunjukkan kinerja yang mirip dengan heuristik. Kami
menyimpan contoh-contoh ini dan melanjutkan pelatihan hanya dengan kandidat yang
5.2. Temuan ekonomi dalam aplikasi yang dipilih
cocok ini sampai tidak ada kemajuan lebih lanjut dalam kinerja umum yang dapat dicapai.
Satu-satunya cara untuk maju dari sana adalah pelatihan khusus yang tidak didasarkan
Untuk menilai kualitas pengoptimalan, kami melakukan urutan 1000 langkah simulasi
pada sampel rumah tangga yang dipilih secara acak, tetapi untuk memungkinkan agen
untuk rumah tangga yang berbeda dengan profil penggunaan BEV yang berbeda. Dengan
membiasakan diri dengan pelanggan tertentu. Spesialisasi ini memungkinkan beberapa
semua kasus penggunaan diaktifkan, agen RL umum pra-pelatihan mampu meningkatkan
peningkatan akhir dalam kinerja yang dibahas berikut ini.
keuntungan rata-rata sebesar €126 per tahun dibandingkan dengan algoritme heuristik
konvensional, seperti yang digambarkan pada Gambar 7. Lebih khusus lagi, beberapa
5. Hasil
pengaturan menghasilkan keuntungan tambahan (yaitu , pengurangan biaya listrik) hingga
€315 per tahun, sementara sejumlah kecil rumah tangga mengalami penghematan negatif
5.1. Pengamatan selama proses pelatihan
dan dengan demikian biaya lebih tinggi dibandingkan dengan operasi konvensional
melalui algoritme heuristik (dan dengan demikian tanpa menggunakan kasus penggunaan
Seperti penelitian lain [2], kami juga menemukan bahwa agen RL unggul dalam
tambahan).
mengeksploitasi setiap kelemahan dalam mekanisme permainan. Kami mengharapkan
Kami memilih satu rumah tangga berdasarkan norma yang dikembangkan oleh
lebih sedikit masalah dari sisi ini karena lingkungan yang mendasari telah digunakan
Asosiasi Insinyur Jerman (VDI) untuk menyerupai rumah tangga "paling tipikal" [49] yang
untuk studi sebelumnya dengan pengoptimalan linier. Namun, agen RL masih dapat
algoritme umumnya mencapai penghematan tahunan sekitar €150 dan memungkinkan
menemukan celah di lingkungan kita untuk dieksploitasi. Misalnya, lingkungan diberi kode
agen umum untuk melakukan prapelatihan secara khusus pada rumah tangga ini.
untuk menyetel SOC baterai ke minimum 0 pada awal setiap putaran dan agen mengetahui
Spesialisasi ini menghasilkan penghematan tahunan tambahan sebesar €28– 178, yang
bahwa akan menguntungkan untuk mengosongkan penyimpanan baterai (hampir) di
menunjukkan bahwa aplikasi dunia nyata kemungkinan besar akan memperoleh
bawah 0, menjual energi yang tidak ada ini, menerima penalti karena melanggar aturan,
keuntungan dari pelatihan yang menggunakan data masing-masing pelanggan. Hasil ini
dan biarkan baterai disetel ulang ke 0 di babak berikutnya.
juga luar biasa dibandingkan dengan penghematan tahunan €235 yang dicapai dengan
pengoptimalan linier di Specht dan Madlener [45] dalam pengaturan yang hampir sama,8
Ketika agen dilatih dengan SAC dan dengan parameter hiper yang disetel untuk
bukan hanya karena pengoptimalan linier ini menggunakan pandangan jauh ke depan
tugas ini, ternyata satu keputusan untuk empat tugas (a–d) membutuhkan waktu sekitar
yang sempurna (sementara agen RL hanya mengetahui masa kini). situasi dan memiliki
0,0003 detik (atau 3 detik untuk 10.000 keputusan) pada komputer pribadi ( CPU: i5–
beberapa pengalaman umum dari masa lalu) tetapi juga karena agen RL hanya
7500, RAM 12 GB). Temuan ini menunjukkan
membutuhkan waktu sekitar 10 detik (bukan 10 jam) untuk mengoptimalkan semua 35.040 langkah pad
5.3. Perbandingan perilaku agen RL dan heuristik
Perbandingan tindakan agen dengan heuristik memungkinkan untuk lebih memahami

perilaku karakteristik mereka. Gambar 8 menggambarkan jumlah generasi lokal dan
konsumsi biasa (penerangan, memasak, dll.); pertukaran bersih dengan jaringan, baik
dalam kW; serta SOC penyimpanan baterai dan BEV (dalam kWh) untuk hari yang sama
sekitar ekuinoks untuk agen RL yang terlatih secara umum dan heuristik. Jumlah
pembangkit listrik lokal dan konsumsi reguler (kuning) adalah sama pada kedua kasus,
karena tak satu pun dari algoritma dapat mengubah pembangkit PV atau konsumsi biasa
rumah tangga. Sistem PV mulai menghasilkan listrik sekitar jam 7 pagi, dan generasi ini
dengan cepat melampaui konsumsi,
Gbr. 7. Dengan semua kasus penggunaan diaktifkan, 1000 rumah tangga di lingkungan contoh
dioperasikan oleh agen umum terlatih berdasarkan SAC. Untuk penggambaran ini, rumah tangga disortir
8
menurut penghematan yang dicapai. Seperti dapat dilihat, untuk sebagian besar rumah tangga acak Satu-satunya perbedaan utama adalah bahwa makalah ini memperkenalkan remunerasi untuk
penghematan biaya tahunan hingga €315 dapat direalisasikan dengan rata-rata €125,9 per tahun. pengurangan beban puncak, yang memungkinkan pendapatan tambahan untuk hal ini.
kasus penggunaan.
9
Gambar 8. Pengoperasian BEV dan baterai oleh agen yang terlatih secara umum (a) dan heuristik (b) selama satu hari di bulan Maret.
menghasilkan daya bersih positif. Agen RL meninggalkan BEV (hijau) dengan SOC perilaku (kurva oranye bawah). Gambar 9b menunjukkan bahwa agen menjadi
sekitar 35 kWh pada hari sebelumnya dan terutama menggunakan kelebihan semakin percaya diri dalam mengurangi pertukaran listrik dengan jaringan
produksi di pagi hari untuk mengisi daya BEV hingga berangkat pukul 10 pagi sepanjang tahun, menghasilkan komitmen untuk membatasi pertukaran ini menjadi
sehingga tidak tersedia untuk pengisian daya. Secara paralel, baterai (biru) diisi sekitar 5 kW mulai bulan September dan seterusnya. Perbandingan Gambar 9(a)
perlahan sampai BEV hilang dan kemudian diisi terus hingga 6,2 kWh pada pukul dan (b) menunjukkan bahwa agen seringkali melampaui komitmen ini dengan
5 sore. Pada saat itu, pembangkit PV tidak cukup untuk memenuhi kebutuhan selisih yang kecil. Rupanya, agen tersebut mengetahui bahwa hukuman atas
energi, sehingga agen mulai mengosongkan baterai secara perlahan . Pada pukul pelanggaran larangan ini diterapkan dengan peningkatan eksponensial, sehingga
19:30 BEV kembali ke rumah, dan agen RL mencatat bahwa SOC-nya sekitar 6 pelanggaran kecil hanya menghasilkan hukuman yang “dapat diterima”.
kWh lebih rendah daripada saat berangkat. Agen RL memenuhi kebutuhan energi
tersebut dengan mengisi daya BEV secara perlahan dan menunggu listrik PV baru 5.4. Pro dan kontra pengiriman agen RL dalam aplikasi yang diberikan
keesokan harinya.
Algoritme heuristik segera mengisi daya mobil saat kembali kurang dari penuh. Analisis mendalam terhadap data dari operasi agen RL mengungkapkan bahwa
Konsekuensinya, heuristik tidak dapat menggunakan kelebihan listrik di pagi hari sebagian besar penghematan yang diamati dikaitkan dengan dua kasus
untuk mengisi daya kendaraan, melainkan memasukkan semua kelebihan listrik ke penggunaan: pengurangan puncak konsumsi dan penyediaan daya cadangan.
dalam unit penyimpanan baterai, yang mengarah ke proses pengisian cepat yang Namun, kasus penggunaan ini biasanya memerlukan pengoptimalan dan oleh
menghasilkan baterai penuh pada pukul 10:15. kelebihan listrik yang tersisa karena itu tidak diterapkan dalam algoritme heuristik. Untuk perbandingan yang
dimasukkan ke jaringan. Tidak seperti pengisian bahan bakar yang stabil, perilaku adil, kami menetapkan keuntungan spesifik dari dua kasus penggunaan yang tidak
ini menghasilkan puncak beban yang berbeda. Pada saat kekurangan pasokan, tersedia untuk heuristik menjadi nol. Dalam hal ini, heuristik sedikit mengungguli
baterai digunakan untuk menutupi perbedaannya. Secara khusus, ketika BEV agen RL di sebagian besar pengaturan. Alasan untuk ini adalah kemampuan
kembali ke rumah, baterai diisi ulang dengan kecepatan penuh, tetapi karena BEV heuristik untuk menyimpan dengan tepat kelebihan listrik di dalam baterai,
memungkinkan kecepatan pengisian yang signifikan, sejumlah besar daya diambil sementara agen kadang-kadang diisi sedikit terlalu banyak (mengakibatkan listrik
dari jaringan, dengan puncaknya mencapai ÿ 13,8 kW. tambahan diambil dari jaringan dengan biaya tinggi) atau terlalu sedikit (kehilangan
energi yang seharusnya). dibutuhkan di malam hari dan karenanya perlu diganti,
Di masa depan, puncak besar heuristik ini akan secara signifikan menekan sekali lagi, dengan listrik jaringan yang lebih mahal).
jaringan. Gambar 9a menggambarkan perubahan listrik positif dan negatif dengan Sebaliknya, agen RL mampu mengungguli heuristik dalam pengaturan di mana
jaringan listrik selama setahun, menggambarkan bahwa heuristik menyebabkan produksi PV yang tinggi dan jarak tempuh BEV yang tinggi memungkinkan potensi
puncak permintaan hingga ÿ 22 kW (grafik biru lebih rendah) yang memerlukan signifikan untuk peningkatan konsumsi sendiri melalui strategi pengisian yang lebih
peningkatan jaringan yang luas. Sebaliknya, pendapatan yang diimplementasikan hati-hati (lihat Gambar 8). Selain itu, hanya agen RL yang dapat secara signifikan
untuk mengurangi puncak beban memberi insentif kepada agen RL untuk menghindari halmengurangi
ini puncak beban, sehingga mengurangi tegangan
Gambar 9. (a) Heuristik (garis biru) menunjukkan produksi yang sedikit lebih tinggi tetapi puncak konsumsi yang jauh lebih tinggi dibandingkan dengan agen RL (garis oranye). (b) Agen membatasi
listriknya sendiri yang diambil dari jaringan (jalur hijau) setiap minggu untuk mendapatkan pendapatan tambahan.
10
untuk jaringan listrik dan menyediakan daya cadangan untuk menstabilkan jaringan. dan memberikan prosedur teladan untuk memilih algoritme yang layak yang cocok untuk
Kesimpulannya, kinerja heuristik dan RL secara kasar seimbang, hanya dengan tantangan yang diberikan. Kami juga mengonfirmasi bahwa penyetelan hyperparameter
mempertimbangkan kasus penggunaan yang ada untuk fleksibilitas. Layanan yang akan yang ekstensif dan penyesuaian model diperlukan untuk mengungguli algoritme
datang seperti mendukung pengoperasian jaringan listrik dengan layanan tambahan, konvensional, seperti yang sering disuarakan oleh para praktisi [20,27,31].
bagaimanapun, tidak dapat ditangani secara memadai oleh heuristik saat ini, sehingga
menuntut solusi inovatif seperti RL. Aplikasi yang dipilih sebagai contoh memberikan empat wawasan menarik ke dalam
penelitian tentang transisi energi berkelanjutan. Pertama, agen AI adalah pendekatan
5.5. Diskusi aplikasi diperkenalkan untuk manajemen energi yang menjanjikan untuk mengontrol sejumlah besar aset energi fleksibel saat
mempertimbangkan beberapa aliran nilai. Keunggulan AI dibandingkan algoritme
Meskipun agen RL terlatih masih jauh dari sempurna, namun tetap berfungsi sebagai konvensional mencakup kemampuannya untuk mengoptimalkan pengoperasian berbagai
bukti konsep yang berharga. Nilai yang tepat dari kasus penggunaan individu memerlukan kasus penggunaan yang berbeda; kapasitas mereka untuk menangani non linearitas; dan
pertimbangan lebih lanjut serta regulasi nasional, tetapi selama agen RL dapat diterapkan transformasi mereka dari "kutukan dimensi" menjadi "berkah pilihan pelatihan". Kedua,
di lingkungan, mereka tampaknya mampu beradaptasi dengan hampir semua variasi kami menemukan bahwa agen umum yang dilatih pada data yang tidak spesifik dapat
regulasi. Faktanya, agen RL umum dapat dengan kuat beradaptasi dengan perubahan beradaptasi dengan pengaturan yang tidak dikenal, misalnya, rumah tangga yang berbeda
dalam pengaturan yang disebabkan, misalnya, oleh variasi dalam (i) permintaan energi dengan kebiasaan permintaan energi (dan mobilitas) individu. Namun, mengizinkan agen
dari berbagai rumah tangga, (ii) pola konsumsi seperti penggunaan kendaraan khusus untuk membiasakan diri dengan rumah tangga tertentu berdasarkan data sebelumnya
pelanggan atau (iii ) aset individual dengan beban puncak yang berpotensi tinggi. masih sangat meningkatkan kinerjanya. Dengan demikian, data – misalnya tentang
kebiasaan konsumsi energi pelanggan – jelas akan menjadi semakin penting bagi
Namun, kinerja agen RL dapat ditingkatkan jika agen diizinkan melakukan prapelatihan perusahaan dalam domain energi. Ketiga, penelitian sebelumnya telah menemukan bahwa
singkat menggunakan data sebelumnya (misalnya, dari tahun sebelumnya) untuk model bisnis yang bekerja untuk pemanfaatan aset energi rumah yang fleksibel secara
memahami karakteristik pelanggan secara mendetail. Bahkan pada PC desktop biasa, teoritis dapat menguntungkan jika seseorang memiliki pandangan jauh ke depan yang
kecepatan pengambilan keputusan cukup cepat untuk menangani ribuan pembaruan sempurna dan jam waktu komputasi untuk pengoptimalan linier. Studi ini akhirnya
jadwal secara real time. Akhirnya, ketersediaan cetak biru dalam bentuk perpustakaan, memberikan alat yang mampu mewujudkan bagian yang signifikan dari potensi teoretis ini
seperti dari Stable-Baselines, untuk sebagian besar aspek proses pelatihan membuat topik tetapi dalam pengaturan yang lebih realistis tanpa pandangan jauh ke depan yang
ini dapat diakses oleh non-ahli tanpa persiapan ekstensif (lih. [43], untuk perbandingan sempurna dan dengan kecepatan yang cukup untuk jumlah aset yang harus dikoordinasikan.
perpustakaan RL).
Namun, penerapan penyiapan yang disesuaikan masih memerlukan waktu dan upaya Keempat, nilai tambahan tahunan sekitar €150 dibandingkan dengan algoritme
yang signifikan. Sementara "bukti kehidupan" pertama dapat dicapai dengan cepat, kinerja konvensional memiliki potensi pasar yang menjanjikan dan menawarkan solusi ekonomis
yang tepat dalam pengaturan yang lebih kompleks membutuhkan pembentukan model untuk beberapa masalah terkait transisi energi serta elektrifikasi panas dan sektor
yang ekstensif, perbaikan celah, penyetelan dan pelatihan hyperparameter. Selain itu, mobilitas. Bahkan, analisis rinci perilaku agen terlatih kami mengungkapkan bahwa hal itu
bahkan di bawah pengaturan yang sama dan setelah siklus pelatihan ekstensif, hanya masih jauh dari sempurna, sehingga perbaikan teknis dan meningkatkan potensi
sebagian kecil (dalam kasus kami sekitar 1 dari 25) agen terlatih mengembangkan pendapatan (misalnya, dari peningkatan volatilitas harga memungkinkan arbitrase)
pemahaman yang baik tentang pola yang mendasarinya dan hanya sebagian kecil (sekitar mungkin memungkinkan keuntungan yang lebih tinggi di masa depan.
1 dari 250) benar-benar unggul dalam tugasnya, sementara semua agen lain menemui
kesulitan dalam pelatihan, misalnya terjebak dalam beberapa optima lokal, sehingga Secara keseluruhan, studi ini menunjukkan potensi yang sangat besar dari aplikasi
diperlukan sebagian keberuntungan dalam proses pelatihan. Akhirnya, agen deep learning deep learning dalam domain riset operasi secara umum dan di sektor energi pada
pada dasarnya adalah sebuah kotak hitam, sehingga penalaran mereka tidak dapat khususnya. Potensi ini akan semakin ditingkatkan dengan peningkatan cepat dalam
dipahami secara detail. Namun, konsep umum masih dapat diamati dengan cukup jelas algoritme yang mendasari dan daya komputasi yang saat ini sedang berlangsung.
dalam hasil algoritme, memungkinkan setidaknya pemahaman kasar tentang perilaku agen.
Penelitian di masa depan pasti akan mengungkap bidang aplikasi lain di mana
Secara keseluruhan, penelitian ini menegaskan potensi besar pembelajaran mendalam pembelajaran mendalam dan RL dapat menggantikan algoritme dan metode yang ada.
dan lebih khusus lagi RL. Temuan kami dapat mendorong lebih banyak praktisi untuk Selain itu, tugas menciptakan lingkungan yang disesuaikan untuk melatih agen masih
mempertimbangkan RL sebagai opsi untuk memecahkan masalah optimisasi yang kompleks. penuh kendala. Lebih banyak literatur yang memberikan panduan praktis bagi para praktisi
Situasi kompleks di mana waktu komputasi yang cepat melebihi kebutuhan akan solusi diperlukan untuk memberi para peneliti dari berbagai disiplin ilmu akses yang cukup mudah
yang sempurna tampak sebagai kandidat yang sangat menjanjikan untuk penerapan deep ke teknologi canggih ini.
learning.
6. Kesimpulan
Deklarasi kepentingan yang bersaing
Makalah ini menyelidiki potensi pembelajaran penguatan mendalam (RL) untuk kontrol
optimal dari sejumlah besar aset energi fleksibel terdistribusi di rumah tangga pribadi. Para penulis menyatakan bahwa mereka tidak memiliki kepentingan keuangan yang
Selanjutnya, karya ini memberikan panduan bagi para praktisi tentang cara menangani bersaing atau hubungan pribadi yang dapat mempengaruhi pekerjaan yang dilaporkan
tugas-tugas kemudi yang rumit dengan algoritme pembelajaran mendalam yang canggih, dalam makalah ini.
hambatan umum yang diharapkan, dan solusi potensial.

Ketersediaan data
Wawasan utama dari pekerjaan ini terkait dengan riset operasi ada tiga: Pertama,
kami mengonfirmasi bahwa jaringan saraf dalam yang dilatih menggunakan RL mampu Data akan tersedia berdasarkan permintaan.
mengoptimalkan jadwal sejumlah besar aset hampir secara waktu nyata. Kedua, kami
menunjukkan bahwa kemajuan terbaru dalam algoritme RL serta praktik dalam domain AI
untuk membuat algoritme dan alat ini dapat diakses secara bebas bermanfaat bagi non- Terima kasih
ahli. Bahkan mereka yang memiliki pengetahuan terbatas tentang pembelajaran mendalam
memiliki akses yang relatif mudah ke algoritme yang kuat dan dapat disesuaikan yang Para penulis mengucapkan terima kasih atas pendanaan dari Kementerian Pendidikan
memecahkan tantangan kontrol individual mereka, dan bekerja dengan algoritme ini hanya dan Penelitian (BMBF) Fed Jerman yang diperoleh untuk Proyek Kopernikus
memerlukan keterampilan dasar dalam pemrograman (misalnya, saat menggunakan “ENSURE” (pendanaan no. 03SFK1HO dan 03SFK1C0-2) serta komentar bermanfaat
Python). Ketiga, kami mengembangkan daftar hambatan umum berdasarkan contoh praktis yang diterima dari dua peninjau anonim.
11
Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener
Bahan pelengkap [26] Li Y. Pembelajaran penguatan mendalam. http://arxiv.org/pdf/1810.06339v1.

[27] Liessner R, Schmitt J, Dietermann A, B¨ aker B. Optimasi hyperparameter untuk
pembelajaran penguatan mendalam dalam manajemen energi kendaraan. Dalam: Prosiding
Materi tambahan yang terkait dengan artikel ini dapat ditemukan, di
Konferensi Internasional ke-11 tentang Agen dan Kecerdasan Buatan, Praha, Republik Ceko , 19-21
versi online, di doi:10.1016/j.egyai.2022.100215. Februari 2019. SCITEPRESS - Publikasi Sains dan Teknologi; 2019. hal. 134–44.
Referensi [28] Lillicrap TP, Berburu JJ, Pritzel A, Heess N, Erez T, Tassa Y, dkk. Kontrol berkelanjutan dengan
pembelajaran penguatan mendalam, 10. http://arxiv.org/pdf/1509.02971v6.
[29] Lissa P, Deane C, Schukat M, Seri F, Keane M, Barrett E. Penguatan dalam
[1] Achaim, J., 2020. Memutar dokumentasi. https://www.amazon.de/Prime-Vid eo/b/ref=nav_shopall_aiv_piv? belajar untuk kontrol sistem manajemen energi rumah. Energi AI 2021;3:100043. https://doi.org/
ie=UTF8&node=3279204031, diambil 10 Juni 2020. 10.1016/j.egyai.2020.100043.
[30] Madlener R. Ekonomi jaringan cerdas. Di dalam: Dinther C, Flath CM, Madlener R, editor.
[2] Baker, B., Kanitscheider, I., Markov, T., Wu, Y., Powell, G., McGrew, B., Mordatch, I., 2019. Penggunaan Ekonomi dan manajemen jaringan pintar. Edisi ke-1. Berlin, New York, Heidelberg: Springer;
alat yang muncul dari autocurricula multi-agen. arXiv pracetak arXiv: 1909.07528. 10.48550/ 2022. hal. 21–59.
arXiv.1909.07528. [31] Mantovani RG, Rossi ALD, Alcobaça E, Vanschoren J, Carvalho ACPLFde. Sistem rekomendasi
[3] Bell K, Gill S. Menyampaikan sistem kelistrikan yang sangat terdistribusi: teknis, pembelajaran meta untuk penyetelan hyperparameter: memprediksi saat penyetelan meningkatkan
tantangan regulasi dan kebijakan. Kebijakan Energi 2018;113:765–77. https://doi.org/10.1016/ pengklasifikasi SVM. Inf Sci (Ny) 2019;501:193–221. https://doi.org/ 10.1016/j.ins.2019.06.005.
j.enpol.2017.11.039 .
[4] Persetujuan. Deskripsi proses penyeimbangan dan pasar penyeimbangan di [32] Nakabi TA, Toivanen P. Pembelajaran penguatan mendalam untuk manajemen energi dalam jaringan
Jerman. Aachen; 2020. https://www.regelleistung.net/ext/download/marktbe schreibung_cons. mikro dengan permintaan fleksibel. Mempertahankan Energi, Jaringan Jaringan 2021;25. https://doi.
diambil 19 Oktober 2020. org/10.1016/j.segan.2020.100413.
[5] Cruz MRM, Fitiwi DZ, Santos SF, Catalao ˜ JPS. Sebuah survei komprehensif tentang pilihan fleksibilitas [33] Ning C, You F. Optimasi di bawah ketidakpastian di era data besar dan pembelajaran mendalam:
untuk mendukung masa depan energi rendah karbon. Perbarui Sustain Energy Rev 2018;97:338– saat pembelajaran mesin bertemu dengan pemrograman matematika. Comput Chem Eng
53. https://doi.org/10.1016/j.rser.2018.08.028. 2019;125:434–48. https://doi.org/10.1016/j. compchemeng.2019.03.034.
[6] Dankwa S, Zheng W. DDPG tertunda ganda. Dalam: Prosiding konferensi internasional ke-3 tentang
pemrosesan visi, citra, dan sinyal. ICVISP 2019, Vancouver BC Canada, 26-28 Agustus 2019. New [34] Nykamp S, Molderink A, Bakker V, Toersche HA, Hurink JL, Smit GJM. Integrasi pompa panas dalam
York, NY, USA: ACM; 2019. hal. 1–5. jaringan distribusi: motivasi ekonomi untuk kontrol jaringan. Dalam: Prosiding IEEE Power and
[7] Deilami S, Masoum AS, Musa PS, Masoum MAS. Koordinasi real-time pengisian kendaraan listrik plug- Energy Society (PES) Innovation Smart Grid Technologies (ISGT) Konferensi Eropa, Berlin; 2012.
in di jaringan pintar untuk meminimalkan kehilangan daya dan meningkatkan profil voltase. IEEE hal. 1–8.
Trans Smart Grid 2011;2(3):456–67. https://doi.org/ 10.1109/TSG.2011.2159816. [35] OpenAI, Berner, C., Brockman, G., Chan, B., Cheung, V., Dÿbiak, P., Dennison, C., Farhi, D., Fischer,
´
Q., Hashme, S., Hesse, C., Jozefowicz, R., Gray, S., Olsson, C., Pachocki,
HPdO,J., Raiman,
Petrov, M.,
J., Pinto,
Salimans,
[8] Diamantoulakis PD, Kapinas VM, Karagiannidis GK. Analitik data besar untuk manajemen energi T., Schlatter, J., Schneider , J., Sidor, S., Sutskever, I., Tang, J., Wolski, F., Zhang, S., 2019. Dota 2
dinamis di smart grid. Data Besar Res 2015;2(3):94–101. https://doi. org/10.1016/j.bdr.2015.03.003. dengan pembelajaran penguatan mendalam berskala besar. http://arxiv.org/pdf/1912.06680v1.
[9] Dulac-Arnold G, Mankowitz D, Hester T. Tantangan penguatan dunia nyata [36] Pierson HA, Gashler MS. Pembelajaran mendalam dalam robotika: tinjauan penelitian terbaru.
sedang belajar. http://arxiv.org/pdf/1904.12901v1. ¨ Adv Robot 2017;31(16):821–35. https://doi.org/10.1080/
[10] Ecke L, Chlond B, Magdolen M, Eisenmann C, dkk. Deutsches Mobilitatspanel 01691864.2017.1365009.
(MOP) - Wissenschaftliche Begleitforschung und Auswertung, Bericht 2017/2018. [37] Ransbotham S, Kiron D, Gerbert P, Reeves M. Membentuk kembali bisnis dengan kecerdasan
Karlsruhe: Alltagsmobilitat ¨ und Fahrleistung, Institut Teknologi Karlsruher; 2019. https:// buatan: menutup celah antara ambisi dan tindakan. MIT Sloan Manag Rev 2017;59(1).
www.bmvi.de/SharedDocs/DE/Anlage/G/mop-jahresbericht-2017 -2018.pdf?__blob=publicationFile.
diambil 10 Oktober 2022. [38] Ruester, S., P'erez-Arriaga, I., Schwenen, S., Batlle, C., Glachant, J.-.M., 2013. Dari jaringan distribusi
[11] Ecker M, Nieto N, K¨ abitz S, Schmalstieg J, Blanke H, Warnecke A, Sauer DU. ke sistem distribusi cerdas: memikirkan kembali regulasi DSO listrik Eropa: laporan akhir.
Studi kalender dan siklus hidup baterai lithium-ion 18650 berbasis Li(NiMnCo)O2.
Sumber Daya J 2014;248:839–51. 10.1016/j.jpowsour.2013.09.143. [39] Sadler M, Regan N. Pengubah permainan. Baru di Catur; 2019.
[12] Fujimoto S, van Hoof H, Meger D. Mengatasi kesalahan perkiraan fungsi dalam metode aktor-kritik. [40] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Algoritma pengoptimalan kebijakan
http://arxiv.org/pdf/1802.09477v3. proksimal. http://arxiv.org/pdf/1707.06347v2.
[13] Goodfellow I, Bengio Y, Courville A. Pembelajaran mendalam. Cambridge, Massachusetts, [41] Perak D, Huang A, Maddison CJ, Guez A, Sifre L, van den Driessche G,
London, Inggris: MIT Press; 2016. hal. 785. Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J,
[14] Gosavi A. Pembelajaran penguatan untuk biaya rata-rata jangka panjang. Eur J Oper Res 2004; Kalchbrenner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Menguasai
155(3):654–74. https://doi.org/10.1016/S0377-2217(02)00874-3. permainan Go dengan deep neural jaringan dan pencarian pohon. Alam 2016;529(7587):484–9.
[15] Greenwood DM, Lim KY, Patsios C, Lyons PF, Lim YS, Taylor PC. Layanan respons frekuensi https://doi.org/10.1038/
yang dirancang untuk penyimpanan energi. Appl Energy 2017;203:115–27. https://doi.org/ alam16961.
10.1016/j.apenergy.2017.06.046. [42] Perak D, Hubert T, Schrittwieser J, Antonoglou I, Lai M, Guez A, dkk. Menguasai catur dan shogi
[16] Gronauer S, Diepold K. Pembelajaran penguatan mendalam multi-agen: survei. Artif Intell Rev dengan bermain sendiri dengan algoritma pembelajaran penguatan umum. http://arxiv.org/pdf/
2022;55(2):895–943. https://doi.org/10.1007/s10462-021-09996-w. 1712.01815v1 .
[17] Haarnoja T, Zhou A, Abbeel P, Levine S. Kritikus aktor lunak: pembelajaran penguatan dalam [43] Simonini, T., 2019. Tentang memilih perpustakaan pembelajaran penguatan mendalam. https://me
entropi maksimum di luar kebijakan dengan aktor stokastik. http://arxiv.org/pdf/1801.01290v2 . dium.com/data-from-the-trenches/choosing-a-deep-reinforcement-learning-libra ry-890fb0307092,
diambil 4 November 2020.
[18] Hao H, Wu D, Lian J, Yang T. Koordinasi optimal beban bangunan dan penyimpanan energi untuk [44] Specht JM, pemasok Madlener R. Energy 2.0: model bisnis konseptual untuk
jaringan listrik dan layanan pengguna akhir. IEEE Trans Smart Grid 2018;9(5): 4335–45. https:// pemasok energi menggabungkan aset terdistribusi fleksibel dan masalah kebijakan yang diangkat.
doi.org/10.1109/TSG.2017.2655083. Kebijakan Energi 2019;135. https://doi.org/10.1016/j.enpol.2019.110911.
[19] Henry R, Ernst D. Gym-ANM: penguatan lingkungan belajar untuk aktif [45] Specht M., Madlener R. (2022). Kuantifikasi Kumpulan Nilai untuk Aset Energi Fleksibel Terdistribusi,
tugas manajemen jaringan dalam sistem distribusi tenaga listrik. Energi AI 2021;5: 100092. https:// Energi, 263 (Bagian B): 125626. doi.org/10.1016/j. energi.2022.125626.
doi.org/10.1016/j.egyai.2021.100092.
[20] Hubbs, C., 2016. Pembelajaran penguatan mendalam dan penyetelan hyperparameter: menggunakan [46] Sutton RS, Barto A. Pembelajaran penguatan: pengantar. Cambridge, MA, London: Pers MIT;
nada Ray untuk mengoptimalkan model Anda. https://towardsdatascience.com/deep-rein forcement- 2018. hal. 526.
learning-and-hyperparameter-tuning-df9bf48e4bd2, diambil 6 November 2020. [47] Tjaden T, Weniger J, Quaschning V. Repr¨ asentative elektrische Lastprofile für Wohngebaude¨ in
Deutschland auf 1-sekündiger
wp-content/uploads/HTW-Repraesentative-ele
Datenbasis. Berlin: HTW Berlin; 2015.
ktrische-Lastprofile-fuer-
https://solar.htw-berlin.de/
[21] Huck N. Kumpulan data besar dan pembelajaran mesin: aplikasi untuk arbitrase statistik. Wohngebaeude.pdf. diambil 2 Oktober 2022.
Eur J Oper Res 2019;278(1):330–42. https://doi.org/10.1016/j.ejor.2019.04.013.
[22] Kathirgamanathan A, Mangina E, Finn DP. Pengembangan pendekatan pembelajaran penguatan [48] Tu C, He X, Shuai Z, Jiang F. Masalah data besar di smart grid – review. Perbarui Sustain Energy
mendalam kritikus aktor lunak untuk memanfaatkan fleksibilitas energi di gedung perkantoran besar. Rev 2017;79:1099–107. https://doi.org/10.1016/j. rser.2017.05.134.
Energi AI 2021;5:100101. https://doi.org/10.1016/j. egyai.2021.100101.
[49] VDI - Verein Deutscher Ingenieure, Mei/2008. Profil beban referensi rumah keluarga tunggal dan
[23] Kathirgamanathan A, Rosa Mde, Mangina E, Finn DP. Prediktif berbasis data multi-keluarga untuk penggunaan sistem CHP, edisi ke-27.
kontrol untuk membuka fleksibilitas energi gedung: ulasan. Perbarui Sustain Energy Rev [50] Wang J, Ma Y, Zhang L, Gao RX, Wu D. Pembelajaran mendalam untuk manufaktur pintar: metode
2021;135:110120. https://doi.org/10.1016/j.rser.2020.110120. dan aplikasi. J Manuf Syst 2018;48:144–56. https://doi.org/ 10.1016/j.jmsy.2018.01.003.
[24] Kraus M, Feuerriegel S, Oztekin A. Pembelajaran mendalam dalam analitik bisnis dan
riset operasi: model, aplikasi dan implikasi manajerial. Eur J Oper Res 2020;281(3):628–41. https:// [51] Zhang S, May D, Gül M, Musilek P. Penguatan pasar energi transaktif lokal berbasis pembelajaran
doi.org/10.1016/j.ejor.2019.09.018. untuk sumber daya energi terdistribusi. Energi AI 2022;8:100150. https://doi.org/10.1016/
[25] LeCun Y, Bengio Y, Hinton G. Pembelajaran mendalam. Alam 2015;521(7553):436–44. j.egyai.2022.100150 .
https://doi.org/10.1038/nature14539.
12

Automatic Berthing Using Supervised Learning and Reinforcement Learning

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Automatic Berthing Using Supervised Learning and Reinforcement Learning

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Energi dan AI 11 (2023) 100215

Daftar konten tersedia di ScienceDirect

Jan Martin Spect

, Reinhard Madlener a,b,*

52074, Aachen, Jerman

• Pembelajaran penguatan mendalam untuk mengoptimalkan pengoperasian aset energi

INFORMASI ARTIKEL ABSTRAK

* Penulis yang sesuai.

Tersedia online 23 November 2022

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

2.3. Pembelajaran mendalam dalam domain energi

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

Gambar. 6. Perbandingan kinerja algoritma RL yang dipilih dalam hal

5.3. Perbandingan perilaku agen RL dan heuristik

Perbandingan tindakan agen dengan heuristik memungkinkan untuk lebih memahami

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

JM Specht dan R. Madlener Energi dan AI 11 (2023) 100215

hambatan umum yang diharapkan, dan solusi potensial.

Energi dan AI 11 (2023) 100215

Bahan pelengkap [26] Li Y. Pembelajaran penguatan mendalam. http://arxiv.org/pdf/1810.06339v1.

Anda mungkin juga menyukai