Anda di halaman 1dari 23

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Bahasa Diagram Pengaruh Dinamis


Relasional (RDDL): Deskripsi Bahasa

Scott Sanner (ssanner@gmail.com )


NICTA dan Universitas Nasional Australia

Abstrak
Relational Dynamic Influence Diagram Language (RDDL) adalah bahasa yang seragam di
mana keadaan, tindakan, dan pengamatan (apakah diskrit atau kontinu) adalah variabel
parameter dan evolusi dari proses yang diamati sepenuhnya atau sebagian (stochastic)
ditentukan melalui fungsi (stochastic) di atas variabel status berikutnya dikondisikan pada
variabel status dan tindakan saat ini (nb, konkurensi diperbolehkan). Variabel terparameterisasi
hanyalah templat untuk variabel dasar yang dapat diperoleh ketika diberikan contoh masalah
tertentu yang mendefinisikan objek domain yang mungkin. Secara semantik, RDDL hanyalah
sebuah bayes net dinamis (DBN) [1] (dengan potensi banyak lapisan perantara) diperluas
dengan diagram pengaruh sederhana (ID) [2] simpul utilitas yang mewakili hadiah langsung.
Fungsi tujuan menentukan bagaimana imbalan langsung ini harus dioptimalkan dari waktu ke
waktu untuk kontrol yang optimal. Untuk instance ground, RDDL hanyalah MDP terfaktor (atau
POMDP, jika diamati sebagian).

Isi
1 Ada apa dengan (P)PDDL? 2

2 Prinsip RDDL 3
2.1 Apa itu RDDL? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Apa RDDL Bukan 3
2.2 (Belum) . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Contoh RDDL 4
3.1 Domain Proposisi Boolean Sederhana . . . . . . . . . . . . . . . . . . .Domain 4
3.2 yang Diamati Sebagian Tanpa Parameter . . . . . . . . . . . . . .Domain yang 7
3.3 Diparameterisasi: Game Kehidupan Interaktif Serentak . . . . . .Model 11
3.4 Tambahan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 Struktur File RDDL 17


4.1 blok domain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .blok non-fluen 17
4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .blok contoh 20
4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 rddlsim Simulator RDDL 20

1
1 Ada apa dengan (P)PDDL?

Singkatnya, tidak ada yang salah dengan (P)PDDL. Setiap bahasa domain perencanaan memiliki tujuan
untuk secara kompak menentukan serangkaian masalah perencanaan dengan karakteristik umum
untuk dieksploitasi oleh perencana domain-independen (tetapi khusus bahasa domain).

Namun, tidak masuk akal untuk mengasumsikan bahwa hanya ada satu sintaks yang kompak dan benar
untuk menentukan semua masalah perencanaan yang berguna. Dengan demikian, RDDL tidak
dimaksudkan sebagai pengganti keluarga bahasa PDDL [3] atau PPDDL [4], melainkan dimaksudkan
untuk memodelkan kelas masalah yang sulit dimodelkan dengan PPDDL dan PDDL. Jika
(P)PDDL cukup untuk deskripsi masalah, maka ekspresivitas RDDL tidak diperlukan.

Sebagai contoh motivasi untuk RDDL, kami membahas model transisi sel (CTM) arus lalu lintas [5], yang
memerlukan konstruksi berikut yang tidak dapat diekspresikan bersama dalam (P)PDDL:

1. Setiap sinyal lalu lintas dikontrol secara independen oleh tindakan yang dijalankan secara bersamaan.

2. Mobil bergerak secara independen dan stokastik.1

3. CTM lengkap menggunakan bilangan bulat untuk memodelkan jumlah kendaraan, nilai riil untuk memodelkan
kecepatan dan kepadatan lalu lintas, dan persamaan perbedaan stokastik untuk menentukan transisi.

4. Dinamika CTM sederhana, kompleksitas berasal dari topologi jaringan yang tidak lancar.
Seseorang ingin merencanakandiberikan tidak lancar Mandiri dari keadaan awal.

5. Seseorang ingin meminimalkan kepadatan lalu lintas di CTM, yang membutuhkan penjumlahan lebih
semua sel lalu lintas (yang berubah dengan setiap contoh domain).

6. Dalam domain bersamaan, prakondisi tindakan tidak dapat diperiksa secara lokal, mereka harus
diperiksa secara global, misalnya, konfigurasi gabungan dari dua atau lebih sinyal lalu lintas mungkin
ilegal. Untuk yang satu ini perlu pemeriksaan kendala tindakan negara secara global.

Banyak domain lain yang sulit untuk diformalkan dalam PPDDL. Kontrol multi-elevator dengan
kedatangan acak independen, domain logistik dengan kendaraan dan kebisingan yang bergerak
secara independen, dan UAV dengan sensor untuk keadaan yang diamati sebagian adalah domain
penting yang tidak dapat ditentukan dalam PPDDL. Solusi yang jelas mungkin hanya untuk
memperpanjang PPDDL, karena PDDL telah diperpanjang berkali-kali [3]. Namun, efek stokastik
dan konkurensi sulit untuk disatukan dalam bahasa berbasis efek. Jika kita mengambil
pendekatan bahwa tindakan bersamaan yang mungkin bertentangan (lih.mutex probabilistik [6])
tidak diizinkan — mirip dengan cara penanganan konkurensi di PDDL 2.1 [7] — kemudian kita
berakhir dengan definisi konkurensi terbatas yang mencegah tindakan bersamaan yang mungkin
hanya bertentangan 1% dari waktu. Sebagai gantinya kami memilihkonkurensi tak terbatas [8],
yang tampaknya tidak ada semantik transisi gaya PDDL yang terdefinisi dengan baik. Daripada
menambahkan lapisan resolusi konflik stokastik ke PPDDL, bayes net dinamis (DBN) [1]
formalisme transisi menawarkan solusi sederhana — oleh karena itu motivasi untuk RDDL.

1Sementara pengkodean hati-hati dari a probabilistik efek di bawah untuk semua efek dapat mengkodekan ini di PPDDL,
tidak jelas ada cara untuk menyelesaikan efek stokastik yang saling bertentangan (dua mobil yang secara stokastik pindah ke
sel lalu lintas, di mana hanya ada ruang untuk salah satunya).
2 Prinsip RDDL

RDDL dipengaruhi oleh keluarga PDDL [3], PPDDL [4], program stokastik [9], diagram
pengaruh [2], SPUDD [10] dan Perseus Simbolis [11, 12] representasi untuk MDP dan
POMDP terfaktor, inferensi probabilitik orde pertama (FOPI) – khususnyaparfactors [13],
dan (difaktorkan) MDP orde pertama dan POMDP [14, 15, 16].

Prinsip utama desain RDDL adalah bahwa bahasa harus sederhana dan seragam dengan
kekuatan ekspresifnya yang berasal dari komposisi konstruksi sederhana.

2.1 Apa itu RDDL?

RDDL didasarkan pada prinsip-prinsip berikut:

• Semuanya adalah variabel berparameter (fluent atau nonfluent)


- Lancar bertindak

- Lancar negara

– [Opsional] Observasi lancar (untuk domain yang diamati sebagian)

– [Opsional] Lancar menengah (predikat turunan, efek berkorelasi, . . . )


– [Opsional] Konstanta nonfluen (konstanta umum, relasi topologi, ...)
• Jenis fasih yang fleksibel

- Biner (predikat) fasih


- Multi-nilai (disebutkan) fasih
- Kelancaran bilangan bulat dan kontinu (kelancaran numerik dari PDDL 2.1 [7])

• Semantik hanyalah sebuah ground Dynamic Bayes Net (DBN)


- Mendukung keadaan dan pengamatan terfaktor

- Mendukung tindakan terfaktor, karenanya konkurensi (dan tidak pernah bertentangan!)

- Mendukung kelancaran status menengah untuk DBN berlapis-lapis* Predikat turunan

ekspres (stochastic) (lih, PDDL 1.2 [17] dan 2.2 [18])* Ekspresikan efek berkorelasi*

Stratifikasi berdasarkan level memberlakukan DBN multi-lapisan relasional yang

terdefinisi dengan baik

- Secara alami mendukung peristiwa eksogen independen

• Ekspresi umum dalam fungsi transisi dan penghargaan


- Ekspresi logis (, |, , =>,<=> plus ∃/∀ kuantifikasi atas variabel)
ΣΠ
- Ekspresi aritmatika (+,−,, / plus / agregasi atas variabel)
- (Dalam) persamaan perbandingan ekspresi (==,∼=,<,>,<=,>=)

- Ekspresi bersyarat (if-then-else, switch)


- Distribusi probabilitas dasar (Bernoulli, Diskrit, Normal, Poisson, ...)
• Perencanaan Klasik serta Tujuan Umum (PO)MDP
- Imbalan sewenang-wenang (tujuan, preferensi numerik) (lih, PDDL 3.0 [19])
- cakrawala terbatas

- Diskon atau tidak didiskon


• Batasan status/tindakan
- Mengkodekan tindakan hukum (yaitu, prasyarat tindakan)

- Menegaskan invarian status (misalnya, sebuah paket tidak boleh berada di dua lokasi)

2.2 Apa yang Bukan RDDL (Belum)

Khususnya, RDDL tidak (saat ini) mendukung fitur bahasa berikut:


• Waktu terus menerus (lih, PDDL2.1 [7])

• Tindakan / opsi tahan lama / semi-(PO) MDP (lih, PDDL2.1 [7], juga pilihan [20])
• Tujuan atau preferensi keadaan/tindakan temporal (lih, PDDL3.0 [19])

• Non-determinisme atau ketidakpastian yang ketat (lih, satu dari membangun di PPDDL [4])

• Konstruksi teori permainan (lih, Game Description Language (GDL) [21])


• Kelancaran objek (lih, PPDDL3.1/STRIPS fungsional [22]; tipe enumerated dapat
menggantikan ketika jumlah nilai tipe enumerated tetap untuk semua instance)

Semua fitur selain waktu berkelanjutan akan langsung ditambahkan ke RDDL.

3 Contoh RDDL

Sebelum kami memberikan deskripsi bahasa formal, mungkin pengenalan bahasa yang terbaik
adalah melalui beberapa contoh.

3.1 Domain Proposisi Boolean Sederhana

Kita mulai dengan penggunaan sederhana RDDL untuk mengkodekan DBN non-parameter dengan tiga
variabel status boolean p, q, r dan satu variabel aksi boolean A.
dbn prop.rddl
1 ///////////////////////////////////////////////////////////////// /////////////////////////////2 // DBN 2-slice
proposisional sederhana (variabel tidak diparameterisasi ).3 //

4 // Penulis: Scott Sanner (ssanner [at] gmail.com)5


///////////////////////////////////////////////////////////////// /////////////////////////////6 domain prop_dbn {7

8 persyaratan = { hadiah -deterministik };


9
10 // Tentukan variabel status dan tindakan (tidak diparameterisasi di sini)pvariabel {
11
12 P : { negara -fasih , Q : { bool , bawaan = Salah };bool ,
13 negara -fasih , R : { negara - bawaan = Salah };bool , bawaan =
14 fasih , A : { tindakan -fasih , Salah };bool , bawaan = Salah };
15
16 };
17
18 // Tentukan fungsi probabilitas bersyarat untuk setiap variabel // status berikutnya
19 dalam hal status dan tindakan sebelumnyacpfs {
20
21 p' = jika (p ^ r) lalu Bernoulli (.9) lain Bernoulli (.3);
22
23 q' = jika (q ^ r) lalu Bernoulli (.9)
24 lain jika (A) lalu Bernoulli (.3) lain Bernoulli (.8);
25
26 r' = jika (~q) lalu KronDelta(R) lain KronDelta(r <=> q);
27 };
28
29 // Tentukan fungsi hadiah; perhatikan bahwa fungsi boolean // diperlakukan sebagai
30 bilangan bulat 0/1 dalam ekspresi aritmatikahadiah = p + q - r;
31
32 }
33
34 // Tentukan contoh dari masalah di atas dengan menentukan inisial35 // keadaan dan
tujuan yang ingin dicapai (diskon dan horizon)36 contoh inst_dbn {37

38 domain = prop_dbn;
39 init -negara {
40 p = benar; // bisa juga hanya mengatakan 'p' dengan sendirinya
41 q = Salah; // default jadi tidak perlu, bisa juga mengatakan '~q' dengan sendirinyaR;
42 // sama dengan r = benar
43 };
44
45 maksimal -nondef -tindakan = 1; // Tidak ada konkurensi di sini , jadi setel ke 1
46 cakrawala = 20;
47 diskon = 0.9;
48 }
Status dan Tindakan Saat Ini Status dan Hadiah Berikutnya

A Q'

Q R'

R Fungsi Hadiah

P P'

Gambar 1: DBN dan diagram pengaruh untuk dbn prop.rddl diproduksi secara otomatis oleh
rddl.viz.RDDL2Graph di dalam rddlsim Paket Java [23].

Sebelum masuk ke detail definisi domain ini, kami mencatat bahwa itu dapat dengan mudah diwakili
oleh DBN [1] dan diagram pengaruh [2] seperti yang disediakan pada Gambar 1.

Berikut ini adalah diskusi baris demi baris tentang deskripsi domain:

• Semua domain memerlukan nama pengenal (di sini penyangga dbn) disediakan pada baris 6.

• Domain harus mencantumkan persyaratan mereka seperti yang dilakukan pada baris 8, lihat Bagian
4.1.1 untuk daftar persyaratan yang mungkin dan artinya.

• Baris 11–16 mendefinisikan variabel berparameter (pvariabel), meskipun dalam kasus ini kita
tidak menggunakan parameter sehingga variabel-variabel ini sebenarnya hanyalah variabel
proposisi boolean sederhana. bawaan digunakan untuk menentukan nilai paling umum dari
variabel, yang berguna untuk meminimalkan komunikasi dalam interaksi klien/server.

• Baris 20–27 mencantumkan fungsi transisi domain. Variabel keadaan berikutnya


ditampilkan prima (Pkan, Qkan, Rkan) untuk membedakannya dari variabel keadaan saat ini (p,
q, r). Definisi untukPkan hanya memberikan probabilitas bersyarat berikut: P(Pkan|p, r):

P R Pkan P(Pkan|p, q)
benar benar benar 0.9
benar benar Salah 0.1
benar Salah benar 0,3
benar Salah Salah 0,7 (1)
Salah benar benar 0,3
Salah benar Salah 0,7
Salah Salah benar 0,3
Salah Salah Salah 0,7

Demikian juga probabilitas bersyarat yang sama dapat dihasilkan untuk P(Qkan|q, r, a);
perhatikan di sini bahwa probabilitas transisi bergantung pada aksiA. P(Rkan|r, q) adalah ekspresi
kondisional atas fungsi delta Kronecker. Delta Kroneckor hanya menempatkan probabilitas 1,0
pada argumennya dan 0 pada semua nilai lain yang mungkin, jadi itu adalah
berguna setiap kali transisi bersifat deterministik. Di sini, jikaQ salah, maka Rkan
diberi nilai R, sebaliknya Rkan diberi nilai boolean dari ekspresi logikaR ⇔ Q.
Perhatikan bahwa jika argumen fungsi delta berasal dari domain kontinu daripada
domain diskrit, fungsi delta DiracDiracDelta akan digunakan sebagai gantinya.

• Baris 31 mencantumkan fungsi hadiah, yang menentukan apa yang harus dioptimalkan agen pada
setiap langkah waktu. Di sini kami mencatat bahwa variabel boolean digunakan dalam ekspresi
aritmatika; setiap kali ekspresi logis digunakan dalam ekspresi aritmatika seperti itu,benar
diperlakukan sebagai 1 dan Salah sebagai 0.

• Baris 36–48 mendefinisikan sebuah instance dari domain ini. Biasanya sebuah instance akan
mendefinisikan objek domain, tetapi ini bukan domain berparameter, jadi hanya status awal,
batasan tindakan, dan tujuan yang disediakan di sini.

- init-state daftar atom fasih dasar dan tugas kebenarannya. Tugas lancar default tidak
perlu diberikan, tetapi bukan merupakan kesalahan untuk melakukannya.

- max-nondef-tindakan digunakan untuk menentukan berapa banyak tindakan dalam domain


yang diizinkan untuk menggunakan nilai non-default – nilai yang lebih besar dari 1 akan
ditentukan untuk domain bersamaan, tetapi untuk domain tidak bersamaan seperti ini, nilai 1
harus digunakan.

- Tujuan yang dievaluasi oleh RDDL hanyalah jumlah yang diharapkan (yaitu, rata-
rata) dari hadiah diskon selama beberapa percobaan, di mana di sini diskon
faktorγ = 0.9 dan cakrawala H = 20. Di akhir setiap percobaan, simulator RDDL
mengembalikan nilainya Vπ(S0) untuk lintasan state-action yang ditemui selama
uji coba mulai dari init-state definisi negara S0 dan mengikuti kebijakan agen klien
π : S → A yang memberikan tindakan A ∈ A untuk setiap negara bagian S ∈ S
ditemui selama persidangan:

ΣH
Vπ(S0) = γT · R(ST,(ST)). (2)
T=0

Di Sini R(ST, AT) adalah hadiah (sampel jika persyaratan imbalan-deterministiktidak


ditentukan) dalam keadaan ST pada waktu T saat beraksi AT = π(ST) telah diambil. lintasan
keadaan (S0, . . . , SH) hanya diambil sampelnya sesuai dengan yang ditentukan cpf.

3.2 Domain yang Diamati Sebagian Tidak Diparameterisasi

Sebelum kita beralih ke contoh domain berparameter relasional yang sebenarnya, pertama-tama kita
perluas sebelumnya dbn prop.rddl dengan tipe enumerasi yang ditentukan, variabel perantara, dan
observabilitas parsial.
dbn jenis interterm po.rddl
1 ///////////////////////////////////////////////////////////////// /////////////////////////////2 // DBN sederhana
(variabel tidak diparameterisasi) menunjukkan penggunaan3 // bool , int , real , tipe enumerated ,
variabel antara , dan4 // variabel observasi.5 //

6 // Penulis: Scott Sanner (ssanner [at] gmail.com)7


///////////////////////////////////////////////////////////////// /////////////////////////////8 domain prop_dbn2 {9

10 persyaratan = {
11 hadiah -deterministik , // Hadiah adalah fungsi deterministikbilangan bulat -
12 bernilai ,kontinu , // Menggunakan variabel integer //
13 Menggunakan variabel kontinu //
14 multinilai , Menggunakan variabel enumerated //
15 intermediat -simpul , Menggunakan node perantara //
16 sebagian -diamati Menggunakan node observasi
17 };
18
19 // Ditetapkan pengguna jenis
20 jenis {
21 enum_level : {@rendah , @medium , @tinggi }; // Jenis enumerasi
22 };
23
24 pvariabel {
25 P : { negara -fasih , Q : { bool , bawaan = Salah };bool ,
26 negara -fasih , R : { negara bawaan = Salah };bool , bawaan =
27 -fasih , Salah };
28
29 i1 : { dalam ketentuan -fasih , ke dalam , tingkat = 1 };
30 i2 : { dalam ketentuan -fasih , enum_level , tingkat = 2 };
31
32 o1 : { mengamati -fasih , o2 : { bool };
33 mengamati -fasih , nyata };
34
35 A : { tindakan -fasih , bool , bawaan = Salah };
36 };
37
38 cpfs {
39
40 // Beberapa tabel probabilitas bersyarat Bernoulli standarp' = jika (p ^ r) lalu
41 Bernoulli (.9) lain Bernoulli (.3);
42
43 q' = jika (q ^ r) lalu Bernoulli (.9)
44 lain jika (A) lalu Bernoulli (.3) lain Bernoulli (.8);
45
46 // KronDelta adalah fungsi delta untuk argumen diskritr' = jika (~q) lalu
47 KronDelta(R) lain KronDelta(r <=> q);
48
49 // Cukup atur i1 ke hitungan variabel keadaan sebenarnyai1 =
50 KronDelta(p + q + r);
51
52 // Pilih level dengan probabilitas tertentu yang berjumlah 1i2 = Diskrit
53 (tingkat_enum ,
54 @rendah : jika (i1 >= 2) kemudian 0,5 lain 0.2, @medium :
55 jika (i1 >= 2) kemudian 0.2 lain 0,5, @tinggi : 0,3
56
57 );
58
59 // Catatan: Parameter Bernoulli harus dalam [0,1]o1 = Bernoulli
60 ( (p + q + r)/3.0 );
61
62 // Persamaan stokastik linier bersyarato2 = sakelar (i2) {
63
64 kasus @rendah : i1 + 1.0 + Normal (0,0, i1*i1),
65 kasus @medium : i1 + 2.0 + Normal (0,0, kasus i1*i1/2.0),
66 @tinggi : i1 + 3.0 + Normal (0,0, i1*i1 /4.0) };
67 };
68
69 // Boolean berfungsi sebagai bilangan bulat 0/1 ketika nilai numerik diperlukanhadiah = p + q - r +
70 5*(i2 == @tinggi);
71 }
72
73 contoh inst_dbn {74
domain = prop_dbn2;
75 init -negara { P; R; };maksimal
76 -nondef -cakrawala tindakan = 1;
77 = 20;
78 diskon = 0.9;
79 }

DBN dan diagram pengaruh untuk deskripsi RDDL ini disediakan pada Gambar 2.

Di sini kami hanya membahas perbedaan antara domain ini dan domain sebelumnya
dbn prop.rddl.

• Pada baris 10–17, kami telah menambahkan sejumlah persyaratan karena domain ini
menggunakan variabel integer, kontinu, dan multinilai (dihitung) selain variabel boolean.
Domain menggunakan variabel perantara yang membantu menentukan keadaan
berikutnya, tetapi bukan bagian dari keadaan. Juga domain diamati sebagian, yang berarti
bahwa dalam simulasi, server akan menentukan status dan pengamatan selama simulasi,
tetapi hanya memberikan pengamatan kepada agen klien untuk digunakan dalam
keputusan kebijakannya.

• Baris 20–22 mendefinisikan nilai yang mungkin untuk tipe enumerasi yang ditentukan pengguna (multinilai)
bernama tingkat enum.

• Baris 24-36 menyajikan definisi variabel tambahan untuk perantara dan ob-
Menengah @ Tingkat 1 Menengah @ Tingkat 2

Status dan Hadiah Berikutnya i2


Pengamatan
Status dan Tindakan Saat Ini

o2
A Q'

Q R'

Fungsi Hadiah
R
i1

o1
P
P'

Gambar 2: DBN dan diagram pengaruh untuk dbn jenis interterm po.rddl diproduksi secara
otomatis oleh rddl.viz.RDDL2Graph di dalam rddlsim Paket Java [23].

layanan lancar. Sekali lagi, parameter tidak digunakan di sini, tetapi di sini kami menunjukkan
jenis juga dapatint, nyata, atau salah satu jenis yang ditentukan pengguna, dalam hal ini tingkat
enum.Lancar menengah harus mencantumkan tingkat stratifikasi. Variabel-variabel antara
distratifikasi secara ketat sehingga variabel antara hanya dapat dikondisikan pada variabel-
variabel menengah dari tingkat yang lebih rendah, atau variabel-variabel keadaan. Variabel
perantara dan observasi tidak menentukan nilai default.

• Baris 40–47 dimulai dengan definisi cpf yang identik dengan domain sebelumnya.
• Baris 50 menunjukkan cpf sederhana untuk ke dalam jenis, di mana nilai variabel
antara i1 secara deterministik diatur ke jumlah P + Q + R (yang mengambil nilai dalam {
0, 1, 2, 3}). Untuk distribusi stokastik sebenarnya, aPoison dengan parameter tingkat
yang sesuai dapat digunakan sebagai pengganti ini Kron Delta.

• Baris 53–57 menunjukkan cara yang berguna untuk mengambil sampel parameter multinilai dari
a Diskritdistribusi ( k-perpanjangan dari Bernoulli distribusi). Parameter pertama di sini
menentukan tipe variabel yang dijadikan sampel (sehingga simulator dapat melakukan
pengecekan tipe). Selanjutnya, masing-masing nilai yang mungkin terdaftar dengan probabilitas
masing-masing nilai. Perhatikan bahwa nilai-nilai ini harus berjumlah 1,0 (jika tidak, simulator
RDDL akan mengeluh bahwa distribusinya tidak terdefinisi dengan baik).i2 kondisi aktif i1 untuk
menentukan distribusi dan orang akan mencatat bahwa itu berjumlah 1,0 untuk semua nilai i1.

• Baris 60 adalah sampel Bernoulli standar di mana kami hanya menunjukkan di sini bahwa
parameter ekspresi atau variabel acak apa pun, dapat berupa ekspresi. Parameter Bernoulli
harus dalam [0, 1] dan seseorang dapat memverifikasi jaminan ekspresi ini
properti itu; properti tersebut diperiksa pada saat runtime oleh simulator RDDL.

• Baris 63-66 menunjukkan bahwa RDDL dapat dengan mudah digunakan untuk mengkodekan
persamaan perbedaan (stochastic) dan melalui komposisi, konstruksi yang lebih kompleks seperti
bersyaratpersamaan perbedaan stokastik ditunjukkan di sini, yang menggunakan a mengalihkan
pernyataan atas berbagai nilai enumerasi variabel menengah i1. Kami menunjukkan di sini bahwa
parameter distribusi, dalam hal ini Normal dengan masing-masing μ dan σ2
parameter, dapat berupa ekspresi.

• Baris 70 menunjukkan bahwa pvariabel perantara dapat digunakan dalam hadiah, dan juga
persamaan logis == dapat digunakan dengan pvariabel apa pun.

Untuk daftar lengkap distribusi yang saat ini dapat digunakan dengan RDDL, silakan lihat
Bagian 4.1.4.

3.3 Domain Berparameter: Game Kehidupan Interaktif Serentak

Sebelumnya kami menunjukkan domain RDDL non-parameter yang memamerkan ekspresi


bahasa untuk menentukan MDP dan POMDP terfaktor dengan potensi campuran hibrida dari
status dan tindakan multinilai, bilangan bulat, atau kontinu.

Sudah, versi RDDL non-parameter ini membuat bahasa yang cukup ekspresif, tetapi
tidak selalu kompak ketika variabel dan cpfs mereka harus diulang dalam sebuah
domain.

Misalnya, domain lalu lintas dapat dimodelkan dengan sel lalu lintas dan semua sel pada
dasarnya memiliki perilaku yang sama — lalu lintas mengalir ke sel dari sel hulu saat sel tidak
dalam kapasitas penuh, dan lalu lintas mengalir keluar sel saat sinyal lalu lintas mengizinkan.
dan sel-sel hilir tidak pada kapasitas. Ada aturan sederhana yang mengatur perilaku sel lalu
lintas dan karenanya tidak masuk akal untuk menyalin aturan ini berulang kali untuksel-1,
sel-2, . . . , sel-n.Jelas, di sini kita ingin membuat parameter (yaitu, mengangkat) dinamika
transisi dan ini memerlukan parameterisasi DBN RDDL.

Di bagian 3.4, kami menyediakan tautan eksternal ke domain lalu lintas berparameter yang
ditentukan dalam RDDL; namun, karena lalu lintas adalah domain yang cukup kompleks, kami
memilih untuk mendemonstrasikan properti DBN berparameter dari RDDL dalam versi John H.
Conway yang interaktif, stokastik, dan berpotensi bersamaanPermainan Kehidupan [24].

Singkatnya, Game of Life menetapkan aturan sederhana untuk automata seluler di mana properti
status sel berikutnya bergantung pada sel di sekitarnya. Dalam deskripsi RDDL berikut, kami membuat
parameter sel dengan (x, y) mengoordinasikan dan menentukan sel tetangga dengan variabel boolean
yang tidak lancar. Dinamika fungsi transisi cpf didasarkan pada aturan asli ditambah beberapa
peningkatan tambahan untuk stokastik, mengatur ulang baris mati, dan interaksi agen — agen dapat
secara bersamaan mengatur sejumlah sel hinggamax-nondef-tindakan didefinisikan dalam sebuah
instance. Kami mencatat bahwa domain ini secara eksplisit mendefinisikan topologi tetangga dengan
nonfluen, sehingga memungkinkan perencana yang diangkat untuk mengeksploitasi topologi tetap
dalam solusinya.
permainan kehidupan stoch.rddl

1 ///////////////////////////////////////////////////////////////// //////////////////2 // DBN sederhana untuk


mengkodekan "permainan kehidupan" automata seluler Conway3 // pada grid dengan beberapa
aturan tambahan. Seseorang mendapat hadiah untuk
4 // menghasilkan pola yang membuat sebagian besar sel tetap hidup.5 //

6 // Penulis: Scott Sanner (ssanner [at] gmail.com)7


///////////////////////////////////////////////////////////////// //////////////////8 domain game_of_life {9

10 persyaratan = { hadiah -deterministik };


11
12 jenis {
13 x_pos : obyek;
14 y_pos : obyek;
15 };
16
17 pvariabel {
18 // Topologi sel probabilitas tidak lancarPROB_REGENERASI(tidak
: { non
berubah)
-fasih , nyata , bawaan = 0,5 };
19 TETANGGA(x_pos ,y_pos ,x_pos ,y_pos) : {non -fasih ,bool ,bawaan=Salah };
20
21
22 // State , intermediate dan action fasihhidup(x_pos ,y_pos) : { negara -fasih , bool ,
23 bawaan = Salah }; hitung -tetangga(x_pos ,y_pos) : {dalam ketentuan -fasih ,
24 set(x_pos ,y_pos) : { tindakan -fasih , ke dalam , tingkat = 1 };
25 bool , bawaan = Salah };
26 };
27
28 cpfs {
29 // Aturan permainan kehidupan Conway:
30 // 1. Di bawah -populasi: sel dengan <2 tetangga hidup mati Kepadatan:
31 // 2. sel dengan > 3 tetangga hidup mati sel dengan 2 atau
32 // 3. Bertahan hidup: 3 tetangga hidup hidup sel dengan 3 tetangga hidup
33 // 4. Reproduksi: menjadi hidup
34 //
35 // Aturan tambahan Scott untuk RDDL:
36 // 5. Stochastic: aturan di atas berlaku dengan kepastian PROB_REGENERATE
37 // 6. Aturan ekstra: semua sel pada x-pos yang sama mati => regenerasi acak // 7. Interaktivitas:
38 agen dapat secara bersamaan mengatur sel yang berbeda
39
40 // Simpan hidup - jumlah tetangga untuk setiap selhitung
41 -tetangga (?x,?y) =
42 KronDelta(jumlah_{?x2 : x_pos , ?y2 : y_pos}
43 [TETANGGA (?x,?y,?x2 ,?y2) ^ hidup (?x2 ,?y2)]);
44
45 // Tentukan apakah sel (?x,?y) masih hidup di status berikutnyahidup '(?x,?y) =
46 jika (untuk semua_ {?y2 : y_pos} ~alive(?x,?y2))
47 lalu Bernoulli(PROB_REGENERATE) // Aturan 6
48
49 lain jika ([ hidup(?x,?y)
50 ^ (hitung -tetangga (?x,?y) (hitung > = 2)
51 ^ -tetangga (?x,?y) [~ hidup(?x,?y) <= 3)]
52 |
53 ^ (hitung -tetangga (?x,?y) set(?x,? == 3)]
54 | y))
55 kemudian Bernoulli(PROB_REGENERATE)Bernoulli (1.0 -
56 lain PROB_REGENERATE );
57 };
58
59 // Hadiah adalah jumlah sel hiduphadiah = jumlah_{?x : x_pos , ?y :
60 y_pos} hidup(?x,?y);
61
62 negara -tindakan -kendala {
63 // Pernyataan: pastikan PROB_REGENERATE adalah probabilitas yang valid
64 (PROB_REGENERATE >= 0.0) ^ (PROB_REGENERATE <= 1.0);
65
66 // Prasyarat: mungkin kita tidak harus mengatur sel jika sudah hidupforall_ {?x : x_pos , ?y :
67 y_pos} hidup(?x,?y) => ~set(?x,?y);
68 };
69 }
70
71 // Tentukan konstanta numerik dan topologi72 non -fasih73
permainan2x2 {
domain = game_of_life;
74 benda {
75 x_pos : {x1,x2};
76 y_pos : {y1,y2};
77 };
78 non -fasih {
79 PROB_REGENERATE = 0,9; // Konstanta numerik hanya non-fluentsTETANGGA(x1,y1,x1,y2);
80 TETANGGA(x1,y1,x2,y1); TETANGGA(x1,y1,x2,y2);
81 TETANGGA(x1,y2,x1,y1); TETANGGA(x1,y2,x2,y1); TETANGGA(x1,y2,x2,y2);
82 TETANGGA(x2,y1,x1,y1); TETANGGA(x2,y1,x1,y2); TETANGGA(x2,y1,x2,y2);
83 TETANGGA(x2,y2,x1,y1); TETANGGA(x2,y2,x1,y2); TETANGGA(x2,y2,x2,y1);
84 };
85 }
86
87 contoh adalah1 {88
domain = game_of_life;
89 non -fasih = permainan2x2;
90 init -negara {
91 hidup(x1,y1);
92 hidup(x2,y2);
93 };
94 maksimal -nondef -tindakan = 3; // Memungkinkan hingga 3 sel untuk disetel secara bersamaan
95 cakrawala = 20;
96 diskon = 0.9;
97 }
Status dan Tindakan Saat Ini
Menengah @ Tingkat 1

himpunan(x1, y1)

Status dan Hadiah Berikutnya

himpunan(x1, y2) hidup'(x1, y1)

hidup'(x1, y2)

hidup(x1, y1) hitung-tetangga (x1, y1)

hidup(x1, y2)

hitung-tetangga (x1, y2)

hitung-tetangga (x2, y1) Fungsi Hadiah


hidup(x2, y2)

hitung-tetangga (x2, y2)

hidup(x2, y1)

hidup'(x2, y1)

himpunan(x2, y1)

hidup'(x2, y2)

himpunan(x2, y2)

Gambar 3: DBN dan diagram pengaruh untuk permainan kehidupan stoch.rddl diproduksi secara
otomatis oleh rddl.viz.RDDL2Graph di dalam rddlsim Paket Java [23].

DBN dan diagram pengaruh untuk deskripsi dan instance RDDL ini adalah1 disediakan pada
Gambar 3. Diagram ini sangat penting untuk memahami bahwasemantik RDDL adalah
secara sederhana variabel DBN di atas tanah dari instance domain.

Mungkin yang paling masalah membingungkan bagi mereka yang akrab dengan PPDDL akan menjadi
semantik tindakan parameter dalam RDDL. Untuk ini kita kembali mengacu pada Gambar 3di mana
kami mencatat bahwa ada empat gerakan tanah yang fasih dilambangkan dengan persegi panjang
berwarna hijau. Kami mencatat bahwasetiap dari fasih tanah ini adalah variabel terpisah mengambil
nilai berbeda yang ditentukan oleh pengguna, dan jika kita memeriksa baris 54 dari cpf untuk hidup,
kita melihat bahwa kondisi pada semua tugas nilai kebenaran yang lancar ini sesuai kebutuhan.
Ini berbeda dengan tampilan aksi PPDDL di mana semua informasi aksi diberikan dalam nama
aksi dan parameter. Di sini suatu tindakan tidak dipandang sebagai variabel berparameter
sehingga tidak masuk akal untuk mengatakan bahwa tindakan PPDDL terdiri dari beberapa
variabel boolean dasar (atau variabel int, real, atau enumerated) seperti halnya dalam RDDL.

Pandangan tindakan RDDL sebagai template untuk variabel dasar secara langsung mendukung konkurensi. Jika
tindakan adalah variabel boolean seperti untuk variabel tindakanhidup di domain Game of Life dan Salah adalah
nilai default, lalu mengambil satu tindakan dalam instance domainadalah1 sesuai dengan pengaturan salah
satu dari mengatur (x1, kamu1), mengatur (x1, kamu2), mengatur (x2, kamu1), mengatur (x2, kamu2) benar dan
sisanya salah. Ini sesuai dengan kasus tidak bersamaan di manamax-nondef-actions=1 dan hanya satu tindakan
yang dieksekusi pada satu waktu. Namun, jikamax-nondef-actions=3 lalu sampai tiga mengatur (x1, kamu1),
mengatur (x1, kamu2), mengatur (x2, kamu1), mengatur (x2, kamu2) dapat disetel ke true, sehingga
memungkinkan hingga tiga tindakan bersamaan. Seseorang akan mencatat bahwa semantik cpf untukhidup
dalam deskripsi domain Game of Life masih berlaku dalam kasus bersamaan ini; oleh karena itu, berubahmax-
nondef-tindakan adalah semua yang diperlukan untuk mengontrol konkurensi di RDDL.2

Setelah menjelaskan beberapa detail utama dari permainan kehidupan stok.rddl, kami melanjutkan
untuk menyoroti beberapa aspek baru yang tersisa dari domain ini:

• Pada baris 12–15, kami telah mendefinisikan dua tipe objek yang ditentukan pengguna untuk posisi x dan y yang
digunakan untuk membuat parameter sel dalam Game of Life.

• Pada baris 17-26, kami mencatat definisi variabel dengan parameter. Di sini parameter yang
terdaftar hanyalah tipe objek yang ditentukan sebelumnya.

• Pada baris 19-20, pertama-tama kita perhatikan definisi variabel tidak lancar. Ini digunakan untuk
variabel apa pun yang tidak akan berubah selama perencanaan, tetapi dapat berubah di antara
instance. Tidak lancar dapat ditentukan secara terpisah dari instans seperti yang ditunjukkan
pada baris 72 dan direferensikan dalam instansadalah1 di jalur 89.

• Pada baris 29–57, kami mendefinisikan cpfs berparameter:

- Pada baris 41–43, karena jumlah tetangga yang hidup dari sebuah sel diperlukan beberapa kali untuk
menentukan keadaan selanjutnya dari setiap sel, kita cukup menghitungnya untuk setiap sel dan
menyimpannya dalam variabel perantara sementara. Kami mencatat di sini penggunaan ajumlah lebih
dari x dan y memposisikan objek untuk melakukan penjumlahan ini pada semua sel tetangga yang
mungkin. Seperti sebelumnya, ekspresi logis (di sini di [. . .]) diperlakukan sebagai nilai 0/1 saat
digunakan dalam ekspresi aritmatika (di sini jumlah).

- Baris 46 menerapkan aturan untuk menentukan apakah setiap sel hidup di keadaan
berikutnya. Garis 46–47 menggunakan pengukur universal di atas objek dijikauji
kondisi untuk menerapkan Aturan 6 di komentar, baris 49–54 menerapkan aturan
standar Conway, dan baris 55–56 hanya membuat hasil yang diprediksi oleh aturan
Conway stokastik sesuai dengan yang tidak lancar REGENERASI PROB.

2Tentu saja, jika beberapa tindakan bersamaan dapat mengganggu satu sama lain, ini harus ditangani
secara langsung dalam semantik cpf untuk setiap variabel yang terpengaruh. Ini dibahas dalam domain
Trotoar yang dirujuk di Bagian3.4.
• Baris 60 menentukan hadiah deterministik, yang hanya merupakan jumlah dari sel-sel
hidup (sekali lagi, jumlah ini berskala dengan jumlah sel dalam contoh domain tertentu).

• Baris 62–68 mendemonstrasikan tindakan negara kendala yang belum pernah


digunakan sebelumnya. tindakan negara kendala melayani dua tujuan berikut:

- Pernyataan logis pada semua negara bagian yang dapat dicapai dari negara awal yang sah.
Misalnya, baris 64 memastikan bahwaREGENERASI MASALAH pvariable adalah probabilitas
yang valid dalam [0, 1]. Batasan seperti itu juga dapat berlaku untuk ekspresi logis apa pun
(diukur) melalui fasih.

- Prasyarat tindakan untuk pemeriksaan prasyarat lokal dan global. Karena prasyarat
dalam domain bersamaan harus diperiksa secara global — dua atau lebih tindakan
dapat saling membatasi satu sama lain — kami mengadopsi pendekatan seragam
untuk menentukan semua prasyarat tindakan dalamtindakan negara bagian kendala,
apakah bersamaan atau tidak. Contoh sederhanalokal prasyarat tindakan diberikan
pada baris 67.

Setiap keadaan dan tindakan bersama yang melanggar a tindakan negara kendala selama percobaan
harus menyebabkan simulator percobaan RDDL untuk membatalkan kesalahan karena ada kesalahan
dalam deskripsi domain yang mengarah ke keadaan ilegal, atau agen membuat kesalahan dalam
kebijakan dan mencoba melakukan tindakan ilegal. Secara implisit, jika agen hanya melakukan
tindakan hukum, maka semua lintasan sampel yang mungkin harus memenuhi batasan tindakan
negara. Kendala tindakan negara sangat penting untuk perencana gaya angkat dan regresi yang
merencanakan secara independen dari keadaan awal mana pun (dan karenanya tidak dapat
memanfaatkan keterjangkauan dari keadaan awal untuk menentukan status hukum).

• Baris 72–85 mendefinisikan bagian non-fluen di mana topologi sel ditentukan. Penetapan
khusus untuk non-fluen ini direferensikan pada baris 89 dari definisi instans. Pemisahan
non-fluen dari keadaan awal dimaksudkan untuk mendukung perencanaan terangkat yang
independen dari keadaan awal, sementara memungkinkan perencana untuk
mengeksploitasi struktur nonfluen spesifik yang umum untuk banyak contoh masalah
(misalnya topologi seluler untuk Game of Life, atau jaringan jalan dalam domain logistik).

• Baris 94 menetapkan bahwa max-nondef-action=3, yang digunakan untuk memungkinkan beberapa


mengaturtindakan yang akan dieksekusi secara bersamaan dalam domain ini seperti yang dijelaskan
sebelumnya. Jika domain ini dimaksudkan untuk hanya mendukung tindakan serial, maka ini harus diubah
menjadimax-nondef-actions=1.

3.4 Model Tambahan

RDDL adalah bahasa yang sangat ekspresif, jadi untuk memberikan pemahaman kepada pembaca
tentang beberapa domain menarik lainnya yang dapat dikodekan dalam RDDL, kami merujuknya ke
domain berikut (dengan tautan eksternal yang di-host di rddlsim penyimpanan kode [23]):

• Kontrol lalu lintas multi-persimpangan: Spesifikasi domain ini menggunakan model transisi sel
biner sederhana (model transisi sel fidelitas yang lebih tinggi akan memodelkan kecepatan
dan kepadatan sebagai nilai nyata dan menggunakan pembaruan persamaan perbedaan stokastik). Ini
adalah contoh yang baik tentang bagaimana topologi masalah tertentu dapat dikompilasi menjadi
nonfluents.

• Trotoar: Ini adalah domain sederhana yang menggambarkan bagaimana menangani konflik di
RDDL, dalam hal ini, dua orang berjalan di trotoar dan mencoba mencapai ujung yang
berlawanan tanpa bertabrakan. Di sini, variabel perantara digunakan untuk mendeteksi suatu
konflik dan kemudian variabel state selanjutnya mengkondisikan cpfs pada pendeteksian konflik
ini dalam menentukan state selanjutnya.

• Sistem administrasi: Ini adalah domain MDP/POMDP yang direferensikan secara umum
yang digunakan di sini untuk menunjukkan berbagai kemampuan ekspresif RDDL.

4 Struktur File RDDL

File RDDL dapat berisi tiga jenis deklarasi tingkat atas: domain, non-fasih, dan instans.
Berikut ini adalah deskripsi minimal,kami mengandalkan kode dan daftar sebelumnya
untuk contoh setiap konstruksi yang tercantum di bawah ini.

4.1 blok domain

Deskripsi domain terdiri dari pernyataan persyaratan, definisi tipe parameter,


definisi variabel, dinamika transisi, dan hadiah.

4.1.1 blok persyaratan

• kontinu: domain ini menggunakan variabel parameter yang bernilai nyata

• multinilai: domain ini menggunakan variabel enumerasi


• imbalan-deterministik: domain ini tidak menggunakan hadiah stokastik
• perantara-node: domain ini menggunakan node pvariable perantara
• dibatasi-negara: domain ini menggunakan batasan status
• sebagian-diamati: domain ini menggunakan variabel observasi sehingga diperlakukan
sebagai POMDP (bukan MDP seperti yang terjadi)

• bersamaan: domain ini mengizinkan beberapa tindakan non-default

• bernilai bilangan bulat: domain ini menggunakan variabel integer

• cpf-deterministik: domain ini menggunakan fungsi kondisional deterministik untuk transisi


(penting untuk dicatat bahwa RDDL juga dapat digunakan untuk memodelkan domain
deterministik)
4.1.2 jenis

Jenis yang diizinkan adalah obyek dan disebutkan jenis. Nilai tipe yang disebutkan harus
ditentukan dalam satu set dan harus diawali dengan simbol @.

4.1.3 variabel

Jenis variabel yang diizinkan adalah tidak lancar, lancar keadaan, lancar aksi, lancar antar,dan
mengamati-fasih. Tiga yang pertama membutuhkan nilai default, dan antar-fasih membutuhkan
tingkat stratifikasi.

Rentang variabel yang mungkin adalah bool, int, nyata, obyek, atau disebutkan. Dua yang terakhir
memerlukan nama yang ditentukan pengguna sebagai spesifikasi rentang.

4.1.4 cpfs

Jika persyaratan cpf-deterministik ditentukan, maka bagian ini harus diberi namacdf (fungsi
deterministik bersyarat) sebagai ganti dari cpf (fungsi probabilistik bersyarat). cdf tidak boleh
mereferensikan distribusi probabilitas apa pun; cpfs juga harus menggunakan distribusi
probabilitas atau aKronDelta atau DiracDelta jika cpf sebenarnya deterministik.

cpfs dan cdfs harus ditentukan untuk semua variabel non-aksi yang tidak lancar. cpfs dimulai
dengan nama pvariabel dan spesifikasi variabel logis (variabel harus dimulai dengan ?) yang
sesuai dengan tipe argumen yang tercantum dalam deklarasi pvariabel. Nama variabel untuk
fasih tingkat lanjut harusprima dengan ' untuk membedakannya dari penyebutan nilai status
saat ini dari variabel pvariabel.

Ekspresi cpf adalah komposisi dan dapat terdiri dari konstruksi berikut:
• Konstanta
- benar salah (dievaluasi masing-masing sebagai 1 atau 0 jika digunakan dalam ekspresi aritmatika)

- bilangan bulat (-2,0,1790,. . . ) dan real (-2.0, 0,0001, 3.14159)


- nilai enumerasi (meskipun ini tidak memiliki evaluasi boolean atau aritmatika)
• Pengelompokan dapat menggunakan parens seimbang (. . .) atau tanda kurung [. . .]

• Ekspresi logis (, |, , =>,<=> plus ∃/∀ kuantifikasi atas variabel)


- Penyangkalan ~ atau penghubung logis biner apa pun , |, , =>,<=>
- ∃/∀ kuantifikasi selesai jenis objek menggunakan untuk semua dan ada
ΣΠ
• Ekspresi aritmatika (+,−,, /) plus / agregasi atas variabel)
- Ekspresi aritmatika biner apa pun menggunakan +,−,, /
Σ Π
- dan agregasi berakhir jenis objek menggunakan jumlah dan melecut

• (Dalam) persamaan perbandingan ekspresi (==,∼=,<,>,<=,>=)


- Kesetaraan (==) dan ketidaksetaraan (~=) antara variabel rentang yang identik
- Ketimpangan (<,>,<=,>=) antara variabel bernilai numerik (nyata, int, bool)
atau ekspresi
• Ekspresi bersyarat
- jika-maka-lain: lihat banyak contoh kode
- mengalihkan: lihat contoh kode di dbn jenis interterm po.rddl, baris 63–66
• Distribusi probabilitas dasar (catatan: semua parameter dapat berupa ekspresi)

- KronDelta(v): menempatkan semua massa probabilitas pada argumen diskritnya v, sampel


diskrit dengan demikian deterministik

- DiracDelta(v): menempatkan semua massa probabilitas pada argumen kontinunya v,


sampel kontinu dengan demikian deterministik

- Bernoulli (P): mengambil sampel boolean dengan probabilitas benar diberikan oleh parameterP
∈ [0, 1]

- Diskrit (nama-var,p~): sampel nilai enumerasi dengan vektor probabilitas p~ (


Σ
Saya p~Saya =
1) dimana p~ digambarkan seperti pada contoh baris 53–57 didbn
jenis interm po.rddl.

- Normal(μ,σ2): sampel nilai kontinu dari distribusi Normal dengan mean μ


dan varians σ2, σ2 > 0.
- racun(λ): sampel nilai integer dari distribusi Poisson dengan parameter
laju λ per interval waktu tetap, > 0.
- (lebih banyak yang akan datang di masa depan)

4.1.5 hadiah

A hadiah bagian menentukan ekspresi aritmatika apa pun yang dapat dievaluasi/disampel ke
konstanta numerik (jadi tidak ada variabel yang tidak terikat) di atas keadaan saat ini dari setiap
tidak lancar, lancar keadaan, lancar tindakan, atau antar-fasih variabel.

jika imbalan-deterministik persyaratan ditentukan, spesifikasi hadiah tidak boleh


merujuk distribusi apa pun (mis. Bernoulli).
4.1.6 kendala tindakan negara

A tindakan negara bagian kendala terdiri dari baris yang berisi ekspresi logis yang dapat
dievaluasi menjadi benar atau salah (jadi tidak ada variabel yang tidak terikat) di atas keadaan
saat ini dari setiaptidak lancar, lancar, atau lancar bertindak variabel.

Perhatikan bahwa variabel perantara tidak bisa direferensikan dalam kendala negara-tindakan
karena ini akan sesuai dengan memeriksa hasil (sebagian) dari suatu tindakan, daripada
prasyaratnya.

Pelanggaran apapun tindakan negara kendala harus mengarah pada penghentian percobaan simulator
RDDL saat ini dengan kesalahan.

4.2 blok non-fluen

NS tidak lancar block menjelaskan sebuah instantiasi non-fluen, misalnya, topologi sel tetap dalam
Game of Life atau topologi jalan dalam domain logistik atau lalu lintas, dan domain objek yang
membuat parameter variabel non-fluen tersebut. Hanya domain objek yang ditentukan pengguna yang
digunakan sebagai parameter tidak lancar yang perlu ditentukan di bagian ini. Domain objek lain dapat
ditentukan dalamcontoh memblokir.

NS tidak lancar blok mungkin berisi domain, objek, dan tidak lancar bagian.

4.3 blok contoh

NS contoh blok terdiri dari instance objek yang tersisa yang tidak dibuat dalam
spesifikasi non-fluen opsional, status awal, dan kriteria objektif.
NS contoh blok mungkin berisi domain, non-fluents, objek, status init, max-
nondef-actions (untuk konkurensi), cakrawala, dan diskon bagian.
Lihat diskusi setelahnya prop dbn untuk memahami bagaimana RDDL mengevaluasi tujuan pada percobaan
apa pun.

5 rddlsim Simulator RDDL

Untuk saat ini, silakan merujuk ke dokumentasi yang disediakan di direktori root dari rddlsim
repositori kode terletak di http://code.google.com/p/rddlsim/.
Referensi

[1] Thomas Dean dan Keiji Kanazawa. Sebuah model untuk penalaran tentang ketekunan dan
sebab-akibat.Kecerdasan Komputasi, 5(3):142–150, 1989.

[2] Ronald A. Howard dan James E. Matheson. Diagram pengaruh. Dalam Ronald A.
Howard dan James E. Matheson, editor,Bacaan tentang Prinsip dan Aplikasi Analisis
Keputusan. Kelompok Keputusan Strategis, Menlo Park, CA, 1984.
[3] Malte Helmert. Sumber daya PDDL:http://ipc.informatik.uni-freiburg.de/
PddlResources, 2009.
[4] Hakan Younes dan Michael Littman. PPDDL: Bahasa definisi domain perencanaan
probabilistik:http://www.cs.cmu.edu/~lorens/papers/ppddl.pdf, 2004.

[5] Carlos Daganzo. Model transmisi sel: Lalu lintas jaringan. Institut studi
transportasi, laporan penelitian, kertas kerja, prosiding, Institut Studi
Transportasi, UC Berkeley, 1994.
[6] Avrim Blum dan John Langford. Perencanaan probabilistik dalam kerangka graphplan. Di
dalamKonferensi Eropa tentang Perencanaan (ECP) ke-5, halaman 319–332, London, Inggris,
2000.

[7] Maria Fox dan Derek Long. PDDL2.1: Perpanjangan ke PDDL untuk mengekspresikan
domain perencanaan temporal.Jurnal Penelitian Kecerdasan Buatan, 20(1):61– 124,
2003.

[8] Iain Little dan Sylvie Thiebaux. Perencanaan probabilistik bersamaan dalam kerangka
graphplan. Di dalamICAPS, halaman 263–273. AAA, 2006.

[9] D. Koller, D. McAllester, dan A. Pfeffer. Inferensi Bayesian yang efektif untuk
program stokastik. Di dalamProsiding Konferensi Nasional Kecerdasan Buatan
(AAAI) ke-14, halaman 740–747, 1997.
[10] Jesse Hoey, Robert St-Aubin, Alan Hu, dan Craig Boutilier. SPUDD: Perencanaan stokastik
menggunakan diagram keputusan. Di dalamKetidakpastian dalam Kecerdasan Buatan (UAI-
99), halaman 279–288, Stockholm, 1999.

[11] Pascal Poupart. Memanfaatkan Struktur untuk Menyelesaikan Secara Efisien Proses
Keputusan Markov Skala Besar yang Dapat Diamati Sebagian. Tesis PhD, Departemen Ilmu
Komputer, Universitas Toronto, Toronto, Kanada, 2005.

[12] Pascal Poupart. Repositori kode perseus simbolis, 2005.

[13] David Poole. Inferensi probabilistik orde pertama. Di dalamIJCAI, halaman 985–991, 2003.

[14] Craig Boutilier, Ray Reiter, dan Bob Price. Pemrograman dinamis simbolis untuk MDP orde
pertama. Di dalamIJCAI-01, halaman 690–697, Seattle, 2001.
[15] Scott Sanner dan Craig Boutilier. Perkiraan teknik solusi untuk MDP orde pertama
terfaktor. Di dalamProsiding Konferensi Internasional Ketujuh Belas tentang
Perencanaan dan Penjadwalan Otomatis (ICAPS 07), 2007.
[16] Scott Sanner dan Kristian Kersting. Pemrograman dinamis simbolis untuk poMDP orde
pertama. Di dalamDalam Prosiding Konferensi AAAI ke-24 tentang Kecerdasan Buatan
(AAAI-10), Atlanta, Georgia, 19-23 Juli 2010. AAAI Press.

[17] Drew McDermott, Malik Ghallab, Adele Howe, Craig Knoblock, Ashwin Ram,
Manuela Veloso, Daniel Weld, dan David Wilkins. PDDL – bahasa definisi domain
perencanaan – versi 1.2. Laporan teknis, Yale Center for Computational Vision
and Control, Oktober 1998.
[18] Stefan Edelkamp dan Jörg Hoffmann. PDDL2.2: Bahasa untuk bagian klasik
IPC-4. Laporan teknis, Albert-Ludwigs-Universitt Freiburg, Institut fr Informatik,
Januari 2004.
[19] Alfonso Gerevini dan Derek Long. Kendala rencana dan preferensi di PDDL3.
Laporan teknis, Dipartimento di Elettronica per l'Automazione, Universit degli Studi
di Brescia, Agustus 2005.

[20] Richard S. Sutton, Doina Precup, dan Satinder P. Singh. Antara mdps dan semimdps:
Kerangka kerja untuk abstraksi temporal dalam pembelajaran penguatan.Kecerdasan
buatan, 112(1-2):181–211, 1999.

[21] Nathaniel Love, Timothy Hinrichs, David Haley, Eric Schkufza, dan Michael
Genesereth. Bermain game umum: Deskripsi Game Spesifikasi bahasa. Laporan
teknis, Grup Logika Universitas Stanford, Maret 2008.

[22] Hctor Geffner. Strip fungsional: Bahasa yang lebih fleksibel untuk perencanaan dan pemecahan
masalah. Dalam Jack Minker, editor,Kecerdasan Buatan berbasis logika, halaman 188–209. Kluwer,
2000.

[23] Scott Sanner dan Sungwook Yoon. rddlsim simulator RDDL:http://kode.


google.com/p/rddlsim/, 2010.
[24] M. Gardner. Kolom: Permainan matematika.Amerika ilmiah, Oktober 1970.
Lampiran

sysadmin mdp.rddl
1 ///////////////////////////////////////////////////////////////// //////////////////2 // SysAdmin Boolean MDP3
//

4 // Contoh deskripsi RDDL untuk masalah SysAdmin yang terkenal5 // (Guestrin , Koller , Parr ,
IJCAI -01).6 //

7 // Penulis: Scott Sanner (ssanner [at] gmail.com)8


///////////////////////////////////////////////////////////////// //////////////////9 domain sysadmin_mdp {

10
11 persyaratan = {
12 hadiah -deterministik // domain ini tidak menggunakan hadiah stokastik
13 };
14
15 jenis {
16 komputer : objek;
17 };
18
19 pvariabel {
20
21 REBOOT - MASALAH : { non -fasih , nyata , bawaan = 0,1 }; REBOOT
22 -PENALTI : {non -fasih , nyata , bawaan = 0,75 };
23
24 TERHUBUNG(komputer , komputer) : { non -fasih , bool , bawaan = Salah };
25
26 berjalan (komputer) : { negara -fasih , bool , bawaan = Salah };
27
28 reboot (komputer) : { tindakan -fasih , bool , bawaan = Salah };
29 };
30
31 cpfs {
32
33 menjalankan '(?x) = jika (boot ulang (?x))
34 kemudian KronDelta(benar)jika // jika komputer di-reboot maka harus dijalankan
35 lain (berlari (?x)) // hasil lain tergantung pada properti jaringanBernoulli(
36 kemudian

37 . 5 + .5*[1 + sum_{?y : komputer} (TERHUBUNG (?y,?x) ^ berlari (?y))]


38 / [1 + sum_{?y : komputer} TERHUBUNG (?y,?x)])
39 lain Bernoulli(REBOOT -PROB);
40 };
41
42 hadiah = sum_{?c : komputer} [berjalan (?c) - (REBOOT -PENALTY * reboot (?c))];
43 }

Anda mungkin juga menyukai