Bab 8 Program Dinamik Stokastik

Ab.
Alkaff
Penyelidikan Operasi
8. Pemrograman Dinamik Stokastik

Materi
Pemrograman Dinamik Stokastik
Pengaturan Optimal dengan Program Dinamik
Infinite Horizon Dynamic Programming/Proses

Keputusan Markov
Abe Alkaff
Pemrograman Dinamik Stokastik berkaitan dengan permasalahan yang

memiliki variabel acak yang menyatakan suatu kejadian yang bernilai
acak.
𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛
Deterministik: 𝑆𝑡𝑎𝑡𝑒 𝑆𝑡𝑎𝑡𝑒 𝑆𝑡𝑎𝑡𝑒
𝑋𝑁 𝑋𝑁+1
𝑆𝑁 𝑆𝑁+1 𝑆𝑁+2
𝑓𝑛 (𝑆𝑛 ) 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 ) 𝑓𝑛+1 (𝑆𝑛+1 ) 𝐶𝑛+1 (𝑋𝑛+1 , 𝑆𝑛+1 )

Keadaan pada tahap berikutnya ditentukan dengan pasti berdasarkan
keadaan dan keputusan pada tahap sebelumnya
Abe Alkaff
Stokastik:
𝑜𝑢𝑡𝑐𝑜𝑚𝑒 1 1 1
𝑠𝑡𝑎𝑡𝑒 𝑆𝑛+1 𝑓𝑛+ 1 𝑆𝑛+1 𝑑𝑒𝑛𝑔𝑎𝑛 𝑝𝑟𝑜𝑏 𝑝1
𝑝𝑟𝑜𝑏 = 𝑝1
𝑠𝑡𝑎𝑡𝑒 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 2 2 2

𝑆𝑛 𝑋𝑛 𝜔𝑛 𝑠𝑡𝑎𝑡𝑒 𝑆𝑛+1 𝑓𝑛+1 𝑆𝑛+1 𝑑𝑒𝑛𝑔𝑎𝑛 𝑝𝑟𝑜𝑏 𝑝2
𝑓𝑛 (𝑆𝑛 ) 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 3 3 3

𝑠𝑡𝑎𝑡𝑒 𝑆𝑛+1 𝑓𝑛+ 1 𝑆𝑛+1 𝑑𝑒𝑛𝑔𝑎𝑛 𝑝𝑟𝑜𝑏 𝑝3
Ekspektasi 𝑓𝑛+1 𝑆𝑛+1 = ෍ 𝑝𝑖 𝑓𝑛+1 𝑆𝑛𝑖 +1

Abe Alkaff
Persamaan Rekursif
𝑓𝑛 𝑆𝑛 = 𝑜𝑝𝑡 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) + Ε 𝑓𝑛+1 (𝑆𝑛+1 )

𝑋𝑛
𝑖
𝑓𝑛 𝑆𝑛 = 𝑜𝑝𝑡 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) + ෍ 𝑝𝑖 𝑓𝑛+1 (𝑆𝑛+1 )
𝑋𝑛
Abe Alkaff
Contoh Permasalahan
Toko elektronik menjual TV dengan spesifikasi tertentu. Toko
tersebut menyediakan stok TV tersebut maksimum 2 unit. TV dipesan
toko dari pemasok. Pesanan tersebut datang pada hari yang sama. Biaya
pembelian adalah 5 + 10𝑥, dimana 𝑥 menyatakan banyaknya yang dibeli
oleh toko dari pemasok. Banyaknya pembeli yang datang ke toko dalam
satu minggu adalah acak dengan probabilitas sebagai berikut:
Pembeli 0 1 2
Probabilitas 0.3 0.5 0.2
Abe Alkaff
Persyaratan
 TV yang tidak laku pada suatu minggu disimpan untuk minggu depan
dengan biaya penyimpan = 2/TV/minggu
 Maksimum stok TV = 2 unit
 TV dijual dengan harga 20
 Bila ada pembeli tetapi stok kosong, toko mengalami kerugian
kesempatan = 3/TV
 Toko akan membuat rencana pemesanan dalam 1 bulan (4 minggu)
sehingga keuntungannya maksimal.
 Pada awal bulan tidak ada stok.
Abe Alkaff

Formulasi Pemrograman Dinamik
 State : Stok TV ditoko (𝑆𝑛 )

 Decision : Banyaknya yang dipesan ke pemasok (𝑋𝑛 )
 Event : Pembeli datang
 Outcome : Banyaknya TV yang terjual 𝜔𝑛
 State transformasi/state equation : 𝑆𝑛+1 = max 𝑆𝑛 + 𝑋𝑛 − 𝜔𝑛 , 0
 Fungsi Hasil : 20𝐴 − 𝐵 − 2𝑆𝑛+1 − 3 ∗ max 𝜔𝑛 − 𝑋𝑛 − 𝑆𝑛 , 0
Biaya Pembelian
5 + 10𝑋𝑛 , 𝑋𝑛 = 1,2 Biaya Penolakan
𝐵=ቊ (yg tdk terlayani minggu itu)
0, 𝑋𝑛 = 0
Hasil Penjualan
𝜔𝑛 𝑏𝑖𝑙𝑎 𝑋𝑛 + 𝑆𝑛 − 𝜔𝑛 ≥ 0 Biaya Penyimpanan
𝐵=ቊ (yg tdk terjual minggu itu)
𝑋𝑛 + 𝑆𝑛 𝑏𝑖𝑙𝑎 𝑋𝑛 + 𝑆𝑛 − 𝜔𝑛 ≤ 0
Abe Alkaff

Formulasi Pemrograman Dinamik
 Tahap : Awal dari setiap minggu

 Horizon : 4
 Syarat batas : 𝑆0 = 0; 𝑆5 = 1 atau 2 atau 3 (bergantung pada penjualan)
 Fungsi rekursif : 𝑓𝑛 𝑆𝑛 = 𝑜𝑝𝑡 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) + Ε 𝑓𝑛+1 (𝑆𝑛+1 )
 Ruang keadaan : {0,1,2}
Abe Alkaff
Tahap 4 – Minggu Keempat

𝑺𝟒 𝑿𝟒 𝑾𝟒 𝑪𝟒 𝒇𝟒 𝑬(𝒇𝟒 )
0 0 0 0 0
0 0 1 -3 -3 -2,7
0 0 2 -6 -6
1 0 0 -2 -2
1 0 1 20 20 12,8
1 0 2 17 17
2 0 0 -4 -4
2 0 1 18 18 15,8
2 0 2 40 40
Abe Alkaff

𝑺𝟒 𝑿𝟒 𝑾𝟒 𝑪𝟒 𝒇𝟒 𝑬(𝒇𝟒 )
0 1 0 -17 -17
0 1 1 5 5 -2,2
0 1 2 2 2
1 1 0 -19 -19
1 1 1 3 3 0,8
1 1 2 25 25
2 1 0 - -
2 1 1 1 1 4,7
2 1 2 21 21
Abe Alkaff

𝑺𝟒 𝑿𝟒 𝑾𝟒 𝑪𝟒 𝒇𝟒 𝑬(𝒇𝟒 )
0 2 0 -29 -29
0 2 1 -7 -7 -9,2
0 2 2 15 15
1 2 0 - -
1 2 1 -9 -9 -1,9
1 2 2 13 13
2 2 0 - -
2 2 1 - - 2,2
2 2 2 11 11
Abe Alkaff
Tahap 3 – Minggu Ketiga

𝑺3 𝑿3 𝑾3 𝑪3 𝒇3 𝑬(𝒇3 )
0 0 0 0 -2,2
0 0 1 -3 -5,2 -4,9
0 0 2 -6 -8,2
1 0 0 -2 10,8
1 0 1 20 17,8 15,1
1 0 2 17 14,8
2 0 0 -4 11,8
2 0 1 18 30,8 26,5
2 0 2 40 37,8
Abe Alkaff

𝑺3 𝑿3 𝑾3 𝑪3 𝒇3 𝑬(𝒇3 )
0 1 0 -17 -19,2
0 1 1 5 2,8 -4,4
0 1 2 2 -0,2
1 1 0 -19 -3,2
1 1 1 3 15,8 11,5
1 1 2 25 22,8
2 1 0 - -
2 1 1 1 16,8 12,16
2 1 2 21 18,8
Abe Alkaff

𝑺3 𝑿3 𝑾3 𝑪3 𝒇3 𝑬(𝒇3 )
0 2 0 -29 -13,2
0 2 1 -7 5,8 1,5
0 2 2 15 12,8
1 2 0 - -
1 2 1 -9 6,8 8,56
1 2 2 13 25,8
2 2 0 - -
2 2 1 - - 5,36
2 2 2 11 26,8
Abe Alkaff

Tahap 2 – Minggu Kedua
𝑺2 𝑿2 𝑾2 𝑪2 𝒇2 𝑬(𝒇2 )
0 0 0 0 1.5
0 0 1 -3 -1.5 -1.2
0 0 2 -6 -4.5
1 0 0 -2 13.1
1 0 1 20 21.5 18.38
1 0 2 17 18.5
2 0 0 -4 22.5
2 0 1 18 33.1 31.6
2 0 2 40 41.5
Abe Alkaff

𝑺2 𝑿2 𝑾2 𝑪2 𝒇2 𝑬(𝒇2 )
0 1 0 -17 -1,9
0 1 1 5 6,5 2,28
0 1 2 2 3,5
1 1 0 -19 7,5
1 1 1 3 18,1 16,6
1 1 2 25 26,5
2 1 0 - -
2 1 1 1 27,5 20,97
2 1 2 21 36,1
Abe Alkaff

𝑺2 𝑿2 𝑾2 𝑪2 𝒇2 𝑬(𝒇2 )
0 2 0 -29 -2,5
0 2 1 -7 8,1 6,6
0 2 2 15 16,5
1 2 0 - -
1 2 1 -9 6,1 8,67
1 2 2 13 28,1
2 2 0 - -
2 2 1 - - 7,5
2 2 2 11 37,5
Abe Alkaff
Tahap 1 – Minggu Pertama

𝑺1 𝑿1 𝑾1 𝑪1 𝒇1 𝑬(𝒇1 )
0 0 0 0 6,6
0 0 1 -3 3,6 3,65
Ulangi iterasi ini
0 0 2 -6 0,6 dengan
0 1 0 -17 1,38 menggunakan S
sebagai variable
0 1 1 5 11,6 7,934
utama (S tetap,
0 1 2 2 8,6 X berubah). Apa
0 2 0 -29 2,6 bisa? Apakah
lebih mudah?
0 2 1 -7 11,38 6,79
0 2 2 15 1,6
Abe Alkaff

Maka Keputusan yang diambil agar keuntungan maksimum
𝑺𝟏 𝑿𝟏 𝑺𝟐 𝑿𝟐 𝑺𝟑 𝑿𝟑 𝑺𝟒 𝑿𝟏 𝑬
0 1 7,93 +6,6+1,5-2,2 =13,834
0 2 1 0 7,93 +6,6+1,5+12,8 =28,834
2 0 7,93 +6,6+1,5+15,8 =31,834
0 1 7,93 +6,6+15,1-2,2 =27,434
0 2 1 0
1 0 7,93 +6,6+15,1+12,8 =42,434
0 1 7,93 +6,6+26,5-2,2 =38,834
0 1 2 0 1 0 7,93 +6,6+26,5+12,8 =53,834
2 0 7,93 +6,6+26,5+15,8 =56,834
0 1 7,93 +18,38+1,5-2,2 =25,614
0 2 1 0 7,93 +18,38+1,5+12,8=40,614
1 0 2 0 7,93 +18,38+1,5+15,8=43,614
0 1 7,93 +18,38+15,1-2,2 =39,214
1 0
1 0 7,93 +18,38+15,1+12,8=54,214
Abe Alkaff

Keputusan optimal untuk toko tersebut dapat dideskripsikan sebagai:
 Pada minggu ke 1 beli 1 TV.
 Bila 1 TV tersebut terjual, maka pada minggu ke 2 beli 2 TV. Bila tidak
terjual, pada minggu ke 2 jangan beli TV lagi
 Pada minggu ke 3, cek stok TV. Bila habis, beli 2 TV lagi. Bila masih ada
sisa stok TV, jangan beli TV lagi
 Pada minggu ke 4, cek stok. Bila habis, beli 1 TV lagi. Bila masih ada sisa
stok, jangan beli TV lagi
Abe Alkaff

Sistem dinamik dinyatakan dengan persamaan state
𝑠𝑛+1 = 𝑔(𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )
Dimana 𝑠𝑛 : State pada tahap (saat) n

𝑥𝑛 : Decision pada tahap (saat) n
𝑤𝑛 : Gangguan pada tahap (saat) n
𝑔 : Fungsi yang mentransformasikan 𝑆𝑛 ke 𝑆𝑛+1
(State Transformation)
Abe Alkaff

Aksi Kontrol adalah keputusan yang diambil untuk mempengaruhi

perubahan state
𝑥𝑛 = Aksi kontrol pada saat n
Aksi Kontrol tersebut dipilih sedemikian hingga suatu kriteria di optimalkan
Aksi Kontrol yang mengoptimalkan suatu nilai kriteria disebut kontrol Optimal
atau Pengaturan Optimal
Abe Alkaff

Kriteria yang dipergunakan pada umumnya adalah fungsi dari 𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛
yang merupakan jumlahan nilai fungsi hasil yang diperoleh pada tiap
tahapnya
𝑁
𝐾 = ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )
𝑛=1
Dengan demikian aksi kontrol optimal adalah 𝑥𝑛 yang mengoptimalkan K
𝑁
𝑂𝑝𝑡 𝐾 = 𝑂𝑝𝑡 ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )

𝑥𝑛 𝑥𝑛
𝑛=1
Abe Alkaff

Strategi Kontrol adalah sekumpulan aksi kontrol yang berlaku untuk

jangka panjang (selama horizon waktu pengendalian)
Strategi Kontrol dapat dicari berdasarkan formula dari 𝑥𝑛 yang

diperoleh dari proses optimasi terhadap K
Secara umum, suatu Strategi Kontrol dinyatakan dalam suatu fungsi yang
manyatakan hubungan antara 𝑥 dan 𝑠 yang berlaku untuk semua 𝑛 = 1,2,… 𝑁
𝑥𝑛 = 𝑓 𝑠𝑛 , 𝑤𝑛 𝑛 = 1,2, … , 𝑁
Abe Alkaff

Permasalahan ini dapat diselesaikan secara bertahap dengan menggunakan
pemrograman dinamik untuk melakukan optimasi secara bertahap:
𝑁−1
𝐾 = 𝑓𝑁 𝑠𝑁 + ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )
𝑛=1
Dimana 𝑓𝑁 𝑆𝑁 adalah hasil optimasi 𝐶𝑁 𝑠𝑁 , 𝑥𝑁 , 𝑤𝑁 terhadap 𝑥𝑁 , atau
𝑓𝑁 𝑠𝑁 = 𝑂𝑝𝑡 {𝐶𝑁 𝑠𝑁 , 𝑥𝑁 , 𝑤𝑁 }
𝑥𝑁
Sehingga 𝑁−1
𝑂𝑝𝑡 𝐾 = 𝑓𝑁 𝑠𝑁 + 𝑂𝑝𝑡 ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )

𝑥𝑛 𝑥𝑛
𝑛=1
Demikian seterusnya dari 𝑛 = 𝑁 sampai 𝑛 = 1
Abe Alkaff

Contoh : Persediaan TV
𝑠𝑛 = Banyak stok TV pada awal minggu ke-𝑛
𝑥𝑛 = Banyaknya TV yang dipesan pada awal minggu ke-𝑛
𝑤𝑛 = Penjualan TV dalam minggu ke-𝑛
𝑠𝑛+1 = max(0, 𝑠𝑛 + 𝑥𝑛 − 𝑤𝑛 )
𝐶𝑛 𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 = 20𝑤𝑛 − (5 + 10𝑥𝑛 + 2 max 𝑠𝑛 + 𝑥𝑛 − 𝑤𝑛 , 0 + 3 max 0, 𝑤𝑛 − 𝑥𝑛 − 𝑠𝑛 )

𝑥𝑛 ≠ 0
𝐶𝑛 𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 = 20𝑤𝑛 − (2 max 𝑠𝑛 + 𝑥𝑛 − 𝑤𝑛 , 0 + 3 max 0, 𝑤𝑛 − 𝑥𝑛 − 𝑠𝑛 )
𝑥𝑛 = 0
Abe Alkaff

Persamaan aksi control telah dirumuskan sebagai:
𝑥𝑛 = 𝑓 𝑠𝑛 , 𝑤𝑛
𝑥𝑛 dapat dicari dengan pemrograman dinamik untuk 𝑁 tertentu
(untuk contoh ini 𝑁 = 4 )
Misalkan untuk contoh tersebut diminta untuk mengevaluasi strategi

kontrol mana yang lebih baik:
1. Pesan 2 hanya bila persediaan habis
2. Pesan (2 − 𝑠) dimana 𝑠 adalah stok pada awal minggu berjalan
Abe Alkaff

Strategi 1
Rumusan strategi kontrolnya adalah:
𝑥𝑛 = 2 𝑏𝑖𝑙𝑎 𝑠𝑛 = 0
=0 𝑏𝑖𝑙𝑎 𝑠𝑛 ≠ 0
Tabel Probabilitas Stok Aksi Stok Minggu Depan
minggu ini Kontrol 0 1 2
0 2 0.2 0.5 0.3
1 0 0.5+0.2 0.3 0
2 0 0.2 0.5 0.3
Abe Alkaff

Strategi 1
Tabel Hasil
Stok awal Stok Minggu Depan
Aksi Kontrol
minggu ini
(x) 0 1 2
(s)
0 2 40-25 = 15 20-25-2-0 = -7 -25-4-0 = -29

20-0-0-0 = 20
1 0 0-0-2-0 = -2 -
20-0-0-3 = 17
2 0 40-0-0 = 40 20-2-0 = 18 -4-0 = -4
Abe Alkaff

Strategi 1
𝑺𝟒 𝑿𝟒 𝒇𝟒 (𝑺𝟒 ) = 𝑪𝟒 𝑺𝟒 , 𝑿𝟒 + 𝒇𝟓 (𝑺𝟓 ) = 𝑪𝟒 (𝑺𝟒 , 𝑿𝟒 )
0 2 (0.2)(15)+(0.5)(-7)+(0.3)(-29)= -9.2
1 0 (0.5)(20)+(0.2)(17)+(0.3)(-2)=12.8
2 0 (0.2)(40)+(0.5)(18)+(0.3)(-4)=15.8
Abe Alkaff

Strategi 1

𝑺𝟑 𝑿𝟑 𝒇𝟑(𝑺𝟑) = 𝑪𝟑 (𝑺𝟑 , 𝑿𝟑 ) + 𝒇𝟒 (𝑺𝟒 )
0 2 (0.2)(15-9.2)+(0.5)(-7+12.8)+(0.3)(-29+15.8)= 0.1
1 0 (0.5)(20-9.2)+(0.2)(17-9.2)+(0.3)(-2+12.8)=10.2
2 0 (0.2)(40-9.2)+(0.5)(18+12.8)+(0.3)(-4+15.8)=25.1
Abe Alkaff

Strategi 1

𝑺𝟐 𝑿𝟐 𝒇𝟐(𝑺𝟐)
0 2 (0.2)(15+0.1)+(0.5)(-7+10.2)+(0.3)(-29+25.1)= 3.39
1 0 (0.5)(20+0.1)+(0.2)(17+0.1)+(0.3)(-2+10.2)=15.93
2 0 (0.2)(40+0.1)+(0.5)(18+10.2)+(0.3)(-4+25.1)=28.45
Abe Alkaff

Strategi 1

S1 X1 f1(S1) Rata-rata
0 2 (0.2)(15+3.39)+(0.5)(-7+15.93)+(0.3)(- (15.35+27.722+40.35)
29+28.45)= 7,978 /3 = 27.807
1 0 (0.5)(20+3.39)+(0.2)(17+3.39)+(0.3)(-2+15.93)
2 0 (0.2)(40+3.39)+(0.5)(18+15.93)+(0.3)(-4+28.5
Abe Alkaff

Strategi 2
Rumusan strategi kontrolnya adalah:
𝑥𝑛 = 2 − 𝑠𝑛
Tabel Probabilitas Stok Aksi Stok Minggu Depan

0 2 0.2 0.5 0.3
1 1 0.2 0.5 0.3
2 0 0.2 0.5 0.3
Abe Alkaff

Strategi 2
Tabel Hasil
Stok Minggu Depan
Stok Aksi
0 2 40-25-0-0 = 15 20-25-2-0 = -7 -25-4-0 = -29

1 1 40-15-0-0 = 25 20-15-0-0 = 5 -15-4 = -19
2 0 40-0-0-0 = 40 20-2-0-0 = 18 -4-0 = -4
Abe Alkaff

Strategi 2

𝑺𝟒 𝑿𝟒 𝒇𝟒(𝑺𝟒)
0 2 (0.2)(15)+(0.5)(-7)+(0.3)(-29)= - 9.2
1 1 (0.2)(25)+(0.5)(3)+(0.3)(-19)= 0.8
2 0 (0.2)(40)+(0.5)(18)+(0.3)(-4)=15.8
Abe Alkaff

Strategi 2

𝑺𝟑 𝑿𝟑 𝒇𝟑(𝑺𝟑)
0 2 (0.2)(15-9.2)+(0.5)(-7+0.8)+(0.3)(-29+15.8)= -5.9
1 1 (0.2)(25-9.2)+(0.5)(3+0.8)+(0.3)(-19+15.8)= 4.1
2 0 (0.2)(40-9.2)+(0.5)(18+0.8)+(0.3)(-4+15.8)=19.1
Abe Alkaff

Strategi 2

𝑺𝟐 𝑿𝟐 𝒇𝟐(𝑺𝟐)
0 2 (0.2)(15-5.9)+(0.5)(-7+4.1)+(0.3)(-29+19.1)= -2.6
1 1 (0.2)(25-5.9)+(0.5)(3+4.1)+(0.3)(-19+19.1)= 7.4
2 0 (0.2)(40-5.9)+(0.5)(18+4.1)+(0.3)(-4+19.1)=22.4
Abe Alkaff

Strategi 2

S1 X1 f1(S1) Rata-rata
0 2 (0.2)(15-2.6)+(0.5)(-7+7.4)+(0.3)(-29+22.4)= 0.7 (0.7+10.7+25.7)/3=
12.3667
1 1 (0.2)(25-2.6)+(0.5)(3+7.4)+(0.3)(-19+22.4)= 10.
2 0 (0.2)(40-2.6)+(0.5)(18+7.4)+(0.3)(-4+22.4)=25.7
Abe Alkaff

Perbandingan Strategi yang lebih baik
𝑓1 (𝑠1 ) Strategi 1
Bandingkan dengan Yang lebih besar adalah yang paling baik
𝑓1 (𝑠1 ) Strategi 2
Abe Alkaff

Imagine that you have $10,000 to invest and that you will have an opportunity to invest that
amount in either of two investments (A or B) at the beginning of each of the next 3 years. Both
investments have uncertain returns. For investment A you will either lose your money entirely or
(with higher probability) get back $20,000 (a profit of $10,000) at the end of the year. For
investment B you will get back either just your $10,000 or (with low probability) $20,000 at the end
of the year. The probabilities for these events are as follows:
Investment Amount Returned Probability

0 0,25
A
20.000 0,75
10.000 0,9
B
20.000 0,1
You are allowed to make only (at most) one investment each year, and you can invest only $10,000
each time. Use dynamic programming to find the investment policy that maximizes the expected
amount of money you will have after 3 years.
Source: 10.4-2. Introduction to Operation Research 9th edition, Hillier and Lieberman.
Abe Alkaff

Tahap : Tahun
Horizon :3
Syarat batas : 𝑆1 = 10000; 𝑆4 = sebanyak-banyaknya (dalam hal ini yang
paling mungkin menjadi maksimal 40000)
State (𝑆𝑛 ) : Uang tersedia (Modal awal dan hasil invetasi sebelumnya)
Decision (𝑋𝑛 ) : Investment (A or B)
Event : Amount returned
Outcome : Banyaknya amount returned 𝜔𝑛
State transform : 𝑆𝑛+1 = {𝑆𝑛 − 𝑋𝑛 + 𝜔𝑛 }
Fungsi Hasil : 𝑆𝑛 − 𝑋𝑛 + 𝜔𝑛
Penyelesaian : 𝑓1 𝑆1
Abe Alkaff

𝑠𝑛 = Uang tersedia pada awal tahun investasi

𝑥𝑛 = Pilihan investasi di A atau B
𝑤𝑛 = Hasil yang didapatkan dari investasi
Strategi kontrol:
1. Investasi di B jika uang tersedia ≥ 20000, investasi di A jika uang tersedia 10000
2. Hanya berinvestasi di B
Abe Alkaff

Tabel Probabilitas
Uang Tersedia Tahun

Aksi Berikutnya
Uang Tersedia
Kontrol
+𝟎 +𝟏𝟎. 𝟎𝟎𝟎 +𝟐𝟎. 𝟎𝟎𝟎
0 < 𝑆 ≤ 10.000 A 0,25 - 0,75
B - 0,9 0,1
𝑆 ≥ 20.000 A 0,25 - 0,75
B - 0,9 0,1
Abe Alkaff

Strategi 1
Tahap 3
𝑆3 𝑋3 𝑬[𝑓3 𝑆3 ]
30.000 B (30.000-10.000+10.000)(0,9) + (30.000-10.000+20.000)(0.1) = 31.000
20.000 B (20.000-10.000+10.000)(0,9) + (20.000-10.000+20.000)(0.1) = 21.000
10.000 A Tidak mungkin ke state ini
Tahap 2
𝑆2 𝑋2 𝑬[𝑓2 𝑆2 ]
20.000 B (20.000-10.000+10.000+21.000)(0,9) + (20.000-10.000+20.000+31.000)(0.1) = 43.000
10.000 A Tidak mungkin ke state ini
0 - -
Abe Alkaff

Tahap 1
𝑆1 𝑋1 𝑬[𝑓1 𝑆1 ]
10.000 A (0)(0,25) + (10.000-10.000+20.000+43.000)(0,75) = 47.250
Strategi 2
Tahap 3
𝑆3 𝑋3 𝑬[𝑓3 𝑆3 ]
30.000 B (30.000-10.000+10.000)(0,9) + (30.000-10.000+20.000)(0.1) = 31.000
20.000 B (20.000-10.000+10.000)(0,9) + (20.000-10.000+20.000)(0.1) = 21.000
10.000 B (10.000-10.000+10.000)(0,9) + (10.000-10.000+20.000)(0.1) = 11.000
Abe Alkaff

Tahap 2
𝑆2 𝑋2 𝑬[𝑓2 𝑆2 ]
20.000 B (20.000-10.000+10.000+21.000)(0,9) + (20.000-10.000+20.000+31.000)(0.1) = 43.000
10.000 B (10.000-10.000+10.000+11.000)(0,9) + (10.000-10.000+20.000+21.000)(0.1) = 21.000
Tahap 1
𝑆1 𝑋1 𝑬[𝑓1 𝑆1 ]
10.000 B (10.000-10.000+10.000+21.000)(0,9) + (10.000-10.000+20.000+43.000)(0.1) = 34.200
Abe Alkaff

Interpretasi
𝐸[𝑓1 𝑠1 ] Strategi 1 ≥ 𝐸[𝑓1 𝑠1 ] Strategi 2, maka strategi yang
paling baik adalah strategi 1 di mana berlaku:
Investasi di B jika uang tersedia di awal tahun ≥ 20000, investasi di

A jika uang tersedia di awal tahun = 10000, dengan kemungkinan
total nilai pengembalian investasi terbesar adalah 4000
Ambil satu contoh persoalan pengaturan optimal semacam ini dari buku
referensi atau yang lain atau buat sendiri dan kerjakan sesuai dengan langkah-
langkah pada bahan kuliah ini
Abe Alkaff
Proses Keputusan Markov

Persoalan yang dibahas pada bagian sebelumnya memiliki probabilitas
berada pada suatu state yang berubah tiap saat. State pada saat berikutnya
hanya tergantung pada state pada saat ini. Proses acak semacam ini disebut
sebagai proses Markov. Notasikan:
Π𝑖 𝑛 = Probabilitas berada pada state 𝑖 pada saat 𝑛
Untuk contoh diatas dapat diartikan sebagai:

Probabilitasnya memiliki 𝑖 TV pada awal minggu ke 𝑛
yang memiliki nilai-nilai sebagai berikut:
Π0 0 = 1, Π1 0 = 0, Π2 0 = 0
Π0 1 = 0.2, Π1 1 = 0.5, Π2 1 = 0.3
Abe Alkaff

Notasikan
𝑃𝑖𝑗 sebagai probabilitasnya berpindah dari state 𝑖 pada saat n ke state 𝑗
pada saat n+1
Π0 2 = Π0 1 𝑃00 + Π1 1 𝑃10 + Π2 1 𝑃20
Π1 2 = Π0 1 𝑃01 + Π1 1 𝑃11 + Π2 1 𝑃21
Π2 2 = Π0 1 𝑃02 + Π1 1 𝑃12 + Π2 1 𝑃22
Dalam notasi vector, dapat ditulis sebagai

(Π0 2 Π1 2 Π2 2 ) = (Π0 1 Π1 1 Π2 1 𝑃
(Π0 𝑛 + 1 Π1 𝑛 + 1 Π2 𝑛 + 1 ) = (Π0 𝑛 Π1 𝑛 Π2 𝑛 𝑃
Abe Alkaff
Dapat diringkas sebagai
Π 𝑛+1 =Π 𝑛 𝑃
Dimana 𝑃00 𝑃01 𝑃02
Π 𝑛 = (Π0 𝑛 Π1 𝑛 Π2 𝑛 𝑃 = 𝑃10 𝑃11 𝑃12
𝑃20 𝑃21 𝑃22
Bila system stabil, maka akan mencapai kondisi steady state yaitu kondisi dimana
probabilitas berada pada satu state tertentu tidak lagi merupakan fungsi waktu:
lim Π 𝑛 = Π
𝑛→∞
sehingga
Π = Π𝑃
Π(𝐼 − 𝑃) = 0
Abe Alkaff

Nilai kriteria persatuan waktu dapat dinyatakan sebagai
𝑚
Dimana 𝑚 = Banyaknya state
෍ Π𝑖 𝐾𝑖 𝐾𝑖 = Nilai pada state i
𝑖=1 Π𝑖 = Probabilitas pada state i dalam steady state
Untuk contoh Toko TV dengan strategi 1 (order hanya kalau habis) diperoleh:
0.2 0.5 0.3
𝑃 = 0.7 0.3 0
0.2 0.5 0.3
Dari persamaan Π 𝐼 − 𝑃 = 0, nilai Π dapat dihitung
Abe Alkaff

STRATEGI 1: Order 2 kalau persedian habis
0.2 0.5 0.3 0.3 3
 𝑃1 = 0.7 0.3 0 ; 𝜋 𝐼−𝑃 =0 3 𝜋2 = 𝜋 = 𝜋
0.7 0 7 0
0.2 0.5 0.3 3 → 2
0.3
−0.5𝜋0 − 0,7𝜋1 − 𝜋 =0
0.8 −0.5 −0.3 1.4 0
1 3 7
 𝜋 −0.7 0.7 0 =0 − − 𝜋 + 𝜋 =0
−0.2 −0.5 0.7 2 14 0 10 1 98
100 𝜋0 =
𝜋1 = 𝜋 240
98 0 100
 0.8𝜋0 − 0,7𝜋1 − 0.2𝜋2 = 0 … 1 𝜋0 + 𝜋1 + 𝜋2 = 1 𝜋1 =
240
100 3 42
𝜋0 1 + + =1 𝜋2 =
 −0.5𝜋0 − 0,7𝜋1 − 0.5𝜋2 = 0 … 2 98 7 240
98 + 100 + 42
𝜋0 =1
 −0.3𝜋0 + 0.7𝜋2 = 0 … 3 98
Abe Alkaff

STRATEGI 2: Order sebanyak 2-s dimana s adalah persediaan awal bulan
0.2 0.5 0.3 2 𝜋1 = 𝜋0 + 𝜋2
 𝑃2 = 0.2 0.5 0.3 ; 𝜋 𝐼 − 𝑃 = 0 2 → 3
0.2 0.5 0.3 −0.3𝜋0 − 0,3 𝜋0 + 𝜋2 + 0.7𝜋2 = 0
−0.6𝜋0 + 0.4𝜋2 = 0
6
0.8 −0.5 −0.3 𝜋2 = 𝜋 0
4
 𝜋 −0.2 0.5 −0.3 = 0 6
0.8𝜋0 − 0.2𝜋1 − 0.2 𝜋0 = 0
−0.2 −0.5 0.7 4
8 3 2
𝜋0 − − 𝜋 =0
 0.8𝜋0 − 0,2𝜋1 − 0.2𝜋2 = 0 … 1 10 10 10 1
5 2
𝜋1 = 𝜋0 𝜋0 =
2 10
5
 −0.5𝜋0 + 0,5𝜋1 − 0.5𝜋2 = 0 … 2 𝜋0 + 𝜋1 + 𝜋2 = 1 𝜋1 =
5 3 10
𝜋0 1 + + =1 3
2 2 𝜋2 =
 −0.3𝜋0 − 0,3𝜋1 + 0.7𝜋2 = 0 … 3 10
2+5+3
𝜋0 =1
2
Abe Alkaff

𝑚
෍ Π𝑖 𝐾𝑖
𝑖=1
Strategi 1:
𝐾1 = −9.2; 𝐾2 = 12.8; 𝐾3 = 15.8
98 100 42
= . −9.2 + . 12.8 + . 15.8
240 240 240
= 𝟒. 𝟑𝟒𝟏𝟕
Strategi 2 Nilai pada strategi 1 > Nilai Strategi 2
𝐾1 = −9.2; 𝐾2 = 0.8; 𝐾3 = 15.8 Sehingga strategi 1 lebih baik daripada
2 5 3 strategi 2
= . −9.2 + . 0.8 + . 15.8
10 10 10
= 𝟑. 𝟑
Abe Alkaff
Sebuah Manufaktur memiliki sebuah mesin State Condition

produksi. Karena penggunaan yang 0 Good as new
ekstrim, maka terjadi perubahan kondisi 1 Minor deterioration
mesin setiap minggunya. Keadaan mesin 2 Major deterioration
dapat dikategorikan menjadi: 3 Inoperable
Matriks disamping menunjukkan State 0 1 2 3

probabilitas perubahan kondisi mesin 0 0 7/8 1/16 1/16
dalam satu bulan dari state awal (baris) 1 0 3/4 1/4 1/4
ke state berikutnya (kolom).
2 0 0 1/2 1/2
3 0 0 0 1
Abe Alkaff

State Kerugian barang cacat
Ketika mesin tidak bekerja secara maksimal, maka
0 0
akan muncul barang cacat yang menyebabkan
kerugian menurut keadaan state mesin tersebut: 1 1000
2 3000
Mesin dalam kondisi state 3 harus diganti. Penggantian mesin (bisa dalam state
1,2, dan 3) memakan biaya sebesar 4000, selain itu penggantian membutuhkan
waktu 1 minggu yang menyebabkan kehilangan kuntungan produksi sebesar 2000
Terdapat keadaan overhaul, yaitu maintenance mesin agar peformanya bisa naik 1
state. Overhaul hanya berlaku pada mesin dalam kondisi state 2 dan
mengubahnya menjadi state 1. Overhaul membutuhkan biaya 2000 dan memakan
waktu 1 minggu yang menyebabkan kehilangan kuntungan produksi sebesar 2000.
Buat kebijakan tindakan terhadap mesin agar meminimalkan biaya total

Abe Alkaff
Tabel Keputusan yang dapat diambil:

• Ada 4 kemungkinan kebijakan:
Decision State Kerugian Biaya Kerugian Total
barang Maintenance keuntunga Cost 1. Mengganti mesin saat state 3 saja
cacat n produksi
2. Mengganti mesin saat state 3 dan
0 0 0 0 0 overhaul mesin pada state 2
Do
1 1000 0 0 1000
nothing 3. Mengganti mesin saat state 2 dan 3
2 3000 0 0 3000
Overhaul 2 0 2000 2000 4000 4. Mengganti mesin saat state 1,2, dan 3
Replace 1,2,3 0 4000 2000 6000
Abe Alkaff

Pendefinisian Kebijakan 1 Kebijakan 2
State 0 1 2 3 State 0 1 2 3
 Probabilitas perubahan state pada 0 0 7/8 1/16 1/16 0 0 7/8 1/16 1/16
kebijakan ke i 1 0 3/4 1/4 1/4 1 0 3/4 1/4 1/4
 Total biaya untuk masing – masing 2 0 0 1/2 1/2 2 0 1 0 0
kebijakan sebagai berikut: 3 1 0 0 0 3 1 0 0 0
Kebijakan 1 Kebijakan 2
Kebijakan
K1 K2 K3 K4
\State State 0 1 2 3 State 0 1 2 3
1 0 1000 3000 6000 0 0 7/8 1/16 1/16 0 0 7/8 1/16 1/16
1 0 3/4 1/4 1/4 1 1 0 0 0
2 0 1000 4000 6000
2 1 0 0 0 2 1 0 0 0
3 0 1000 6000 6000 3 1 0 0 0 3 1 0 0 0
4 0 6000 6000 6000
Abe Alkaff

0 7/8 1/16 1/16
0 3/4 1/8 1/8 Kebijakan 1
𝑃1 =
0 0 1/2 1/2
1 0 0 0
𝜋 𝐼 − 𝑃1 𝜋0 + 𝜋1 + 𝜋2 + 𝜋3 = 1
1 −7/8 −1/16 −1/16 7
𝜋0 + 𝜋0 + 𝜋0 + 𝜋0 = 1
0 1/4 1/8 −1/8 2
= [𝜋0 𝜋1 𝜋2 𝜋3 ]
2
0 0 1/2 −1/2
−1 0
∴ 𝜋0 =
0 1 13
1 𝜋0 − 𝜋3 = 0 1 𝜋0 = 𝜋3 7
𝜋1 =
7 1 2 13
2 − 𝜋0 + 𝜋1 = 0 2 𝜋0 = 𝜋1 2
8 4 7 𝜋2 =
1 1 1 1 1 7 1 13
3 − 𝜋0 − 𝜋1 + 𝜋2 = 0 3 − 𝜋 − 𝜋 + 𝜋2 = 0 2
16 8 2 16 0 8 2 0 2
8 1 𝜋3 =
1 1 1 − 𝜋0 + 𝜋2 = 0 13
4 − 𝜋0 − 𝜋1 − 𝜋2 + 𝜋3 = 0 16 2
16 8 2 𝜋0 = 𝜋2
Abe Alkaff

Kebijakan 2
0 7/8 1/16 1/16
0 3/4 1/8 1/8
𝑃2 =
0 1 0 0 𝜋0 + 𝜋1 + 𝜋2 + 𝜋3 = 1
1 0 0 0 15
1 −7/8 −1/16 −1/16
𝜋0 + 𝜋0 + 𝜋0 + 𝜋0 = 1
2
𝜋3 ] 0 1/4 1/8 −1/8 2
𝜋 𝐼 − 𝑃2 = [𝜋0 𝜋1 𝜋2 ∴ 𝜋0 =
0 −1 1 0 21
−1 0 0 1 15
1 𝜋0 − 𝜋3 = 0 𝜋1 =
1 𝜋0 = 𝜋3 21
7 1 1 1 2
2 − 𝜋0 + 𝜋1 − 𝜋2 = 0 4 − 𝜋0 − 𝜋1 + 𝜋0 = 0 𝜋2 =
8 4 16 8 21
1 1 2 2
3 − 𝜋0 − 𝜋1 + 𝜋2 = 0 𝜋0 = 𝜋 𝜋3 =
16 8 15 1 21
1 1 15
1 1 3 − 𝜋0 − ( 𝜋 0 ) + 𝜋2 = 0
4 − 𝜋0 − 𝜋1 + 𝜋3 = 0 16 8 2
16 8 𝜋0 = 𝜋2
Abe Alkaff

Kebijakan 3
0 7/8 1/16 1/16
0 3/4 1/8 1/8
𝑃3 =
1 0 0 0 𝜋0 + 𝜋1 + 𝜋2 + 𝜋3 = 1
1 0 0 0 7 1 1
1 −7/8 −1/16 −1/16 𝜋0 + 𝜋0 + 𝜋0 + 𝜋0 = 1
2 2 2
𝜋 𝐼 − 𝑃3 = [𝜋0 𝜋1 𝜋2 𝜋3 ] 0 1/4 1/8 −1/8 2
−1 0 1 0 ∴ 𝜋0 =
−1 0 0 1 11
7
1 𝜋0 − 𝜋2 − 𝜋3 = 0 2 𝜋1 =
2 𝜋0 = 𝜋1 11
7 1 7 1
2 − 𝜋0 + 𝜋1 = 0 1 1 7 𝜋2 =
8 4 3 − 𝜋 − 𝜋 + 𝜋2 = 0 11
1 1 16 0 8 2 0
𝜋0 = 2𝜋2 1
3 − 𝜋0 − 𝜋1 + 𝜋2 = 0 𝜋3 =
16 8 1 11
1 1 1 𝜋0 − 𝜋0 − 𝜋3 = 0
4 − 𝜋0 − 𝜋1 + 𝜋3 = 0 2
16 8 𝜋0 = 2𝜋3
Abe Alkaff

0 7/8 1/16 1/16
𝑃4 = 1 0 0 0 Kebijakan 4
1 0 0 0
1 0 0 0
𝜋 𝐼 − 𝑃4 𝜋0 + 𝜋1 + 𝜋2 + 𝜋3 = 1
1 −7/8 −1/16 −1/16 7 1 1
= [𝜋0 𝜋1 𝜋2 𝜋3 ] −1 1 0 0 𝜋0 + 𝜋0 + 𝜋0 + 𝜋 =1
−1 0 1 0 8 16 16 0
16
−1 0 0 1 ∴ 𝜋0 =
32
1 𝜋0 − 𝜋1 − 𝜋2 − 𝜋3 = 0 14
7 𝜋1 =
32
2 − 𝜋0 + 𝜋1 = 0 8 1
8 2 𝜋0 = 𝜋1 𝜋2 =
1 7 32
3 − 𝜋0 + 𝜋2 = 0 3 𝜋0 = 16𝜋2 1
16 𝜋3 =
1 4 𝜋0 = 16𝜋3 32
4 − 𝜋0 + 𝜋3 = 0
16
Abe Alkaff

Perbandingan Hasil Tiap Kebijakan
Kebijakan (𝝅𝟎 , 𝝅𝟏 , 𝝅𝟐 , 𝝅𝟑 ) Biaya Yang di Keluarkan

𝟏
𝟐 𝟕 𝟐 𝟐
𝟐 ∗ 𝑲𝟏 + 𝟕 ∗ 𝑲𝟐 + 𝟐 ∗ 𝑲𝟑 + 𝟐 ∗ 𝑲𝟒
1 ( , , , ) 𝟏𝟑
𝟏𝟑 𝟏𝟑 𝟏𝟑 𝟏𝟑 𝟏
= 𝟐 ∗ 𝟎 + 𝟕 ∗ 𝟏𝟎𝟎𝟎 + 𝟐 ∗ 𝟑𝟎𝟎𝟎 + 𝟐 ∗ 𝟔𝟎𝟎𝟎 = 𝟏𝟗𝟐𝟑
𝟏𝟑
𝟐 𝟏𝟓 𝟐 𝟐 𝟏
2 ( , , , ) 𝟐 ∗ 𝟎 + 𝟏𝟓 ∗ 𝟏𝟎𝟎𝟎 + 𝟐 ∗ 𝟒𝟎𝟎𝟎 + 𝟐 ∗ 𝟔𝟎𝟎𝟎 = 𝟏𝟔𝟔𝟕
𝟐𝟏 𝟐𝟏 𝟐𝟏 𝟐𝟏 𝟐𝟏
𝟐 𝟕 𝟏 𝟏 𝟏
3 ( , , , )
𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝟐 ∗ 𝟎 + 𝟕 ∗ 𝟏𝟎𝟎𝟎 + 𝟏 ∗ 𝟔𝟎𝟎𝟎 + 𝟏 ∗ 𝟔𝟎𝟎𝟎 = 𝟏𝟕𝟐𝟕
𝟏𝟏
𝟏𝟔 𝟏𝟒 𝟏 𝟏 𝟏
4 ( , , , )
𝟑𝟐 𝟑𝟐 𝟑𝟐 𝟑𝟐
𝟏𝟔 ∗ 𝟎 + 𝟏𝟒 ∗ 𝟔𝟎𝟎𝟎 + 𝟏 ∗ 𝟔𝟎𝟎𝟎 + 𝟏 ∗ 𝟔𝟎𝟎𝟎 = 𝟑𝟎𝟎𝟎
𝟑𝟐
Abe Alkaff
Kesimpulan
Dari Perhitungan diatas dapat disimpulkan bahwa biaya paling minimum dapat
dicapai dengan menggunakan kebijakan ke 2 yaitu:
1. Mengganti mesin yang berada pada state 3
2. Overhaul mesin yang berada pada state 2
Dengan total biaya yang dikeluarkan sebesar $ 1667
Ambil satu contoh persoalan proses keputusan markov semacam ini dari buku
referensi atau yang lain atau buat sendiri dan kerjakan sesuai dengan langkah-
langkah pada bahan kuliah ini
Abe Alkaff
Tugas 8
Kerjakan tugas-tugas yang diberikan pada bahan paparan ini

Bab 8 Program Dinamik Stokastik

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 8 Program Dinamik Stokastik

Diunggah oleh

Hak Cipta:

Format Tersedia

Ab.

8. Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

Pengaturan Optimal dengan Program Dinamik

Infinite Horizon Dynamic Programming/Proses

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik berkaitan dengan permasalahan yang

𝑓𝑛 (𝑆𝑛 ) 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 ) 𝑓𝑛+1 (𝑆𝑛+1 ) 𝐶𝑛+1 (𝑋𝑛+1 , 𝑆𝑛+1 )

Pemrograman Dinamik Stokastik

𝑠𝑡𝑎𝑡𝑒 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 2 2 2

𝑓𝑛 (𝑆𝑛 ) 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 3 3 3

Ekspektasi 𝑓𝑛+1 𝑆𝑛+1 = ෍ 𝑝𝑖 𝑓𝑛+1 𝑆𝑛𝑖 +1

Pemrograman Dinamik Stokastik

𝑓𝑛 𝑆𝑛 = 𝑜𝑝𝑡 𝐶𝑛 (𝑋𝑛 , 𝑆𝑛 , 𝜔𝑛 ) + Ε 𝑓𝑛+1 (𝑆𝑛+1 )

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

 State : Stok TV ditoko (𝑆𝑛 )

Pemrograman Dinamik Stokastik

 Tahap : Awal dari setiap minggu

Pemrograman Dinamik Stokastik

Tahap 4 – Minggu Keempat

Pemrograman Dinamik Stokastik

Tahap 4 – Minggu Keempat

Pemrograman Dinamik Stokastik

Tahap 4 – Minggu Keempat

Pemrograman Dinamik Stokastik

Tahap 3 – Minggu Ketiga

Pemrograman Dinamik Stokastik

Tahap 3 – Minggu Ketiga

Pemrograman Dinamik Stokastik

Tahap 3 – Minggu Ketiga

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

Tahap 2 – Minggu Kedua

Pemrograman Dinamik Stokastik

Tahap 2 – Minggu Kedua

Pemrograman Dinamik Stokastik

Tahap 1 – Minggu Pertama

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

Sistem dinamik dinyatakan dengan persamaan state

Dimana 𝑠𝑛 : State pada tahap (saat) n

Pemrograman Dinamik Stokastik

Aksi Kontrol adalah keputusan yang diambil untuk mempengaruhi

Aksi Kontrol tersebut dipilih sedemikian hingga suatu kriteria di optimalkan

Pemrograman Dinamik Stokastik

𝑂𝑝𝑡 𝐾 = 𝑂𝑝𝑡 ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )

Pemrograman Dinamik Stokastik

Strategi Kontrol adalah sekumpulan aksi kontrol yang berlaku untuk

Strategi Kontrol dapat dicari berdasarkan formula dari 𝑥𝑛 yang

Pemrograman Dinamik Stokastik

𝑂𝑝𝑡 𝐾 = 𝑓𝑁 𝑠𝑁 + 𝑂𝑝𝑡 ෍ 𝐶𝑛 (𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 )

Pemrograman Dinamik Stokastik

𝐶𝑛 𝑠𝑛 , 𝑥𝑛 , 𝑤𝑛 = 20𝑤𝑛 − (5 + 10𝑥𝑛 + 2 max 𝑠𝑛 + 𝑥𝑛 − 𝑤𝑛 , 0 + 3 max 0, 𝑤𝑛 − 𝑥𝑛 − 𝑠𝑛 )

Pemrograman Dinamik Stokastik

Misalkan untuk contoh tersebut diminta untuk mengevaluasi strategi

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik

0 2 40-25 = 15 20-25-2-0 = -7 -25-4-0 = -29

Pemrograman Dinamik Stokastik

Pemrograman Dinamik Stokastik