ANALISIS MARKOVIAN
Numerous applications in
TIA 310 2
Pengantar
Penerapan pemrograman dinamis untuk pemecahan suatu proses keputusan
stokhastik yang dapat dijabarkan oleh sejumlah keadaan yang terhingga.
Struktur imbalan dari proses ini juga dijabarkan oleh sebuah matriks dengan
elemen-elemen individual yang mewakili pendapatan (atau biaya) yang
dihasilkan oleh pergerakan dari satu keadaan ke keadaan lainnya.
TIA 310 3
Contoh Petani
Contoh ini akan dipakai sepanjang bab ini.
Contoh ini meringkaskan sejumlah penerapan penting dalam bidang
sediaan, penggantian, manajemen arus kas, dan peraturan kapasitas
saluran air.
Setiap tahun, di awal musim tanam, seorang petani menggunakan
pengujian kimia untuk memeriksa kondisi tanah. Bergantung pada hasil
pengujian tersebut, produkstivitas sawah tersebut untuk musim itu
dikelompokkan sebagai baik (1), sedang (2), atau buruk (3).
Selama bertahun-tahun, petani tersebut melihat bahwa produktivitas tahun
sekarang dapat diasumsikan hanya bergantung pada kondisi tanah tahun
lalu.
Probabilitas transisi di sepanjang periode 1 tahun dari satu keadaan
produkstivitas ke keadaan lainnya dapat direpresentasikan dalam bentuk
rantai Markov berikut ini:
TIA 310 4
Contoh Petani
Keadaan sistem tahun depan
1 2 3
Keadaan 1 0,2 0,5 0,3
sistem
2 0 0,5 0,5 = P1
tahun ini
3 0 0 1
Untuk menempatkan masalah ini dari sudut pandang yang tepat, petani tersebut
mengkaitkan suatu fungsi pengembalian laba (atau suatu struktur imbalan)
dengan transisi dari satu keadaan ke keadaan lainnya. Fungsi pengembalian
tersebut dinyatakan sebagai keuntungan atau kerugian dalam periode 1 tahun,
bergantung pada keadaan yang terjadi dalam transisi tersebut.
TIA 310 5
Contoh Petani
Matriks R1 dan R2 berikut meringkaskan fungsi pengembalian dalam ratusan
dollar yang berkaitan dengan matrik P1 dan P2 secara berturut-turut.
1 2 3
1 7 6 3
R1 = ||rij1||= 2 0 5 1
3 0 0 -1
1 2 3
1 6 5 -1
R2 =||rij2||= 2 7 4 0
3 6 3 -2
Apakah kegiatan petani tersebut akan berlanjut untuk sejumlah tahun yang
terbatas (disebut masalah keputusan tahap terhingga) atau praktis
selamanya (masalah keputusan tahap tak terhingga)?
TIA 310 6
Contoh Petani
Petani tersebut perlu menentukan arah tindakan terbaik yang harus diikuti
(gunakan pupuk atau tidak) dengan diketahui hasil dari pengujian kimia
(keadaan sistem). Proses optimisasi akan didasari oleh maksimasi
pendapatan yang diperkirakan.
Petani tersebut juga tertarik untuk mengevaluasi pendapatan yang
diperkirakan yang dihasilkan dari arah tindakan yang telah ditentukan setiap
kali keadaan tertentu muncul. Misalnya, pupuk dapat dipergunakan setiap kali
kondisi tanah buruk (keadaan 3). Proses pengambilan keputusan dalam
kasus ini dikatakan diwakili oleh kebijakan stasioner (stationary policy).
Setiap kebijakan stasioner akan dikaitkan dengan satu transisi dan matriks
pengembalian yang berbeda, yang, pada umumnya, dapat dibentuk dari
matriks P1, P2, R1, dan R2. Misalnya, untuk kebijakan stasioner yang
menyatakan penggunaan pupuk hanya ketika kondisi tanah buruk, matriks
transisi dan matriks pengembalian yang dihasilkan, P dan R, secara berturut-
turut adalah:
TIA 310 7
Contoh Petani
0,2 0,5 0,3 7 6 3
P= 0 0,5 0,5 R= 0 5 1
0,05 0,4 0,55 6 3 -2
TIA 310 8
Model Pemrograman Dinamis Tahap Terhingga
Petani tersebut merencanakan untuk “pensiun” setelah N tahun.
Optimalitas di sini didefinisikan sedemikian rupa sehingga petani tersebut akan
mengakumulasikan pendapatan yang diperkirakan tertinggi di akhir N tahun.
Anggaplah k = 1 dan k = 2 mewakili dua arah tindakan (alternatif) yang tersedia
bagi petani tersebut. Matriks Pk dan Rk mewakili probabilitas transisi dan fungsi
imbalan untuk alternatif k yang diketahui dalam contoh di atas.
Kita dapat mengekspresikan masalah petani tersebut sebagai sebuah model
pemrograman dinamis (DP) tahap terhingga sebagai berikut.
Anggaplah bahwa jumlah keadaan untuk setiap tahap (tahun) adalah m (= 3
dalam contoh petani ini) dan definisikan:
fn(i) = pendapatan optimal yang diperkirakan untuk tahap n, n+1, …, N,
dengan diketahui keadaan sistem (kondisi tanah) di awal tahun n
adalah i.
TIA 310 9
Model Pemrograman Dinamis Tahap Terhingga
Persamaan rekursif mundur yang mengaitkan fn dan fn+1 dapat ditulis
(lihat gambar di bawah)
m
dengan fN+1(j) = 0 untuk semua j
f n i m ax
k
pij rij f n 1 j , n 1,2,...,N
k k
j 1
Tahap n Tahap n + 1
fn(1) 1 1 fn+1(1)
. .
Pi1k. ri1k
. .
. .
Pijk. rijk fn+1 (j)
fn(i) i j
. .
. Pimk. rimk .
. .
fn(m) m m fn+1 (m)
10
Model Pemrograman Dinamis Tahap Terhingga
Persamaan ini didapat dengan alasan bahwa pendapatan kumulatif, rijk
+ fn+1(j), yang dihasilkan dari dicapainya keadaan j di tahap n+1 dari
keadaan i di tahap n terjadi dengan probabilitas pijk.
TIA 310 11
Model Pemrograman Dinamis Tahap Terhingga
Sebagai contoh, jika pupuk tidak digunakan (k = 1), maka:
Contoh 1
Masalah petani dengan data P1, P2, R1, dan R2. Diasumsikan bahwa horison
perencanaan hanya 3 tahun (N=3).
TIA 310 12
Model Pemrograman Dinamis Tahap Terhingga
i vi1 vi2
1 5,3 4,7
2 3,0 3,1
3 -1,0 0,4
Tahap 2 (n = 2)
vik+ pi1kf3(1) + pi2kf3(2) + pi3kf3(3) Pemecahan
optimal
i k=1 k=2 f2(i) k*
1 5,3+0,2x5,3+0,5x3,1+0,3x0,4 = 8,03 4,7+0,3x5,3+0,6x3,1+0,1x0,4 = 8,19 8,19 2
2 3,0+0x5,3+0,5x3,1+0,5x0,4 = 4,75 3,1+0,1x5,3+0,6x3,1+0,3x0,4 = 5,61 5,61 2
3 -1,0+0x5,3+0x3,1+1x0,4 = -0,6 0,4+0,05x5,3+0,4x3,1+0,55x0,4 = 2,13 2,13 2
13
Model Pemrograman Dinamis Tahap Terhingga
Tahap 1 (n = 1)
vik+ pi1kf2(1) + pi2kf2(2) + pi3kf2(3) Pemecahan
optimal
i k=1 k=2 f1(i) k*
1 5,3+0,2x8,19+0,5x5,61+0,3x2,13 = 10,38 4,7+0,3x8,19+0,6x5,61+0,1x2,13 = 10,74 10,74 2
14
Model Pemrograman Dinamis Tahap Terhingga
Masalah petani (horison terhingga) dapat digeneralisasi dengan dua
cara. Pertama, probabilitas transisi dan fungsi pengembalian tidak
perlu sama setiap tahun. Kedua, faktor diskonto dapat dipergunakan
terhadap pendapatan yang diperkirakan dari tahap-tahap yang
berturut-turut sehingga pendapatan f1(i) akan mewakili nilai
sekarang dari pendapatan yang diperkirakan dari semua tahap.
15
Model
dengan Pemrograman Dinamis Tahap Terhingga
m
vi k ,n
pijk ,nrijk ,n
j 1
16
Model Pemrograman Dinamis Tahap Terhingga
Persamaan rekursif DP dapat dipergunakan untuk mengevaluasi
setiap kebijakan stasioner untuk masalah petani ini. Jika kita
mengasumsikan diskonto tidak dipergunakan (yaitu, α = 1),
persamaan rekursif untuk mengevaluasi suatu kebijakan stasioner
m
adalah f n i vi pij f n 1 j
j 1
dengan pij adalah elemen ke-(i,j) dari matriks transisi yang berkaitan
engan kebijakan tersebut dan vi adalah pendapatan transisi satu
langkah yang diperkirakan dari kebijakan tersebut.
17
Model Pemrograman Dinamis Tahap Terhingga
Jadi kita memperoleh
i 1 2 3
vi 5,3 3 0,4
Dan nilai-nilai fn(i) dihitung
f3(1) = 5,3; f3(2) = 3; f3(3) = 0,4
f2(1) = 5,3 + 0,2x5,3 + 0,5x3 + 0,3x0,4 = 7,98
f2(2) = 3 + 0x5,3 + 0,5x3 + 0,5x0,4 = 4,7
f2(3) = 0,4 + 0,05x5,3 + 0,4x3 + 0,55x0,4 = 2,09
f1(1) = 5,3 + 0,2x7,98 + 0,5x 4,7 + 0,3x 2,09 = 9,87
f1(2) = 3 + 0x7,98 + 0,5x 4,7 + 0,5x 2,09 = 6,39
f1(3) = 0,4 + 0,05x7,98 + 0,4x 4,7 + 0,55x 2,09 = 3,83
18
Model Tahap Tak hingga
Kita akan menentukan kebijakan jangka panjang optimum dari sebuah
masalah keputusan Markov.
Evaluasi didasarkan dari sebuah kebijakan berdasarkan maksimasi
(minimasi) pendapatan (biaya) yang diperkirakan per periode transisi.
Misalnya, dalam masalah petani tersebut, pemilih kebijakan terbaik (tahap
tak hingga) didasari oleh pendapatan maksimum yang diperkirakan per
tahun.
Terdapat dua metode untuk memecahkan masalah tahap tak hingga:
1. Enumerasi (pendaftaran) lengkap, dengan cara mengevaluasi setiap
kebijakan maka pemecahan optimum dapat ditentukan.
Metode ini dapat digunakan hanya jika kebijakan stasioner secara
keseluruhan cukup sedikit untuk perhitungan praktis.
2. Iterasi kebijakan, yaitu menentukan kebijakan optimum dengan sejumlah
kecil iterasi.
19
Metode Enumerasi Lengkap
Anggaplah bahwa masalah keputusan ini memiliki S kebijakan stasioner,
dan asumsikan bahwa Ps dan Rs adalah transisi (satu langkah) dan
matriks pendapatan yang berkaitan dengan kebijakan ke-s, s = 1, 2, …,
S. Langkah-langkah dari enumerasi adalah sebagai berikut:
Langkah 1: Hitung vis, pendapatan satu langkah (satu periode) yang
diperkirakan dari kebijakan s dengan diketahui keadaan i, i = 1, 2, …, m.
Langkah 2: Hitung πis, probabilitas stasioner jangka panjang dari matriks
transisi Ps yang berkaitan dengan kebijakan s. Probabilitas ini, ketika ada,
dihitung dari persamaan: πsPs πs
1s 2 s ... m s 1
20
Metode Enumerasi Lengkap
Langkah 4: Kebijakan optimum s* ditentukan sedemikian rupa
sehingga:
E s* m ax E s
s
Contoh 1: Masalah petani dengan horison perencanaan periode tak
hingga
Di sini ada 8 kebijakan stasioner, yaitu:
Kebijakan Stasioner s Tindakan
1 Tidak menggunakan pupuk sama sekali
2 Menggunakan pupuk tanpa bergantung pada keadaan
3 Gunakan pupuk ketika keadaan 1
4 Gunakan pupuk ketika keadaan 2
5 Gunakan pupuk ketika keadaan 3
6 Gunakan pupuk ketika keadaan 1 atau 2
7 Gunakan pupuk ketika keadaan 1 atau 3
8 Gunakan pupuk ketika keadaan 2 atau 3
TIA 310 21
Metode Enumerasi Lengkap
Matriks Pk dan Rk untuk kebijakan 3 sampai 8 diturunkan dari matriks
untuk kebijakan 1 dan 2. Karena itu kita memiliki
0,2 0,5 0,3 7 6 3
P1 = 0 0,5 0,5 R1 = 0 5 1
0 0 1 0 0 -1
Nilai-nilai vik karena itu dapat dihitung seperti diberikan dalam tabel
berikut ini:
23
Metode Enumerasi Lengkap
s i=1 i=2 i=3
1 5,3 3 -1
2 4,7 3,1 0,4
3 4,7 3 -1
4 5,3 3,1 -1
5 5,3 3 0,4
6 4,7 3,1 -1
7 4,7 3 0,4
8 5,3 3,1 0,4
Perhitungan dari probabilitas stasioner tersebut dicapai dengan
menggunakan persamaan:
πs Ps = π s
π1 + π2 + … + πm = 1
24
Metode Enumerasi Lengkap
Sebagai ilustrasi, pertimbangkan s = 2. Persamaan yang berkaitan adalah:
0,3π1 + 0,1π2 + 0,05π3 = π1
0,6π1 + 0,6π2 + 0,4π3 = π2
0,1π1 + 0,3π2 + 0,55π3 = π3
π1 + π2 + π3 = 1
(Perhatikan bahwa salah satu dari ketiga persamaan pertama adalah
berlebihan.) Pemecahan menghasilkan:
π12 = 6/59, π22 = 31/59, π32 = 22/59
Dalam kasus ini, pendapatan tahunan yang diperkirakan adalah:
3
i 2vi 2 59 6 x4,7 31x3,1 22x0,4 2,256
2 1
E
i 1
Tabel berikut ini meringkaskan πk dan Ek untuk semua kebijakan
stasioner.
25
Metode Enumerasi Lengkap
s π1s π2s π3s Es
1 0 0 1 -1
2 6/59 31/59 22/59 2,256
3 0 0 1 -1
4 0 0 1 -1
5 5/154 69/154 80/154 1,724
6 0 0 1 -1
7 5/137 62/137 70/137 1,734
8 12/135 69/135 54/135 2,216
Tabel terakhir ini menunjukkan bahwa kebijakan 2 menghasilkan
pendapatan tahunan yang diperkirakan terbesar. Akibatnya, kebijakan
jangka panjang optimum menyatakan penggunaan pupuk tanpa
bergantung pada keadaan sistem.
26
Metode Iterasi Kebijakan Tanpa Diskonto
Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani
dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan
pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan
menggunakan pupuk tiga kali.
Dalam kasus ini, petani tersebut secara keseluruhan memiliki 43 = 256 kebijakan
stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan
hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan
ini dapat sangat besar.
Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.
Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang
diperkirakan di tahap m
n dinyatakan dengan persamaan rekursif:
f n i vi pij f n1 j , i 1,2,...,m
j 1
Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi
kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita
untuk mempelajari perilaku asimtut dari proses ini.
27
Metode Iterasi Kebijakan Tanpa Diskonto
Pada intinya, kita mendefinisikan η sebagai jumlah tahap yang tersisa untuk
dipertimbangkan. Ini adalah berbalikan dengan n dalam persamaan di atas,
yang mendefinisikan tahap ke-n. Jadi, persamaan rekursif itu dapat ditulis:
m
dengan variabel yang tidak diketahui Es, fs(1), …, dan fs(m-1). Lanjutkan ke tahap
perbaikan kebijakan.
30
Metode Iterasi Kebijakan Tanpa Diskonto
2. Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang
menghasilkan:
m
k k s
m axvi
k
pij f j , i 1,2,...,m
j 1
[Nilai-nilai fs(j), j = 1, 2, …, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan
nilai.]
Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan
baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s
= t dan kembali ke langkah penentuan nilai.
Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita
dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:
m
E vi pij f j f i
j 1
31
Metode Iterasi Kebijakan Tanpa Diskonto
Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua
alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah
perbaikan kebijakan.
Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan.
Iterasi 1
Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk.
Matriks yang berkaitan adalah:
0,2 0,5 0,3 7 6 3
P= 0 0,5 0,5 R= 0 5 1
0 0 1 0 0 -1
Persamaan dalam langkah iterasi nilai adalah:
E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3
E + f(2) - 0,5f(2) – 0,5f(3) = 3
E + f(3) - f(3) = -1
Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut
menghasilkan pemecahan:
E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0
32
Metode Iterasi Kebijakan Tanpa
Diskonto
Selanjutnya, kita menerapkan langkah perbaikan kebijakan.
Perhitungan yang berkaitan diperlihatkan dalam tabel berikut ini.
vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2
2 3,0+0x12,88+0,5x8+0,5x0 = 7 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 2
3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2
TIA 310 33
3 -1,0+0x6,75+0x3,79+1x0 = -1 0,4+0,05x6,75+0,4x3,79+0,55x0 =
2 2,25
Kebijakan baru ini, yang menyatakan penggunaan
2,25
pupuk tanpa bergantung pada
keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini
optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode
ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.
34
Metode Iterasi Kebijakan Dengan Diskonto
Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap
terhingga dapat ditulis sebagai:
m
k
f i m axvi
k
pij f 1 j
k
j 1
(Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui).
Dapat dibuktikan bahwa sementara η→∞ (model tahap tak hingga), fη(i) = f(i), dengan f(i)
adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan
diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison
waktu yang tak terhingga. Jadi perilaku jangka panjang dari fη(i) sementara η→∞ tidak
bergantung dari nilai η.
Ini berlawanan dengan kasus tanpa diskonto, di mana fη(i) = ηE + f(i), seperti disebutkan di
atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan
masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai
sekarang f(i) akan mendekati nilai konstan sementara η→∞.
35
Metode Iterasi Kebijakan Dengan Diskonto
dalam m nilai yang tidak diketahui fs(1), fs(2), …, fs(m). (Catat bahwa di sini terdapat m
persamaan dengan tepat m variabel yang tidak diketahui)
2. Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan alternatif k yang
menghasilkan
m
k
m axvi
k
pij k f 1 j , i 1,2,...,m
j 1
di mana fs(j) adalah nilai-nilai yang diperoleh dari langkah penentuan nilai. Jika kebijakan
yang dihasilkan t adalah sama dengan s, berhenti; t optimum. Jika tidak sama, tetapkan s
= t dan kembali ke langkah penentuan nilai
36
Metode Iterasi Kebijakan Dengan Diskonto
39
Metode Iterasi Kebijakan Dengan
Diskonto
Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan
sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto
menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak
digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).
40
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Masalah keputusan Markov tahap tak hingga, baik dengan maupun tanpa
diskonto, dapat dirumuskan dan dipecahkan sebagai sebuah program linear.
Masalah Keputusan Markov tanpa diskonto.
Di bagian seblumhya, sudah diperlihatkan bahwa masalah Markov tahap tak
hingga tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan
kebijakan optimal s*, yang bersesuaian dengan:
m
sS
m ax i vi | P , 1 2 .... m 1, i 0, i 1,2,...,m
s s s s s s s s s
i 1
dengan S adalah kumpulan dari semua kebijakan yang mungkin dalam masalah
itu. Batasan dari masalah ini memastikan bahwa πis, i = 1, 2, …, m mewakili
probabilitas steady-state dari rantai Markov Ps.
Secara spesifik, setiap kebijakan s dinyatakan dengan sekelompok tindakan yang
tetap (stasioner).
Kita harus memodifikasi variabel yang tidak diketahui dari masalah ini sedemikian
rupa sehingga pemecahan optimal akan secara otomatis menentukan tindakan
optimal k ketika sistem tersebut berada dalam keadaan i. Kumpulan dari semua
tindakan optimal ini lalu akan mendefinisikan s*, kebijakan optimal.
41
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
m K
dengan batasan
n E
maksim umka
i qi vi
k k
i 1 k 1
m
j i pij , j 1,2 ,...,m
i 1
1 2 ... m 1
qi1 qi 2 ... qi K 1, i 1,2,...,m
i 0, qi k 0, i dan k
Catat bahwa pij adalah fungsi dari kebijakan yang dipilih dan karena itu
merupakan fungsi dari alternatif spesifik k dari kebijakan tersebut.
42
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Karena itu
wik
qi k
K
wik
k 1
i 1 k 1
44
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
dengan batasan
m m K
w jk pij k wik 0, j 1,2 ,...,m
i 1 i 1 k 1
m K
wik 1
i 1 k 1
wik 0 , i 1,2 ,...,m; k 1,2 ,...,K
Model yang dihasilkan ini merupakan sebuah program linear dalam wik.
Di sini akan diperlihatkan bahwa pemecahan optimalnya secara
otomatis menjadi qik = 1 untuk satu k untuk setiap i. Pertama, catat
bahwa program linear ini memeliki m persamaan independen (satu
persamaan yang berkaitan dengan π = πP adalah berlebihan). Karena
itu, masalah ini harus memiliki m variabel dasar. Tetapi, dapat
diperlihatkan bahwa wik harus positif
qi k secara
wik ketat untuk setidaknya
satu k untuk setiap i. Dari kedua hasilKini, kita menyimpulkan bahwa:
TIA 310
wik 45
k 1
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan.
(Pada kenyataannya, hasil di atas juga memperlihatkan bahwa
K
i w
di mana k* adalah alternatif yang bersesuaian dengan ik >0)
wik wik*
k 1
Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto:
maksimumkan E = 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32
dengan batasan
w11 + w12 – (0,2w11 + 0,3w12 + 0,1w22 + 0,05w32) = 0
w21 + w22 – (0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32) = 0
w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w22 + w31 + 0,55w32) = 0
w11 + w12 + w21 + w22 + w31 + w32) = 1
wik ≥ 0, untuk semua i dan k
Pemecahan optimalnya adalah w11 = w12 = w31 = 0 dan w12 = 6/59,
w22 = 31/59, dan w32 = 22/59. Hasil ini berarti bahwa q12 = q22 = 46
TIA 310
q32 =
1. Jadi, kebijakan optimal menyatakan dipilihnya alternatif 2 (k = 2)
untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
Adalah menarik bahwa nilai-nilai positif dari wik tepat setara dengan
nilai-nilai πi yang berkaitan dengan kebijakan optimal dalam prosedur
enumerasi lengkap. Observasi ini menunjukkan hubungan langsung di
antara kedua metode pemecahan ini.
Masalah Keputusan Markov dengan diskonto.
Masalah ini diekspresikan dengan persamaan rekursif
m
k
f i m axvi
k
pij f j , i 1,2,...,m
k
j 1
Persamaan ini adalah setara dengan
m
f i vi
k
pijk f j , i dan k
j 1
dengan ketentuan bahwa f(i) mencapai nilai minimum untuk setiap i.
Sekarang pertimbangkan fungsi tujuan
m
m inim um kan bi f i
i 1 47
Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov
dengan batasan m
f i pijk f j vi k , i dan k
j 1
48
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
m K
m aksim um ka
n vi k wik
i 1 k 1
dengan batasan
K m K
w jk pij k wik b j , j 1,2,...,m
k 1 i 1 k 1
50