Anda di halaman 1dari 50

BAB 5.

ANALISIS MARKOVIAN

RISET OPERASIONAL 2, MANAJEMEN, 2 SKS


Pengantar
Markov Analysis

 A technique dealing with probabilities of future occurrences with currently


known probabilities

 Numerous applications in

 Business (e.g., market share analysis),


 Bad debt prediction
 University enrollment predictions
 Machine breakdown prediction

TIA 310 2
Pengantar
 Penerapan pemrograman dinamis untuk pemecahan suatu proses keputusan
stokhastik yang dapat dijabarkan oleh sejumlah keadaan yang terhingga.

 Probabilitas transisi antara keadaan dijabarkan dengan sebuah rantai


Markov.

 Struktur imbalan dari proses ini juga dijabarkan oleh sebuah matriks dengan
elemen-elemen individual yang mewakili pendapatan (atau biaya) yang
dihasilkan oleh pergerakan dari satu keadaan ke keadaan lainnya.

 Tujuan dari masalah ini adalah menentukan kebijakan optimal yang


memaksimumkan (meminimumkan) pendapatan (biaya) yang diharapkan
dari proses tersebut di panjang tahap-tahap yang terhingga atau tak
terhingga.

TIA 310 3
Contoh Petani
 Contoh ini akan dipakai sepanjang bab ini.
 Contoh ini meringkaskan sejumlah penerapan penting dalam bidang
sediaan, penggantian, manajemen arus kas, dan peraturan kapasitas
saluran air.
 Setiap tahun, di awal musim tanam, seorang petani menggunakan
pengujian kimia untuk memeriksa kondisi tanah. Bergantung pada hasil
pengujian tersebut, produkstivitas sawah tersebut untuk musim itu
dikelompokkan sebagai baik (1), sedang (2), atau buruk (3).
 Selama bertahun-tahun, petani tersebut melihat bahwa produktivitas tahun
sekarang dapat diasumsikan hanya bergantung pada kondisi tanah tahun
lalu.
 Probabilitas transisi di sepanjang periode 1 tahun dari satu keadaan
produkstivitas ke keadaan lainnya dapat direpresentasikan dalam bentuk
rantai Markov berikut ini:
TIA 310 4
Contoh Petani
Keadaan sistem tahun depan
1 2 3
Keadaan 1 0,2 0,5 0,3
sistem
2 0 0,5 0,5 = P1
tahun ini
3 0 0 1

 Petani tersebut dapat mengubah probabilitas transisi P1 dengan melakukan


sejumlah tindakan. Umumnya, pupuk dipergunakan untuk memperbaiki
kondisi tanah, yang menghasilkan1matriks transisi P 2 berikut ini:
2 3
1 0,3 0,6 0,1
P2 = 2 0,1 0,6 0,3
3 0,05 0,4 0,55

 Untuk menempatkan masalah ini dari sudut pandang yang tepat, petani tersebut
mengkaitkan suatu fungsi pengembalian laba (atau suatu struktur imbalan)
dengan transisi dari satu keadaan ke keadaan lainnya. Fungsi pengembalian
tersebut dinyatakan sebagai keuntungan atau kerugian dalam periode 1 tahun,
bergantung pada keadaan yang terjadi dalam transisi tersebut.
TIA 310 5
Contoh Petani
 Matriks R1 dan R2 berikut meringkaskan fungsi pengembalian dalam ratusan
dollar yang berkaitan dengan matrik P1 dan P2 secara berturut-turut.
1 2 3
1 7 6 3
R1 = ||rij1||= 2 0 5 1
3 0 0 -1
1 2 3
1 6 5 -1
R2 =||rij2||= 2 7 4 0
3 6 3 -2

 Bagaimana membaca matriks-matriks ini?

 Apa masalah yang dihadapi petani ini?

Apakah kegiatan petani tersebut akan berlanjut untuk sejumlah tahun yang
terbatas (disebut masalah keputusan tahap terhingga) atau praktis
selamanya (masalah keputusan tahap tak terhingga)?
TIA 310 6
Contoh Petani
 Petani tersebut perlu menentukan arah tindakan terbaik yang harus diikuti
(gunakan pupuk atau tidak) dengan diketahui hasil dari pengujian kimia
(keadaan sistem). Proses optimisasi akan didasari oleh maksimasi
pendapatan yang diperkirakan.
 Petani tersebut juga tertarik untuk mengevaluasi pendapatan yang
diperkirakan yang dihasilkan dari arah tindakan yang telah ditentukan setiap
kali keadaan tertentu muncul. Misalnya, pupuk dapat dipergunakan setiap kali
kondisi tanah buruk (keadaan 3). Proses pengambilan keputusan dalam
kasus ini dikatakan diwakili oleh kebijakan stasioner (stationary policy).
 Setiap kebijakan stasioner akan dikaitkan dengan satu transisi dan matriks
pengembalian yang berbeda, yang, pada umumnya, dapat dibentuk dari
matriks P1, P2, R1, dan R2. Misalnya, untuk kebijakan stasioner yang
menyatakan penggunaan pupuk hanya ketika kondisi tanah buruk, matriks
transisi dan matriks pengembalian yang dihasilkan, P dan R, secara berturut-
turut adalah:

TIA 310 7
Contoh Petani
0,2 0,5 0,3 7 6 3
P= 0 0,5 0,5 R= 0 5 1
0,05 0,4 0,55 6 3 -2

 Bagaimana mendapatkan matriks P dan R itu?

 Apa saja kebijakan stasioner dari masalah petani ini?

TIA 310 8
Model Pemrograman Dinamis Tahap Terhingga
 Petani tersebut merencanakan untuk “pensiun” setelah N tahun.
 Optimalitas di sini didefinisikan sedemikian rupa sehingga petani tersebut akan
mengakumulasikan pendapatan yang diperkirakan tertinggi di akhir N tahun.
 Anggaplah k = 1 dan k = 2 mewakili dua arah tindakan (alternatif) yang tersedia
bagi petani tersebut. Matriks Pk dan Rk mewakili probabilitas transisi dan fungsi
imbalan untuk alternatif k yang diketahui dalam contoh di atas.
 Kita dapat mengekspresikan masalah petani tersebut sebagai sebuah model
pemrograman dinamis (DP) tahap terhingga sebagai berikut.
 Anggaplah bahwa jumlah keadaan untuk setiap tahap (tahun) adalah m (= 3
dalam contoh petani ini) dan definisikan:
fn(i) = pendapatan optimal yang diperkirakan untuk tahap n, n+1, …, N,
dengan diketahui keadaan sistem (kondisi tanah) di awal tahun n
adalah i.
TIA 310 9
Model Pemrograman Dinamis Tahap Terhingga
 Persamaan rekursif mundur yang mengaitkan fn dan fn+1 dapat ditulis
(lihat gambar di bawah)
 
m 
 
dengan fN+1(j) = 0 untuk semua j
f n i   m ax
k 
 pij rij  f n 1 j  , n  1,2,...,N
k k

 j 1 

Tahap n Tahap n + 1

fn(1) 1 1 fn+1(1)

. .
Pi1k. ri1k
. .
. .
Pijk. rijk fn+1 (j)
fn(i) i j
. .
. Pimk. rimk .
. .
fn(m) m m fn+1 (m)

10
Model Pemrograman Dinamis Tahap Terhingga
 Persamaan ini didapat dengan alasan bahwa pendapatan kumulatif, rijk
+ fn+1(j), yang dihasilkan dari dicapainya keadaan j di tahap n+1 dari
keadaan i di tahap n terjadi dengan probabilitas pijk.

 Jika vik mewakili pengembalian yang diperkirakan dan dihasilkan dari


satu transisi dari keadaan i dengan diketahui alternatif k, maka vik
dapat diekspresikan sebagai k m k k
vi   pij rij
j 1
 Persamaan rekursif DP itu dapat ditulis sebagai
 
f N i   m ax vi k
k
 m 
 k 
f n i   m axvi 
k 
 pij f n 1 j , n  1,2,...,N  1
k

 j 1 

TIA 310 11
Model Pemrograman Dinamis Tahap Terhingga
 Sebagai contoh, jika pupuk tidak digunakan (k = 1), maka:

v11 = 0,2x7 + 0,5x6 + 0,3x3 = 5,3


v21 = 0x + 0,5x5 + 0,5x1 = 3
v31 = 0x0 + 0x0 + 1x-1 = -1
 Nilai-nilai memperlihatkan bahwa jika kondisi tanah ditemukan baik (keadaan
1) di awal tahun, satu transisi diperkirakan menghasilkan 5,3 untuk tahun itu.
Demikian pula, jika kondisi tanah sedang (buruk), pendapatan yang
diperkirakan adalah 3 (-1)

Contoh 1

 Masalah petani dengan data P1, P2, R1, dan R2. Diasumsikan bahwa horison
perencanaan hanya 3 tahun (N=3).

 Didapatkan nilai-nilai vik adalah:

TIA 310 12
Model Pemrograman Dinamis Tahap Terhingga
i vi1 vi2
1 5,3 4,7
2 3,0 3,1
3 -1,0 0,4

 Tahap 3 (n = 3) vik Pemecahan optimal


i k=1 k=2 f3(i) k*
1 5,3 4,7 5,3 1
2 3,0 3,1 3,1 2
3 -1,0 0,4 0,4 2

 Tahap 2 (n = 2)
vik+ pi1kf3(1) + pi2kf3(2) + pi3kf3(3) Pemecahan
optimal
i k=1 k=2 f2(i) k*
1 5,3+0,2x5,3+0,5x3,1+0,3x0,4 = 8,03 4,7+0,3x5,3+0,6x3,1+0,1x0,4 = 8,19 8,19 2
2 3,0+0x5,3+0,5x3,1+0,5x0,4 = 4,75 3,1+0,1x5,3+0,6x3,1+0,3x0,4 = 5,61 5,61 2
3 -1,0+0x5,3+0x3,1+1x0,4 = -0,6 0,4+0,05x5,3+0,4x3,1+0,55x0,4 = 2,13 2,13 2

13
Model Pemrograman Dinamis Tahap Terhingga
 Tahap 1 (n = 1)
vik+ pi1kf2(1) + pi2kf2(2) + pi3kf2(3) Pemecahan
optimal
i k=1 k=2 f1(i) k*
1 5,3+0,2x8,19+0,5x5,61+0,3x2,13 = 10,38 4,7+0,3x8,19+0,6x5,61+0,1x2,13 = 10,74 10,74 2

2 3,0+0x8,19+0,5x5,61+0,5x2,13 = 6,87 3,1+0,1x8,19+0,6x5,61+0,3x2,13 = 7,92 7,92 2


3 -1,0+0x8,19+0x5,61+1x2,13 = 1,13 0,4+0,05x8,19+0,4x5,61+0,55x2,13 = 4,23 4,23 2

 Pemecahan optimal memperlihatkan bahwa untuk tahun 1 dan 2, petani tersebut


sebaiknya menggunakan pupuk (k* = 2) tanpa bergantung pada keadaan sistem (kondisi
tanah seperti yang ditunjukkan oleh uji kimia). Tetapi dalam tahun 3, pupuk sebaiknya
hanya digunakan jika sistem tersebut berada dalam keadaan 2 atau 3. Pendapatan total
yang diperkirakan untuk tiga tahun itu adalah f1(1) = 10,74 jika keadaan sistem dalam
tahun 1 adalah baik, f1(2) = 7,92 jika sedang, dan f1(3) = 4,23 jika buruk.
 Pemecahan DP ini disebut juga pendekatan iterasi nilai (value-iteration approach).

14
Model Pemrograman Dinamis Tahap Terhingga
 Masalah petani (horison terhingga) dapat digeneralisasi dengan dua
cara. Pertama, probabilitas transisi dan fungsi pengembalian tidak
perlu sama setiap tahun. Kedua, faktor diskonto dapat dipergunakan
terhadap pendapatan yang diperkirakan dari tahap-tahap yang
berturut-turut sehingga pendapatan f1(i) akan mewakili nilai
sekarang dari pendapatan yang diperkirakan dari semua tahap.

 Generalisasi pertama hanya mengharuskan bahwa nilai


pengembalian rijk dan probabilitas transisi pijk merupakan fungsi
tambahan dari tahap yang bersangkutan, n. Dalam kasus ini,
persamaan rekursif DP tersebut menjadi f N i   mkaxvi k ,N 
 m 
 k ,n 
f n i   m axvi
k 
 pij f n 1 j , n  1,2,...,N  1
k ,n

 j 1 

15
Model
dengan Pemrograman Dinamis Tahap Terhingga

m
vi k ,n
  pijk ,nrijk ,n
j 1

 Generalisasi kedua dicapai sebagai berikut. Anggaplah α (<1) merupakan


faktor diskonto per tahun, yang biasanya dihitung sebagai α = 1/(1+t), dengan
t adalah suku bunga per tahun. Jadi D dollar dalam satu tahun dari sekarang
adalah setara dengan αD dollar sekarang. Pemasukan faktor diskonto akan
membuat persamaan rekursif menjadi:
f N i   m ax vi k
k
 
 m 
 k 
f n i   m axvi  
k 

pij f n 1 j , n  1,2,...,N  1
k

 j 1 

 Secara umum, penggunaan faktor diskonto dapat menghasilkan keputusan


optimum yang berbeda, dibandingkan dengan tidak dipergunakannya faktor
diskonto.

16
Model Pemrograman Dinamis Tahap Terhingga
 Persamaan rekursif DP dapat dipergunakan untuk mengevaluasi
setiap kebijakan stasioner untuk masalah petani ini. Jika kita
mengasumsikan diskonto tidak dipergunakan (yaitu, α = 1),
persamaan rekursif untuk mengevaluasi suatu kebijakan stasioner
m
adalah f n i   vi   pij f n 1 j 
j 1

 dengan pij adalah elemen ke-(i,j) dari matriks transisi yang berkaitan
engan kebijakan tersebut dan vi adalah pendapatan transisi satu
langkah yang diperkirakan dari kebijakan tersebut.

 Misalkan kebijakan stasioner yang menyetakan penggunaan pupuk


setiap kali kondisi tanah adalah buruk (keadaan 3), maka kita
0,2 0,5 0,3 7 6 3
memiliki: R= 0 5 1
P= 0 0,5 0,5
0,05 0,4 0,55 6 3 -2

17
Model Pemrograman Dinamis Tahap Terhingga
 Jadi kita memperoleh
i 1 2 3
vi 5,3 3 0,4
 Dan nilai-nilai fn(i) dihitung
f3(1) = 5,3; f3(2) = 3; f3(3) = 0,4
f2(1) = 5,3 + 0,2x5,3 + 0,5x3 + 0,3x0,4 = 7,98
f2(2) = 3 + 0x5,3 + 0,5x3 + 0,5x0,4 = 4,7
f2(3) = 0,4 + 0,05x5,3 + 0,4x3 + 0,55x0,4 = 2,09
f1(1) = 5,3 + 0,2x7,98 + 0,5x 4,7 + 0,3x 2,09 = 9,87
f1(2) = 3 + 0x7,98 + 0,5x 4,7 + 0,5x 2,09 = 6,39
f1(3) = 0,4 + 0,05x7,98 + 0,4x 4,7 + 0,55x 2,09 = 3,83

18
Model Tahap Tak hingga
 Kita akan menentukan kebijakan jangka panjang optimum dari sebuah
masalah keputusan Markov.
 Evaluasi didasarkan dari sebuah kebijakan berdasarkan maksimasi
(minimasi) pendapatan (biaya) yang diperkirakan per periode transisi.
Misalnya, dalam masalah petani tersebut, pemilih kebijakan terbaik (tahap
tak hingga) didasari oleh pendapatan maksimum yang diperkirakan per
tahun.
 Terdapat dua metode untuk memecahkan masalah tahap tak hingga:
1. Enumerasi (pendaftaran) lengkap, dengan cara mengevaluasi setiap
kebijakan maka pemecahan optimum dapat ditentukan.
Metode ini dapat digunakan hanya jika kebijakan stasioner secara
keseluruhan cukup sedikit untuk perhitungan praktis.
2. Iterasi kebijakan, yaitu menentukan kebijakan optimum dengan sejumlah
kecil iterasi.

19
Metode Enumerasi Lengkap
 Anggaplah bahwa masalah keputusan ini memiliki S kebijakan stasioner,
dan asumsikan bahwa Ps dan Rs adalah transisi (satu langkah) dan
matriks pendapatan yang berkaitan dengan kebijakan ke-s, s = 1, 2, …,
S. Langkah-langkah dari enumerasi adalah sebagai berikut:
Langkah 1: Hitung vis, pendapatan satu langkah (satu periode) yang
diperkirakan dari kebijakan s dengan diketahui keadaan i, i = 1, 2, …, m.
Langkah 2: Hitung πis, probabilitas stasioner jangka panjang dari matriks
transisi Ps yang berkaitan dengan kebijakan s. Probabilitas ini, ketika ada,
dihitung dari persamaan: πsPs  πs
1s   2 s  ...  m s  1

dengan πs = (π1s, π2s,…, πms)


Langkah 3: Tentukan Es, pendapatan yang diperkirakan dari kebijakan s per
m
langkah transisi (periode), dengan menggunakan rumus: s
E  
 sv s i i
i 1

20
Metode Enumerasi Lengkap
Langkah 4: Kebijakan optimum s* ditentukan sedemikian rupa
sehingga:  
E s*  m ax E s
s
Contoh 1: Masalah petani dengan horison perencanaan periode tak
hingga
 Di sini ada 8 kebijakan stasioner, yaitu:
Kebijakan Stasioner s Tindakan
1 Tidak menggunakan pupuk sama sekali
2 Menggunakan pupuk tanpa bergantung pada keadaan
3 Gunakan pupuk ketika keadaan 1
4 Gunakan pupuk ketika keadaan 2
5 Gunakan pupuk ketika keadaan 3
6 Gunakan pupuk ketika keadaan 1 atau 2
7 Gunakan pupuk ketika keadaan 1 atau 3
8 Gunakan pupuk ketika keadaan 2 atau 3
TIA 310 21
Metode Enumerasi Lengkap
 Matriks Pk dan Rk untuk kebijakan 3 sampai 8 diturunkan dari matriks
untuk kebijakan 1 dan 2. Karena itu kita memiliki
0,2 0,5 0,3 7 6 3
P1 = 0 0,5 0,5 R1 = 0 5 1
0 0 1 0 0 -1

0,3 0,6 0,1 6 5 -1


P2 = 0,1 0,6 0,3 R2 = 7 4 0
0,05 0,4 0,55 6 3 -2

0,3 0,6 0,1 6 5 -1


P3 = 0 0,5 0,5 R3 = 0 5 1
0 0 1 0 0 -1

0,2 0,5 0,3 7 6 3


P4 = 0,1 0,6 0,3 R4 = 7 4 0
0 0 1 0 0 -1
22
Metode Enumerasi Lengkap
0,2 0,5 0,3 7 6 3
P5 = 0 0,5 0,5 R5 = 0 5 1
0,05 0,4 0,55 6 3 -2

0,3 0,6 0,1 6 5 -1


P6 = 0,1 0,6 0,3 R6 = 7 4 0
0 0 1 0 0 -1

0,3 0,6 0,1 6 5 -1


P7 = 0 0,5 0,5 R7 = 0 5 1
0,05 0,4 0,55 6 3 -2

0,2 0,5 0,3 7 6 3


P8 = 0,1 0,6 0,3 R8 = 7 4 0
0,05 0,4 0,55 6 3 -2

 Nilai-nilai vik karena itu dapat dihitung seperti diberikan dalam tabel
berikut ini:

23
Metode Enumerasi Lengkap
s i=1 i=2 i=3
1 5,3 3 -1
2 4,7 3,1 0,4
3 4,7 3 -1
4 5,3 3,1 -1
5 5,3 3 0,4
6 4,7 3,1 -1
7 4,7 3 0,4
8 5,3 3,1 0,4
 Perhitungan dari probabilitas stasioner tersebut dicapai dengan
menggunakan persamaan:
πs Ps = π s
π1 + π2 + … + πm = 1
24
Metode Enumerasi Lengkap
 Sebagai ilustrasi, pertimbangkan s = 2. Persamaan yang berkaitan adalah:
0,3π1 + 0,1π2 + 0,05π3 = π1
0,6π1 + 0,6π2 + 0,4π3 = π2
0,1π1 + 0,3π2 + 0,55π3 = π3
π1 + π2 + π3 = 1
 (Perhatikan bahwa salah satu dari ketiga persamaan pertama adalah
berlebihan.) Pemecahan menghasilkan:
π12 = 6/59, π22 = 31/59, π32 = 22/59
 Dalam kasus ini, pendapatan tahunan yang diperkirakan adalah:

3
 i 2vi 2  59 6 x4,7  31x3,1  22x0,4  2,256
2 1
E 
i 1
 Tabel berikut ini meringkaskan πk dan Ek untuk semua kebijakan
stasioner.

25
Metode Enumerasi Lengkap
s π1s π2s π3s Es
1 0 0 1 -1
2 6/59 31/59 22/59 2,256
3 0 0 1 -1
4 0 0 1 -1
5 5/154 69/154 80/154 1,724
6 0 0 1 -1
7 5/137 62/137 70/137 1,734
8 12/135 69/135 54/135 2,216
 Tabel terakhir ini menunjukkan bahwa kebijakan 2 menghasilkan
pendapatan tahunan yang diperkirakan terbesar. Akibatnya, kebijakan
jangka panjang optimum menyatakan penggunaan pupuk tanpa
bergantung pada keadaan sistem.

26
Metode Iterasi Kebijakan Tanpa Diskonto
 Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani
dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan
pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan
menggunakan pupuk tiga kali.
 Dalam kasus ini, petani tersebut secara keseluruhan memiliki 43 = 256 kebijakan
stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan
hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan
ini dapat sangat besar.
 Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.
 Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang
diperkirakan di tahap m
n dinyatakan dengan persamaan rekursif:
f n i   vi   pij f n1 j , i  1,2,...,m
j 1
 Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi
kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita
untuk mempelajari perilaku asimtut dari proses ini.

27
Metode Iterasi Kebijakan Tanpa Diskonto
 Pada intinya, kita mendefinisikan η sebagai jumlah tahap yang tersisa untuk
dipertimbangkan. Ini adalah berbalikan dengan n dalam persamaan di atas,
yang mendefinisikan tahap ke-n. Jadi, persamaan rekursif itu dapat ditulis:
m

 Catat bahwa fη adalah 


f i   vi  pij f 1 j , i  1,2,...,m
pendapatan kumulatif yang diperkirakan dengan
diketahui η adalah jumlah j 1 tahap yang tersisa untuk dipertimbangkan. Dengan
definisi baru ini, perilaku asimtut dari proses ini dapat diketahui dengan
menganggap η→∞.
 Dengan diketahui bahwa
π = (π1, π2, …, πm)
adalah vektor probabilitas steady state dari matriks transisi P = ||pij|| dan
E = π1v1 + π2v2 + … πmvm
adalah pendapatan yang diperkirakan per tahun seperti dihitung di bagian
sebelumnya, dapat diperlihatkan bahwa untuk η yang sangat besar,
fη(i) = ηE +f(i)
28
Metode Iterasi Kebijakan Tanpa Diskonto
dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut
dari fη(i) dengan diketahui keadaan i.
 Karena fη(i) adalah pengembalian optimum kumulatif untuk η tahap dengan
diketahui keadaan i dan E adalah pengembalian yang diperkirakan per tahap,
kita dapat secara intuitif melihat mengapa fη(i) sama dengan ηE ditambah
faktor koreksi f(i) yang memperhitungkan keadaan spesifik i. Hasil ini tentu
saja mengasumsikan bahwa η sangat besar.
 Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:
m
E  f i   vi   pij   1E  f  j , i  1,2,...,m.
i 1
 Dengan menyederhanakan persamaan di atas, kita memperoleh:
m
E  f i   vi   pij   1E  f  j , i  1,2,...,m.
i 1
 yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di
mana variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.
29
Metode Iterasi Kebijakan Tanpa Diskonto
 Tujuan akhir adalah menentukan kebijakan optimum yang menghasilkan nilai E
maksimum. Karena terdapat m persamaan dengan m+1 variabel yang tidak diketahui, nilai
E optimum tidak dapat ditentukan dalam satu langkah. Sebaliknya, suatu pendekatan
iteratif dimanfaatkan yang, dengan memulai di satu kebijakan secara sembarang, lalu
akan menentukan suatu kebijakan baru yang menghasilkan nilai E yang lebih baik. Proses
iteratif tersebut berakhir ketika dua kebijakan yang berturut-turut adalah identik.
 Proses iteratif ini terdiri dari dua komponen dasar, yang disebut langkah penentuan nilai
(value determination) dan langkah perbaikan kebijakan (policy improvement).
1. Langkah penentuan nilai. Pilihlah satu kebijakan s secara sembarang. Gunakan matriks
Ps dan Rs yang berkaitan dan secara sembarang asumsikan bahwa fs(m) = 0, pecahkan
persamaan
m
E  vi   pij f
s s s s
 j f s
i , i  1,2,..., m (b.1)
j 1

dengan variabel yang tidak diketahui Es, fs(1), …, dan fs(m-1). Lanjutkan ke tahap
perbaikan kebijakan.

30
Metode Iterasi Kebijakan Tanpa Diskonto
2. Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang
menghasilkan:
 m 
 k k s 
m axvi 
k 
 pij f  j , i  1,2,...,m

 j 1 
[Nilai-nilai fs(j), j = 1, 2, …, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan
nilai.]
Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan
baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s
= t dan kembali ke langkah penentuan nilai.
 Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita
dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:

m
E  vi   pij f  j   f i
j 1
31
Metode Iterasi Kebijakan Tanpa Diskonto
 Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua
alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah
perbaikan kebijakan.
Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan.
Iterasi 1
 Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk.
Matriks yang berkaitan adalah:
0,2 0,5 0,3 7 6 3
P= 0 0,5 0,5 R= 0 5 1
0 0 1 0 0 -1
 Persamaan dalam langkah iterasi nilai adalah:
E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3
E + f(2) - 0,5f(2) – 0,5f(3) = 3
E + f(3) - f(3) = -1
 Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut
menghasilkan pemecahan:
E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0
32
Metode Iterasi Kebijakan Tanpa
Diskonto
 Selanjutnya, kita menerapkan langkah perbaikan kebijakan.
Perhitungan yang berkaitan diperlihatkan dalam tabel berikut ini.
vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2
2 3,0+0x12,88+0,5x8+0,5x0 = 7 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 2
3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2

 Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung


pada keadaan. Karena kebijakan baru ini berbeda dari yang
sebelumnya, langkah penentuan nilai kembali dilakukan.
Iterasi 2
0,3 0,6 0,1 6 5 -1
 MatriksP =yang
0,1 berkaitan
0,6 0,3 dengan
R= kebijakan
7 4 baru
0 ini adalah:
0,05 0,4 0,55 6 3 -2

TIA 310 33

 Matriks ini menghasilkan persamaan-persamaan berikut:


Metode Iterasi Kebijakan Tanpa Diskonto

E + f(2) – 0,1f(1) – 0,6f(2) – 0,3f(3) = 3,1


E + f(3) – 0,05f(1) – 0,4f(2) – 0,55f(3) = 0,4
 Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:
E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0
 Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2
8,54
2 3,0+0x6,75+0,5x3,79+0,5x0 = 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 6,05 2

3 -1,0+0x6,75+0x3,79+1x0 = -1 0,4+0,05x6,75+0,4x3,79+0,55x0 =
2 2,25
 Kebijakan baru ini, yang menyatakan penggunaan
2,25
pupuk tanpa bergantung pada
keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini
optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode
ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.
34
Metode Iterasi Kebijakan Dengan Diskonto

 Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap
terhingga dapat ditulis sebagai:

 m 
 k 
f i   m axvi  
k 
 pij f 1 j 
k

 j 1 
(Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui).
 Dapat dibuktikan bahwa sementara η→∞ (model tahap tak hingga), fη(i) = f(i), dengan f(i)
adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan
diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison
waktu yang tak terhingga. Jadi perilaku jangka panjang dari fη(i) sementara η→∞ tidak
bergantung dari nilai η.
 Ini berlawanan dengan kasus tanpa diskonto, di mana fη(i) = ηE + f(i), seperti disebutkan di
atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan
masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai
sekarang f(i) akan mendekati nilai konstan sementara η→∞.

35
Metode Iterasi Kebijakan Dengan Diskonto

 Langkah kebijakan iterasi dimodifikasi sebagai berikut.


1. Langkah penentuan nilai. Untuk sebuah kebijakan sembarang s dengan matriks Ps dan
Rs, pecahkan m persamaan:
m
f s
i   vi s
   pij f
s s
 j , i  1,2,..., m (b.2)
j 1

dalam m nilai yang tidak diketahui fs(1), fs(2), …, fs(m). (Catat bahwa di sini terdapat m
persamaan dengan tepat m variabel yang tidak diketahui)
2. Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan alternatif k yang
menghasilkan
 m 
 k 
m axvi  
k 

pij k f 1 j , i  1,2,...,m

 j 1 
di mana fs(j) adalah nilai-nilai yang diperoleh dari langkah penentuan nilai. Jika kebijakan
yang dihasilkan t adalah sama dengan s, berhenti; t optimum. Jika tidak sama, tetapkan s
= t dan kembali ke langkah penentuan nilai

36
Metode Iterasi Kebijakan Dengan Diskonto

Contoh: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6


 Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P1 dan R1
dalam contoh terdahulu) menghasilkan persamaan:
f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[ 0,5f(2) + 0,5f(3)] = 3
f(3) – 0,6[ f(3)] = -1
 Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 6,6, f(2) = 3,21, f(3) = -2,5
 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2
2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 2
3 -1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54 2
37
Metode Iterasi Kebijakan Dengan Diskonto

 Langkah penentuan nilai yang menggunakan P2 dan R2 dalam contoh


sebelumnya menghasilkan persamaan-persamaan berikut:
f(1) – 0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,7
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
 Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,88, f(2) = 6,62, f(3) = 3,57
 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,95 1
8,95 8,88
2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 2
5,99 6,62
3 -1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] 3,37 2
= 3,37
38
Metode Iterasi Kebijakan Dengan Diskonto
 Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah
penentuan nilai dimasuki kembali dengan menggunakan P8 dan R8 dalam contoh
sebelumnya menghasilkan persamaan-persamaan berikut:
f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
 Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,98, f(2) = 6,63, f(3) = 3,38
 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 1
2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 2
3 -1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 3,37 2

39
Metode Iterasi Kebijakan Dengan
Diskonto
 Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan
sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto
menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak
digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).

40
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 Masalah keputusan Markov tahap tak hingga, baik dengan maupun tanpa
diskonto, dapat dirumuskan dan dipecahkan sebagai sebuah program linear.
Masalah Keputusan Markov tanpa diskonto.
 Di bagian seblumhya, sudah diperlihatkan bahwa masalah Markov tahap tak
hingga tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan
kebijakan optimal s*, yang bersesuaian dengan:



m 

sS 

m ax  i vi |  P   , 1   2  ....  m  1,  i  0, i  1,2,...,m
s s s s s s s s s

 i 1 
dengan S adalah kumpulan dari semua kebijakan yang mungkin dalam masalah
itu. Batasan dari masalah ini memastikan bahwa πis, i = 1, 2, …, m mewakili
probabilitas steady-state dari rantai Markov Ps.
 Secara spesifik, setiap kebijakan s dinyatakan dengan sekelompok tindakan yang
tetap (stasioner).
 Kita harus memodifikasi variabel yang tidak diketahui dari masalah ini sedemikian
rupa sehingga pemecahan optimal akan secara otomatis menentukan tindakan
optimal k ketika sistem tersebut berada dalam keadaan i. Kumpulan dari semua
tindakan optimal ini lalu akan mendefinisikan s*, kebijakan optimal.
41
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 Tujuan ini dicapai sebagai berikut. Anggaplah


qik = probabilitas kondisional dari memilih alternatif k dengan diketahui sistem
tersebut berada dalam keadaan i
 Jadi, masalah ini dapat diekspresikan sebagai

m  K 
dengan batasan
n E
maksim umka  
 i  qi vi 
k k

i 1  k 1 
m
j    i pij , j  1,2 ,...,m
i 1
1   2  ...   m  1
qi1  qi 2  ...  qi K  1, i  1,2,...,m
 i  0, qi k  0, i dan k

 Catat bahwa pij adalah fungsi dari kebijakan yang dipilih dan karena itu
merupakan fungsi dari alternatif spesifik k dari kebijakan tersebut.

42
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 Masalah ini dapat dikonversikan menjadi sebuah program linear


dengan membuat substitusi yang tepat yang melibatkan qik.
 Amati bahwa formulasi tersebut adalah setara dengan masalah
semula hanya jika qik = 1 untuk tepat K
satu k untuk setiap i, karena
hal ini akan mengurangi jumlah  qi k vi k menjadi vik, di mana k*
k 1
adalah alternatif optimal yang dipilih.
Untungnya, program linear yang kita kembangkan di sini
memperhitungkan kondisi ini secara otomatis.
 Definisikan
wik = πi qik , untuk semua i dan k
 Berdasarkan definisinya, wik mewakili probabilitas gabungan untuk
berada dalam keadaan i dan membuat keputusan k. Dari teori
probabilitas kita mengetahui bahwa:   K w
i  ik
k 1
43
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 Karena itu
wik
qi k 
K
 wik
k 1

Jadi kita melihat bahwa batasan


i  1

i 1
dapat ditulis sebagai
m K
  wik  1 K
i 1 k 1  qi k  1
k 1

 Juga batasan secara otomatis tersirat berdasarkan cara kita


mendefinisikan qik dalam bentuk wik. Jadi masalah ini dapat ditulis
sebagai
m  K 
n E
maksim umka  
 i  qi vi 
k k

i 1  k 1 
44
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 dengan batasan
m m K
 w jk    pij k wik  0, j  1,2 ,...,m
i 1 i 1 k 1
m K
  wik  1
i 1 k 1
wik  0 , i  1,2 ,...,m; k  1,2 ,...,K

 Model yang dihasilkan ini merupakan sebuah program linear dalam wik.
 Di sini akan diperlihatkan bahwa pemecahan optimalnya secara
otomatis menjadi qik = 1 untuk satu k untuk setiap i. Pertama, catat
bahwa program linear ini memeliki m persamaan independen (satu
persamaan yang berkaitan dengan π = πP adalah berlebihan). Karena
itu, masalah ini harus memiliki m variabel dasar. Tetapi, dapat
diperlihatkan bahwa wik harus positif
qi k  secara
wik ketat untuk setidaknya
satu k untuk setiap i. Dari kedua hasilKini, kita menyimpulkan bahwa:
TIA 310
 wik 45
k 1
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan.
(Pada kenyataannya, hasil di atas juga memperlihatkan bahwa
K
 i  w
di mana k* adalah alternatif yang bersesuaian dengan ik >0)
wik wik*
k 1
Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto:
maksimumkan E = 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32
dengan batasan
w11 + w12 – (0,2w11 + 0,3w12 + 0,1w22 + 0,05w32) = 0
w21 + w22 – (0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32) = 0
w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w22 + w31 + 0,55w32) = 0
w11 + w12 + w21 + w22 + w31 + w32) = 1
wik ≥ 0, untuk semua i dan k
 Pemecahan optimalnya adalah w11 = w12 = w31 = 0 dan w12 = 6/59,
w22 = 31/59, dan w32 = 22/59. Hasil ini berarti bahwa q12 = q22 = 46
TIA 310
q32 =
1. Jadi, kebijakan optimal menyatakan dipilihnya alternatif 2 (k = 2)
untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
 Adalah menarik bahwa nilai-nilai positif dari wik tepat setara dengan
nilai-nilai πi yang berkaitan dengan kebijakan optimal dalam prosedur
enumerasi lengkap. Observasi ini menunjukkan hubungan langsung di
antara kedua metode pemecahan ini.
Masalah Keputusan Markov dengan diskonto.
 Masalah ini diekspresikan dengan persamaan rekursif
 m 
 k 
f i   m axvi  
k 
 pij f  j , i  1,2,...,m
k

 j 1 
 Persamaan ini adalah setara dengan
m
f i   vi  
k
 pijk f  j , i dan k
j 1
dengan ketentuan bahwa f(i) mencapai nilai minimum untuk setiap i.
 Sekarang pertimbangkan fungsi tujuan
m
m inim um kan  bi f i 
i 1 47
Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov

dengan bi (> 0 untuk semua i) adalah sebuah konstanta sembarang.


Dapat diperlihatkan bahwa optimisasi dari fungsi ini dengan
dikenakan pertidaksamaan yang diberikan akan menghasilkan nilai
minimum dari f(i), seperti yang diinginkan. Jadi masalah ini dapat
ditulis sebagai m
m inim um kan  bi f i 
i 1

dengan batasan m
f i     pijk f  j   vi k , i dan k
j 1

f(i) tidak dibatasi, i = 1, 2, …, m.


 Sekarang, masalah dual dari masalah ini adalah

48
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov

m K
m aksim um ka
n  vi k wik
i 1 k 1

dengan batasan
K m K
 w jk    pij k wik  b j , j  1,2,...,m
k 1 i 1 k 1

wik ≥ 0, untuk i = 1, 2, …, m; k = 1,2, …, K


 Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti
kasus tanpa diskonto, sehingga wik dapat diinterpretasikan dengan
cara serupa.
Contoh: Contoh petani tadi dengan faktor diskonto α = 0,6. Jika kita 49
TIA 310
menganggap b1 = b2 = b3 = 1, masalah dual dari LP ini dapat ditulis
sebagai
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
maksimumkan 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32
dengan batasan
w11 + w12 – 0,6[0,2w11 + 0,3w12 + 0,1w22 + 0,05w32] = 1
w21 + w22 – 0,6[0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32] = 1
w31 + w32 – 0,6[0,3w11 +0,1w12+0,5w21+ 0,3w22 + w31 + 0,55w32] = 1
wik ≥ 0, untuk semua i dan k
 Pemecahan optimalnya adalah w12 = w21 = w31 = 0 dan w11 =
1,5678, w22 = 3,3528, dan w32 = 2,8145. Pemecahan ini
memperlihatkan bahwa pemecahan optimal adalah {1,2,2}, seperti
yang diperoleh pada contoh terdahulu..

50

Anda mungkin juga menyukai