Anda di halaman 1dari 8

I N T E G R A L, vol. 5 no.

2, Oktober 2000 75
Dedi Rosadi



Pengambilan Keputusan
Markov dan Aplikasinya
di Bidang Periklanan



Intisari
Metode pengambilan keputusan markov merupakan suatu metode yang telah
dikenal luas untuk pengambilan keputusan dalam model-model stokastik.
Dalam tulisan ini dibahas penggunaan salah satu metode pengambilan
keputusan Markov, yakni metode kebijakan pengiterasian, untuk
menyelesaikan suatu kasus pengambilan keputusan dalam bidang
periklanan.




Abstract
Markov Decision process is one of the well-known methods to solve
optimisation problem in stochastic modelling theory. In this paper, we show
one simple example of application Policy iteration method, one of the
methods of Markov Decision process, to solve a decision problem in
advertisement.





I. Pendahuluan
Perkembangan dunia periklanan yang
semakin pesat menyebabkan semakin
tingginya tingkat persaingan penawaran
produk, bahkan iklan mempunyai
peranan yang sangat besar dalam
meningkatkan permintaan pasar. Hal itu
menuntut eksekutif untuk dapat
menentukan media iklan yang tepat
dalam memperkenalkan produknya.
Pemilihan media iklan yang kurang
tepat menyebabkan tidak efisiennya
penggunaan dana bahkan bisa menjadi
pemborosan dana. Tidak jarang kita
melihat suatu produk yang diiklankan di
berbagai media sekaligus. Hal ini
mungkin bukan suatu masalah bagi
perusahaan besar yang telah
menyediakan anggaran yang cukup
untuk mempromosikan produknya ,
76 I N T E G R A L, vol. 5 no. 2, Oktober 2000
tetapi tidak untuk perusahaan kecil yang
baru muncul. Disini dituntut
kemampuan untuk dapat mengambil
keputusan dengan cepat dan tepat
sasaran .
Untuk dapat membuat keputusan yang
cepat dan tepat sasaran dibutuhkan suatu
metode pengambilan keputusan yang
sesuai dengan data yang kita miliki serta
metode penyelesaian atau keputusan
yang ingin kita ambil dari masalah
tersebut. Telah cukup banyak dikenal
berbagai metode pengambilan keputusan
secara matematis. Dalam tulisan ini akan
dikenalkan metode pengiterasian policy
yang merupakan salah satu metode yang
dikenal dalam proses pengambilan
keputusan markov ( Markov Decision
Process ). Telah diketahui bahwa proses
keputusan markov merupakan
pengambilan keputusan untuk model-
model stokasik. Dengan demikian, kita
akan merumuskan masalah periklanan
menjadi suatu model stokasik dan
menunjukkan bagaimana menggunakan
metode penginterasian policy untuk
mengambil keputusan .


II. Proses Keputusan Markov
II.1. Definisi Proses Keputusan
Markov
Misalkan kita memiliki suatu sistem
dinamis yang diamati pada titiktitik
waktu yang berjarak sama t =0, 1, 2,
(diskret). Pada tiap titik waktu ini ,
sistem diklasifikasi ke dalam satu dari
sejumlah state yang mungkin dan
setelah itu ditentukan keputusan yang
ingin diambil. Himpunan state yang
mungkin dinyatakan dengan I. Untuk
setiap state iI, ada suatu himpunan
A(i) dari keputusan (atau Action) yang
mungkin. Himpunan semua state I dan
himpunan aksi A(i) diasumsikan
berhingga. Konsekuensi ekonomis dari
keputusan yang diambil pada titik waktu
yang ditinjau (waktu keputusan)
digambarkan dalam bentuk harga (cost
atau reward). Sistem dinamis terkontrol
ini disebut model keputusan Markov
dengan waktu diskret bila sifat markov
berikut dipenuhi, yakni jika pada suatu
titik waktu keputusan aksi k terpilih
dalam state i, maka tanpa
memperhatikan kejadian yang telah lalu
dalam sistem, didapatkan :

a. Pendapatan langsung (immediate
reward) sebesar
k
i
q
b. Titik waktu keputusan selanjutnya
sistem akan berada di state j dengan
probabilitas P
ij
dimana:

1
1 ) (
j
ij
a P

Probabilitas transisi antar state, i,j,I,
pada suatu keputusan a, atau P
ij
(a) dan
taksiran pendapatan
k
i
q ini dapat
diestimasi dengan pendekatan Bayesian,
khususnya dalam tataran applikasi untuk
masalah periklanan yang akan kita bahas
dapat digunakan berbagai cara, seperti
estimasi dari pendapat para eksekutif,
estimasi dari beberapa tenaga penjual
(Sales Force Composite), dan dengan
melakukan riset atau survai pasar
langsung untuk mengetahui
kemungkinan hasil pemasaran.


II.2. Metode Pengiterasian Policy
Dalam literatur, dikenal beberapa
metode untuk menyelesaikan masalah
melalui proses keputusan Markov (lihat
Rosadi (1999)), namun di dalam tulisan
ini hanya akan dibahas metode
pengiterasian policy . Selanjutnya di
bawah ini kita berikan berbagai notasi
yang diperlukan untuk model
matematika dari pengambilan keputusan
markov
I N T E G R A L, vol. 5 no. 2, Oktober 2000 77
1. State
Suatu keadaan, akibat, atau kejadian
( alamiah ) pada suatu waktu dimana
pengambil keputusan hanya
mempunyai sedikit kontrol atau
bahkan tidak memiliki kontrol
terhadapnya. State ditandai dengan i
=0,1,2 , N dan lokasi peralihan
state j = 0,1,2, ,N. Himpunan
semua state yang mungkin
dilambangkan dengan I.
2. Alternatif keputusan
Suatu bagian dari aksi atau strategi
yang mungkin dipilih oleh seorang
pengambil keputusan di setiap state I,
dilambangkan dengan notasi kA(i)
={1,2.}
3. Probabilitas Transisi
Probabilitas ( peluang ) suatu proses
bergerak dari suatu state ke state
yang lain pada suatu alternatif
keputusan ke-k. Probabilitas transisi
di notasikan dengan P
ij
(k)
; i,j =
1,2,.,N
4. Reward Transisi
Pendapatan yang diperoleh sebagai
implikasi terjadinya transisi antar
state pada alternatif keputusan ke-k.
Reward dinotasikan dengan r
ij
(k)
.
Misal matriks probabilitas transisi P
berukuran NxN dan elemen
elemennya P
ij
, maka matriks reward
R juga berukuran NxN yang elemen-
elemennya r
ij
.
5. Policy
Suatu langkah mengambil suatu aksi
sebagai kebijakan secara prosedural
untuk mencapai langkah strategis
yaitu mendapatkan keputusan
optimal. Secara matematis
dinyatakan sebagai himpunan semua
keputusan yang diambil dalam setiap
state.
6. Policy optimal
Suatu kebijakan yang terbaik dari
sekian banyak aksi yang mungkin
sebagai hasil menjalankan
serangkaian proses pengambilan
keputusan . Secara matematis
dinyatakan sebagai himpunan semua
keputusan di setiap state yang
memberikan reward maksimal atau
cost minimal. Mendapatkan satu
keputusan inilah yang sebenarnya
menjadi tujuan kita menggunakan
tehnik tehnik pengambilan
keputusan.
7. EIR (Expectation Immediate
Reward)
Ekspektasi reward yang secara
mudah didapat, dan dilihat, dari tiap
satu state pada satu alternatif yang
dijajaki dari suatu transisi tunggal.
EIR dinotasikan oleh q, dengan

N
j
K
Ij
K
Ij
K
I
r P q
1
.

Indeks k di atas menunjukkan bahwa
proses menjalani alternatif keputusan
ke-k di state i.
8. v = nilai variabel reward / cost
relatif yang dipergunakan untuk
menyelesaikan persamaan
persamaan linear :

+ +
N
1 j
0 j ij i i
j
v P ) R ( q v g
i=1,2,N

Dengan R adalah policy yang sedang
dijalankan.
9. g ( R ) =nilai ekspektasi reward per
unit waktu jika sistem telah berjalan
sampai dengan waktu tak berhingga
(long run expectation revenue) dan
digunakan policy R untuk
mengambil keputusan.

Selanjutnya, algoritma metode
penginterasian policy secara ringkas
dapat diberikan sebagai berikut :
78 I N T E G R A L, vol. 5 no. 2, Oktober 2000
1. Pilih policy R ={ R
I
, iI} sebarang.
2. Untuk rule R ini, tentukan
penyelesaian tunggal {g ( R ), v
I
( R
)} pada sistem persamaan linear
berikut :

+
i j
j i ij i i i
v R P g R q v ) ( ) (
iI

atau

+ +
i j
j i ij i i i
v R P R q v g ) ( ) (

dengan
v
s
=0
dimana s adalah satu state yang
dipilih sebarang.
3. Untuk setiap state iI, tentukan
keputusan k yang memberi nilai
maksimum
) (i A k
maks

'

I j
j ij
) k (
i
g ) R ( v ). a ( P q
Nilai k maksimum untuk setiap state
i ini disebut sebagai keputusan R
i
.
Disini kita peroleh policy baru
R={R
i
, iI}.
4. J ika policy baru dari langkah 3 sama
dengan policy dari satu langkah
sebelumnya maka kita berhenti. J ika
tidak, ulangi langkah 2 dan 3 sampai
iterasi konvergen (yakni policy baru
yang diperoleh sama dengan policy
satu iterasi sebelumnya).


III. Aplikasi Metode Pengiterasian
Policy di Bidang Periklanan
Untuk memberikan illustrasi bagi
penggunaan metode pengiterasian policy
diatas, kita akan gunakan metode ini
untuk mengambil keputusan bagi suatu
contoh kasus di bidang periklanan.


III.1. Formulasi Model Stokastik
Untuk Masalah Periklanan
Langkah pertama yang harus dilakukan
adalah memformulasikan masalah
periklanan dalam sebuah rantai Markov
yang disesuaikan dengan jenis
keputusan yang ingin kita ambil.
Sebagai contoh, misalkan seorang
manajer perusahaan ingin memutuskan
jenis media iklan yang paling tepat, baik
pada saat penjualan suatu produknya
mengalami penurunan atau berada
dalam keadaan kurang, baik dan sangat
memuaskan. Dalam hal ini alternatif
media iklan pada setiap keadaan tidak
perlu sama misalkan pada saat keadaan
penjualan kurang kita punya alternatif
media TV yang punya daya jangkau
lebih luas , dan pada saat penjualan
sangat baik mungkin kita
memprediksikan sudah cukup memakai
media radio atau koran saja.
Disini keadaan atau state yang mungkin
terjadi kita golongkan menjadi tiga :

1. Penjualan kurang
2. Penjualan baik
3. Penjualan sangat memuaskan

Pada saat penjualan kurang misalkan
kita mempunyai enam alternatif pilihan
media iklan yaitu mengiklankan di
RCTI, SCTV, Indosiar, Geronimo,
Yasika, Kompas.
Pada saat penjualan baik misalkan kita
mempunyai empat alternatif pilihan
media iklan yaitu RCTI, Indosiar,
Geronimo, Kompas.
Dan saat penjualan sangat memuaskan
misalkan kita cukup punya tiga pilihan
media iklan yaitu TPI, SCTV, Kompas.

Dari hasil survai diketahui data sebagai
berikut :


I N T E G R A L, vol. 5 no. 2, Oktober 2000 79


State


Alternatif


Probability


Reward
Expected
Immediate
Reward

I

k

P
ij
k


R
ij
k

N
j
K
ij
K
ij
K
r P qi
1

J =ku b sm ku b sm
Kurang RCTI 0,2 0,3 0,5 1000 1300 1600 1390
(ku) SCTV 0,2 0,4 0,4 900 1200 1700 1370
Indosiar 0,3 0,3 0,4 980 1100 1500 1270
Geronimo 0,5 0,25 0,25 400 500 600 535
Yasika 0,5 0,48 0,02 400 550 610 496.2
Kompas 0,6 0,39 0,01 400 550 605 452.75

Baik RCTI 0,1 0,3 0,6 980 1050 1600 1373
(b) Indosiar 0,1 0,5 0,4 800 1200 1550 1300
Geronimo 0,4 0,35 0,25 380 480 700 495
Kompas 0,4 0,55 0,05 350 460 750 430.5

Sangat SCTV 0,01 0,1 0,89 760 830 1100 1069.6
Memuaskan TPI 0,01 0,2 0,79 750 810 1000 959.5
(sm) Kompas 0,07 0,33 0,6 250 400 650 539.5



Nilai yang terdapat pada reward
merupakan satuan uang misal ratusan
ribu (rupiah) dalam satuan waktu
(misalkan satu minggu).
Dari data di atas, pada saat keadaan atau
state kurang apabila kita memilih RCTI
sebagai alternatif pilihan media iklan
maka probabilitas hasil penjualan
menjadi kurang adalah 0.2 dengan
reward 100 juta rupiah, menjadi baik
dengan probabilitas 0.3 serta reward 130
juta rupiah dan menjadi sangat
memuaskan dengan probabilitas 0.5,
reward 160 juta rupiah. Sedangkan
apabila kita memilih SCTV sebagai
alternatif pilihan maka penjualan akan
menjadi kurang dengan probabilitas 0.2
dan reward 90 juta rupiah, menjadi baik
dengan probabilitas 0.4 serta reward 120
juta rupiah dan menjadi sangat
memuaskan dengan probabilitas 0.4
dengan reward 170 juta rupiah. Pada
saat keadaan baik, kita memilih RCTI
sebagai alternatif pilihan media iklan
maka kita akan mendapatkan penjualan
menjadi kurang dengan probabilitas 0.1,
reward 180 juta rupiah, menjadi baik
dengan probabilitas 0.3 serta reward 105
juta rupiah dan menjadi sangat
memuaskan dengan probabilitas 0.6
dengan reward 160 juta rupiah. Saat kita
berada pada keadaan sangat memuaskan
apabila kita memilih SCTV sebagai
alternatif media iklan, penjualan akan
menjadi kurang dengan probabilitas
0.01, reward 76 juta rupiah, menjadi
baik dengan probabilitas 0.1 serta
reward 83 juta rupiah dan menjadi
sangat memuaskan dengan probabilitas
0.89 dengan reward 100 juta rupiah. Hal
80 I N T E G R A L, vol. 5 no. 2, Oktober 2000
yang sama berlaku untuk keadaan
lainnya.


III.2. Proses Pengambilan Kepu-
tusan dengan Metode
Pengiterasian Policy
Untuk proses pengambilan keputusan
kita lakukan langkah-langkah seperti
pada teori.
1. Menentukan Policy Awal
Kita ambil satu alternatif tiap state
secara acak (disini dapat dibuktikan
bahwa bagaimanapun cara memilih
policy awal, maka policy optimal yang
diperoleh akan sama), misal untuk state
kurang kita pilih RCTI, state baik kita
pilih RCTI dan sangat memuaskan pilih
SCTV Sehingga
d =
1
1
1
]
1

SCTV
RCTI
RCTI
,
P =
1
1
1
]
1

89 . 0 1 . 0 01 . 0
6 . 0 3 . 0 1 . 0
5 . 0 3 . 0 2 . 0
,
q =
1
1
1
]
1

6 . 1069
1373
1390

Dengan rumus

+
N
j
i ij i
v P q
1
kita cari
v
1
, v
2
, v
3
, g

Kita memiliki persamaan :
g +v
1
=1390 +0.2 v
1
+0.3 v
2
+0.5 v
3

g +v
2
=1300 +0.1 v
1
+ 0.3 v
2
+0.6 v
3
g +v
3
=1069.6+0.01v
1
+0.1v
2
+0.89 v
3
Dengan menganggap v
3
=0 diperoleh :
v
1
= 503.175,
v
2
= 435.857,
v
3
= 0,
g = 1118.218


Perbaikan Policy pertama pada iklan :
State Alternatif Kuantitas Uji
i k

+
N
j
i ij
v p q
1
1

kurang RCTI 1621.3921
SCTV 1644.9778
Indosiar 1548.3437
Geronimo 895.5518
Yasika 982.1576
Kompas 924.6392

baik RCTI 1544.0746
Indosiar 1568.2460
Geronimo 914.1985
Kompas 871.4914

Sangat SCTV 1118.2175
Memuaskan TPI 1051.7032
Kompas 718.5551


I N T E G R A L, vol. 5 no. 2, Oktober 2000 81
Kita lihat bahwa untuk state kurang nilai
test quantity yang maksimum berada
pada alternatif SCTV , state baik
berubah pada Indosiar dan state sangat
memuaskan tetap pada SCTV sehingga
kita susun policy baru.

2. Susunan Policy baru
d =
1
1
1
]
1

SCTV
Indosiar
SCTV
,
P =
1
1
1
]
1

89 . 0 1 . 0 01 . 0
4 . 0 5 . 0 1 . 0
4 . 0 4 . 0 2 . 0
,
q =
1
1
1
]
1

6 , 1069
1300
1370

Dengan rumus q
i
+ P
ij
v
i
kita cari
kembali nilai v
1
, v
2
, v
3
dan g
Kita peroleh persamaan :
g+v
1
=1370 +0.2 v
1
+0.4 v
2
+0.4 v
3

g+v
2
=1300 +0.1 v
1
+0.5 v
2
+ 0.4 v
3

g+v
3
=1069.6 +0.01 v
1
+0.1 v
2
+0.89 v
3

Dengan menganggap v
3
= 0 kita
peroleh : v
1
=543.269, v
2
=465.491, v
3

=0, g =1121.582
Sebagai catatan nilai g meningkat dari
1118.218 menjadi 1121.582 walaupun
selisihnya sangat kecil kita masih belum
punya cukup alasan untuk menemukan
policy optimal.
Dari data nilai v
1
, v
2
, v
3
yang baru ,
kita punya perbaikan policy kedua


State Alternatif Kuantitas Uji
i k

+
N
j
i ij
v p q
1
1

kurang RCTI 1638.3011
SCTV 1664.8502
Indosiar 1568.7391
Geronimo 923.0073
Yasika 1018.4336
Kompas 960.2529

baik RCTI 1566.9742
Indosiar 1587.0724
Geronimo 875.2295
Kompas 903.8277

Sangat SCTV 1121.581
Memuaskan TPI 1058.0309
Kompas 731.1409



Dari tabel perbaikan policy kedua kita
lihat bahwa nilai test quantity yang
maksimum pada setiap state tetap yaitu
pada keadaan kurang nilai maksimum
82 I N T E G R A L, vol. 5 no. 2, Oktober 2000
pada alternatif SCTV, state baik pada
alternatif Indosiar dan state sangat
memuaskan pada alternatif SCTV.
Karena policy baru yang kita punya dari
perbaikan policy kedua , yaitu
d =
1
1
1
]
1

SCTV
Indosiar
SCTV

Sama dengan pada berbaikan policy
pertama maka proses selesai sehingga
kita dapat memutuskan bahwa jika hasil
penjualan produk tersebut kurang atau
sangat memuaskan maka kita pilih
SCTV untuk mengiklankan produk
tersebut dan jika hasil penjualan baik
kita pilih Indosiar sebagai media iklan
yang paling tepat.


IV. Kesimpulan
Dari pembahasan diatas dapat diambil
kesimpulan dibidang periklanan ,
metode pengiterasian policy dapat
digunakan sebagai metode yang cukup
baik untuk pengambilan keputusan.
Namun diperlukan langkah untuk
memodelkan masalah menjadi satu
model rantai markov yang bersifat
stokastik. Dalam contoh diatas,
diperlihatkan metode pengiterasian
policy cukup efisien dalam arti
mencapai solusi optimum dalam jumlah
iterasi yang relatif kecil.


V. Daftar Pustaka
1. Murdiyana, F., Syakuri, M.,
Susilawati, E., Pengambilan
Keputusan dengan Proses
Keputusan Markov melalui metode
pengiterasian Policy dan
applikasinya di bidang perikanan,
IHMSI, Bandung, 16-21 November
1999
2. Rosadi,D., Performance Analysis of
Link Sharing Policy, KPN Research
Report, SV99-31297,1999
3. Tijms, H.C., Stochastic Modeling
and Analysis: A Computational
Approach, J ohn Miley and Sons,
New York. 1986
4. Dimyati, A. dan Dimyati, T.,
Operations Research, Sinar Baru,
Bandung, 1992


Penulis
Dedi Rosadi adalah dosen J urusan
Matematika FMIPA UGM
Sekip Utara, Yogyakarta

email : dedirosadi@mailcity.com,
drosadi@mipa.ugm.ac.id

Anda mungkin juga menyukai