Anda di halaman 1dari 8

Dedi Rosadi

Pengambilan Keputusan
Markov dan Aplikasinya
di Bidang Periklanan

Intisari
Metode pengambilan keputusan markov merupakan suatu metode yang telah
dikenal luas untuk pengambilan keputusan dalam model-model stokastik.
Dalam tulisan ini dibahas penggunaan salah satu metode pengambilan
keputusan Markov, yakni metode kebijakan pengiterasian, untuk
menyelesaikan suatu kasus pengambilan keputusan dalam bidang
periklanan.

Abstract
Markov Decision process is one of the well-known methods to solve
optimisation problem in stochastic modelling theory. In this paper, we show
one simple example of application Policy iteration method, one of the
methods of Markov Decision process, to solve a decision problem in
advertisement.

I. Pendahuluan Pemilihan media iklan yang kurang


Perkembangan dunia periklanan yang tepat menyebabkan tidak efisiennya
semakin pesat menyebabkan semakin penggunaan dana bahkan bisa menjadi
tingginya tingkat persaingan penawaran pemborosan dana. Tidak jarang kita
produk, bahkan iklan mempunyai melihat suatu produk yang diiklankan di
peranan yang sangat besar dalam berbagai media sekaligus. Hal ini
meningkatkan permintaan pasar. Hal itu mungkin bukan suatu masalah bagi
menuntut eksekutif untuk dapat perusahaan besar yang telah
menentukan media iklan yang tepat menyediakan anggaran yang cukup
dalam memperkenalkan produknya. untuk mempromosikan produknya ,

I N T E G R A L, vol. 5 no. 2, Oktober 2000 75


tetapi tidak untuk perusahaan kecil yang yang ditinjau (waktu keputusan)
baru muncul. Disini dituntut digambarkan dalam bentuk harga (cost
kemampuan untuk dapat mengambil atau reward). Sistem dinamis terkontrol
keputusan dengan cepat dan tepat ini disebut model keputusan Markov
sasaran . dengan waktu diskret bila sifat markov
Untuk dapat membuat keputusan yang berikut dipenuhi, yakni jika pada suatu
cepat dan tepat sasaran dibutuhkan suatu titik waktu keputusan aksi k terpilih
metode pengambilan keputusan yang dalam state i, maka tanpa
sesuai dengan data yang kita miliki serta memperhatikan kejadian yang telah lalu
metode penyelesaian atau keputusan dalam sistem, didapatkan :
yang ingin kita ambil dari masalah
tersebut. Telah cukup banyak dikenal a. Pendapatan langsung (immediate
berbagai metode pengambilan keputusan reward) sebesar qik
secara matematis. Dalam tulisan ini akan
b. Titik waktu keputusan selanjutnya
dikenalkan metode pengiterasian policy
sistem akan berada di state j dengan
yang merupakan salah satu metode yang
probabilitas Pij dimana:
dikenal dalam proses pengambilan
keputusan markov ( Markov Decision ∑ P (a) = 1
j∈1
ij
Process ). Telah diketahui bahwa proses
keputusan markov merupakan
pengambilan keputusan untuk model- Probabilitas transisi antar state, i,j,∈I,
model stokasik. Dengan demikian, kita pada suatu keputusan “a”, atau Pij(a) dan
k
akan merumuskan masalah periklanan taksiran pendapatan qi ini dapat
menjadi suatu model stokasik dan diestimasi dengan pendekatan Bayesian,
menunjukkan bagaimana menggunakan khususnya dalam tataran applikasi untuk
metode penginterasian policy untuk masalah periklanan yang akan kita bahas
mengambil keputusan . dapat digunakan berbagai cara, seperti
estimasi dari pendapat para eksekutif,
estimasi dari beberapa tenaga penjual
II. Proses Keputusan Markov (Sales Force Composite), dan dengan
II.1. Definisi Proses Keputusan melakukan riset atau survai pasar
Markov
langsung untuk mengetahui
Misalkan kita memiliki suatu sistem
kemungkinan hasil pemasaran.
dinamis yang diamati pada titik–titik
waktu yang berjarak sama t = 0, 1, 2, …
(diskret). Pada tiap titik waktu ini , II.2. Metode Pengiterasian Policy
sistem diklasifikasi ke dalam satu dari Dalam literatur, dikenal beberapa
sejumlah state yang mungkin dan metode untuk menyelesaikan masalah
setelah itu ditentukan keputusan yang melalui proses keputusan Markov (lihat
ingin diambil. Himpunan state yang Rosadi (1999)), namun di dalam tulisan
mungkin dinyatakan dengan I. Untuk ini hanya akan dibahas metode
setiap state i∈I, ada suatu himpunan pengiterasian policy . Selanjutnya di
A(i) dari keputusan (atau Action) yang bawah ini kita berikan berbagai notasi
mungkin. Himpunan semua state I dan yang diperlukan untuk model
himpunan aksi A(i) diasumsikan matematika dari pengambilan keputusan
berhingga. Konsekuensi ekonomis dari markov
keputusan yang diambil pada titik waktu

76 I N T E G R A L, vol. 5 no. 2, Oktober 2000


1. State sebagai hasil menjalankan
Suatu keadaan, akibat, atau kejadian serangkaian proses pengambilan
( alamiah ) pada suatu waktu dimana keputusan . Secara matematis
pengambil keputusan hanya dinyatakan sebagai himpunan semua
mempunyai sedikit kontrol atau keputusan di setiap state yang
bahkan tidak memiliki kontrol memberikan reward maksimal atau
terhadapnya. State ditandai dengan i cost minimal. Mendapatkan satu
= 0,1,2 … , N dan lokasi peralihan keputusan inilah yang sebenarnya
state j = 0,1,2, …,N. Himpunan menjadi tujuan kita menggunakan
semua state yang mungkin tehnik – tehnik pengambilan
dilambangkan dengan I. keputusan.
2. Alternatif keputusan 7. EIR (Expectation Immediate
Suatu bagian dari aksi atau strategi Reward)
yang mungkin dipilih oleh seorang Ekspektasi reward yang secara
pengambil keputusan di setiap state I, mudah didapat, dan dilihat, dari tiap
dilambangkan dengan notasi k∈A(i) satu state pada satu alternatif yang
= {1,2….} dijajaki dari suatu transisi tunggal.
3. Probabilitas Transisi EIR dinotasikan oleh q, dengan
Probabilitas ( peluang ) suatu proses
bergerak dari suatu state ke state N

yang lain pada suatu alternatif qIK = ∑ PIjK .rIjK


j =1
keputusan ke-k. Probabilitas transisi
di notasikan dengan Pij(k); i,j =
1,2,….,N Indeks k di atas menunjukkan bahwa
4. Reward Transisi proses menjalani alternatif keputusan
Pendapatan yang diperoleh sebagai ke-k di state i.
implikasi terjadinya transisi antar 8. v = nilai variabel reward / cost
state pada alternatif keputusan ke-k. relatif yang dipergunakan untuk
Reward dinotasikan dengan rij(k). menyelesaikan persamaan –
Misal matriks probabilitas transisi P persamaan linear :
N
g + v i = q i (R ) + ∑ Pij v j0
berukuran NxN dan elemen
elemennya Pij, maka matriks reward j=1
j

R juga berukuran NxN yang elemen-


i=1,2,…N
elemennya r ij.
5. Policy
Dengan R adalah policy yang sedang
Suatu langkah mengambil suatu aksi
dijalankan.
sebagai kebijakan secara prosedural
9. g ( R ) = nilai ekspektasi reward per
untuk mencapai langkah strategis
unit waktu jika sistem telah berjalan
yaitu mendapatkan keputusan
sampai dengan waktu tak berhingga
optimal. Secara matematis
(long – run expectation revenue) dan
dinyatakan sebagai himpunan semua
digunakan policy R untuk
keputusan yang diambil dalam setiap
mengambil keputusan.
state.
6. Policy optimal
Selanjutnya, algoritma metode
Suatu kebijakan yang terbaik dari
penginterasian policy secara ringkas
sekian banyak aksi yang mungkin
dapat diberikan sebagai berikut :

I N T E G R A L, vol. 5 no. 2, Oktober 2000 77


1. Pilih policy R = { RI , i∈I} sebarang. III.1. Formulasi Model Stokastik
2. Untuk rule R ini, tentukan Untuk Masalah Periklanan
penyelesaian tunggal {g ( R ), vI ( R Langkah pertama yang harus dilakukan
)} pada sistem persamaan linear adalah memformulasikan masalah
berikut : periklanan dalam sebuah rantai Markov
vi = qi ( Ri ) − g + ∑ Pij ( Ri )v j yang disesuaikan dengan jenis
j ∈i keputusan yang ingin kita ambil.
i∈I Sebagai contoh, misalkan seorang
manajer perusahaan ingin memutuskan
atau jenis media iklan yang paling tepat, baik
pada saat penjualan suatu produknya
g + vi = qi ( Ri ) + ∑ Pij ( Ri )v j mengalami penurunan atau berada
j∈i
dalam keadaan kurang, baik dan sangat
dengan memuaskan. Dalam hal ini alternatif
vs = 0 media iklan pada setiap keadaan tidak
dimana s adalah satu state yang perlu sama misalkan pada saat keadaan
dipilih sebarang. penjualan kurang kita punya alternatif
3. Untuk setiap state i∈I, tentukan media TV yang punya daya jangkau
keputusan k yang memberi nilai lebih luas , dan pada saat penjualan
maksimum sangat baik mungkin kita
maks memprediksikan sudah cukup memakai
k ∈ A (i )
media radio atau koran saja.
 (k ) 
q i + ∑ Pij (a ).v j (R ) − g 
Disini keadaan atau state yang mungkin
terjadi kita golongkan menjadi tiga :
 j∈I 
Nilai k maksimum untuk setiap state
1. Penjualan kurang
i ini disebut sebagai keputusan Ri.
2. Penjualan baik
Disini kita peroleh policy baru
3. Penjualan sangat memuaskan
R={Ri, i∈I}.
4. Jika policy baru dari langkah 3 sama Pada saat penjualan kurang misalkan
dengan policy dari satu langkah kita mempunyai enam alternatif pilihan
sebelumnya maka kita berhenti. Jika media iklan yaitu mengiklankan di
tidak, ulangi langkah 2 dan 3 sampai RCTI, SCTV, Indosiar, Geronimo,
iterasi konvergen (yakni policy baru Yasika, Kompas.
yang diperoleh sama dengan policy Pada saat penjualan baik misalkan kita
satu iterasi sebelumnya). mempunyai empat alternatif pilihan
media iklan yaitu RCTI, Indosiar,
Geronimo, Kompas.
III. Aplikasi Metode Pengiterasian
Dan saat penjualan sangat memuaskan
Policy di Bidang Periklanan
misalkan kita cukup punya tiga pilihan
Untuk memberikan illustrasi bagi
media iklan yaitu TPI, SCTV, Kompas.
penggunaan metode pengiterasian policy
diatas, kita akan gunakan metode ini
Dari hasil survai diketahui data sebagai
untuk mengambil keputusan bagi suatu
berikut :
contoh kasus di bidang periklanan.

78 I N T E G R A L, vol. 5 no. 2, Oktober 2000


Expected
Immediate
State Alternatif Probability Reward Reward
N
qi K = ∑ Pij rij
K K
I k Pijk Rijk
j =1

J=ku b sm ku b sm
Kurang RCTI 0,2 0,3 0,5 1000 1300 1600 1390
(ku) SCTV 0,2 0,4 0,4 900 1200 1700 1370
Indosiar 0,3 0,3 0,4 980 1100 1500 1270
Geronimo 0,5 0,25 0,25 400 500 600 535
Yasika 0,5 0,48 0,02 400 550 610 496.2
Kompas 0,6 0,39 0,01 400 550 605 452.75

Baik RCTI 0,1 0,3 0,6 980 1050 1600 1373


(b) Indosiar 0,1 0,5 0,4 800 1200 1550 1300
Geronimo 0,4 0,35 0,25 380 480 700 495
Kompas 0,4 0,55 0,05 350 460 750 430.5

Sangat SCTV 0,01 0,1 0,89 760 830 1100 1069.6


Memuaskan TPI 0,01 0,2 0,79 750 810 1000 959.5
(sm) Kompas 0,07 0,33 0,6 250 400 650 539.5

Nilai yang terdapat pada reward memuaskan dengan probabilitas 0.4


merupakan satuan uang misal ratusan dengan reward 170 juta rupiah. Pada
ribu (rupiah) dalam satuan waktu saat keadaan baik, kita memilih RCTI
(misalkan satu minggu). sebagai alternatif pilihan media iklan
Dari data di atas, pada saat keadaan atau maka kita akan mendapatkan penjualan
state kurang apabila kita memilih RCTI menjadi kurang dengan probabilitas 0.1,
sebagai alternatif pilihan media iklan reward 180 juta rupiah, menjadi baik
maka probabilitas hasil penjualan dengan probabilitas 0.3 serta reward 105
menjadi kurang adalah 0.2 dengan juta rupiah dan menjadi sangat
reward 100 juta rupiah, menjadi baik memuaskan dengan probabilitas 0.6
dengan probabilitas 0.3 serta reward 130 dengan reward 160 juta rupiah. Saat kita
juta rupiah dan menjadi sangat berada pada keadaan sangat memuaskan
memuaskan dengan probabilitas 0.5, apabila kita memilih SCTV sebagai
reward 160 juta rupiah. Sedangkan alternatif media iklan, penjualan akan
apabila kita memilih SCTV sebagai menjadi kurang dengan probabilitas
alternatif pilihan maka penjualan akan 0.01, reward 76 juta rupiah, menjadi
menjadi kurang dengan probabilitas 0.2 baik dengan probabilitas 0.1 serta
dan reward 90 juta rupiah, menjadi baik reward 83 juta rupiah dan menjadi
dengan probabilitas 0.4 serta reward 120 sangat memuaskan dengan probabilitas
juta rupiah dan menjadi sangat 0.89 dengan reward 100 juta rupiah. Hal

I N T E G R A L, vol. 5 no. 2, Oktober 2000 79


yang sama berlaku untuk keadaan  0.2 0.3 0.5 
lainnya. 
P = 0.1 0.3 0.6 ,

 
0.01 0.1 0.89
III.2. Proses Pengambilan Kepu-
tusan dengan Metode  1390 
Pengiterasian Policy 
q = 1373

Untuk proses pengambilan keputusan  
1069.6
kita lakukan langkah-langkah seperti
N
pada teori.
1. Menentukan Policy Awal Dengan rumus qi + ∑P v
j =1
ij i kita cari
Kita ambil satu alternatif tiap state
secara acak (disini dapat dibuktikan v1 , v2 , v3 , g
bahwa bagaimanapun cara memilih
policy awal, maka policy optimal yang Kita memiliki persamaan :
diperoleh akan sama), misal untuk state g + v1 = 1390 + 0.2 v1 + 0.3 v2 + 0.5 v3
kurang kita pilih RCTI, state baik kita g + v2 = 1300 + 0.1 v1 + 0.3 v2 + 0.6 v3
pilih RCTI dan sangat memuaskan pilih g + v3 = 1069.6+0.01v1 +0.1v2+ 0.89 v3
SCTV Sehingga Dengan menganggap v3 = 0 diperoleh :
v1 = 503.175,
 RCTI  v2 = 435.857,

d = RCTI ,

  v3 = 0,
SCTV  g = 1118.218

Perbaikan Policy pertama pada iklan :


State Alternatif Kuantitas Uji
N

i k q1 + ∑ pij vi
j =1

kurang RCTI 1621.3921


SCTV 1644.9778
Indosiar 1548.3437
Geronimo 895.5518
Yasika 982.1576
Kompas 924.6392

baik RCTI 1544.0746


Indosiar 1568.2460
Geronimo 914.1985
Kompas 871.4914

Sangat SCTV 1118.2175


Memuaskan TPI 1051.7032
Kompas 718.5551

80 I N T E G R A L, vol. 5 no. 2, Oktober 2000


Kita lihat bahwa untuk state kurang nilai Dengan rumus qi + ∑ Pijvi kita cari
test quantity yang maksimum berada kembali nilai v1 , v2 , v3 dan g
pada alternatif SCTV , state baik Kita peroleh persamaan :
berubah pada Indosiar dan state sangat g+v1 = 1370 + 0.2 v1 + 0.4 v2 + 0.4 v3
memuaskan tetap pada SCTV sehingga g+v2 = 1300 +0.1 v1 + 0.5 v2 + 0.4 v3
kita susun policy baru. g+v3 = 1069.6 +0.01 v1 + 0.1 v2+ 0.89 v3
Dengan menganggap v3 = 0 kita
2. Susunan Policy baru peroleh : v1 = 543.269, v2 = 465.491, v3
 SCTV  = 0, g = 1121.582

d = Indosiar ,
 Sebagai catatan nilai g meningkat dari
  1118.218 menjadi 1121.582 walaupun
 SCTV  selisihnya sangat kecil kita masih belum
 0.2 0.4 0.4  punya cukup alasan untuk menemukan

P = 0.1 0.5 0.4 ,
 policy optimal.
  Dari data nilai v1 , v2 , v3 yang baru ,
0.01 0.1 0.89 kita punya perbaikan policy kedua

 1370 

q = 1300

 
1069,6

State Alternatif Kuantitas Uji


N

i k q1 + ∑ pij vi
j =1

kurang RCTI 1638.3011


SCTV 1664.8502
Indosiar 1568.7391
Geronimo 923.0073
Yasika 1018.4336
Kompas 960.2529

baik RCTI 1566.9742


Indosiar 1587.0724
Geronimo 875.2295
Kompas 903.8277

Sangat SCTV 1121.581


Memuaskan TPI 1058.0309
Kompas 731.1409

Dari tabel perbaikan policy kedua kita maksimum pada setiap state tetap yaitu
lihat bahwa nilai test quantity yang pada keadaan kurang nilai maksimum

I N T E G R A L, vol. 5 no. 2, Oktober 2000 81


pada alternatif SCTV, state baik pada mencapai solusi optimum dalam jumlah
alternatif Indosiar dan state sangat iterasi yang relatif kecil.
memuaskan pada alternatif SCTV.
Karena policy baru yang kita punya dari
perbaikan policy kedua , yaitu V. Daftar Pustaka
1. Murdiyana, F., Syakuri, M.,
 SCTV 
d=
Indosiar  Susilawati, E., Pengambilan
  Keputusan dengan Proses
 SCTV  Keputusan Markov melalui metode
pengiterasian Policy dan
Sama dengan pada berbaikan policy
applikasinya di bidang perikanan,
pertama maka proses selesai sehingga IHMSI, Bandung, 16-21 November
kita dapat memutuskan bahwa jika hasil
1999
penjualan produk tersebut kurang atau
2. Rosadi,D., Performance Analysis of
sangat memuaskan maka kita pilih Link Sharing Policy, KPN Research
SCTV untuk mengiklankan produk
Report, SV99-31297,1999
tersebut dan jika hasil penjualan baik 3. Tijms, H.C., Stochastic Modeling
kita pilih Indosiar sebagai media iklan
and Analysis: A Computational
yang paling tepat.
Approach, John Miley and Sons,
New York. 1986
4. Dimyati, A. dan Dimyati, T.,
IV. Kesimpulan Operations Research, Sinar Baru,
Dari pembahasan diatas dapat diambil Bandung, 1992
kesimpulan dibidang periklanan ,
metode pengiterasian policy dapat
digunakan sebagai metode yang cukup Penulis
baik untuk pengambilan keputusan.
Dedi Rosadi adalah dosen Jurusan
Namun diperlukan langkah untuk
memodelkan masalah menjadi satu Matematika FMIPA UGM
model rantai markov yang bersifat Sekip Utara, Yogyakarta
stokastik. Dalam contoh diatas,
diperlihatkan metode pengiterasian email : dedirosadi@mailcity.com,
policy cukup efisien dalam arti drosadi@mipa.ugm.ac.id

82 I N T E G R A L, vol. 5 no. 2, Oktober 2000

Anda mungkin juga menyukai