Anda di halaman 1dari 18

METODE BAYESIAN

DIAN KURNIASARI
ESTIMATOR BAYESIAN

• Pendekatan Bayesian dalam statistik secara fundamental


berbeda dengan pendekatan klasik seperti yang telah kita
bahas di muka. Meskipun demikian, beberapa aspek dari
pendekatan tersebut dapat berguna pada beberapa pendekatan
statistik yang lain. Sebelum masuk pada metode pencarian
estimator Bayes, kita akan membahas pendekatan Bayesian
pada statistika terlebih dahulu.
• Dalam pendekatan klasik, parameter θ adalah besaran tetap yang
tidak diketahui. Sampel random 𝑋1 , … , 𝑋𝑛 diambil dari populasi
berindeks θ dan berdasarkan harga-harga terobservasi dalam
sampel didapat pengetahuan tentang θ. Dalam pendekatan Bayesian,
θ dipandang sebagai besaran yang variasinya digambarkan dengan
distribusi peluang (disebut distribusi prior). Ini adalah distribusi
subyektif, berdasarkan pada keyakinan seseorang dan dirumuskan
sebelum data diambil. Kemudian, sampel diambil dari populasi
berindeks θ dan distribusi prior disesuaikan dengan informasi
sampel ini. Prior yang telah disesuaikan disebut distribusi posterior.
Penyesuaian ini dilakukan dengan menggunakan aturan Bayes, itulah
kenapa dinamai statistika Bayesian.
Untuk mengerti pendekatan Bayes, kita harus mampu
menerjemahkan Teorema Bayes dalam peluang:
𝑃(𝐴𝑘 )𝑃(𝐵|𝐴𝑘 )
𝑃(𝐴𝑘 |𝐵) = 𝑛
σ𝑖=1 𝑃(𝐴𝑖 )𝑃(𝐵|𝐴𝑖 )

untuk kasus pembuatan inferensi tentang parameter θ. Sebagai


ilustrasi, misalkan kita mempunyai distribusi Poisson dengan
parameter θ > 0, dan kita mengetahui bahwa parameternya θ = 2
atau θ = 3. Dalam pendekatan klasik, parameter θ adalah besaran
tetap yang tidak diketahui. Sampel random 𝑋1 , 𝑋2 , … , 𝑋𝑛 diambil dari
populasi berindeks θ dan θ dipandang sebagai besaran yang
bervariasi digambarkan dengan distribusi prior.
• Dalam contoh ini, misalkan kita mempunyai peluang prior subyektif P(θ = 2) =
1 2
dan P(θ = 3) = 3. Sekarang misalkan sampel random ukuran n = 2
3
menghasilkan observasi 𝑥1 = 2 dan 𝑥2 = 4. Berdasarkan data ini, kita akan
menentukan peluang posterior θ = 2 dan θ = 3 berdasarkan Teorema Bayes
𝑃 𝜃=2 𝑑𝑎𝑛 𝑥1 =2, 𝑥2 =4
𝑝 𝜃2 𝑥1 = 2, 𝑥2 = 4 =
𝑃 𝑥1 =2, 𝑥2 =4
1 𝑒−2 22 𝑒−2 24
3 2! 4!
= 1 𝑒−2 22 𝑒−2 24 2 𝑒−3 32 𝑒−3 34
3 2! 4!
+ 3 2! 4!

= 0.245
Dengan cara yang sama kita mendapatkan
𝑃 𝜃 = 3 𝑥1 = 2, 𝑥2 = 4 = 1 − 0.245 = 0.755 . Ini berarti
dengan observasi 𝑥1 = 2 dan 𝑥2 = 4, peluang posterior 𝜃 = 2
lebih kecil dibandingkan probabilitas prior 𝜃 = 2 . Pengamatan
yang sama menunjukkan peluang posterior 𝜃 = 3 lebih besar
dibandingkan prior yang bersesuaian. Ini artinya observasi 𝑥1 =
2 dan 𝑥2 = 4 lebih menyokong 𝜃 = 3 dibandingkan 𝜃 = 2
DISTRIBUSI PRIOR DAN POSTERIOR

• Misalkan X~𝑓 𝑥|𝜃 dan 𝜃 ∈ 𝛺. Bila distribusi θ pada Ω dinyatakan dengan 𝜋 𝜃 ,


maka 𝜋 𝜃 disebut distribusi prior dari θ. Ringkasan model dapat dinyatakan
sebagai
𝑥|𝜃~𝑓 𝑥|𝜃 (1)
𝜃~𝜋 𝜃 (2)
• Misalkan 𝑋1 , 𝑋2 , … , 𝑋𝑛 sampel random dari distribusi bersyarat X diberikan θ
dengan fungsi kepadatan peluang 𝑓 𝑥|𝜃 . Fungsi kepadatan peluang gabungan dari
𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) diberikan θ adalah
𝑓 𝑥|𝜃 = 𝑓 𝑥1 |𝜃 𝑓 𝑥2 |𝜃 … 𝑓 𝑥𝑛 |𝜃 (3)
• Fungsi kepadatan peluang gabungan 𝑋 dan 𝜃 adalah
𝑓 𝑥, 𝜃 = 𝑓 𝑥|𝜃 𝜋 𝜃 (4)
• Bila θ variabel random kontinu, fungsi kepadatan peluang marginal dari 𝑋 adalah

𝑚 𝑥 = ‫׬‬−∞ 𝑓 𝑓 𝑥|𝜃 𝑑𝜃 (5)
• Dan bila 𝜃 variabel random diskret, fungsi kepadatan peluang marginal dari 𝑋
adalah
𝑚 𝑥 = σ𝜃 𝑓 𝑥|𝜃 (6)
• Baik pada kasus (5) atau (6), fungsi kepadatan peluang bersyarat θ diberikan 𝑋
adalah :
𝑓 𝑥,𝜃 𝑓 𝑥|𝜃 𝜋 𝜃
𝜋 𝜃|𝑥 = = (7)
𝑚 𝑥 𝑚 𝑥

• Distribusi yang didefinisikan pada (7) disebut distribusi posterior. Distribusi prior
merefleksikan kepercayaan subyektif θ sebelum sampel diambil, sedangkan
distribusi posterior adalah distribusi bersyarat θ setelah sampel diambil.
CONTOH 1

• Misalkan 𝑋1 , 𝑋2 , … , 𝑋𝑛 iid Bernoulli (θ). Kita andaikan distribusi prior dari θ adalah Beta(α,
β). Karena 𝑌 = σ𝑛𝑖=1 𝑥𝑖 ~ Binomial (n,θ), maka distribusi bersama dari y dan θ adalah
𝑛 𝑦 𝑛−𝑦
ᴦ 𝛼 + 𝛽 𝛼−1
𝑓 𝑦, 𝜃 = 𝑦 𝜃 1 − 𝜃 𝜃 1 − 𝜃 𝛽−1
ᴦ 𝛼 ᴦ 𝛽
𝑛 ᴦ 𝛼+𝛽 𝑦−𝛼−1
= 𝑦 ᴦ𝛼ᴦ𝛽 𝜃 (1 − 𝜃)𝑛−𝑦+𝛽−1

• Densitas marginal y adalah


1
𝑛 ᴦ 𝛼 + 𝛽 ᴦ 𝛼 + 𝛽 ᴦ(𝑛 − 𝑦 + 𝛽)
𝑚 𝑦 = න 𝑓 𝑦, 𝜃 𝑑𝜃 = 𝑦
ᴦ 𝛼 ᴦ 𝛽 ᴦ(𝑛 + 𝛼 + 𝛽)
0
• Sehingga
𝑓 𝑦,𝜃 ᴦ 𝑛+𝛼+𝛽
𝜋 𝜃𝑦 = = 𝜃 𝑦+𝛼−1 (1 − 𝜃)𝑛−𝑦+𝛽−1 (8)
𝑚(𝑦) ᴦ 𝑦+𝛼 ᴦ 𝑛−𝑦+𝛽
CONTOH 2
• Diketahui X1, X2, …, Xn iid. Poisson (θ), dan θ mempunyai distribusi prior θ ~ Gamma (α, β). Dalam hal ini
𝑛 𝑥𝑖 −𝜃 σ𝑛
𝜃 𝑒 𝜃 𝑖=1 𝑥𝑖 𝑒 −𝑛𝜃
𝑓 𝑥1 , … , 𝑥𝑛 𝜃 = ෑ =
𝑥𝑖 ! ς𝑛𝑖=1 𝑥𝑖 !
𝑖=1
1 𝜃

𝜋 𝜃 = 𝛼
𝜃 𝛼−1 𝑒 𝛽
ᴦ 𝛼 𝛽
• Distribusi gabungan dari 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) dan θ adalah
𝜃
σ𝑛 −
𝜃 𝑖=1 𝑥𝑖 𝑒 −𝑛𝜃 𝜃 𝛼−1 𝑒 𝛽
𝑓 𝑥, 𝜃 = ς𝑛 ᴦ 𝛼 𝛽𝛼
(9)
𝑖=1 𝑥𝑖 !

• Dari (9) distribusi marginal dari 𝑋 adalah


∞ 1
σ𝑛 − 𝑛+ 𝜃
𝜃 𝑖=1 𝑥𝑖 +𝛼−1 𝑒 𝛽
𝑚 𝑦 = න 𝑓 𝑦, 𝜃 𝑑𝜃 =
ς𝑛𝑖=1 𝑥𝑖 ! ᴦ 𝛼 𝛽 𝛼
0
ᴦ(σ𝑛𝑖=1 𝑥𝑖 + 𝛼)
=
1 𝑛
ς𝑛𝑖=1 𝑥𝑖 ! ᴦ 𝛼 𝛽𝛼 (𝑛 + )σ𝑖=1 𝑥𝑖 +𝛼
𝛽
• Akibatnya distribusi posterior 𝜋 𝜃|𝑥 adalah
𝜃

𝑛 𝛽
σ
𝑓(𝑥|𝜃)𝜋 𝜃 𝜃 𝑖=1 𝑥𝑖 +𝛼−1 𝑒 (𝑛𝛽+1)
𝜋 𝜃|𝑥 = = σ 𝑥𝑖 +𝛼 (10)
𝑚(𝑥) 𝛽
ᴦ(σ𝑛
𝑖=1 𝑥𝑖 +𝛼) 𝑛𝛽+1

• Perhatikan bahwa distribusi posterior juga berbentuk distribusi gamma dengan parameter 𝛼 ∗ =
𝛽
σ 𝑥𝑖 + 𝛼 dan 𝛽 ∗ = . Dalam terminologi yang lebih umum, bila distribusi prior dan distribusi
(𝑛𝛽+1)
posterior berada dalam kelas distribusi yang sama maka distribusi prior dan posterior disebut
sekawan atau conjugate.
• Bentuk distribusi posterior (10) mencerminkan informasi prior (𝛼, 𝛽) dan informasi sampel σ𝑛𝑖=1 𝑥𝑖 .
• Dari dua contoh di atas terlihat bahwa dalam menentukan distribusi posterior 𝜋 𝜃|𝑥 , sebenarnya
kita tidak perlu menghitung fungsi kepadatan probabilitas marginal 𝑚 𝑥 . Sebagai ilustrasi pada contoh
2 bila kita membagi 𝑓 𝑥, 𝜃 𝜋 𝜃 dengan 𝑚 𝑥 kita akan mendapatkan perkalian suatu faktor yang
𝜃
− 𝛽
hanya tergantung pada 𝑥 tetapi tidak tergantung pada θ, katakanlah 𝑐 𝑥 dan 𝜃 σ 𝑥𝑖 +𝛼−1 𝑒 (𝑛𝛽+1)
• Tetapi 𝑐 𝑥 harus merupakan kostanta yang membuat 𝜋 𝜃|𝑥 merupakan densitas, yaitu
1
𝑐 𝑥 = σ 𝑥𝑖 +𝛼
𝛽
ᴦ σ 𝑥𝑖 +𝛼
(𝑛𝛽+1)

• Akibatnya, kita bisa menulis 𝜋 𝜃|𝑥 sebanding dengan 𝑓 𝑥|𝜃, 𝜋 𝜃 atau bisa ditulis

𝜋 𝜃|𝑥 𝛼𝑓 𝑥𝑖 |𝜃 𝜋(𝜃) (11)


• Bentuk (11) disebut penulis Box-Tiao. Sebagai ilustrasi, kalau kita mengerjakan kembali contoh 2.
𝜃
σ 𝑥𝑖 −𝑛𝜃 𝛼−1 −𝛽
𝜋 𝜃|𝑥 𝛼𝜃 𝑒 𝜃 𝑒
• Atau
𝜃
− 𝛽
𝜋 𝜃|𝑥 𝛼𝜃 σ 𝑥𝑖 +𝛼−1 𝑒 (𝑛𝛽+1)

• Kostanta kesebandingan harus dipilih sedemikian hingga 𝜋 𝜃|𝑥 merupakan denstas gamma dengan
𝛽
𝛼 ∗ = σ 𝑥𝑖 + 𝛼 dan 𝛽 ∗ = (𝑛𝛽+1) .
LEMMA 1
Misa lka n 𝑚 ( 𝑡 ) a da la h de nsita s ma rg ina l da ri t le bih be sa r da ri nol da n te ore ma
fa ktorisa si be rl a k u, ma ka untuk 𝑇 ( 𝑥 ) = 𝑡 dipe rol e h
𝜋 𝜃 𝑔 ( 𝑡 |𝜃 )
𝜋 𝜃|𝑥 = 𝜋 𝜃|𝑡 = 𝑚 (𝑡 )
a la sa n untuk me ne ntuka n 𝜋 𝜃 | 𝑥 da ri sta tistic c ukup T ( bila mung k in ) a da la h
pe rhitung a n de ng a n 𝑔 𝑡 𝜃 da n 𝑚 ( 𝑡 ) bia sa ny a l e bi h muda h di ba ndi ng ka n de ng a n
me ng una ka n 𝑓 𝑥 𝜃 da n 𝑚 ( 𝑥 )

Prior Tak Sejati (Improper Prior)


• Salah satu sifat menarik dari pendekatan bayes pada statistic adalah kesederhanaannya. Begitu
distribusi prior sudah ditentukan, perhitungan aturan bayes dapat langsung dikerjakan. Kesederhanaan
ini membawa pada usaha untuk menggunakan pendekatan Bayesian. Meskipun informasi prior
terbatas, bahkan tidak ada sama sekali. Dalam situasi demikian, yang diperlukan adalah prior tak
informative (Non informative prior), yaitu prior yang tidak memuat infromasi tentang 𝜃 (tidak ada 𝜃
yang lebih disukai dari yang lain). Sebagai contoh, dalam uji antara dua hipotesa sederhana, prior yang
1
memberikan probabilitas 2 pada setiap hipotesis dengan sendirinya adalah tak informatif. Berikut
adalah kasus yang lebih kompleks.
Definisi 2
Resiko Bayes 𝛤(𝜋, 𝑇 𝑥 ) kita definisikan sebagai

𝛤 𝜋, 𝑇 𝑥 = 𝐸𝜃 𝑅(𝜃, 𝑇 𝑥 )

= 𝐸𝜃 𝐸𝑥 (𝐿(𝜃, 𝑇(𝑥)))

Definisi 5
Resiko posterior 𝑅(𝜋, 𝑇 𝑥 ) relatif terhadap distribusi posterior 𝜋 𝜃 𝑥 kita definisikan sebagai

‫𝜃 𝐿 ׬‬,𝑇 𝑥 𝜋 𝜃 𝑥 𝑑𝜃 bila 𝜃 kontinu


𝑅 𝜋, 𝑇 𝑥 = ൝ σ𝜃 𝐿(𝜃,𝑇 𝑥 )𝜋 𝜃 𝑥 bila 𝜃 diskret

Estimator Bayes adalah estimator yang meminimumkan 𝛤(𝜋, 𝑇 𝑥 ) dalam Definisi 2 dalam prakteknya
pencarian estimator Bayes lebih mudah melalui estimator yang meminimumkan risiko posterior seperti
yang akan ditunjukkan dalam teorema di bawah.
Teorema 4
misalkan terdapat fungsi 𝑇 𝑥 yang meminimumkan risiko posterior 𝑅(𝜋, 𝑇 𝑥 ) maka 𝑇 𝑥 adalah
estimator Bayes
Bukti:
Kita akan membuktikan untuk kasus kontinu. Kasus diskrit dapat dibuktikan secara analog. Risiko Bayes
untuk fungsi 𝑇(𝑥)) adalah

ᴦ 𝜋, 𝑇 𝑥 = 𝐸𝜃 𝑅 𝜃, 𝑇 𝑥 = 𝐸𝜃 𝐸𝑥 (𝐿 𝜃, 𝑇 𝑥 |𝜃

= ‫𝜃 𝐿 ׬ ׬‬, 𝑇 𝑥 𝑓 𝑥|𝜃 𝑑𝑥 𝜋(𝜃)𝑑𝜃

= ‫𝜃 𝐿 ׬ ׬‬, 𝑇 𝑥 𝑓 𝑥|𝜃 𝑑𝑥𝑑𝜃

= ‫𝜃 𝐿 ׬ ׬‬, 𝑇 𝑥 𝜋 𝜃 𝑥 𝑑𝜃 𝑚(𝑥) 𝑑𝑥
Sekarang, integral bagian dalam adalah risiko posterior. Karena 𝑚(𝑥) tak negative, maka minimum
ᴦ 𝜋, 𝑇 𝑥 sama dengan minimum R 𝜋, 𝑇 𝑥 sehingga teorema terbukti.
Pentingnya teorema ini secara praktis adalah kita dimungkinkan hanya menggunakan data
terobservasi 𝑥, bukan mempertimbangkan semua harga 𝑥 yang mungkin. Secara ringkas
algoritma untuk mencari estimator Bayes adalah sebagai berikut :
Langkah 1: Hitung distribusi posterior 𝜋(𝜃|𝑥)
Langkah 2: untuk setiap estimator 𝑇(𝑥), hitung resiko posterior yaitu:

𝑅 𝜋, 𝑇 𝑥 = 𝐸𝜃 𝐿 𝜃, 𝑇 𝑥 |𝑋 = 𝑥

‫𝜃 𝐿 ׬‬, 𝑇 𝑥 𝜋 𝜃 𝑥 𝑑𝜃 , 𝜃 kontinu
= ൞
σ𝜃 𝐿 𝜃, 𝑇 𝑥 𝜋 𝜃 𝑥 , 𝜃 diskret

Langkah 3: Estimator Bayes adalah estimator yang meminimumkan 𝑅(𝜋, 𝑇(𝑥)) pada langkah 2.
Selanjutnya akan kita cari estimator Bayes relatif terhadap fungsi kerugian tertenti. Dengan
sendirinya yang paling popular adalah fungsi kerugian kuadratis.
Teorema 5
2
Dalam kasusu fungsi kerugian kuadratis, yaitu 𝐿 𝜃, T 𝑥 = 𝜃−T 𝑥 maka estimator Bayes adalah
mean distribusi posterior, yaitu 𝐸(𝜃|𝑥)

Bukti:
2
𝑅 𝜋, 𝑇 𝑥 =‫𝜃 ׬‬−𝑇 𝑥 𝜋 𝜃 𝑥 𝑑𝜃
= ‫ 𝜃 ׬‬2 𝜋 𝜃 𝑥 𝑑𝜃 + ‫ 𝑇 ׬‬2 𝑥 𝜋 𝜃 𝑥 𝑑𝜃
= ‫ ׬‬2𝜃𝑇 𝑥 𝜋 𝜃 𝑥 𝑑𝜃
Harga 𝑇(𝑥) yang meminimumkan 𝑅(𝜋, 𝑇 𝑥 ) didapat dengan mendiferensialkan 𝑅 𝜋, 𝑇 𝑥 terhadap 𝑇 𝑥
dan menyamakannya dengan nol
𝑑𝑅(𝜋,𝑇 𝑥 )
= 2 ‫𝜃𝑑 𝑥 𝜃 𝜋)𝑥(𝑇 ׬‬2 ‫𝜃𝑑 )𝑥|𝜃(𝜋𝜃 ׬‬
𝑑𝑇
= 2𝑇 𝑥 − 2𝐸(𝜃|𝑥)
𝑑𝑅(𝜋,𝑇 𝑥 ) 𝑑 2 𝑅(𝜋,𝑇 𝑥 )
𝑑𝑇
= 0 memberikan 𝑇 𝑥 = 𝐸 𝜃 𝑥 . Karena 𝑑𝑇
= 2 > 0 maka 𝑇 𝑥 = 𝐸 𝜃 𝑥 adalah
estimator Bayes.
Teorema 6
Bila 𝐿 𝜃, 𝑇 𝑥 = 𝜃 − 𝑇 𝑥 , maka estimator Bayes dari 𝜃 adalah median distribusi posterior 𝜋(𝜃|𝑥).
Bukti:
Misalkan 𝑚 menyatakan median dari 𝜋 𝜃 𝑥 , dan misalkan 𝑇 𝑥 > 𝑚. Sekarang

𝑚 − 𝑇 𝑥 bila 𝜃 ≤ 𝑚
𝐿 𝜃, 𝑚 − 𝐿 𝜃, 𝑇 𝑥 = ൞2𝜃 − (𝑚 + 𝑇 𝑥 bila 𝑚 < 𝜃 ≤ 𝑇(𝑥)
𝑇 𝑥 − 𝑚 bila 𝜃 ≥ 𝑇(𝑥)

Akibatnya
𝐿 𝜃, 𝑚 − 𝐿 𝜃, 𝑇 𝑥 ≤ 𝑚−𝑇 𝑥 𝐼 −∞,𝑚 𝜃 + (𝑇 𝑥 − 𝑚)𝐼 𝑚,∞ 𝜃
1 1
Karena 𝑃 𝜃 ≤ 𝑚 𝑥 ≥ , maka 𝑃 𝜃 > 𝑚 𝑥 ≤ , maka dapat disimpulkan bahwa harga harapan posterior
2 2
𝐿 𝜃, 𝑚 − 𝐿 𝜃, 𝑇 𝑥 lebih kecil atau sama dengan (𝑚 − 𝑇 𝑥 )𝑃(𝜃 ≤ 𝑚 𝑥 + (𝑇 𝑥 − 𝑚)𝑃(𝜃 >
1 1
𝑚 𝑥 ≤ 𝑚−𝑇 𝑥 2
+ 𝑇 𝑥 −𝑚 2
=0
Bentuk ini menunjukan bahwa harga harapan posterior dari 𝑚 lebih kecil atau sama dengan harga harapan posterior
𝑇(𝑥). Argumentasi yang sama berlaku untuk 𝑇 𝑥 < 𝑚, dan teorema terbukti.

Anda mungkin juga menyukai