Algoritma Expectation-Maximization (EM) Untuk Estimasi Distribusi Mixture
Algoritma Expectation-Maximization (EM) Untuk Estimasi Distribusi Mixture
Abstrak
Distribusi mixture merupakan distribusi yang dapat digunakan untuk memodelkan
data yang populasinya tersusun dari beberapa sub populasi. Setiap sub populasi
memiliki karakteristik yang berbeda. Namun kendala umum yang dihadapi adalah
mengestimasi parameter pada distribusi mixture. Sehingga penelitian ini bertujuan
untuk mengestimasi parameter pada distribusi mixture. Pendugaan parameter pada
distribusi mixture dapat menggunakan metode algoritma Expectation-Maximization
(EM). Algoritma EM memiliki kelebihan yaitu dapat menyelesaikan beberapa
permasalahan pada bidang statistik seperti menduga parameter bagi gabungan
fungsi-fungsi serta parameter dari data yang tidak lengkap. Kinerja Algoritma EM
diuji dengan menggunakan data simulasi.
1. Pendahuluan
Statistika inferensia mencakup semua metode yang berhubungan dengan analisis
sebagian data atau juga sering disebut sampel untuk kemudian sampai pada peramalan
atau penarikan kesimpulan mengenai keseluruhan data induknya (populasi). Salah satu
cara penarikan kesimpulan mengenai karakteristik populasi tersebut yaitu penaksiran
parameter. Penaksiran parameter ini bertujuan untuk mendapatkan taksiran dari suatu
nilai parameter populasi yang tak diketahui berdasarkan sampel.
Dalam statistika terdapat dua jenis penaksiran parameter, yaitu penaksiran
paramater titik dan penaksiran parameter interval. Penaksiran titik berupa sebuah nilai
dari parameter populasi, sedangkan penaksiran interval berupa selang di mana
parameter populasi terletak pada interval tersebut. Penentuan penaksiran parameter
titik dapat ditempuh dengan menggunakan beberapa metode yaitu Metode
Kemungkinan Maksimum, Metode Momen, Metode Kuadrat terkecil, dan sebagainya.
Namun dalam beberapa kasus metode-metode tersebut tidak dapat memberikan solusi
atas parameter yang ingin diketahui. Salah satu masalah yang tidak dapat diselesaikan
mengenai distribusi mixture.
Distribusi mixture menggabungkan sejumlah komponen yang kemungkinan berasal
dari distribusi yang sama atau bahkan berbeda-beda sehingga dapat memberikan
gambaran mengenai sifat-sifat data. Hasil distribusi mixture dapat memfasilitasi
deskripsi suatu sistem yang kompleks dengan lebih teliti. Mixture beberapa distribusi
tersebut menghasilkan distribusi baru yang mempunyai beberapa parameter. Sehingga
2. Tinjauan Pustaka
2.1 Distribusi Mixture
Salah satu model khusus yang dapat digunakan untuk memodelkan data yang
populasinya merupakan susunan dari beberapa sub populasi atau kelompok. Setiap sub
populasi merupakan komponen penyusun dari model mixture serta mempunyai
proporsi yang bervariasi untuk masing-masing komponennya (McLachlan dan
Basford, 1988) dan (Gelman, Carlin, Stren, dan Rubin, 1995). Mixture distribution
menggabungkan sejumlah komponen yang kemungkinan berasal dari distribusi yang
sama atau berbeda-beda sehingga dapat memberikan gambaran mengenai sifat-sifat
dari data. Hasil dari distribusi mixture dapat memfasilitasi deskripsi dari suatu sistem
yang kompleks dengan lebih teliti. Distribusi mixture menyediakan kerangka
parametrik yang fleksibel dalam permodelan dan analisis statistik (Marin, Mengersen,
dan Robert, 2005).
McLahlan dan Krishnan (2008) menjabarkan suatu model mixture merupakan
sebuah model probabilistik yang digambarkan dengan densitas
( ; )= ( ) Eq. 1
Dimana
0≤ ≤ 1, ∑ =1
Keterangan
: Probabilitas atau proporsi dari komponen mixture.
( ) : Fungsi densitas yang menggambarkan mekanisme probabilistik untuk
membangkitkan data di dalam populasi yang secara lengkap dapat
dikenali dari parameter .
: Melambangkan banyaknya komponen dalam mixture.
Model yang dijabarkan pada Eq. 1 disebut sebagai finite mixture model yang
berlaku untuk model dengan jumlah komponen tertentu.
( , ,…, )= ( ; ) Eq. 2
Bila fungsi likelihood ini terdiferensikan dalam maka calon estimator likelihood yang
mungkin adalah sedemikian sehingga
( )
=0
Untuk membuktikan bahwa benar-benar memaksimumkan fungsi likelihood ( )
harus ditunjukkan bahwa :
( )
<0
Dalam banyak kasus dimana diferensi digunakan, akan lebih mudah bekerja pada
logaritma dari ( )yaitu log ( ). Hal ini dimungkinkan karena fungsi logaritma naik
tegas pada (0, ∞) yang berarti bahwa ( ) mempunyai ekstrem yang sama.
Sehingga untuk menentukan estimator maksimum likelihood dari sebagai berikut :
1. Tentukan fungsi likelihood
( , ,…, )= ( ; )
log ( | ) = log ( | ) ∙ ( | , )
3. Metode Penelitian
Metodologi penelitian merupakan cara berfikir dan berbuat yang dipersiapkan
secara matang dalam rangka untuk mencapai tujuan penelitian, yaitu menemukan,
mengembangkan atau mengkaji kebenaran suatu pengetahuan secara ilmiah.
Salah satu unsur terpenting dalam metodologi penelitian adalah penggunaan
metode ilmiah tertentu yang digunakan sebagai sarana yang bertujuan untuk
mengidentifikasi besar kecilnya objek atau gejala dan mencari pemecahan masalah
yang sedang diteliti, sehingga hasil yang diperoleh dapat dipertanggung jawabkan
kebenarannya secara ilmiah. Pada dasarnya fakta-fakta tidak tergeletak disekitar
begitu saja tetapi butuh suatu metode untuk mengetahui dan mengambil masalah
tersebut.
Penelitian dilakukan dengan mempelajari literatur-literatur yang memuat dan
membahas tentang MLE, Distribusi Mixture, Algoritma EM, dan beberapa teori – teori
pendukung.
Tahap – tahap penelitiannya adalah sebagai berikut :
3.1 Pengumpulan Literatur
Penulis mencari dan mengumpulkan literatur-literatur yang berhubungan dengan
teori-teori probabilitas, variabel random, ekspektasi, estimasi parameter dan berbagai
metode-metode lain yang relevan untuk sampai pada pembahasan tentang estimasi
distribusi mixture menggunakan algoritma EM. Pengumpulan berasal dari berbagai
sumber seperti dari buku, skripsi, jurnal, artikel, dan situs-situs internet yang
menunjang materi yang diperlukan.
3.2 Pengkajian Literatur
Penulis membaca dan mengkaji literatur-literatur yang telah terkumpul, kemudian
mengelompokkan dan mencatat literatur-literatur tersebut sesuai dengan masalah yang
akan dibahas.
( )
= ( ( )) Eq. 8
∑ …∑ ∑ …∑ ∏ ,Ψ ( | ,Ψ )
∑ ,Ψ
= ∑ ∑ log[ ( |ψ )] ∏ ( | ,Ψ )
1
= ∑ ∑ log[ ( |ψ )] ( | , Ψ )
Berdasarkan penjabaran di atas maka persamaan dapat kita tuliskan sebagai berikut
(Ψ, Ψ ) = log( ) ( | ,Ψ )+
Eq. 10
log[ ( |ψ )] ( | , Ψ )
Kita perlu mencari nilai ekspektasi atau E-step dari (Ψ|X, Z) denagn diberikan
dan parameter. Dimana log (Ψ|X, Z) adalah linier di langkah ini mengurangi
untuk menghitung nilai ekspektasi = dengan diberikan dan parameter Ψ
sehingga dapat dituliskan
[ = | ,Ψ ]= ( = | ,Ψ )Eq. 11
log( ) ( | ,Ψ )+ −1 = 0
1
( | ,Ψ )+ = 0
( | ,Ψ )+ = 0
Sehingga diperoleh
1
= ( | ,Ψ ) Eq. 12
( | )= [ ( ) + (1 − )ℎ( )] Eq. 13
( | , )= [ ( ) + (1 − )ℎ( )] (1 − ) Eq. 14
Untuk E-step dari penjabaran pada persamaan Eq. 9 dan Eq. 11 dimana kita
dapatkan
[ | , ] = ( | , )
( )
= Eq. 15
[ ( ) + (1 − )ℎ( )]
Maka diperoleh M-step berdasarkan pada persamaan (12) yaitu
1 ( )
= Eq. 16
[ ( )+ 1− ℎ( )]
6. Perhitungan Numerik
Pengujian akan difokuskan pada distribusi normal dan distribusi poisson yang
dibatasi atas mixture dua distribusi. Agar perhitungan lebih akurat dan efisien
penelitian akan menggunakan Matlab2010. Adapun pembahasan tertera seperti berikut
6.1 Estimasi Parameter Distribusi Mixture Menggunakan Algoritma EM untuk
Kasus Distribusi Normal
Penelitian pada kasus ini bertujuan mengukur kinerja algoritma EM dalam
mengestimasi distribusi mixture dengan dibatasi dua distribusi yang diketahui
berdistribusi normal yang merupakan distribusi kontinu. Dimana diketahui
| = 1~ ( , )
| = 0~ ( , )
Berdasarkan persamaan (4.7) maka fungsi likelihood yang diperoleh yaitu
( ) ( )
1 1
( | )= [ + (1 − ) ]
√2 √2
[ | , ] = ( | , )
( )
exp −
√
=
( ) ( )
[ exp − + (1 − ) exp − ]
√ √
3. M-Step untuk mendapatkan nilai
1
= ( | , )
Pada pengujian dengan nilai masukkan dari banyaknya data atau n yang berbeda-
beda, dimana diberikan nilai eksak = 0.3 maka akan memberikan hasil sebagai
berikut
Tabel 6. Tabel estimasi parameter dengan nilai yang berbeda-beda untuk kasus
distribusi normal
6.8 Pengujian Dengan Nilai Yang Beragam
Pengujian terakhir akan dilihat pengaruh dari nilai yang berbeda-beda dalam
menemukan parameter distribusi mixture menggunakan algoritma EM kasus distribusi
normal dengan diketahui nilai eksak = 0.3. Adapun penjabaran akan disajikan
sebagai berikut
No Inisial n Toleransi Mu Var Mu Var Proporsi Iterasi
Proporsi 1 1 2 2
1 0.0212 500 0.00001 3 7 2 0.5 0.308025 8
2 0.0212 500 0.00001 3 7 2 1.5 0.317198 15
3 0.0212 500 0.00001 3 7 2 1.7 0.298112 16
4 0.0212 500 0.00001 3 7 2 2.87 0.304377 29
5 0.0212 500 0.00001 3 7 2 13 0.312603 101
6 0.0212 500 0.00001 3 7 2 17 0.290055 59
7 0.0212 500 0.00001 3 7 2 19 0.310588 49
8 0.0212 500 0.00001 3 7 2 27 0.289886 33
9 0.0212 500 0.00001 3 7 2 64 0.305481 15
10 0.0212 500 0.00001 3 7 2 100 0.311352 12
2
Tabel 7. Tabel estimasi parameter dengan nilai 2 yang berbeda-beda untuk kasus
distribusi normal
7. Estimasi Parameter Distribusi Mixture Menggunakan Algoritma EM untuk
Kasus Distribusi Poisson
Pada kasus distribusi poisson penelitian juga bertujuan untuk menguji kinerja
algoritma EM dalam menghasilkan nilai estimasi parameter distribusi mixture
khususnya untuk masalah diskrit. Dimana diketahui
| = 1~ ( )
| = 0~ ( )
Berdasarkan persamaan (4.7) maka fungsi likelihood yang diperoleh yaitu
( | )= [ + (1 − ) ]
! !
( | , )= + (1 − ) (1 − )
! !
Maka dapat kita tuliskan algoritma EM untuk mencari parameter distribusi mixture
untuk kasus distribusi poisson sebagai berikut
1. Inisialisasi nilai untuk , , dan banyaknya data atau serta nilai
[ | , ] = ( | , )
!
=
[ + (1 − ) ]
! !
3. M-Step untuk mendapatkan nilai
1
= ( | , )
Proses akan terus berjalan sampai konvergen pada satu nilai sesuai dengan
kriteria berhenti.
Pembuktian kinerja algoritma EM di atas akan menggunakan MATLAB sebagai
media dalam perhitungan. Namun sebelum itu terlebih dahulu bentuk data yang
berasal dari distribusi mixture yang dijabarkan berdasarkan teori bilangan acak dengan
diberikan nilai eksak = 0.6. Adapun kode program untuk menghasilkan bilangan
acak pada distribusi poisson sebagai berikut
Selanjutnya GUI program algoritma EM untuk mengestimasi parameter distribusi
mixture berdasarkan kode program 3 diperlihatkan pada Gambar 2 berikut
Gambar 2. GUI program algoritma EM untuk estimasi parameter distribusi mixturekasus distribusi poisson
DAFTAR PUSTAKA
[1] Bain, L., & Engelhardt. 1992. Introduction to Probability and Mathematical Statistics
(2 ed.). California, USA : Duxbury Press.
[2] DeGroot, M. H. &Schervish, M. J. 2012. Probability and Statistics (4 ed.). Addison-
Wesley.
[3] Dempster, A. P., Laird, N. M., & Rubin, D. B. 1977. Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical Society B, 39
(1), 1-38.
[4] Gelman, A, Carlin, J.B, Stren, H.S, dan Rubin, D.B. (1995). Bayesian Analysis Theory
and Methods. New York : Springer.
[5] Hogg, R. V., McKean J. W., & Craig, A. T. 2005. Introduction to Mathematical
Statistics (6 ed.). United States of America : Pearson Education.
[6] Marin, J.M, Mengersen, K, dan Robert, C.P. 2005. Bayesian Modelling and Inference
on Mixtures of Distribution. Handbook of Statistics. Vol. 25, hal 50.
[7] McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inference and
Applications to Clustering. New York: Marcel Dekker.
[8] McLahlan, G. J., & Krishnan, T. 2008. The EM Algorithm and Extensions
(2 ed.).United States of America : John Wiley & Sons.