Anda di halaman 1dari 34

Metode Bayes

Mengapa Metode Bayes


Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang dapat digunakan adalah metode bayes. Metode Bayes ini merupakan metode yang baik di dalam mesin pembelajaran berdasarkan data training, dengan menggunakan probabilitas bersyarat sebagai dasarnya dasarnya. Metode Bayes digunakan untuk menyelesaikan permasalahan Klasifikasi Klasifikasi.

Beberapa Aplikasi Metode Bayes


Menentukan diagnosa suatu penyakit berdasarkan datadata gejala (sebagai contoh hipertensi atau sakit jantung) jantung). Mengenali buah berdasarkan fitur-fitur buah seperti warna, bentuk, rasa dan lain-lain Mengenali M li warna b berdasarkan d k fi fitur i indeks d k warna RGB Mendeteksi warna kulit (skin detection) berdarkan fitur warna chrominant Menentukan keputusan aksi (olahraga, art, psikologi) berdasarkan keadaan. Menentukan jenis pakaian yang cocok untuk keadaankeadaan keadaan tertentu (seperti cuaca, musim, temperatur, acara, waktu, tempat dan lain-lain)

Probabilitas Bersyarat
S X XY

P( X Y ) P( X | Y ) = P(Y )

Probabilitas X di dalam Y adalah probabilitas interseksi X dan Y dari probabilitas Y, atau dengan bahasa lain P(X|Y) adalah d l h prosentase b banyaknya k X di d dalam l Y

Contoh
Tidak melanjutkan j ke perguruan tinggi 50 250

Melanjutkan ke perguruan tinggi Laki laki Perempuan 450 150

Perhatikan kejadian kejadian berikut : L : kejadian yang terpilih laki - laki j y yang g terpilih adalah orang gy yang g K: kejadian melanjutkan ke perguruan tinggi Dengan menggunakan ruang contoh yang dipersempit K, maka akan didapatkan Peluang kejadian terpilih laki-laki untuk orang yang melanj tkan ke perg melanjutkan perguruan r an tinggi tinggi. P(L|K) = ?

Misalkan n(A) ( ) melambangkan g banyaknya y y unsur dalam himpunan A

n(K L) n(K L)/ n(S) P(K L) P(L| K) = = = , n(K) n(K)/ n(S) P(K)

450 1 P( K L) = = 900 2
600 2 P( K ) = = 900 3

1/ 2 3 P( L | K ) = = 2/3 4

Contoh lain
Peluang Kereta Api Gajayana berangkat tepat pada waktunya adalah P(B) = 0 0.85, 85 peluang Kereta Api Gajayana datang tepat pada waktunya adalah P(D) = 0.90 dan peluang kereta api tersebut berangkat dan datang tepat pada waktunya adalah P(BD) = 0 0.75. 75 Hitung peluang bahwa Kereta Api Gajayana itu (a) datang tepat pada waktunya bila diketahui kereta api tersebut b berangkat b k tepat pada d waktunya, k d dan (b) berangkat tepat pada waktunya bila diketahui kereta api tersebut datang g tepat p p pada waktunya. y

Probabilitas Bersyarat Dalam Data


# 1 2 3 4 5 6 Cuaca Cerah Cerah Hujan Cerah Hujan Cerah Temperatur Normal Normal Tinggi Normal Tinggi Normal Kecepatan Angin Pelan Pelan Pelan Kencang Kencang Pelan Berolah-raga Ya Ya Tidak Ya Tidak Ya

Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan

P(Olahraga=Ya) = 4/6
Banyaknya data cuaca=cerah cuaca cerah dan berolah-raga=ya berolah raga ya adalah 4 dari 6 data maka dituliskan

P(cuaca=cerah dan Olahraga=Ya) = 4/6

4/6 P(cuaca = cerah | olahraga = ya) = =1 4/6

Distribusi Bersama dan Distribusi Marginal


Dari 100 orang mahasiswa menunjukkan 20 orang mahasiswa menyukai keduanya, 30 orang mahasiswa menyukai bulu tangkis tapi tidak menyukai bola volley, 40 orang mahasiswa menyukai bola volley tapi tidak menyukai bulu tangkis, dan 10 orang mahasiswa tidak menyukai kuduanya. Dari data ini dapat disusun bentuk distribusi bersama sebagai berikut: Suka bulu tangkis (X) Ya Tidak P(Y) Suka bola volley (Y) Ya 0.2 0.4 06 0.6
Distribusi Bersama Distribusi Marginal X dan Y

Tidak 0.3 0.1 04 0.4

P(X) 0.5 0.5 1

Probabilitas Bersyarat Dalam Data


# 1 2 3 4 5 6 Cuaca cerah cerah hujan cerah hujan cerah Temperatur normal tinggi tinggi tinggi normal normal Berolahraga ya ya tidak tidak tidak ya

Banyaknya data berolah-raga=ya adalah 3 dari 6 data maka dituliskan

P(Olahraga=Ya) = 3/6
Banyaknya data cuaca=cerah cuaca cerah, temperatur=normal temperatur normal dan berolahberolah raga=ya adalah 2 dari 6 data maka dituliskan

P(cuaca=cerah, temperatur=normal, Olahraga=Ya) = 2/6

2/6 2 P(cuaca = cerah, temperatur = normal | olahraga = ya) = = 3/ 6 3

Kaidah Bayes

A B Bc

A = (BA) (BcA) P(A) = P [(BA) (BcA)] = P(BA) + P(BcA)] = P(B)P(A|B) + P(Bc)P(A|Bc)

Kaidah Total Peluang


Bila kejadian j kejadian j Bi untuk i = 1, 2, ,k, maka untuk sembarang kejadian A yang y g merupakan p himpunan p bagian g S berlaku P(A) = P(B1) P(A|B1) + P(B2) P(A|B2) + + P(Bk) P(A|Bk).

Contoh 1
Tiga wakil partai A, B dan C mencalonkan diri sebagai presiden Peluang wakil dari partai A terpilih sebagai presiden. presiden adalah 0.4, peluang wakil dari partai B terpilih adalah 0.3 dan peluang wakil dari partai C terpilih adalah 0 3 Seandainya wakil dari partai A terpilih sebagai 0.3. presiden, peluang terjadinya kenaikan harga BBM adalah 0.7. Seandainya yang terpilih adalah wakil dari partai B, B peluang terjadinya kenaikan harga BBM adalah 0.4. Bila yang terpilih adalah wakil dari partai C maka peluang terjadinya kenaikan harga BBM adalah 0.6. Berapa peluang terjadinya kenaikan harga BBM ?

Contoh 2
Sebuah toko menjual bola lampu. Empat puluh lima persen dari bola lampu yang dijual toko tersebut diproduksi oleh pabrik A dan sisanya diproduksi oleh pabrik B.Bola lampu yang diproduksi pabrik A mempunyai peluang cacat sebesar 3 persen sedangkan yang diproduksi pabrik B mempunyai peluang cacat sebesar 5 persen. Bila Bil seseorang membeli b li b bola l l lampu d dari i toko tersebut, berapa peluang dia akan mendapatkan p bola lampu p y yang g cacat?

Kaidah Bayes
Jika kejadian j kejadian j B1, B2, , Bk merupakan sekatan dari ruang contoh S dengan g P(Bi) ( ) 0 untuk I = 1, 2, , k, maka untuk sembarang kejadian A yang bersifat P(A) ( ) 0,

P(Br )P(A| Br ) P(Br | A) = P(B 1)P(A| B 1) + P(B2)P(A| B2) +...+ P(Bk )P(A| Bk )

Untuk masalah dalam Contoh 1 misalkan ada orang yang tidak mengetahui siapa yang y g menjadi j p presiden karena dia tinggal gg di pelosok daerah. Bila beberapa waktu y harga g BBM naik, kemudian ternyata berapa peluang bahwa yang menjadi presiden adalah wakil dari partai A?

Untuk masalah p pada contoh 2, misalkan ada seseorang yang membeli bola lampu dari p rumah dan toko tersebut. Setelah sampai dicoba, ternyata lampu tersebut cacat. p p peluang g bahwa lampu p tersebut Berapa diproduksi oleh pabrik A?

Posterior dan Prior


B1 B2

Bn

P( Bk ) P( A | Bk ) P( Bk | A) = P( Bi ) P( A | Bi )
i

P ( Bk ) P ( A | Bk ) P ( Bk | A) = P( A)

P(Bk|A) ( | ) disebut keadaan Posterior (Probabilitas ( Bk di dalam A) P(Bk) disebut keadaan Prior

Permasalahan klasifikasi
Misalkan dalam p permasalahan klasifikasi, terdapat dua kelas w1 dan w2. Diketahui sebuah data yang dinyatakan dalam fitur vector X Maka P(wi|X) merupakan keadaan posterior yang menyatakan peluang X ada di kelas wi wi.

Permasalahan klasifikasi
Secara umum, model klasifikasi dengan g metode Bayes, adalah mencari P(wi|X) paling p g besar. Dengan kata lain,
Jika P(w1|X) > P(w2|X) maka X diklasifikasikan sebagai kelas w1 Jika P(w2|X) > P(w2|X) maka X diklasifikasikan sebagai kelas w2

HMAP
HMAP (Hypothesis Maximum Appropri Probability) menyatakan hipotesa yang diambil berdasarkan nilai probabilitas berdasarkan kondisi prior yang diketahui. diketahui

P(Y X ) = arg max

P(Y )i =1 P( X i Y )
d

= arg max P(Y )i =1 P( X i Y )


d

P( X )

HMAP adalah model penyederhanaan dari metode bayes yang disebut dengan Naive Bayes. HMAP inilah yang digunakan di dalam machine learning sebagai metode untuk mendapatkan hipotesis untuk suatu keputusan.

Data Training
# 1 2 3 4 5 6 Cuaca Cerah Cerah Hujan Cerah Hujan j Cerah Temperatur Normal Normal Tinggi Normal Tinggi gg Normal Kecepatan Angin Pelan Pelan Pelan Kencang Kencang g Pelan Berolah-raga Ya Ya Tidak Ya Tidak Ya

Asumsi: Y = berolahraga, X1 = cuaca, X2 = temperatur, p , X3 = kecepatan angin.

HMAP Dari Data Training


# 1 2 3 4 5 6 Cuaca Cerah Cerah Hujan Cerah Hujan Cerah Temperatur Normal Normal Tinggi Normal Tinggi Normal Kecepatan Angin Pelan Pelan Pelan Kencang Kencang Pelan Berolah-raga Ya Ya Tidak Ya Tidak Ya

Apakah bila cuaca cerah dan kecepatan angin kencang, orang akan berolahraga?

P(Y=ya) = 4/6 , P(Y=tidak) = 2/6 P(X1=cerah|Y=ya) = 1, P(X1=cerah|Y=tidak) = 0 P(X3=kencang|Y=ya) = 1/4 , P(X3=kencang|Y=tidak) = 1/2 HMAP dari keadaan ini dapat dihitung dengan: P( X1=cerah,X3=kencang | Y=ya ) P(X1 cerah|Y ya).P(X3 P(X3=kencang|Y=ya) kencang|Y ya) } . P(Y P(Y=ya) ya) = { P(X1=cerah|Y=ya) = { (1) . (1/4) } . (4/6) = 1/6 P( X1=cerah,X3=kencang | Y=tidak ) = { P(X1=cerah|Y=tidak).P(X3=kencang|Y=tidak) } . P(Y=tidak) = { (0) . (1/2) } . (2/6) = 0 KEPUTUSAN ADALAH BEROLAHRAGA = YA

Fakta:

Kelemahan Metode Bayes


Metode Bayes hanya bisa digunakan untuk persoalan klasifikasi dengan supervised learning dan data-data k t kategorikal. ik l Metode Bayes memerlukan pengetahuan awal l untuk t kd dapat t mengambil bil suatu t keputusan. Tingkat keberhasilan metode ini sangat tergantung pada pengetahuan awal yang diberikan.

Estimasi Prob untuk Atribut Kontinyu


Mendiskritkan setiap p atribut kontinyu y dan mengganti nilai atribut kontinyu dengan yang g bersesuaian. interval diskrit y Mengasumsikan suatu bentuk distribusi probabilitas tertentu untuk variabel kontinyu dan mengestimasi parameter distribusi menggunakan data training.

Estimasi Prob untuk Atribut Kontinyu


Misalkan dengan menggunakan distribusi Gaussian, yang mempunyai dua parameter yaitu mean () dan varians (2), maka untuk setiap kelas yj, probabilitas kelas untuk atribut Xi adalah :

1 P( A | c ) = e 2
i j 2 ij j

( Ai ij ) 2
2 2 ij

Dimana ij dapat diestimasikan berdasarkan sample mean dari Xi untuk semua training record yang berada di kelas yj. Demikian juga dengan ij.

Estimasi Prob untuk Atribut Kontinyu


Contoh Data training Sample S l mean d dan variance i untuk atribut kelas No :
=(125+100+70+120+60+220+75)/7 = 110 s=((125-110)+..)/6=2975 s = 2975 = 54.54
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10

Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes

Yes No No Yes No No Yes No No No

Single Married Single Married

Divorced 95K Married 60K

Maka probabilitas untuk taxable income 120 berlaku tidak curang adalah

Divorced 220K Single Married Single 85K 75K 90K

P ( Income = 120 | No) =

1 e 2 2 (54.54)

(120 110 ) 2 2 ( 2975 )

= 0.0072

Contoh Nave Bayes Classifier


Diberikan Test Record:

X = (Refund = No, Married, Income = 120K)

naive Bayes Classifier:


P(Refund=Yes|No) = 3/7 P(R f d N |N ) = 4/7 P(Refund=No|No) P(Refund=Yes|Yes) = 0 P(Refund=No|Yes) = 1 P(Marital Status=Single|No) = 2/7 ( Status=Divorced|No)=1/7 | ) P(Marital P(Marital Status=Married|No) = 4/7 P(Marital Status=Single|Yes) = 2/7 P(Marital Status=Divorced|Yes)=1/7 P(Marital Status=Married|Yes) = 0 For taxable income: If class=No: sample mean=110 sample variance=2975 If class=Yes: sample mean=90 sample variance=25

P(X|Class=No) = P(Refund=No|Class=No) P(Married| P(M i d| Class=No) Cl N ) P(Income=120K| Class=No) = 4/7 4/7 0.0072 = 0.0024 P(X|Class=Yes) = P(Refund=No| Class=Yes) P(Married| Class=Yes) P(Income=120K| Class=Yes) = 1 0 1.2 10-9 = 0

Karena P(X|No)P(No) > P(X|Yes)P(Yes) Maka P(No|X) > P(Yes|X)

=> Class = No

Nave Bayes Classifier


Jika salah satu p probabilitas kondisional bernilai nol, maka ekspresi keseluruhan j nol menjadi Probability estimation:
N ic Original : P( Ai | C ) = Nc N ic + 1 Laplace : P ( Ai | C ) = Nc + c N ic + mp m - estimate : P( Ai | C ) = Nc + m
c: number of classes p: prior probability m: parameter

Contoh Nave Bayes Classifier


Name Give Birth Can Fly Live in Water Have Legs Class

human python salmon whale frog komodo bat pigeon cat t leopard shark turtle penguin porcupine eel salamander gila monster platypus owl dolphin eagle l

yes no no yes no no yes no yes yes no no yes no no no no no yes no

no no no no no no yes yes no no no no no no no no no yes no yes

no no yes y yes sometimes no no no no yes sometimes sometimes no yes y sometimes no no no yes no

yes no no no yes yes yes yes yes no yes yes yes no yes yes yes yes no yes

mammals non-mammals non-mammals mammals non-mammals non-mammals mammals non-mammals mammals l non-mammals non-mammals non-mammals mammals non-mammals non-mammals non-mammals mammals non-mammals mammals non-mammals l

A: attributes M: mammals N: non-mammals

6 6 2 2 P ( A | M ) = = 0.06 7 7 7 7 1 10 3 4 P ( A | N ) = = 0.0042 13 13 13 13 7 P ( A | M ) P ( M ) = 0.06 = 0.021 20 13 P ( A | N ) P( N ) = 0.004 = 0.0027 20


P(A|M)P(M) > P(A|N)P(N) => Mammals

Give Birth

Can Fly

Live in Water Have Legs

Class

yes

no

yes

no

Nave Bayes (Kesimpulan)


Robust terhadap titik terisolasi Menangani g missing g values dengan g mengabaikan record tersebut selama perhitungan Robust terhadap atribut yang tidak relevan

Contoh Soal: Play Tennis data


Day D ay1 D ay2 D a y3 D a y4 D a y5 D ay6 D a y7 D ay8 D a y9 D a y1 10 D a y1 1 D a y1 2 D a y1 3 D ay14 O u tlo o k Sunny Sunny O v e rc a s t R a in R a in R ai in O v e rc a s t Sunny Sunny R ai in Sunny O v e rc a s t O v e rc a s t R ai in T e m p e ra tu re H ot H ot H ot M ild C ool C ool C ool M ild C ool M ild M ild M ild H ot M ild H u m id ity H ig h H ig h H ig h H ig h N o rm a l N o rm a l N o rm a l H ig h N o rm a l N o rm a l N o rm a l H ig h N o rm a l H ig i h W in d W eak S tro n g W eak W eak W eak S tro t ng S tro n g W eak W eak W eak k S tro n g S tro n g W eak S tro t ng P la y T e n n is No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No

Berdasarkan data play tenis klasifikasikan data x dimana x=(Outl=Sunny, (O tl S Temp=Cool, T C l H Hum=High, Hi h Wi Wind=strong). d t ) Dengan D kata k t lain l i dengan kondisi x, seseorang bermain tennis atau tidak?