Anda di halaman 1dari 15

Algorithm (Naïve Bayes

Classification)
nurulchamidah.2007@gmail.com
Naïve Bayes Classifier
• Adalah metode classifier yang berdasarkan probabilitas dan
teorema bayesian dengan asumsi bahwa setiap variable X
bersifat bebas (independence)

• Dikatakan “naïve” karena menerapkan asumsi bahwa


semua variabel bersifat independen, yaitu tidak adanya
kaitan sebuah variabel dengan variabel yang lain. Padahal
kenyataannya, kita jarang sekali menemukan kasus dimana
variabel - variabelnya tidak berkaitan.
Warna Bentuk Diameter Jenis Buah
Merah Bulat 5 cm Apel
Kuning Bulat 4 cm Jeruk
Kuning Panjang 15 cm Pisang

Santoni, 2014
Dasar : Teori Bayessian
• X adalah data sampel dengan kelas label yang belum
diketahui.
• Y merupakan hipotesis bahwa X adalah data dengan kelas
label C.
• P(Y) adalah peluang dari hipotesis Y (prior),
• P(X) adalah peluang data sampel yang diamati (evidence).
• P(X|Y) adalah peluang data sampel X, bila diasumsikan
bahwa hipotesis Y benar (likelihood).
• Untuk masalah klasifikasi, yang dihitung adalah P(Y|X),
yaitu peluang bahwa hipotesis Y benar untuk data sampel X
yang diamati.

P(Y | X)  P(X |Y )P(Y ) posterior likelihood* prior


P(X) evidence
Santoni, 2014
Naïve Bayes Classifier
• Karena asumsi variabel tidak saling terkait (conditionally
independent), maka :
n
P( X | C i )   P( x | C i )  P( x | C i )  P( x | C i )  ...  P( x | C i )
k 1 2 n
k 1

• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas,


maka kelas label dari data sampel X adalah kelas label
yang memiliki nilai P(X | Ci )* P(Ci ) maksimum.

Santoni, 2014
contoh
• Data
Training/pelatihan

• Class :
– C1 = Play : yes
– C2 = Play : no

• Pelatihan model
naïve bayes:
mencari
probabilitas setiap
nilai atribut
terhadap kelas
probabilitas
Jika X = {O :Sunny, T : mild, H : normal, W : false}
 Play?
1. Hitung P(Xk| Ci) untuk setiap Class i :
– P(O : sunny | play:yes) : 2/9 – P(H : normal | play:yes) : 6/9
– P(O : sunny | play:no) : 3/5 – P(H : normal | play:no) : 1/5

– P(T : mild | play:yes) : 4/9 – P(W : false | play:yes) : 6/9


– P(T : mild | play:no) : 2/5 – P(W : false | play:no) : 2/5
n
2. Hitung P(X|C) : P( X | C i)   P( x k | C i)  P( x 1 | C i)  P( x 2 | C i)  ...  P( x n | C i)
k 1
•P(x| yes) = 2/9 * 4/9 * 6/9 * 6/9 = 0.0439
•P(x | no) = 3/5 * 2/5 * 1/5 * 2/5 =0.0192

3. Hitung P(X| Ci) * P(Ci), cari nilai max.


dimana P(Ci) : P(play:“yes”) = 9/14 P(play: “no”) = 5/14

Sehingga, P(X| Ci) * P(Ci)


Maksimum,
P(X | play:yes) * P(play : yes) = 0.0439 * 9/14 = 0.0282
sehingga X :
P(X | play:no) * P(play : no) = 0.0192 * 5/14 = 0.0069
play : yes
Naïve Bayes
• Masih ingatkah…..
– Kenapa disebut Naïve?
– Formulasi Naïve Bayes?
Kasus lain
• Bagaimana Jika X = {O :Overcast, T : mild, H : normal,
W : false}  Play?
• Zero probability pada P(O:overcast | play :no)
Zero frequency problem

• Bagaimana jika sebuah


nilai atribut tidak ada
pada suatu kelas?
Zero Frequency problem
• Diselesaikan dengan Laplace estimator (add 1
smoothing) :
– Tambahkan 1 untuk setiap nilai atribut pada setiap
kelas
• Hasil : probabilitas tidak akan bernilai 0. (juga
menstabilkan estimasi probabilitas)
Laplacian smoothing
Mari kerjakan bersama-sama
• Tentukan dengan Naïve Bayes, apakah
seseorang akan bermain jika kondisi cuaca
adalah sbb:
– Outlook : overcast
– Temperature : cool
– Humidity : high
– Windy : yes
• Note: hindari 0 probability dengan laplacian
smoothing
Dataset berikut akan digunakan untuk memprediksi apakah para siswa
itu malas (M) atau rajin (R) berdasarkan berat badan mereka (normal N
atau underweight K), warna mata mereka (hitam H atau coklat C), dan
jumlah buku yang mereka miliki (2, 3, atau 4)
No Berat Warna Jumlah Output
Latihan . Badan Mata Buku
1 N H 2 M
2 N C 2 M
3 N C 2 M
4 K C 3 M
5 K C 3 M
6 K H 4 R
7 N H 4 R
8 N C 4 R
9 K H 3 R
10 K H 3 R
• Prediksikan apakah siswa ini malas atau rajin berdasarkan ciri-ciri :
– Berat Badan = N, Warna Mata = C, Jumlah Buku = 3
– Berat Badan = K, Warna Mata = H, Jumlah Buku = 2
• Note : lakukan laplacian smoothing

Anda mungkin juga menyukai