Naive Bayes

Algorithm (Naïve Bayes
Classification)
nurulchamidah.2007@gmail.com
Naïve Bayes Classifier
• Adalah metode classifier yang berdasarkan probabilitas dan
teorema bayesian dengan asumsi bahwa setiap variable X
bersifat bebas (independence)
• Dikatakan “naïve” karena menerapkan asumsi bahwa

semua variabel bersifat independen, yaitu tidak adanya
kaitan sebuah variabel dengan variabel yang lain. Padahal
kenyataannya, kita jarang sekali menemukan kasus dimana
variabel - variabelnya tidak berkaitan.
Warna Bentuk Diameter Jenis Buah
Merah Bulat 5 cm Apel
Kuning Bulat 4 cm Jeruk
Kuning Panjang 15 cm Pisang
Santoni, 2014
Dasar : Teori Bayessian
• X adalah data sampel dengan kelas label yang belum
diketahui.
• Y merupakan hipotesis bahwa X adalah data dengan kelas
label C.
• P(Y) adalah peluang dari hipotesis Y (prior),
• P(X) adalah peluang data sampel yang diamati (evidence).
• P(X|Y) adalah peluang data sampel X, bila diasumsikan
bahwa hipotesis Y benar (likelihood).
• Untuk masalah klasifikasi, yang dihitung adalah P(Y|X),
yaitu peluang bahwa hipotesis Y benar untuk data sampel X
yang diamati.
P(Y | X)  P(X |Y )P(Y ) posterior likelihood* prior

P(X) evidence
Santoni, 2014
Naïve Bayes Classifier
• Karena asumsi variabel tidak saling terkait (conditionally
independent), maka :
n
P( X | C i )   P( x | C i )  P( x | C i )  P( x | C i )  ...  P( x | C i )
k 1 2 n
k 1
• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas,

maka kelas label dari data sampel X adalah kelas label
yang memiliki nilai P(X | Ci )* P(Ci ) maksimum.
Santoni, 2014
contoh
• Data
Training/pelatihan
• Class :
– C1 = Play : yes
– C2 = Play : no
• Pelatihan model
naïve bayes:
mencari
probabilitas setiap
nilai atribut
terhadap kelas
probabilitas
Jika X = {O :Sunny, T : mild, H : normal, W : false}
 Play?
1. Hitung P(Xk| Ci) untuk setiap Class i :
– P(O : sunny | play:yes) : 2/9 – P(H : normal | play:yes) : 6/9
– P(O : sunny | play:no) : 3/5 – P(H : normal | play:no) : 1/5
– P(T : mild | play:yes) : 4/9 – P(W : false | play:yes) : 6/9

– P(T : mild | play:no) : 2/5 – P(W : false | play:no) : 2/5
n
2. Hitung P(X|C) : P( X | C i)   P( x k | C i)  P( x 1 | C i)  P( x 2 | C i)  ...  P( x n | C i)
k 1
•P(x| yes) = 2/9 * 4/9 * 6/9 * 6/9 = 0.0439
•P(x | no) = 3/5 * 2/5 * 1/5 * 2/5 =0.0192
3. Hitung P(X| Ci) * P(Ci), cari nilai max.

dimana P(Ci) : P(play:“yes”) = 9/14 P(play: “no”) = 5/14
Sehingga, P(X| Ci) * P(Ci)

Maksimum,
P(X | play:yes) * P(play : yes) = 0.0439 * 9/14 = 0.0282
sehingga X :
P(X | play:no) * P(play : no) = 0.0192 * 5/14 = 0.0069
play : yes
Naïve Bayes
• Masih ingatkah…..
– Kenapa disebut Naïve?
– Formulasi Naïve Bayes?
Kasus lain
• Bagaimana Jika X = {O :Overcast, T : mild, H : normal,
W : false}  Play?
• Zero probability pada P(O:overcast | play :no)
Zero frequency problem
• Bagaimana jika sebuah

nilai atribut tidak ada
pada suatu kelas?
Zero Frequency problem
• Diselesaikan dengan Laplace estimator (add 1
smoothing) :
– Tambahkan 1 untuk setiap nilai atribut pada setiap
kelas
• Hasil : probabilitas tidak akan bernilai 0. (juga
menstabilkan estimasi probabilitas)
Laplacian smoothing
Mari kerjakan bersama-sama
• Tentukan dengan Naïve Bayes, apakah
seseorang akan bermain jika kondisi cuaca
adalah sbb:
– Outlook : overcast
– Temperature : cool
– Humidity : high
– Windy : yes
• Note: hindari 0 probability dengan laplacian
smoothing
Dataset berikut akan digunakan untuk memprediksi apakah para siswa
itu malas (M) atau rajin (R) berdasarkan berat badan mereka (normal N
atau underweight K), warna mata mereka (hitam H atau coklat C), dan
jumlah buku yang mereka miliki (2, 3, atau 4)
No Berat Warna Jumlah Output
Latihan . Badan Mata Buku
1 N H 2 M
2 N C 2 M
3 N C 2 M
4 K C 3 M
5 K C 3 M
6 K H 4 R
7 N H 4 R
8 N C 4 R
9 K H 3 R
10 K H 3 R
• Prediksikan apakah siswa ini malas atau rajin berdasarkan ciri-ciri :
– Berat Badan = N, Warna Mata = C, Jumlah Buku = 3
– Berat Badan = K, Warna Mata = H, Jumlah Buku = 2
• Note : lakukan laplacian smoothing

Naive Bayes

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Naive Bayes

Diunggah oleh

Hak Cipta:

Format Tersedia

Algorithm (Naïve Bayes

• Dikatakan “naïve” karena menerapkan asumsi bahwa

P(Y | X)  P(X |Y )P(Y ) posterior likelihood* prior

• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas,

– P(T : mild | play:yes) : 4/9 – P(W : false | play:yes) : 6/9

3. Hitung P(X| Ci) * P(Ci), cari nilai max.

Sehingga, P(X| Ci) * P(Ci)

• Bagaimana jika sebuah

Anda mungkin juga menyukai