Anda di halaman 1dari 23

Pengenalan Pola

Klasifikasi Nave Bayes

PTIIK - 2013

Course Contents
1 2 3 4 Nave Bayes Classifier Fase Training Fase Testing Studi Kasus dan Latihan

Nave Bayes Classifier


Metode klasifikasi ini diturunkan dari penerapan teorema Bayes dengan asumsi independence (saling bebas) Naive Bayes Classifier adalah metode pengklasifikasian dengan model peluang, dimana diasumsikan bahwa setiap atribut contoh (data sampel) bersifat saling lepas satu sama lain berdasarkan atribut kelas.

Nave Bayes Classifier


Apa yang dapat kita lakukan apabila data kita yaitu d mempunyai beberapa atribut atau fitur? Asumsi Nave Bayes : Atribut yang mendeskripsikan contoh data adalah independen pada hipotesis klasifikasi

P (d | h) P ( a1,..., aT | h) P ( at | h )
t

Asumsi penyerderhanaan, kemungkinan tidak sesuai realita Namun bekerja dengan baik secara praktis

Beberapa aplikasi:
Diagnosa medis Klasifikasi Teks

Asumsikan diantara fitur Ai adalah independen pada suatu kelas:

Fase Training Pada setiap kelas C:


Estimasikan prior P(C) > untuk setiap fitur A

Untuk setiap nilai fitur vi dari A:


Estimasikan P( A=v | C )

Fase Testing Beberapa fitur (v1, v2, ..., , vk)


Pilih kelas yang memaksimalkan:

Nave Bayes - Data Kontinyu Naive bayes classifier untuk menangani atribut bertipe kontinyu, salah satu caranya adalah menggunakan distribusi Gaussian. Distribusi ini dikarakterisasi dengan dua parameter yaitu mean (), dan variansi(2). Untuk setiap kelas yj, peluang kelas bersyarat untuk atribut Xi dinyatakan dengan persamaan distribusi Gaussian.

Nave Bayes - Data Kontinyu Fungsi densitas mengekspresikan probabilitas relatif. Data dengan mean dan standar deviasi , fungsi densitas probabilitasnya adalah:

dan dapat diestimasi dari data, untuk setiap kelas. Gunakan untuk P(X | C)

Studi Kasus 1 : Mutu Buah Jeruk Mengumpulkan informasi tentang jeruk. Menganalisa dan merancang perangkat lunak yang digunakan untuk menentukan mutu buah jeruk manis berdasarkan warna RGB dan diameter dengan menggunakan metode naive bayes.

Untuk menghitung peluang, langkah-langkah yang dilakukan sebagai berikut : Membuat image menjadi skala keabuan (gray- scale). Binarisasi. Pada tahap ini berguna untuk merubah nilai piksel image menjadi 0 dan 1. Nilai 0 untuk menggambarkan latar belakang, nilai 1 untuk objek buah jeruk. Max Filter. Tahap ini diperlukan untuk menghilangkan nilai piksel 1 tetapi bukan bagian dari buah jeruk. Temukan Parameter. Tahap ini digunakan menghitung nilai rata-rata red, green, blue, dan menghitung diameter buah jeruk.

Penentuan Mutu Buah Jeruk. Bila parameter rata-rata R,G,B dan diameter D sudah diketahui, maka untuk menentukan mutu buah jeruk memiliki langkah-langkah sbb:
p1:Hitung Peluang (R,G,B,D) pada kelas A p2:Hitung Peluang (R,G,B,D) pada kelas B p3:Hitung Peluang (R,G,B,D) pada kelas C p4:Hitung Peluang (R,G,B,D) pada kelas BS

if ((p1>=p2) and (p1>=p3) and (p1>=p4)) then Output 'Quality A with probability p1 if ((p2>=p1) and (p2>=p3) and (p2>=p4)) then Output 'Quality B with probability p2 if ((p3>=p1) and (p3>=p2) and (p3>=p4)) then Output 'Quality C with probability p3' if ((p4>=p1) and (p4>=p2) and (p4>=p3)) then Output 'Quality BS with probability p4'

Keterangan : Display vektor pembelajaran Display gambar jeruk yang akan diuji mutunya. Pada gambar tersebut terdapat dua garis vertikal yang digunakan untuk menghitung diameter buah jeruk (jarak antara dua garis vertikal). Display untuk mengetahui mutu jeruk yang sedang ditampilkan. Pada image yang ditampilkan, mutu yang dihasilkan adalah BS.

Studi Kasus 2 : Bermain Tenis


Day Day1 Day2 Day3 Day4 Day5 Day6 Day7 Day8 Day9 Day10 Day11 Day12 Day13 Day14 Outlook Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperature Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High W ind W eak Strong W eak W eak W eak Strong Strong W eak W eak W eak Strong Strong W eak Strong Play Tennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No

Klasifikasi fakta baru berupa x=(a1,aT) sebagaimana:

hNaive Bayes arg max P( h) P( x | h) arg max P(h) P( at | h)


h h t

Untuk melakukannya berdasarkan pada sampel pelatihan, kita perlu untuk mengestimasi parameter-parameter dari sampel pelatihan: Untuk setiap kelas (hypothesis) h

(h) : estimate P(h) P


Untuk setiap nilai fitur at dari setiap contoh fakta

(a | h) : estimate P (a | h) P t t

Berdasarkan pada contoh tabel klasifikasi fakta x berikut : x=(Outl=Sunny, Temp=Cool, Hum=High, Wind=strong) That means: Play tennis or not?
hNB argmax P(h)P(x | h) argmaxP(h) P(at | h)
h[ yes, no] h[ yes,no] t

argmaxP(h) P(Outlook sunny| h) P(Temp cool | h) P(Humidity high| h) P(Wind strong| h)


h[ yes, no]

Working:

P ( PlayTennis yes) 9 / 14 0.64 P ( PlayTennis no) 5 / 14 0.36 P (Wind strong | PlayTennis yes) 3 / 9 0.33 P (Wind strong | PlayTennis no) 3 / 5 0.60 etc. P ( yes) P ( sunny | yes) P(cool | yes) P(high | yes) P( strong | yes) 0.0053 P (no) P( sunny | no) P(cool | no) P(high | no) P( strong | no) 0.0206 answer : PlayTennis( x) no

Tugas Kelompok
Coba Lakukan Tes Data : X = (refund = no, marital status = divorced, income = 120k) masuk kelas evade No atau Yes? Gunakan formula berikut untuk menghitung likelihood data Kuantitatif (continue)

Tugas Individu
Buatlah aplikasi pengenalan pola dari data UCI yang kalian kerjakan sebelumnya
Minimal menggunakan MS Excel Dengan metode Nave Bayes Classifier

Data terdiri dari 25 data training untuk setiap kelas dan 5 data testing untuk setiap kelas (menggunakan data sebelumnya) Munculkan keluaran sesuai dengan tahapan-tahapan penyelesaian:
Sheet1 Data Sheet2 Likelihood untuk setiap Fitur, Prior, Posterior, dan Hasil Klasifikasi

afif.supianto@ub.ac.id 081 331 834 734 / 088 160 127 40