Anda di halaman 1dari 9

NAÏVE BAYES

A. Data Training dan Hipotesa

Dari data diatas dapat dinyatakan pengertian tentang data konsisten dan tidak
konsisten.
 Data konsisten
Suatu data disebut konsisten, jika setiap atributnya memiliki nilai target yang
sama.
Day Cuaca Temperatur Kecepatan Angin Berolah raga
# Cerah Normal Pelan Ya
# Cerah Normal Pelan Ya
# Cerah Normal Kencang Ya
Atribut Cuaca, Temperatur mempunyai nilai target yang sama (Berolah-raga),
maka data ini adalah data yang konsisten.
 Data tidak konsisten
Suatu data disebut tidak konsisten, jika setiap atributnya memiliki nilai target
yang sama, tapi nilai yang berbeda untuk atriibutnya.
Day Cuaca Temperatur Kecepatan Angin Berolah raga
# Cerah Normal Pelan Ya
# Cerah Tinggi Pelan Ya
# Hujan Normal Kencang Ya
Tidak satupun atribut yang mempunyai nilai yang sama dalam satu keputusan
(berolah-raga).
 Data bias
Suatu data disebut data bias jika memiliki target atau keputusan yang berbeda
sedangkan instance pada semua atributnya sama
Day Cuaca Temperatur Kecepatan Angin Berolah raga
# Cerah Normal Pelan Ya
# Cerah Normal Pelan Ya
# Cerah Normal Pelan Tidak

Dataset yang digunakan sebagai data training bias bersifat konsisten, tidak
konsisten atau bias. Data set tersebut digunakan untuk memprediksi suatu kejadian dari
fakta atau kenyataan yang diketahui sebelumnya. Prediksi dari suatu kejadian disebut
Hipotesa.
Hipotesa dituliskan dengan:

Contoh Hipotesa:

1. H(cuaca=cerah, temperature=normal, kec.angin=pelan)=ya


Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila
cuaca=cerah, temperature=normal, kec.angin=pelan, untuk singkatnya dituliskan
hanya instance pada setiap atribut dengan H(cerah, normal, pelan)=ya
2. H(cuaca=cerah, kec.angin=pelan)=ya
Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila
cuaca=cerah, dan kec.angin=pelan, untuk singkatnya dituliskan hanya instance
pada setiap atribut dengan H(cerah, *, pelan)=ya
3. H(cuaca=cerah)=ya
Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila
cuaca=cerah, untuk singkatnya dituliskan hanya instance pada setiap atribut
dengan H(cerah, *, *)=ya

Pada dasarnya semua algoritma yang dikembangkan dalam mesin pembelajaran


yang ada pada Data Mining adalah algoritma yang menghasilkan hipotesa dari suatu
keputusan berdasarkan data pembelajaran

B. Algoritma FIND-S
Find-S adalah suatu metode paling sederhana yang dapat digunkan untuk
mendapatkan suatu hipotesa berdasarkan data. Find-S mencari kesamaan nilai attribute
untuk memperoleh suatu hipotesa.
Kelemahan dari Find-S adalah data yang digunakan harus bersifat konsisten dan
tidak bias. Padahal pada kenyataan, sangat sulit mencari data seperti itu.
Berikut ini ada Dataset Cuaca:

Langkahnya adalah:
1. Memecah data berdasarkan target keputusan
Untuk memperoleh hipotesa dengan Find-S dari data diatas, langkah pertama
adalah memecah data berdasarkan target keputusannya, sehingga akan diperoleh 2
data: pertama untuk keputusan=ya dan kedua untuk keputusan=tidak
Dari hasil pemisahan tersebut terlihat bahwa data training ersebut konsisten dan
tidak bias.
2. Membuat hipotesa untuk masing-masing keputusan
Langkah berikutnya adalah membuat hipotesa untuk masing-masing keputusan.
Pembuatan hipotesa ini dilakukan dengan mengambil data pertama sebagai
hipotesa awal yang dianggap sebagai hipotesa spesifik, dan diteruskan hingga
data terakhir dengan memperhatikan kesamaan sampai didapat hipotesa umum.

Langkah ini digunakan untuk menentukan hipotesa dari keputusan=ya.


1. Hipotesa awal disamakan dengan data pertama:
H(Cerah, Normal, Pelan)=Ya
2. Data kedua, tidak ada perubahan karena semua nilai instancenya sama:
H(Cerah, Normal, Pelan)=Ya
3. Data keempat, ada perubahan di atribut kec.angin, sehingga:
H(Cerah, Normal, *)=Ya
4. Data keenam, ada perubahan di atribut kec.angin sehingga:
H(Cerah, Normal, *)=Ya

Langkah ini digunakan untuk menentukan hipotesa dari keputusan=tidak

1. Hipotesa awal disamakan dengan data pertama


H(Hujan, Tinggi, Pelan)=Tidak
2. Data kelima, ada perubahan di kec.angin
H(Hujan, Tinggi, *)=Tidak
Dari hasil keputusan diatas, jika ada pertanyaan ”Bila cuaca cerah saat ini apakah akan
berolahraga?” Hasil keputusannya adalah = ya (Hipotesa I).
Algoritma Find-S hanya bisa digunakan jika datanya konsisten dan tidak bias.

C. Konsep Dasar dan Definisi Metode Bayes


Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data
yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang
dapat digunakan adalah metode bayes.
Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi induksi
pada persoalan klasifikasi. Pertama kali dibahas terlebih dahulu tentang konsep dasar dan
definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk melakukan
klasifikasi dalam Data Mining.
Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya. Dalam ilmu
probabilitas bersyarat dinyatakan sebagai:

Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari probabilitas


Y, atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di dalam Y.
Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut.
Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6.
Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan
P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca
cerah pada saat olahraga adalah:

D. Metode Bayes dan HMAP (Hypothesis Maximum Appropri Probability)


Dimana: keadaan Posteriror (Probabilitas Xk di dalam Y) dapat dihitung dari
keadaan prior (Probabilitas Y di dalam Xk dibagi dengan jumlah probabilitas Y
dalam semua Xi).
Terminologi dari HMAP menyatakan hipotesa yang diambil berdasarkan
nilai probabilitas berdasarkan kondisi prior yang diketahui.
HMAP adalah model penyederhanaan dari metode bayes yang disebut
dengan Naive Bayes. HMAP dapat digunakan sebagai metode untuk mendapatkan
hipotesis dari suatu keputusan. HMAP dapat diartikan untuk mencari probabilitas
terbesar dari semua instance pada atribut target atau semua kemungkinan
keputusan.
Contoh:

Pertanyaan : Berdasarkan hasil survey tersebut, apakah dapat dinyatakan bahwa


besar kemungkinan akan menderita sakit paru-paru jika dia seorang perokok?

Anda mungkin juga menyukai