Anda di halaman 1dari 1

Setiap kata memiliki probabilitas (peluang) tertentu untuk muncul dalam

sebuah spam ataupun pesan sah. Selama proses training sebuah perangkat lunak,
pengguna harus menentukan dahulu secara manual apakah pesan merupakan
spam atau bukan. Pada proses ini, untuk setiap pesan yang masuk perangkat spam
filter akan menyesuaikan probabilitas (peluang) setiap kata yang muncul sesuai
dengan kategori (jenis spam atau bukan) ke dalam databasenya, sehingga dapat
digunakan untuk mengidentifikasi setiap kata pada pesan selanjutnya.
Setelah proses training, database probabilitas kata digunakan untuk
menghitung peluang sebuah pesan dengan kelompok kata tertentu masuk ke
kategori yang mana. Setiap kata dalam sebuah akan diperhitungkan sebagai
peluang pesan tersebut termasuk sebuah spam atau bukan. Konstribusi ini disebut
posterior probability dan dihitung menggunakan teorema Bayes. Perangkat juga
akan belajar untuk memberikan peluang spam yang tinggi pada kata-kata yang
mencolok (iklan, dll) dan memberikan peluang spam yang rendah pada kata-kata
biasa (nama orang dan kata sapaan di keluarga). Kemudian peluang tersebut
dihitung secara keseluruhan, dana jika total tersebut melebihi batas yang telah
ditentukan, maka spam filter akan menganggapnya sebagai sebuah spam.
Selanjutnya, pesan yang dianggap spam tersebut akan dipindahkan ke folder junk
mail atau akan langsung dihapus.
Training awal pada perangkat dapat diperbaiki dan jika keputusan yang salah
diketahui (false positive atau false negative). False positive (FP) adalah kesalah
dimana pesan yang sah diklasifikasikan sebagai spam. Sedangkan, False negative
(FN) adalah kesalahan dimana pesan spam dianggap sebagai pesan yang sah. Hal
ini akan membantu perangkat lunak untuk beradaptasi secara dinamis.
Untuk konteks spam, email filter Bayesian menggunakan teorema Bayes
dalam beberapa tahap, yaitu:

Menghitung peluang bahwa pesan merupakan spam, dengan mengetahui


bahwa kata tertentu muncul dalam pesan.
Menghitung peluang bahwa sebuah pesan adalah spam, dengan
mempertimbangkan semua kata-katanya.
Terkadang digunakan untuk berurusan dengan kata-kata langka.

Anda mungkin juga menyukai