Anda di halaman 1dari 5

Aplikasi Teorema Bayes dalam Penyaringan Email

Dyah Diwasasri Ratnaningtyas (18209005)


Program Studi Sistem dan Teknologi Informasi
Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
dyah.diwasasri@students.itb.ac.id

Abstrak—Email adalah salah satu media penyebaran dikehendaki penerimanya. Isi dari spam email
komunikasi yang mudah dan praktis digunakan oleh biasanya berupa iklan produk barang atau jasa, virus,
sebagian besar masyarakat dan komunitas saat ini. pornografi, dan content – content tidak penting
Kegunaan email sebagai media komunikasi tidak terlepas
lainnya.
dari dampak positif dan negatif dari email itu sendiri.
Dampak negatif yang dihasilkan salah satunya dapat berupa Kerugian yang didapat dari penerimaan spam mail
spam mail atau biasa disebut junk mail yakni antara lain inbox email akan penuh dengan spam mail
penyalahgunaan sistem pesan elektronik untuk mengirim yang nantinya menutup email lain yang sekiranya
berita iklan dan keperluan lain secara massal dan tidak lebih penting. Selain itu untuk menghapus spam mail
dikehendaki penerimanya. Hingga saat ini permasalahan tersebut satu persatu akan membuang waktu secara
spam mail masih terus berkembang seiring dengan
percuma. Hal ini belum termasuk apabila pengguna
berkembangnya sistem penyaringan email (email filtering)
yang menggunakan berbagai metode penerapan. Salah satu tidak sengaja membuka spam email yang berisi
metode penerapan dari email filtering yang cukup efektif content virus di dalamnya sehingga merusak sistem
yakni menggunakan metode probabilistik dengan komputer pengguna itu sendiri.
pengaplikasian teorema Bayes yang difokuskan pada Langkah antisipasi dari spam mail ini sendiri sudah
klasifilasi Naive Bayesian untuk mengidentifikasi spam mail ada yaitu dengan cara penyaringan email (email
sehingga pada akhirnya akan dihasilkan ffilter anti spam
yang akurat dengan sesedikit mungkin tingkat false positif
filtering) melalui perangkat lunak khusus email
dan false negatif. filtering atau fasilitas email filtering yang saat ini
telah disediakan oleh beberapa host mail. Ada
Kata Kunci—spam mail, email filtering, teorema bayes, beberapa metode dari email filtering, salah satu
bayesian filtering, naive bayesian metode email filtering yang cukup efektif yaitu naive
bayesian filtering. Merode ini merupakan
pengaplikasian dari teorema probabilitas yaitu
I. PENDAHULUAN teorema bayes dan klasifikasi naive bayesian.
Pengaplikasian kedua teorema tersebut menghasiklan
1.1 Latar Belakang
sebuah sistem email filtering yang cukup efektif,
Email (Electronic Mail) adalah salah satu media
memiliki tingkat akurasi cukup tinggi, dan
komunikasi dengan metode bertukar informasi secara
menghasilkan galat minimum sehingga mudah untuk
digital melalui internet atau jaringan komputer lain.
dikembangkan.
Informasi dapat berupa pesan, file (attachment), atau
berupa media iklan dan promosi dari suatu
perusahaan atau produk tertentu. Dari segi
1.2 Tujuan Penulisan
Tujuan penulisan makalah adalah sebagai berikut :
penggunaannya sendiri, email adalah alat komunikasi
1.2.1 Memotivasi mahasiswa agar memiliki
yang mudah digunakan oleh seluruh kalangan
kemampuan menulis untuk menuangkan
masyarakat baik untuk kepentingan personal maupun
ide-ide atau hasil risetnya;
kepentingan suatu instansi atau komunitas. Selain itu
1.2.2 Melakukan eksplorasi terhadap isu, metode,
fasilitas email terhitung murah dan tidak terpatok
dan masalah yang dipelajari dalam
pada jarak tujuan pengiriman. Penggunaan email juga
pengembangan serta menyebarkan aplikasi
memiliki dampak positif dan negatif. Dampak
yang mendukung teknologi informasi;
positifnya seperti yang telah dijabarkan tadi yaitu
1.2.3 Sebagai media untuk berbagi informasi
mudah digunakan, murah, dan jangkauan tempat luas
hasil-hasil pemikiran dan penelitian.
sedangkan dampak negatif yang ditimbulkan salah
satunya adalah spam mail. Spam mail atau biasa
disebut junk mail itu sendiri adalah penyalahgunaan 1.3 Ruang Lingkup
sistem pesan elektronik untuk mengirim berita iklan Ruang lingkup penulisan makalah ini adalah
dan keperluan lain secara massal dan tidak aplikasi teori peluang dan statistika dalam bidang
sistem dan teknologi informasi. Dalam makalah ini

Makalah II2092 Probabilitas dan Statistik – Sem. I Tahun 2010/2011


adalah pengaplikasian teorema bayes yakni naive ukuran kuantitatif dari suatu ketidakpastikan informasi
bayesian dalam metode penyaringan email (email atau peristiwa. Probabilitas memiliki indeks nilai yang
filtering). berkisr antara 0 sampai 1. Hal ini juga dipengaruhi oleh
jumlah total kejadian selama percobaan. Apabila
II. PEMBAHASAN probabilitas suatu keadaan adalah 0 (nol), maka keadaan
tersebut dapat diyakinkan pasti tidak akan terjadi. Namun,
apabila probabilitas suatu keadaan adalah 1, maka
2.1 Email Filtering keadaan tersebut dapat diyakinkan pasti akan terjadi.
Dalam penggunaan layanan email tentu saja tidak
Sedangkan misalkan suatu kejadian memiliki probabilitas
terlepas dari spam mail yang dari hari ke hari jumlah spam
0,5 maka kejadian tersebut memiliki tingkat keraguan
mail yang diterima oleh sebagian besar pengguna email
yang maksimum.
semakin banyak dan tentunya sangat mengganggu. Hal ini
Keadaan probabilitas dapat digambarkan seperti di
belum termasuk kemungkinan dalam spam mail tersebut
bawah ini :
mengandung virus atau hal – hal yang tentunya tidak
diinginkan. Pengguna email biasanya mengalami masalah
dalam menghapus spam mail satu persatu sehingga banyak
waktu yang tebuang percuma.
Salah satu cara yang dapat digunakan yaitu email
filtering dimana mengaplikasikan proses pemilahan email
untuk menentukan apakah email tersebut adalah email
spam atau bukan spam. Kebutuhan dari email filtering
adalah sebagai berikut :
 Binary Class – Email filtering hanya
mengklasifikasikan email ke dalam kelas spam
mail dan legitimate mail
 Easy Computation – Melakukan komputasi
terhadap sifat data email yang memiiki dimensi
tinggi Gambar 1 Grafik Probabilitas
 Prediksi – Mampu memprediksi kelas dari suatu
email Dalam Teorema Bayes sering disebut istilah
probabilitas bersyarat. Probabilitas bersyarat adalah suatu
 Learning – Mampu melakukan learning
kejadian yang mungkin atau tidak tergantung pada
(menyimpan memori) dari email – email yang
terjadinya peristiwa lain. Ketergantungan ini dapat ditulis
sudah ada sebelumnya
dalam bentuk probabilitas bersyarat sebagai berikut :
 Kinerja – Memiliki akurasi tinggi, meminimalisir
nilai false positif dan mentolerir nilai false
negatif yang cukup tinggi P( A | B)
Beberapa metode yang dapat digunakan untuk email
filtering antara lain Black listing dan White listing, Maksudnya adalah probabilitas bahwa kejadian A akan
Signature-Based Filtering, Naive Bayesian (Statistical) terjadi apabila kejadian B terjadi atau bisa disebut sebagai
Filtering, Keyword filtering, Rule-based filtering, dan probabilitas gabungan kejadian A dan B. Dari kondisi
Challenge-response filtering. Pada kali ini metode yang tersebut dapat dirumuskan suatu hubungan sebagai berikut
disorot adalah Naive Bayesian Filtering. :

2.2 Teorema Bayes P( A  B)


Nama teorema Bayes diambil dari nama penemu
teorema tersebut yaitu Thomas Bayes (1702 – 1761).
P( A | B) 
Teorema Bayes dalam probabilitas dan statistika
P( B)
P( A  B)
menunjukkan hubungan antara dua probabilitas
kondisional dimana kedua kondisi tersebut saling bertolak
belakang dan memperhitungkan bahwa probabilitas suatu P( B | A) 
kejadian (hipotesis) bergantung pada keadaan lain (bukti).
Ringkasnya yaitu teorema tersebut menyatakan bahwa
P( A)
suatu kejadian yang terjadi di masa depan atau yang
belum terjadi dapat diprediksi sebelumnya dengan syarat P( A  B)  P( B | A) P( A)  P( A | B) P( B)
kejadian sebelumnya telah terjadi.
Probabilitas itu sendiri dapat dideffinisikan sebagai Dengan penjelasan sebagai berikut :

Makalah II2092 Probabilitas dan Statistik – Sem. I Tahun 2010/2011


 P(A) adalah probabilitas sebelum (tanpa syarat misalkan titik yang dirata – ratakan ketika
atau probabilitas marjinal) kejadian A. mengestimasi peluang bersyarat data.
Maksudnya ini adalah kejadian A sebelum  Hanya memerlukan sejumlah kecil data
memperhitungkan segala informasi tentang pelatihan untuk mengestimasi parameter (rata
kejadian B. – rata dan variansi dari variabel) yang
 P(B) adalah probabilitas atau marjinal sebelum dibutuhkan untuk klasifikasi.
kejadian B dan bertindak sebagai konstanta  Menangani nilai yang hilang dengan
normalisasi. mengabaikan instansi selama perhitungan
 P(A|B) adalah probabilitas bersyarat dari estimasi peluang
kejadian A apabila kejadian B telah terjadi.  Cepat dan efisiensi ruang
 P(B|A) adalah probabilitas bersyarat dari  Kokoh terhadap atribut yang tidak relevan
kejadian B apabila kejadian A telah terjadi. Kekurangan Naive Bayesian :
Misalkan kejadian A adalah independen atau saling  Tidak berlaku jika probabilitas kondisionalnya
bebas terhadap kejadian B, maka teorema Bayes dapat adalah nol, apabila nol maka probabilitas
dituliskan sebagai berikut : prediksi akan bernilai nol juga
 Mengasumsikan variabel bebas
P( A | B)  P( A) Naive Bayesian dapat dirumuskan sebagai berikut :

P( B | A)  P( B) n
Secara Umum teorema Bayes dapat dituliskan dalam P ( X | Ci )   P ( x k | Ci )
bentuk :
k 1
Dengan tiap set atribut X  X 1 , X 2 ,, X d terdiri
P( B | Ai ) P( Ai )
P( Ai  B)  dari n atribut.
 P( B | Ai ) P( Ai ) Atau dapat dituliskan sebagai berikut :
n
1
Jika( Ai ) membentuk partisi dari ruang kejadian untuk
P( X | Ci ,....., Cn )  P( X ) P(Ck | X )
setiap ( Ai ) dalam partisi.
Z k 1
Teorema Bayes dalam hal ini memberikan representasi
secara matematis tentang bagaimana probabilitas
bersyarat kejadian A dan B yang diberikan adalah saling 2.4 Aplikasi Naive Bayesian Filtering dalam Email
berkaitan dengan probabilitas bersyarat B karena A. Filtering
Bayesian Filtering memudahkan kita untuk memprediksi
2.3 Naive Bayesian kemungkinan apakah suatu email adalah spam dari hasil
tes kata yaitu keadaan dari kata – kata tertentu yang telah
Variasi lain dari teorema Bayes yang digunakan untuk
ditentukan sebelumnya. Misalnya, kata – kata seperti
metode email filtering adalah Naive Bayesian Filtering.
“viagra” memiliki peluang lebih besar untuk muncul
Naive bayesian klasifikasi adalah suatu klasifikasi dalam spam mail dibanding email normal.
berpeluang sederhana berdasarkan aplikasi teorema Bayes Spam filtering berdasarkan sistem blacklist adalah
dengan asumsi antar variabel penjelas saling bebas kurang direkomendasikan karena metode tersebut terlalu
(independen). Dalam hal ini, diasumsikan bahwa ketat dan kemungkinan false positif cukup tinggi. Tetapi,
kehadiran atau ketiadaan dari suatu kejadian tertentu dari Bayesian filtering memberikan jalan tengah karena konsep
suatu kelompok tidak berhubungan dengan kehadiran atau yang digunakan adalah probabilitas.
ketiadaan dari kejadian lainnya. Pada saat menganalisa kata – kata dalam sebuah email
Naive Bayesian dapat digunakan untuk berbagai macam maka dapat dihitung peluang bahwa email tersebut adalah
keperluan antara lain untuk klasifikasi dokumen, deteksi spam, bukan langsung merujuk pada keputusan ya atau
spam atau filtering spam, dan masalah klasifikasi lainnya. tidak dalam pengidentifikasian awal. Apabila email
Dalm hal ini lebih disorot mengenai penggunaan teorema tersebut memiliki 99% peluang email spam, maka
Naive Bayesian untuk spam filtering kemungkinan besar email tersebut adalah email spam.
Teorema Naive Bayesian memiliki beberapa kelebihan Semakin berkembangnya filter makan akan semakin
dan kekurangan yaitu sebagai berikut : diperbaharui probabilitas kata – kata tertentu yang
Keuntungan Naive Bayesian : merujuk pada email spam. Kata – kata tertentu telah
ditentukan pada awal. Bayesian filter dapat memeriksa
 Menangani kuantitatif dan data diskrit
beberapa kata dalam satu baris sebagai jalur data.
 Kokoh untuk titik noise yang diisolasi,

Makalah II2092 Probabilitas dan Statistik – Sem. I Tahun 2010/2011


Aplikasi dari Teorema Bayes dalam Email filtering merupakan pendekatan sub-optimal dimana merupakan
secara mudahnya adalah sebagai berikut : pendekatan yang lebih baik dapat di komputasikan
 Kejadian A : Email adalah spam sehingga dapat dinyatakan bahwa email tersebut adalah
 Tes X : Email mengandung kata – kata tertentu spam mail berdasarkan seluruh data yang tersedia
(X) (seluruh kata yang terdapat dalam email tersebut).
Ada banyak cara untuk menyelesaikan permasalahan
P( X | A) P( A)
P( A | X ) 
ini, salah satu pendekatan yang mungkin dapat
dipertimbangkan yaitu melalui bukti yang disediakan oleh
P( X ) seluruh kata dalam email tersebut kemudian dikomputasi
dengan peluang kombinasi dari seluruh kata tersebut.
Pendekatan ini diprediksi dengan asumsi bahwa kondisi
Dalam aplikasi nyata, email filtering menekankan pada dari seluruh kata dalam email tersebut adalah independen
konsep Naive Bayesian dengan kasus sebagai berikut : (bebas) terhadap satu sama lain. Misalkan asumsi saling
Misalkan seorang pengguna mendapat sebuah email. bebas itu benar adanya maka kita dapat merumuskan
Dengan metode Naive Bayesian filtering hal yang kombinasi peluang sebagai berikut :
dilakukan pertama kali yaitu membagi email tersebut per K

P
kata secara independen. Tiap kata tersebut dinyatakan
dalam notasi Wi. Untuk mengetahui peluang bahwa email
k
tersebut adalah spam mail maka dapat dinyatakan dalam
sebuah pernyataan sebagai berikut : P( spam)  K
k 1
K
P(spam | Wi )
Pada langkah ini diaplikasikan Teorema Bayes
 P   (1  P )
k 1
k
k 1
k

berdasarkan pengamatan pada kata tersebut :


Dimana K adalah jumlah kata yang terdapat dalam
P(Wi | spam) P( spam) email, dan Pk didefinisikan sebagai berikut :
P( spam | Wi )  n


i 1
P(Wi | spam) P( spam ) Pk  P( spam | Wk )
Berdasarkan persamaan tersebut maka dapat
diasumsikan bahwa :
 Total n kata yang muncul di spam mail maupun Pk 
P(Wk | spam) P( spam)
P(W1 | spam) P( spam)  P(W2 | spam) P( spam)  ..  P(WN 1 | spam) P( spam)
non-spam mail telah didata dalam sebuah list
 Peluang independen dari setiap kata yang muncul
Dari persamaan diatas dapat dihitung peluang bahwa
apabila email telah dinyatakan spam didata
email yang masuk adalah spam dengan mengombinasikan
dalam list
peluang independen dari email yang diidentifikasi sebagai
 Kata Wi terdapat dalam list spam berdasarkan kemunculan kata dalam email tersebut.
 Diketahui jumlah total dari spam mail dan non- Misalkan ada sedikitnya dua implementasi yang berbeda
spam mail dari persamaan di atas, dalam satu kasus, kita dapat
Cara untuk mendeteksi apakah email tersebut adalah mempertimbangkan hanya kata – kata unik yang terdapat
spam maka dilakukan dua langkah yaitu sebagai berikut : dalam email. Alternatif lain, kita dapat
a. Mengidentifikasi jumlah dari setiap kata yang mempertimbangkan setiap kata dalam email tersebut
muncul apakah termasuk spam atau non-spam walaupun dipakai secara berulang kali.
mail, ini mengarahkan kita untuk mendefinisikan Dari pernyataan diatas dapat disimpulkan bahwa
P(W|i | spam) dan P(W|i | non  spam) kemungkinan email yang masuk ke inbox pengguna
adalah spam, tetapi ini hanya sebuah kemungkinan, belum
berdasarkan probabilitas kondisional yang tidak pernyataan akhir.
terdapat dalam persamaan diatas. Bagaimanapun Hal yang dapat disimpulkan secara jelas adalah apabila
juga, ini akan muncul dalam perhitungan peluang spam email bernilai lebih dari 0,5 maka dapat
P(non  spam | W|i ) dipastikan email tersebut adalah spam, apabila peluang
b. Menghitung jumlah total spam dan non-spam bernilai kurang dari 0,5 maka dapat dideklarasikan bahwa
mal, ini mengarahkan kita untuk mendefinisikan email itu bukan spam. Namun, apabila ternyata
P(spam) dan P(non  spam) peluangnyatepat sebesar 0,5 maka nantinya akan
diserahkan kepada pengguna email apakah nantinya
Sampai tahap ini, kita telah menyatakan peluang bahwa
pengguna mendeteksi dan menolak email tersebut atau
email tersebut adalah spam mail berdasarkan pengamatan
tidak.
dari setiap kata yang terdapat dalam email tersebut. Ini

Makalah II2092 Probabilitas dan Statistik – Sem. I Tahun 2010/2011


2.5 Kenggulan Naive Bayesian dalam Email [4] http://betterexplained.com/articles/an-intuitive-and-short-
explanation-of-bayes-theorem/
Filtering (Tanggal akses : 15 Desember 2010)
Naive bayesian filtering memiliki kelebihan [5] http://id.wikipedia.org/wiki/Spam
dibandingkan dengan metoda filtering yang lain, [6] (Tanggal akses : 15 Desember 2010)
diantaranya adalah: [7] http://nayyeri.net/an-introduction-to-bayesian-spam-filtering
(Tanggal akses : 15 Desember 2010)
1. Komputasi yang mudah dan praktis [8] http://raza-rizvi.blogspot.com/2010/03/creating-spam-filter-
2. Dapat memeriksa email secara keseluruhan yaitu using-naive-bayes.html
memeriksa token di database spam maupun (Tanggal akses : 15 Desember 2010)
legitimate. [9] http://www.sharewareconnection.com/antispam-
marisuite.htm
3. Supervised learning yaitu secara otomatis akan (Tanggal akses : 16 Desember 2010)
melakukan proses learning dari email yang masuk. [10] http://www.vjs.org/spam/bayesian-analysis.html
4. Cocok diterapkan di level aplikasi (Tanggal akses : 16 Desember 2010)
client/individual user. [11] http://www.codeproject.com/KB/recipes/Naive_Bayes
(Tanggal akses : 16 Desember 2010)
5. Cocok diterapkan pada binary class yaitu
[12] http://www.green-baby.co.cc/2010/12/konsep-naive-
klasifikasi ke dalam dua kelas. bayes.html
6. Metode ini multilingual dan internasional. (Tanggal akses : 16 Desember 2010)
Bayesian filtering menggenerate token dengan
pengenalan karakter sehingga mampu PERNYATAAN
diimplementasikan pada email dengan bahasa
apapun. Dengan ini saya menyatakan bahwa makalah yang saya
tulis ini adalah tulisan saya sendiri, bukan saduran, atau
terjemahan dari makalah orang lain, dan bukan plagiasi.
III. KESIMPULAN
Kesimpulan yang dapat ditarik adalah sebagai berikut : Bandung, 17 Desember 2010
1. Teorema Bayes adalah dasar dari probabilitas
sebagai sumber dari pengaplikasian berbagai
hal dalam dunia nyata dengan klasifikasi Naive
Bayesian adalah adalah kasus spesifik dari
kategori ini
2. Bayesian spam filtering adalah aplikasi dari
klasifikasi Naive Bayesian dalam hal email
filtering yang berhubungan dengan peluang Dyah Diwasasri 18209005
yang dapat didapat dari beberapa percobaan
3. Bayesian spam filter merupakan salah satu
aplikasi dari teori probabilitas dan statistik
dalam bidang Sistem dan Teknologi Informasi
yaitu email filtering.

IV. UCAPAN TERIMA KASIH


Dalam pembuatan makalah ini terjadi banyak hal yang
tentunya mempengaruhi pembuatan makalah ini. Oleh
karena itu, penyusun menyampaikan ucapan terima kasih
kepada :
1. Allah SWT, atas rahmat-Nya sehingga
makalah ini dapat selesai tanpa halangan suatu
apapun
2. Orang Tua, atas dukungan dan doanya
sehingga makalah ini dapat terselesaikan
3. Pak Rinaldi Munir, atas bimbingan selama ini
dalam mata kuliah Probabilitas dan Statistik
4. Teman – teman, atas dukungannya selama ini

DAFTAR PUSTAKA
[1] http://en.wikipedia.org/wiki/Bayesian_spam_filtering
(Tanggal akses : 15 Desember 2010)
[2] http://en.wikipedia.org/wiki/Bayes'_theorem
[3] (Tanggal akses : 15 Desember 2010)

Makalah II2092 Probabilitas dan Statistik – Sem. I Tahun 2010/2011

Anda mungkin juga menyukai