MakalahProbstat2010 002
MakalahProbstat2010 002
Abstrak—Email adalah salah satu media penyebaran dikehendaki penerimanya. Isi dari spam email
komunikasi yang mudah dan praktis digunakan oleh biasanya berupa iklan produk barang atau jasa, virus,
sebagian besar masyarakat dan komunitas saat ini. pornografi, dan content – content tidak penting
Kegunaan email sebagai media komunikasi tidak terlepas
lainnya.
dari dampak positif dan negatif dari email itu sendiri.
Dampak negatif yang dihasilkan salah satunya dapat berupa Kerugian yang didapat dari penerimaan spam mail
spam mail atau biasa disebut junk mail yakni antara lain inbox email akan penuh dengan spam mail
penyalahgunaan sistem pesan elektronik untuk mengirim yang nantinya menutup email lain yang sekiranya
berita iklan dan keperluan lain secara massal dan tidak lebih penting. Selain itu untuk menghapus spam mail
dikehendaki penerimanya. Hingga saat ini permasalahan tersebut satu persatu akan membuang waktu secara
spam mail masih terus berkembang seiring dengan
percuma. Hal ini belum termasuk apabila pengguna
berkembangnya sistem penyaringan email (email filtering)
yang menggunakan berbagai metode penerapan. Salah satu tidak sengaja membuka spam email yang berisi
metode penerapan dari email filtering yang cukup efektif content virus di dalamnya sehingga merusak sistem
yakni menggunakan metode probabilistik dengan komputer pengguna itu sendiri.
pengaplikasian teorema Bayes yang difokuskan pada Langkah antisipasi dari spam mail ini sendiri sudah
klasifilasi Naive Bayesian untuk mengidentifikasi spam mail ada yaitu dengan cara penyaringan email (email
sehingga pada akhirnya akan dihasilkan ffilter anti spam
yang akurat dengan sesedikit mungkin tingkat false positif
filtering) melalui perangkat lunak khusus email
dan false negatif. filtering atau fasilitas email filtering yang saat ini
telah disediakan oleh beberapa host mail. Ada
Kata Kunci—spam mail, email filtering, teorema bayes, beberapa metode dari email filtering, salah satu
bayesian filtering, naive bayesian metode email filtering yang cukup efektif yaitu naive
bayesian filtering. Merode ini merupakan
pengaplikasian dari teorema probabilitas yaitu
I. PENDAHULUAN teorema bayes dan klasifikasi naive bayesian.
Pengaplikasian kedua teorema tersebut menghasiklan
1.1 Latar Belakang
sebuah sistem email filtering yang cukup efektif,
Email (Electronic Mail) adalah salah satu media
memiliki tingkat akurasi cukup tinggi, dan
komunikasi dengan metode bertukar informasi secara
menghasilkan galat minimum sehingga mudah untuk
digital melalui internet atau jaringan komputer lain.
dikembangkan.
Informasi dapat berupa pesan, file (attachment), atau
berupa media iklan dan promosi dari suatu
perusahaan atau produk tertentu. Dari segi
1.2 Tujuan Penulisan
Tujuan penulisan makalah adalah sebagai berikut :
penggunaannya sendiri, email adalah alat komunikasi
1.2.1 Memotivasi mahasiswa agar memiliki
yang mudah digunakan oleh seluruh kalangan
kemampuan menulis untuk menuangkan
masyarakat baik untuk kepentingan personal maupun
ide-ide atau hasil risetnya;
kepentingan suatu instansi atau komunitas. Selain itu
1.2.2 Melakukan eksplorasi terhadap isu, metode,
fasilitas email terhitung murah dan tidak terpatok
dan masalah yang dipelajari dalam
pada jarak tujuan pengiriman. Penggunaan email juga
pengembangan serta menyebarkan aplikasi
memiliki dampak positif dan negatif. Dampak
yang mendukung teknologi informasi;
positifnya seperti yang telah dijabarkan tadi yaitu
1.2.3 Sebagai media untuk berbagi informasi
mudah digunakan, murah, dan jangkauan tempat luas
hasil-hasil pemikiran dan penelitian.
sedangkan dampak negatif yang ditimbulkan salah
satunya adalah spam mail. Spam mail atau biasa
disebut junk mail itu sendiri adalah penyalahgunaan 1.3 Ruang Lingkup
sistem pesan elektronik untuk mengirim berita iklan Ruang lingkup penulisan makalah ini adalah
dan keperluan lain secara massal dan tidak aplikasi teori peluang dan statistika dalam bidang
sistem dan teknologi informasi. Dalam makalah ini
P( B | A) P( B) n
Secara Umum teorema Bayes dapat dituliskan dalam P ( X | Ci ) P ( x k | Ci )
bentuk :
k 1
Dengan tiap set atribut X X 1 , X 2 ,, X d terdiri
P( B | Ai ) P( Ai )
P( Ai B) dari n atribut.
P( B | Ai ) P( Ai ) Atau dapat dituliskan sebagai berikut :
n
1
Jika( Ai ) membentuk partisi dari ruang kejadian untuk
P( X | Ci ,....., Cn ) P( X ) P(Ck | X )
setiap ( Ai ) dalam partisi.
Z k 1
Teorema Bayes dalam hal ini memberikan representasi
secara matematis tentang bagaimana probabilitas
bersyarat kejadian A dan B yang diberikan adalah saling 2.4 Aplikasi Naive Bayesian Filtering dalam Email
berkaitan dengan probabilitas bersyarat B karena A. Filtering
Bayesian Filtering memudahkan kita untuk memprediksi
2.3 Naive Bayesian kemungkinan apakah suatu email adalah spam dari hasil
tes kata yaitu keadaan dari kata – kata tertentu yang telah
Variasi lain dari teorema Bayes yang digunakan untuk
ditentukan sebelumnya. Misalnya, kata – kata seperti
metode email filtering adalah Naive Bayesian Filtering.
“viagra” memiliki peluang lebih besar untuk muncul
Naive bayesian klasifikasi adalah suatu klasifikasi dalam spam mail dibanding email normal.
berpeluang sederhana berdasarkan aplikasi teorema Bayes Spam filtering berdasarkan sistem blacklist adalah
dengan asumsi antar variabel penjelas saling bebas kurang direkomendasikan karena metode tersebut terlalu
(independen). Dalam hal ini, diasumsikan bahwa ketat dan kemungkinan false positif cukup tinggi. Tetapi,
kehadiran atau ketiadaan dari suatu kejadian tertentu dari Bayesian filtering memberikan jalan tengah karena konsep
suatu kelompok tidak berhubungan dengan kehadiran atau yang digunakan adalah probabilitas.
ketiadaan dari kejadian lainnya. Pada saat menganalisa kata – kata dalam sebuah email
Naive Bayesian dapat digunakan untuk berbagai macam maka dapat dihitung peluang bahwa email tersebut adalah
keperluan antara lain untuk klasifikasi dokumen, deteksi spam, bukan langsung merujuk pada keputusan ya atau
spam atau filtering spam, dan masalah klasifikasi lainnya. tidak dalam pengidentifikasian awal. Apabila email
Dalm hal ini lebih disorot mengenai penggunaan teorema tersebut memiliki 99% peluang email spam, maka
Naive Bayesian untuk spam filtering kemungkinan besar email tersebut adalah email spam.
Teorema Naive Bayesian memiliki beberapa kelebihan Semakin berkembangnya filter makan akan semakin
dan kekurangan yaitu sebagai berikut : diperbaharui probabilitas kata – kata tertentu yang
Keuntungan Naive Bayesian : merujuk pada email spam. Kata – kata tertentu telah
ditentukan pada awal. Bayesian filter dapat memeriksa
Menangani kuantitatif dan data diskrit
beberapa kata dalam satu baris sebagai jalur data.
Kokoh untuk titik noise yang diisolasi,
P
kata secara independen. Tiap kata tersebut dinyatakan
dalam notasi Wi. Untuk mengetahui peluang bahwa email
k
tersebut adalah spam mail maka dapat dinyatakan dalam
sebuah pernyataan sebagai berikut : P( spam) K
k 1
K
P(spam | Wi )
Pada langkah ini diaplikasikan Teorema Bayes
P (1 P )
k 1
k
k 1
k
i 1
P(Wi | spam) P( spam ) Pk P( spam | Wk )
Berdasarkan persamaan tersebut maka dapat
diasumsikan bahwa :
Total n kata yang muncul di spam mail maupun Pk
P(Wk | spam) P( spam)
P(W1 | spam) P( spam) P(W2 | spam) P( spam) .. P(WN 1 | spam) P( spam)
non-spam mail telah didata dalam sebuah list
Peluang independen dari setiap kata yang muncul
Dari persamaan diatas dapat dihitung peluang bahwa
apabila email telah dinyatakan spam didata
email yang masuk adalah spam dengan mengombinasikan
dalam list
peluang independen dari email yang diidentifikasi sebagai
Kata Wi terdapat dalam list spam berdasarkan kemunculan kata dalam email tersebut.
Diketahui jumlah total dari spam mail dan non- Misalkan ada sedikitnya dua implementasi yang berbeda
spam mail dari persamaan di atas, dalam satu kasus, kita dapat
Cara untuk mendeteksi apakah email tersebut adalah mempertimbangkan hanya kata – kata unik yang terdapat
spam maka dilakukan dua langkah yaitu sebagai berikut : dalam email. Alternatif lain, kita dapat
a. Mengidentifikasi jumlah dari setiap kata yang mempertimbangkan setiap kata dalam email tersebut
muncul apakah termasuk spam atau non-spam walaupun dipakai secara berulang kali.
mail, ini mengarahkan kita untuk mendefinisikan Dari pernyataan diatas dapat disimpulkan bahwa
P(W|i | spam) dan P(W|i | non spam) kemungkinan email yang masuk ke inbox pengguna
adalah spam, tetapi ini hanya sebuah kemungkinan, belum
berdasarkan probabilitas kondisional yang tidak pernyataan akhir.
terdapat dalam persamaan diatas. Bagaimanapun Hal yang dapat disimpulkan secara jelas adalah apabila
juga, ini akan muncul dalam perhitungan peluang spam email bernilai lebih dari 0,5 maka dapat
P(non spam | W|i ) dipastikan email tersebut adalah spam, apabila peluang
b. Menghitung jumlah total spam dan non-spam bernilai kurang dari 0,5 maka dapat dideklarasikan bahwa
mal, ini mengarahkan kita untuk mendefinisikan email itu bukan spam. Namun, apabila ternyata
P(spam) dan P(non spam) peluangnyatepat sebesar 0,5 maka nantinya akan
diserahkan kepada pengguna email apakah nantinya
Sampai tahap ini, kita telah menyatakan peluang bahwa
pengguna mendeteksi dan menolak email tersebut atau
email tersebut adalah spam mail berdasarkan pengamatan
tidak.
dari setiap kata yang terdapat dalam email tersebut. Ini
DAFTAR PUSTAKA
[1] http://en.wikipedia.org/wiki/Bayesian_spam_filtering
(Tanggal akses : 15 Desember 2010)
[2] http://en.wikipedia.org/wiki/Bayes'_theorem
[3] (Tanggal akses : 15 Desember 2010)