TINJAUAN PUSTAKA
7
6. Berbasis jaringan seperti Blacklist URL, Blacklist DNS, Checksum berbasis
Filter, dan Algoritma Hash
8
A G
Outbox Inbox Penerima
Pengirim B C E F (MUA)
(MUA)
MTA
A I
Outbox Pengirim
(MUA) Inbox Penerima (MUA)
B H
Jaringan Jaringan
C G
MDA MDA
Pengirim Penerima
E
D F
9
(aturan) yaitu Simple Mail Transfer Protocol (SMTP). Protocol SMTP telah
menjadi aturan dasar yang disepakati untuk pengiriman email. Dengan demikian
semua software email server pasti mendukung protokol ini. SMTP merupakan
protokol yang digunakan untuk megirim email (komunikasi antar mail server),
dan tidak digunakan untuk berkomunikasi dengan client. Sedangkan untuk client,
digunakan protokol imap imaps pop3 pop3s. Supaya sebuah mail server dapat di
akses oleh client, dikembangkan sebuah aplikasi dimana client dapat mengakses
email dari sebuah email server. IMAP adalah sebuah aplikasi pada layer Internet
protokol yang memungkinkan client untuk mengakses email yang ada di server.
Selain IMAP ada juga POP3 yang fungsinya sama dengan imap, akan tetapi
memiliki karakteristik yang berbeda dalam cara pengaksesan pada server. Untuk
dapat melakukan tugasnya, sebuah mail server harus dapat melayani pengiriman
email yang mempergunakan protokol SMTP serta harus mampu melayani client
yang ingin mengakses email dengan menyediakan IMAP dan atau POP3.
Postfix berasal dari IBM Secure Mailer yang dirilis sekitar tahun 1998,
yang kemudian diberi nama VMailer. Tapi karena alasan kemiripan dengan merek
dagang yang telah ada, pemakaian nama ini tidak dilanjutkan dan diganti dengan
postfix. Proyek postfix dimulai oleh Wietse Venema, pakar keamanan komputer
10
dan periset di IBM. Postfix berusaha memberikan alternative untuk program mail
Sendmail yang telah luas memasyarakat. Postfix dirancang lebih cepat, lebih
mudah dirawat, dan lebih aman. (Rafiudin 2006).
Internet
long delay
SMTP
Postfix Mail Storage
Server
POP3/IMAP Server
11
an. Sebelumnya, teorema Bayes banyak dipakai dalam berbagai bidang, mulai dari
perhitungan matematis orbit benda langit, statistika medis, hingga bidang hukum
[Rachli. 2007].
Misalkan X merupakan sampel data yang tidak diketahui label kelasnya
dan Y melambangkan variabel kelas, untuk masalah klasifikasi akan dihitung
PY X , yaitu peluang kelas Y jika diberikan sampel data X . Peluang bersyarat
ini juga dikenal dengan peluang posterior untuk Y dengan syarat X . Peluang
posterior PY X didasarkan pada informasi sebelumnya yaitu peluang prior
PX Y . PY
PY X (1)
P X
Filter Bayesian, bekerja dengan algoritma Bayesian yang mendeteksi
spam dengan cara menghitung probabilitas dari suatu email berdasarkan isinya.
Probabilitas ini dapat dihitung dengan terlebih dahulu membuat suatu database
email spam dan database email ham. Database tersebut berisi kata-kata yang
telah diekstraksi yang terdapat dalam email-email sampel. Kemudian dengan
suatu metode training, filter anti-spam yang menggunakan algoritma Bayesian
dapat dilatih untuk melihat kata-kata yang sering digunakan pada email spam,
sehingga pada akhirnya dihasilkan filter anti-spam yang akurat dengan sekecil
mungkin kesalahan [Han. 2011].
Teorema Bayes dalam konteks spam, menyatakan bahwa peluang sebuah
email adalah spam, ditunjukkan oleh keberadaan beberapa kata (selanjutnya
disebut atribut) tertentu didalamnya, adalah sama dengan peluang untuk
menemukan atribut yang sama dalam sebuah email spam, dikalikan dengan
peluang bahwa sebuah email adalah spam, dibagi dengan peluang untuk
menemukan atribut yang sama dalam sembarang email [Rachli. 2007].
Pr kata spam . Pr spam
Pr spam kata (2)
Pr kata
12
Filter Bayesian merupakan penggolong Bayesian yang sederhana dengan
cara kerja sebagai berikut :
1. Setiap email diwakili oleh suatu vektor x x1 , x2 ,..., xn , dimana
PC cX x
PC c . P X x C c
PC k . P X x C k (3)
k spam, ham
3. Peluang total adalah konstan untuk setiap kelas sehingga hanya perlu dihitung
PC c . P X x C c . Peluang prior PC c dapat dihitung dengan
sc
PC c , di mana sc merupakan jumlah email kelas c dalam sampel
s
training dan s merupakan jumlah seluruh email dalam sampel training.
4. Jika diberikan banyak atribut, maka akan sangat sulit untuk menghitung
P X x C c . Untuk mengurangi perhitungan dalam mengevaluasi
P X x C c , dibuat asumsi bahwa tidak ada ketergantungan antara atribut
yang satu dengan atribut yang lain atau yang biasa disebut kebebasan
bersyarat (conditional independence). Asumsi ini dibuat untuk
menyederhanakan perhitungan dan inilah sebabnya disebut ”naive” [Han.
2011].
Kebebasan Bersyarat, misal X , Y , dan Z melambangkan tiga variabel acak.
Variabel X dikatakan bebas secara bersyarat Y , yang diberikan Z , jika
sesuai kondisi berikut :
PX Y , Z PX Z (4)
P X , Y , Z
P X , Y Z
PZ
13
P X , Y , Z PY , Z
.
PY , Z PZ
PX Y , Z . PY Z
Kebebasan bersyarat antara X dan Y juga dapat ditulis dalam bentuk berikut :
Persamaan (4) digunakan untuk memperoleh baris terakhir persamaan di atas.
P X C c PX i C c
k
(6)
i 1
PC spam . P X x C spam PC ham. P X x C ham
Dengan kata lain, email X merupakan kelas dengan peluang posterior
P C c X x maksimum.
14
[Androutsopoulus. 2004]. Misalkan bahwa menghambat satu email ham sama
buruknya dengan membiarkan email spam sebanyak melewati filter
H S S H , filter dapat ditraining untuk mengkategorikan email
sebagai spam jika :
P C spam X x
P C ham X x (7 )
Karena dianggap lebih beresiko maka dipilih nilai tertentu untuk memperkecil
kemungkinan terjadinya false positive [Pratiwi. 2005].
Keteraangan :
Acc : tingkat keakuratan
Err : tingkat kesalahan
n H S : jumlah email ham yang dihalangi filter
15