Anda di halaman 1dari 9

BAB II

TINJAUAN PUSTAKA

Studi banding (comparison study) biasa dilakukan untuk maksud


peningkatan mutu, perluasan usaha, perbaikan sistem, penentuan kebijakan baru,
perbaikan peraturan perundangan, dan lain-lan. Kegiatan studi banding dilakukan
oleh kelompok kepentingan untuk mengunjungi atau menemui obyek tertentu
yang sudah disiapkan dan berlangsung dalam waktu relatif singkat. Intinya adalah
untuk membandingkan kondisi obyek studi di tempat lain dengan kondisi yang
ada di tempat sendiri. Hasilnya berupa kumpulan data dan informasi sebagai
bahan acuan dalam perumusan konsep yang diinginkan. (Alimargono, 2009)

Spam-Assassin adalah aplikasi yang sudah teruji secara luas menggunakan


proyek open source yang berfungsi sebagai mail filter untuk mengidentifikasikan
spam. Spam-Assassin berjalan pada server, dan sebagai filter spam sebelum
mencapai kotak surat user. SpamAssasin menyaring e-mail masuk sehingga e-
mail account milik pelanggan web hosting terlindungi dari SPAM. Spam-Assassin
diintegrasikan ke dalam mail server untuk secara otomatis menyaring semua spam
untuk domain dan aturan penggunaan, atau "tes," untuk menentukan apa yang
spam dan apa yang tidak. SpamAssasin dapat memberikan tanda dengan
mengubah subject e-mail atau langsung menghapus e-mail SPAM yang masuk.
Setiap user dapat mengkonfigurasi ambang batas Spam-Assassin untuk
menentukan jika sebuah email adalah spam, dicurigai spam, atau bukan spam.
(Schwartz, 2004)
Spam-Assassin menggunakan berbagai mekanisme berikut (Schwartz, 2004) :
1. Pengecekan Header Email
2. Pengecekan isi email
3. Pengelompokan Email Address secara otomatis/manual menjadi Whitelist
ataupun Blacklist
4. Bayesian Filtering
5. Penyaringan database spam kolaboratif (DCC, Pyzor, Razor2)

7
6. Berbasis jaringan seperti Blacklist URL, Blacklist DNS, Checksum berbasis
Filter, dan Algoritma Hash

Spam-Assassin dirancang untuk memberikan penyaringan yang dapat diterima


tanpa pelatihan apapun dan tentu saja bisa diperbaiki jika tiap user menghabiskan
waktu untuk melatihnya.

Mail Server merupakan server yang melayani beberapa komputer dalam


suatu jaringan internet, ekstranet dan intranet dalam bentuk layanan pengiriman
dan pengambilan e-mail. Mesin ini senantiasa menerima pesan dari email client
yang digunakan user atau mugkin dari email server yang lainnya. Sebuah mail
server biasanya terdiri dari area penyimpanan, set konfigurasi user, daftar user
dan seri modul komunikasi (Fiva, 2009). Mail Server adalah suatu entitas berupa
komputer yang bertindak sebagai sebuah server (penyedia layanan) dalam
jaringan komputer / internet, serta memiliki fungsi untuk melakukan penyimpanan
(storing) dan distribusi yang berupa pengiriman (sending), penjaluran (routing),
dan penerimaan (receiving) e-mail. Mail Server berjalan dengan beberapa
protokol pada TCP/IP, yakni SMTP (port 25), POP3 (port 110), dan IMAP (port
143). Mail Server memiliki tiga komponen utama yang menyusunnya, yakni Mail
Transfer Agent (MTA), Mail Delivery Agent (MDA), dan Mail User Agent
(MUA). MTA bertugas mengatur pengiriman dan penerimaan e-mail, MDA
bertugas mengatur pengiriman e-mail ke alamat yang sesuai pada jaringan lokal,
sementara MUA bertugas untuk menjadi antarmuka yang menghubungkan user
dengan Mail Server.(Pratama, 2008). Secara ringkas, cara kerja Mail Server
ditunjukkan dalam gambar 1 dan gambar 2. (Pratama, 2008).

8
A G
Outbox Inbox Penerima
Pengirim B C E F (MUA)
(MUA)

Jaringan MDA Jaringan

MTA

Gambar 1. Proses Pengiriman Email pada Jaringan Lokal

A I
Outbox Pengirim
(MUA) Inbox Penerima (MUA)

B H

Jaringan Jaringan

C G

MDA MDA
Pengirim Penerima

E
D F

MTA Pengirim Internet MTA Penerima

Gambar 2. Proses Pengiriman Email ke Jaringan Luar


Email merupakan sebuah layanan pengiriman surat elektronik yang di kirim
melalui internet. Email dikirim dari suatu alamat email yang terdapat pada sebuah
mail server kepada alamat email yang lainnya yang terdapat pada mail server yang
sama maupun pada mail server yang berbeda. Email dapat dianalogikan dengan
kotak surat yang ada di kantor POS. Sedangkan server email dapat diibaratkan
sebagai kantor POS. Dengan analogi ini sebuah mail server dapat memiliki
banyak account email yang ada didalamnya. Untuk mengirim sebuah email dari
alamat email yang satu ke alamat email yang lain digunakan sebauh protocol

9
(aturan) yaitu Simple Mail Transfer Protocol (SMTP). Protocol SMTP telah
menjadi aturan dasar yang disepakati untuk pengiriman email. Dengan demikian
semua software email server pasti mendukung protokol ini. SMTP merupakan
protokol yang digunakan untuk megirim email (komunikasi antar mail server),
dan tidak digunakan untuk berkomunikasi dengan client. Sedangkan untuk client,
digunakan protokol imap imaps pop3 pop3s. Supaya sebuah mail server dapat di
akses oleh client, dikembangkan sebuah aplikasi dimana client dapat mengakses
email dari sebuah email server. IMAP adalah sebuah aplikasi pada layer Internet
protokol yang memungkinkan client untuk mengakses email yang ada di server.
Selain IMAP ada juga POP3 yang fungsinya sama dengan imap, akan tetapi
memiliki karakteristik yang berbeda dalam cara pengaksesan pada server. Untuk
dapat melakukan tugasnya, sebuah mail server harus dapat melayani pengiriman
email yang mempergunakan protokol SMTP serta harus mampu melayani client
yang ingin mengakses email dengan menyediakan IMAP dan atau POP3.

Gambar 3. Komunikasi Mail Server

Postfix berasal dari IBM Secure Mailer yang dirilis sekitar tahun 1998,
yang kemudian diberi nama VMailer. Tapi karena alasan kemiripan dengan merek
dagang yang telah ada, pemakaian nama ini tidak dilanjutkan dan diganti dengan
postfix. Proyek postfix dimulai oleh Wietse Venema, pakar keamanan komputer

10
dan periset di IBM. Postfix berusaha memberikan alternative untuk program mail
Sendmail yang telah luas memasyarakat. Postfix dirancang lebih cepat, lebih
mudah dirawat, dan lebih aman. (Rafiudin 2006).

Internet
long delay

ISP SMTP Server

send path receive path


c

SMTP
Postfix Mail Storage
Server

POP3/IMAP Server

User Thunderbird Email

Gambar 5. Cara Kerja Transfer Data pada E-Mail(Susitasulistyo, 2012)

Mail Client, untuk mengakses layanan E-Mail diperlukan aplikasi di sisi


klien sehingga pengguna dapat mendownload E-Mail. Aplikasi ini menghubungi
mail server dengan mengirimkan informasi account user dan password. Apabila
server menerima account dan password tersebut maka E-Mail untuk suatu account
akan didownload ke klien, biasanya menggunakan protokol POP3. Apabila
seorang user mengirimkan E-Mail maka mail server akan mendownload E- Mail
tersebut menggunakan protokol SMTP.
Klasifikasi Bayesian, merupakan klasifikasi yang bersifat statistik, yang
dapat memprediksi peluang-peluang keanggotaan kelas, seperti peluang bahwa
suatu sampel yang diberikan termasuk kelas tertentu. Klasifikasi Bayesian
didasarkan pada teorema Bayes [Han. 2011].
Teorema Bayes, algoritma Bayesian dinamai sesuai nama Thomas Bayes
(1702-1761) yang pertama kali mengajukan persoalan statistik yang kini dikenal
sebagai teorema Bayes. Istilah Bayesian sendiri baru muncul sekitar tahun 1950-

11
an. Sebelumnya, teorema Bayes banyak dipakai dalam berbagai bidang, mulai dari
perhitungan matematis orbit benda langit, statistika medis, hingga bidang hukum
[Rachli. 2007].
Misalkan X merupakan sampel data yang tidak diketahui label kelasnya
dan Y melambangkan variabel kelas, untuk masalah klasifikasi akan dihitung
PY X , yaitu peluang kelas Y jika diberikan sampel data X . Peluang bersyarat

ini juga dikenal dengan peluang posterior untuk Y dengan syarat X . Peluang
posterior PY X  didasarkan pada informasi sebelumnya yaitu peluang prior

PY  yang bebas terhadap X . Teorema Bayes digunakan untuk menghitung


peluang posterior PY X , dari PY  , P X  dan PX Y .

PX Y . PY 
PY X   (1)
P X 
Filter Bayesian, bekerja dengan algoritma Bayesian yang mendeteksi
spam dengan cara menghitung probabilitas dari suatu email berdasarkan isinya.
Probabilitas ini dapat dihitung dengan terlebih dahulu membuat suatu database
email spam dan database email ham. Database tersebut berisi kata-kata yang
telah diekstraksi yang terdapat dalam email-email sampel. Kemudian dengan
suatu metode training, filter anti-spam yang menggunakan algoritma Bayesian
dapat dilatih untuk melihat kata-kata yang sering digunakan pada email spam,
sehingga pada akhirnya dihasilkan filter anti-spam yang akurat dengan sekecil
mungkin kesalahan [Han. 2011].
Teorema Bayes dalam konteks spam, menyatakan bahwa peluang sebuah
email adalah spam, ditunjukkan oleh keberadaan beberapa kata (selanjutnya
disebut atribut) tertentu didalamnya, adalah sama dengan peluang untuk
menemukan atribut yang sama dalam sebuah email spam, dikalikan dengan
peluang bahwa sebuah email adalah spam, dibagi dengan peluang untuk
menemukan atribut yang sama dalam sembarang email [Rachli. 2007].
Pr kata spam . Pr spam 
Pr spam kata  (2)
Pr kata

12
Filter Bayesian merupakan penggolong Bayesian yang sederhana dengan
cara kerja sebagai berikut :

1. Setiap email diwakili oleh suatu vektor x   x1 , x2 ,..., xn , dimana

x1 , x2 ,..., xn merupakan nilai dari atribut X 1 , X 2 ,... X n .


2. Menghitung peluang posterior untuk kelas email spam dan email ham dengan

syarat X . Dari teorema Bayes dan teorema peluang total, diberikan vektor

x   x1 , x2 ,..., xn  pada suatu email, peluang bahwa email tersebut merupakan

milik kelas c yaitu :

  
PC cX x  


PC  c . P X  x C  c 
 

 PC  k . P X  x C  k  (3)
k spam, ham

3. Peluang total adalah konstan untuk setiap kelas sehingga hanya perlu dihitung

 
 
PC  c . P X  x C  c . Peluang prior PC  c dapat dihitung dengan

sc
PC  c   , di mana sc merupakan jumlah email kelas c dalam sampel
s
training dan s merupakan jumlah seluruh email dalam sampel training.
4. Jika diberikan banyak atribut, maka akan sangat sulit untuk menghitung

 
 
P X  x C  c . Untuk mengurangi perhitungan dalam mengevaluasi

 
 
P X  x C  c , dibuat asumsi bahwa tidak ada ketergantungan antara atribut

yang satu dengan atribut yang lain atau yang biasa disebut kebebasan
bersyarat (conditional independence). Asumsi ini dibuat untuk
menyederhanakan perhitungan dan inilah sebabnya disebut ”naive” [Han.
2011].
Kebebasan Bersyarat, misal X , Y , dan Z melambangkan tiga variabel acak.
Variabel X dikatakan bebas secara bersyarat Y , yang diberikan Z , jika
sesuai kondisi berikut :
PX Y , Z   PX Z  (4)

P X , Y , Z 
P X , Y Z  
PZ 

13
P X , Y , Z  PY , Z 
 .
PY , Z  PZ 
 PX Y , Z . PY Z 

 PX Z . PY Z  (5)

Kebebasan bersyarat antara X dan Y juga dapat ditulis dalam bentuk berikut :
Persamaan (4) digunakan untuk memperoleh baris terakhir persamaan di atas.

 

P X C  c   PX i C  c 
k
(6)
i 1

Peluang PX i C  c  dapat dihitung dari data training yaitu PX i C  c  


sic
, di
sc
mana sic adalah jumlah email dalam kelas c dalam sampel training yang
mengandung atribut ke-i.

5. Email X termasuk kelas email spam jika dan hanya jika

   
   
PC  spam . P X  x C  spam  PC  ham. P X  x C  ham

Dengan kata lain, email X merupakan kelas dengan peluang posterior

  

P C  c X  x maksimum.

Keakuratan dan Tingkat Kesalahan, probabilitas tiap kata adalah unik


untuk setiap user, dan dapat berubah sewaktu-waktu dengan adanya koreksi
apabila filter keliru melakukan klasifikasi terhadap sebuah email. Hasilnya,
akurasi filter anti-spam akan terus meningkat dari waktu ke waktu. Kemampuan
ini sangat membantu untuk menghindari terjadinya false positives, ketika filter
keliru mengidentifikasi email ham sebagai spam [Rachli. 2007]. False positives
adalah email ham yang ditujukan kepada penerima, tetapi karena kesalahan dari
filter anti-spam, dikategorikan menjadi email spam. Kesalahan dalam
menghambat email-email ham H  S  pada umumnya lebih berat dibandingkan
dengan membiarkan email-email spam melewati filter begitu saja S  H 

14
[Androutsopoulus. 2004]. Misalkan bahwa menghambat satu email ham sama
buruknya dengan membiarkan email spam sebanyak  melewati filter
H  S   S  H  , filter dapat ditraining untuk mengkategorikan email
sebagai spam jika :
  
P C  spam X  x 
  

P C  ham X  x  (7 )

Karena dianggap lebih beresiko maka dipilih nilai  tertentu untuk memperkecil
kemungkinan terjadinya false positive [Pratiwi. 2005].

Dalam pengklasifikasian, dua ukuran yang biasa digunakan adalah


keakuratan (accuracy) dan tingkat kesalahan (error rate).
n H H  nS S n H S  nS H
Acc  Err 
NH  NS NH  NS

Err  1  Acc (8)

Keteraangan :
Acc : tingkat keakuratan
Err : tingkat kesalahan
n H S : jumlah email ham yang dihalangi filter

nS H : jumlah email spam yang melewati filter

nH H : jumlah email ham yang melewati filter

nS  S : jumlah email spam yang dihalangi filter

NH : jumlah seluruh email ham yang diklasifikasikan


NS : jumlah seluruh email spam yang diklasifikasikan

15

Anda mungkin juga menyukai