145 464 1 SM
145 464 1 SM
Ratih Yulia H
Akademi Bina Sarana Informatika
Jl. RS. Fatmawati No. 24, Pondok Labu, Jakarta Selatan
Email: ratih.ryl@bsi.ac.id
Abstraksi - Email salah satu alat yang digunakan untuk berkomunikasi dan untuk pertukaran informasi.
Pertumbuhan internet yang semakin meningkat maka penggunaan email semakin banyak. Spam email
merupakan email yang tidak diinginkan atau diminta oleh penerimanya. Spam email biasanya digunakan untuk
menyebarkan virus atau kode berbahaya, penipuan dan iklan. Banyak pengguna merasa terganggu oleh
banyaknya waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan dan
besarnya bandwith jaringan yang digunakan. Untuk mengatasi masalah ini maka diperlukan suatu metode
klasifikasi untuk memisahkan antara spam dan non spam. Metode klasifikasi yang digunakan yaitu Naïve Bayes,
metode yang paling popular dan paling banyak digunakan. Penelitian ini menggunakan data spam dan non
spam yang sudah diklasifikasikan. Evaluasi dilakukan dengan confusion matrix yang menghasilkan akurasi
sebesar 75,94%.
digunakan seperti penawaran, klik di sini, database yang memiliki urutan proses sebagai
lakukan sekarang dan masih banyak lainnya. berikut (Aribowo, 2013):
1. Data cleaning
Tipe-tipe email spam (Sukardi dkk, 2014): Membuang duplikasi data, memeriksa data
1. Untuk Iklan yang inkonsisten dan memperbaiki kesalahan
Digunakan untuk mempromosikan suatu pada data.
produk ataupun layanan, mulai dari produk 2. Data integration
software, perumahan real estate hingga Penggabungan atau mengkombinasikan sebuah
produk kesehatan dan produk vitamin. data dari beberapa sumber.
2. Untuk mengirimkan Malware Untuk 3. Data Selection
mendistribusikan virus dan malware. Pemilihan data dari sekumpulan data
3. Phising operasional sebelum penggalian informasi
Spam ini bersembunyi di balik nama-nama Knowledge Discovery in Database (KDD).
besar perusahaan besar, lembaga keuangan, 4. Data Transformation
lembaga pemerintah, lembaga amal, para Process coding pada data yang telah dipilih,
phisher mencoba memikat korban untuk sehingga data tersebut sesuai untuk proses data
mengunjungi website palsu dan dapat mencuri mining.
data keuangan pribadi atau informasi 5. Data Mininig
mengenai identitas korban. Proses mencari pola atau informasi dari dalam
4. Scam data dengan menggunakan metode tertentu.
Berita elektronik dalam internet yang bersifat 6. Pattern Evaluation
menipu sehingga pengirimnya dapat Informasi atau pola yang dihasilkan data
mendapatkan manfaat atau keuntungan. mining yang ditampilkan dalam bentuk yang
5. Pesan yang tidak berarti mudah dimengerti.
Sebuah pesan yang dapat mengelabui 7. Knowledge Presentation
teknologi spam filter, banyak pesan tak berarti Visualisasi atau representasi hasil yang akan
yang dikirimkan tanpa tujuan yang jelas. diberikan.
Dari data di atas, dimisalkan ada sebuah data Berdasarkan dari tabel diatas dari 2788 data
baru yang terdapat suatu kata internet, money dan non spam, ternyata 353 data diprediksi spam
project tetapi tidak ada kata address, Mail dan hasilnya spam, sedangkan 2435 sesuai dengan
Internet. Dari data atribut dapat diketahui nilai prediksi yaitu non spam. Sebaliknya untuk data
Spam dan Non Spam diperoleh dari probabilistik spam sebanyak 1813, data sebanyak 1059 sesuai
prior. Kemudian menghitung total keseluruhan dengan prediksi yaitu spam, sedangkan untuk 754
probabilitas tiap class, sebagai berikut: yang di prediksi data spam ternyata tidak sesuai.
Berdasarkan confusion matrix maka dapat
P(X|Spam) = P(Addrees|Spam) * dihiutng jumlah
P(Internet|Spam) *
P(Mail|Spam) * P(Email|Spam) * Accuracy = 1059 + 2435 =
P(Money|Spam) * P(Project|Spam) 0,7594
= 1,323 * 0,751 * 0,299 * 0,316 * 1059 + 2435 + 754 + 353
0,927 *
0,144 Sensitivity = 1059 = 0,75
= 0,0125 1059 + 353
P(X|Non Spam) = P(Addrees|Non Spam) *
P(Internet|Non Spam) * Specitivity = 2435 = 0,7636
P(Mail|Non Spam) * 2435 + 754
P(Email|Non Spam) *
P(Money|Non Spam) * Ppv = 1059 = 0,5841
P(Project|Non Spam) 1059 + 754
= 2,801 * 0,249 * 0,701 * 0,684 *
0,073 Npv = 2435 = 0,8734
* 0,856 2435 + 353
= 0,0209
IV. KESIMPULAN
P(X|Spam)*P(Spam) = 0,0125 *
0,394 Dari penelitian ini dapat ditarik kesimpulan
= 0,004925 yaitu:
P(X|Non Spam)*P(Non Spam) = 0,0209 * 1. Algoritma Naïve Bayes merupakan suatu
0,606 metode klasifikasi yang berdasarkan teorema
= 0,0126654 bayes yang terkenal dengan ilmu probabilitas.
2. Algoritma Naïve Bayes sangat baik untuk
Dari hasil di atas dapat disimpulkan bahwa mendukung keputusan pengklasifikasian.
P(X|Spam) lebih kecil dibandingkan dengan
P(X|Non Span), maka dapat diketahui bahwa data Agar penelitian ini dapat ditingkatkan, maka
ini termasuk data Non Spam. diperlukan sebuah saran yaitu:
Pengujian Algoritma Naïve Bayes 1. Menambahkan jumlah data yang lebih besar
Estimasi akurasi dari klasifikasi merupakan hal sehingga hasil pengukuran dapat lebih baik
penting untuk mengevaluasi seberapa akurat lagi atau akurat.
classifier yang digunakan untuk menguji sebuah 2. Menambahkan feature selection seperti
data. Hasil berupa confusion matrix. Information Gain, Genetic Algorithm dan
Confusion matrix adalah alat visualisasi yang sebagainya untuk mengurangi atribut yang
biasa digunakan pada supervised learning. Tiap digunakan sehingga atribut yang digunakan
kolom pada matriks adalah contoh kelas prediksi, menjadi lebih sedikit.
sedangkan tiap baris mewakili kejadian dikelas 3. Perlu dikembangkan lagi dengan metode
yang sebenarnya (Gorunescu, 2011). algoritma yang lain seperti Support Vector
Evaluasi dengan confusion matrix Machine, Neural Network dan sebagainya.
menghasilkan nilai accuracy, sensitivity, specificity, 4. Pembuatan GUI yang dapat diterapkan di
ppv dan npv. Pengukuran dengan confusion matrix perusahaan yang bergerak dibidang bisnis
menampilkan perbandingan dari hasil akurasi dengan alat email.
model Naïve Bayes.