Anda di halaman 1dari 6

BAB I PENDAHULUAN

1.1

Latar Belakang Perkembang aplikasi-aplikasi internet, salah satunya adalah email, sangat

pesat dikarenakan sifatnya yang sangat cepat, tepat, dan murah sehingga banyak pengguna email (selanjutnya disebut pemakai) terutama salesperson

memanfaatkannya untuk mengirimkan pesan-pesan ke banyak orang. Pesan tersebut dinamakan unsolicited bulk email, junk mail, atau spam (Lambert, 2003). Spam ini telah membanjiri internet dengan mengirimkan salinan pesan-pesan yang sama untuk memaksa agar pesan-pesan tersebut sampai kepada pemakai yang tidak memilih untuk menerimanya. Akibatnya banyak pemakai yang merasa terganggu oleh lamanya waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan, dan penggunaan bandwidth jaringan yang besar. Untuk mengatasi hal ini, diperlukan suatu filter anti-spam dengan algoritma tertentu yang dapat memisahkan antara spam-mail dengan non spam mail (atau yang biasa disebut ham atau legitimate mail). Telah banyak algoritma anti-spam filter yang tersedia. Diantaranya decision tree, nave bayes, support vector machine (SVM), neural network dan lain-lain.

Pada penelitian yang dilakukan oleh Youn dan McLeod (2006) yaitu perbandingan antara algoritma svm, neural network, nave bayes, dan decision tree yang memakai algoritma C4.5, terbukti bahwa decision tree dengan algoritma C4.5 lebih effisien dan paling sederhana dibandingkan algoritma yang lain. Dengan

kesederhanaannya ini algoritma C4.5 dapat memberikan hasil yang lebih baik untuk mengklasifikasikan spam-mail. Dari penelitian yang lain yang dilakukan oleh Jyh-Jian Sheu (2008) diperoleh hasil metode ID3 dari decision tree merupakan metode yang paling baik dari pada nave bayes dan k nearest neighbors (KNN). Dari penelitian tersebut diketahui bahwa ID3 mempunyai precision dan Accurancy lebih baik dari pada naive bayes dan KNN. Berdasarkan kedua penelitian tersebut, dapat dilihat bahwa kedua algoritma, ID3 dan C4.5 mempunyai kinerja yang baik dalam mengidentifikasi apakah suatu email adalah spam atau non-spam. Tetapi belum diketahui algoritma mana diantara keduanya yang lebih unggul kinerjanya. Oleh karena itu kedua algoritma ini perlu dibandingkan.

1.2

Rumusan Masalah Algoritma C4.5 dari decision tree menurut Youn dan McLeod (2006) adalah

algoritma terbaik dalam mengklasifikasikan spam. Sedangkan menurut Jyh-Jian Sheu (2008), algoritma ID3 dari decisin tree adalah algoritma terbaik untuk kasus ini. Sehingga muncul pertanyaan Apakah algoritma C4.5 lebih baik dibandingkan dengan algoritma ID3?

1.3

Batasan Masalah Batasan masalah dalam penulisan tugas akhir ini adalah mengukur dan

membandingkan performansi dari kedua algoritma yaitu C4.5 dan ID3 berdasarkan ukuran jumlah data (data size) dan jumlah atribut (feature size). Pengukuran kinerja merupakan pengukuran yang biasa dilakukan terhadap masalah klasifikasi yaitu dengan menghitung precision, recall, dan accuracy.

1.4

Tujuan Penelitian Berdasarkan rumusan masalah yang telah dijelaskan sebelumnya, maka tujuan

dari penelitian ini adalah membandingkan kinerja yang dihasilkan oleh algoritma C4.5 dan ID3 dalam klasifikasi spam-mail. Dari perbandingan ini akan diketahui persentase accuracy, precision dan recall dari data training dan data tes yang digunakan. Berdasarkan persentase accuracy, precision dan recall tersebut akan diketahui kinerja setiap algoritma.

1.5

Metode Penelitian Langkah-langkah yang dilakukan untuk membandingkan algoritma C4.5 dan

ID3 dalam mengklasifikasikan spam-mail terdiri dari beberapa langkah, sebagai berikut :

1.

Persiapan data Pada tahap ini dilakukan pengambilan data dari UCI Machine Learning

Repository http://www.ics.uci.edu/~mlearn/MLRepository.html yang terdiri dari 4601 data email dengan 1813 email Spam dan 2788 email non-spam. 2. Tranformasi data Pada tahap ini data diubah ke dalam bentuk yang sesuai untuk di-mining. Yaitu merubah dari bentuk numerik menjadi kategori. 3. Analisis data dengan alat bantu Weka Data yang sudah dalam format arff, bisa dianalisis menggunakan modulmodul WEKA 3-4. Modul yang digunakan adalah modul Classify dengan algoritma Decision Tree. 4. Perbandingan kedua algoritma Dari masing-masing algoritma yang digunakan akan menghasilkan output yang didalamnya terdapat persentase accuracy, precision dan recall. Persentase accuracy, precision dan recall inilah yang nantinya akan menjadi pembanding antara kedua algoritma ini.

Mulai

Mempersiapkan data

Transformasi data

Data disimpan dalam format *.csv dan kemudian dikonversikan ke *.arff

Selesai

Gunakan hasil output untuk perbandingan kedua algoritma

Gunakan WEKA untuk dianalsis dengan menggunakan Modul classify pada subfolder J48 dan ID3

Gambar 1.1 Langkah Penelitian

1.6

Sistematika Penulisan Secara umum keseluruhan penulisan ini ini akan dibagi menjadi empat bab

bahasan dengan disertai lampiran-lampiran yang diperlukan untuk penjelasan. Secara garis besar masing-masing bab akan membahas hal-hal sebagai berikut:

BAB I

PENDAHULUAN Bab ini terdiri dari latar belakang masalah, rumusan masalah, batasan masalah, tujuan penelitian, metode penelitian dan

sistematika penulisan. BAB II LANDASAN TEORI Bab ini menguraikan berbagai teoritis yang memaparkan konsepkonsep teori data mining, teknik data mining, spam email, algoritma decision tree, algoritma ID3 dan algoritma C4.5.

BAB III

ANALISA DAN PEMBAHASAN Bab ini menguraikan pemprosessan data dan analisis kinerja. Bab ini menguraikan pula hasil analisis data terhadap dua model decision tree yaitu C4.5 dan ID3 berdasarkan jumlah data set dan feature size menggunakan alat Bantu WEKA 3-4.

BAB IV

PENUTUP Bab berisi kesimpulan dari hasil uji coba yang dilakukan dan berisi saran-saran untuk pengembangan yang dapat dilakuakan lebih lanjut sehingga dapat memperoleh hasil yang lebih baik.

Anda mungkin juga menyukai