Algoritma Klasifikasi Spam Non Spam

Kinerja Algoritma
Data Mining Decision Tree

(ID3, C4.5, C5.0), Nave Bayes,
SVM dan kNN untuk klasifikasi
email Spam dan Non-Spam
Wawan
M. Hendayun
UNIVERSITAS LANGLANGBUANA
BANDUNG
2013
The geographical distribution of spam sources

- in August 2013
Source: www.securelist.com/en/analysis/204792306/Spam_in_August_2013
Spam Statistics for Week ending November 10, 2013
Source: www.trustwave.com/support/labs/spam_statistics.asp
Interprelation/
Evaluatin
Knowledge
Data Mining
Transformation
Patterns
Preprocessing
-------------- ----------------------------- ----------------
Selection
Transformed Data
Preprocessed Data
Data
Target Data
Data mining sebagai salah satu tahapan dalam proses Knowledge Discovery
Proses Knowledge Discovery in Databases (KDD)

Persiapan data/Data Selection, source: UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html
Pre-processing/ Cleaning: membuang duplikasi data, memeriksa data
yang inkonsisten, dan memperbaiki kesalahan pada data.
Transformasi Data: mengubahdata kedalam bentuk yang sesuai untuk
data mining yaitu merubah dari bentuk numerik menjadi kategori.
Analisa data dengan alat bantu Weka 3.6, modul yang digunakan adalah
Classify.
Perbandingan keenam Algoritma
Pengambilan kesimpulan dan evaluasi
Analisis Data
Preprocessing
penyesuaian data
mempelajari kategori
Studi Literatur
Kerangka Kerja
WEKA
Ambil data
Transformasi
Data
Data Penelitian
Data Testing
ID3
C4.5
C5.0
Decision Tree
Data Klasifikasi
Nave Bayes
SVM
kNN
Aturan
Probabilitas
Statistik
Cluster
Pengklasifikasian
Hasil Klasifikasi
Kesimpulan Analisis Kinerja
Alat Bantu Studi & Data Set
Database spam mail : UCI Machine Learning Repository http://www.ics.uci.edu/~

mlearn/MLRepository.html (sumbangan dari George Forman dari laboratorium
Hewlett-Packard (HP).
4601 email, dimana 1813 (39,4 %) adalah spam dan 2788 (60.6 % ) non spam.
Langkah Pengujian
Pengelompokan data menjadi 10 bagian persentase 25%,
50%, 60%, 65,5%, 70%, 80%, 85,5%, 90%, 95% dan 97,5% den
gan jumlah data 1150, 2300, 2761, 3014, 3221, 3682, 3934,
4141, 4371 dan 4486.
Pembentukan Confusion Matrix atau tabel penilaian
yang digunakan untuk menghitung Precision, Recall dan
Accuracy.
Dari hasil Precision dan Recall, diperoleh nilai f-Measure
dari setiap Algoritma
Confusion Matrix
Recall Precision berfungsi menghitung persentase false positive

dan false negative untuk menemukan informasi didalamnya.
Precision (p) jumlah sampel berkatagori positif diklasifikasi benar
dibagi dengan total sampel yang diklasisfikasi sebagai sample
positif
Recall (r) jumlah sampel diklasifikasi positif dibagi dibagi total
sampel dalam testing set berkatagori positif.
F-measure (f1) adalah harmonic mean dari precision dan recall
Accuracy merupakan jumlah yang diklasifikasi secara benar
dibagi total sampel testing yang diuji
Precision dari Algoritma

Algoritma
Jumlah Data
ID3
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
88.84%
90.47%
91.70%
65.96%
91.87%
86.43%
2300
88.10%
89.98%
91.52%
65.44%
92.24%
83.70%
2761
92.78%
91.10%
91.66%
65.69%
93.13%
82.78%
3014
91.01%
86.10%
90.08%
65.55%
92.62%
82.87%
3221
93.12%
89.98%
91.49%
66.41%
92.37%
83.20%
3681
92.83%
85.66%
88.19%
66.80%
92.14%
82.72%
3934
90.38%
87.30%
91.85%
67.09%
92.15%
83.23%
4141
89.16%
85.45%
88.02%
68.38%
92.51%
81.20%
4371
90.37%
88.36%
91.06%
69.09%
91.14%
77.49%
4486
81.63%
77.99%
81.96%
69.07%
86.35%
74.05%
Rata -rata
89.82%
87.24%
89.75%
66.95%
91.65%
81.77%
Kinerja Algoritma - Precision

Precision
100,00%
90,00%
Persentase
80,00%
70,00%
Algoritma ID3
60,00%
Algoritma C4.5
50,00%
Algoritma C5.0
40,00%
Algoritma Nave Bayes
30,00%
Algoritma SVM
20,00%
Algoritma kNN
10,00%
0,00%
1150
2300
2761
3014
3221
3681
3934
4141
4371
4486
Kinerja Algoritma - Recall

Algoritma
Jumlah Data
ID3
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
88.84%
89.28%
89.50%
95.84%
81.62%
86.43%
2300
86.61%
87.85%
88.64%
93.93%
81.55%
84.93%
2761
86.29%
89.51%
89.97%
93.01%
79.85%
83.16%
3014
87.35%
87.19%
87.44%
93.05%
79.90%
82.24%
3221
85.70%
87.66%
87.34%
93.75%
76.56%
82.03%
3681
81.96%
83.39%
84.89%
92.72%
73.38%
78.22%
3934
86.70%
85.31%
83.91%
93.13%
73.22%
76.72%
4141
83.83%
83.47%
82.49%
92.74%
72.30%
74.86%
4371
83.53%
82.08%
81.21%
92.37%
75.49%
70.23%
4486
82.14%
72.85%
65.80%
89.18%
74.48%
65.92%
Rata - rata
85.30%
84.86%
84.12%
92.97%
76.84%
78.47%
Kinerja Algoritma - Recall

Recall
120,00%
100,00%
Algoritma ID3
Persentase
80,00%
Algoritma C4.5
Algoritma C5.0
60,00%
Algoritma Nave Bayes

40,00%
Algoritma SVM
Algoritma kNN
20,00%
0,00%
1150 2300 2761 3014 3221 3681 3934 4141 4371 4486
Jumlah Data
Algoritma
ID3
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
91.13%
92.00%
92.61%
81.62%
89.83%
89.22%
2300
90.30%
91.52%
92.43%
78.48%
90.22%
87.78%
2761
91.96%
92.43%
92.83%
78.12%
89.75%
86.56%
3014
91.57%
89.35%
91.21%
77.87%
89.52%
86.23%
3221
91.80%
91.21%
91.74%
78.67%
88.17%
86.28%
3681
90.27%
87.80%
89.43%
78.70%
86.88%
84.79%
3934
91.00%
89.17%
90.59%
79.00%
86.81%
84.52%
4141
89.57%
87.83%
88.63%
80.15%
86.72%
83.19%
4371
89.96%
88.63%
89.41%
80.62%
87.39%
80.14%
4486
85.62%
81.12%
80.74%
79.92%
85.24%
77.37%
Rata - rata
90.32%
89.11%
89.96%
79.32%
88.05%
84.61%
Accuracy
Kinerja Algoritma Accuracy
Grafik f-measure
Kinerja Berdasarkan Use Training Set
Kinerja Algoritma - Cross Validation
Evaluasi Klasifikasi kinerja berdasarkan Training Set
Evaluasi Kinerja Berdasarkan Cross Validation
Kinerja Berdasarkan Training Set
Kinerja Berdasarkan Cross Validation
Klasifikasi Waktu Membangun Model Algoritma
KESIMPULAN DAN SARAN
Berdasarkan jumlah data dan cross validation, untuk Decision tree khusus Algoritma ID3 dan
C5.0 mempunyai kinerja keseluruhan yang sangat bagus dan lebih dalam melakukan akurasi
klasifikasi data, dilihat dari nilai Recall ataupun Accuracy.
Algoritma ID3 merupakan algoritma yang terbaik dan akurat dibandingkan kelima algoritma
yang lain.
Rata rata keberhasilan algoritma Decision Tree (ID3,C4.5, C5.0), SVM dan kNN dalam melaku
kan klasifikasi data mencapai akurasi di atas 90%, terkecuali Algoritma Nave Bayes dibawah
80%.
KESIMPULAN DAN SARAN
Algoritma kNN lebih baik di bandingkan dengan keempat algoritma yang lainya dari segi nilai Precision,
Recall, dan Accuracy, dan memiliki waktu yang singkat dalam membangun.
Analisis kinerja sebuah algoritma dilakukan berdasarkan kriteria antara lain akurasi, kecepatan komputasi,
robustness, skalabilitas dan Interoperabilitas. Pada studi ini hanya menggunakan dua kriteria yaitu
berdasarkan akurasi dan kecepatan komputasi.
Untuk kelengkapan studi dapat dilanjutkan dengan menggunakan tool yang lain misalnya Rapidminer dan
Clementine.

Algoritma Klasifikasi Spam Non Spam

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Algoritma Klasifikasi Spam Non Spam

Diunggah oleh

Hak Cipta:

Format Tersedia

Kinerja Algoritma

Data Mining Decision Tree

The geographical distribution of spam sources

Spam Statistics for Week ending November 10, 2013

Proses Knowledge Discovery in Databases (KDD)

Kesimpulan Analisis Kinerja

Alat Bantu Studi & Data Set

Database spam mail : UCI Machine Learning Repository http://www.ics.uci.edu/~

Recall Precision berfungsi menghitung persentase false positive

Precision dari Algoritma

Kinerja Algoritma - Precision

Algoritma Nave Bayes

Kinerja Algoritma - Recall

Kinerja Algoritma - Recall

Algoritma Nave Bayes

Kinerja Algoritma Accuracy

Kinerja Berdasarkan Use Training Set

Kinerja Algoritma - Cross Validation

Evaluasi Klasifikasi kinerja berdasarkan Training Set

Evaluasi Kinerja Berdasarkan Cross Validation

Kinerja Berdasarkan Training Set

Kinerja Berdasarkan Cross Validation

Klasifikasi Waktu Membangun Model Algoritma

KESIMPULAN DAN SARAN

KESIMPULAN DAN SARAN

Anda mungkin juga menyukai