Algoritma Klasifikasi Spam Non Spam
Algoritma Klasifikasi Spam Non Spam
Wawan
M. Hendayun
UNIVERSITAS LANGLANGBUANA
BANDUNG
2013
Source: www.securelist.com/en/analysis/204792306/Spam_in_August_2013
Source: www.trustwave.com/support/labs/spam_statistics.asp
Interprelation/
Evaluatin
Knowledge
Data Mining
Transformation
Patterns
Preprocessing
-------------- ----------------------------- ----------------
Selection
Transformed Data
Preprocessed Data
Data
Target Data
Data mining sebagai salah satu tahapan dalam proses Knowledge Discovery
Analisis Data
Preprocessing
penyesuaian data
mempelajari kategori
Studi Literatur
Kerangka Kerja
WEKA
Ambil data
Transformasi
Data
Data Penelitian
Data Testing
ID3
C4.5
C5.0
Decision Tree
Data Klasifikasi
Nave Bayes
SVM
kNN
Aturan
Probabilitas
Statistik
Cluster
Pengklasifikasian
Hasil Klasifikasi
Langkah Pengujian
Pengelompokan data menjadi 10 bagian persentase 25%,
50%, 60%, 65,5%, 70%, 80%, 85,5%, 90%, 95% dan 97,5% den
gan jumlah data 1150, 2300, 2761, 3014, 3221, 3682, 3934,
4141, 4371 dan 4486.
Pembentukan Confusion Matrix atau tabel penilaian
yang digunakan untuk menghitung Precision, Recall dan
Accuracy.
Dari hasil Precision dan Recall, diperoleh nilai f-Measure
dari setiap Algoritma
Confusion Matrix
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
88.84%
90.47%
91.70%
65.96%
91.87%
86.43%
2300
88.10%
89.98%
91.52%
65.44%
92.24%
83.70%
2761
92.78%
91.10%
91.66%
65.69%
93.13%
82.78%
3014
91.01%
86.10%
90.08%
65.55%
92.62%
82.87%
3221
93.12%
89.98%
91.49%
66.41%
92.37%
83.20%
3681
92.83%
85.66%
88.19%
66.80%
92.14%
82.72%
3934
90.38%
87.30%
91.85%
67.09%
92.15%
83.23%
4141
89.16%
85.45%
88.02%
68.38%
92.51%
81.20%
4371
90.37%
88.36%
91.06%
69.09%
91.14%
77.49%
4486
81.63%
77.99%
81.96%
69.07%
86.35%
74.05%
Rata -rata
89.82%
87.24%
89.75%
66.95%
91.65%
81.77%
Persentase
80,00%
70,00%
Algoritma ID3
60,00%
Algoritma C4.5
50,00%
Algoritma C5.0
40,00%
30,00%
Algoritma SVM
20,00%
Algoritma kNN
10,00%
0,00%
1150
2300
2761
3014
3221
3681
3934
4141
4371
4486
ID3
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
88.84%
89.28%
89.50%
95.84%
81.62%
86.43%
2300
86.61%
87.85%
88.64%
93.93%
81.55%
84.93%
2761
86.29%
89.51%
89.97%
93.01%
79.85%
83.16%
3014
87.35%
87.19%
87.44%
93.05%
79.90%
82.24%
3221
85.70%
87.66%
87.34%
93.75%
76.56%
82.03%
3681
81.96%
83.39%
84.89%
92.72%
73.38%
78.22%
3934
86.70%
85.31%
83.91%
93.13%
73.22%
76.72%
4141
83.83%
83.47%
82.49%
92.74%
72.30%
74.86%
4371
83.53%
82.08%
81.21%
92.37%
75.49%
70.23%
4486
82.14%
72.85%
65.80%
89.18%
74.48%
65.92%
Rata - rata
85.30%
84.86%
84.12%
92.97%
76.84%
78.47%
Persentase
80,00%
Algoritma C4.5
Algoritma C5.0
60,00%
Algoritma SVM
Algoritma kNN
20,00%
0,00%
1150 2300 2761 3014 3221 3681 3934 4141 4371 4486
Jumlah Data
Algoritma
ID3
C 4.5
C 5.0
Nave Bayes
SVM
kNN
1150
91.13%
92.00%
92.61%
81.62%
89.83%
89.22%
2300
90.30%
91.52%
92.43%
78.48%
90.22%
87.78%
2761
91.96%
92.43%
92.83%
78.12%
89.75%
86.56%
3014
91.57%
89.35%
91.21%
77.87%
89.52%
86.23%
3221
91.80%
91.21%
91.74%
78.67%
88.17%
86.28%
3681
90.27%
87.80%
89.43%
78.70%
86.88%
84.79%
3934
91.00%
89.17%
90.59%
79.00%
86.81%
84.52%
4141
89.57%
87.83%
88.63%
80.15%
86.72%
83.19%
4371
89.96%
88.63%
89.41%
80.62%
87.39%
80.14%
4486
85.62%
81.12%
80.74%
79.92%
85.24%
77.37%
Rata - rata
90.32%
89.11%
89.96%
79.32%
88.05%
84.61%
Accuracy
Grafik f-measure
Berdasarkan jumlah data dan cross validation, untuk Decision tree khusus Algoritma ID3 dan
C5.0 mempunyai kinerja keseluruhan yang sangat bagus dan lebih dalam melakukan akurasi
klasifikasi data, dilihat dari nilai Recall ataupun Accuracy.
Algoritma ID3 merupakan algoritma yang terbaik dan akurat dibandingkan kelima algoritma
yang lain.
Rata rata keberhasilan algoritma Decision Tree (ID3,C4.5, C5.0), SVM dan kNN dalam melaku
kan klasifikasi data mencapai akurasi di atas 90%, terkecuali Algoritma Nave Bayes dibawah
80%.
Algoritma kNN lebih baik di bandingkan dengan keempat algoritma yang lainya dari segi nilai Precision,
Recall, dan Accuracy, dan memiliki waktu yang singkat dalam membangun.
Analisis kinerja sebuah algoritma dilakukan berdasarkan kriteria antara lain akurasi, kecepatan komputasi,
robustness, skalabilitas dan Interoperabilitas. Pada studi ini hanya menggunakan dua kriteria yaitu
berdasarkan akurasi dan kecepatan komputasi.
Untuk kelengkapan studi dapat dilanjutkan dengan menggunakan tool yang lain misalnya Rapidminer dan
Clementine.