Anda di halaman 1dari 26

Kinerja Algoritma

Data Mining Decision Tree


(ID3, C4.5, C5.0), Nave Bayes,
SVM dan kNN untuk klasifikasi
email Spam dan Non-Spam

Wawan
M. Hendayun

UNIVERSITAS LANGLANGBUANA
BANDUNG
2013

The geographical distribution of spam sources


- in August 2013

Source: www.securelist.com/en/analysis/204792306/Spam_in_August_2013

Spam Statistics for Week ending November 10, 2013

Source: www.trustwave.com/support/labs/spam_statistics.asp

Interprelation/
Evaluatin

Knowledge
Data Mining

Transformation

Patterns
Preprocessing
-------------- ----------------------------- ----------------

Selection

Transformed Data
Preprocessed Data
Data
Target Data

Data mining sebagai salah satu tahapan dalam proses Knowledge Discovery

Proses Knowledge Discovery in Databases (KDD)


Persiapan data/Data Selection, source: UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html
Pre-processing/ Cleaning: membuang duplikasi data, memeriksa data
yang inkonsisten, dan memperbaiki kesalahan pada data.
Transformasi Data: mengubahdata kedalam bentuk yang sesuai untuk
data mining yaitu merubah dari bentuk numerik menjadi kategori.
Analisa data dengan alat bantu Weka 3.6, modul yang digunakan adalah
Classify.
Perbandingan keenam Algoritma
Pengambilan kesimpulan dan evaluasi

Analisis Data
Preprocessing
penyesuaian data
mempelajari kategori

Studi Literatur

Kerangka Kerja

WEKA
Ambil data

Transformasi
Data

Data Penelitian

Data Testing

ID3

C4.5

C5.0

Decision Tree

Data Klasifikasi

Nave Bayes

SVM

kNN

Aturan
Probabilitas

Statistik

Cluster

Pengklasifikasian

Hasil Klasifikasi

Kesimpulan Analisis Kinerja

Alat Bantu Studi & Data Set

Database spam mail : UCI Machine Learning Repository http://www.ics.uci.edu/~


mlearn/MLRepository.html (sumbangan dari George Forman dari laboratorium
Hewlett-Packard (HP).
4601 email, dimana 1813 (39,4 %) adalah spam dan 2788 (60.6 % ) non spam.

Langkah Pengujian
Pengelompokan data menjadi 10 bagian persentase 25%,
50%, 60%, 65,5%, 70%, 80%, 85,5%, 90%, 95% dan 97,5% den
gan jumlah data 1150, 2300, 2761, 3014, 3221, 3682, 3934,
4141, 4371 dan 4486.
Pembentukan Confusion Matrix atau tabel penilaian
yang digunakan untuk menghitung Precision, Recall dan
Accuracy.
Dari hasil Precision dan Recall, diperoleh nilai f-Measure
dari setiap Algoritma

Confusion Matrix

Recall Precision berfungsi menghitung persentase false positive


dan false negative untuk menemukan informasi didalamnya.
Precision (p) jumlah sampel berkatagori positif diklasifikasi benar
dibagi dengan total sampel yang diklasisfikasi sebagai sample
positif
Recall (r) jumlah sampel diklasifikasi positif dibagi dibagi total
sampel dalam testing set berkatagori positif.
F-measure (f1) adalah harmonic mean dari precision dan recall
Accuracy merupakan jumlah yang diklasifikasi secara benar
dibagi total sampel testing yang diuji

Precision dari Algoritma


Algoritma
Jumlah Data
ID3

C 4.5

C 5.0

Nave Bayes

SVM

kNN

1150

88.84%

90.47%

91.70%

65.96%

91.87%

86.43%

2300

88.10%

89.98%

91.52%

65.44%

92.24%

83.70%

2761

92.78%

91.10%

91.66%

65.69%

93.13%

82.78%

3014

91.01%

86.10%

90.08%

65.55%

92.62%

82.87%

3221

93.12%

89.98%

91.49%

66.41%

92.37%

83.20%

3681

92.83%

85.66%

88.19%

66.80%

92.14%

82.72%

3934

90.38%

87.30%

91.85%

67.09%

92.15%

83.23%

4141

89.16%

85.45%

88.02%

68.38%

92.51%

81.20%

4371

90.37%

88.36%

91.06%

69.09%

91.14%

77.49%

4486

81.63%

77.99%

81.96%

69.07%

86.35%

74.05%

Rata -rata

89.82%

87.24%

89.75%

66.95%

91.65%

81.77%

Kinerja Algoritma - Precision


Precision
100,00%
90,00%

Persentase

80,00%
70,00%

Algoritma ID3

60,00%

Algoritma C4.5

50,00%

Algoritma C5.0

40,00%

Algoritma Nave Bayes

30,00%

Algoritma SVM

20,00%

Algoritma kNN

10,00%
0,00%
1150

2300

2761

3014

3221

3681

3934

4141

4371

4486

Kinerja Algoritma - Recall


Algoritma
Jumlah Data

ID3

C 4.5

C 5.0

Nave Bayes

SVM

kNN

1150

88.84%

89.28%

89.50%

95.84%

81.62%

86.43%

2300

86.61%

87.85%

88.64%

93.93%

81.55%

84.93%

2761

86.29%

89.51%

89.97%

93.01%

79.85%

83.16%

3014

87.35%

87.19%

87.44%

93.05%

79.90%

82.24%

3221

85.70%

87.66%

87.34%

93.75%

76.56%

82.03%

3681

81.96%

83.39%

84.89%

92.72%

73.38%

78.22%

3934

86.70%

85.31%

83.91%

93.13%

73.22%

76.72%

4141

83.83%

83.47%

82.49%

92.74%

72.30%

74.86%

4371

83.53%

82.08%

81.21%

92.37%

75.49%

70.23%

4486

82.14%

72.85%

65.80%

89.18%

74.48%

65.92%

Rata - rata

85.30%

84.86%

84.12%

92.97%

76.84%

78.47%

Kinerja Algoritma - Recall


Recall
120,00%
100,00%
Algoritma ID3

Persentase

80,00%

Algoritma C4.5

Algoritma C5.0

60,00%

Algoritma Nave Bayes


40,00%

Algoritma SVM

Algoritma kNN

20,00%
0,00%
1150 2300 2761 3014 3221 3681 3934 4141 4371 4486

Jumlah Data

Algoritma
ID3

C 4.5

C 5.0

Nave Bayes

SVM

kNN

1150

91.13%

92.00%

92.61%

81.62%

89.83%

89.22%

2300

90.30%

91.52%

92.43%

78.48%

90.22%

87.78%

2761

91.96%

92.43%

92.83%

78.12%

89.75%

86.56%

3014

91.57%

89.35%

91.21%

77.87%

89.52%

86.23%

3221

91.80%

91.21%

91.74%

78.67%

88.17%

86.28%

3681

90.27%

87.80%

89.43%

78.70%

86.88%

84.79%

3934

91.00%

89.17%

90.59%

79.00%

86.81%

84.52%

4141

89.57%

87.83%

88.63%

80.15%

86.72%

83.19%

4371

89.96%

88.63%

89.41%

80.62%

87.39%

80.14%

4486

85.62%

81.12%

80.74%

79.92%

85.24%

77.37%

Rata - rata

90.32%

89.11%

89.96%

79.32%

88.05%

84.61%

Accuracy

Kinerja Algoritma Accuracy

Grafik f-measure

Kinerja Berdasarkan Use Training Set

Kinerja Algoritma - Cross Validation

Evaluasi Klasifikasi kinerja berdasarkan Training Set

Evaluasi Kinerja Berdasarkan Cross Validation

Kinerja Berdasarkan Training Set

Kinerja Berdasarkan Cross Validation

Klasifikasi Waktu Membangun Model Algoritma

KESIMPULAN DAN SARAN

Berdasarkan jumlah data dan cross validation, untuk Decision tree khusus Algoritma ID3 dan
C5.0 mempunyai kinerja keseluruhan yang sangat bagus dan lebih dalam melakukan akurasi
klasifikasi data, dilihat dari nilai Recall ataupun Accuracy.

Algoritma ID3 merupakan algoritma yang terbaik dan akurat dibandingkan kelima algoritma
yang lain.

Rata rata keberhasilan algoritma Decision Tree (ID3,C4.5, C5.0), SVM dan kNN dalam melaku
kan klasifikasi data mencapai akurasi di atas 90%, terkecuali Algoritma Nave Bayes dibawah
80%.

KESIMPULAN DAN SARAN

Algoritma kNN lebih baik di bandingkan dengan keempat algoritma yang lainya dari segi nilai Precision,

Recall, dan Accuracy, dan memiliki waktu yang singkat dalam membangun.

Analisis kinerja sebuah algoritma dilakukan berdasarkan kriteria antara lain akurasi, kecepatan komputasi,
robustness, skalabilitas dan Interoperabilitas. Pada studi ini hanya menggunakan dua kriteria yaitu
berdasarkan akurasi dan kecepatan komputasi.

Untuk kelengkapan studi dapat dilanjutkan dengan menggunakan tool yang lain misalnya Rapidminer dan
Clementine.

Anda mungkin juga menyukai