Anda di halaman 1dari 17

25

BAB III
ANALISA DAN PEMBAHASAN

3.1. Data yang Digunakan
Database spam-mail ini diperoleh dari UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html. Database ini disumbangkan oleh
George Forman dari laboratorium Hewlett-Packard (HP). Database terdiri dari
koleksi e-mail dari bulan juni sampai juli 1999. database terdiri dari total 4601 e-
mail, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam. Koleksi
spam-email berasal dari HP e-mail dan spam-email individu. Koleksi non-spam email
berasal dari e-mail kantor dan e-mail perseorangan.
Spam e-mail adalah unsolicited bulk e-mails atau e-mail yang dikirimkan
kepada ribuan penerima (recipient). Yang terdiri dari iklan produk dan jasa, cara
cepat mendapatkan uang, surat berantai, pornography dan lain-lain. Ketika spam-
email diterima dalam ukuran sedikit, spam-email mengganggu tetapi tidak berbahaya.
Tetapi bila spam-email diterima dalam ukuran cukup banyak , sang penerima akan
dibanjiri dengan e-mail yang tidak diinginkan. Penerima akan membuang waktunya
untuk spam-email dan akan kesulitan dalam surat-menyurat.
Setiap e-mail telah di analisa dan terdapat 58 atribut (57 atribut input dan 1
atribut target atau kelas) yang menjelaskan tentang spam-email. Rincian dari atribut
tersebut adalah :


26
1. 48 atribut bertipe continuous [0, 100] yang beranggotakan kata. Kata yang
dimaksud antara lain :
Make address all 3d
Our Over Remove Internet
Order mail Receive Will
People Report Addresses Free
Business Email You Credit
Your Font 000 Money
Hp Hpl George 650
Lab Labs telnet 857
Data 415 85 Technology
1999 Parts Pm Direct
Cs Meeting Original Project
Re Edu Table Conference

Dengan persentasi :
100% x
mail E Dalam Kata n Keseluruha Total
mail E Dalam Muncul Yang Kata Jumlah



2. 6 atribut bertipe continuous [0, 100] yang beranggotakan karakter.
Karakter yang dimaksud adalah
";" "(" "[" "!"
"$" "#".




27
Dengan persentasi :
100% x
mail E Dalam Karakter n Keseluruha Total
mail E Dalam Muncul Yang Karakter Jumlah



3. 1 atribut bertipe continous real [1,] yang berisi nilai rata-rata deret
hurup kapital yang tidak bisa dipecahkan.
4. 1 atribut bertipe continous real [1,] yang berisi nilai terpanjang deret
hurup kapital yang tidak bisa dipecahkan
5. 1 atribut bertipe continous real [1,] yang berisi nilai jumlah deret hurup
kapital yang tidak bisa dipecahkan

3.2. Transformasi data
Tipe data yang didapat dari dataset adalah bertipe numerik sedangkan untuk
pengujian ini memerlukan tipe data kategori. Teknik yang digunakan untuk merubah
data numerik menjadi data kategori adalah teknik distribusi frekuensi. Maka dicoba
mengelompokkan data tipe numerik ini ke dalam empat grup yaitu 1 , 2, 3, dan 4.
Dimana 1 untuk rendah dan 4 untuk tinggi maka nilai 2 dan 3 berada diantara
keduanya. Pengelompokan data pada masing-masing atribut bisa dilihat pada Tabel
3.1.





28
Tabel 3.1 Pengelompokan Atribut
Atribut 1 2 3 4
word_freq_make 0 - 1.14 1.15 - 2.27 2.28 - 3.41 3.42 - 4.54
word_freq_address 0 - 4.76 4.77 - 9.52 9.53 - 14.28 14.29 - 19.04
word_freq_all 0 - 1.70 1.71 - 3.40 3.41 - 5.10 5.11 - 6.80
word_freq_3d. 0 - 14.27 14.28 - 28.54 28.55 - 42.81 42.82 - 57.08
word_freq_our. 0 - 3.33 3.34 - 6.67 6.68 - 10.00 10.01 - 13.33
word_freq_over. 0 - 1.96 1.97 - 3.92 3.93 - 5.88 5.89 - 7.84
word_freq_remove. 0 - 2.42 2.43 - 4.85 4.86 - 7.27 7.28 - 9.69
word_freq_internet. 0 - 3.70 3.71 - 7.41 7.42 - 11.11 11.12 - 14.81
word_freq_order. 0 - 1.75 1.76 - 3.51 3.52 - 5.26 5.27 - 7.01
word_freq_mail 0 - 6.06 6.07 - 12.12 12.13- 18.18 18.19 - 24.24
word_freq_receive. 0 - 0.87 0.88 - 1.74 1.75 - 2.61 2.62 - 3.48
word_freq_will 0 - 3.22 3.23 - 6.45 6.46 - 9.67 9.68 - 12.89
word_freq_people 0 - 1.85 1.86 - 3.70 3.71 - 5.55 5.56 - 7.40
word_freq_report. 0 - 3.33 3.34 - 6.67 6.68 - 10.00 10.01 - 13.33
word_freq_addresses. 0 - 1.47 1.47 - 2.94 2.94 - 4.41 4.41 - 5.88
word_freq_free 0 - 6.67 6.68 - 13.33 13.34 - 20.00 20.01 - 26.67
word_freq_business 0 - 2.38 2.39 - 4.76 4.77 - 7.14 7.15 - 9.52
word_freq_email 0 - 3.03 3.04 - 6.06 6.07 - 9.09 9.10 - 12.12
word_freq_you. 0 - 6.25 6.26 - 12.50 12.51 - 18.75 18.76 - 25.00
word_freq_credit 0 - 6.06 6.07 - 12.12 12.13 - 18.18 18.19 - 24.24
word_freq_your. 0 - 3.70 3.71 - 7.41 7.42 11.11 11.12 - 14.81
word_freq_font. 0 - 5.70 5.71 - 11.40 11.41 - 17.10 17.11 - 22.80
word_freq_000. 0 - 1.82 1.83 - 3.63 3.64 - 5.45 5.46 - 7.27
word_freq_money. 0 - 4.17 4.18 - 8.33 8.34 - 12.50 12.51 - 16.67
word_freq_hp. 0 - 6.94 6.95 - 13.89 13.90 - 20.83 20.84 - 27.77
word_freq_hpl. 0 - 5.55 5.56 - 11.11 11.12 - 16.66 16.67 - 22.21
word_freq_george. 0 - 11.11 11.12 - 22.22 22.23 - 33.33 33.34 - 44.44
word_freq_650. 0 - 3.03 3.04 - 6.06 6.07 - 9.09 9.10 - 12.12
word_freq_lab. 0 - 4.76 4.77 - 9.52 9.53 - 14.28 14.29 - 19.04
word_freq_labs. 0 - 1.96 1.97 - 3.92 3.93 - 5.88 5.89 - 7.84
word_freq_telnet. 0 - 4.17 4.18 - 8.33 8.34 - 12.50 12.51 - 16.67
word_freq_857. 0 - 1.59 1.60 - 3.17 3.18 - 4.76 4.77 - 6.35
word_freq_data. 0 - 6.06 6.07 - 12.12 12.13 - 18.18 18.19 - 24.24
word_freq_415. 0 - 1.59 1.60 - 3.17 3.18 - 4.76 4.77 - 6.35
word_freq_85. 0 - 6.67 6.68 - 13.33 13.34 - 20.00 20.01 - 26.67
word_freq_technology. 0 - 2.56 2.57 - 5.13 5.14 - 7.69 7.70 - 10.25
word_freq_1999. 0 - 2.30 2.31 - 4.59 4.60 - 6.89 6.90 - 9.19
word_freq_parts. 0 - 2.78 2.79 - 5.55 5.56 - 8.33 8.34 - 11.11
word_freq_pm. 0 - 3.70 3.71 - 7.41 7.42 - 11.11 11.12 -14.81
word_freq_direct. 0 - 1.59 1.60 - 3.17 3.18 - 4.76 4.77 - 6.35








29
Tabel 3.1 (Lanjutan)
Atribut 1 2 3 4
word_freq_cs. 0 - 2.38 2.39 - 4.76 4.77 -7.14 7.15 - 9.52
word_freq_meeting. 0 - 4.76 4.77 - 9.52 9.53 - 14.28 14.29 -19.04
word_freq_original. 0 -1.19 1.20 - 2.38 2.39 - 3.57 3.58 - 4.76
word_freq_project. 0 - 6.67 6.68 - 13.33 13.14 - 20.00 20.01 - 26.67
word_freq_re. 0 - 7.14 7.15 - 14.28 14.29 - 21.42 21.43 - 28.56
word_freq_edu. 0 - 7.35 7.36 - 14.70 14.71 - 22.05 22.06 - 29.40
word_freq_table. 0 - 0.72 0.73 - 1.45 1.46 - 2.17 2.18 - 2.89
word_freq_conference. 0 - 3.33 3.34 - 6.67 6.68 - 10.00 10.01 - 13.33
char_freq_; 0 - 1.46 1.47 - 2.92 2.93 - 4.39 4.40 - 5.85
char_freq_( 0 - 3.25 3.26 - 6.50 6.51 - 9.75 9.76 - 13.00
char_freq_[ 0 - 1.36 1.37 - 2.72 2.73 - 4.08 4.09 - 5.44
char_freq_! 0 - 10.83 10.84 - 21.65 21.66 - 32.48 32.49 - 43.30
char_freq_$ 0 - 2.00 2.01 - 4.00 4.01 - 6.00 6.01 - 8.00
char_freq_# 0 - 6.61 6.62 - 13.22 13.23 - 19.83 19.84 - 26.44
capital_run_length_average 0 - 367.17
367.18 -
734.33
734.34 -
1101.50
1101.51 -
1468.67
capital_run_length_longest 0 - 3329.33
3329.33 -
6658.67
6658.68 -
9988.00
9988.01 -
13317.33
capital_run_length_total 0 - 5280.00
5280.01 -
10560.00
10560.01 -
15840.00
15840.01 -
21120.00

3.3. Pengukuran Kinerja Algoritma
Proses data mining dilakukan dengan bantuan software data mining yaitu
WEKA. Algoritma yang akan diujikan dalam penulisan ini adalah algoritma ID3 dan
C4.5 yang berada pada modul classify. Pengukuran kinerja dilihat dari spam
precision, spam recall dan accuracy .
Dalam sistem spam filtering, sebuah email spam yang salah identifikasi
memiliki masalah yang tidak terlalu serius dibandingkan dengan email non-spam
yang salah identifikasi. Dengan kata lain salah identifikasi email non-spam lebih
beresiko dibandingkan salah identifikasi email spam, maka precision harus besar dan
recall-nyapun harus besar juga.



30
3.3.1. Pengukuran Kinerja Berdasarkan Jumlah Data
Pengukuran dilakukan berdasarkan jumlah data yang akan dibagi menjadi
delapan pengujian (Ratheesh Raghavan, 2006) yaitu 50%, 60%, 66.7%, 70%, 80%,
90%, 95% dan 97.5% dari jumlah data yang ada. Maka terdiri dari 2301, 2761, 3069,
3221, 3680, 4141, 4371 dan 4486 data. Maka didapat Confusion Matrix atau tabel
penilaian yang dapat menghitung precision, recal dan accuracy untuk pengukuran
kinerja kedua algoritma (Tabel 3.2 dan Tabel 3.3).

Tabel 3.2 Confusion Matrix Algoritma ID3 Untuk Jumlah Data
Jumlah data
diidentifikasi sebagai
non-spam
diidentifikasi sebagai
spam
2301
Non-spam
1339 52
Spam
564 346
2761
Non-spam
1605 62
Spam
681 413
3069
Non-spam
1786 68
Spam
760 455
3221

Non-spam
1876 75
Spam
801 469
3680
Non-spam
2162 80
Spam
905 533
4141

Non-spam
2428 78
Spam
1041 594
4371

Non-spam
2550 96
Spam
1082 644
4486
Non-spam
2618 97
Spam
1110 662



31
Tabel 3.3 Confusion Matrix Algoritma C4.5 Untuk Jumlah Data
Jumlah data
diidentifikasi sebagai
non-spam
diidentifikasi sebagai
spam
2301
Non-spam
1345 46
Spam
603 307
2761
Non-spam
1616 51
Spam
728 366
3069
Non-spam
1794 60
Spam
808 407
3221

Non-spam
1880 71
Spam
850 420
3680
Non-spam
2154 88
Spam
938 500
4141

Non-spam
2408 98
Spam
1061 574
4371

Non-spam
2536 110
Spam
1108 618
4486
Non-spam
2608 107
Spam
1139 633

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan
accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah data (Tabel 3.4)








32
Table 3.4 Pengukuran Kinerja Berdasarkan Jumlah Data

Algoritma

Jumlah
data
ID3 C4.5
Precision Recall Accuracy Precision Recall Accuracy
2301 86.90% 38.00% 73.23% 87.00% 33.70% 71.79%
2761 86.90% 37.80% 73.09% 87.80% 33.50% 71.78%
3069 87.00% 37.40% 73.02% 87.20% 33.50% 71.71%
3221 86.20% 36.90% 72.80% 85.50% 33.10% 71.41%
3680 86.90% 37.10% 73.23% 85.00% 34.80% 72.12%
4141 88.40% 36.30% 72.98% 85.40% 35.10% 72.01%
4371 87.00% 37.30% 73.06% 84.90% 35.80% 72.14%
4486 87.20% 37.40% 73.10% 85.50% 35.70% 72.23%

PRECISION
84.50%
85.00%
85.50%
86.00%
86.50%
87.00%
87.50%
88.00%
88.50%
89.00%
2301 2761 3069 3221 3680 4141 4371 4486
ID3
C4.5

Gambar 3.1 Grafik Precision Berdasarkan Jumlah Data

Dari Gambar 3.1 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai precision tertinggi pada jumlah data 4141 dengan nilai precision 88,4%.
Sedangkan algoritma C4.5 mencapai nilai precision tertinggi pada jumlah data 2761


33
dengan nilai precision 87,8%. Secara keseluruhan, algoritma ID3 menunjukkan nilai
pecision lebih tinggi dari pada algoritma C4.5, meskipun pada jumlah data 2301,
2761, dan 3069 algoritma C4.5 memiliki nilai precision yang lebih tinggi
dibandingkan dengan algoritma ID3.

RECALL
32.00%
33.00%
34.00%
35.00%
36.00%
37.00%
38.00%
39.00%
2301 2761 3069 3221 3680 4141 4371 4486
ID3
C4.5

Gambar 3.2 Grafik Recall Berdasarkan Jumlah Data

Dari Gambar 3.2 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai recall tertinggi pada jumlah data 2301 dengan nilai recall 38%. Sedangkan pada
saat jumlah data 4141 algoritma ID3 mencapai titik terendah yaitu sebesar 36.30%.
Sedangkan algoritma C4.5 mencapai nilai recall tertinggi pada jumlah data 4486
dengan nilai recall 35,7%. Sedangkan pada jumlah data 3221 nilai recall pada
algoritma C4.5 adalah yang paling rendah yaitu sebesar 33.10%. Secara keseluruhan,
algoritma ID3 menunjukkan nilai recall lebih tinggi dibandingkan algoritma C4.5.



34
ACCURACY
71.00%
71.50%
72.00%
72.50%
73.00%
73.50%
2301 2761 3069 3221 3680 4141 4371 4486
ID3
C4.5

Gambar 3.3 Grafik Accuacy Berdasarkan Jumlah Data

Dari Gambar 3.3 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai accuracy tertinggi pada jumlah data 2301 dan 3221 dengan nilai accuracy
73.23%. Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah
data 4486 dari jumlah data dengan nilai accuracy 72.23%. Maka dapat disimpulkan
bahwa nilai accuracy algoritma ID3 lebih baik dari pada algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.







35
3.3.2. Pengukuran Kinerja Berdasarkan Jumlah Atribut
Selain pengukuran kinerja berdasarkan jumlah data pengukuran kinerja juga
dilakukan dengan jumlah atribut (feature size) dengan pemilihan atribut (feature
selection) menggunakan x
2
statistic (CHI). Dimana pemilihan atribut diambil dari
nilai chi terbesar ke chi terkecil dengan jumlah persentase 10% sampai 100% dari
jumlah atribut yang ada (Feng Tan , 2007). Jumlah atribut yang diperoleh adalah 7,
12, 18, 24, 29, 35, 41, 47, 52, dan 58 atribut. Perhitungan X
2
statistic(CHI)
ditunjukkan pada Tabel 3.5
Tabel 3.5 X
2
Statistic (CHI)
Atribut Nilai Chi
word_freq_your 187.55488
word_freq_000 123.27856
word_freq_addresses 86.542
word_freq_george 86.30683
word_freq_receive 83.08471
word_freq_hp 63.75786
word_freq_remove 61.61776
word_freq_labs 53.18779
word_freq_business 50.6991
word_freq_original 46.89401
word_freq_650 46.62693
word_freq_order 45.83283
word_freq_will 45.02259
word_freq_meeting 34.20146
word_freq_857 30.87892
word_freq_hpl 28.88889
word_freq_415 28.37592
word_freq_font 28.1994
word_freq_technology 27.56367
word_freq_address 24.32172






36
Tabel 3.5 (Lanjutan)
Atribut Nilai Chi
word_freq_cs 24.25567
word_freq_direct 23.02589
word_freq_lab 20.95492
word_freq_edu 20.95492
word_freq_1999 20.86921
word_freq_re 18.44611
word_freq_free 18.39377
capital_run_length_average 16.95615
word_freq_all 16.00766
word_freq_credit 15.41132
word_freq_pm 14.37505
char_freq_$ 14.25134
word_freq_i0nternet 14.1377
word_freq_telnet 13.71864
word_freq_email 13.33949
char_freq_; 12.8371
word_freq_money 12.80323
word_freq_3d 12.32369
word_freq_table 11.09588
word_freq_data 9.78621
word_freq_our 8.88798
capital_run_length_total 7.74262
word_freq_over 7.56638
word_freq_conference 6.51703
word_freq_you 5.2113
char_freq_# 5.02643
word_freq_people 4.76193
word_freq_project 4.55894
word_freq_parts 3.90682
word_freq_make 3.64053
char_freq_[ 3.25593
word_freq_report 2.63468
char_freq_! 2.60341
char_freq_( 2.28227
capital_run_length_longest 1.53812
word_freq_mail 1.31353
word_freq_85 1.30114

Pengujian dengan jumlah atribut yang berbeda memberikan menghasilkan
Confusion Matrix untuk algoritma ID3 dan C4.5 (Tabel 3.6 dan Tabel 3.7).



37
Tabel 3.6Confusion Matrix Algoritma ID3 Untuk Jumlah Atribut
Jumlah Atribut
diidentifikasi sebagai
non-spam
diidentifikasi sebagai
spam
7
Non-spam 2703 85
Spam 1404 409
12
Non-spam 2702 86
Spam 1332 481
18
Non-spam 2702 86
Spam 1304 509
24
Non-spam 2689 99
Spam 1267 546
29
Non-spam 2689 99
Spam 1245 568
35
Non-spam 2686 102
Spam 1215 598
41
Non-spam 2698 90
Spam 1189 624
47
Non-spam 2695 93
Spam 1153 660
52
Non-spam 2699 89
Spam 1148 665
58
Non-spam 2700 88
Spam 1145 668








38
Tabel 3.7 Confusion Matrix Untuk Algoritma C4.5 Untuk Jumlah Atribut
Jumlah Atribut
diidentifikasi sebagai
non-spam
diidentifikasi sebagai
spam
7
Non-spam 2702 86
Spam 1404 409
12

Non-spam 2700 88
Spam
1335 478
18
Non-spam 2695 93
Spam 1309 504
24
Non-spam 2680 108
Spam 1272 541
29
Non-spam 2679 109
Spam 1251 562
35
Non-spam 2674 114
Spam 1221 592
41
Non-spam 2682 106
Spam 1194 619
47
Non-spam 2667 121
Spam 1159 654
52
Non-spam 2674 114
Spam 1157 656
58
Non-spam 2670 118
Spam 1157 656

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan
accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah atribut (Tabel 3.8 )





39
Table 3.8 Hasil Pengukuran Data Berdasarkan Jumlah Atribut
Algoritma

Jumlah
atribut
ID3 C4.5
Precision Recall Accuracy Precision Recall Accuracy
7 82.80% 22.60% 67.64% 82.60% 22.60% 67.62%
12 84.80% 26.50% 69.18% 84.50% 26.40% 69.07%
18 85.50% 28.10% 69.79% 84.40% 27.80% 69.53%
24 84.70% 30.10% 70.31% 83.40% 29.80% 70.01%
29 85.20% 31.30% 70.79% 83.80% 31.00% 70.44%
35 85.40% 33.00% 71.38% 83.90% 32.70% 70.98%
41 87.40% 34.40% 72.20% 85.40% 34.10% 71.75%
47 87.6% 36.4% 72.92 % 84.40% 36.10% 72.18%
52 88.20% 36.70% 73.11% 85.20% 36.20% 72.38%
58 88.40% 36.80% 73.20% 84.80% 36.20% 72.29%

PRECISION
82.00%
83.00%
84.00%
85.00%
86.00%
87.00%
88.00%
89.00%
7 12 18 24 29 35 41 47 52 58
ID3
C4.5

Gambar 3.4 Grafik Precision Berdasarkan Jumlah Atribut

Dari Gambar 3.4 dan Tabel 3.8 dapat dilihat bahwa algoritma ID3 mencapai
nilai precision tertinggi pada jumlah atribut 58 dari jumlah atribut yang ada dengan
nilai precision 88.40%. Sedangkan algoritma C4.5 mencapai nilai precision tertinggi


40
pada jumlah atribut 41 dari jumlah atribut dengan nilai precision 85.40%. secara
keseluruhan, algoritma ID3 selalu berada diatas nilai precision algoritma C4.5.

RECALL
20.00%
22.00%
24.00%
26.00%
28.00%
30.00%
32.00%
34.00%
36.00%
38.00%
7 12 18 24 29 35 41 47 52 58
ID3
C4.5

Gambar 3.5 Grafik Recall Berdasarkan Jumlah Atribut

Dari Gambar 3.5 dan Tabel 3.8 dapat dilihat bahwa algoritma ID3 mencapai nilai
recall tertinggi pada jumlah atribut 58 dengan nilai recall 36.80%. Sedangkan
algoritma C4.5 mencapai nilai recall tertinggi pada jumlah atribut 52 dan 58 dengan
nilai recall 36.20%. Secara keseluruhan, algoritma ID3 menunjukkan nilai recall
lebih tinggi dari pada algoritma C4.5




41
ACCURACY
66.00%
67.00%
68.00%
69.00%
70.00%
71.00%
72.00%
73.00%
74.00%
7 12 18 24 29 35 41 47 52 58
ID3
C4.5

Gambar 3.6 Grafik Accuracy Berdasarkan Jumlah Atribut

Dari Gambar 3.6 dan Tabel 3.10 dapat dilihat bahwa algoritma ID3 mencapai
nilai accuracy tertinggi pada jumlah atribut 58 dari dengan nilai accuracy 73.20%.
Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah atribut 52
dari jumlah atribut dengan nilai accuracy 72.38%. Maka dapat disimpulkan
algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5, terlihat
pada Gambar 3.6 algoritma ID3 selalu berada di atas algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah atribut secara keseluruhan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.

Anda mungkin juga menyukai