adalah suatu metode pengelompokan dokumen, dimana kelas atau kategori untuk dokumen-dokumen
tersebut sudah ditentukan terlebih dahulu;
sedangkan unsupervised learning adalah pengelompokan dokumen secara otomatis tanpa
terlebih dahulu mendefinisikan kategori atau kelas
yang ada. Metode pembelajaran statistik untuk
kategorisasi teks seperti ini sudah banyak
diimplementasikan seperti Regressions Models,
Nearest Neighbor Classifiers, Bayes Belief
Networks, Decision Trees, Rule Learning
Algorithms, Neural Networks, dan Inductive
Learning Techniques. Penelitian tentang kategorisasi teks secara otomatis sering dilakukan pada
beberapa bahasa diantaranya pada bahasa Inggris,
bahasa Cina, dan bahasa Indonesia. Namun dalam
kurun waktu dua tahun belakangan ini penelitian
tentang teks bahasa Arab yang ter-publish di media
online hanya sekitar 260 penelitian, 30 diantaranya
adalah penelitian tentang temu kembali informasi
dokumen teks berbahasa Arab sedangkan sisanya
adalah tentang Arabic text recognition, dll.
Bahasa Arab memiliki morfologi yang lebih
kaya dan kompleks daripada bahasa Inggris
ataupun bahasa Indonesia2. Dimana dalam teks
bahasa Arab dapat dicari bentuk morfologi sebuah
kata dari stem atau kata dasarnya. Stemming
merupakan suatu proses menemukan kata dasar
dari sebuah kata dengan menghilangkan semua
imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan
kombinasi dari awalan dan akhiran (confixes) pada
kata turunan.
Hadi Wael Musa dkk pernah melakukan
penelitian tentang kategorisasi dokumen teks
berbahasa Arab menggunakan algoritma Nave
Bayes 3. Implementasi metode Nave Bayes ini
dengan perhitungan probabilitas tiap dokumen
dalam ketegori, dimana dalam perhitungannya
dilakukan pada sistem pembelajaran bagaimana
mengklasifikasi dokumen melalui dokumen
sampel. Dalam beberapa penelitian yang pernah
dilakukan sebelumnya, penggunaan metode Nave
Bayes untuk proses klasifikasi dokumen memiliki
beberapa keunggulan dibandingkan dengan penggunaan metode yang lain. Seperti penelitian yang
pernah dilakukan oleh Al Hawari S. dkk tentang
perbandingan hasil klasifikasi dokumen teks
berbahasa arab dengan menggunakan algoritma
Nave bayes dan K-Nearest Neighbor 4 yang
menunjukkan bahwa algoritma Naive Bayes
menghasilkan nilai evaluasi (precision, recall dan
2. KLASIFIKASI DOKUMEN
Klasifikasi dokumen adalah suatu proses
pengelompokan
dokumen
sesuai
dengan
pembahasan di dalamnya. Klasifikasi dokumen
merupakan masalah yang mendasar namun sangat
penting karena manfaatnya cukup besar mengingat
jumlah dokumen yang ada setiap waktu semakin
bertambah. Sebuah dokumen dapat dikelompokan
ke dalam kategori tertentu berdasarkan kata-kata
dan kalimat-kalimat yang ada di dalam dokumen
tersebut. Kata atau kalimat yang terdapat di dalam
sebuah dokumen memiliki makna tertentu dan
dapat digunakan sebagai dasar untuk menentukan
kategori dari suatu dokumen.
Dalam text mining, klasifikasi mengacu pada
aktifitas menganalisis atau mempelajari himpunan
dokumen teks pre-classified untuk memperoleh
suatu model atau fungsi yang dapat digunakan
untuk mengelompokkan dokumen teks lain yang
belum diketahui kelasnya ke dalam satu atau lebih
kelas-kelas predefined tersebut 6.
Klasifikasi termasuk pembelajaran supervised
learning. Jenis lain adalah unsupervised learning
atau dikenal sebagai clustering. Pada supervised
learning, setiap data training mengandung
pasangan data input dan output yang diharapkan,
sedangkan pada unsupervised learning belum
ditentukan target output yang harus diperoleh.
Text document clustering adalah proses clustering
dengan spesialisasi pada dokumen berbasis teks.
Indexing atau preprocessing juga berlaku dalam
text document clustering. Teknik yang paling
banyak dipakai adalah dengan merepresentasikan
tiap dokumen teks dalam vector space model.
Dalam model ini, setiap dokumen D, direpresentasikan sebagai suatu vektor c = {t1,t2,...,tn},
dimana tn adalah frekuensi term ke-n pada
dokumen bersangkutan Error! Reference source
not found.. Terkadang representasi frekuensi ini
diganti menjadi format biner atau boolean (0 atau
1) yang menandakan ada-tidaknya term tersebut
pada dokumen bersangkutan. Salton menyarankan
untuk merepresentasikannya dalam bentuk yang
sudah mengalami pembobotan, seperti TF-IDF.
Berdasarkan struktur hasil clustering-nya, maka
teknik clustering dapat dibedakan menjadi dua tipe
yakni Error! Reference source not found. :
1. Hierarchical
2. Non-hierarchical (partitional).
probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Atau dalam konsep
IR metode seperti ini biasa ditandai dengan adanya
satu set data yang dibagi dalam dua kelompok,
data training dan data testing. Data testing adalah
sekumpulan data yang akan diproses dan dicari
kelasnya, sedangkan data training adalah data
yang telah dihitung sebelumnya yang kemudian
dibandingkan nilainya dengan sejumlah fitur yang
ada dalam data testing.
Nave Bayes merupakan turunan dari konsep
teorema Bayes, yaitu melakukan klasifikasi
dengan menghitung nilai probabilitas kategori dan
semua data yang ada. Perhitungan nilai probabilitas tersebut menggunakan persamaan :
p(ci) = fd (ci),
(3.1)
|D|
dimana
fd (ci) adalah jumlah dokumen yang dimiliki
kategori ci.
|D| adalah jumlah keseluruhan training document.
dan
p(tj | ci) = f (tj.ci)+1,
D1
Sholat
D2
Sholat
D3
Zakat
D4
Zakat
D5
Puasa
D6
Puasa
D7
Haji
D8
Haji
(khoroja) ( 2),
(showama) ( 2),
(khomsa) ( 1)
D9
(2.4)
f(ci)+|T|
dimana
f (tj.ci) adalah nilai kemunculan kata tj pada
kategori ci.
f(ci) adalah jumlah seluruh kata pada kategori ci.
|T| adalah jumlah keseluruhan kata/fitur yang
digunakan.
Dengan dua persamaan di atas didapat nilai
probabilitas masing-masing kategori ci dan nilai
probabilitas term yang telah diekstrak dari
dokumen training di. Pengekstrakan fitur/term ini
dilakukan untuk mempercepat proses perhitungan
Nave bayes itu sendiri. Tahapan ekstraksi
fitur/term ini adalah sebagai berikut :
1.
2.
3.
4.
5.
/20
/20
/20
/20
/20
/20
/20
Zakat
/18
/18
/18
/18
/18
/18
/18
/18
Puasa
/20
/20
/20
/20
/20
/20
/20
/20
/18
/18
/18
/18
/18
/18
/18
/18
/20
p(ci)
Kategori
Sholat
Haji
p(wkj|ci)
4. METODE KLASIFIKASI
= p(Sholat) x
p(|Sholat) x
p(|Sholat) x
p(| Sholat)
= 1/4 x 7/20 x 3/20 x 4/20
=
p(Zakat|D9)
84
= p(Zakat) x
p( |Zakat) x
p( |Zakat) x
p(| Zakat)
= 1/4 x 1/18 x 1/18 x 1/18
1
= /23328 4.287 x 10
p(Puasa|D9)
Precision = A I B
= p(Puasa) x
p(|Puasa) x
p( |Puasa) x
p( | Puasa)
= 1/4 x 4/20 x 4/20 x 1/20
=
p(Haji|D9)
-5
16
= /23328 3.249 x 10
(4.2)
= p(Haji) x
p( |Haji) x
p( |Haji) x
p( | Haji)
= 1/4 x 2/18 x 4/18 x 1/18
8
F=
-5
dimana
( 2 + 1)rp
,
2r + p
(4.3)
0.41
0.35
0.23
0.29
0.35
0.41
0.30
0.30
0.30
0.30
0.24
0.84
0.77
0.76
0.85
0.85
0.77
0.85
0.85
0.85
0.77
0.85
0.60
0.70
0.90
0.85
0.90
0.75
0.85
0.90
0.90
0.90
0.90
0.70
0.50
0.60
0.60
0.60
0.60
0.60
0.60
0.60
0.60
0.60
Wakaf
Nikah
0.84
0.82
0.76
0.79
0.84
0.84
0.79
0.76
0.74
0.79
0.82
Jual
Beli
Haji
Puasa
5. UJI COBA
Zakat
5
6
7
8
9
10
11
12
13
14
15
Sholat
Jumlah
Fitur
Kategori
0.55
0.55
0.57
0.45
0.45
0.55
0.65
0.56
0.68
0.62
0.60
0.29
0.11
0.12
0.12
0.18
0.12
0.24
0.18
0.24
0.24
0.30
0.40
0.37
0.43
0.38
0.43
0.38
0.40
0.40
0.42
0.45
0.49
0.41
0.30
0.33
0.36
0.35
0.38
0.43
0.40
0.38
0.35
0.35
0.73
0.67
0.66
0.60
0.64
0.73
0.76
0.72
0.87
0.78
0.77
Wakaf
0.55
0.67
0.71
0.85
0.69
0.71
0.65
0.58
0.61
0.59
0.58
Jual
Beli
Nikah
Zakat
0.
58
0.
55
0.
50
0.
45
0.
55
0.
53
0.
56
0.
63
0.
45
0.
42
0.
40
Haji
0.8
4
0.8
6
0.9
7
0.9
4
0.9
1
0.8
9
0.9
7
0.9
7
0.9
7
0.9
7
0.9
4
Puasa
5
6
7
8
9
10
11
12
13
14
15
Sholat
Jumlah
Fitur
Kategori
0.63
0.40
0.33
0.40
0.50
0.33
0.58
0.50
0.57
0.67
0.72
0.63
0.60
0.61
0.51
0.53
0.63
0.70
0.64
0.76
0.69
0.68
5
6
7
8
9
10
11
12
13
14
15
0.40
0.18
0.17
0.18
0.26
0.17
0.33
0.26
0.33
0.35
0.42
Puasa
Haji
Nikah
92.9
94.8
95.4
97.4
95.4
95.4
94.8
93.5
94.2
93.5
93.5
83.2
80.6
83.2
80.0
83.2
80.6
81.3
81.3
82.5
84.5
86.4
91.6
89.0
89.6
89.0
90.3
90.9
92.2
91.6
90.9
90.3
90.3
83.2
81.2
81.2
78.0
79.3
83.2
85.8
83.2
89.0
85.8
85.1
Wakaf
Zakat
90.3
89.6
89.0
88.3
89.6
89.6
89.6
90.3
88.3
87.7
87.7
Jual
Beli
Sholat
Jumlah
Fitur
Kategori
92.2
92.2
93.5
93.5
94.1
93.5
94.2
93.5
92.9
94.2
94.2
0.
62
0.
72
0.
69
0.
63
0.
73
0.
74
0.
75
0.
74
0.
71
0.
65
0.
71
0.42
0.39
0.34
0.30
0.33
0.33
0.33
0.32
0.33
0.33
0.37
0.
96
0
0
0
0
0
0
0
0
0
0
Wakaf
0.73
0.89
0.67
0.80
0.80
0.80
0.75
0.75
0.77
0.67
0.73
Jual
Beli
0
0
0
0
0
0
0
0
0
0
0.7
5
0.65
0.61
0.67
0.68
0.70
0.67
0.62
0.68
0.63
0.65
0.67
5
6
7
8
9
10
11
12
13
14
15
0.57
0.59
0.60
0.64
0.67
0.68
0.71
0.67
0.70
0.66
0.67
Nikah
0.52
0.37
0.43
0.41
0.44
0.46
0.50
0.48
0.46
0.44
0.44
Haji
0.48
0.48
0.58
0.52
0.58
0.50
0.54
0.55
0.57
0.60
0.63
Puasa
Nikah
0.67
0.72
0.74
0.85
0.76
0.74
0.73
0.67
0.71
0.67
0.69
Zakat
Haji
0.48
0.43
0.37
0.36
0.43
0.47
0.38
0.40
0.36
0.34
0.30
Wakaf
Puasa
0.84
0.84
0.85
0.86
0.88
0.86
0.87
0.85
0.84
0.87
0.87
Jual
Beli
Zakat
5
6
7
8
9
10
11
12
13
14
15
Sholat
Jumlah
Fitur
Kategori
Sholat
Jumlah
Fitur
Kategori
90.3
88.3
87.7
88.3
89.0
87.7
89.6
89.0
89.6
90.3
90.9
Haji
Nikah
0.12
0.12
0.12
0.12
0.18
0.18
0.12
0.12
0.12
0.12
0.18
0.62
0.62
0.62
0.62
0.62
0.62
0.69
0.69
0.77
0.62
0.62
0.50
0.65
0.55
0.60
0.70
0.70
0.75
0.70
0.75
0.65
0.75
0.80
0.70
0.70
0.70
0.80
0.80
0.70
0.70
0.70
0.70
0.70
0.65
0.70
0.62
0.60
0.60
0.60
0.60
0.56
0.58
0.58
0.60
Wakaf
Puasa
0.95
0.97
0.95
0.97
0.97
0.97
0.97
0.97
0.97
0.97
0.95
Jual
Beli
Zakat
5
6
7
8
9
10
11
12
13
14
15
Sholat
Kategori
Jumlah
Fitur
0.65
0.65
0.70
s
0.76
0.82
0.82
0.88
0.88
0.82
0.76
0.70
Nikah
0
0
0
0
0
0
0
0
0
0
0.29
0.67
0.73
0.67
0.69
0.69
0.69
0.72
0.72
0.77
0.64
0.67
0.56
0.70
0.61
0.62
0.72
0.72
0.75
0.72
0.73
0.65
0.73
0.55
0.50
0.42
0.42
0.47
0.47
0.45
0.44
0.45
0.45
0.48
0.78
0
0
0
0
0
0
0
0
0
0
Wakaf
Haji
0.71
0.73
0.73
0.77
0.79
0.80
0.82
0.79
0.81
0.79
0.78
Jual
Beli
Puasa
5
6
7
8
9
10
11
12
13
14
15
Zakat
Kategori
Sholat
Jumlah
Fitur
Dari 4 perhitungan evaluasi recall, precission, Fmeasure, dan accuration nilai terbesar tidak
dimiliki oleh satu kategori, namun nilai tersebut
dimiliki oleh beberapa kategori sesuai dengan
perhitungannya. Hal ini menunjukkan bahwa
variabel yang menentukan keberhasilan suatu
klasifiksai bukan hanya jumlah pengambilan fitur
saja, namun banyaknya dokumen training pada
masing-masing kategori, dan juga ketepatan
pengambilan fitur/kata dalam masing-masing
dokumen memiliki peran yang tidak kalah penting
dalam keberhasilan suatu proses klasifikasi.
0.65
0.63
0.69
0.72
0.76
0.74
0.73
0.77
0.72
0.70
0.69
Jual
Beli
Nikah
Haji
Puasa
Zakat
Sholat
Jumlah
Fitur