= =
=
=
t
i
iq
t
i
ij
t
i
iq ij
j
j
j
W W
W W
q d
q d
q d sim e Co
1
2
1
2
1
) (
) , ( sin
Apabila studi kasus pada algoritma TF/IDF di atas dicari nilai cosinus sudut antara
vektor masing- masing dokumen dengan kata kunci, maka hasil yang didapatkan akan
lebih presisi. Seperti yang ditunjukan tabel 2.
Tabel 2 Perhitungan vector space model
Token kk D1 D2 D3 kk*D1 kk*D2 kk*D3
manajemen 0 0.031 0 0.031 0 0 0
transaksi 0 0.228 0 0 0 0 0
logistik 0.031 0.031 0 0.031 0.031 0 0.031
transfer 0 0 0 0.228 0 0 0
pengetahuan 0.031 0 0.031 0.124 0 0.031 0.062
individu 0 0 0.228 0 0 0 0
Sqrt(kk) Sqrt(Di) Sqrt(kk . Di)
0.249 0.539 0.509 0.643 0.031 0.031 0.093
Selanjutnya menghitung nilai cosinus sudut antara vector kata kunci dengan tiap
dokumen dengan menngunakan rumus:
) ( * ) ( /( ) ( ) ( sin
i i i
D sqrt kk sqrt D kk sum D e Co =
Untuk Dokumen 1 (D
1
)
Cosine (D
1
) = sum (kk . D
1
) / (sqrt(kk) * sqrt(D
1
))
= 0.031 / (0.249 * 0.539)
= 0.231
Untuk Dokumen 2 (D
2
)
Cosine (D
2
) = sum (kk . D
2
) / (sqrt(kk) * sqrt(D
2
))
= 0.031 / (0.249 * 0.509)
= 0.245
Untuk Dokumen 2 (D
3
)
Cosine (D
3
) = sum (kk . D
3
) / (sqrt(kk) * sqrt(D
3
))
= 0.093 / (0.249 * 0.643)
= 0.581
Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat, seperti
tabel 3
Tabel 3 Hasil vector space model
D
1
D
2
D
3
Cosine 0.231 0.245 0.581
Rank 3 Rank 2 Rank 1
Dari hasil akhir tersebut dapat diketahui bahwa dokumen 3 (D
3
) memiliki tingkat
similaritas tertinggi terhadap kata kunci, kemudian disusul dengan D
2
dan D
1
.
PERANCANGAN DAN PEMBANGUNAN PROGRAM
Konsep Aplikasi
Konsep aplikasi yang akan dibangun adalah pertama dokumen yang akan diujicoba
dilakukan proses uploading files, untuk mendapatkan dokumen dengan format teks.
Dokumen yang dapat diupload untuk dirubah ke dokumen teks adalah dokumen
dengan format PDF, Doc, dan TXT. Selanjutnya dokumen teks akan diproses dengan
teknik text mining yang akan menghasilkan kata kunci yang mewakili isi dokumen
untuk menentukan hasil pemilahan dokumen. Setelah mendapatkan kata kunci maka
dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot
dokumen, lalu kembali dilakukan perhitungan dengan algoritma vector space model.
Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai
terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang
memiliki tingkat kemiripan tertinngi.
Algoritma Proses Kategorisasi Dokumen
Proses kategorisasi dokumen adalah proses pencocokan antara kata-kata penting yang
mewakili isi suatu dokumen dengan kata kunci yang telah ada didalam tabel
kata_kunci untuk menentukan jenis kategori suatu dokumen. Gambar 1 adalah
gambar yang menunjukan bagaimana proses pengkategorian dokumen.
Gambar 1 Proses pengkategorian dokumen
Tahap-tahap kategorisasi dokumen adalah sebagai berikut:
1. Pengisian tabel kata kunci
Pengisian tabel kata kunci adalah tahap pertama yang dilakukan untuk membuat
program kategorisasi dokumen ini, pengisian tabel kata kunci sangat diperlukan
agar ketika melakukan proses pengkategorian dokumen mendapatkan hasil yang
optimal dan akurat. Untuk melakukan proses pengisian kata kunci, diperlukan
dokumen sumber yang jenis kategorinya telah diketahui dengan benar.
Tahapannya seperti yang ditunjukan oleh gambar berikut.
Gambar 2 Proses pengisian tabel kata kunci
Dokumen sumber yang dipakai untuk mengisi tabel kata kunci adalah
dokumen abstraksi yang telah di ketahui kategorinya. Pertama-tama dokumen
abstraksi dilakukan proses upload lalu isi teks pada dokumen ini dilakukan
analisa dengan proses tokenizing yaitu proses pemilahan kata-kata pada
keseluruhan isi teks.
Hasil dari proses tokenizing adalah kata-kata yang terpisah, maka pada tahap
selanjutnya akan dilakukan proses filtering dengan menggunakan teknik stop
list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list
adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang
terdiri dari kata hubung, kata sambung, kata depan, serta nama- nama hari dan
bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses
filtering bertujuan untuk menghemat penyimpanan di dalam database.
Hasil yang didapat dari proses filtering akan dihitung jumlah nilai
kemunculan setiap kata pada isi dokumen. Setelah proses filtering dan word
counting selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan
ke database didalam tabel kata_kunci.
Dalam pengisian tabel kata kunci ini penulis menggunakan dokumen abstraksi
yang didapat dari perpustakaan online Universitas Gunadarma dengan
mengambil 5-10 dokumen abstraksi pada setiap masing- masing kategori. Isi
dokumen abstraksi tersebut harus menggunakan kata-kata yang sesuai ejaan
bahasa Indonesia yang baik dan benar, hal ini diharapkan untuk menghasilkan
kata kunci yang sesuai. Kategori dokumen abstraksi yang dipakai adalah
kategori pemrograman web, pemrograman dekstop, sistem informasi, dan
jaringan komputer. Keseluruhan proses seperti yang dijelaskan diatas hanya
dilakukan sekali saja.
2. Pengkategorian Dokumen
Tahap pengkategorian dokumen merupakan proses penentuan kategori
dokumen, tahap ini akan melakukan analisa terhadap isi dokumen yang
diinput. Proses-proses yang dilakukan juga menggunakan tahap tokenizing,
filtering d a n word counting, jadi penulis tidak menggambarkan kembali
bagaimana proses tersebut dilakukan, karena pada tahap pengisian tabel kata
kunci telah dijelaskan secara terperinci.
Pada tahap ini, setelah dokumen dilakukan proses tokenizing, filtering dan
word counting, t ahap yang harus dilakukan adalah melakukan proses
pencocokan kata kunci yang didapat dari proses sebelumnya dengan kata
kunci yang telah ada didalam database. Seperti yang ditunjukan pada gambar
3, dokumen abstraksi yang diinput, menghasilkan tiga kata kunci yaitu
bahasa, pemrograman, dan php dengan frekuensi jumlah kemunculan kata
yang berbeda-beda.
Gambar 3 Ilustrasi pengkategorian dokumen
Selanjutnya dilakukann pencocokan antara kata kunci yang didapat pada
dokumen dengan kata kunci yang ada didalam database, jika ada kata yang
sama dengan kata kunci yang ada didalam database maka nilai counter dari
kategori akan bertambah sesuai jumlah frekuensi kemunculan setiap katanya.
Seperti pada gambar 3 kata PHP telah ada di database dengan kategori
pemrograman web dan nilai frekuensi kemunculan kata tersebut adalah 6,
maka kategori pemrograman web nilai counternya menjadi 6 dan nilai counter
kategori ini menjadi yang tertinggi sehingga dokumen tersebut memiliki
kategori pemrograman web.
Algoritma Proses Similaritas Dokumen
Dalam proses analisa kemiripan dokumen, penulis menggunakan teknik yang sama
pada program sebelumnya yaitu teknik text mining dengan algoritma Tf-IDF dan
vector space model. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada
isi dokumen dari hasil tokenizing, filtering, dan word counting untuk dilakukan
perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk
memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali
dengan algoritma vector space model. Hasil akhir dari program ini akan didapat
nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci.
Berikut ini adalah gambaran umum dari program analisa kemiripan dokumen.
Gambar 4 Gambaran umum dari proses similaritas dokumen
Untuk menganalisa tingkat kemiripan antar suatu kata kunci pada dokumen dengan
dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin
dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih
untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisa
tingkat kemiripannya dengan dokumen lain.
Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan,
maka program akan melakukan proses perulangan sebanyak jumlah kata kunci
tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan
dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci
(WK2), dan bobot dokumen terhadap kata kunci (WDK2).
Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan
seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan
d e n g a n p e r h i t u n g a n vector space model, dengan rumus
) / /( ) ( sin WD WK WDK us NilaiCo = .
Setelah perhitungan nilai cosinus pada algoritma vector space mode dilakukan maka
hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus
tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang
memiliki tingkat kemiripan tertinggi dengan kata kunci.
PENERAPAN PROGRAM DENGAN DATA
Analisa Output Program Kategorisasi Dokumen
Pada pengkategorian terhadap 50 dokumen abstraksi, menghasilkan 47 dokumen
yang berhasil dikategorikan dengan baik. Yaitu hasilnya sesuai dengan hasil
pengkategorian dokumen secara manual, seperti rangkuman pada tabel 4.
Tabel 4 Rangkuman hasil kategorisasi dokumen
Kategori Jumlah file
Pemrograman Web 13 File
Jaringan Komputer 10 File
Sistem Informasi 9 File
Pemrograman Desktop 15 File
JUMLAH
47 File
Pada tabel 4 terlihat hanya 47 file yang berhasil di kategorikan dan sesuai dengan
hasil pengkategorian secara manual. Berikut ini adalah daftar tabel dari 3 dokumen
yang tidak berhasil dikategorikan atau hasilnya tidak sesuai dengan pengkategorian
secara manual.
Tabel 5 Dokumen yang tidak berhasil dikategorikan
No Nama File
Kategori
(program aplikasi)
Kategori (manual oleh
manusia)
1 10105792_ABSTRAKSI.pdf Jaringan Komputer Pemrograman Desktop
2 10104683_ABSTRAKSI.pdf Sistem Informasi Pemrograman Desktop
3 18103013_ABSTRAKSI.pdf Sistem Informasi Pemrograman Web
Pada tabel 5 terlihat ada 3 dokumen yang hasilnya tidak sesuai, antara hasil
pengkategorian dengan program dan pengkategorian secara manual. Misalnya untuk
file 18103013_ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan
kategori sistem informasi seperti pada gambar 6 sedangkan secara manual
menghasilkan kategori pemrograman web. Hal tersebut terjadi karena nilai counter
untuk kategori pemrograman web nilainya lebih kecil dibandingkan dengan nilai
counter kategori sistem informasi. Gambar 5 menunjukan kumpulan kata-kata dan
frekuensi kemunculan tiap kata (tf) pada dokumen 18103013_ABSTRAKSI.pdf.
Gambar 5 Kumpulan kata yang mewakili file 18103013_ABSTRAKSI.pdf
Gambar 6 Hasil pengkategorian fille 18103013_ABSTRAKSI.pdf oleh program
Kata yang sama dengan kata kunci
pada kategori sistem informasi
Kata yang sama dengan kata kunci
pada kategori pemrograman web
Sesuai kata kunci yang dihasilkan seperti pada gambar 6 dokumen tersebut memiliki
5 kata kunci yaitu sistem, informasi, database, asp, dan net. dengan nilai
tf berturut turut 6, 2, 2, 1, 1. Kata sistem, informasi, dan database adalah kata
yang sama dengan kata kunci kategori sistem informasi maka nilai counter kategori
tersebut adalah jumlah tf kata-kata tersebut yaitu 10, sedangkan kata asp dan net
adalah kata yang sama dengan kata kunci kategori pemrograman web maka nilai
counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 2. Dengan hasil ini
program akan menentukan bahwa dokumen tersebut termasuk kategori sistem
informasi karena memiliki nilai counter terbesar dibandingkan dengan kategori lain
seperti terlihat pada gambar 7
Gambar 7 Hasil perhitungan nilai counter pada setiap kategori
Hal lain yang menyebabkan hasil yang didapat tidak sesuai dalam pengkategorian
dokumen ini adalah karena ada 2 kategori yang memiliki nilai counter yang sama.
Misalnya pengkategorian pada file 10105792_ABSTRAKSI.pdf, pengkategorian
dengan program menghasilkan kategori jaringan komputer seperti pada gambar 9
sedangkan secara manual menghasilkan kategori pemrograman desktop. Gambar 8
berikut menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada
dokumen tersebut.
Gambar 8 Kumpulan kata yang mewakili file 10105792_ABSTRAKSI.pdf
Kata yang sama dengan kata
kunci pada kategori jaringan
Komputer
Kata yang sama dengan kata
kunci pada kategori
pemrograman dekstop
Gambar 9 Pengkategorian fille 10105792_ABSTRAKSI.pdf oleh program
Sesuai kata kunci yang dihasilkan, seperti pada gambar 9 dokumen tersebut memiliki
9 kata kunci yaitu jaringan, j2se, java, aplikasi, sistem, conectionless,
udp, protokol, dan game dengan nilai tf berturut turut 5, 2, 3, 3, 3, 1, 2, 1, 1.
Kata jaringan, conectionless, udp, dan protokol adalah kata yang sama
dengan kata kunci kategori jaringan komputer maka nilai counter kategori tersebut
adalah jumlah tf kata-kata tersebut yaitu 9, sedangkan kata j2se, java, aplikasi
dan game adalah kata yang sama dengan kata kunci pada kategori pemrograman
desktop maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu
9. dengan hasil counter yang diperoleh maka program akan men-sorting jumlah
counter dari yang paling besar sampai terkecil, sehingga setelah diurutkan kategori
jaringan komputer berada di posisi paling tinggi, dan kategori inilah yang menjadi
jenis kategori untuk dokumen tersebut. seperti terlihat pada gambar 10
Gambar 10 Hasil perhitungan nilai counter pada setiap kategori
Analisa Output Program Similaritas Dokumen
Pada tahap penerapan program similaritas dokumen dengan data yang digunakan,
maka dilakukan dengan menerapkan tiap-tiap 1 dokumen dibandingkan dengan 50
dokumen yang telah ada di dalam database.
Hasil penerapan program pada data yang dibandingkan, menghasilkan hasil yang
beragam, diantaranya terdapat 38 dokumen yang menampilkan hasil yang valid, dan
12 dokumen yang tidak valid. Dikatakan hasil yang valid jika suatu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen tersebut akan memiliki nilai similaritas tertinggi dari
pada dokumen lainnya, seperti yang ditunjukan pada tabel 6
Hasil perbandingan nilai similaritas yang tidak valid adalah jika suatu dokumen yang
dibandingkan juga berada dalam kumpulan dokumen pembanding, tetapi dokumen
tersebut tidak memiliki nilai similaritas tertinggi dari dokumen lainnya, padahal isi
dokumen tersebut sama, seperti yang ditunjukan oleh tabel 6.
Tabel 6 Hasil nilai similaritas dokumen yang valid
No. File yang dibandingkan
Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
1 10100071_ABSTRAKSI.pdf Dokumen 1 :10100071_abstraksi.pdf
Nilai Kemiripan = 0,55185
Dokumen 2 : 12102446_abstraksi.pdf
Nilai Kemiripan = 0,35252
2 10102185_ABSTRAKSI.pdf Dokumen 1 : 10102185_abstraksi.pdf
Nilai Kemiripan = 0,72679
Dokumen 2 : 10104404_abstraksi.pdf
Nilai Kemiripan = 0,21884
3 10102730_ABSTRAKSI.pdf Dokumen 1 : 10102730_abstraksi.pdf
Nilai Kemiripan = 0,74270
Dokumen 2 : 11103062_abstraksi.pdf
Nilai Kemiripan = 0,26635
4 10103070_ABSTRAKSI.pdf Dokumen 1 : 10103070_abstraksi.pdf
Nilai Kemiripan = 0,62194
Dokumen 2 : 12101363_abstraksi.pdf
Nilai Kemiripan = 0,20325
5 10103289_ABSTRAKSI.pdf Dokumen 1 : 10103289_abstraksi.pdf
Nilai Kemiripan = 0,77839
Dokumen 2 : 11103062_abstraksi.pdf
Nilai Kemiripan = 0,32451
Tabel 7 Hasil nilai similaritas dokumen yang tidak valid
No. File yang dibandingkan Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
1 10104313_ABSTRAKSI.pdf Dokumen 1 : 10104683_abstraksi.pdf
Nilai Kemiripan = 0,50872
Dokumen 3 : 10104313_abstraksi.pdf
Nilai Kemiripan = 0,35648
2 11104089_ABSTRAKSI.pdf Dokumen 1 : 11103062_abstraksi.pdf
Nilai Kemiripan = 0,37856
Dokumen 10 :11104089_abstraksi.pdf
Nilai Kemiripan = 0,1226
3 11105222_ABSTRAKSI.pdf Dokumen 1 : 10104404_abstraksi.pdf
Nilai Kemiripan = 0,36828
Dokumen 4 : 11105222_abstraksi.pdf
Nilai Kemiripan = 0,28248
4 13100110_ABSTRAKSI.pdf Dokumen 1 : 11103062_abstraksi.pdf
Nilai Kemiripan = 0,56551
Dokumen 3 : 13100110_abstraksi.pdf
Nilai Kemiripan = 0,39651
5 20101269_ABSTRAKSI.pdf Dokumen 1 : 18102036_abstraksi.pdf
Nilai Kemiripan = 0,5583
Dokumen 14 : 20101269_abstraksi.pdf
Nilai Kemiripan = 0,09538
Hasil nilai similaritas dokumen yang tidak valid seperti pada tabel 7, dipengaruhi
oleh bobot dokumen terhadap kata kunci dan bobot dokumen itu sendiri. Semakin
besar bobot dokumen terhadap kata kunci dan semakin kecil bobot dokumen tersebut
maka nilai similaritasnya akan semakin tinggi. Jadi walaupun isi dokumen tersebut
sama belum berarti dokumen tersebut memiliki nilai similaritas yang tinggi. Berikut
ini adalah contoh perhitungan hasil penentuan tingkat similaritas suatu dokumen yang
tidak valid
Dokumen Yang Ingin dibandingkan:
- Dokumen : 10104313_abstraksi.pdf (id=527)
- Kata kunci : aplikasi, borland, delphi, pemrograman,(4 kata kunci)
Dokumen Yang Menjadi Pembanding:
- Dokumen 1 : 10104683_abstraksi.pdf (id=529)
- Dokumen 2 : 10104313_abstraksi.pdf (id=527)
- Dokumen 3 : 11104053_abstraksi.pdf (id=536)
Proses Perhitungan:
Kata Kunci : aplikasi
- IDF = Log(D/df) = Log (50/23) = 0.337242168318
- WK = tf(kata kunci) * IDF =1 * 0.337242168318 = 0.337242168318
- WK2 = WK2 + WK(kuadrat) = 0 + 0.113732280092=0.113732280092
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.337242168318 *(1*0.337242168318)=0.113732280092
- Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.337242168318 *(3*0.337242168318)=0.341196840276
Kata Kunci : borland
- IDF = Log(D/df) = Log (50/4) = 1.09691001301
- WK = tf(kata kunci) * IDF =1 * 1.09691001301 = 1.09691001301
- WK2 = WK2 + WK(kuadrat) = 0.113732280092 + 1.20321157664=
1.31694385673
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =
1.09691001301 *(3*1.09691001301)=3.72336701
- Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) =
1.09691001301 *(2*1.09691001301)=2.74761999355
- Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) =
1.09691001301 *(1*1.09691001301)=1.20321157664
Kata Kunci : delphi
- IDF = Log(D/df) = Log (50/5) = 1
- WK = tf(kata kunci) * IDF =1 * 1 = 1
- WK2 = WK2 + WK(kuadrat) = 1.31694385673 + 1=2.31694385673
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1
*(3*1)=6.72336701
- Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1
*(2*1)=4.74761999355
- Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1
*(3*1)=4.20321157664
Kata Kunci : pemrograman
- IDF = Log(D/df) = Log (50/16) = 0.49485002168
- WK = tf(kata kunci) * IDF =1 * 0.49485002168 = 0.49485002168
- WK2 = WK2 + WK(kuadrat) = 2.31694385673 +
0.244876543957=2.56182040069
- Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.49485002168 *(1*0.49485002168)=4.99249653751
- Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.49485002168 *(1*0.49485002168)=4.44808812059
Perhitungan Nilai Cosinus Setiap dokumen
id dokumen 529
- Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 6.72336701 /
(Akar(2.56182040069) * Akar(68.1825857645)) = 0.508716407716
id dokumen 527
- Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 4.99249653751 /
(Akar(2.56182040069) * Akar(76.5605027632)) = 0.356484822327
id dokumen 536
- Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 4.44808812059 /
(Akar(2.56182040069) * Akar(30.1714507527)) = 0.505942247877
Dokumen yang memiliki tingkat kemiripan tertinggi adalah
Dokumen 1 : 10104683_abstraksi.pdf
Nilai Kemiripan = 0.5087
Dokumen 2 : 11104053_abstraksi.pdf
Nilai Kemiripan = 0.5059
Dokumen 3 : 10104313_abstraksi.pdf
Nilai Kemiripan = 0.3565
Dari hasil diatas menunjukan bahwa nilai similaritas dokumen dipengaruhi oleh
bobot dokumen terhadap kata kunci dan bobot dokumen tersebut
KESIMPULAN DAN SARAN
Kesimpulan
Pengkategorian dokumen dengan teknik text mining yang dilakukan pada penelitian
ini dapat berjalan dengan baik sesuai dengan pengkategorian secara manual. Dari 50
dokumen abstraksi yang dikategorikan, hanya 3 dokumen yang tidak sesuai dengan
pengkategorian secara manual, berarti terdapat 6% hasil yang tidak sesuai dan 94%
hasil yang sesuai, dari 50 dokumen yang dikategorikan. Munculnya 6% hasil yang
tidak sesuai disebabkan karena frekuensi kemunculan kata kunci yang seharusnya
mewakili kategori isi dokumen tersebut, nilainya lebih kecil dibandingkan frekuensi
kemunculan kata untuk kategori lain, sehinga nilai counter untuk kategori yang
seharusnya nilainya menjadi lebih kecil.
Pengukuran similaritas dokumen pada penelitian ini dilakukan terhadap 50 dokumen
abstraksi yang mengahasilkan 38 dokumen yang memiliki nilai similaritas yang
sesuai dan 12 dokumen yang tidak memiliki nilai similaritas yang tidak sesuai.
Kesesuaian tingkat similaritas dokumen ini dinilai dari apabila satu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen yang sama tersebut harus memiliki nilai similaritas
tertinggi dari pada dokumen lainnya, jika tidak maka hasil tersebut dikatakan tidak
sesuai. Hasil yang tidak sesuai ini disebabkan karena nilai bobot dokumen terhadap
kata kunci yang dibandingkan nilainya lebih kecil dan nilai bobot dokumen tersebut
besar. Jadi nilai similaritas dokumen tertinggi ditentukan oleh besarnya bobot suatu
dokumen terhadap kata kunci dan kecilnya nilai bobot dokumen tersebut.
Saran
Untuk pengembangan program yang dibuat pada penelitian ini, disarankan untuk
menambah fungsi stemming untuk mencari dasar kata dari tiap kata hasil filtering
dan fungsi tagging mencari bentuk awal/root dari tiap kata lampau atau kata hasil
stemming. Selain itu untuk mendukung hasil yang akurat maka disarankan untuk
menggunakan banyak dokumen sumber untuk pengisian kata kunci di database.
DAFTAR PUSTAKA
[1]. Arrummaisha Adrifina, Juwita Utami Putri, I Wayan Simri W, Pemilahan
Artikel Berita Dengan Text Mining, Proceeding Seminar Ilmiah Nasional
Komputer dan Sistem Intelijen (KOMMIT 2008), 20-21 Agustus 2008
[2]. David Sugianto, dkk, Membangun Websited dengan PHP , Datakom 2005
[3]. Iwan Arif, Text Mining, http://lecturer.eepis- its.edu/~iwanarif/kuliah/dm
/6Text%20Mining.pdf, 24 Juni 2009
[4]. Lukmanul Hakim, Membongkar Trik Rahasia Para Master PHP, Lokomedia
2008
[5]. Kristhoper David Harjono, Perluasan Vector Pada Metode Search Vector
Space, INTEGRAL Vol. 10 No. 2, Juli 2005
[6]. Risa, BAB 11 Text Mining, http://student.eepisits.edu/~risa/files/DataMining
/chapter11.pdf, 24 Juni 2009
[7] Raymond J. Mooney. CS 391L: Machine Learning Text Categorization.
University of Texas at Austin, 2006.