Artikel 10105046 PDF

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN
TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI

PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Adhit Herwansyah

Jurusan Sistem Informasi, Fakultas Ilmu Komputer Universitas Gunadarma
( adhitherwansyah@yahoo.com)

ABSTRAK

Semakin meningkatnya kemajuan Universitas Gunadarma, maka banyak
sekali pembuatan penulisan ilmiah oleh mahasiswa. Sebuah penulisan ilmiah dapat
dengan mudah dikategorikan secara manual oleh manusia, tetapi jika dilakukan
secara terkomputerisasi akan membawa permasalahan tersendiri. Begitu pula
dengan mencari tingkat kemiripan atau similaritas suatu dokumen dengan dokumen
lainnya, manusia dapat dengan mudah menentukan apakah suatu dokumen memilki
tingkat kemiripan atau similaritas dengan dokumen lainnya atau tidak, untuk itu
pada penelitian ini akan dibuat sebuah tools yang dapat mengkategorikan dokumen
dan mencari tingkat nilai similaritas antar dokumen secara terkomputerisasi.
Dalam penelitian ini teknik yang digunakan untuk memecahkan masalah
diatas adalah dengan menggunakan teknik text mining untuk pengkategorian
dokumen penulisan ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen
dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil
pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF
(Term Frequency Inversed Document Frequency) dan Algoritma Vector Space
Model.
Dengan penelitian ini diharapkan proses pengkategorian dokumen secara
terkomputerisasi, hasilnya dapat sesuai dengan pengkategorian secara manual. Dan
pengukuran tingkat similaritas dokumen dapat menunjukan seberapa besar nilai
similaritas dokumen dengan dokumen lainnya.

Kata Kunci : Pengkategorian Dokumen, Similaritas Dokumen, Text Mining, TF-IDF,
Vector Space Model

PENDAHULUAN
Pemilahan sebuah karya penulisan ilmiah dapat dilakukan dengan mudah oleh
manusia, tetapi pemilahan dokumen dilakukan secara otomatis dengan komputer
akan membawa permasalahan tersendiri. Begitu pula dengan mengukur tingkat
kemiripan suatu dokumen dengan dokumennya lainnya, manusia dapat dengan
mudah mengukur apakah suatu dokumen memilki tingkat kemiripan/similaritas
dengan dokumen lainnya.

Text mining adalah salah satu cara dalam mengatasi permasalahan diatas. Text mining
merupakan proses pengambilan data berupa teks dari sebuah sumber dalam hal ini
sumbernya adalah dokumen. Dengan text mining dapat dicari kata-kata kunci yang
dapat mewakili isi dari suatu dokumen lalu dianalisa dan dilakukan pencocokan
antara dokumen dengan database kata kunci yang telah dibuat untuk menentukan
atau memilah kategori suatu dokumen.

Sedangkan proses pengukuran tingkat similaritas antar dokumen dilakukan dengan
membandingkan suatu kata kunci dengan dokumen. Kata kunci yang digunakan
didapat dari proses ekstraksi dokumen pada proses pemilahan kategori dokumen.
Agar hasil pengukuran tingkat similaritas dokumen dengan kata kunci mendapatkan
hasil yang optimal maka digunakan algoritma text mining dimana dalam prosesnya
digunakan algoritma TF-IDF (Term Frequency Inversed Document Frequency dan
VSM (Vector-Space Model) dari IR (Information Retrieval) model untuk mencari
nilai Cosine (menghitung nilai cosinus sudut antara dua vector) sebagai pengukur
tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks
pada dokumen.

TINJAUAN PUSTAKA
Text mining memiliki definisi menambang data yang berupa teks dimana sumber data
biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang
dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan
antar dokumen.

Didalam proses text mining dilakukan beberapa tahapan umum diantaranya adalah
tokenizing, filtering, stemming, tagging, dan analyzing. Tahap tokenizing adalah
tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Setelah teks
input dilakukan proses tokenizing, maka tahap selanjutnya dilakukan tahap filtering.
yaitu tahap mengambil kata-kata penting dari hasil token. Tahap selanjutnya adalah
tahap stemming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap
kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil
kata dasarnya. Tahap berikutnya adalah Tahap tagging yang merupakan tahap
mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Tahap ini
tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak
memiliki bentuk lampau. Tahap yang terakhir dalam text mining adalah tahap
analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar
dokumen yang ada. Untuk melakukan analisa pada tahap analyzing dapat digunakan
algoritma TF/IDF (Term Frequency Inversed Document Frequency) dan Algoritma
Vector Space Model.
Algoritma TF/I DF (Term Frequency I nversed Document Frequency)
Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masing-
masing dokumen terhadap kata kunci dengan rumus yaitu

t dt dt
IDF tf W * =

Dimana:
d = dokumen ke-d
t = kata ke-t dari kata kunci
W = bobot dokumen ke-d terhadap kata ke-t
tf = banyaknya kata yang dicari pada sebuah dokumen
IDF = Inversed Document Frequency
IDF = log
2
(D/df)
D = total dokumen
df = banyak dokumen yang mengandung kata yang dicari

Setelah bobot (W) masing- masing dokumen diketahui, maka dilakukan proses
sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas
dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi
sederhana dari TF-IDF adalah sebagai berikut:

Kata kunci (kk) = pengetahuan logistik
Dokumen 1 (D1) = manajemen transaksi logistik
Dokumen 2 (D2) = pengetahuan antar individu
Dokumen 3 (D3) = dalam manajemen pengetahuan terdapat transfer pengetahuan
logistik
Jadi jumlah dokumen (D) = 3

Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada
dokumen 2 serta kata dalam dan terdapat pada dokumen 3 dihapus. Berikut ini
adalah tabel perhitungan TF/IDF

Tabel 1 Contoh perhitungan TF / IDF
tf W
Token kk D1 D2 D3
df D/df
IDF
=
Log
10
(D/df)
kk D1 D2 D3
manajemen 0 1 0 1 2 1.5 0.176 0 0.176 0 0.176
transaksi 0 1 0 0 1 3 0.477 0 0.477 0 0
logistik 1 1 0 1 2 1.5 0.176 0.176 0.176 0 0.176
transfer 0 0 0 1 1 3 0.477 0 0 0 0.477
pengetahuan 1 0 1 2 2 1.5 0.176 0.176 0 0.176 0.352
individu 0 0 1 0 1 3 0.477 0 0 0.477 0

Total 0.352 0.829 0.653 1.181

bobot (W) untuk D1 = 0.176 + 0 = 0.176
bobot (W) untuk D2 = 0 + 0.176 = 0.176
bobot (W) untuk D3 = 0.176 + 0.352 = 0.528

Dari contoh studi kasus di atas, dapat diketahui bahwa nilai bobot (W) dari D1 dan
D2 adalah sama.Apabila hasil pengurutan bobot dokumen tidak dapat mengurutkan
secara tepat, karena nilai W keduanya sama, maka diperlukan proses perhitungan
dengan algoritma vector-space model. Ide dari metode ini adalah dengan menghitung
nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.

Algoritma Vector Space Model
Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan
antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen
dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari
seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada
dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space
adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan
pada vektor query, vektor dokumen, atau pada kedua vektor tersebut.
Pada algoritma vector space model gunakan rumus untuk mencari nilai
cosinus sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot dari kata
kunci (WK). Rumus yang digunakan adalah sebagai berikut

= =
=
=
t
i
iq
t
i
ij
t
i
iq ij
j
j
j
W W
W W
q d
q d
q d sim e Co
1
2
1
2
1
) (
) , ( sin

Apabila studi kasus pada algoritma TF/IDF di atas dicari nilai cosinus sudut antara
vektor masing- masing dokumen dengan kata kunci, maka hasil yang didapatkan akan
lebih presisi. Seperti yang ditunjukan tabel 2.

Tabel 2 Perhitungan vector space model
Token kk D1 D2 D3 kk*D1 kk*D2 kk*D3
manajemen 0 0.031 0 0.031 0 0 0
transaksi 0 0.228 0 0 0 0 0
logistik 0.031 0.031 0 0.031 0.031 0 0.031
transfer 0 0 0 0.228 0 0 0
pengetahuan 0.031 0 0.031 0.124 0 0.031 0.062
individu 0 0 0.228 0 0 0 0

Sqrt(kk) Sqrt(Di) Sqrt(kk . Di)
0.249 0.539 0.509 0.643 0.031 0.031 0.093

Selanjutnya menghitung nilai cosinus sudut antara vector kata kunci dengan tiap
dokumen dengan menngunakan rumus:
) ( * ) ( /( ) ( ) ( sin
i i i
D sqrt kk sqrt D kk sum D e Co =
Untuk Dokumen 1 (D
1
)
Cosine (D
1
) = sum (kk . D
1
) / (sqrt(kk) * sqrt(D
1
))
= 0.031 / (0.249 * 0.539)
= 0.231
Untuk Dokumen 2 (D
2
)
Cosine (D
2
) = sum (kk . D
2
2
))
= 0.031 / (0.249 * 0.509)
= 0.245
Untuk Dokumen 2 (D
3
)
Cosine (D
3
) = sum (kk . D
3
3
))
= 0.093 / (0.249 * 0.643)
= 0.581
Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat, seperti
tabel 3
Tabel 3 Hasil vector space model
D
1
D
2
D
3

Cosine 0.231 0.245 0.581
Rank 3 Rank 2 Rank 1

Dari hasil akhir tersebut dapat diketahui bahwa dokumen 3 (D
3
) memiliki tingkat
similaritas tertinggi terhadap kata kunci, kemudian disusul dengan D
2
dan D
1
.

PERANCANGAN DAN PEMBANGUNAN PROGRAM
Konsep Aplikasi
Konsep aplikasi yang akan dibangun adalah pertama dokumen yang akan diujicoba
dilakukan proses uploading files, untuk mendapatkan dokumen dengan format teks.
Dokumen yang dapat diupload untuk dirubah ke dokumen teks adalah dokumen
dengan format PDF, Doc, dan TXT. Selanjutnya dokumen teks akan diproses dengan
teknik text mining yang akan menghasilkan kata kunci yang mewakili isi dokumen
untuk menentukan hasil pemilahan dokumen. Setelah mendapatkan kata kunci maka
dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot
dokumen, lalu kembali dilakukan perhitungan dengan algoritma vector space model.
Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai
terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang
memiliki tingkat kemiripan tertinngi.

Algoritma Proses Kategorisasi Dokumen
Proses kategorisasi dokumen adalah proses pencocokan antara kata-kata penting yang
mewakili isi suatu dokumen dengan kata kunci yang telah ada didalam tabel
kata_kunci untuk menentukan jenis kategori suatu dokumen. Gambar 1 adalah
gambar yang menunjukan bagaimana proses pengkategorian dokumen.

Gambar 1 Proses pengkategorian dokumen

Tahap-tahap kategorisasi dokumen adalah sebagai berikut:

1. Pengisian tabel kata kunci
Pengisian tabel kata kunci adalah tahap pertama yang dilakukan untuk membuat
program kategorisasi dokumen ini, pengisian tabel kata kunci sangat diperlukan
agar ketika melakukan proses pengkategorian dokumen mendapatkan hasil yang
optimal dan akurat. Untuk melakukan proses pengisian kata kunci, diperlukan
dokumen sumber yang jenis kategorinya telah diketahui dengan benar.
Tahapannya seperti yang ditunjukan oleh gambar berikut.

Gambar 2 Proses pengisian tabel kata kunci

Dokumen sumber yang dipakai untuk mengisi tabel kata kunci adalah
dokumen abstraksi yang telah di ketahui kategorinya. Pertama-tama dokumen
abstraksi dilakukan proses upload lalu isi teks pada dokumen ini dilakukan
analisa dengan proses tokenizing yaitu proses pemilahan kata-kata pada
keseluruhan isi teks.

Hasil dari proses tokenizing adalah kata-kata yang terpisah, maka pada tahap
selanjutnya akan dilakukan proses filtering dengan menggunakan teknik stop
list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list
adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang
terdiri dari kata hubung, kata sambung, kata depan, serta nama- nama hari dan
bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses
filtering bertujuan untuk menghemat penyimpanan di dalam database.

Hasil yang didapat dari proses filtering akan dihitung jumlah nilai
kemunculan setiap kata pada isi dokumen. Setelah proses filtering dan word
counting selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan
ke database didalam tabel kata_kunci.

Dalam pengisian tabel kata kunci ini penulis menggunakan dokumen abstraksi
yang didapat dari perpustakaan online Universitas Gunadarma dengan
mengambil 5-10 dokumen abstraksi pada setiap masing- masing kategori. Isi
dokumen abstraksi tersebut harus menggunakan kata-kata yang sesuai ejaan
bahasa Indonesia yang baik dan benar, hal ini diharapkan untuk menghasilkan
kata kunci yang sesuai. Kategori dokumen abstraksi yang dipakai adalah
kategori pemrograman web, pemrograman dekstop, sistem informasi, dan
jaringan komputer. Keseluruhan proses seperti yang dijelaskan diatas hanya
dilakukan sekali saja.

2. Pengkategorian Dokumen
Tahap pengkategorian dokumen merupakan proses penentuan kategori
dokumen, tahap ini akan melakukan analisa terhadap isi dokumen yang
diinput. Proses-proses yang dilakukan juga menggunakan tahap tokenizing,
filtering d a n word counting, jadi penulis tidak menggambarkan kembali
bagaimana proses tersebut dilakukan, karena pada tahap pengisian tabel kata
kunci telah dijelaskan secara terperinci.

Pada tahap ini, setelah dokumen dilakukan proses tokenizing, filtering dan
word counting, t ahap yang harus dilakukan adalah melakukan proses
pencocokan kata kunci yang didapat dari proses sebelumnya dengan kata
kunci yang telah ada didalam database. Seperti yang ditunjukan pada gambar
3, dokumen abstraksi yang diinput, menghasilkan tiga kata kunci yaitu
bahasa, pemrograman, dan php dengan frekuensi jumlah kemunculan kata
yang berbeda-beda.

Gambar 3 Ilustrasi pengkategorian dokumen

Selanjutnya dilakukann pencocokan antara kata kunci yang didapat pada
dokumen dengan kata kunci yang ada didalam database, jika ada kata yang
sama dengan kata kunci yang ada didalam database maka nilai counter dari
kategori akan bertambah sesuai jumlah frekuensi kemunculan setiap katanya.

Seperti pada gambar 3 kata PHP telah ada di database dengan kategori
pemrograman web dan nilai frekuensi kemunculan kata tersebut adalah 6,
maka kategori pemrograman web nilai counternya menjadi 6 dan nilai counter
kategori ini menjadi yang tertinggi sehingga dokumen tersebut memiliki
kategori pemrograman web.
Algoritma Proses Similaritas Dokumen
Dalam proses analisa kemiripan dokumen, penulis menggunakan teknik yang sama
pada program sebelumnya yaitu teknik text mining dengan algoritma Tf-IDF dan
vector space model. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada
isi dokumen dari hasil tokenizing, filtering, dan word counting untuk dilakukan
perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk
memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali
dengan algoritma vector space model. Hasil akhir dari program ini akan didapat
nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci.
Berikut ini adalah gambaran umum dari program analisa kemiripan dokumen.

Gambar 4 Gambaran umum dari proses similaritas dokumen

Untuk menganalisa tingkat kemiripan antar suatu kata kunci pada dokumen dengan
dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin
dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih
untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisa
tingkat kemiripannya dengan dokumen lain.

Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan,
maka program akan melakukan proses perulangan sebanyak jumlah kata kunci
tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan
dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci
(WK2), dan bobot dokumen terhadap kata kunci (WDK2).

Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan
seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan
d e n g a n p e r h i t u n g a n vector space model, dengan rumus
) / /( ) ( sin WD WK WDK us NilaiCo = .

Setelah perhitungan nilai cosinus pada algoritma vector space mode dilakukan maka
hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus
tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang
memiliki tingkat kemiripan tertinggi dengan kata kunci.

PENERAPAN PROGRAM DENGAN DATA
Analisa Output Program Kategorisasi Dokumen
Pada pengkategorian terhadap 50 dokumen abstraksi, menghasilkan 47 dokumen
yang berhasil dikategorikan dengan baik. Yaitu hasilnya sesuai dengan hasil
pengkategorian dokumen secara manual, seperti rangkuman pada tabel 4.

Tabel 4 Rangkuman hasil kategorisasi dokumen
Kategori Jumlah file
Pemrograman Web 13 File
Jaringan Komputer 10 File
Sistem Informasi 9 File
Pemrograman Desktop 15 File

JUMLAH

47 File

Pada tabel 4 terlihat hanya 47 file yang berhasil di kategorikan dan sesuai dengan
hasil pengkategorian secara manual. Berikut ini adalah daftar tabel dari 3 dokumen
yang tidak berhasil dikategorikan atau hasilnya tidak sesuai dengan pengkategorian
secara manual.

Tabel 5 Dokumen yang tidak berhasil dikategorikan
No Nama File
Kategori
(program aplikasi)
Kategori (manual oleh
manusia)
1 10105792_ABSTRAKSI.pdf Jaringan Komputer Pemrograman Desktop
2 10104683_ABSTRAKSI.pdf Sistem Informasi Pemrograman Desktop
3 18103013_ABSTRAKSI.pdf Sistem Informasi Pemrograman Web

Pada tabel 5 terlihat ada 3 dokumen yang hasilnya tidak sesuai, antara hasil
pengkategorian dengan program dan pengkategorian secara manual. Misalnya untuk
file 18103013_ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan
kategori sistem informasi seperti pada gambar 6 sedangkan secara manual
menghasilkan kategori pemrograman web. Hal tersebut terjadi karena nilai counter
untuk kategori pemrograman web nilainya lebih kecil dibandingkan dengan nilai
counter kategori sistem informasi. Gambar 5 menunjukan kumpulan kata-kata dan
frekuensi kemunculan tiap kata (tf) pada dokumen 18103013_ABSTRAKSI.pdf.

Gambar 5 Kumpulan kata yang mewakili file 18103013_ABSTRAKSI.pdf

Gambar 6 Hasil pengkategorian fille 18103013_ABSTRAKSI.pdf oleh program
Kata yang sama dengan kata kunci
pada kategori sistem informasi
Kata yang sama dengan kata kunci
pada kategori pemrograman web

Sesuai kata kunci yang dihasilkan seperti pada gambar 6 dokumen tersebut memiliki
5 kata kunci yaitu sistem, informasi, database, asp, dan net. dengan nilai
tf berturut turut 6, 2, 2, 1, 1. Kata sistem, informasi, dan database adalah kata
yang sama dengan kata kunci kategori sistem informasi maka nilai counter kategori
tersebut adalah jumlah tf kata-kata tersebut yaitu 10, sedangkan kata asp dan net
adalah kata yang sama dengan kata kunci kategori pemrograman web maka nilai
counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 2. Dengan hasil ini
program akan menentukan bahwa dokumen tersebut termasuk kategori sistem
informasi karena memiliki nilai counter terbesar dibandingkan dengan kategori lain
seperti terlihat pada gambar 7

Gambar 7 Hasil perhitungan nilai counter pada setiap kategori

Hal lain yang menyebabkan hasil yang didapat tidak sesuai dalam pengkategorian
dokumen ini adalah karena ada 2 kategori yang memiliki nilai counter yang sama.
Misalnya pengkategorian pada file 10105792_ABSTRAKSI.pdf, pengkategorian
dengan program menghasilkan kategori jaringan komputer seperti pada gambar 9
sedangkan secara manual menghasilkan kategori pemrograman desktop. Gambar 8
berikut menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada
dokumen tersebut.

Gambar 8 Kumpulan kata yang mewakili file 10105792_ABSTRAKSI.pdf
Kata yang sama dengan kata
kunci pada kategori jaringan
Komputer
Kata yang sama dengan kata
kunci pada kategori
pemrograman dekstop

Gambar 9 Pengkategorian fille 10105792_ABSTRAKSI.pdf oleh program

Sesuai kata kunci yang dihasilkan, seperti pada gambar 9 dokumen tersebut memiliki
9 kata kunci yaitu jaringan, j2se, java, aplikasi, sistem, conectionless,
udp, protokol, dan game dengan nilai tf berturut turut 5, 2, 3, 3, 3, 1, 2, 1, 1.
Kata jaringan, conectionless, udp, dan protokol adalah kata yang sama
dengan kata kunci kategori jaringan komputer maka nilai counter kategori tersebut
adalah jumlah tf kata-kata tersebut yaitu 9, sedangkan kata j2se, java, aplikasi
dan game adalah kata yang sama dengan kata kunci pada kategori pemrograman
desktop maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu
9. dengan hasil counter yang diperoleh maka program akan men-sorting jumlah
counter dari yang paling besar sampai terkecil, sehingga setelah diurutkan kategori
jaringan komputer berada di posisi paling tinggi, dan kategori inilah yang menjadi
jenis kategori untuk dokumen tersebut. seperti terlihat pada gambar 10

Gambar 10 Hasil perhitungan nilai counter pada setiap kategori

Analisa Output Program Similaritas Dokumen
Pada tahap penerapan program similaritas dokumen dengan data yang digunakan,
maka dilakukan dengan menerapkan tiap-tiap 1 dokumen dibandingkan dengan 50
dokumen yang telah ada di dalam database.

Hasil penerapan program pada data yang dibandingkan, menghasilkan hasil yang
beragam, diantaranya terdapat 38 dokumen yang menampilkan hasil yang valid, dan
12 dokumen yang tidak valid. Dikatakan hasil yang valid jika suatu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen tersebut akan memiliki nilai similaritas tertinggi dari
pada dokumen lainnya, seperti yang ditunjukan pada tabel 6

Hasil perbandingan nilai similaritas yang tidak valid adalah jika suatu dokumen yang
dibandingkan juga berada dalam kumpulan dokumen pembanding, tetapi dokumen
tersebut tidak memiliki nilai similaritas tertinggi dari dokumen lainnya, padahal isi
dokumen tersebut sama, seperti yang ditunjukan oleh tabel 6.

Tabel 6 Hasil nilai similaritas dokumen yang valid
No. File yang dibandingkan
Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
1 10100071_ABSTRAKSI.pdf Dokumen 1 :10100071_abstraksi.pdf
Nilai Kemiripan = 0,55185
Dokumen 2 : 12102446_abstraksi.pdf
2 10102185_ABSTRAKSI.pdf Dokumen 1 : 10102185_abstraksi.pdf

Tabel 7 Hasil nilai similaritas dokumen yang tidak valid
No. File yang dibandingkan Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
Dokumen 10 :11104089_abstraksi.pdf

Hasil nilai similaritas dokumen yang tidak valid seperti pada tabel 7, dipengaruhi
oleh bobot dokumen terhadap kata kunci dan bobot dokumen itu sendiri. Semakin
besar bobot dokumen terhadap kata kunci dan semakin kecil bobot dokumen tersebut
maka nilai similaritasnya akan semakin tinggi. Jadi walaupun isi dokumen tersebut
sama belum berarti dokumen tersebut memiliki nilai similaritas yang tinggi. Berikut
ini adalah contoh perhitungan hasil penentuan tingkat similaritas suatu dokumen yang
tidak valid

Dokumen Yang Ingin dibandingkan:
- Dokumen : 10104313_abstraksi.pdf (id=527)
- Kata kunci : aplikasi, borland, delphi, pemrograman,(4 kata kunci)

Dokumen Yang Menjadi Pembanding:
- Dokumen 1 : 10104683_abstraksi.pdf (id=529)

Proses Perhitungan:
Kata Kunci : aplikasi
- IDF = Log(D/df) = Log (50/23) = 0.337242168318
- WK = tf(kata kunci) * IDF =1 * 0.337242168318 = 0.337242168318
- WK2 = WK2 + WK(kuadrat) = 0 + 0.113732280092=0.113732280092
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.337242168318 *(1*0.337242168318)=0.113732280092
0.337242168318 *(3*0.337242168318)=0.341196840276
Kata Kunci : borland
- IDF = Log(D/df) = Log (50/4) = 1.09691001301
- WK2 = WK2 + WK(kuadrat) = 0.113732280092 + 1.20321157664=
1.31694385673
1.09691001301 *(3*1.09691001301)=3.72336701
1.09691001301 *(2*1.09691001301)=2.74761999355
1.09691001301 *(1*1.09691001301)=1.20321157664
Kata Kunci : delphi
- IDF = Log(D/df) = Log (50/5) = 1
- WK = tf(kata kunci) * IDF =1 * 1 = 1
- WK2 = WK2 + WK(kuadrat) = 1.31694385673 + 1=2.31694385673
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1
*(3*1)=6.72336701
*(2*1)=4.74761999355
*(3*1)=4.20321157664

Kata Kunci : pemrograman
- IDF = Log(D/df) = Log (50/16) = 0.49485002168
- WK2 = WK2 + WK(kuadrat) = 2.31694385673 +
0.244876543957=2.56182040069
0.49485002168 *(1*0.49485002168)=4.99249653751
0.49485002168 *(1*0.49485002168)=4.44808812059

Perhitungan Nilai Cosinus Setiap dokumen
id dokumen 529
- Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 6.72336701 /
(Akar(2.56182040069) * Akar(68.1825857645)) = 0.508716407716
id dokumen 527
(Akar(2.56182040069) * Akar(76.5605027632)) = 0.356484822327
id dokumen 536
(Akar(2.56182040069) * Akar(30.1714507527)) = 0.505942247877
Dokumen yang memiliki tingkat kemiripan tertinggi adalah
Nilai Kemiripan = 0.5087

Dari hasil diatas menunjukan bahwa nilai similaritas dokumen dipengaruhi oleh
bobot dokumen terhadap kata kunci dan bobot dokumen tersebut

KESIMPULAN DAN SARAN
Kesimpulan
Pengkategorian dokumen dengan teknik text mining yang dilakukan pada penelitian
ini dapat berjalan dengan baik sesuai dengan pengkategorian secara manual. Dari 50
dokumen abstraksi yang dikategorikan, hanya 3 dokumen yang tidak sesuai dengan
pengkategorian secara manual, berarti terdapat 6% hasil yang tidak sesuai dan 94%
hasil yang sesuai, dari 50 dokumen yang dikategorikan. Munculnya 6% hasil yang
tidak sesuai disebabkan karena frekuensi kemunculan kata kunci yang seharusnya
mewakili kategori isi dokumen tersebut, nilainya lebih kecil dibandingkan frekuensi
kemunculan kata untuk kategori lain, sehinga nilai counter untuk kategori yang
seharusnya nilainya menjadi lebih kecil.

Pengukuran similaritas dokumen pada penelitian ini dilakukan terhadap 50 dokumen
abstraksi yang mengahasilkan 38 dokumen yang memiliki nilai similaritas yang
sesuai dan 12 dokumen yang tidak memiliki nilai similaritas yang tidak sesuai.
Kesesuaian tingkat similaritas dokumen ini dinilai dari apabila satu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen yang sama tersebut harus memiliki nilai similaritas
tertinggi dari pada dokumen lainnya, jika tidak maka hasil tersebut dikatakan tidak
sesuai. Hasil yang tidak sesuai ini disebabkan karena nilai bobot dokumen terhadap
kata kunci yang dibandingkan nilainya lebih kecil dan nilai bobot dokumen tersebut
besar. Jadi nilai similaritas dokumen tertinggi ditentukan oleh besarnya bobot suatu
dokumen terhadap kata kunci dan kecilnya nilai bobot dokumen tersebut.

Saran
Untuk pengembangan program yang dibuat pada penelitian ini, disarankan untuk
menambah fungsi stemming untuk mencari dasar kata dari tiap kata hasil filtering
dan fungsi tagging mencari bentuk awal/root dari tiap kata lampau atau kata hasil
stemming. Selain itu untuk mendukung hasil yang akurat maka disarankan untuk
menggunakan banyak dokumen sumber untuk pengisian kata kunci di database.

DAFTAR PUSTAKA
[1]. Arrummaisha Adrifina, Juwita Utami Putri, I Wayan Simri W, Pemilahan
Artikel Berita Dengan Text Mining, Proceeding Seminar Ilmiah Nasional
Komputer dan Sistem Intelijen (KOMMIT 2008), 20-21 Agustus 2008
[2]. David Sugianto, dkk, Membangun Websited dengan PHP , Datakom 2005
[3]. Iwan Arif, Text Mining, http://lecturer.eepisits.edu/~iwanarif/kuliah/dm
/6Text%20Mining.pdf, 24 Juni 2009
[4]. Lukmanul Hakim, Membongkar Trik Rahasia Para Master PHP, Lokomedia
2008
[5]. Kristhoper David Harjono, Perluasan Vector Pada Metode Search Vector
Space, INTEGRAL Vol. 10 No. 2, Juli 2005
[6]. Risa, BAB 11 Text Mining, http://student.eepisits.edu/~risa/files/DataMining
/chapter11.pdf, 24 Juni 2009
[7] Raymond J. Mooney. CS 391L: Machine Learning Text Categorization.
University of Texas at Austin, 2006.

Artikel 10105046 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Artikel 10105046 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN

TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI

Anda mungkin juga menyukai