Kategorisasi Dokumen Dan Pengukuran Kedekatan Keywords

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN
TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI

PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA
Adhit Herwansyah
Jurusan Sistem Informasi, Fakultas Ilmu Komputer Universitas Gunadarma
( adhitherwansyah@yahoo.com)
ABSTRAK
Semakin meningkatnya kemajuan Universitas Gunadarma, maka banyak
sekali pembuatan penulisan ilmiah oleh mahasiswa. Sebuah penulisan ilmiah dapat
dengan mudah dikategorikan secara manual oleh manusia, tetapi jika dilakukan
secara terkomputerisasi akan membawa permasalahan tersendiri. Begitu pula
dengan mencari tingkat kemiripan atau similaritas suatu dokumen dengan dokumen
lainnya, manusia dapat dengan mudah menentukan apakah suatu dokumen memilki
tingkat kemiripan atau similaritas dengan dokumen lainnya atau tidak, untuk itu
pada penelitian ini akan dibuat sebuah tools yang dapat mengkategorikan dokumen
dan mencari tingkat nilai similaritas antar dokumen secara terkomputerisasi.
Dalam penelitian ini teknik yang digunakan untuk memecahkan masalah
diatas adalah dengan menggunakan teknik text mining untuk pengkategorian
dokumen penulisan ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen
dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil
pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF
(Term Frequency Inversed Document Frequency) dan Algoritma Vector Space
Model.
Dengan penelitian ini diharapkan proses pengkategorian dokumen secara
terkomputerisasi, hasilnya dapat sesuai dengan pengkategorian secara manual. Dan
pengukuran tingkat similaritas dokumen dapat menunjukan seberapa besar nilai
similaritas dokumen dengan dokumen lainnya.
Kata Kunci : Pengkategorian Dokumen, Similaritas Dokumen, Text Mining, TF-IDF,
Vector Space Model
PENDAHULUAN
Pemilahan sebuah karya penulisan ilmiah dapat dilakukan dengan mudah oleh
manusia, tetapi pemilahan dokumen dilakukan secara otomatis dengan komputer
akan membawa permasalahan tersendiri. Begitu pula dengan mengukur tingkat
kemiripan suatu dokumen dengan dokumennya lainnya, manusia dapat dengan
mudah mengukur apakah suatu dokumen memilki tingkat kemiripan/similaritas

dengan dokumen lainnya.
Text mining adalah salah satu cara dalam mengatasi permasalahan diatas. Text mining
merupakan proses pengambilan data berupa teks dari sebuah sumber dalam hal ini
sumbernya adalah dokumen. Dengan text mining dapat dicari kata-kata kunci yang
dapat mewakili isi dari suatu dokumen lalu dianalisa dan dilakukan pencocokan
antara dokumen dengan database kata kunci yang telah dibuat untuk menentukan
atau memilah kategori suatu dokumen.
Sedangkan proses pengukuran tingkat similaritas antar dokumen dilakukan dengan
membandingkan suatu kata kunci dengan dokumen. Kata kunci yang digunakan
didapat dari proses ekstraksi dokumen pada proses pemilahan kategori dokumen.
Agar hasil pengukuran tingkat similaritas dokumen dengan kata kunci mendapatkan
hasil yang optimal maka digunakan algoritma text mining dimana dalam prosesnya
digunakan algoritma TF-IDF (Term Frequency Inversed Document Frequency dan
VSM (Vector-Space Model) dari IR (Information Retrieval) model untuk mencari
nilai Cosine (menghitung nilai cosinus sudut antara dua vector) sebagai pengukur
tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks
pada dokumen.
TINJAUAN PUSTAKA
Text mining memiliki definisi menambang data yang berupa teks dimana sumber data
biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang
dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan
antar dokumen.
Didalam proses text mining dilakukan beberapa tahapan umum diantaranya adalah
tokenizing, filtering, stemming, tagging, dan analyzing. Tahap tokenizing adalah
tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Setelah teks
input dilakukan proses tokenizing, maka tahap selanjutnya dilakukan tahap filtering.
yaitu tahap mengambil kata-kata penting dari hasil token. Tahap selanjutnya adalah
tahap stemming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap
kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil
kata dasarnya. Tahap berikutnya adalah Tahap tagging yang merupakan tahap
mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Tahap ini
tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak
memiliki bentuk lampau. Tahap yang terakhir dalam text mining adalah tahap
analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar
dokumen yang ada. Untuk melakukan analisa pada tahap analyzing dapat digunakan
algoritma TF/IDF (Term Frequency Inversed Document Frequency) dan Algoritma
Vector Space Model.
Algoritma TF/IDF (Term Frequency Inversed Document Frequency)

Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masingmasing dokumen terhadap kata kunci dengan rumus yaitu
Wdt = tf dt * IDFt
Dimana:
d = dokumen ke-d
t = kata ke-t dari kata kunci
W = bobot dokumen ke-d terhadap kata ke-t
tf = banyaknya kata yang dicari pada sebuah dokumen
IDF = Inversed Document Frequency
IDF = log2 (D/df)
D = total dokumen
df = banyak dokumen yang mengandung kata yang dicari
Setelah bobot (W) masingmasing dokumen diketahui, maka dilakukan proses
sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas
dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi
sederhana dari TF-IDF adalah sebagai berikut:
Kata kunci (kk)
Dokumen 1 (D1)
Dokumen 2 (D2)
Dokumen 3 (D3)
=
=
=
=
pengetahuan logistik
manajemen transaksi logistik
pengetahuan antar individu
dalam manajemen pengetahuan terdapat transfer pengetahuan
logistik
Jadi jumlah dokumen (D) = 3
Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada
dokumen 2 serta kata dalam d a n terdapat pada dokumen 3 dihapus. Berikut ini
adalah tabel perhitungan TF/IDF
Tabel 1 Contoh perhitungan TF / IDF
tf
Token
manajemen
transaksi
logistik
transfer
kk D1 D2 D3
0
0
1
0
1
1
1
0
0
0
0
0
1
0
1
1
df
2
1
2
1
IDF
=
D/df
Log10 (D/df)
1.5
3
1.5
3
0.176
0.477
0.176
0.477
W
kk
D1
0
0.176
0
0.477
0.176 0.176
0
0
D2
D3
0
0
0
0
0.176
0
0.176
0.477
pengetahuan
individu
1
0
0
0
1
1
2
0
2
1
1.5
3
0.176
0.477
Total
0.176
0
0
0
0.176 0.352
0.477
0
0.352 0.829 0.653 1.181
bobot (W) untuk D1 = 0.176 + 0 = 0.176

bobot (W) untuk D2 = 0 + 0.176 = 0.176
bobot (W) untuk D3 = 0.176 + 0.352 = 0.528
Dari contoh studi kasus di atas, dapat diketahui bahwa nilai bobot (W) dari D1 dan
D2 adalah sama.Apabila hasil pengurutan bobot dokumen tidak dapat mengurutkan
secara tepat, karena nilai W keduanya sama, maka diperlukan proses perhitungan
dengan algoritma vector-space model. Ide dari metode ini adalah dengan menghitung
nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.
Algoritma Vector Space Model
Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan
antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen
dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari
seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada
dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space
adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan
pada vektor query, vektor dokumen, atau pada kedua vektor tersebut.
Pada algoritma vector space model gunakan rumus untuk mencari nilai
cosinus sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot dari kata
kunci (WK). Rumus yang digunakan adalah sebagai berikut
t
Co sin e sim(d j , q ) =
dj q
dj q
(W
ij
Wiq )
i =1
t
Wij2 Wiq2
i =1
i =1
Apabila studi kasus pada algoritma TF/IDF di atas dicari nilai cosinus sudut antara
vektor masingmasing dokumen dengan kata kunci, maka hasil yang didapatkan akan
lebih presisi. Seperti yang ditunjukan tabel 2.
Token
manajemen
transaksi
kk
0
0
Tabel 2 Perhitungan vector space model

D1
D2
D3
kk*D1 kk*D2 kk*D3
0.031
0
0.031
0
0
0
0.228
0
0
0
0
0
logistik
transfer
pengetahuan
individu
0.031
0
0.031
0
0.031
0
0
0
Sqrt(kk)
0.249
0
0
0.031
0.228
0.031
0.228
0.124
0
0.031
0
0
0
Sqrt(Di)
0.539
0.509
0
0
0.031
0
0.031
0
0.062
0
Sqrt(kk . Di)
0.643
0.031
0.031
0.093
Selanjutnya menghitung nilai cosinus sudut antara vector kata kunci dengan tiap
dokumen dengan menngunakan rumus:
Co sin e( Di ) = sum(kk Di ) /( sqrt (kk ) * sqrt ( Di )
Untuk Dokumen 1 (D1 )
Cosine (D1 ) = sum (kk . D1 ) / (sqrt(kk) * sqrt(D1 ))
= 0.031 / (0.249 * 0.539)
= 0.231
= 0.031 / (0.249 * 0.509)
= 0.245
= 0.093 / (0.249 * 0.643)
= 0.581
Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat, seperti
tabel 3
Tabel 3 Hasil vector space model
D1
D2
D3
Cosine
0.231
0.245
0.581
Rank 3
Rank 2
Rank 1
Dari hasil akhir tersebut dapat diketahui bahwa dokumen 3 (D3 ) memiliki tingkat
similaritas tertinggi terhadap kata kunci, kemudian disusul dengan D2 dan D1 .
PERANCANGAN DAN PEMBANGUNAN PROGRAM
Konsep Aplikasi
Konsep aplikasi yang akan dibangun adalah pertama dokumen yang akan diujicoba
dilakukan proses uploading files, untuk mendapatkan dokumen dengan format teks.
Dokumen yang dapat diupload untuk dirubah ke dokumen teks adalah dokumen
dengan format PDF, Doc, dan TXT. Selanjutnya dokumen teks akan diproses dengan
teknik text mining yang akan menghasilkan kata kunci yang mewakili isi dokumen
untuk menentukan hasil pemilahan dokumen. Setelah mendapatkan kata kunci maka
dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot
dokumen, lalu kembali dilakukan perhitungan dengan algoritma vector space model.
Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai
terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang
memiliki tingkat kemiripan tertinngi.
Algoritma Proses Kategorisasi Dokumen
Proses kategorisasi dokumen adalah proses pencocokan antara kata-kata penting yang
mewakili isi suatu dokumen dengan kata kunci yang telah ada didalam tabel
kata_kunci untuk menentukan jenis kategori suatu dokumen. Gambar 1 adalah
gambar yang menunjukan bagaimana proses pengkategorian dokumen.
Gambar 1 Proses pengkategorian dokumen

Tahap-tahap kategorisasi dokumen adalah sebagai berikut:
1. Pengisian tabel kata kunci
Pengisian tabel kata kunci adalah tahap pertama yang dilakukan untuk membuat
program kategorisasi dokumen ini, pengisian tabel kata kunci sangat diperlukan
agar ketika melakukan proses pengkategorian dokumen mendapatkan hasil yang
optimal dan akurat. Untuk melakukan proses pengisian kata kunci, diperlukan
dokumen sumber yang jenis kategorinya telah diketahui dengan benar.
Tahapannya seperti yang ditunjukan oleh gambar berikut.
Gambar 2 Proses pengisian tabel kata kunci

Dokumen sumber yang dipakai untuk mengisi tabel kata kunci adalah
dokumen abstraksi yang telah di ketahui kategorinya. Pertama-tama dokumen
abstraksi dilakukan proses upload lalu isi teks pada dokumen ini dilakukan
analisa dengan proses tokenizing yaitu proses pemilahan kata-kata pada
keseluruhan isi teks.
Hasil dari proses tokenizing adalah kata-kata yang terpisah, maka pada tahap
selanjutnya akan dilakukan proses filtering dengan menggunakan teknik stop
list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list
adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang
terdiri dari kata hubung, kata sambung, kata depan, serta nama- nama hari dan
bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses
filtering bertujuan untuk menghemat penyimpanan di dalam database.
Hasil yang didapat dari proses filtering akan dihitung jumlah nilai
kemunculan setiap kata pada isi dokumen. Setelah proses filtering dan word
counting selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan
ke database didalam tabel kata_kunci.
Dalam pengisian tabel kata kunci ini penulis menggunakan dokumen abstraksi
yang didapat dari perpustakaan online Universitas Gunadarma dengan
mengambil 5-10 dokumen abstraksi pada setiap masingmasing kategori. Isi
dokumen abstraksi tersebut harus menggunakan kata-kata yang sesuai ejaan
bahasa Indonesia yang baik dan benar, hal ini diharapkan untuk menghasilkan
kata kunci yang sesuai. Kategori dokumen abstraksi yang dipakai adalah
kategori pemrograman web, pemrograman dekstop, sistem informasi, dan
jaringan komputer. Keseluruhan proses seperti yang dijelaskan diatas hanya
dilakukan sekali saja.
2. Pengkategorian Dokumen
Tahap pengkategorian dokumen merupakan proses penentuan kategori
dokumen, tahap ini akan melakukan analisa terhadap isi dokumen yang
diinput. Proses-proses yang dilakukan juga menggunakan tahap tokenizing,
filtering d a n word counting, jadi penulis tidak menggambarkan kembali
bagaimana proses tersebut dilakukan, karena pada tahap pengisian tabel kata
kunci telah dijelaskan secara terperinci.
Pada tahap ini, setelah dokumen dilakukan proses tokenizing, filtering dan
word counting, t a h ap yang harus dilakukan adalah melakukan proses
pencocokan kata kunci yang didapat dari proses sebelumnya dengan kata
kunci yang telah ada didalam database. Seperti yang ditunjukan pada gambar
3, dokumen abstraksi yang diinput, menghasilkan tiga kata kunci yaitu
bahasa, pemrograman, dan php dengan frekuensi jumlah kemunculan kata
yang berbeda-beda.
Gambar 3 Ilustrasi pengkategorian dokumen

Selanjutnya dilakukann pencocokan antara kata kunci yang didapat pada
dokumen dengan kata kunci yang ada didalam database, jika ada kata yang
sama dengan kata kunci yang ada didalam database maka nilai counter dari
kategori akan bertambah sesuai jumlah frekuensi kemunculan setiap katanya.
Seperti pada gambar 3 kata PHP telah ada di database dengan kategori
pemrograman web dan nilai frekuensi kemunculan kata tersebut adalah 6,
maka kategori pemrograman web nilai counternya menjadi 6 dan nilai counter
kategori ini menjadi yang tertinggi sehingga dokumen tersebut memiliki
kategori pemrograman web.
Algoritma Proses Similaritas Dokumen

Dalam proses analisa kemiripan dokumen, penulis menggunakan teknik yang sama
pada program sebelumnya yaitu teknik text mining dengan algoritma Tf-IDF dan
vector space model. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada
isi dokumen dari hasil tokenizing, filtering, d a n word counting untuk dilakukan
perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk
memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali
dengan algoritma vector space model. Hasil akhir dari program ini akan didapat
nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci.
Berikut ini adalah gambaran umum dari program analisa kemiripan dokumen.
Gambar 4 Gambaran umum dari proses similaritas dokumen
Untuk menganalisa tingkat kemiripan antar suatu kata kunci pada dokumen dengan
dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin
dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih
untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisa
tingkat kemiripannya dengan dokumen lain.
Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan,
maka program akan melakukan proses perulangan sebanyak jumlah kata kunci
tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan
dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci
(WK2), dan bobot dokumen terhadap kata kunci (WDK2).
Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan
seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan
d e n g a n p e r h i t u n g a n vector
space
model,
dengan
rumus
NilaiCo sin us = (WDK ) /( WK / WD ) .
Setelah perhitungan nilai cosinus pada algoritma vector space mode dilakukan maka
hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus
tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang
memiliki tingkat kemiripan tertinggi dengan kata kunci.
PENERAPAN PROGRAM DENGAN DATA

Analisa Output Program Kategorisasi Dokumen
Pada pengkategorian terhadap 50 dokumen abstraksi, menghasilkan 47 dokumen
yang berhasil dikategorikan dengan baik. Yaitu hasilnya sesuai dengan hasil
pengkategorian dokumen secara manual, seperti rangkuman pada tabel 4.
Tabel 4 Rangkuman hasil kategorisasi dokumen
Kategori
Jumlah file
Pemrograman Web
Jaringan Komputer
Sistem Informasi
Pemrograman Desktop
JUMLAH
13 File
10 File
9 File
15 File
47 File
Pada tabel 4 terlihat hanya 47 file yang berhasil di kategorikan dan sesuai dengan
hasil pengkategorian secara manual. Berikut ini adalah daftar tabel dari 3 dokumen
yang tidak berhasil dikategorikan atau hasilnya tidak sesuai dengan pengkategorian
secara manual.
No
Tabel 5 Dokumen yang tidak berhasil dikategorikan

Nama File
Kategori
Kategori (manual oleh
manusia)
(program aplikasi)
1 10105792_ABSTRAKSI.pdf
Jaringan Komputer
Pemrograman Desktop
Sistem Informasi
Pemrograman Desktop
Sistem Informasi
Pemrograman Web
Pada tabel 5 terlihat ada 3 dokumen yang hasilnya tidak sesuai, antara hasil
pengkategorian dengan program dan pengkategorian secara manual. Misalnya untuk
file 18103013_ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan
kategori sistem informasi seperti pada gambar 6 sedangkan secara manual
menghasilkan kategori pemrograman web. Hal tersebut terjadi karena nilai counter
untuk kategori pemrograman web nilainya lebih kecil dibandingkan dengan nilai
counter kategori sistem informasi. Gambar 5 menunjukan kumpulan kata-kata dan
frekuensi kemunculan tiap kata (tf) pada dokumen 18103013_ABSTRAKSI.pdf.
Kata yang sama dengan kata kunci

pada kategori sistem informasi
Kata yang sama dengan kata kunci
pada kategori pemrograman web
Gambar 5 Kumpulan kata yang mewakili file 18103013_ABSTRAKSI.pdf
Gambar 6 Hasil pengkategorian fille 18103013_ABSTRAKSI.pdf oleh program
Sesuai kata kunci yang dihasilkan seperti pada gambar 6 dokumen tersebut memiliki
5 kata kunci yaitu sistem, informasi, database, asp, dan net. dengan nilai
tf berturut turut 6, 2, 2, 1, 1. Kata sistem, informasi, dan database adalah kata
yang sama dengan kata kunci kategori sistem informasi maka nilai counter kategori
tersebut adalah jumlah tf kata-kata tersebut yaitu 10, sedangkan kata asp dan net
adalah kata yang sama dengan kata kunci kategori pemrograman web maka nilai
counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 2. Dengan hasil ini
program akan menentukan bahwa dokumen tersebut termasuk kategori sistem
informasi karena memiliki nilai counter terbesar dibandingkan dengan kategori lain
seperti terlihat pada gambar 7
Gambar 7 Hasil perhitungan nilai counter pada setiap kategori

Hal lain yang menyebabkan hasil yang didapat tidak sesuai dalam pengkategorian
dokumen ini adalah karena ada 2 kategori yang memiliki nilai counter yang sama.
Misalnya pengkategorian pada file 10105792_ABSTRAKSI.pdf, pengkategorian
dengan program menghasilkan kategori jaringan komputer seperti pada gambar 9
sedangkan secara manual menghasilkan kategori pemrograman desktop. Gambar 8
berikut menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada
dokumen tersebut.
Kata yang sama dengan kata

kunci pada kategori jaringan
Komputer
Kata yang sama dengan kata
kunci pada kategori
pemrograman dekstop
Gambar 8 Kumpulan kata yang mewakili file 10105792_ABSTRAKSI.pdf
Gambar 9 Pengkategorian fille 10105792_ABSTRAKSI.pdf oleh program

Sesuai kata kunci yang dihasilkan, seperti pada gambar 9 dokumen tersebut memiliki
9 kata kunci yaitu jaringan, j2se, java, aplikasi, sistem, conectionless,
udp, protokol, dan game dengan nilai tf berturut turut 5, 2, 3, 3, 3, 1, 2, 1, 1.
Kata jaringan, conectionless, udp, dan protokol adalah kata yang sama
dengan kata kunci kategori jaringan komputer maka nilai counter kategori tersebut
adalah jumlah tf kata-kata tersebut yaitu 9, sedangkan kata j2se, java, aplikasi
dan game adalah kata yang sama dengan kata kunci pada kategori pemrograman
desktop maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu
9. dengan hasil counter yang diperoleh maka program akan men-sorting jumlah
counter dari yang paling besar sampai terkecil, sehingga setelah diurutkan kategori
jaringan komputer berada di posisi paling tinggi, dan kategori inilah yang menjadi
jenis kategori untuk dokumen tersebut. seperti terlihat pada gambar 10
Gambar 10 Hasil perhitungan nilai counter pada setiap kategori
Analisa Output Program Similaritas Dokumen

Pada tahap penerapan program similaritas dokumen dengan data yang digunakan,
maka dilakukan dengan menerapkan tiap-tiap 1 dokumen dibandingkan dengan 50
dokumen yang telah ada di dalam database.
Hasil penerapan program pada data yang dibandingkan, menghasilkan hasil yang
beragam, diantaranya terdapat 38 dokumen yang menampilkan hasil yang valid, dan
12 dokumen yang tidak valid. Dikatakan hasil yang valid jika suatu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen tersebut akan memiliki nilai similaritas tertinggi dari
pada dokumen lainnya, seperti yang ditunjukan pada tabel 6
Hasil perbandingan nilai similaritas yang tidak valid adalah jika suatu dokumen yang
dibandingkan juga berada dalam kumpulan dokumen pembanding, tetapi dokumen
tersebut tidak memiliki nilai similaritas tertinggi dari dokumen lainnya, padahal isi
dokumen tersebut sama, seperti yang ditunjukan oleh tabel 6.
No.
Tabel 6 Hasil nilai similaritas dokumen yang valid

File yang dibandingkan
Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
No.
1
Dokumen 1 :10100071_abstraksi.pdf
Nilai Kemiripan = 0,55185
Dokumen 2 : 12102446_abstraksi.pdf
Tabel 7 Hasil nilai similaritas dokumen yang tidak valid

File yang dibandingkan
Dokumen dengan tingkat
kemiripan/simlilaritas tertinngi
10104313_ABSTRAKSI.pdf Dokumen 1 : 10104683_abstraksi.pdf
Dokumen 10 :11104089_abstraksi.pdf

Hasil nilai similaritas dokumen yang tidak valid seperti pada tabel 7, dipengaruhi
oleh bobot dokumen terhadap kata kunci dan bobot dokumen itu sendiri. Semakin
besar bobot dokumen terhadap kata kunci dan semakin kecil bobot dokumen tersebut
maka nilai similaritasnya akan semakin tinggi. Jadi walaupun isi dokumen tersebut
sama belum berarti dokumen tersebut memiliki nilai similaritas yang tinggi. Berikut
ini adalah contoh perhitungan hasil penentuan tingkat similaritas suatu dokumen yang
tidak valid
Dokumen Yang Ingin dibandingkan:
- Dokumen : 10104313_abstraksi.pdf (id=527)
- Kata kunci : aplikasi, borland, delphi, pemrograman,(4 kata kunci)
Dokumen Yang Menjadi Pembanding:
- Dokumen 1 : 10104683_abstraksi.pdf (id=529)
Proses Perhitungan:
Kata Kunci : aplikasi
- IDF = Log(D/df) = Log (50/23) = 0.337242168318
- WK = tf(kata kunci) * IDF =1 * 0.337242168318 = 0.337242168318
- WK2 = WK2 + WK(kuadrat) = 0 + 0.113732280092=0.113732280092
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =
0.337242168318 *(1*0.337242168318)=0.113732280092
0.337242168318 *(3*0.337242168318)=0.341196840276
Kata Kunci : borland
- IDF = Log(D/df) = Log (50/4) = 1.09691001301
- WK2 = WK2 + WK(kuadrat) = 0.113732280092 + 1.20321157664=
1.31694385673
1.09691001301 *(3*1.09691001301)=3.72336701
1.09691001301 *(2*1.09691001301)=2.74761999355
1.09691001301 *(1*1.09691001301)=1.20321157664
Kata Kunci : delphi
- IDF = Log(D/df) = Log (50/5) = 1
- WK = tf(kata kunci) * IDF =1 * 1 = 1
- WK2 = WK2 + WK(kuadrat) = 1.31694385673 + 1=2.31694385673
- Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1
*(3*1)=6.72336701
*(2*1)=4.74761999355
*(3*1)=4.20321157664
Kata Kunci : pemrograman
- IDF = Log(D/df) = Log (50/16) = 0.49485002168
- WK2 = WK2 + WK(kuadrat) = 2.31694385673 +
0.244876543957=2.56182040069
0.49485002168 *(1*0.49485002168)=4.99249653751
0.49485002168 *(1*0.49485002168)=4.44808812059
Perhitungan Nilai Cosinus Setiap dokumen

id dokumen 529
- Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 6.72336701 /
(Akar(2.56182040069) * Akar(68.1825857645)) = 0.508716407716
id dokumen 527
(Akar(2.56182040069) * Akar(76.5605027632)) = 0.356484822327
id dokumen 536
(Akar(2.56182040069) * Akar(30.1714507527)) = 0.505942247877
Dokumen yang memiliki tingkat kemiripan tertinggi adalah
Nilai Kemiripan = 0.5087
Dari hasil diatas menunjukan bahwa nilai similaritas dokumen dipengaruhi oleh
bobot dokumen terhadap kata kunci dan bobot dokumen tersebut
KESIMPULAN DAN SARAN

Kesimpulan
Pengkategorian dokumen dengan teknik text mining yang dilakukan pada penelitian
ini dapat berjalan dengan baik sesuai dengan pengkategorian secara manual. Dari 50
dokumen abstraksi yang dikategorikan, hanya 3 dokumen yang tidak sesuai dengan
pengkategorian secara manual, berarti terdapat 6% hasil yang tidak sesuai dan 94%
hasil yang sesuai, dari 50 dokumen yang dikategorikan. Munculnya 6% hasil yang
tidak sesuai disebabkan karena frekuensi kemunculan kata kunci yang seharusnya
mewakili kategori isi dokumen tersebut, nilainya lebih kecil dibandingkan frekuensi
kemunculan kata untuk kategori lain, sehinga nilai counter untuk kategori yang
seharusnya nilainya menjadi lebih kecil.
Pengukuran similaritas dokumen pada penelitian ini dilakukan terhadap 50 dokumen
abstraksi yang mengahasilkan 38 dokumen yang memiliki nilai similaritas yang
sesuai dan 12 dokumen yang tidak memiliki nilai similaritas yang tidak sesuai.
Kesesuaian tingkat similaritas dokumen ini dinilai dari apabila satu dokumen yang
akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi
pembanding, maka dokumen yang sama tersebut harus memiliki nilai similaritas
tertinggi dari pada dokumen lainnya, jika tidak maka hasil tersebut dikatakan tidak
sesuai. Hasil yang tidak sesuai ini disebabkan karena nilai bobot dokumen terhadap
kata kunci yang dibandingkan nilainya lebih kecil dan nilai bobot dokumen tersebut
besar. Jadi nilai similaritas dokumen tertinggi ditentukan oleh besarnya bobot suatu
dokumen terhadap kata kunci dan kecilnya nilai bobot dokumen tersebut.
Saran
Untuk pengembangan program yang dibuat pada penelitian ini, disarankan untuk
menambah fungsi stemming untuk mencari dasar kata dari tiap kata hasil filtering
dan fungsi tagging mencari bentuk awal/root dari tiap kata lampau atau kata hasil
stemming. Selain itu untuk mendukung hasil yang akurat maka disarankan untuk
menggunakan banyak dokumen sumber untuk pengisian kata kunci di database.
DAFTAR PUSTAKA
[1].
Arrummaisha Adrifina, Juwita Utami Putri, I Wayan Simri W, Pemilahan
Artikel Berita Dengan Text Mining, Proceeding Seminar Ilmiah Nasional
Komputer dan Sistem Intelijen (KOMMIT 2008), 20-21 Agustus 2008
[2].
David Sugianto, dkk, Membangun Websited dengan PHP , Datakom 2005
[3].
Iwan Arif, Text Mining, http://lecturer.eepisits.edu/~iwanarif/kuliah/dm
/6Text%20Mining.pdf, 24 Juni 2009
[4].
Lukmanul Hakim, Membongkar Trik Rahasia Para Master PHP, Lokomedia
2008
[5].
Kristhoper David Harjono, Perluasan Vector Pada Metode Search Vector
Space, INTEGRAL Vol. 10 No. 2, Juli 2005
[6].
Risa, BAB 11 Text Mining, http://student.eepisits.edu/~risa/files/DataMining
/chapter11.pdf, 24 Juni 2009
[7]
Raymond J. Mooney. CS 391L: Machine Learning Text Categorization.
University of Texas at Austin, 2006.

Kategorisasi Dokumen Dan Pengukuran Kedekatan Keywords

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kategorisasi Dokumen Dan Pengukuran Kedekatan Keywords

Diunggah oleh

Hak Cipta:

Format Tersedia

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN

TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI

mudah mengukur apakah suatu dokumen memilki tingkat kemiripan/similaritas

Algoritma TF/IDF (Term Frequency Inversed Document Frequency)

0.352 0.829 0.653 1.181

bobot (W) untuk D1 = 0.176 + 0 = 0.176

Tabel 2 Perhitungan vector space model

Gambar 1 Proses pengkategorian dokumen

Gambar 2 Proses pengisian tabel kata kunci

Gambar 3 Ilustrasi pengkategorian dokumen

Algoritma Proses Similaritas Dokumen

Gambar 4 Gambaran umum dari proses similaritas dokumen

PENERAPAN PROGRAM DENGAN DATA

Tabel 5 Dokumen yang tidak berhasil dikategorikan

Kata yang sama dengan kata kunci

Gambar 5 Kumpulan kata yang mewakili file 18103013_ABSTRAKSI.pdf

Gambar 6 Hasil pengkategorian fille 18103013_ABSTRAKSI.pdf oleh program

Gambar 7 Hasil perhitungan nilai counter pada setiap kategori

Kata yang sama dengan kata

Gambar 8 Kumpulan kata yang mewakili file 10105792_ABSTRAKSI.pdf

Gambar 9 Pengkategorian fille 10105792_ABSTRAKSI.pdf oleh program

Gambar 10 Hasil perhitungan nilai counter pada setiap kategori

Analisa Output Program Similaritas Dokumen

Tabel 6 Hasil nilai similaritas dokumen yang valid

Tabel 7 Hasil nilai similaritas dokumen yang tidak valid

Nilai Kemiripan = 0,28248

Perhitungan Nilai Cosinus Setiap dokumen

KESIMPULAN DAN SARAN

Anda mungkin juga menyukai