INFORMATIKA
jasman@itenas.ac.id[1], sangkuriang26@yahoo.com[2]
ABSTRAK
Information Retrieval (IR) adalah sebuah metode untuk mengambil data terstruktur yang
tersimpan dalam koleksi dokumen, kemudian menyediakan informasi yang diperlukan.
Tujuan dari sistem IR adalah untuk mengambil dan menampilkan dokumen yang relevan
dengan input pengguna (query). Generalized Vector Space Model (GVSM) adalah salah satu
dari model sistem IR yang termasuk dalam model aljabar. Query yang dimasukkan oleh
pengguna akan diproses terlebih dahulu. Pengolahan kata meliputi tokenizing, stop word
removal, dan stemming. Aplikasi ini melakukan pencarian dokumen seperti pdf (*.pdf) dan
Ms Word Doc (*.doc & *.docx.) yang relevan dengan query. Hasil pencarian ini disusun
berdasarkan nilai kesamaan GVSM yang tertinggi. Dengan menggunakan Generalized
Vector Space Model, hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai
perbandingan kemiripan.
Kata kunci : Information Retrieval, query, Generalized Vector Space Model
ABSTRACT
Information Retrieval (IR) is a method to retrieve unstructured data stored in document
collection, then provides required information. The purpose of the IR system is to retrieve
and display documents that are relevant to the user’s input (query).Generalized Vector Space
Model (GVSM) is one of the model Information Retrieval (IR) systems which included in the
algebraic models. The query which is entered by the user will be process first. The processing
of words includes tokenizing, stop word removal and stemming. This application performs
searching the documents such as pdf (*.pdf) and Ms Word Doc(*.doc & *.docx) which are
relevant to the queries. The searching result is ordered based on the highest of the similarity
gvsm’s value. By using Generalized Vector Space Model the result of searching documents
are more relevant based on the comparative value of similiarity.
Key word : Information Retrieval, query, Generalized Vector Space Model
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 57
JURNAL INFORMATIKA
Sim (5)
Dimana :
: Vektor dokumen ke-J
: Vektor query
kalimat dan kata dilakukan berdasarkan vektor query dengan vektor dokumen untuk
pada spasi didalam teks dokumen tersebut. mendapatkan bobot setiap dokumen sebagai
Setiap kumpulan term (kata) yang dihasilkan acuan dalam pengurutan dokumen yang
dari setiap dokumen akan dilakukan proses sesuai dengan query yang dimasukan oleh
filtration (stop word removal) pada proses pengguna.
ini setiap kata yang ‘tidak relevan’ namun
sering muncul dalam sebuah dokumen akan Output dari sistem Information
dihilangkan dengan cara membandingkan Retrieaval ini adalah list dokumen yang
dengan stop word list yang ada. Term yang sesuai dengan pencarian yang dimasukan
dihasilkan dari proses sebelumnya akan oleh pengguna, list yang ditampilkan
dilakukan prosesstemming, yaitu proses dimulai dari dokumen yang memiliki bobot
pencarian bentuk dasar suatu kata pada tertinggi yang sesuai dengan tingkat
kalimat dengan cara menghilangkan kemiripan dengan query hingga bobot
imbuhannya, lalu dari setiap term tersebut dokumen yang terendah. setiap list dapat
akan diberikan bobot term (term weighting). dilihat sebagai preview dan juga dapat
Term yang telah mengalami proses dilihat dengan membuka dokumen tersebut
tokenizing, filtration, stemming dan term menggunakan aplikasi microsoft word untuk
weighting merupakan term yang akan dokumen yang berformat *.doc dan *.docx
menjadi indeks dari dokumen koleksi. sedangkan dokumen yang berformat *.pdf
dapat dijalankan dengan menggunakan
Proses kedua dimulai dari query, pada aplikasi pdf reader.
proses ini pengguna memasukan query, lalu
query tersebut dipecah (parse query) Selain proses pencarian dokumen,
menjadi beberapa tahapan proses, yaitu sistem juga menyediakan fitur penunjang
proses tokenizing, filtration dan stemming. yaitu fitur read document,fitur tokenization
Query yang telah mengalami proses fitur filtration,fitur stemming, fitur add
preprocessing dan menghasilkan term akan dictionary dan fitur add stop word list.
diberikan bobot dan akan menjadi indeks
Fungsionalitas
dari query.
Berdasarkan analisis, maka
Setelah preprocessing telah selesai
didefinisikan kebutuhan fungsionalitas-
maka selanjutnya adalah proses pengurutan
fungsionalitas yang meliputi fungsionalitas
dokumen menggunakan metoda Generalized
pencarian dokumen, fungsionalitas display
Vector Space Model, pengurutan dokumen
document, fungsionalitas update kamus
ini berdasarkan termquery yang berada pada
kata dasar, fungsionalitas update stop word
collection index (folder file) setiap
list, fungsionalitas read document,
dokumen. Setiap query akan dijadikan
fungsionalitas tokenizing, fungsionalitas
sebagai minterm dan dicari pada collection
filtration, dan fungsionalitas stemming.
index (folder file) yang kemudian akan
Seluruh fungsionalitas aplikasi dinyatakan
dilakukan penghitungan frekuensi termquery
pada use case pada Gambar 1.
pada setiap dokumen. Proses selanjutnya
adalah menghitung indeks term dan Activity diagram digunakan untuk
mengubah dokumen dan query kedalam mengilustrasikan aliran fungsional dalam
bentuk vektor. sebuah sistem. Dalam bussiness modeling,
activity diagram berguna untuk
Untuk menghitung korelasi atau
menggambarkan aliran bisnis atau bisnis
similiaritas antara dokumen dan query maka
workflow
dilakukan proses perkalian titik antara
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 62
JURNAL INFORMATIKA
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 63
JURNAL INFORMATIKA
Implementasi
Pada tahapan ini dilakukan Untuk dapat menguji fungsi pencarian
implementasi dan pengujian terhadap dokumen, dilakukan pengujian pencarian
aplikasi. Tahapan ini dilakukan setelah dokumen dengan query “Kecelakaan
perancangan selesai dilakukan dan Pesawat”. Pengujian ini dibagi menjadi dua
selanjutnya akan diimplementasikan pada bagian pengujian yaitu pengujian fungsi
bahasa pemrograman yang akan digunakan menu pencarian dokumen menggunakan
yaitu bahasa pemrograman java. multi thread yang diuraikan pada
Lampiran Tabel 3. dan fungsi
Pada aplikasi Information Retrieaval pencarian dokumen tanpa menggunakan
dengan metode Generalized Vector Space multi thread yang diuraikan pada
Model, dilakukan pengujian black box Lampiran Tabel 4. Hasil dari
testing yang berfungsi untuk menguji setiap pengujian pencarian dokumen menggunakan
fungsionalitas aplikasi yang telah dibuat.
multi Thread ditunjukan pada Gambar 3 dan
hasil dari pengujian pencarian dokumen
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 64
JURNAL INFORMATIKA
G
Gambar 3 Pengujian Menggunakan Thread
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 65
JURNAL INFORMATIKA
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 66
JURNAL INFORMATIKA
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 67
JURNAL INFORMATIKA
No.1 , Vol. 4, Januari – April 2013 ISSN: 2087‐5266 68