Anda di halaman 1dari 12

JURNAL 

INFORMATIKA 

IMPLEMENTASI METODE GENERALIZED VECTOR SPACE


MODEL PADA APLIKASI INFORMATION RETRIEVAL
Jasman Pardede[1], Mira Musrini Barmawi[2], Wildan Denny Pramono[3]

Jurusan Teknik Informatika


Institut Teknologi Nasional Bandung

jasman@itenas.ac.id[1], sangkuriang26@yahoo.com[2]

ABSTRAK
Information Retrieval (IR) adalah sebuah metode untuk mengambil data terstruktur yang
tersimpan dalam koleksi dokumen, kemudian menyediakan informasi yang diperlukan.
Tujuan dari sistem IR adalah untuk mengambil dan menampilkan dokumen yang relevan
dengan input pengguna (query). Generalized Vector Space Model (GVSM) adalah salah satu
dari model sistem IR yang termasuk dalam model aljabar. Query yang dimasukkan oleh
pengguna akan diproses terlebih dahulu. Pengolahan kata meliputi tokenizing, stop word
removal, dan stemming. Aplikasi ini melakukan pencarian dokumen seperti pdf (*.pdf) dan
Ms Word Doc (*.doc & *.docx.) yang relevan dengan query. Hasil pencarian ini disusun
berdasarkan nilai kesamaan GVSM yang tertinggi. Dengan menggunakan Generalized
Vector Space Model, hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai
perbandingan kemiripan.
Kata kunci : Information Retrieval, query, Generalized Vector Space Model

ABSTRACT
Information Retrieval (IR) is a method to retrieve unstructured data stored in document
collection, then provides required information. The purpose of the IR system is to retrieve
and display documents that are relevant to the user’s input (query).Generalized Vector Space
Model (GVSM) is one of the model Information Retrieval (IR) systems which included in the
algebraic models. The query which is entered by the user will be process first. The processing
of words includes tokenizing, stop word removal and stemming. This application performs
searching the documents such as pdf (*.pdf) and Ms Word Doc(*.doc & *.docx) which are
relevant to the queries. The searching result is ordered based on the highest of the similarity
gvsm’s value. By using Generalized Vector Space Model the result of searching documents
are more relevant based on the comparative value of similiarity.
Key word : Information Retrieval, query, Generalized Vector Space Model

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 57 
JURNAL INFORMATIKA 

PENDAHULUAN telah di-preprocess dengan query yang


Information Retrieval (IR) merupakan diinginkan pengguna. Banyaknya
suatu metode untuk menemukan kembali kemunculan kata dalam kumpulan dokumen
data tidak terstruktur yang tersimpan pada yang sesuai dengan query akan dihitung.
sekumpulan dokumen, kemudian Query yang dimasukan oleh pengguna dan
menyediakan informasi mengenai subyek dokumen diterjemahkan menjadi vektor-
yang dibutuhkan. Tujuan dari sistem IR ini vektor kemudian vektor-vektor tersebut
adalah memenuhi kebutuhan informasi dikenakan operasi perkalian titik dan
pengguna dengan mendapatkan semua hasilnya menjadi acuan dalam menentukan
dokumen yang relevan dengan kebutuhan relevansi masukan pengguna (query)
pengguna dan pada waktu yang sama terhadap kumpulan dokumen.
mendapatkan sesedikit mungkin dokumen Berdasarkan permasalahan tersebut
yang tak relevan. metode Algoritma Generalized Vector
Pengguna dapat menemukan informasi Space Model digunakan pada aplikasi
yang relevan dengan membaca seluruh Information Retrieval untuk membangun
dokumen yang ada pada tempat sebuah aplikasi pencarian informasi pada
penyimpanannya, menyimpan dokumen- kumpulan dokumen berdasarkan query yang
dokumen yang relevan, membuang dimasukan oleh pengguna.
dokumen yang tidak relevan, dan Berdasarkan uraian latar belakang
mengurutkan dokumen-dokumen yang masalah yang dikemukakan, maka dapat
sesuai dengan keperluannya. Hal tersebut dirumuskan beberapa masalah sebagai
merupakan sistem IR yang sempurna, tetapi berikut.
solusi ini tidak praktis dan efisien.
Dikarenakan pengguna tidak memiliki 1. Bagaimana sistem dapat membaca
banyak waktu untuk membaca seluruh dokumen berformat *.pdf,*.doc dan
dokumen satu per satu dari sekian banyak *.docx.
dokumen yang ada. 2. Bagaimana tahapan preprocessing dapat
Terdapat beberapa metode dalam sistem bekerja pada sistem.
IR dokumen diantaranya adalah metode 3. Bagaimana faktor normalisasi digunakan
Gravitation Based Model, Latent Semantic untuk menormalkan vektor dokumen
Model, Vector Space Model, dan sehingga proses retrieval tidak
Generalized Vector Space Model. Model terpengaruh oleh panjang dari suatu
Information Retrieavalyang baik dokumen.
memungkinkan pengguna menentukan 4. Bagaimana memperoleh dokumen yang
secara cepat dan akurat apakah isi dari relevan dan sudah terurut sesuai dengan
dokumen yang diterima memenuhi query yang dimasukan pengguna dengan
kebutuhannya. menggunakan metode generalized vector
Generalized Vector Space Model space model.
(GVSM) merupakan salah satu model sistem 5. Bagaimana proses multi thread dapat
Information Retrieval (IR) yang termasuk bekerja pada proses stemming untuk
dalam Algebraic Model yang merupakan mempercepat pencarian dokumen.
perluasan dari Vector Space Model (VSM),
proses yang terjadi pada GVSM terbagi Maksud dari penelitian ini adalah untuk
menjadi dua yaitu tahapanpreprocessing melakukan analisis dan
yang terdiri dari reading text mengimplementasikan metode Generalized
(*.pdf,*.doc,*.docx), tokenizing,filtration, Vector Space Model pada aplikasi
stemming dan parse query, sedangkan Information Retrieval System.
proses yang kedua adalah menghitung
relevansi antara kumpulan dokumen yang
No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 58 
JURNAL INFORMATIKA 

Adapun batasan masalah pada peneltian Landasan Teori


ini adalah sebagai berikut:
Pada penelitian digunakan beberapa
1. Dokumen yang digunakan pada landasan teori sebagai acuan pada
penelitian ini adalah dokumen teks yang pembuatan aplikasi IR menggunakan
berbahasa Indonesia. metode GVSM.
2. Aplikasi yang dikembangkan dalam
menerapkan metode GVSM berbasis
desktop.
Information Retrieval
3. Algoritma Stemming yang digunakan
pada penelitian ini adalah algoritma Definisi information retrieval (IR)
Nazief dan Adriani. adalah bagaimana menemukan suatu
4. Pencarian tidak menggunakan bahasa dokumen dari dokumen-dokumen tidak
semantik. terstruktur yang memberikan informasi yang
dibutuhkan dari koleksi dokumen yang
Sedangkan metodologi yang digunakan pada sangat besar yang tersimpan dalam
penelitian ini adalah sebagai berikut. komputer. (Manning, 2008). Tujuan dari
1. Metodologi Pengumpulan Data sistem IR adalah untuk memenuhi
Pengumpulan data dilakukan dengan cara kebutuhan informasi pengguna dengan me-
studi kepustakaan yaitu dengan retrieve semua dokumen yang mungkin
mengumpulkan data dan informasi tentang relevan, pada waktu yang sama me-retrieve
permasalahan yang dibahas. sesedikit mungkin dokumen yang tidak
2. Metodologi Pengembangan Sistem relevan. Sistem IR yang baik
Metodologi pengembangan sistem pada memungkinkan pengguna menentukan
penelitian ini menggunakan Metodologi secara cepat dan akurat apakah isi dari
Prototype. pendekatan ini dipilih karena dokumen yang diterima memenuhi
mempunyai struktur yang sesuai untuk kebutuhannya. Tujuan yang harus dipenuhi
pembangunan sebuah simulasi sistem yang adalah bagaimana menyusun dokumen yang
akan dibangun yang meliputi : telah didapatkan tersebut ditampilkan terurut
dari dukumen yang memiliki tingkat
1. Mengidentifikasi kebutuhan sistem
relevansi tinggi ke tingkat relevansi yang
meliputi bagaimana sistem membaca
lebih rendah. Penyusunan dokumen tersebut
dokumen berformat *.doc,*.docx dan
disebut sebagai perangkingan dokumen.
*.pdf, melakukan pemecahan kalimat
menjadi kata tunggal, melakukan proses Model IR adalah model yang digunakan
filtrasi kata, melakukan stemming kata, untuk melakukan pencocokan antara term-
melakukan pencarian dan pengurutan term (kata) dari query dengan term-term
dokumen menggunaka metode GVSM. dalam document collection (folder file),
2. Mengembangkan prototype, meliputi model yang terdapat dalam IR terbagi dalam
pengembangan prototype tokenization, 3 model besar, yaitu :
filtration, stemming dan retrieaval
process. 1. Set-theoritic models, model
3. Mengadakan software. merepresentasikan dokumen sebagai
4. Menguji software. himpunan kata atau frase. Contoh
5. Implementasi model ini ialah Standard Boolean model
dan Extended Boolean model.
2. Algebraic model, model
merepresentasikan dokumen dan query
sebagai vektor similarity antara vektor
dokumen dan vektor query yang
No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 59 
JURNAL INFORMATIKA 

direpresentasikan sebagai sebuah nilai 4. Menghitung banyaknya frekuensi atau


skalar. Contoh model ini ialah Vektor kemunculan kata dalam kumpulan
Space Model (model ruang vektor) , dokumen yang sesuai dengan query
Latent Semantic Indexing (LSI) dan 5. Menghitung index termyang dapat
Generalized Vector Space dinyatakan dengan :
Model(GVSM).
3. Probabilistic model, model =
memperlakukan proses pengambilan
dokumen sebagai sebuah probabilistic
inference. Contoh model ini ialah Dimana :
penerapan teorema bayes dalam model
: Index term ke-i
probabilistik.

Algoritma Generalized Vector Space : Vektor ortogonal sesuai pola


Model yang dibahas menggunakan konsep
minterm yang terpakai
ruang vektor. Masukan dari pengguna dan
kumpulan dokumen diterjemahkan menjadi Ci,r : Faktor korelasi antara Index term
vektor-vektor, kemudian vektor-vektor
tersebut dikenakan operasi perkalian titik ke-i dengan minterm r
dan hasilnya menjadi acuan dalam
menentukan relevansi masukan pengguna
(query) terhadap kumpulan dokumen. Sedangkan faktor korelasi sebagai berikut :
Ada beberapa langkah atau proses untuk Ci,r =
mendapatkan hasil dari query yang
dimasukkan, yang disebut algoritma
Generalized Vector Space Model Dimana:
[Baeza,1999]: Ci,r : Faktor korelasi antara Index
1. Membuang kata depan dan kata term I dengan minterm r
penghubung.
2. Menggunakan stemmer pada kumpulan Wi,j :Berat Index term I pada
dokumen dan query, yaitu aplikasi yang
digunakan untuk menghilangkan dokumen j
imbuhan (awalan, akhiran).
: Bobot Index term Ki dalam
Contoh : keagungan = agung, keabadian
= abadi.
minterm Mr
3. Menentukan minterm untuk
menentukan kemungkinan pola 6. Mengubah dokumen dan query menjadi
frekuensi kata. Panjang minterm ini vektor
didasarkan pada banyak kata yang ..........(3)
dimasukan pada query. Kemudian
diubah menjadi vektor ortogonal sesuai
 
dengan pola minterm yang muncul.
Kemungkinan pola yang akan muncul
adalah :
M1= (0,0,0)
M2= (1,0,0) Dimana :
.....
Mn= (0,0,0)
No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 60 
JURNAL INFORMATIKA 

: Vektor dokumen ke-J Information Retrieaval menggunakan


metoda Generalized Vector Space Model,
: Vektor query Pada aplikasi Information Retrieaval ini
terdapat dua proses operasi, proses pertama
: Berat Index term I pada dokumen j dimulai dari koleksi dokumen dan proses
kedua dimulai dari query yang dimasukan
qi: Berat Index term pada query i oleh pengguna. Adapun proses kerja dari
aplikasi Information Retrieaval ini
n : Jumlah Index term ditunjukan pada Gambar 1.
7. Mengurutkan dokumen
berdasarkan similiaritas, dengan
menghitung perkalian vektor

Sim (5)

Dimana :
: Vektor dokumen ke-J

: Vektor query

Java Class Library (JCL) adalah suatu


set bahasa pemrograman java yang telah
ditata secara rapih sebagai loadable library
yang dapat dipanggil saat aplikasi
dijalankan. Karena platform java tidak
tergantung pada sistem operasi tertentu,
maka aplikasi java tidak bisa mengandalkan
pada satu library bawaan java saja.
Walaupun java telah menyediakan kelas
library standar, yang berisi fungsi-fungsi
umum untuk sistem operasi yang beragam.
Java Class Library yang digunakan pada
pembangunan aplikasi ini adalah Apache Gambar 1 Rancangan sistem
Pdf Box yang berfungsi untuk membaca dan Information Retrieaval
mendapatkan teks pada dokumen pdf ,
Apache POI yang berfungsi untuk membaca
dan mendapatkan teks pada dokumen Setiap dokumen yang berada pada
berformat *.doc dan *.docx dan document collection (folder file) akan dibaca
StringBuilder yang berfungsi untuk oleh sistem. Dokumen-dokumen yang dapat
menghapus karakter. dibaca oleh sistem berformat *.doc, *.docx,
dan *.pdf.
Rancangan Sistem
Hasil dari pembacaan dokumen tersebut
Pada perancangan aplikasi ini dilakukan
akan dilakukan proses tokenizing, yaitu
tahap analisis dan desain aplikasi
proses pemecahan karakter dan simbol
selain a-z akan dihilangkan, pemecahan
No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 61 
JURNAL INFORMATIKA 

kalimat dan kata dilakukan berdasarkan vektor query dengan vektor dokumen untuk
pada spasi didalam teks dokumen tersebut. mendapatkan bobot setiap dokumen sebagai
Setiap kumpulan term (kata) yang dihasilkan acuan dalam pengurutan dokumen yang
dari setiap dokumen akan dilakukan proses sesuai dengan query yang dimasukan oleh
filtration (stop word removal) pada proses pengguna.
ini setiap kata yang ‘tidak relevan’ namun
sering muncul dalam sebuah dokumen akan Output dari sistem Information
dihilangkan dengan cara membandingkan Retrieaval ini adalah list dokumen yang
dengan stop word list yang ada. Term yang sesuai dengan pencarian yang dimasukan
dihasilkan dari proses sebelumnya akan oleh pengguna, list yang ditampilkan
dilakukan prosesstemming, yaitu proses dimulai dari dokumen yang memiliki bobot
pencarian bentuk dasar suatu kata pada tertinggi yang sesuai dengan tingkat
kalimat dengan cara menghilangkan kemiripan dengan query hingga bobot
imbuhannya, lalu dari setiap term tersebut dokumen yang terendah. setiap list dapat
akan diberikan bobot term (term weighting). dilihat sebagai preview dan juga dapat
Term yang telah mengalami proses dilihat dengan membuka dokumen tersebut
tokenizing, filtration, stemming dan term menggunakan aplikasi microsoft word untuk
weighting merupakan term yang akan dokumen yang berformat *.doc dan *.docx
menjadi indeks dari dokumen koleksi. sedangkan dokumen yang berformat *.pdf
dapat dijalankan dengan menggunakan
Proses kedua dimulai dari query, pada aplikasi pdf reader.
proses ini pengguna memasukan query, lalu
query tersebut dipecah (parse query) Selain proses pencarian dokumen,
menjadi beberapa tahapan proses, yaitu sistem juga menyediakan fitur penunjang
proses tokenizing, filtration dan stemming. yaitu fitur read document,fitur tokenization
Query yang telah mengalami proses fitur filtration,fitur stemming, fitur add
preprocessing dan menghasilkan term akan dictionary dan fitur add stop word list.
diberikan bobot dan akan menjadi indeks
Fungsionalitas
dari query.
Berdasarkan analisis, maka
Setelah preprocessing telah selesai
didefinisikan kebutuhan fungsionalitas-
maka selanjutnya adalah proses pengurutan
fungsionalitas yang meliputi fungsionalitas
dokumen menggunakan metoda Generalized
pencarian dokumen, fungsionalitas display
Vector Space Model, pengurutan dokumen
document, fungsionalitas update kamus
ini berdasarkan termquery yang berada pada
kata dasar, fungsionalitas update stop word
collection index (folder file) setiap
list, fungsionalitas read document,
dokumen. Setiap query akan dijadikan
fungsionalitas tokenizing, fungsionalitas
sebagai minterm dan dicari pada collection
filtration, dan fungsionalitas stemming.
index (folder file) yang kemudian akan
Seluruh fungsionalitas aplikasi dinyatakan
dilakukan penghitungan frekuensi termquery
pada use case pada Gambar 1.
pada setiap dokumen. Proses selanjutnya
adalah menghitung indeks term dan Activity diagram digunakan untuk
mengubah dokumen dan query kedalam mengilustrasikan aliran fungsional dalam
bentuk vektor. sebuah sistem. Dalam bussiness modeling,
activity diagram berguna untuk
Untuk menghitung korelasi atau
menggambarkan aliran bisnis atau bisnis
similiaritas antara dokumen dan query maka
workflow
dilakukan proses perkalian titik antara

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 62 
JURNAL INFORMATIKA 

Gambar 1. Use Case Diagram

Sequence diagram digunakan untuk menggambarkan prilaku sistem terhadap suatu


interaksi yang dilakukan pada sistem tersebut. Untuk memberikan kejelasan dalam alur dari
sistem secara teknis didalam melaksanakan fungsionalitas-fungsionalitas yang harus
difasilitasi oleh sistem yang dinyatakan pada use case diagram, maka dibuatlah sequence
diagram dari use case pencarian dokumen yang digambarkan pada Gambar 2.

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 63 
JURNAL INFORMATIKA 

Gambar 2 Sequence Diagram Pencarian Dokumen

Implementasi
Pada tahapan ini dilakukan Untuk dapat menguji fungsi pencarian
implementasi dan pengujian terhadap dokumen, dilakukan pengujian pencarian
aplikasi. Tahapan ini dilakukan setelah dokumen dengan query “Kecelakaan
perancangan selesai dilakukan dan Pesawat”. Pengujian ini dibagi menjadi dua
selanjutnya akan diimplementasikan pada bagian pengujian yaitu pengujian fungsi
bahasa pemrograman yang akan digunakan menu pencarian dokumen menggunakan
yaitu bahasa pemrograman java. multi thread yang diuraikan pada
Lampiran Tabel 3. dan fungsi
Pada aplikasi Information Retrieaval pencarian dokumen tanpa menggunakan
dengan metode Generalized Vector Space multi thread yang diuraikan pada
Model, dilakukan pengujian black box Lampiran Tabel 4. Hasil dari
testing yang berfungsi untuk menguji setiap pengujian pencarian dokumen menggunakan
fungsionalitas aplikasi yang telah dibuat.
multi Thread ditunjukan pada Gambar 3 dan
hasil dari pengujian pencarian dokumen

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 64 
JURNAL INFORMATIKA 

tanpa menggunakan multi thread ditunjukan pada Gambar 4.


Untuk menguji ketepatan dan keakuratan aplikasi Information Retrieaval menggunakan
metode Generalized Vector Space Model, dilakukan percobaan dengan menghitung nilai
precision dan nilai recall yang dipaparkan pada Tabel1. Hasil Pengujian. Precision
adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang
ditemukan oleh sistem. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak
memandang total jumlah dokumen yang relevan dalam kumpulan dokumen. Sedangkan
Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah
dokumen dalam kumpulan dokumen yang dianggap relevan.

G
Gambar 3 Pengujian Menggunakan Thread

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 65 
JURNAL INFORMATIKA 

Gambar 4 Pengujian Tanpa Menggunakan Thread

Tabel 1.Hasil Pengujian

Dengan Thread Tanpa Thread Waktu (Detik)


Dokumen
Jumlah
No yang
Dokumen Dengan Tanpa
ditemukan Precision Recall Precision Recall
Thread Thread

1 10 0 100 100 100 100 0,748 2.995

2 20 8 100 100 100 100 1.248 3.323

3 30 9 100 100 100 100 2.746 7.862

4 40 11 100 100 100 100 3.183 7.582

5 50 15 100 100 100 100 3.136 7.519

6 60 20 100 100 100 100 5.708 11.013

7 70 22 100 100 100 100 6.162 12.964

8 80 22 100 100 100 100 7.114 14.687

9 90 24 100 100 100 100 7.114 17.35

10 100 24 100 100 100 100 10.047 20.299

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 66 
JURNAL INFORMATIKA 

Berdasarkan hasil pengujian yang Daftar Pustaka


dilakukan dapat disimpulkan bahwa hasil
pencarian dan pengurutan aplikasi 1. Christopher D. Manning, dkk. 2009. An
information retrieaval menggunakan metode Introduction to Information
generalized vector space model dapat Retrieval.Cambridge University
menjalankan semua fungsionalitas pencarian Press.Cambrindge. England.
dengan baik dan memiliki ketepatan dan 2. Salton, G..1989.Automatic Text
keakuratan yang tinggi. Selain itu dapat Processing,The Transformation,
dilihat penggunaan multithread dan tanpa Analysis, andRetrieval of Information by
menggunakan multithread memiliki nilai Computer, Addison – Wesly Publishing
bobot dan perankingan yang sama. Tetapi Company,Inc. All rights reserved.
pada pengujian menggunakan multithread 3. Baeza, Ricardo, B. Ribeiro. 1999.
waktu yang dibutuhkan adalah 10,047 detik, Modern Information Retrieval. ACM
sedangkan pengujian tanpa menggunakan Press. United States of America.
multithread waktu yang dibutuhkan adalah 4. J.Kowalski Gerald.2000.Information
20,299 detik. Hal ini menunjukkan bahwa Storage and Retrieval Systems: Theory
menggunakan multithread dalam proses and Implementation. United States of
pencarian dan perankingan dapat America.
menghemat waktu lebih dari 50%. 5. Erwin dan Mandala. Rila. 2004.
Relevance Feedbackpada Temu Kembali
Kesimpulan Informasi Menggunakan Algoritma
Genetika.
Kesimpulan yang dapat diperoleh dari http://journal.uii.ac.id/index.php/Snati/art
penelitian ini adalah: icle/viewFile/1816/1595 (diakses pada
tanggal 23 Maret 2013).
1. Telah berhasil dikembangkan aplikasi
IR dengan metode GVSM dalam
mengambil dokumen berbahasa
Indonesia yang berformat *.doc, *.docx
dan *.pdf.
2. Aplikasi IR dengan metode GVSM
mampu menemukan kembali dokumen
yang relevan dan sudah terurut sesuai
dengan query yang dimasukan
pengguna dengan nilai precision dan
recall sebesar 100%.
3. Aplikasi IR dengan metode GVSM
bekerja dengan baik pada jumlah
dokumen sedikit maupun pada jumlah
dokumen yang banyak.
4. Penggunaan Multi Thread dalam proses
pencarian dan pengurutan dapat
menghemat waktu proses hingga lebih
dari 50%.

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 67 
JURNAL INFORMATIKA 

No.1 ,  Vol. 4, Januari – April 2013  ISSN: 2087‐5266 68 

Anda mungkin juga menyukai