Anda di halaman 1dari 8

INTEGRAL, Vol. 10 No.

2, Juli 2005

PERLUASAN VEKTOR PADA METODE SEARCH VECTOR SPACE


Kristopher David Harjono
Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Katolik Parahyangan, Bandung 40141 - INDONESIA E-mail : noir_mistral@yahoo.com

Intisari
Salah satu metode yang sering digunakan untuk mengukur relevansi pada suatu sistem temu kembali informasi adalah vector space model. Salah satu pengembangan terhadap vector space model adalah dengan cara melakukan perluasan terhadap vektor dokumen dan vektor query. Melalui perluasan ini diharapkan agar recall dari sistem temu kembali informasi tersebut dapat ditingkatkan. Pada perangkat lunak yang dibuat term-term yang ada pada suatu vektor diperluas dengan sinonimnya. Data sinonim ini diambil dari database WordNet. Kata kunci : Model vector space, perluasan vektor, WordNet.

Abstract
One of the most frequently used method for measuring relevance in an information retrieval system is the vector space model. Vector expansion is an improvement on vector space model that is aimed at improving the recall value of the search results. The terms of each vectors are expanded using their synonyms. The synonyms pairing is obtained from the WordNet database. Keywords : vector space model, vector expansion, WordNet

Diterima : 15 Februari 2005 Disetujui untuk dipublikasikan : 27 Juli 2005

1. Pendahuluan
Salah satu hal yang mempengaruhi recall suatu sistem temu kembali informasi adalah faktor bahasa yang digunakan pada dokumen yang akan dicari. Recall adalah kemampuan sistem temu kembali informasi tersebut untuk menemukan sebanyak mungkin dokumen yang relevan dengan query yang diberikan oleh pengguna. Recall didefinisikan sebagai perbandingan antara jumlah dokumen yang relevan yang

berhasil ditemukan dengan keseluruhan jumlah dokumen yang relevan. Sinonim kata adalah salah satu faktor dalam bahasa manusia yang dapat mempengaruhi recall suatu sistem temu kembali informasi. Adanya sinonim kata dapat menyebabkan turunnya recall dari sistem temu kembali informasi tersebut. Hal ini disebabkan adanya dokumen yang relevan dengan query pengguna namun tidak dapat ditemukan oleh sistem temu kembali

106

INTEGRAL, Vol. 10 No. 2, Juli 2005


informasi. Dokumen tersebut tidak dianggap relevan karena dokumen itu tidak mengandung keyword yang dicari, melainkan sinonim dari keyword tersebut. Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon[1]. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut. Dalam artikel ini akan dijelaskan tentang hasil penelitian terhadap perluasan vektor pada model vector space dengan menggunakan database WordNet sebagai sumber data perluasannya. Algoritma perluasan yang digunakan sebagian besar sama dengan yang pernah dijelaskan dalam [2]. Penelitian ini dilakukan dengan cara membangun sebuah perangkat lunak temu kembali informasi. Perangkat lunak ini mengimplementasikan metode vector space model dengan perluasan vektor.

3. Keterangan Tambahan Mengenai Perangkat Lunak yang Dibuat


Pada perangkat lunak ini digunakan algoritma stemming Paice-Husk dengan aturan yang dibuat oleh Antonio Zamora[4]. Pada implementasi perangkat lunak ini yang dianggap sebagai suatu term adalah kumpulan huruf yang dibatasi oleh karakter non huruf. Karakter 0-9 dianggap sebagai karakter non huruf.

4. Perluasan Vektor
Perluasan vektor adalah penambahan kumpulan term yang relevan kedalam vektor dokumen dan/atau vektor query. Tujuan dari perluasan vektor adalah untuk meningkatkan recall dari hasil pencarian. Pada penelitian ini term yang dianggap relevan adalah term yang memiliki hubungan sinonim dengan term asli. Perluasan dilakukan dengan menggunakan bagian noun dari database WordNet sebagai sumber data sinonim. Salah satu permasalahan utama dalam proses perluasan vektor adalah pemilihan synset yang tepat untuk digunakan dalam perluasan suatu term. Bila aturan pemilihan synset yang digunakan terlalu ketat maka jumlah term yang dapat diperluas menjadi terlalu sedikit sehingga efeknya terhadap recall menjadi sangat rendah. Sedangkan bila aturan perluasan yang digunakan terlalu longgar maka kedua vektor akan diperluas dengan banyak term yang sebenarnya tidak relevan sehingga precision dari hasil pencariannya akan turun dengan drastis. Pada algoritma perluasan yang digunakan dalam perangkat lunak yang dibuat, bila suatu synset dianggap memenuhi syarat maka setiap term dan collocation yang ada dalam synset tersebut akan ditambahkan ke dalam vektor tersebut. Kumpulan term dalam suatu collocation akan dianggap sebagai beberapa term yang terpisah. Contohnya adalah collocation hypodermic needle akan ditambahkan ke vektor sebagai term hypodermic dan term needle.

2. WordNet
WordNet adalah suatu sistem referensi leksikal yang bersifat online [3]. WordNet dikembangkan oleh Cognitive Science Laboratory di Universitas Princeton Arti dari suatu kata pada WordNet direpresentasikan dengan synonym sets (synsets). Synsets adalah daftar term atau collocation yang artinya sama dan dalam konteks tertentu penggunaannya dapat saling dipertukarkan. Dalam synset juga dicatat pointer-pointer ke synset lain yang digunakan untuk mendeskripsikan relasi antar synset. Contoh dari relasi-relasi yang dicatat dalam WordNet adalah antonim, hipernim, holonim, dan lain-lain.

107

INTEGRAL, Vol. 10 No. 2, Juli 2005


4.1 Aturan Perluasan Vektor Dokumen Perluasan term pada vektor dokumen dilakukan terhadap term yang bukan merupakan stop word. Perluasan ini dilakukan sebelum term tersebut di-stem. Pada proses perluasan vektor dokumen, bobot dari term hasil perluasan adalah hasil kali antara fd,t (frekuensi term dalam dokumen) dari bentuk unstemmed dari term asli dengan suatu faktor penyesuaian. Faktor penyesuaian adalah suatu konstanta yang berfungsi untuk mengurangi bobot dari suatu term hasil perluasan. Pengurangan bobot ini dapat dianggap sebagai penalti terhadap term yang merupakan hasil perluasan.Pada implementasi perangkat lunak ini hasil perkalian tersebut akan dibulatkan ke bawah. Aturan yang digunakan dalam proses perluasan vektor dokumen adalah : a. Bila term tersebut hanya muncul dalam satu synset maka synset tersebut langsung dianggap relevan b. Bila term tersebut muncul di lebih dari satu synset maka synset yang dianggap relevan adalah synset yang dirujuk paling sedikit dua kali oleh term yang berbeda. Bila synset tersebut dianggap relevan maka faktor penyesuaian akan di-set sebesar 0,8. Aturan perluasan vektor dokumen yang dijelaskan ini sama seperti yang dideskripsikan dalam [2]. 4.2 Aturan Perluasan Vektor Query Perluasan vektor query dilakukan terhadap bentuk unstemmed dari term-term query yang bukan merupakan stop word. Duplikat dari bentuk unstemmed dari term-term asli yang muncul akibat adanya proses perluasan akan dihilangkan. Pada proses perluasan vektor query, faktor penyesuaian akan dikalikan dengan wd,t stem dari term tersebut. Berbeda dengan proses perluasan vektor dokumen, perkalian pada proses perluasan vektor query dilakukan setelah wd,t selesai dihitung, yang artinya perkalian dengan faktor penyesuaian dilakukan diluar loge pada rumus wd,t. 108

w' q ,t = wq ,t adj N w' q ,t = log e 1 + adj ft

(1) (2)

N = jumlah seluruh dokumen yang diindeks. ft = jumlah dokumen yang mengandung term t. wq,t = bobot term dalam query bila dilakukan perluasan wq,t = bobot term pada query bila tidak dilakukan perluasan adj = faktor penyesuaian. Aturan yang digunakan dalam proses perluasan vektor query adalah : a. Bila term tersebut hanya muncul dalam satu synset maka kumpulan term dari synset tersebut diberi faktor penyesuaian sebesar 0,8. b. Bila term tersebut muncul di lebih dari satu synset maka kumpulan term dari synset yang dirujuk paling sedikit dua kali oleh term yang berbeda diberi faktor penyesuaian sebesar 0,8. c. Bila term tersebut muncul di lebih dari satu synset dan synset tersebut tidak dirujuk lebih dari satu kali maka kumpulan term dari synset tersebut diberi faktor penyesuaian sebesar 0,2. d. Term asli diberi faktor penyesuaian sebesar 1. Karena faktor penyesuaian dalam proses perluasan vektor query dikalikan di luar loge maka pengaruh faktor penyesuaian dalam perluasan vektor query lebih besar dibandingkan dengan pengaruhnya dalam proses perluasan vektor dokumen. Hal ini sejalan dengan lebih longgarnya aturan yang digunakan dalam perluasan vektor query pada perangkat lunak ini. Alasan penambahan aturan (c) dalam aturan perluasan vektor query adalah karena query biasanya hanya terdiri dari beberapa term. Hal ini menyebabkan hampir tidak mungkin ada query yang mengandung term yang dapat memenuhi aturan (b). Bila aturan (c) tidak ditambahkan maka efek dari perluasan vektor terhadap vektor query menjadi hampir tidak ada karena aturan yang digunakan terlalu ketat. Efek samping dari adanya aturan (c) adalah meningkatnya jumlah term hasil perluasan yang tidak relevan dengan query aslinya.

INTEGRAL, Vol. 10 No. 2, Juli 2005


70000

5. Pengujian
5.1 Pengujian Proses Indexing Pengujian ini dilakukan untuk menguji efek dari perluasan terhadap ukuran indeks serta waktu yang dibutuhkan untuk membuat indeks tersebut. Pengujian ini dilakukan dengan cara membandingkan hasil dan waktu pembuatan indeks antara proses pembuatan indeks dengan perluasan dan tanpa perluasan. Pengujian terhadap proses indexing dilakukan pada set-set dokumen yang ada pada tabel 1.
Set Jumlah File Ukuran Total (MB)
Stem

60000 50000 40000 30000 20000 10000 0 1 2 3 Set Dokumen 4 5 Tidak Diperluas Diperluas

Gambar 3 : Jumlah Stem yang Diindeks


100 Panjang Vektor Rata-Rata 90 80 70 60 50 40 30 20 10 0 1 2 3 4 5 Set Dokumen Tidak Diperluas Diperluas

1 2 3 4 5

141 96 179 141 557

12 12 12,1 11,6 48

Tabel 1 : Jumlah File dan Ukuran Total Set Dokumen Pengujian

Rekapitulasi dari kelima percobaan tersebut ditampilkan dalam Gambar 1, Gambar 2, Gambar 3, dan Gambar 4.
160 140 120 100 Detik 80 60 40 20 0 1 2 3 4 5 Set Dokumen Tidak Diperluas Diperluas

Gambar 4 : Panjang Vektor Dokumen RataRata

Berdasarkan kelima percobaan tersebut diperoleh : Waktu proses pembuatan indeks meningkat rata-rata sebesar 205,78 % Ukuran indeks meningkat rata-rata sebesar 12,27 % Jumlah stem yang diindeks meningkat rata-rata sebesar 5,71 % Panjang vektor dokumen meningkat rata-rata sebesar 12,37 % Salah satu kemungkinan penyebab terjadinya peningkatan waktu proses indexing yang sangat besar adalah karena adanya kesalahan dalam pemilihan struktur data yang digunakan untuk menyimpan kandidat-kandidat synset yang akan digunakan dalam perluasan. Karena sebagian besar term muncul dalam beberapa synset sekaligus maka jumlah kandidat synset yang disimpan dapat mencapai beberapa kali dari jumlah term yang unik dalam dokumen tersebut. 5.2 Pengujian Proses Search Setiap pengujian dilakukan dalam 4 kombinasi yaitu : a. Tidak dilakukan perluasan. b. Perluasan dilakukan pada vektor query. 109

Gambar 1 : Waktu yang Diperlukan oleh Proses Indexing


1800 1600 1400 1200 KB 1000 800 600 400 200 0 1 2 3 Set Dokumen 4 5 Tidak Diperluas Diperluas

Gambar 2 : Ukuran Indeks yang Dihasilkan

INTEGRAL, Vol. 10 No. 2, Juli 2005


c. Perluasan dilakukan pada dokumen. d. Perluasan dilakukan pada dokumen dan vektor query. vektor vektor Term airplane pada vektor dokumen selalu dapat diperluas menjadi aeroplane karena term ini hanya muncul di satu synset. Term plane pada vektor dokumen belum tentu dapat diperluas menjadi aeroplane karena term ini muncul di banyak synset. Hal yang menyebabkan precision dari hasil search dengan perluasan vektor lebih tinggi daripada hasil search tanpa perluasan vektor adalah karena tanpa perluasan vektor, proses search tidak mampu mengembalikan satupun dokumen yang relevan. Hal ini menyebabkan precision dari proses search tanpa perluasan vektor selalu bernilai 0 % untuk setiap tingkat recall . 5.2.2 Pengujian 2 Query untuk pengujian 2 adalah call of duty. Hasil yang dianggap relevan adalah dokumen yang berhubungan dengan game Call of Duty. Perluasan terhadap query adalah : o option,responsibility,, telephone, yell, vociferation, song, tariff, shout,phone,outcry,obligation, margin, cry, claim, birdcall, dan birdsong, dengan adjustment 0,2.
100,00% 80,00% Precision 60,00% 40,00% 20,00% 0,00% 1 2 3 4 5 6 Dok. Relevan Kombinasi (a) Kombinasi (c) Kombinasi (b) Kombinasi (d)

meningkatkan nilai relevansi dari dokumen yang tidak relevan.

Waktu proses yang dibutuhkan oleh semua kombinasi dalam semua pengujian proses search ada di bawah ketepatan timer yang digunakan dalam pengujian. Oleh karena itu peningkatan waktu proses search yang disebabkan karena adanya perluasan vektor tidak dapat diketahui dalam pengujian ini. 5.2.1 Pengujian 1 Query untuk pengujian 1 adalah aeroplane game. Hasil yang dianggap relevan dengan pengujian ini adalah dokumen yang berhubungan dengan suatu game mengenai pesawat terbang. Perluasan terhadap query adalah : o airplane, dan plane, dengan adjustment 0,8. o secret, plan, plot, dan biz dengan adjustment 0,2.
60% 50% Precision 40% 30% 20% 10% 0% 1 2 Dok. Relevan Kombinasi (a) Kombinasi (c) Kombinasi (b) Kombinasi (d) 3 4

Gambar 5 : Grafik Precision-Dok. Relevan Pengujian 1

Query ini dirancang untuk mempersulit pemodelan ruang vektor biasa. Hal ini dilakukan dengan menggunakan kata yang tidak umum untuk digunakan. Tidak ada dokumen yang relevan yang mengandung kata aeroplane. Dokumen yang relevan menggunakan kata airplane, plane, atau aircraft. Airplane dan plane adalah sinonim dari aeroplane, sedangkan aircraft adalah hipernim dari aeroplane. Perluasan dari kata game yaitu secret, plot dan biz justru mengganggu precision dari proses searching karena

Gambar 6 : Grafik Precision-Dok. Relevan Pengujian 2

Query dari pengujian 2, 3, dan 4 dirancang untuk mempersulit vector space model yang diperluas dengan cara menggunakan query yang merupakan suatu judul game. Hal ini menyebabkan perluasan yang dilakukan hanya dapat memperburuk recall dan precision dari hasil pencarian karena term110

INTEGRAL, Vol. 10 No. 2, Juli 2005


term yang relevan dengan dokumen yang diinginkan hanyalah term-term aslinya. 5.2.3 Pengujian 3 Query untuk pengujian 3 adalah final fantasy. Hasil yang dianggap relevan adalah dokumen yang berhubungan dengan game Final Fantasy. Perluasan terhadap query adalah : o illusion, phantasy, examination, fancy,dan exam, dengan adjustment 0,2.
100% 80% Precision 60% 40% 20% 0% 1 2 3 Dok. Relevan Kombinasi (a) Kombinasi (c) Kombinasi (b) Kombinasi (d) 4 5

Kemungkinan penyebab ketiga adalah bahwa perluasan vektor dokumen akan meningkatkan panjang vektor dari sebagian besar dokumen. Hal ini akan menyebabkan nilai relevansi dari dokumen tersebut akan menjadi semakin kecil. Semakin banyak perluasan yang dilakukan terhadap dokumen tersebut, maka semakin kecil nilai relevansi dari dokumen tersebut. Hal ini dapat secara tidak sengaja menurunkan nilai relevansi dari dokumen yang tidak relevan. Hal ini menjelaskan mengapa kombinasi (c) dapat memiliki precision yang lebih tinggi dibandingkan kombinasi (a) pada tingkat recall 5 dokumen. 5.2.4 Pengujian 4 Query untuk pengujian 4 adalah resident evil. Hasil yang dianggap relevan adalah dokumen yang berhubungan dengan game Resident Evil. Perluasan terhadap query adalah : o wickedness, house, physician, immorality, iniquity, occupant, occupier, dan evilness, dengan adjustment 0,2.
100% 80% Precision 60% 40% 20% 0% 1 2 Dok. Relevan 3 4

Gambar 7 : Grafik Precision-Dok. Relevan Pengujian 3

Kombinasi (b) mampu mengembalikan 4 dokumen relevan pada 7 dokumen paling atas. Kombinasi (b) dan (c) mampu mengembalikan 5 dokumen relevan pada 11 dokumen paling atas. Kedua hasil tersebut menyebabkan precision dari kedua kombinasi tersebut pada tingkat-tingkat tertentu lebih baik daripada kombinasi (a). Penyebab pertama dari hal tersebut adalah bahwa dokumen keempat mengandung term fans dan fanatically. Stem dari kedua term ini adalah fan yang secara kebetulan juga merupakan stem dari fancy. Hal ini menyebabkan nilai relevansi untuk dokumen ini pada kombinasi (b) lebih tinggi dibandingkan kombinasi (a), dan pada kombinasi (d) lebih tinggi dibandingkan kombinasi (c). Penyebab kedua adalah bahwa dokumen kelima juga mengandung term fans sehingga memungkinkan kombinasi (b) pada tingkat recall 5 dokumen untuk memiliki precision lebih tinggi dibandingkan (a).

Kombinasi (a) Kombinasi (c)

Kombinasi (b) Kombinasi (d)

Gambar 8 : Grafik Precision-Dok. Relevan Pengujian 4

6. Kesimpulan
1. Metode perluasan vektor dalam kasuskasus tertentu mampu meningkatkan recall dari proses search secara cukup besar. 2. Metode perluasan vektor secara umum pada tingkat recall yang sama akan menurunkan tingkat precision dari hasil search. 3. Peningkatan waktu eksekusi yang terjadi akibat proses perluasan vektor dalam sebagian besar percobaan hanya terjadi dalam proses pembuatan indeks 111

INTEGRAL, Vol. 10 No. 2, Juli 2005


yang diperluas saja. Peningkatan waktu eksekusi yang diperlukan untuk proses searching dengan perluasan vektor sulit untuk diukur karena perbedaan waktunya sangat kecil. 4. Algoritma yang digunakan untuk melakukan perluasan vektor dokumen tidak memadai untuk digunakan karena banyak kemungkinan perluasan yang sebenarnya relevan namun tidak digunakan. 5. Efektivitas metode perluasan vektor sangat dipengaruhi oleh jenis kumpulan dokumen yang diindeks. Bila proses pencarian yang sering dilakukan terhadap kumpulan dokumen tersebut adalah suatu pencarian terhadap suatu frase tertentu maka metode perluasan vektor hanya akan menurunkan precision dari hasil pencariannya. Metode perluasan vektor akan lebih cocok untuk digunakan pada kumpulan dokumen yang memuat konsep-konsep yang dapat direpresentasikan dengan lebih dari satu kata. dapat digunakan sebagai salah satu filter untuk memilih term mana saja yang memang perlu diperluas. Menggunakan file WordNet dengan kategori selain noun. Hal ini disebabkan karena pada kategorikategori tersebut sering muncul sinonim kata yang penggunaannya sering dipertukarkan. Menggunakan metode penghilangan ambiguitas yang lebih baik dibandingkan aturan yang digunakan sekarang. Aturan yang digunakan sekarang terlalu membatasi proses perluasan vektor dokumen. Voorhees dkk. telah menyarankan digunakannya POS tagging sebagai salah satu metode penghilangan ambiguitas. Relasi-relasi yang ada pada WordNet sebaiknya digunakan dalam proses perluasan suatu term. Relasi-relasi yang tampaknya berguna dalam perluasan adalah relasi hipernim dan hiponim. Karena setiap noun biasanya mempunyai banyak pointer hipernim dan hiponim maka sebaiknya hal ini hanya dilakukan pada perluasan vektor query. Menambahkan kemampuan bagi pengguna untuk menandai term-term yang tidak ingin diperluas. Melakukan perluasan pada bentuk tunggal dari term yang akan diperluas. Hal ini disebabkan karena WordNet biasanya menyimpan kata-kata benda dalam bentuk tunggal dalam databasenya. Bila metode penghilangan ambiguitas yang digunakan telah mampu membedakan antar konsep yang diwakili oleh suatu term dengan baik, dapat dicoba dibuat suatu vector space model dimana sumbu-sumbunya mewakili suatu synset. Penggunaan metode stemming dan metode perluasan vektor pada proses pembuatan indeks perangkat lunak ini memunculkan beberapa hal yang membutuhkan pengujian lebih lanjut untuk diketahui efeknya terhadap proses perluasan, yaitu a) apakah sebaiknya bobot untuk term hasil perluasan diambil dari bobot term aslinya sebelum distem, atau menggunakan bobot dari stem term aslinya

5.

6.

7.

7. Saran
1. Memperluas suatu collocation sebagai satu kesatuan, dan bukan sebagai beberapa term yang terpisah. 2. Menambahkan kemampuan untuk mengenali suatu collocation sebagai satu kesatuan, dan bukan sebagai katakata terpisah pada metode pengukuran relevansi yang digunakan 3. Karena file indeks dan file data WordNet banyak mengandung datadata yang tidak dibutuhkan dalam proses perluasan maka sebaiknya digunakan struktur file yang lebih sederhana dalam proses perluasan vektor. 4. Pada perangkat lunak ini semua term yang bukan stop word dalam dokumen akan diperluas. Hal ini menyebabkan tingginya kemungkinan terjadinya perluasan yang salah atau tidak perlu. Salah satu kemungkinan cara untuk mengurangi hal itu adalah dengan menggunakan field lex_filenum pada file data WordNet. Field ini berisi kategori dari synset tersebut, contohnya adalah noun.shape, noun.time, noun.feeling dan lain-lain. Bila kita mengetahui mengenai jenis isi dokumen yang diindeks maka field ini 112 8.

9.

10.

11.

INTEGRAL, Vol. 10 No. 2, Juli 2005


b) bagaimanakah sebaiknya pendistribusian bobot untuk termterm hasil perluasan [2] Voorhees, Ellen M., Hou, Yuan-Wang, Vector Expansion in a Large Collection. Siemens Corporate Research, Inc. http://trec.nist.gov/pubs/trec1/papers/27 .txt, tanggal akses 6 Agustus 2004. [3] WordNet 2.0 Reference Manual [4] Zamora, Antonio, Modifications to the Paice / Husk Stemmer. http://www.scientificpsychic.com/paice /paice.html, tanggal akses 9 Agustus 2004

8. Daftar Pustaka
[1] Witten, Ian H., Moffat, Alistair, Bell, Timothy C., Managing Gigabytes: Compressing and Indexing Documents and Images, second edition. Morgan Kaufmann Publishers, Academic Press, 1999

113

Anda mungkin juga menyukai