Perluasan Vektor
Perluasan Vektor
2, Juli 2005
Intisari
Salah satu metode yang sering digunakan untuk mengukur relevansi pada suatu sistem temu kembali informasi adalah vector space model. Salah satu pengembangan terhadap vector space model adalah dengan cara melakukan perluasan terhadap vektor dokumen dan vektor query. Melalui perluasan ini diharapkan agar recall dari sistem temu kembali informasi tersebut dapat ditingkatkan. Pada perangkat lunak yang dibuat term-term yang ada pada suatu vektor diperluas dengan sinonimnya. Data sinonim ini diambil dari database WordNet. Kata kunci : Model vector space, perluasan vektor, WordNet.
Abstract
One of the most frequently used method for measuring relevance in an information retrieval system is the vector space model. Vector expansion is an improvement on vector space model that is aimed at improving the recall value of the search results. The terms of each vectors are expanded using their synonyms. The synonyms pairing is obtained from the WordNet database. Keywords : vector space model, vector expansion, WordNet
1. Pendahuluan
Salah satu hal yang mempengaruhi recall suatu sistem temu kembali informasi adalah faktor bahasa yang digunakan pada dokumen yang akan dicari. Recall adalah kemampuan sistem temu kembali informasi tersebut untuk menemukan sebanyak mungkin dokumen yang relevan dengan query yang diberikan oleh pengguna. Recall didefinisikan sebagai perbandingan antara jumlah dokumen yang relevan yang
berhasil ditemukan dengan keseluruhan jumlah dokumen yang relevan. Sinonim kata adalah salah satu faktor dalam bahasa manusia yang dapat mempengaruhi recall suatu sistem temu kembali informasi. Adanya sinonim kata dapat menyebabkan turunnya recall dari sistem temu kembali informasi tersebut. Hal ini disebabkan adanya dokumen yang relevan dengan query pengguna namun tidak dapat ditemukan oleh sistem temu kembali
106
4. Perluasan Vektor
Perluasan vektor adalah penambahan kumpulan term yang relevan kedalam vektor dokumen dan/atau vektor query. Tujuan dari perluasan vektor adalah untuk meningkatkan recall dari hasil pencarian. Pada penelitian ini term yang dianggap relevan adalah term yang memiliki hubungan sinonim dengan term asli. Perluasan dilakukan dengan menggunakan bagian noun dari database WordNet sebagai sumber data sinonim. Salah satu permasalahan utama dalam proses perluasan vektor adalah pemilihan synset yang tepat untuk digunakan dalam perluasan suatu term. Bila aturan pemilihan synset yang digunakan terlalu ketat maka jumlah term yang dapat diperluas menjadi terlalu sedikit sehingga efeknya terhadap recall menjadi sangat rendah. Sedangkan bila aturan perluasan yang digunakan terlalu longgar maka kedua vektor akan diperluas dengan banyak term yang sebenarnya tidak relevan sehingga precision dari hasil pencariannya akan turun dengan drastis. Pada algoritma perluasan yang digunakan dalam perangkat lunak yang dibuat, bila suatu synset dianggap memenuhi syarat maka setiap term dan collocation yang ada dalam synset tersebut akan ditambahkan ke dalam vektor tersebut. Kumpulan term dalam suatu collocation akan dianggap sebagai beberapa term yang terpisah. Contohnya adalah collocation hypodermic needle akan ditambahkan ke vektor sebagai term hypodermic dan term needle.
2. WordNet
WordNet adalah suatu sistem referensi leksikal yang bersifat online [3]. WordNet dikembangkan oleh Cognitive Science Laboratory di Universitas Princeton Arti dari suatu kata pada WordNet direpresentasikan dengan synonym sets (synsets). Synsets adalah daftar term atau collocation yang artinya sama dan dalam konteks tertentu penggunaannya dapat saling dipertukarkan. Dalam synset juga dicatat pointer-pointer ke synset lain yang digunakan untuk mendeskripsikan relasi antar synset. Contoh dari relasi-relasi yang dicatat dalam WordNet adalah antonim, hipernim, holonim, dan lain-lain.
107
(1) (2)
N = jumlah seluruh dokumen yang diindeks. ft = jumlah dokumen yang mengandung term t. wq,t = bobot term dalam query bila dilakukan perluasan wq,t = bobot term pada query bila tidak dilakukan perluasan adj = faktor penyesuaian. Aturan yang digunakan dalam proses perluasan vektor query adalah : a. Bila term tersebut hanya muncul dalam satu synset maka kumpulan term dari synset tersebut diberi faktor penyesuaian sebesar 0,8. b. Bila term tersebut muncul di lebih dari satu synset maka kumpulan term dari synset yang dirujuk paling sedikit dua kali oleh term yang berbeda diberi faktor penyesuaian sebesar 0,8. c. Bila term tersebut muncul di lebih dari satu synset dan synset tersebut tidak dirujuk lebih dari satu kali maka kumpulan term dari synset tersebut diberi faktor penyesuaian sebesar 0,2. d. Term asli diberi faktor penyesuaian sebesar 1. Karena faktor penyesuaian dalam proses perluasan vektor query dikalikan di luar loge maka pengaruh faktor penyesuaian dalam perluasan vektor query lebih besar dibandingkan dengan pengaruhnya dalam proses perluasan vektor dokumen. Hal ini sejalan dengan lebih longgarnya aturan yang digunakan dalam perluasan vektor query pada perangkat lunak ini. Alasan penambahan aturan (c) dalam aturan perluasan vektor query adalah karena query biasanya hanya terdiri dari beberapa term. Hal ini menyebabkan hampir tidak mungkin ada query yang mengandung term yang dapat memenuhi aturan (b). Bila aturan (c) tidak ditambahkan maka efek dari perluasan vektor terhadap vektor query menjadi hampir tidak ada karena aturan yang digunakan terlalu ketat. Efek samping dari adanya aturan (c) adalah meningkatnya jumlah term hasil perluasan yang tidak relevan dengan query aslinya.
5. Pengujian
5.1 Pengujian Proses Indexing Pengujian ini dilakukan untuk menguji efek dari perluasan terhadap ukuran indeks serta waktu yang dibutuhkan untuk membuat indeks tersebut. Pengujian ini dilakukan dengan cara membandingkan hasil dan waktu pembuatan indeks antara proses pembuatan indeks dengan perluasan dan tanpa perluasan. Pengujian terhadap proses indexing dilakukan pada set-set dokumen yang ada pada tabel 1.
Set Jumlah File Ukuran Total (MB)
Stem
60000 50000 40000 30000 20000 10000 0 1 2 3 Set Dokumen 4 5 Tidak Diperluas Diperluas
1 2 3 4 5
12 12 12,1 11,6 48
Rekapitulasi dari kelima percobaan tersebut ditampilkan dalam Gambar 1, Gambar 2, Gambar 3, dan Gambar 4.
160 140 120 100 Detik 80 60 40 20 0 1 2 3 4 5 Set Dokumen Tidak Diperluas Diperluas
Berdasarkan kelima percobaan tersebut diperoleh : Waktu proses pembuatan indeks meningkat rata-rata sebesar 205,78 % Ukuran indeks meningkat rata-rata sebesar 12,27 % Jumlah stem yang diindeks meningkat rata-rata sebesar 5,71 % Panjang vektor dokumen meningkat rata-rata sebesar 12,37 % Salah satu kemungkinan penyebab terjadinya peningkatan waktu proses indexing yang sangat besar adalah karena adanya kesalahan dalam pemilihan struktur data yang digunakan untuk menyimpan kandidat-kandidat synset yang akan digunakan dalam perluasan. Karena sebagian besar term muncul dalam beberapa synset sekaligus maka jumlah kandidat synset yang disimpan dapat mencapai beberapa kali dari jumlah term yang unik dalam dokumen tersebut. 5.2 Pengujian Proses Search Setiap pengujian dilakukan dalam 4 kombinasi yaitu : a. Tidak dilakukan perluasan. b. Perluasan dilakukan pada vektor query. 109
Waktu proses yang dibutuhkan oleh semua kombinasi dalam semua pengujian proses search ada di bawah ketepatan timer yang digunakan dalam pengujian. Oleh karena itu peningkatan waktu proses search yang disebabkan karena adanya perluasan vektor tidak dapat diketahui dalam pengujian ini. 5.2.1 Pengujian 1 Query untuk pengujian 1 adalah aeroplane game. Hasil yang dianggap relevan dengan pengujian ini adalah dokumen yang berhubungan dengan suatu game mengenai pesawat terbang. Perluasan terhadap query adalah : o airplane, dan plane, dengan adjustment 0,8. o secret, plan, plot, dan biz dengan adjustment 0,2.
60% 50% Precision 40% 30% 20% 10% 0% 1 2 Dok. Relevan Kombinasi (a) Kombinasi (c) Kombinasi (b) Kombinasi (d) 3 4
Query ini dirancang untuk mempersulit pemodelan ruang vektor biasa. Hal ini dilakukan dengan menggunakan kata yang tidak umum untuk digunakan. Tidak ada dokumen yang relevan yang mengandung kata aeroplane. Dokumen yang relevan menggunakan kata airplane, plane, atau aircraft. Airplane dan plane adalah sinonim dari aeroplane, sedangkan aircraft adalah hipernim dari aeroplane. Perluasan dari kata game yaitu secret, plot dan biz justru mengganggu precision dari proses searching karena
Query dari pengujian 2, 3, dan 4 dirancang untuk mempersulit vector space model yang diperluas dengan cara menggunakan query yang merupakan suatu judul game. Hal ini menyebabkan perluasan yang dilakukan hanya dapat memperburuk recall dan precision dari hasil pencarian karena term110
Kemungkinan penyebab ketiga adalah bahwa perluasan vektor dokumen akan meningkatkan panjang vektor dari sebagian besar dokumen. Hal ini akan menyebabkan nilai relevansi dari dokumen tersebut akan menjadi semakin kecil. Semakin banyak perluasan yang dilakukan terhadap dokumen tersebut, maka semakin kecil nilai relevansi dari dokumen tersebut. Hal ini dapat secara tidak sengaja menurunkan nilai relevansi dari dokumen yang tidak relevan. Hal ini menjelaskan mengapa kombinasi (c) dapat memiliki precision yang lebih tinggi dibandingkan kombinasi (a) pada tingkat recall 5 dokumen. 5.2.4 Pengujian 4 Query untuk pengujian 4 adalah resident evil. Hasil yang dianggap relevan adalah dokumen yang berhubungan dengan game Resident Evil. Perluasan terhadap query adalah : o wickedness, house, physician, immorality, iniquity, occupant, occupier, dan evilness, dengan adjustment 0,2.
100% 80% Precision 60% 40% 20% 0% 1 2 Dok. Relevan 3 4
Kombinasi (b) mampu mengembalikan 4 dokumen relevan pada 7 dokumen paling atas. Kombinasi (b) dan (c) mampu mengembalikan 5 dokumen relevan pada 11 dokumen paling atas. Kedua hasil tersebut menyebabkan precision dari kedua kombinasi tersebut pada tingkat-tingkat tertentu lebih baik daripada kombinasi (a). Penyebab pertama dari hal tersebut adalah bahwa dokumen keempat mengandung term fans dan fanatically. Stem dari kedua term ini adalah fan yang secara kebetulan juga merupakan stem dari fancy. Hal ini menyebabkan nilai relevansi untuk dokumen ini pada kombinasi (b) lebih tinggi dibandingkan kombinasi (a), dan pada kombinasi (d) lebih tinggi dibandingkan kombinasi (c). Penyebab kedua adalah bahwa dokumen kelima juga mengandung term fans sehingga memungkinkan kombinasi (b) pada tingkat recall 5 dokumen untuk memiliki precision lebih tinggi dibandingkan (a).
6. Kesimpulan
1. Metode perluasan vektor dalam kasuskasus tertentu mampu meningkatkan recall dari proses search secara cukup besar. 2. Metode perluasan vektor secara umum pada tingkat recall yang sama akan menurunkan tingkat precision dari hasil search. 3. Peningkatan waktu eksekusi yang terjadi akibat proses perluasan vektor dalam sebagian besar percobaan hanya terjadi dalam proses pembuatan indeks 111
5.
6.
7.
7. Saran
1. Memperluas suatu collocation sebagai satu kesatuan, dan bukan sebagai beberapa term yang terpisah. 2. Menambahkan kemampuan untuk mengenali suatu collocation sebagai satu kesatuan, dan bukan sebagai katakata terpisah pada metode pengukuran relevansi yang digunakan 3. Karena file indeks dan file data WordNet banyak mengandung datadata yang tidak dibutuhkan dalam proses perluasan maka sebaiknya digunakan struktur file yang lebih sederhana dalam proses perluasan vektor. 4. Pada perangkat lunak ini semua term yang bukan stop word dalam dokumen akan diperluas. Hal ini menyebabkan tingginya kemungkinan terjadinya perluasan yang salah atau tidak perlu. Salah satu kemungkinan cara untuk mengurangi hal itu adalah dengan menggunakan field lex_filenum pada file data WordNet. Field ini berisi kategori dari synset tersebut, contohnya adalah noun.shape, noun.time, noun.feeling dan lain-lain. Bila kita mengetahui mengenai jenis isi dokumen yang diindeks maka field ini 112 8.
9.
10.
11.
8. Daftar Pustaka
[1] Witten, Ian H., Moffat, Alistair, Bell, Timothy C., Managing Gigabytes: Compressing and Indexing Documents and Images, second edition. Morgan Kaufmann Publishers, Academic Press, 1999
113