51 BC
51 BC
Full-text search and metadata-enabled search have weakness in the precision of the searched article. This research offers
weighted tree similarity algorithm combined with cosine similarity method to count similarity in semantic search. In
this method metadata is constructed based on the tree of labelled node, labelled and weighted branch. The structure of
tree metadata is constructed based on semantic information like taxonomi, ontologi, preference, synonim, homonym and
stemming. From testing result, the precision of search using weighted tree similarity algorithm is better that full-text search
and metadata-enabled search.
Keywords: weighted tree similarity, semantic search, cosine similarity
39
Volume 7, Nomor 1, Januari 2008 : 39–46
40
Sarno, Penerapan Algoritma Weighted Tree Similarity untuk Pencarian Semantik
0
aritmatika (wi + wi )/2. Nilai rata-rata bobot sebuah ca-
bang dikalikan dengan kemiripan Si yang diperoleh secara
rekursif. Nilai Si pertama diperoleh berdasar kemiripan
leaf node dan dapat diatur nilainya menggunakan fungsi
A(Si ). Pada awalnya algoritma weighted tree similarity
hanya memberi nilai 1 bila leaf node-nya sama dan 0 bila Gambar 4: Pencarian semantik dengan algoritma weighted
berbeda [4]. Perumusan penghitungan kemiripan tree ini tree similarity
terdapat di dalam persamaan berikut:
X 0
(A(Si )(wi + wi )/2) (1)
artikel Wikipedia. Sebagai contoh, dalam makalah [12]
0 representasi weighted tree sebuah artikel ditetapkan seba-
dengan A(Si ) adalah nilai kemiripan leaf node, wi dan wi gaimana dalam Gambar 5. Nilai-nilai node dan cabang
adalah bobot pasangan arc weighted tree. Penilaian A(Si ) weighted tree diperoleh dengan mengakses field-field ter-
analog dengan logika AND sedangkan penilaian bobot pa- tentu dalam database Mediawiki.
sangan analog dengan logika OR. Pencarian semantik dengan algoritma weighted tree si-
Di dalam contoh pada Gambar 3 perilaku algoritma milarity dapat diterapkan pada pencarian dokumen, pen-
dapat dijelaskan sebagai berikut. Pada awalnya dihitung carian halaman web, atau pencarian artikel. Makalah ini
kemiripan node cabang activity yang diperoleh 1. Kemiri- mengusulkan pengindeksan koleksi dokumen dengan mem-
pan ini dikalikan rata-rata bobot cabang activity (0,4+0,4)/2 bangkitan metadatanya sebelum pengguna melakukan query.
menghasilkan kemiripan cabang. Algoritma kemudian men- Ketika pengguna melakukan query operasi penghitungan
cari kemiripan node cabang berikutnya, place. Karena node kemiripan dilakukan dengan metadata tidak dengan teks
ini bukan leaf maka algoritma akan turun ke bawah menghi- dokumen secara langsung. Dalam pembangkitan metadata
tung kemiripan cabang name. Algoritma kemudian menghi- ini diusulkan perlunya penelusuran teks secara menyeluruh
tung kemiripan cabang type dan diakumulasi dengan kemiri- untuk menemukan sekumpulan term representasi konten
pan cabang name. Akumulasi ini merupakan nilai kemiri- sebuah dokumen. Dengan kata lain dokumen direpresen-
pan subtree restaurant. Algoritma bergerak ke cabang tool tasikan sebagai sebuah vektor term.
dan akumulasi kemiripan dengan cabang lain yang setingkat Dalam Gambar 5, representasi tree sebuah artikel Wiki-
menghasilkan kemiripan total. pedia memiliki sebuah subtree keyword dimana sekumpu-
lan term mewakili konten sebuah dokumen. Sekumpulan
3 PENCARIAN SEMANTIK term yang mewakili sebuah dokumen ini pada umumnya
Merujuk pada makalah [5] pencarian semantik dengan al- direpresentasikan sebagai vektor term. Di dalam makalah
goritma weighted tree similarity diuraikan dalam Gambar ini vektor term sebuah dokumen direpresentasikan pula se-
4. Sistem terdiri atas dua proses, proses indexing dan proses bagai tree berbobot agar metadata sebuah dokumen men-
retrieval. Proses indexing terdiri atas pembangkit meta- jadi satu kesatuan file WOORuleML. Hal ini dilakukan
data dan penyimpan metadata. Sedangkan proses retrieval karena standar metadata WOORuleML digunakan dalam
berintikan algoritma weighted tree similarity. Pembahasan makalah ini untuk merepresentasikan sebuah tree berbobot.
pembangkitan metadata weighted tree akan diuraikan lebih Tree berbobot vektor term ini diberi nama subtree keywords.
lanjut di dalam Bagian 3.1, sedangkan pembahasan peng- Uraian lebih lanjut subtree keyword terdapat dalam Bagian
gabungan penghitungan weighted tree similarity dengan 3.1.1.
cosine similarity akan diuraikan di dalam Bagian 3.2.
3.1.1 Subtree Keywords
3.1 Pembangkitan Metadata Tree Dalam makalah ini konten dokumen direpresentasikan se-
Pembangkitan metadata sangat bergantung bentuk repre- bagai term vectors [14] dalam bentuk:
sentasi tree yang ditetapkan dan ini bersifat kasuistik. Re-
presentasi tree yang cocok untuk jual beli mobil akan ber- d = (d0 , d1 , ..., dn ) (2)
beda dengan representasi tree untuk berita online ataupun
41
Volume 7, Nomor 1, Januari 2008 : 39–46
42
Sarno, Penerapan Algoritma Weighted Tree Similarity untuk Pencarian Semantik
43
Volume 7, Nomor 1, Januari 2008 : 39–46
44
Sarno, Penerapan Algoritma Weighted Tree Similarity untuk Pencarian Semantik
Tabel 3: Penghitungan kemiripan cabang Tabel 4: Hasil pengujian Full-text dan metadata
T1 T2 S No Query terms Kategori Precision
Cat Tom 0 Full-text Metadata
Mouse Tom 0 1 House living Arts 0.04 0.35
Tom Tom 1 2 Animal kingdom Biology and 0.04 0.5
Jerry Tom 0 Medicine
Cat Doraemon 0 3 Animal song Biology and 0.08 0.29
Mouse Doraemon 0 Medicine
Tom Doraemon 0 4 Car Transport 0.23 0.4
Jerry Doraemon 0 5 Book Literature 0.25 0.67
Cat Mouse 0 Rata-rata 0.13 0.44
Mouse Mouse 1
Tom Mouse 0
Jerry Mouse 0
Tabel 5: Hasil pengujian dengan weighted tree similarity
No Query Precision dengan nilai kemiripan ≥ 0,8
1 Q1 1/1
2 Q2 1/1
3 Q3 1/2
4 Q4 2/2
5 Q5 2/2
Rata-rata 0.9
45
Volume 7, Nomor 1, Januari 2008 : 39–46
on Business Agents and the Semantic Web, National Nasional Teknologi Informasi dan Komunikasi, De-
Research Council of Canada, Institute for Informa- partment of Informatics, ITS Surabaya (Mei 2008)
tion Technology, Fredericton (June 2003) 53–72
[11] Yang, L., Ball, M., Bhavsar, V.C., Boley, H.:
[5] Boley, H., Bhavsar, V.C., Hirtle, D., Singh, A., Sun, Weighted Partonomy Taxonomy Trees with Lo-
Z., Yang, L.: A Match-making System for Learners cal Similarity Measures for Semantic Buyer-Seller
and Learning Objects. International Journal of Inter- Matchmaking. In: Proceeding of 2005 Workshop
active Technology and Smart Education (2005) on Business Agents and the Semantic Web, Victoria,
[6] Sarno, R., Yang, L., Bhavsar, V.C., Boley, H.: The Canada (May 2005) 23–35
AgentMatcher Architecture Applied to Power Grid [12] Rahutomo, F., Sarno, R.: Semantic Search Wikipedia
Transactions. In: Proceeding of the First Interna- by Applying Agent Matcher Architecture. In: Pro-
tional Workshop on Knowledge Grid and Grid Intel- ceedings International Conference on Information
ligence, Halifax, Canada (2003) 92–99 and Communication Technology and System, De-
[7] Budianto, Sarno, R.: Shape Matching using Thin- partment of Informatics, ITS Surabaya (August
Plate Splines Incorporated to Extended Weighted- 2008) 646–653
tree Similarity Algorithm for Agent Matching in Vir-
[13] Yang, L., Sarker, B.K., Bhavsar, V.C., Boley, H.:
tual Market. In: Proceedings International Semi-
A Weighted-Tree Simplicity Algorithm for Similarity
nar on Information and Communication Technology.
Matching of Partial Product Descriptions. In: Pro-
(August 2005)
ceeding of ISCA 14th International Conference on
[8] Fabianto, E.: Ratio Extended Weighted Tree Sim- Intelligent and Adaptive Systems and Software En-
ilarity Algorithm Applied to Cost Estimate of Soft- gineering, Toronto (July 2005) 55–60
ware Development. Master’s thesis, Program Pasca
Sarjana, Fakultas Teknologi Informasi, ITS Surabaya [14] Tan, P.N., Steinbach, M., Kumar, V.: Introduction
(July 2005) to Data Mining. Addison Weasley-Pearson Interna-
tional Edition (2006)
[9] Solihin, F., Sarno, R.: Penerapan Arsitektur
Agent Matcher Menggunakan Algoritma Extended [15] Setyawan, S.H., Sarno, R.: Fuzzy Logics Incor-
Weighted Tree Similarity untuk Menyediakan Infor- porated to Extended Weighted-Tree Similarity Algo-
masi yang Optimal pada Handheld Device. In: Pro- rithm for Agent Matching in Virtual Market. In:
ceeding Seminar Nasional Pascasarjana VI, Surabaya Proceeding International Seminar on Information and
(August 2006) 38–43 Communication Technology. (August 2005)
46