Web Graf
Web Graf
Abstrak
Makalah ini membahas tentang studi world wide web sebagai sebuah graf berarah. Di sini, sebuah halaman
situs kita anggap sebagai simpul dan hyperlink adalah sisi yang menghubungkan simpul-simpul tersebut.
Graf semacam ini dikenal dengan istilah web graph.
Struktur dari web-graph sangat berguna untuk mengembangkan algoritma-algoritma pencarian web. Pada
makalah ini, dibahas dua jenis algoritma pencarian, yaitu: algoritma HITS dan algoritma trawling. Pada
proses pencarian web dengan memasukkan sebuah kata kunci/topik ke dalam search engine ditemukan
sebuah fenomena bahwa situs-situs hasil pencarian dapat dibagi dalam dua jenis, yaitu (1) authorities
(situs-situs yang isi/topiknya memang berkaitan dengan kata kunci), dan (2) hubs (situs-situs yang
mengenumerasi/mengumpulkan authorities). Algoritma HITS sangat berguna untuk mencari authorities,
sementara algoritma trawling dapat digunakan untuk mencari upagraf-upagraf terhubung dari web graph,
yang nantinya dapat digunakan untuk mencari hub dari sebuah komunitas maya (yaitu, terdiri dari
kumpulan situs-situs dengan topik yang serupa). Namun demikian, algoritma trawling memiliki banyak
kelemahan yang disebabkan oleh tak-terhingganya besar ruang pencarian di dalam world wide web.
Dalam makalah ini juga dibahas mengenai sifat-sifat struktural yang didapat melalui pengamatan dari
proses pencarian web dalam search engine. Selain itu, makalah ini juga membahas mengenai model dari
web graph.
Kata kunci: graf berarah, web graph, pencarian web, search engine, algoritma HITS, trawling, enumerasi,
graf lingkaran bipartit, random graph.
dan
x6 yp = ∑ xq
x7 q, p q
Gambar 1 Web Graph sebagai Graf Berarah
yang dalam hal ini nilai xp diperoleh dari jumlah
Studi mengenai web graph ini menjadi menarik seluruh nilai yq di mana q adalah situs-situs yang
karena beberapa hal berikut. Pertama, struktur menunjuk (mengandung hyperlink) ke situs p
dari web graph telah banyak digunakan untuk (notasi q p menunjukkan bahwa q menunjuk
meningkatkan kualitas pencarian web (misalnya ke p). Sementara nilai yp diperoleh dari jumlah
dalam search engine) dan juga digunakan untuk seluruh nilai xq. Dari operasi tersebut, dapat
menemukan algoritma topic-classification yang dilihat bahwa antara hubs dan authorities
lebih akurat. Kedua, banyak informasi menarik terdapat sebuah hubungan yang saling
lain yang dapat kita temukan dalam sebuah web memperkuat satu sama lain, yaitu: sebuah hub
graph, misalnya informasi mengenai ukuran dari yang bagus menunjuk ke banyak authorities
web graph itu sendiri (derajat sebuah situs, jarak yang juga bagus, sementara sebuah authority
antara dua situs, dan lain-lain) atau bahkan yang bagus ditunjuk oleh banyak hubs yang juga
informasi mengenai situs apa saja yang paling bagus.
diminati user saat ini.
Untuk melakukan update secara berkala dari
2. Algoritma nilai-nilai tersebut, terdapat cara yang lebih
Algoritma yang dibahas dalam makalah ini singkat dibanding dengan melakukan
adalah algoritma yang berhubungan dengan perhitungan ulang dari rumus yang telah dibahas
pencarian web. Berdasarkan pengamatan saat sebelumnya. Pertama-tama, nomori situs-situs
melakukan pencarian topik-topik tertentu dalam hasil pencarian dengan angka {1,2,...,n} dan
search engine, ditemukan bahwa untuk setiap tentukan matriks ketetanggaan A yang berukuran
topik yang dicari didapatkan dua jenis situs hasil n x n dari situs-situs tersebut. Lalu, himpun
pencarian, yaitu: seluruh nilai x dalam sebuah vektor x =
1. Authoritative pages (authorities) (x1,x2,...,xn) , lakukan hal yang serupa pada
Situs-situs yang memang memiliki seluruh nilai y. Selanjutnya, update nilai x dan y
topik serupa dengan topik yang sedang dapat dilakukan melalui operasi
kita cari.
2. Hub pages (hubs) x ATy ATAx = (ATA)x
Situs-situs yang berisi hyperlinks ke
authoritative pages. dan
Selanjutnya, hasil pengamatan tersebut
memotivasi pengembangan dua jenis algoritma y ATx ATAy = (AAT)y
yang akan dibahas kemudian. Pertama, algoritma
pencarian yang menyaring situs-situs yang Di bawah ini adalah gambaran keseluruhan dari
memang berkaitan dengan topik yang dicari algoritma HITS.
(authorities), dibahas dalam upabab 2.1. Kedua,
algoritma untuk mengenumerasi topik-topik dari
authorities untuk kemudian dikumpulkan dalam
sebuah hub, dibahas dalam upabab 2.2.
Rentang keterhubungan. Dari hasil percobaan, Pada bagian ini akan dibahas mengenai beberapa
dapat dilihat bahwa graf tidak-berarah Gu tidak graf model yang diharapkan dapat membantu
terhubung. Komponen-komponen dari himpunan pemahaman mengenai studi struktural pada web
akar R biasanya hanya mengandung sedikit graph. Terdapat beberapa alasan untuk
sekali sisi; dan sementara perbesaran dari memahami model-model tersebut:
himpunan akar R menjadi himpunan basis S 1. Memudahkan kita untuk memodelkan
dimaksudkan untuk menghubungan banyak berbagai struktur dari web graph.
simpul dalam himpunan tersebut, beberapa
2. Memudahkan kita untuk memprediksi DAFTAR PUSTAKA
perilaku-perilaku dari algoritma-
algoritma yang dipakai dalam web [1] Kleinberg, Jon M., Ravi Kumar, Prabhakar
graph. Raghavan, Sidhar Rajagopalan, & Andrew
3. Memudahkan kita untuk mempelajari S. Tomkins. (2007). The Web as A Graph:
sifat-sifat struktural pada word wide Measurements, Models, and Methods.
web, sehingga selanjutnya kita dapat http://www.cs.cornell.edu/home/kleinber/w
mengambil manfaat dari hal-hal eb-graph.ps. Tanggal akses: 1 Januari 2007
tersebut. pukul 16:00.
4. Memudahkan kita untuk memprediksi
bentuk dari web graph di masa yang [2] Yang, Rong. (2007). The Structure of The
akan datang. World Wide Web Graph.
http://delivery.acm.org/10.1145/1190000/1
4.1 Model Random Graph 181930/p169-yang.pdf. Tanggal akses: 1
Awalnya, web graph dianggap serupa dengan Januari 2007 pukul 16:00.
sebuah random graph. Model random graph ini
digunakan untuk menunjukkan bahwa selalu ada [3] Nomura, Saeko, Satoshi Oyama, Tetsuo
lintasan terpendek di antara sepasang situs. Hayamizu, & Toru Ishida. (2007). Analysis
Dalam memodelkan sebuah web graph, and Improvement of HITS Algorithm for
digunakan graf yang berbeda dari random graph Detecting Web Communities.
biasa. Penjelasan mengenai random graph biasa http://www.kyoto-u.ac.jp. Tanggal akses: 3
dapat dilihat pada [12], sementara penjelasan Januari 2007 pukul 10:00.
mengenai random graph yang digunakan untuk
memodelkan sebuah web graph dapat dilihat [4] Ding, Chris H.Q., Hongyuan Zha, Xiaofeng
pada [1]. He, Parry Husbands, & Horst D. Simon.
(2003). Link Analysis: Hubs and
5. Kesimpulan Authorities on The World Wide Web.
http://. Tanggal akses: 3 Januari 2007 pukul
Kesimpulan yang dapat dimbil dari studi world 10:00.
wide web sebagai sebuah graf berarah ini
adalah: [5] Guillaume, Jean-Loup & Matthieu Latapy.
1. World wide web dapat dipandang (2007). The Web Graph: an Overview.
sebagai sebuah graf berarah, di mana http://hipercom.inria.fr/soleil/rapports/guill
situs-situs adalah himpunan simpul dan aume02algotel.ps. Tanggal akses: 1 Januari
hyperlinks adalah sisi-sisi penghubung 2007 pukul 16:00.
simpul-simpul tersebut; disebut sebagai
web graph. [6] Leighton, Tom & Ronitt Rubinfeld. (2006).
2. Struktur web graph dapat digunakan Graph Theory III.
untuk mengembangkan algoritma- http://theory.lcs.mit.edu/classes/6.042/fall06
algoritma pencarian web, misalnya : /lec8.pdf. Tanggal akses: 1 Januari 2007
algoritma HITS dan algoritma trawling. pukul 16:00.
3. Kesulitan dalam pengembangan
algoritma-algoritma dalam web graph [7] Munir, Rinaldi. (2004). Bahan Kuliah
disebabkan oleh terlalu besarnya ruang IF2153 Matematika Diskrit. Departemen
pencarian web. Teknik Informatika, Institut Teknologi
4. Pemahaman mengenai struktur web Bandung.
graph memberikan banyak informasi
dan manfaat, misalnya dalam [8] S.R. Kumar, P.Raghavan, S. Rajagopalan,
pembuatan situs agregator yang & A. Tomkins. (1999). Trawling Emerging
mengumpulkan situs-situs dengan topik Cyber-Communities Automatically. Proc.
yang relevan/serupa, prediksi mengenai 8th WWW Conference.
situs-situs yang paling diminati oleh
user, dan sebagainya. [9] S. Chakrabarti, B. Dom, P. Indyk. (1998).
Enhanced Hypertext Classification Using
Hyperlinks. Proc. ACM SIGMOD.
[10] Kleinberg, J. (1999). Authoritative Sources
in A Hyperlinked Environment. Journal of
ACM.